高校學籍管理數據碰撞探討

前言:尋找寫作靈感?中文期刊網用心挑選的高校學籍管理數據碰撞探討,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。

高校學籍管理數據碰撞探討

摘要:

文章針對沒有大型專業化、智能化學籍信息管理軟件或系統,而使用手工處理大量學籍信息的難題,提出了基于Excel的數據碰撞解決方案。該方案以數據隊列中具有唯一性的共有項為基礎,利用運算法和法進行人工聚類,碰撞檢索出目標數據,從而完成數據核對或合并。

關鍵詞:

數據碰撞;學籍管理;信息;運算法;法

在計算機網絡和軟件技術日新月異的大數據時代,高校學生信息管理體系逐步完善,學生信息管理軟件日趨數字化、多維化、智能化,為學生信息的完整性、準確性提供了強有力的保障。數據碰撞原理也被廣泛應用于數據、數據核對、刑事案件偵查、考試資格校驗等大型軟件的開發應用中。目前,我國很多高校學生信息管理系統(特別是非全日制學生信息管理系統)還沒有實現與戶籍信息的互聯互通、自動核對、動態信息智能化合并功能,大量信息核對和數據合并都需要在線下手工完成。因此,研究數據碰撞方法,對提高高校學生信息管理效率和準確性具有現實意義。

一、基本概念解讀

(一)數據碰撞的定義

數據碰撞是指運用現代計算機技術,基于聚類算法,從多個目標數據隊列中碰撞檢索出具有共同特征項或與自定義字段相符數據的方法。其原理是將改進的CURE聚類算法對訓練集進行聚類,然后對簇進行標識,最后使用基于矩形的建模算法建立相關性模型,將待檢測數據與該模型進行碰撞比對,并將CURE聚類算法放到Impala中運行[1]。

(二)學籍信息內容

學生學籍信息是記錄其在校學習期間成長成才、畢業審核的重要檔案,也是他們走向工作崗位后不可或缺的人事檔案組成部分。它可分為靜態信息和動態信息兩個方面,靜態信息主要是指學生的基本信息,如姓名、性別、民族、身份證號、學號、專業、班號、家庭成員;動態信息主要指大學生在大學期間形成的其他信息,如:政治面貌、獎學金、資助、生源地貸款、評先評優、紀律處分等信息[2]。

(三)學籍信息管理內涵

學籍信息管理是指根據有關規定對學生的入學資格、在校學習情況及畢業資格進行考核、記載、控制和處理的活動[3]。學籍管理主要包括學籍的取得和注冊管理、課程考核和成績記載管理、轉專業和轉學管理、紀律與考勤、學籍異動管理和學歷與學位證書管理等[4],學生信息管理在經歷了人工管理、內部信息化管理以及網絡信息化管理三個發展階段[5]后逐步走向智能化、動態化,進一步保證學生信息的準確性和完整性。學籍管理的主體稱之為學籍管理相關者,主要由校級學籍管理部門、招生就業部門、教務考務部門、畢業審核部門、院系學籍負責人、班主任及輔導員等組成。

二、數據碰撞應用方法分析

數據碰撞在高校線下學籍信息管理中的應用是指在不依靠專業數據或合并軟件/系統的情況下,將具有唯一性共有項的多組數據按該共有項進行人工聚類,再篩選出目標數據。人工聚類的方法主要有運算法和法兩種。

(一)運算法

該方法只適用于多組數據表現實體一樣的純數字項核對。如高校每年高考錄取的學生數據庫與被錄取后報到注冊數據庫加上被錄取但沒有報到注冊學生數據就屬于表現實體一樣的數據庫,若學校以錄取數據庫為參照數據核對報到注冊學生身份證號是否一致,則可用運算法進行核對。具體方法為:將被錄取但沒有來報到的學生信息復制到注冊報到學生信息后面,保證兩組數據表現實體一致,以身份證號或考生號為具有唯一性的共有項,將其排序,使之一一對應后將兩組數據中的身份證號等純數字項分別進行對應相減或相除,用減法運算時,結果為0則一致,非0則不一致;用除法運算時,結果為1則一致,非1則不一致。將多組數據按照具有唯一性的共有項進行排序,使共有的核對項一一對應,是運算法數據碰撞的基礎。排序規則分為升序和降序,排序的方法通常有按數字大小、字符長度、字母順序、姓氏筆畫等幾種。在運算法的應用中,排序需保證兩個條件:一是多組數據唯一性共有項排列規則和排列方法要一致;二是要保證每條數據整體同步移動不散亂。如用EXCEL軟件操作則需選中整組數據區,參照項和對比項按具有唯一性的共有項數據排序后再復制在一個表格中進行對應,若DBF格式在轉換成EXCEL的過程中出現數據丟失或格式不兼容時,可用VFP進行處理[6]。

(二)法

法是利用查找重復的公式,把多個目標數據隊列中具有唯一性的共有項的數據批量篩選出來的方法。法只適用于具有唯一性共有項數據隊列的比對和篩選。如把高考投檔數據和被錄取學生報到注冊數據合并在一起,利用公式對具有唯一性的共有項數據進行,標記為“重復”的學生為被錄取且已經報到注冊的學生,沒有被標記的學生或為沒有被錄取、或為被錄取沒有報到注冊、或為沒有通過高考投檔被錄取并注冊(如自主招生錄取)。的函數比較多,可以根據需要編寫??梢杂?ldquo;=IF(COUNTIF(A:A,A1)>1,"重復","")”函數進行運算(此時查找對象都復制在A列,可以不一一對應)。用函數“=SUBSTITUTE($A1,B1,)”進行,如賦值為空白則說明數據是一致的,非空白則說明不一致。學生學籍信息特別是動態信息會隨著學生的成長而變化,這些信息大都只能靠線下手工合并或核對整理后再統一錄入/導入學籍管理系統,項目繁多,工作量大,熟練掌握數據碰撞方法則可大大提高線下工作效率和質量。高校學籍管理中純數字數據主要有學號、班號、專業代碼、成績等,文本格式數據主要有身份證號等,文字格式數據主要有姓名、性別、民族、政治面貌、專業名稱、家庭成員等。將運算法和法整合交叉使用,可處理純數字、文本、文字等格式的信息核對及合并。

三、數據碰撞應用步驟

(一)確定參照項

數據核對也稱數據比對,有參照項和核對項,參照項和核對項可以根據工作需要相互轉換。一般情況下會選擇比較可靠的一組數據作為參照項,另外一項作為核對項或者選擇條數較多的數據項作為參照項,而較少的作為核對項。在高校學生信息核對中一般選擇從教務系統導出的數據作為參照項,而將其他基層學籍信息管理相關者報來匯總的數據作為核對項。

(二)尋找唯一性共有項

唯一性共有項數據包含兩層意思:一是此項數據在組內是不重復的;二是此項數據為需要對比的多數據所共有,如身份證、學號等都有此特征。唯一性共有項數據是將多組數據進行排序或的基礎,如將姓名、性別、民族等非唯一性數據進行排列就會導致組內重復。

(三)確定碰撞方法

若多組數據表現的實體一樣,且核對項為純數字,則可以采用運算法;若數據表現實體不一,數據隊列中數據條數不一、數據格式多樣等,可采用法。

(四)檢查并修正錯誤

數據核對的目的是要找出錯誤并修正,使得參照組和對照組與實際信息三方一致。數據碰撞應用的最后一個步驟就是根據運算的賦值情況或的結果確認核對項與參照項是否一致,如不一致則需拿學生證件及相關文件進行核對并修正,確保三方信息一致。

四、數據碰撞應用實踐

在國家的統一招生考試中,學生的網絡報考數據與錄取后到校報到注冊數據不一致,系統漏洞也會導致自動生成出生日期等數據與真實數據存在差異,學籍動態管理同樣會因新產生評獎評優等信息導致學籍管理相關者每年會有大量信息核對、合并,熟練掌握數據碰撞方法,可以取到事半功倍的效果。

(一)入學注冊信息核對———基于EXCEL法

一是確定參照項。將國家高等教育統一招生入學考試投檔錄取數據作為參照項,報到入學注冊數據中身份證號作為需核對項。二是尋找唯一性共有項。在這兩組數據隊列中找到具有唯一性的共有項———身份證號碼,并將格式統一,一般統一為文本格式。三是合并數據并標記。將兩組數據隊列進行合并,使身份證號在同一列,且標記注冊數據為紅色。四是插入空白列。在身份證號這一列后插入空白列。五是插入公式。在此空白列第一個單元格中插入函數“=IF(COUNTIF(A:A,A1)>1,"重復","")”,并向下填充格式。六是檢查結果。利用EXCEL自動篩選功能查看結果,標記為“重復”的說明兩組數據中身份證號碼一致,沒有標記的需逐個核實修正。姓名、性別、民族這些信息不具備唯一性,組內可能已經重復,不能用此方法核對,需將運算法和法交叉使用。

(二)系統有漏洞時自動生成項核對———基于EXCEL運算法

由于系統漏洞或被黑客攻擊,會導致從教務管理系統導出的學生信息中系統自動生成的出生日期和身份證上出生日期不一致,此時可采用運算法進行批量核對。具體步驟為:第一,選擇參照項。在參照項一行數據的最后位置將核對項身份證號整列復制過來,用EXCEL數據固定長度分列功能將正確的出生日期從身份證號中分列出來作為參照項,刪除分列產生的出生日期外的多余數據。第二,選擇唯一性共有項。身份證號具備唯一性,整列復制后的身份證號碼就是共有項。第三,按唯一性共有項數據排列規則順序。由于身份證號是從核對項中整列復制過來的,故順序已經一一對應,不用排序。第四,將核對項進行減法運算。身份證號分列出來的出生日期屬于純數字,故可用減法或除法,此處選擇減法。在身份證號分列出來的出生日期后面一列雙擊進入單元格,然后輸入“=”后選中學籍系統生成的出生日期項,鍵入減號后再選中身份證分列生成的出生日期項,按回車鍵并向下填充公式。第五,檢查結果。值為0的表示出生日期正確,非0的表示不正確。

五、結語

隨著學籍檔案信息化進程的快速推進,學籍信息分類越來越細,需要處理的數據量也越來越大。在不依靠大型專業化數據處理軟件的情況下,數據碰撞在高校學籍線下管理中的應用顯得方便快捷。2015年秋季,貴州廣播電視大學成人開放教育學院注冊新生2000余人。由于系統漏洞,教務管理平臺中自動生成的出生日期有少數比真實出生日期晚一天,運用數據碰撞中的運算法,僅用幾分鐘就把120多名出生日期錯誤的學生從2000多名新生數據庫中全部篩選出來;運用數據碰撞中的法,快速完成了300多名2015年成人高考上線學生身份證號的核對。數據碰撞方法實用快捷,但若存在數據無共有項、共有項數據無唯一性、數據格式難統一、有多余空格等問題時,用數據碰撞來解決高校學籍管理問題比較麻煩,需使用專用軟件或手工配合處理。

作者:蔣澤剛 單位:貴州廣播電視大學

參考文獻

[1]王艷,潘晨光.基于HDFS和IMPALA的碰撞比對分析[J].電視技術,2015(14).

[2]梁小曉,韋崇崗.基于Web的高校學生信息管理系統的設計與實現[J].四川理工學院學報(自然科學版),2010(6).

[3]丁曉麗.新形勢下高校學籍管理存在的問題及對策[J].揚州大學學報(高教研究版),2008(6).

[4]中華人民共和國教育部令第21號.普通高等學校學生管理規定[EB/OL].[2006-01-17].

[5]余海峰.高校學籍管理實踐與探索[J].改革與開放,2009(6).

[6]張穎卓.計算機信息處理技術在高校新生學籍注冊中的應用[J].民營科技,2014(12)

亚洲精品一二三区-久久