高校學籍檔案單機可視化檢索實證

前言:尋找寫作靈感?中文期刊網用心挑選的高校學籍檔案單機可視化檢索實證,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。

高校學籍檔案單機可視化檢索實證

摘要:依托共享數據,對數字化學籍檔案重命名,構建以姓名為主要檢索標識的系統,借助everything檢索軟件,實現基于文件名的高效檢索。數字化檔案有序存放在指定文件夾,在可視化的情況下,文件夾同樣具備檢索功能。高校學籍檔案單機可視化檢索實證操作,簡單易學,軟硬件投入低,在涉及人名的檔案檢索中優勢明顯,因受限于文件名長度,與基于檔案內容本身的智能化檢索相比,有明顯的不足之處。

關鍵詞:學籍檔案;數據清洗;數據加工;可視化檢索

檔案網絡化智能檢索利用是檔案工作的終極發展方向,有朝一日,你想查看自己權限內的檔案,只要說一聲,檢索結果就瞬間呈現在你眼前。檔案作為核心的信息資源,很大一部分需要限制利用,在利用時需要做好用戶身份識別與權限控制。就目前的技術水平而言,做到檔案網絡化智能檢索利用并不難,但從投入產出比來看,很多檔案不值得這么做。與高端的網絡化智能檢索系統相比,如果以不到10萬元的軟硬件投入,做到只輸入一個學生的姓名(遇到同名情況時增加相關檢索條件)就瞬間看到該生的新生錄取名冊、學籍表、成績表、畢業資格審查表、學歷注冊照片、學籍變動、獎懲等所有與該生有關的檔案,那么,這種檢索模式就更切合大多數高校檔案利用工作的實際。依托共享數據,對共享數據進行清洗與加工,在此基礎上對數字化學籍檔案副本進行批量重命名,構建以學生姓名為主要檢索標識的系統,借助everything免費檢索軟件,可輕松實現高校學籍檔案單機可視化檢索。

1高校學籍檔案可視化檢索的數據準備

檔案利用最大的困難就是如何解決高效檢索問題。學籍檔案快速準確檢索依賴學生學號、姓名、專業、班級等大量數據,如果全部需要手工錄入,不僅工作量大,而且很難保證準確性,為保證數據準確性而進行的審核工作量甚至比錄入工作量更大。高校招生部門、教務部門有大量的準確數據,依托這些共享數據構建學籍檔案可視化檢索系統,可以起到事半功倍的效果。

1.1共享電子數據的采集及補救措施。新生錄取名冊電子數據來自招生部門,可按省份、類別、專業、總分排序,經過一定的處理,可基本實現數據共享;學號、姓名、曾用名、班級、專業等數據來自教務系統,可完全實現數據共享。如果上述學生數據不能收集齊全,作為補救措施,可借用學歷電子注冊數據,1991年以后的畢業生都進行了學歷電子注冊,可從教務部門獲取,1991年之前的學生數據,可從檔案管理系統的卷內目錄或校友通訊錄等數據源獲取,當然這些數據不能直接利用,需要做進一步的清洗與深加工。

1.2自動審核人工錄入數據。人工錄入數據不難,難就難在如何快速準確錄入數據,數據不準確的后果往往是災難性的,會導致整個檢索體系的崩潰。高校有勤工助學的學生,發動人海戰術,人工重新錄入學生姓名、專業等數據時,為保證準確性,一般需采用雙人雙機錄入,校驗合格后使用,這種做法工作量成倍增加,效率低下。為提高錄入效率,也可多人多機分別錄入不同數據,利用共享數據進行自動審核,確保錄入數據的準確性,具體做法是利用電子表格的vlookup函數。以新生錄取名冊錄入為例,可新建電子表格,將共享數據拷貝到sheet1表中,調整單元格數據順序,A列必須為姓名,D列為專業(也可為其他需要審核的內容),在sheet2表中A1、B1、C1、D1四個單元格分別錄入頁碼、姓名、專業、待審核四個字段名,在D2單元格錄入“=VLOOKUP(B2,'sheet1'!A:D,4,0)”(具體操作時不要錄入全角雙引號,下同),在sheet1表格A列中精確查找姓名與sheet2表格中B2姓名相同的學生,并將其相應D列內容鏈接到sheet2表格中D2單元格,此時sheet2表格中D2單元格顯示“*N/A”,鼠標左鍵單擊D2單元格,光標移至D2單元格右下角出現“+”時壓住鼠標左鍵向下拖動,想錄入多少人就拖多少行。當在sheet2表格中B列錄入學生姓名時,D列相應單元格會出現該生的專業,如果還是顯示“*N/A”,則表示錄入可能出錯,如果經核實錄入無誤,則表明共享數據不全,在sheet2表格中C列相應單元格錄入該生專業,以備進一步人工審核;如果出現的專業與該生不同,則可能共享數據有誤或存在同名學生情況,在sheet2表格中C列錄入該生專業,以備進一步人工審核。利用共享數據自動審核,既可保證數據準確性,又可成倍提高錄入工作效率。sheet2表格中A列錄入紙質檔案實際頁碼,與紙質檔案一一對應,待進一步對數據進行加工處理。

2對數字化學籍檔案副本重命名,實現按姓名可視化檢索

學籍檔案的檢索以學生姓名為顯著特征,由于存在同名情況,因此,僅僅靠姓名,雖然可以做到查全率100%,但必須輔以其他檢索條件,借助可視化操作,才可快速準確定位所需檔案。對數字化學籍檔案副本重命名,既要確定命名規則,又要具備簡單的軟件應用知識。

2.1數字化學籍檔案副本命名規則。文書檔案數字化副本命名規則,常用的是文件級檔號-件內頁面流水號,或文件級檔號-稿本代號-稿本內頁面流水號,這種命名方式雖然利于檔案數字化副本批量掛接到數據庫,但必須借助目錄查找檔案,并沒有實質性提高數字化檔案的檢索效率。高校學籍檔案數字化副本如果參照此規則命名,檢索效率同樣不高。為便于快速準確查找學籍檔案,充分發揮數字化檔案檢索利用優勢,需針對高校學籍檔案實際,確定數字化學籍檔案副本命名規則,并與檔案實體一一對應(如果僅僅從利用的角度來看,數字化檔案副本無需與實體檔案一一對應,命名會更簡單,檢索效率會更高,此問題有待進一步探討)。文件名稱構成主要為“檔號-姓名”,為避免同名造成的誤檢,可根據實際情況增加文件名稱構成項目,比如學籍表、成績表文件名構成為“檔號-姓名-專業-入學年度”(檔號可反映畢業年度);新生錄取名冊為“檔號-姓名-專業-報考省份”(檔號可反映入學年度);畢業資格審查表為“檔號-姓名-專業”(檔號可反映畢業年度);學籍變更材料、獎懲材料為“檔號-文號-文件名-姓名”。為提高查準率,二字姓名后統一添加“-”,多個姓名之間用“-”連接;各校還可以根據共享數據及檔案記載情況,增加文件名構成項目,比如本校成績單記載有畢(結)業證書、學位證書號碼,可利用畢業資格審查表電子數據對掃描版成績單進行重命名,實現按證書號碼精確檢索。

2.2數字化學籍檔案副本的后期處理。大多數高校都實現了館藏紙質檔案數字化,由于手寫檔案不能進行OCR識別,部分打印版效果太差,OCR識別率太低,難以實現基于檔案內容的高效檢索。掃描件的查找難度比紙質檔案更大,需進行進一步的加工處理。

2.2.1利用AdobeAcrobatXPro軟件或WPS付費軟件的拆分文檔功能,將成冊掃描的新生錄取名冊、畢業資格審查表按頁拆分為多個文檔,有多少頁拆分成多少個文檔(高速掃描一般都是成冊掃描成一個文檔,如果是單頁掃描成一個文檔,則省略此步),同一頁的所有學生對應一個文檔,由于文件名長度不能超過255個字符,當一個文檔的學生人數太多時,為保證能檢索到所有學生,可多拷貝幾份,分別命名,形成內容完全相同但文件名不同的多個文檔(這種情況并不多見,僅是例外情況下的變通措施);學籍表、成績表拆分之前要進行相應處理,保證學生與學籍表(或成績表)是一一對應關系;學籍變更材料、獎懲材料可根據原文件實際情況確定是一對一關系還是多對一關系。

2.2.2靈活運用Excel或WPS以及方方格子插件等軟件對電子數據進行清洗與深加工。共享電子數據要做相應清洗,比如以前有些生僻字打不出時經常會用“*”或“?”代替,由于文件名不能包含“\/:*?<>|”等字符,重命名前要清除這些字符,可以用查找替換的方式進行清洗,查找“*”“?”需要在查詢欄分別輸入“~*”和“~?”,替換欄輸入正確的數據(以前打不出的生僻字,現在基本上能打出,可通過搜索引擎查找復制粘貼,比如煇字,可搜索一個火字加一個軍)。由于批處理文件中不能出現多余的空格、軟回車等,這些也需在WPS或EXCEL中進行清洗。為提高檢索效率,電子數據要進行進一步加工,在清除空格后,二字姓名后可批量添加“-”,假設A列為原姓名數據,B列為處理后的新姓名數據,在B1單元中錄入“=if(len(A1)=2,A1&"-",A1)”,左鍵單擊選定B1單元格,雙擊B1單元格右下角“+”(或壓住“+”向下拖到結尾),可在二字姓名后批量添加“-”,復制B列數據,選擇性粘貼(選數值)到A列,刪除B列,完成二字姓名數據加工處理。方方格子插件目前有Excel版和WPS版(試用版),可實現電子表格數據行列轉換,也可實現一行多列、一列多行數據合并,可減輕數據加工處理的工作量,上文sheet2表格中A列數據中相同頁碼的B列多行姓名可輕松合并到一個單元格中,重命名數字化文件后,可實現新生錄取名冊、畢業資格審查表多對一檢索。

2.2.3文件批量重命名的具體操作。最基本的重命名語句為“ren源文件名目標文件名”(中間兩處空格不能省略),假設電子表格中ABCDE列分別為源文件名、檔號、姓名、專業、入學年度等信息,包含有整個年度所有學生的學籍表信息,源文件為pdf版式文件,在F1單元格中輸入命令“="ren"&A1&""&B1&"-"&C1&"-"&D1&"-"&E1&".pdf"”(命令中兩處空格不能省略),可生成一條重命名語句,單擊選定F1單元格,雙擊F1單元格右下角的黑+,可生成整個年度的學籍表批量更名數據;將電子表格中處理好的批量重命名語句拷貝到新建的文本文件(重命名.txt),再另存為批處理文件(重命名.bat)。將重命名批處理文件拷貝到源文件相同的目錄下,運行批處理文件(特別提醒:重命名前做好備份),可實現文件批量更名,更名后所有文件名中都含有檔號、姓名、專業、入學年度等檢索項。

3學籍檔案單機可視化檢索利用的實踐

3.1everything檢索軟件及其應用??稍?60軟件管家下載免費使用,是一款基于名稱實時定位文件和目錄的文件搜索工具,該軟件大小不足2MB,界面簡潔易用,檢索速度極快,占用系統資源極低,實時跟蹤文件變化。在搜索框輸入檢索內容,會實時顯示過濾后的文件和目錄,檢索結果可進行復制、瀏覽、修改和刪除等操作,可輕松實現模糊檢索與精確檢索。比如聽說張某某的弟弟1986年考入本校養殖專業,現想知道張某某的弟弟是誰,在檢索欄輸入“張養86”(中間空格不能省略,本校養殖專業有海養、淡養、養專等不同專業,僅輸入一個養字,是為了在模糊查找時擴大檢索范圍,提高查全率),檢索結果會顯示本校1986年入學的養殖專業所有張姓學生,分別查看學籍表,通過社會關系記載,如果找到張某某就可以基本確定其弟弟是誰,如果學籍表中沒有張某某的記載,則基本確定張某某的弟弟不是本校養殖專業1986級學生。當單次檢索呈現的結果較多時,可繼續增加檢索條件,以縮小檢索結果,比如,想查找“張文”的成績表,在檢索欄輸入“張文”,呈現的結果較多,繼續在檢索欄輸入“-”(緊跟在文字后面,不要空格),則只出現張文的學籍檔案,如果還存在同名的情況,則可增加更多的檢索條件(不同檢索條件之間用空格隔開)或通過查看路徑找到所需的結果。本校成績單文件名已包含畢業證書、學位證書號碼,輸入證件號可精確查找到所需要的成績單,電話核查學歷證書真偽時,只需錄入證件號碼,即可實時告知查詢結果。

3.2數字化學籍檔案副本的有序化存放。everything搜索只基于文件和文件夾的名稱,上文已給出了文件批量重命名的實證操作,在可視化的情況下,文件夾同樣具備檢索功能,數字化文件有序存放,會極大提高檢索效率。以廣東海洋大學數字化學籍檔案副本為例,按不同全宗建有新生錄取名冊、學籍表、成績表、畢業資格審查表、數字化文件等分目錄,分目錄下再根據實際情況設立類別、年度等子目錄(比如,廣東海洋大學2018屆博士畢業生成績存放在“D:\廣海大\成績\博士生\2018”目錄下),數字化檔案存放在相應的目錄下,檢索時就能可視化快速定位。everything軟件檢索結果會顯示名稱、路徑、大小、修改時間等內容,路徑就是數字化文件存放的位置,數字化文件存放有序,就可以充分發揮可視化檢索優勢,直接定位所需要檔案。比如本校有8名畢業生叫“張文”,涉及兩個檔案全宗,有全日制研究生、本科生、專科生,也有成人教育學生,可根據路徑快捷定位所需的檔案。

3.3數據安全與隱私保護問題。解決數據安全問題,最關鍵的不是技術而是管理,在投入有限、不能確保網絡信息安全的情況下,數字化學籍檔案副本只能實行單機不聯網檢索。由于everything是免費軟件,并且功能過于強大,電腦上所有文件名信息都會實時自動提取整合為一個數據文件,聯網使用可能會有安全隱患,不建議在聯網的電腦上使用。數字化學籍檔案包含學生的身份信息、高考成績、社會關系、求學經歷、家庭住址、學業成績、學籍異動等個人隱私,從信息安全的角度,不宜保存在聯網的電腦上。及時備份數據是保證數據安全的重要措施,推薦使用BCompare軟件,主要功能有:文件夾比較、文本比較、MP3比較、版本比較、十六進制比較、數據比較、圖片比較、注冊表比較、文件夾同步、文本合并等。通過文件夾比較,可保證電腦數據與備份數據的一致性;文件夾同步可極大減少數據備份工作量;通過文本比較,可確保文本內容未被非法修改。為更好地保護個人隱私,在提供數字化檔案利用時,推薦使用Photoshop軟件。對于新生錄取名冊、畢業資格審查表中涉及的其他學生信息,提供利用前,復制一份文檔,用PS的色階功能將其他學生的信息涂白,僅打印與利用者有關的信息。所有檢索利用結果都保存備查,建好利用工作臺賬。

作者:孫學政 單位:廣東海洋大學檔案館

亚洲精品一二三区-久久