前言:尋找寫作靈感?中文期刊網用心挑選的高校中文圖書編目數據質量控制探討,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。
摘要:先探討編目數據質量的評價標準,再從實際工作中總結出編目數據常見的質量問題,最后探討大數據環境下如何利用大數據技術來及時發現和糾正這些問題。
關鍵詞:大數據環境;中文圖書;編目數據;質量控制
1編目數據質量
1.1編目數據
編目數據是指編目工作人員先依據《中國圖書館分類法》等,并結合對圖書內容的分析,賦予每種圖書一個分類號,然后按照CNMARC格式,將圖書書名、分類號、作者等信息輸入相應的書目數據庫中而形成的結構化數據。編目數據主要有編目工作人員自編數據和套錄數據,其中套錄數據主要來源有:國家圖書館編目數據、CALIS編目數據、圖書出版機構提供的編目數據等。
1.2編目數據質量
編目數據的質量與圖書館讀者服務的質量和水平存在著密切的關系。編目數據質量通??梢詮臏蚀_性、規范性、一致性、有效性、相容性等幾個方面衡量。準確性:編目員在著錄數據時要準確無誤地描述出圖書的各項信息,如果錄入數據時出現錯誤,尤其是關鍵信息出現錯誤,這樣的編目數據遲早會影響讀者對圖書的檢索操作和利用,也會影響圖書館相關的業務工作。規范性:編目數據的規范性是指編目數據的錄入必須符合CNMARC的相關要求,相關的內容要錄入到對應的字段中。一致性:數據一致性是指在CNMARC格式下同一種中文圖書的編目數據必須是一致的,避免不必要的數據重復。有效性:這里指編目數據的正確性和合理性。相容性:整個圖書館編目系統中的數據應彼此協調,且與其他的數據集沒有任何沖突。
2編目數據常見的質量問題
2.1著錄標準不夠統一
在編目工作的實踐中,因各館所用軟件系統不同,對編目要求不同,以及每位編目員對編目規則理解程度的深淺,業務水平的高低,對工作質量的追求不同等因素,導致普遍存在著錄標準不統一的現象,主要表現有:第一,對多卷書的處理不同。多卷書有的是采用集中著錄,用叢書題名作為正題名,在327字段,對每個分冊作了分卷附注,整套書作了一條記錄,有的是采用分散著錄,對分卷逐冊著錄,作了多條記錄,而在進行分散著錄時對題名的處理也有不同,有的是把分冊名作為了正題名,而把叢書的正題名放到了225叢書項字段,作了叢編題名,有的是把叢書題名作為正題名,把分卷的題名作為分冊名,二者都做在了200字段;第二,著錄的詳簡程度不一。例如,第一責任者達三個或三個以上時,有的在200字段$f子字段將所有責任者全部著錄,在7--字段中也會著錄出所有的責任者,有的則在200字段只著錄第一個責任者,其余的用“等”表示,然后在304字段題名與責任說明附注中予以說明,在7--字段中只做第一個責任者。對其他責任者的著錄,也存在類似情況;第三,對副題名、并列題名、封面題名,書脊題名等是否作檢索點不統一。有的根據情況,在相應的5--字段作了著錄,給了檢索點,有的則沒著錄;第四,屬于交叉學科的圖書,可以給出兩到三個分類號,有的在690字段中只給出一個或者兩個分類號,而且將哪一個作為首選,也會因編目員對文獻內容的理解不同而產生取號不一致的情況;第五,因為學科發展,學科間的整合與分類發生變化,導致同一種書以前取的分類號和現在給出的分類號不一樣,有的編目員選擇與館藏的大多數或者與原來的數據保持一致,有的編目員會按照新的分類標準取號。
2.2著錄內容不規范
隨著網絡技術在圖書館的運用與發展,圖書館在不同時期對文獻的著錄標準要求也逐步提高,不同時期館藏數據著錄的級次存在著明顯的差異。回溯建庫時的編目數據(如表1所示),會發現二十世紀九十年代初期一般使用簡易編目,著錄級次要求不高,除了必備的字段,225,330,410,702等字段都少有著錄,在605,606字段,對作為主要檢索點的主題詞和關鍵詞的標引,有的進行較深的標引,有的完全沒有進行標引,編目數據給人粗淺的整體印象。隨著文獻編目規則的完善以及各館對編目工作的重視及對編目質量要求的提高,各館現時期的編目工作,一般著錄的級次較高,著錄詳盡細致,對文獻信息作了很好地揭示,方便了讀者對文獻的檢索和利用。
2.3著錄信息不準確
編目員完成手頭的編目任務后,通常會通過互相審核數據以確保編目的質量,在審核中往往會發現一些具有共性的問題,例如同書異號,錄入時存在錯字漏字加字,分類和主題標引不對應,字段和子字段使用錯誤,以及數據不完善,需要補充字段說明等問題。這些問題有的是由于使用的系統軟件的局限性造成,有的則有賴于編目員業務水平的提高以及工作專注度的加強。
3大數據環境下中文編目數據質量控制的探討
3.1大數據技術
大數據具有4V特征,即數據規模大、數據流轉快、數據類型多和價值密度低。在《大數據時代》一書中,維克托認為,大數據的核心就是預測,這個核心代表著分析信息時的三個轉變,即全部而非抽樣,混雜而非精確,相關而非因果。隨著機器學習、數據挖掘、可視化分析等大數據技術的成熟,其逐步應用于其他行業,并推動其他行業的進步。
3.2改善已有編目數據的質量問題
已有編目數據質量存在著不規范、不準確、重復記錄等問題,人工發現并更正這些問題工作量很大,可以利用大數據技術來改善這種情況。在現有編目數據中,利用大數據技術,按書名或分類號聚類,并利用推送技術將同書異號、異書同號的數據推送給相關的圖書編目人員,同時在編目大數據中選擇一個國家圖書館、中國科學院文獻信息中心等權威機構給出的編目數據,或大多數其它編目人員給出的編目數據推薦給圖書編目人員供其參考。
3.3控制未編目數據的質量
(1)可在《中國圖書館分類法》上查分類號的未編目數據的質量控制。在《中國圖書館分類法》上能查分類號的圖書,可以利用大數據技術發現圖書編目的權威機構賦予這類圖書的分類號,并以“信息提示”的方式推送給編目人員,這樣可以節省編目人員查找分類號的時間,提高工作效率,比如當編目工作人員在書名框中輸入《圖書館閱讀推廣研究》時,則計算機會利用大數據技術在分類號框中出現“G252”的信息提示,當在著者框輸入王余光時,則計算機會利用大數據技術在著者碼框中出現“W441”的信息提示。(2)不能在《中國圖書館分類法》上查分類號的未編目數據的質量控制??茖W技術的發展促進了一些交叉學科,新興學科的產生,而《中國圖書館分類法》一般10年左右改版1次,這樣可能導致在《中國圖書館分類法》中找不到與這些新學科有關的圖書資料的分類號。在這種情況下,可以利用機器學習等大數據技術,讓計算機通過已有分類數據的學習,掌握圖書分類的規律,從而給不能在《中國圖書館分類法》上查到分類號的圖書資料賦予對應的分類號,這樣可以避免因不同編目人員對這些圖書資料的理解不同出現多種不同分類號的情況。
參考文獻
[1]孫紅艷.圖書編目數據的來源及應用[J].長春大學學報,2006,(11):141-143.
[2]趙英智.中文圖書編目數據質量分析與控制淺議[J].科技情報開發與經濟,2006,(17):70-71.
[3]羅金姍.圖書館中文圖書編目數據質量優化之我見[J].辦公室業務,2011,(12):37+43.
作者:司新霞 單位:三峽大學圖書館