國外專利全文圖像數據質量管理思考

前言:尋找寫作靈感?中文期刊網用心挑選的國外專利全文圖像數據質量管理思考,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。

國外專利全文圖像數據質量管理思考

摘要:專利數據質量管理是專利信息服務的首要問題。本文根據國外專利全文圖像專利數據的特點,從數據質量評價和質量改進兩方面探討專利全文圖像數據的質量管理,給出質量維度評估方法,并基于該質量評價提出了質量改進策略。

關鍵詞:全文圖像;專利數據;質量評價;質量改進

0引言

為了專利文獻信息資源的建設與傳播,有效提高專利信息服務工作水平,滿足公眾對專利文獻的需求,除了提供專利文摘數據和全文數據,高質量的專利圖像數據更是必不可少[1]。通過不同途徑收錄的專利圖像數據缺乏高效、規范的質量管理,影響圖像數據資源的有效利用。對數據生命周期的每個階段里可能引發的各類數據質量問題,進行識別、度量、改進等一系列數據質量管理,其目的在于保障數據的質量。專利全文圖像數據質量管理主要包括數據質量評價和數據質量改進兩個方面。通過定期執行質量評價,促進數據質量的持續改進。

1國外專利全文圖像數據的特點

來源于不同的國家、地區或組織的專利全文圖像數據格式豐富,數據組織形式各異,數據內容不一,且很多沒有提供文獻基本信息或文獻內容標注信息,需要通過標準化數據加工對數據進行統一規范。另外,國外專利全文圖像數據時間跨度長,獲取周期不穩定,其數據源的不斷擴展,數據總量的不斷增加,可能帶來數據重復和數據缺失等質量問題,因此,周期持續地數據質量評價和改進是非常必要的。

2數據質量的評價方法

數據質量評價的功能在于基于評價方法,對數據有全面的了解和認知,基于評價結果,發現潛藏的數據質量問題,依據國外專利全文圖像數據的特點,專利全文圖像數據的質量評價遵守獨立性原則、可操作性原則、定性與定量相結合原則,主要從數據的準確性、完整性、唯一性三個維度及主觀客觀兩個角度展開。

(1)三個維度

數據的質量是一個復雜的、多維度的概念。專利全文圖像數據質量的評價指標,依據自身特點和質量評價原則劃分為三個維度,分別是:準確性、完整性、唯一性。

①準確性

數據的規范性和差錯率的結合。數據規范性的評價基準為經標準化加工的全文圖像數據是否符合《專利文獻數據規范》[2],滿足用戶對標準化專利全文圖像數據的要求。數據規范性主要涵蓋文件格式規范、標注內容規范和文獻信息規范等內容;差錯率是指文獻信息或標簽信息與圖像數據不一致的比率。數據的差錯率可從定量角度評估,量化為某國家指定時間范圍內差錯數據的量與數據總量的比值。

②完整性

完整性可定義為全文圖像數據產品庫收錄的某一國家、地區或組織的專利全文圖像數據與該國家、地區或組織的權威文檔或者官方公布專利文獻數據比對的一致性。數據完整性通常用數據完整度來衡量。為全文圖像數據庫收錄的某一國家、地區或組織的專利全文圖像數據與其權威文檔或者官方公布專利文獻數據一一對應的量和其權威文獻或官方公布量的比值。

③唯一性

數據唯一性是指全文圖像數據產品庫不得含有重復數據,專利文獻信息與全文圖像一一對應。評估方法為按時間范圍抽取一定比例數據,統計庫中的記錄文獻信息的數據量和圖像實體的量,其比值可表現唯一性。

(2)兩個角度

①主觀角度

主觀角度是基于定性的概念,主觀角度的數據質量評價主要是從專利全文圖像數據的收集者、管理者和使用者的視角來考查數據的質量問題[3],通過數據的收集者、管理者對全文圖像數據的直接處理,以及設立用戶溝通和交流機制,定期收集用戶對數據準確性、唯一性及完整性的反饋,綜合表現為滿意度評價。

②客觀角度

基于客觀角度的評價主要方法如下:選取全文圖像數據產品某國家、地區或組織某時間范圍對應的數據集,給不同維度賦予相應的權值,并依據各維度的評估方法給出具體的量值,由此計算出數據質量。

3數據質量的改進策略

基于上述數據質量評價,對存在的質量問題可從數據清理、數據補全、數據糾錯等方面進行改進。針對可能出現的問題提出預防措施,不斷提升全文圖像數據產品的整體質量。

(1)準確性改進

依據《專利文獻數據規范》,對全文圖像數據進行文件格式標準化、標簽標準化和文獻信息標準化,在此基礎上通過程序控制、機器全量質檢和人工抽檢的方式對標準化數據進行質檢,質檢內容為圖像實體與文獻信息是否相符,標簽標注是否與圖像一致,并對質檢結果進行狀態標識,對質檢反饋的問題進行分析,并以該狀態觸發數據修正流程,啟動二次加工,有效地控制不合格數據的輸出,提高數據的準確性。

(2)完整性改進

為了查明數據缺失情況,全文圖像數據產品應與其他國家、地區或組織官方公布的專利文獻清單或其他類型專利數據進行比對。數據缺失情況歸為三類,一為文獻信息完整情況下的圖像實體的缺失,二為圖像實體完整情況下的文獻信息的缺失,三為文獻信息與圖像實體都缺失,缺失原因可歸結為源數據的缺失和加工過程帶來的數據缺失。加工過程帶來的數據缺失定義為源數據存在,經加工過程的一系列流程未輸出標準化的圖像產品數據而導致的數據缺失,通過對缺失數據的類比分析結合數據的狀態值,啟動相應的補救措施,如完善和補充加工規則,對相關的輔助工具和處理流程進行優化升級等。源數據缺失定義以下兩種情況,一是源數據庫存在該數據,則可能是在入庫過程中由于數據解壓失敗、傳輸中斷等原因引起,需要對該部分數據重新加工,若源數據中不存在該數據,則從其他數據源尋求補錄的可能性,并對可補錄的數據進行標準化加工。

(3)唯一性改進

①加入狀態標識

數據源多樣,數據量大造成的數據重復冗余,表現為同一文獻信息對應多條實體文件,通過加入狀態標識,當出現文獻信息重復時,狀態觸發數據修正流程,對已有的圖像實體進行更正,從而建立文獻信息與實體一一映射,保證其唯一性。

②建立清洗規則

通過對數據源的約束和規劃以改進數據的唯一性,多個數據源的數據集成導致幾個獨立維護的數據源經常提供相互重疊的數據內容,出現不一致的數據,建立數據清洗規則,通過檢測及合并不同數據源中的重復集,補充不完整或遺漏的數據集,達到消除重復、數據增強的目的。

4結語

通過對國外專利全文圖像數據質量的評價,可以及時發現數據的質量問題,并針對性改進,保障數據質量,使其更好地為專利信息服務。

參考文獻:

[1]郭威.國外全文圖像專利數據的標準化研究[J].數字與縮微影像,2017.

[2]曲曉光.專利文獻數據規范概述[J].標準科學,2012.

[3]谷斌.信息系統建設中的數據質量管理體系研究[J].情報雜志,2007.

作者:廖雅靜 單位:中國專利信息中心

亚洲精品一二三区-久久