前言:尋找寫作靈感?中文期刊網用心挑選的城建檔案領域知識圖譜構建方法探究,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。
摘要:領域知識圖譜構建是實現城建檔案資源深度關聯,提升資源建設與服務效能的重要方法。城建檔案領域知識圖譜構建應完善實施條件,明確實施原則。在構建流程上,城建檔案領域知識圖譜構建流程包括數據獲取、本體構建、知識抽取、知識融合、知識更新與存儲應用。
關鍵詞:知識圖譜;本體;城建檔案;檔案資源建設;檔案服務
1引言
當前,知識圖譜前沿技術和領域實踐快速發展,網絡本體描述語言(OntologyWebLanguage,OWL)、資源描述框架(ResourceDescriptionFramework,RDF)、圖數據庫(GraphDatabase)等應用基礎不斷豐富,《信息與文獻文化遺產信息交換的參考本體》(GB/T37965)和《知識管理第7部分:知識分類通用要求》(GB/T23703.7)等相關標準陸續發布,在名人檔案、科研檔案和文化遺產檔案等領域的知識圖譜研究逐漸增多。本文圍繞知識圖譜在城建檔案領域的通用應用路徑,探討了城建檔案領域知識圖譜構建準備與實施方法,以期為相關研究提供借鑒。
2城建檔案領域知識圖譜構建準備
2.1完善實施條件。第一,組織保障。完善城建檔案管理協作機制,促進城建檔案領域知識圖譜構建的對象、價值、技術和業務認同,建立具備“矩陣式協作聯盟結構”[1]的組織體系,凝聚共識,健全組織保障。第二,標準規范。以現有城建檔案采集、描述和存儲規則為基礎,加強相關數據規則的銜接、定制和城鄉建設標準化術語、編碼引用,形成有包容性的相對統一的標準規范體系。第三,其他條件。準備必要的資金,做好知識產權管理和檔案開放鑒定,建立具有相關知識處理經驗、技術能力的業務和專家團隊,并配備相關軟硬件設施設備,加強安全防控等。
2.2明確實施原則。第一,項目建設原則。一是問題導向、應用牽引。在規劃階段應聚焦城建檔案資源特色優勢和發展瓶頸,挖掘應用場景,明確技術需求,同時從檔案機構技術能力和現有數字檔案館平臺條件出發,適配應用需求。二是資源整合、集成管控。在實施過程中,既應做好多源異構檔案資源的規范化整合,消弭機構內外部“信息孤島”,還應注意城建檔案管理與趨勢性知識管理的差異及協同策略,明確以“卷/件”和以“知識”為單元的組織利用在效率提升、合規審計、互操作權限上的優勢與風險,建立科學的集成管理模式。三是循序漸進、人機協同。在實施過程中,既要秉承循序漸進原則,加強成熟度評價,根據先易后難、由點及面、由粗到細的思路分步建設,又要在機器自動處理、知識計算和人工概念分類、標準設置、樣本標注、反饋控制等方面,加強數據驅動和人為干預的協同。第二,本體構建原則。形成領域本體是城建檔案領域知識圖譜構建的中心工作,根據學界對本體構建原則的一般認識,[2]城建檔案領域知識本體構建應遵循以下原則:一是明確性原則,即在構建知識本體時,應盡可能使用領域專業術語,對所獲取檔案數據中的概念及概念關系給出明確定義和描述。二是完整性原則,即提升本體構建過程中城建檔案資源對象來源、數量和種類的豐度,提升知識關聯關系的多樣性。三是一致性原則,指在領域知識本體構建過程中要保證其定義與本體推理結果的一致。四是可擴展性原則,即向領域知識本體中添加通用或專用的術語時,可適當豐富和擴展,而不需要修改其已有的內容。五是最小編碼偏好原則,即本體的概念體系應建立在知識層面,而不過于依賴符號層面的處理。六是最小本體承諾原則,即本體構建過程中盡可能減少約束聲明,允許各方相對自由地根據需要專門化和實例化本體,方便未來跨領域、跨專業共享。七是可管理性,即對構建的本體應建立知識產權、使用權限等必要的管理機制。
3城建檔案領域知識圖譜構建實施
根據知識圖譜構建通用方法,城建檔案領域知識圖譜構建流程包括數據獲取、本體構建、知識抽取、知識融合、知 識更新與存儲應用。
3.1城建檔案領域數據獲取。城建檔案領域知識圖譜構建包括數字檔案館系統數據,工程審批、國土空間規劃、地理信息、建筑市場監管等外部平臺數據,知識樣本較多的維基百科、百度百科等外部知識庫、網絡動態數據,以及城鄉政策法規、實景信息、口述史料、研究資料等數據源。在具體管理中,一是做好數據源調查研究,摸清資源特色內容、利用情況、開放程度和使用權限,掌握資源結構化、半結構化、非結構化等數據特點及存儲媒介、數據格式等;二是應以PDCA循環思路,邊獲取邊檢查邊調整,把握數據源的數據特征和時空分布,不斷調整來源范圍,提升數據獲取質量。在數據獲取過程中,應根據不同數據源,選擇針對性數據采集方法。一是通過API接口、中間數據庫等方式獲取數字檔案館系統數據及外部相關平臺數據;二是通過python爬蟲等技術工具采集外部知識庫、網絡動態數據;三是通過三維掃描、多媒體采集、模型輕量化等方式獲取城市實景信息、口述史料、聲像檔案及BIM、CIM模型數據。此外,數據采集時還應注重數據預設的知識結構、處理規則等獲取,在真實性、一致性、可靠性、可用性和知識產權等方面做好交叉驗證和合規審查,并豐富接下來本體構建的思路。
3.2城建檔案領域本體構建。領域本體是指以基本詞匯表對領域現象的形式化表達,是知識圖譜模式層構建的主要對象。城建檔案種類繁多,所涉領域方向和專業類別較為復雜,城建檔案管理機構也有服務工程建設維護、城鄉數智治理、文化保護傳承等多元任務。因此,在本體構建思路上,應按照循序漸進、人機協同的原則,運用“骨架法”“七步法”等方法,對本體來源和范圍進行分析處理,揭示、定義城建檔案領域實體、實體屬性及相互關系,優化知識結構,建立側重檔案憑證價值描述的檔案本體,及偏向檔案情報價值描述的學科本體,并在知識融合階段形成完整的城建檔案領域本體。在檔案本體設計上,應以城建檔案有關術語和資源描述規范為基礎,梳理知識要素,建立術語概念和編碼集合,形成城建檔案本體模型。以城建檔案的核心組成建設工程檔案為例,以《城市建設檔案著錄規范》(GB/T50323)、《建設工程檔案信息數據采集標準》(T/CECS707)、《建設電子檔案元數據標準》(CJJ/T187)、《建設電子文件與電子檔案管理規范》(CJJ/T117)、《建設工程文件歸檔整理規范》(GB/T50328)為依據,形成包含文件實體、業務實體、責任者實體和關系實體的4類檔案實體,擁有聯合、包含、控制、建立、擁有和前后等實體關系及相關元數據項的建設工程檔案本體模型。在學科本體設計上,應根據《中國檔案主題詞表》《城建檔案主題詞表》及《建筑和設施管理部門元數據的應用》(ISO82045-5)和《基礎地理信息本體模型》(GB/T40765)等城建領域術語編碼和知識規范,結合外部知識庫,建立城建學科本體。在具體建設中,可根據任務目標,調整細化學科本體內容。以鄭州國棉三廠歷史文化街區改造項目為例,可根據項目內容和工程特點,借鑒《信息與文獻文化遺產信息交換的參考本體》(GB/T37965)和《智慧城市領域知識模型核心概念模型》(GB/T36332),通過網絡數據檢索和關鍵詞分析,結合自頂向下和自底向上兩種方式,建立城建項目、地理位置、相關機構、相關人員或團體、重大事件等領域實體概念,明確實體屬性和關系,最后使用Protégé編輯器形成該領域學科本體模型,如圖1和圖2所示。
3.3城建檔案領域知識抽取。知識抽取指根據領域本體,抽取數據源的實體、關系和屬性,并將其存儲于城建檔案領域知識庫。實體抽取強調綜合人工提取和命名實體識別技術,識別數據源特定實體。如抽取歷史文化街區改造項目中的項目、地理、機構和人物名稱等。關系抽取是識別兩個或多個實體之間的語義關系,如“機構-參與-項目改造”,針對自然語言的歧義性和模糊性,關系抽取通常先由人工預先設置一定的實體關系類型作為訓練集,再使用監督、半監督等機器學習方法提升召回率。屬性抽取指采集特定實體的屬性信息,如人物的性別、職業等,可采用基于規則或啟發式算法等屬性抽取方法實現。[3]針對城建檔案中大量存在的照片、聲像等非結構化數據,可應用文字識別、圖像特征提取、音視(下轉62頁))頻詞匯提取等識別技術,進行格式轉換、機器識讀、人工校正及人機協同標引,將其轉化為結構化數據,再實施知識抽取。此外,還應關注隱性知識抽取,如以結構化知識模板記錄對歷史文化街區居民的訪談,并提煉RDF三元組元素。
3.4城建檔案領域知識融合。根據城建檔案領域本體構建思路,本體匹配是兩類方法的結合,即將從不同數據源、興趣點而來的各類檔案本體、學科本體充分集成,并建立映射關系,形成一個更趨完整的城建檔案領域本體模型。實例匹配包括實例鏈接和消歧等任務,如規范“工程策劃、籌備文件”對多個實例的鏈接,消歧同一個地理坐標對兩個不同工程項目的標識,將相同解釋的“工程文件”“項目文件”進行對齊。實例匹配主要通過基于相似度計算、基于規則或學習的匹配方法及人工抽檢實現。
3.5城建檔案領域知識更新與存儲應用。模式層更新指城建檔案本體更新,通過刪減、增加或重新定義有關概念及概念關系實現。如根據工程審批制度改革對檔案驗收程序的調整,重新定義檔案驗收,增加聯合驗收、容缺驗收定義。數據層更新指調整城建檔案領域本體所存儲的實體、關系和屬性值。如根據機構改革結果,更新某個城建檔案管理機構的隸屬關系;為響應歷史文化街區改造項目的工業文化遺產內涵,新增某個城建檔案管理機構的服務屬性區間。在知識更新中,應使用準確率、精確率、召回率等指標對已構建的知識圖譜進行評價,調整更新策略。最后階段是進行存儲和應用,城建檔案領域知識圖譜的可選存儲手段包括面向RDF的三元組數據庫,及Neo4j、JanusGraph等圖數據庫。在應用上,根據不同任務目標的構建成果,知識圖譜可被用于城建檔案利用服務中的智能搜索、個性化推薦和知識問答,也可借助頁面級、數據級的關聯發現,實現城建檔案質量要素的智能合規檢查,支撐可視化業務指導和驗收移交。
作者:高大偉 韓瑞雪 單位:鄭州航空工業管理學院