前言:尋找寫作靈感?中文期刊網用心挑選的航天企業外部知識管理系統研究,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。
中國運載火箭技術研究院外部知識管理系統的總體建設目標是建設面向全院服務的外部知識管理系統,實現跨知識庫檢索;按照研究院專業技術樹自動采集外部知識,形成專業專題外部知識庫;向全院技術人員提供外部知識資源的動態監測和更新、深度挖掘和分析,以及個性化知識推送等服務,推動外部知識資源的深度應用和智能化應用。研究院外部知識管理系統一期建設工作已完成,其改變了傳統手動的外部知識采集、加工和入庫模式,解決了采集效率低、數據規范性差、數據結構不統一、標引深度不足等問題,實現了對互聯網資源、期刊論文、科技報告和專利標準等外部知識資源的采集、入庫等一系列工作的自動化。同時,系統將采集入庫后的知識資源按照研究院專業技術或重點關注機構等分類建成相對應的專題庫,以引導技術人員按照分類導航快速查找、定位所需文獻資源,使技術人員能夠從多渠道獲取外部知識,拓寬知識獲取途徑,進而為科研生產提供更好、更有效的知識服務。研究院在系統一期的基礎上重點梳理外部知識資源類型和體系,基于航天科研領域知識體系和專業敘詞表的建設開展知識標引、知識挖掘和相應的管理應用,以優化現有系統的功能和性能,形成初步滿足全院對外部知識、數字資源個性化的應用需求。
一、知識標引
1.自動標引
知識標引是對采集的數據進行自動加工、處理的核心。以專業詞典(如NASA敘詞表等)、清華同方或萬方數據庫文獻中的關鍵詞和外部知識采集時檢索表達式中包含的檢索詞作為基礎主題詞表,將專利和非專利文獻通過特征詞識別算法抽取能夠代表某篇文獻的主題詞,以實現對知識庫中文獻進行自動標引。標引采用的是自動抽詞標引法,由系統直接從數據中自動抽取能表達該主題的受控詞作為標引詞。通過主題特征的提取揭示最主要的知識對象,將特征項的來源位置、出現頻率和用戶的檢索頻度等作為依據,設置特征項權重。系統自動標引采用TF-IDF模型,主要評估一個字詞對于一個文件集或語料庫中的其中一份文件的重要程度。
2.手動標引
標引人員可對預標引數據的主題、副主題、特征詞及文獻類型等內容進行添加、刪除、修改、審核等操作。在整個文件標引、審核工作完成后,系統自動提示標引人員進行合法性檢查。系統采用批處理和實時處理2種方式來實現人工審核后對標引數據的合法性檢查,對于詞形、全角/半角等簡單的形式錯誤,則可采用實時處理的方式及時向標引人員提供提示信息。系統還提供各種對照表的維護入口,標引人員在標引審核過程中可將未建立對應關系的關鍵詞加入系統,以真正實現對嵌入系統的各種對照詞表的動態維護。此外,系統具備對新加入的詞語進行的功能,若其已在詞表中,則拒絕添加。
3.建立敘詞表
敘詞表可管理本領域內的專業和科技詞匯,能夠覆蓋本領域研究和應用的知識點,并建立這些知識點之間的關系。專業詞匯是本領域科技術語與概念,其通過對術語、概念規范定義及之間語義規范和語義關系的建立構建領域詞表,用于領域資源的標引發現。科技詞匯則反映領域科技活動主體及對象之間的關系,如研究人員、研究機構、研究成果、研討會議等各種對象屬性及其相互之間的本質聯系。因此,在知識標引的基礎上,研究院初步實現了敘詞表的建立與管理功能,基于研究院內部知識管理系統已有的NASA敘詞本體庫或清華同方/萬方數據庫的詞表本體庫進行探索性建設。此工作是進行知識挖掘的基礎,在功能實現初期,標引準確性可能會較低,需要人工補充新詞和較為專業的詞語,但經過一段時間的積累將能產生很好的效果。
二、知識挖掘
所有分析挖掘功能在開發時都要具備對當前集的域值設定功能,以保證在當前集數據量龐大時,系統執行分析挖掘的響應時間不會太長。域值包括時間、專業(即當前集所覆蓋的技術點名稱)、機構(如中國運載火箭技術研究院)、知識類型(如科技期刊)和語言。
1.按技術生命周期統計
將專利和非專利統一作為分析樣本,利用系統自動將分析樣本中專利文獻的“申請時間”和非專利文獻的“發表時間”字段自動抽取,按照時間進行文獻量的統計,并自動生成技術生命周期趨勢圖。此時,在數據庫中根據檢索條件對文獻進行檢索,可查詢到按年度進行數量統計的結果。
2.按主題詞詞頻統計
基于知識標引功能將標引的主題詞出現的頻率進行排名統計,系統自動生成主題詞詞頻統計圖表,通過其可了解到某一技術領域具體有哪些研發熱點。另外,將排名靠前的高頻主題詞按照年代進行統計,可形成年代趨勢列表和年代趨勢圖。
3.按機構公開文獻量統計
系統自動將分析樣本中專利文獻的申請人、發明人和非專利文獻的作者、機構進行抽取,統計其公開文獻量,由此可確定同領域技術或產品的競爭對手有哪些機構。基于作者、機構、專利人等信息的計量分析,采用的技術實現與文獻計量方法是類似的,但人名、機構名稱具有一定的特殊性,對統計分析結果精度的要求越高,就越需要做好數據基礎工作,此時需要人工參與,以實現人物與機構名稱的“歸一”處理。所謂“歸一”處理就是將同一個機構的不同名稱映射為同一個名稱,以實現統計分析的精確性,如“中國航天某院”和“中國航天科技集團某院”在不同發文中出現的稱謂可能不相同,但分析的結果都為同一單位。此外,按照文獻中的“機構”字段(非專利文獻中的“作者機構”或“發文機構”、專利文獻的“申請人”)統計各機構的公開文獻量,并結合“年度”字段形成各機構在各年度的公開文獻量的趨勢圖,可用于競爭對手研究、機構關注熱點研究方面的分析。與機構年度公開文獻量統計分析類似,可提取非專利“作者”、專利“發明人”的字段信息形成作者年度公開文獻量統計圖。
4.技術熱點聚類
以系統中主題詞表為基礎,以當前集中出現的主題詞共現強度為聚類閾值進行聚類挖掘,生成主題詞聚類島圖,表示某個時刻的數據聚類結果,每個亮點都是系統自動聚類出的知識熱點。點與點的距離越近,表明2個聚類主體之間的關聯性越高,以達到發現當前集中的技術熱點及其關聯性的目的。
5.相似索引
當用戶瀏覽某篇文獻時,系統通過對比文獻所含主題詞與知識庫中文獻所含主題詞的相似度,自動提取相似度較高的前10篇文獻進行推送。在計算與當前瀏覽文獻相似度閾值的同時,還可根據用戶的瀏覽記錄、收藏記錄等進行綜合分析,進而形成基于用戶行為分析的相似推送,并以圖片或文字題目等多種方式在用戶個人中心或瀏覽具體文獻的詳細頁面進行推送。
三、性能優化
由于系統一期首頁設計的展示模塊眾多,且隨著資源整合數據量越來越大,系統的整體性能和頁面訪問受到了影響,在大量用戶訪問的情況下整體效果也有所下降。因此,系統二期建設可以頁面靜態化功能開發和分布式架構負載部署2種方式進行優化。
1.靜態化
對系統首頁性能優化采用FreeMarker技術進行靜態頁面。靜態頁面相對于動態頁面不需要經過服務器后端運算,尤其是當頁面模塊較多需要調用數據時,動態頁面每個用戶訪問都需要運算較長時間,而靜態頁面無論多少用戶訪問都可立刻返回一個無需運算的結果頁面,理論上可達到毫秒級響應。系統首頁數據是對平臺中各個模塊數據的綜合展示,數據變動相對不頻繁,因此可進行靜態化。系統數據管理后臺本身支持靜態化功能,需要針對首頁各個模塊和頁面布局編寫模板文件并配置各模塊參數,確定靜態機制,即可實現首頁靜態化功能。
2.分布式架構
系統一期架構部署采用單個WebLogic方式提供服務,底層檢索引擎也基于Solr單引擎服務,單服務部署承載的負載能力有限,當大用戶同時使用時必然從性能上難以支撐。系統二期在檢索引擎方面采用SolrCloud技術,基于Solr和Zookeeper的分布式部署搜索,主要是使用Zookeeper作為集群的配置信息中心,將負載自動分布到多個核心上,理論上增加一個核心,性能提升一倍,且任何一個核心宕機對總體服務沒有影響,從容錯性來說也是很好的方式。系統二期Web應用服務方面采用硬件或軟件負載均衡的方式,可將單個WebLogic擴展到多個服務,提升整個網站訪問性能,也可采用VM或Docker技術作為分布式部署載體實現多服務擴展,還可選擇硬件設備F5實現自動的負載均衡。知識標引、知識挖掘、性能優化等技術的應用,將使中國運載火箭技術研究院外部知識管理系統功能完善化、結構完整化、內容綜合化、集成模塊化,能夠實現外部知識資源的搜集、整合、和組織管理外部知識資源內容的挖掘、分析,以及航天領域知識發展方向的跟蹤、預測等功能。研究院外部知識管理系統全部建設完成后將實現“三個創新轉變”,即對外部知識存儲由分散、隔離型向集中統一型轉變,跟蹤由不定期檢索查閱向實時監測挖掘轉變,服務由傳統文獻服務型向現代個性化服務型轉變。
作者:李悅 才華 任湘 孫巍 單位:北京航天長征科技信息研究所