前言:尋找寫作靈感?中文期刊網用心挑選的臨床醫學名詞同義詞詞表檢索探究,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。
醫學名詞標準化要求一直伴隨著醫學的發展,統一、規范的醫學名詞是準確傳遞信息的基本保證。采用現代信息技術獲取、存儲、管理和分析臨床數據,需要標準化醫學語言。然而,臨床中使用非規范醫學名詞的現象十分普遍,突出表現在使用大量醫學名詞的同義詞。由于醫學名詞同義詞多,用一個或部分同義詞檢索會丟失與檢索詞高度相關的大量信息。為提高醫療信息檢索的查全率,編制一個高質量的臨床醫學名詞同義詞詞表就顯得格外重要。同義詞詞表的擴展是語義資源開發和應用的基礎問題,是自然語言處理領域的重要研究方向。目前,醫療數據庫檢索系統自身不具備同義詞詞表系統的管理運用功能,故而,在醫療信息檢索服務系統中,真正運用同義詞詞表提供聯機查找服務的并不多見。本文對基于非關系型數據庫的臨床醫學名詞同義詞詞表檢索進行了深入研究。
一、資料與方法
1.資料來源。診療數據來源于某市2017—2019年3年間99家醫療衛生機構的2480941份住院病案首頁數據,住院病案首頁字段248個。臨床醫學名詞來源于2018年版《常用臨床醫學名詞》、ICD-10對應的疾病名稱、某醫院初篩的醫學診斷名詞。臨床醫學名詞包括中文正名、英文名、中文又稱、曾稱、簡稱、習慣用語。臨床醫學名詞同義詞詞表包括主題詞、同義詞和說明。說明內容可以是主題詞的定義、提示、解釋等,也可以是ICD代碼,如心臟擴大的ICD代碼為I51.709。臨床醫學名詞同義詞詞表(摘錄)參見表1。
2.方法。(1)臨床醫學名詞同義詞詞表數據庫。建立臨床醫學名詞同義詞詞表數據庫,用于存儲臨床醫學名詞的主題詞、同義詞和說明。臨床醫學名詞同義詞詞表數據庫采用TRIP非關系型數據庫,該數據庫由記錄組成,記錄由字段組成,字段類型包括phrase字段和text字段,phrase字段類型相當于SQL的char字段類型,翻譯為字符串字段,text(文本)字段用于存儲自由文本中的句子和段落,能夠存儲任意數量的段落、任意數量和任意長度的句子,存儲的詞匯數量無限制。臨床醫學名詞同義詞詞表數據庫基本的字段編號和字段名稱如表2所示,可以追加字段。CT字段是字符串字段,存放主題詞。UF字段是字符串字段,存放主題詞的同義或準同義詞,同義詞的數量無限制。SN字段是文本字段,存放主題詞的說明內容或其他相關的內容。(2)臨床醫學名詞同義詞詞表數據庫的檢索字段組配和檢索詞。臨床醫學名詞同義詞詞表數據庫的檢索字段組配有3種,每種組配的檢索詞不同,如表3所示。根據檢索的實際情況,選擇不同的字段組配。詞的片段是詞的一部分,如:“非過敏性哮喘”的片段可以是“非過敏性”“哮喘”。(3)臨床醫學名詞同義詞詞表檢索方法。TRIP詞表數據庫的檢索功能與數據庫檢索系統無縫結合。TRIP數據庫檢索系統包括同義詞詞表數據庫檢索和目標數據庫檢索。臨床醫學名詞同義詞詞表檢索方法是借助臨床醫學名詞同義詞詞表數據庫(作為源庫)對目標數據庫進行間接檢索,用臨床醫學名詞同義詞詞表數據庫檢索所獲得的結果作為檢索詞,對目標數據庫進行檢索。(4)目標數據庫目標數據庫采用TRIP非關系型數據庫,字段類型包括:字符串字段、數值字段、日期字段、時間字段、文本字段。本文的目標數據庫是住院病案首頁數據庫。
二、分析研究
1.臨床醫學名詞同義詞詞表檢索。臨床醫學名詞同義詞詞表檢索需要選擇目標數據庫、目標數據庫檢索范圍、臨床醫學名詞同義詞詞表數據庫、臨床醫學名詞同義詞詞表數據庫的檢索字段組配。檢索方式有主題詞檢索、同義詞檢索、說明內容檢索。檢索結果顯示檢索命中的目標數據庫的記錄數和目標數據庫的詳細信息。還可以查看臨床醫學名詞同義詞詞表檢索的主題詞、同義詞和說明內容。(1)目標數據庫檢索范圍。目標數據庫的檢索范圍可以選擇所有字段串和文本字段、所有字段串字段、所有文本字段、一個字段串字段、一個文本字段。住院病案首頁數據庫的字符串字段包括主要診斷、其他診斷、門(急)診診斷、入院病情、病理診斷、手術及操作名稱,等等。(2)檢索詞為主題詞字段中的詞。設定目標數據庫檢索范圍,輸入主題詞或主題詞片段,通過臨床醫學名詞同義詞詞表數據庫啟動主題詞在目標數據庫進行檢索。例如,輸入主題詞片段“膿毒血”,通過臨床醫學名詞同義詞詞表數據庫啟動主題詞“膿毒血癥”在住院病案首頁數據庫的主要診斷字段進行檢索,獲得住院病案首頁數據931例。(3)檢索詞為主題詞和同義詞字段中的詞。設定目標數據庫檢索范圍,輸入主題詞或同義詞或二者詞的片段,通過臨床醫學名詞同義詞詞表數據庫啟動主題詞和所有同義詞在目標數據庫進行檢索。例如,輸入同義詞“膿毒癥”,通過臨床醫學名詞同義詞詞表數據庫啟動主題詞“膿毒血癥”、同義詞“膿毒癥”和“敗血癥”在住院病案首頁數據庫的主要診斷字段進行檢索,獲得住院病案首頁數據4473例。(4)檢索詞為主題詞、同義詞字段中的詞和說明字段中的內容設定目標數據庫檢索范圍,輸入主題詞或同義詞(也可以是二者詞的片段)或說明字段中的內容,通過臨床醫學名詞同義詞詞表數據庫啟動主題詞和所有同義詞在目標數據庫進行檢索。例如,輸入說明內容“由感染引起的全身炎癥反應綜合征”,通過臨床醫學名詞同義詞詞表數據庫啟動主題詞“膿毒血癥”、同義詞“膿毒癥”和“敗血癥”在住院病案首頁數據庫的主要診斷字段進行檢索,獲得住院病案首頁數據4473例。
2.傳統檢索方法。(1)同義詞逐個檢索。設定目標數據庫檢索范圍,分別用主題詞和同義詞逐一進行檢索。例如,分別用主題詞“膿毒血癥”、同義詞“膿毒癥”和“敗血癥”在住院病案首頁數據庫的主要診斷字段進行檢索,用“膿毒血癥”檢索獲得931例,用“膿毒癥”檢索獲得824例,用“敗血癥”檢索獲得2718例,3個詞檢索共獲得住院病案首頁數據4473例。(2)邏輯檢索式檢索。設定目標數據庫檢索范圍,采用邏輯“或”檢索式進行檢索。例如,用“膿毒血癥或膿毒癥或敗血癥”檢索式在住院病案首頁數據庫的主要診斷字段進行檢索,獲得住院病案首頁數據4473例。
三、討論
住院病案首頁的主要診斷是病種質量管理、臨床路徑管理的數據基礎,選擇主要診斷的正確率是評估診療措施適宜性的重要指標,因此,臨床診斷名詞應采用規范詞匯,盡可能使用中文正名。由于臨床診斷名詞的同義詞可作為檢索詞使用,因此,在病種檢索和統計分析時,應包括所有的同義詞。例如,分別用“膿毒血癥”“膿毒癥”“敗血癥”這3個同義詞在住院病案首頁數據庫的主要診斷字段進行檢索,分別獲得931例、824例、2718例。用邏輯“或”檢索式進行檢索擴大了檢索范圍,提高了查全率,防止漏檢。例如,用“膿毒血癥或膿毒癥或敗血癥”檢索式進行檢索獲得的檢索結果是4473例。利用臨床醫學名詞同義詞詞表數據庫,輸入“膿毒血癥”“膿毒癥”“敗血癥”中的任何一個詞,都可以啟動所有同義詞在住院病案首頁數據庫進行檢索,獲得的檢索結果同樣也是4473例。為了提高臨床醫學名詞同義詞詞表中的詞匯與臨床診斷用詞的重合度,選入具有較高使用頻次的簡稱、自由詞和習慣用語,以降低臨床醫學名詞同義詞詞表應用中對組配的要求。大量收錄自由詞,增加檢索入口詞,建立檢索入口詞與主題詞之間的聯系,增大入口率,引入高頻復合詞,這些特征使詞表能更好地適應詞表自動化應用的需要。臨床醫學名詞同義詞詞表數據庫的說明字段是文本字段,可以容納臨床醫學名詞的定義、提示、解釋等,將自然語言放入詞表數據庫,增加了檢索入口詞,通過臨床醫學名詞同義詞詞表數據庫建立檢索入口詞與主題詞和同義詞之間的聯系,輸入說明字段中的自由詞、詞組和句子,便可以啟動臨床醫學名詞同義詞詞表中規范的主題詞和同義詞進行檢索,極大方便用戶使用臨床醫學名詞同義詞詞表數據庫進行檢索。該功能優于傳統檢索。臨床醫學名詞同義詞詞表檢索網絡化,通過詞表中的主題詞、同義詞、自由詞等可檢索并鏈接獲取住院病案首頁數據庫的診療信息、患者信息、住院信息等;臨床醫學名詞同義詞詞表的詞間關系可以幫助用戶實現語義縮檢、擴檢和關聯檢索;同義詞中的英文可以實現跨語言檢索。幾乎所有的臨床醫學名詞都有同義詞,且還在不斷產生新的臨床醫學名詞及同義詞。在編制詞表的過程中,盡管對現有臨床醫學名詞及其同義詞做了較多考慮,但依然未能窮盡。臨床醫學名詞同義詞詞表編制周期過長會使詞表發展難以與臨床醫學名詞發展的速度相匹配。利用TRIP非關系型數據庫的數據分析功能,采集和篩選臨床醫學名詞的同義詞,可以提高臨床醫學名詞同義詞詞表的質量,減少工作量,縮短臨床醫學名詞同義詞詞表編制周期,建立臨床醫學名詞同義詞詞表更新維護的快速響應機制。
四、結論
鑒于臨床醫學的特點及臨床信息的復雜性,臨床醫學名詞同義詞的標準化工作非常艱巨。為了推進臨床醫學信息化技術的應用,國家投入了大量資源,研究解決臨床醫學名詞的標準化問題,臨床醫學名詞和醫學主題詞表的編制和維護取得了顯著成效。但目前存在的瓶頸是缺乏將臨床醫學名詞詞表應用于臨床醫學信息化的運用平臺。本文研究的臨床醫學名詞同義詞詞表檢索系統,著眼于臨床醫療信息檢索的實際應用,在臨床醫學名詞同義詞詞表編制、用戶使用和網絡服務3個方面適應臨床醫療信息環境和技術環境的發展,使臨床醫學名詞同義詞詞表處于活躍狀態。采用臨床醫學名詞同義詞詞表檢索,不僅高效、便捷地提高了查全率,還與當前臨床醫療信息增長水平相適應。臨床醫學名詞同義詞詞表網絡化和服務能使醫療衛生管理機構、醫院、醫保管理機構了解臨床醫學名詞同義詞詞表的作用,方便地使用臨床醫學名詞同義詞詞表檢索功能,助力三醫聯動,滿足臨床醫療、教學科研、疾病統計、醫療衛生管理信息化等各方面的應用需求。
作者:聶曼影 陶光毅 單位:國家檔案局科研所 中國紡織服裝教育學會