前言:尋找寫作靈感?中文期刊網用心挑選的生物醫學多元化命名分辨分析,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。
本文作者:馬瑞民 馬民艷 單位:東北石油大學數據庫理論與技術科研室
生物醫學的快速發展,產生了大量的生物醫學數據。這些生物醫學數據有的是以結構化的形式存在于數據庫中,例如基因序列、基因微陣列實驗數據和分子三維結構數據等;有的生物醫學數據以非結構
化的形式被記載在各種生物醫學文獻中。從生物醫學文獻中發掘出隱含的生物醫學知識,是生物醫學信息抽取的重要意義所在。生物醫學命名實體識別是生物醫學信息抽取的一項重要基本任務之一,它
主要是從醫學文獻中發現基因、蛋白質、DNA、RNA等生物實體。生物醫學命名實體識別的研究具有一定的艱巨性,主要是因為生物文獻中實體命名不規范、相同的詞或者短語表示不同類別命名實體等,
給研究帶來了一定的困難。
目前,生物醫學實體識別的方法主要有基于字典、基于規則和基于機器學習的方法。生物醫學命名實體識別研究初期,最常使用的是基于字典的方法。如Krauthammer等[1]利用DNA和蛋白質序列比較工具
BLAST識別生物醫學命名實體。上述方法的優點是簡單實用,但由于新的生物醫學命名實體不斷出現,所以基于字典的方法對于自由文本的生物醫學命名實體識別效果不佳。Olsson等[2]提出了基于規則
的方法識別生物醫學命名實體,F值達到了67%。與基于詞典的方法比較,基于規則方法的識別性能有所增強,但它需花費大量人工勞動、且可移植性差?;跈C器學習的方法可以判別生物醫學命名實體
數據庫中未包含的實體,方法較為靈活。該方法對訓練數據規模、質量以及特征選取等方面的因素具有很強依賴性,所以,此方法對于生物醫學命名實體識別性能提高的研究具有很強挑戰性。本文將采
取有效的機器學習算法,結合多種策略,以期提高生物醫學命名實體識別的識別性能。
1算法
目前主要應用在生物醫學命名實體的機器學習方法有多種。文獻[3~6]中分別提出基于隱馬爾可夫模型、決策樹、支持向量機、最大熵等方法,這些方法把詞性、詞形等特征融入到機器學習模型中,利
用訓練得到的學習模型從生物醫學文本集合中識別出指定類型的名稱。雖然取得了一定成果,卻也具有一定的不足,如識別性能不高、多種條件約束、識別策略單一化等。條件隨機域機器學習算法在自
然語言處理領域中有著非常顯著的優勢,目前已成功應用到詞性標注、語塊識別和新聞領域的命名實體識別中,且表現出了非常好的效果。該模型的特性表明它非常適用于生物醫學領域的命名實體識別
研究。鑒于此,本文采用條件隨機域算法對生物醫學命名實體識別進行研究。條件隨機域(ConditionalRandomFields,CRFs)是Lafferty等人于2001年提出來的[7]。它是計算具有無向圖G結構的隨機變
量集合在給定隨機變量集合o下的條件概率P(s|o)。將CRFs應用于生物醫學命名實體識別中,則o表示一個句子的單詞序列,s表示相應的狀態序列,標注的過程就是根據已知的單詞序列推斷出最有可能
的狀態序列,即P(s|o)的最大值。本文實驗使用了一階線性CRF,如下式:(公式略)。條件隨機域模型允許在觀察序列上的任意依賴關系,并且特征不需要一定是一個完整的狀態或觀察值,可以用較
少的訓練數據訓練出模型,所以說,CRFs擁有了一般的最大熵模型的所有優點。
2實驗
2.1特征選擇
生物醫學命名實體識別中常用的特征有以下幾種,一是局部特征,包括文本符號本身的特征和文本符號局部的上下文特征及其周圍的詞或符號的特征;二是全文特征,即文本符號在整個篇章中的上下文
特征;三是外部資源特征,比如說使用一些外部資源詞典等。本文研究中,使用了如下特征:(1)單詞本身:把單詞本身作為一個識別特征。(2)詞形特征:由于生物醫學命名實體一般含有數字、大
寫字母和特殊符號等,將這些簡單的表面特征定義為詞形特征。本實驗將大寫字母都用‘A’替換,數字用‘0’替換,非英語字符用‘-’替換,小寫字母用‘a’替換。(3)標準化拼寫特征:某些同一
類的生物醫學命名實體,它們拼寫方式很類似,如:IL-2andIL-4。用簡單的方法標準化所有類似的詞。如Kappa-B規范化為‘Aaaaa_A’,再將連續的相同的字符縮短為一個字符,即為‘Aa_A’。這樣做
能夠將拼寫相似的生物醫學命名實體提取的特征保持一致。(4)詞性特征:生物醫學命名實體的大寫字母特征對其識別性能貢獻不大,并且生物醫學命名實體多是描述性的名稱而且名稱很長,所以,詞
性特征對識別生物醫學命名實體邊界很有幫助。本系統使用了GENIAtagger2.0.2[8]詞性標注器,GENIAtagger使用了WallStreetJournal語料和PennBioIE語料訓練,因此GENIAtagger在生物醫學領域文本
中詞性標注具有較高性能。(5)語塊特征:系統使用GENIAtagger2.0.2進行語塊標注作為特征。(6)關鍵詞特征:利用統計方法在訓練集中統計出高頻的生物醫學命名實體關鍵詞,將這些詞是否出現
作為特征。(7)別名特征:將已識別出的生物醫學命名實體存放在一個列表中,當系統遇到一個候選詞時,生物醫學命名實體識別算法就被激活,動態決定該候選詞是否是前面已經識別出來的生物醫學
命名實體列表中詞的別名。別名特征屬于全文特征。(8)特征聯合:將相鄰位置的特征進行聯合,得出新的特征,有助于識別長距離詞。本實驗選擇窗口的大小為(-1,+1)。(9)字典特征:使用了
一些字典資源作為特征加入特征向量空間,有CommonWord詞典、Species詞典、Tissue詞典和EndingsofChemicals詞典[9]等。
2.2縮寫詞識別
現在最常用的生物醫學文獻庫是MEDLINE(MEDLARSONLINE),它是由美國國家醫學圖書館于1966年開始建立的,收錄的文獻總量超過1500萬條。據了解,MEDLINE上42.8%以上的摘要有縮寫詞,平均5~10篇
摘要有一個新出現的縮寫詞,并且縮寫詞出現的增長率逐漸升高。很多縮寫詞具有高度歧義性,它的形成沒有任何規律,所以,提高縮寫詞的識別率對生物醫學命名實體的識別研究至關重要。通常,縮
寫形式經常和它的擴展形式一起出現,并通過括號連接,通常有兩種形式:(1)longform(shortform),(2)shortform(longform)。實際當中大部分是第1種形式,當括號中的詞超過兩個時,就認#p#分頁標題#e#
為是第2種形式。在含有括號的句子中,采用文獻[10]中的縮寫詞識別算法,先識別候選詞中的全稱詞,即上述中的longform,要求全稱詞必須和縮寫詞在同一個句子當中。若判斷括號中是縮寫詞,從句
子中去掉括號及里面的縮寫詞,在分類器識別之后,將在原來的位置恢復括號及里面的縮寫詞。如果擴展形式識別為生物醫學命名實體,則將縮寫詞和它的擴展形式分為一類。
2.3其它識別策略
為進一步提高系統識別性能,本文在識別階段還采取如下策略:(1)利用括號對該方法通過檢測兩個相互匹配的圓括號,方括號和雙引號是否被識別為同一個生物醫學命名實體來進行處理,如果是將它
們視為同一個實體,如果不是,不做處理。(2)對and/or連接的生物醫學命名實體進行處理。如果由and/or連接的兩個生物醫學命名實體修飾的是同一個名詞,則把它們合并成一個實體。(3)利用啟
發式語法結構。在生物醫學文獻中,有些語法結構對生物醫學命名實體的存在及其類別具有提示作用,能起到很大的啟發作用。如twodiscretecomplexesNFX1.1andNFX1.2,可以推斷“NFX1.1”和
“NFX1.2”屬于protein類別,因為它們都是“complexes”,而“complexes”是protein類別的高頻后綴詞。(4)過濾掉一些不相關詞。過濾掉一些不相關詞,看似物理單位的形式,如:kg、min、ml
等;看似人名的形式,例如:Milleretal.等。
2.4結果及討論
本文實驗使用的語料是JNLPBA2004[11],其中訓練語料為2000篇,測試語料為404篇。實驗結果由精確率(P)、召回率(R)和F測度(F)評價,且使用全部匹配模式進行評價。JNLPBA測評要求識別出
protein、DNA、RNA、celltype和cellline五類生物醫學命名實體。本文設置了這樣實驗,首先利用選取的特征,訓練實驗數據得到CRFs模型,得到了66.09%的F測度,加入縮寫詞處理辦法,系統識別性
能有了些提高,F測度達到68.61%,再加入其它識別策略,系統識別性能又有了提高,F測度達到70.52%。如表1所示,第1行baseline是初始的CRFs模型識別性能;第2行是加入縮寫詞得到的識別性能,F
測度比baseline提高了2%多,第3行進一步利用本文的其他識別策略,F測度提高了近2%。中列出了本文實驗系統和JNLPBA專題會議相關系統比較的結果,該方法取得了較好的效果。從實驗可以看出,利
用本文選取的特征,達到66.09%的F測度,說明選取的這些特征對生物醫學命名實體識別研究是有效的特征。利用縮寫詞、括號對等識別策略提高了識別性能,主要是因為這些識別策略可以幫助識別CRFs
模型未識別的生物醫學命名實體,還可以幫助CRFs模型調整類型標注錯誤,將錯誤識別出來的候選詞過濾掉,使得本文實驗取得了很好的效果。
3結束語
本文采用CRFs算法,選取豐富的特征集,對縮寫詞進行相關處理,以及采取利用括號對、利用啟發式語法結構等策略,與其它相關實驗比較,識別性能有了一定提高,證明本文采取的算法和策略是有效
的。