前言:中文期刊網精心挑選了自然語言處理范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
自然語言處理范文1
關鍵詞:中文分詞;自然語言處理;算法
1.引言
伴隨著計算機的日益普及,互聯網的迅猛發展,文本的數量(電子郵件、新聞、網頁、科技論文等)在不停的增長,因而對文本作智能化處理以獲取所需信息的需求日益迫切。在這樣的社會需求下,自然語言處理技術的地位和作用日益重要。經過幾十年的研究,計算機處理自然語言的理論基礎日趨成熟,應用范圍也越來越廣,初步形成了面向各種不同應用和研究的技術體系。分詞作為自然語言處理的第一個步驟,是其他高層應用的基礎,起著極其重要的作用。
2.分句處理
2.1 分句處理技術簡介
分句處理就是把句子以某些特定的標點符號為分隔劃分為若干個句子。根據漢語對語句、句群和篇章的定義,主要以基本的標點符號:句號、問號、感嘆號、分號、逗號等作為子句的分隔符。通過使用這些標點符號對語言進行計算機子句分割,完成分句處理。
2.2分句算法的設計
在進行分詞之前首先應對句子進行分割,分為以句子為單位的一個個語句片段。因為以逗號、分號來分隔的語句通常能表達完整的語義信息,所以本文主要使用逗號、分號等標點符號也作為子句分句的分隔符號,以它們為標志進行語句的分句處理。
分句處理的具體算法設計如下:
① 判斷答案字符串aString是否為空,若為空則結束;
② 取aString左側的一個字符存入tChar中,判斷tChar是否是句末標點符或回車符,若不是,轉⑤;
③ 若tChar是句末標點符號,則子句數組下標加1,并將字符tChar從字符串aString中刪掉,轉①;
④ 若tChar為回車符或者換行符,去掉aString左側兩字符,并將字符tChar從字符串aString中刪掉,轉①。
⑤ 將tChar合并到子句數組當前元素中,去掉aString左側一字符,轉①。
上述算法中,aString為待處理的字符串,tChar為字符類型變量。
3.分詞處理
3.1 中文分詞技術簡介
中文分詞(Chinese Word Segmentation)指的是將一個漢字序列切分成一個一個單獨的詞。中文分詞是文本挖掘的基礎,對于輸入的一段中文,成功的進行中文分詞,可以達到電腦自動識別語句含義的效果。中文分詞技術屬于自然語言理解的研究范疇。
目前主要有三種中文詞算法,分別為基于字符串匹配的分詞方法、基于理解的分詞方法和基于統計的分詞方法。介紹如下:
1) 基于字符串匹配的分詞算法
基于字符串匹配的分詞方法也叫機械匹配法,是分詞技術的諸多理論算法中較簡單實用的一種分詞算法。它是按照一定的策略將待分析的漢字串與一個"充分大的"機器詞典中的詞條進行區配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。常用的幾種機械分詞方法如下:① 正向最大匹配法(由左到右的方向)② 逆向最大匹配法(由右到左的方向)③ 最少切分(使每一句中切出的詞數最?。┻€可以將上述各種方法相互組合。
2) 基于統計的分詞方法
在很多情況下,最大匹配時即使采用雙向掃描也不能檢查出所有的交集型切分歧義。為了消除歧義,我們還需要其他知識。這也是自然語言處理里,統計方法出現的原因。這種方法只需對語料中的字組頻度進行統計,不需要切分詞典,因而又叫做無詞典分詞法或統計取詞方法。從形式上看,詞是穩定的字的組合,因此在上下文中,相鄰的字同時出現的次數越多,就越有可能構成一個詞。因此字與字相鄰共現的頻率或概率能夠較好的反映成詞的可信度??梢詫φZ料中相鄰共現的各個字的組合的頻度進行統計,計算它們的互現信息?;ガF信息體現了漢字之間結合關系的緊密程度。當緊密程度高于某一個閾值時,便可認為此字組可能構成了一個詞。
3) 基于理解的分詞方法
通常的分析系統,都力圖在分詞階段消除所有歧義切分現象。而基于理解的分詞方式則在后續過程中來處理歧義切分問題,其切分過程只是整個語言理解過程的一小部分。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現象。它通常包括三個部分:分詞子系統、句法語義子系統、總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。
目前無法作出結論證明以上三個算法中哪一個是最好的,針對具體問題采用不同的算法。這三種算法都有自己的利弊,它們的對比見表1所示:
分詞方法
基于字符串匹配分詞
基于統計的分詞
基于理解的分詞
歧義識別
差
強
強
新詞識別
差
強
強
需要詞典
需要
不需要
不需要
需要語料庫
否
是
否
需要規則庫
否
否
是
算法復雜性
容易
一般
很難
技術成熟度
成熟
成熟
不成熟
實施難度
容易
一般
很難
分詞準確性
一般
較準
準確
分詞速度
快
一般
慢
表1 三種算法優劣比較
3.2自動分詞的評價標準
一般對自動分詞有三個評價標準:正確率、召回率、調和平均數。其定義如下:
由定義可見,分詞正確率和分詞召回率是互相矛盾的,要得到高的分詞召回率需保留多個分詞結果以保證更大可能地包含正確的結果,而這樣卻會降低分詞正確率。所以引入了調和平均數作為評價參數。
3.3分詞算法設計
英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。
目前主流的分詞算法主要有三種,分別為基于字符串匹配的分詞算法、基于理解的分詞算法和基于統計的分詞算法。分詞本文采用的是最大詞長匹配算法。這是一種基于字符串匹配的分詞算法,該方法依據一個分詞詞表和一個基本的切分評估原則,即"長詞優先"原則來進行分詞。這種評估原則雖然在大多數情況下是合理的,但也會引發一些切分錯誤。采用這種方法的原因是它簡單、快速。
最大匹配算法需要一個已知的詞匯數據庫作為支撐,本文以知網數據庫作為該算法的詞庫。最大匹配算法的主要思想如下:
① 首先統計出《知網》數據庫中的最長詞條所包含的字數,本文暫時將稱其為最大詞長,并將該長度記為MaxL;
② 從每個分句中的第一個字開始 向后取L(L≤MaxL)個字;
③ 在《知網》數據庫中查找是否有由此L個字組成的詞。如果有,則一個詞語分解成功,并轉⑤;
④ 將這L個字中的最后一個字去掉,并令L=L-1,轉至第③步驟(直至L=1,說明L已經是一個單字);
⑤ 從這個句子中將該詞刪除,并判斷句子是否已經為空,如果為空,則返回第②步,否則,算法結束。
其中MaxL表示《知網》數據庫中的最長詞條所包含的字數。當前最大詞長L≤MaxL。
4.結束語
中文分詞技術應時代的要求應運而生,在很大程度上滿足了人們對自然語言處理的需要,解決了人和計算機交流中的一些障礙;但中文分詞技術也存在很多困難,我們相信在未來的幾年里,通過對中文分詞技術的深入研究,必將開發出高質量、多功能的中文分詞算法并促進自然語言理解系統的廣泛應用。
參考文獻:
[1] 李向宏,王丁,黃成哲等.自然語言句法分析研究現狀和發展趨勢[J].微處理機,2003,4(2):28-29.
[2] 黃昌寧.中文信息處理的主流技術是什么[J].計算機世界報,2002(2):4.
[3] 曹倩,丁艷,王超,潘金貴.漢語自動分詞研究及其在信息檢索中的應用[J].計算機應用研究,2004.5:71-73.
自然語言處理范文2
關鍵詞:自然語言處理 語言翻譯 人工智能
一、引言
近年來隨著計算機技術和人工智能的快速發展,自然語言信息處理技術已取得了長足的發展。于此同時人們在快速信息檢索、語言翻譯、語音控制等方面的需求越來越迫切。如何將自然語言處理中取得的研究成果應用于文本、語音等方面已成為目前應用研究的一個關鍵。論文將從自然語言信息處理的基礎出發,系統的論述它在語音和文本方面的廣泛應用。
二、自然語言信息處理技術簡介
自然語言信息處理技術產生于上個世紀40年代末期,它是通過采用計算機技術來對自然語言進行加工處理的一項技術。該技術主要是為了方便人與計算機之間的交流而產生的。由于計算機嚴密規范的邏輯特性與自然語言的靈活多變使得自然語言處理技術較復雜。通過多年的發展,該項技術已取得了巨大的進步。其處理過程可歸納為:語言形式化描述、處理算法設計、處理算法實現和評估。其中,語言形式化描述就是通過對自然語言自身規律進行研究,進而采用數學的方法將其描述出來,以便于計算機處理,也可認為是對自然語言進行數學建模。處理的算法設計就是將數學形式化描述的語言變換為計算機可操作、控制的對象。處理算法實現和評估就是通過程序設計語言(如C語言)將算法實現出來,并對其性能和功能進行評估。它主要涉及到計算機技術、數學(主要是建模)、統計學、語言學等多個方面。
三、智能應用
通過多年的研究,自然語言信息處理技術已經取得了巨大的進步,特別是在應用方面。它主要被應用于文本和語音兩個方面。
(一)自然語言信息處理在文本方面的智能應用
在文本方面,自然語言處理技術主要應用在語言翻譯、字符識別、文本信息過濾、信息檢索與重組等方面。其中,語言自動翻譯是一個十分重要并具有極大現實意義的項目。它涉及到計算機技術、數學建模技術、心理學以及語言學等多個方面的學科。通過近些年的努力已得到了一定的發展。自然語言處理技術已在多個方面提升了翻譯的效率和準確性。如自然語言處理中的語言形態分析與歧義分析對翻譯技術來說十分重要,可以很好的處理翻譯中的多意現象和歧義問題,從而提高翻譯的準確性。字符識別具有廣泛的商業應用前景,它是模式識別的一個分支。字符識別的主要過程可分為預處理、識別以及后期處理。目前,字符識別已得到了廣泛的應用,并且效果良好,但還存在識別不準確的問題,其主要問題就出在合理性上,其中后期處理就涉及到采用詞義或語料庫等對識別結果進行合理性驗證,通過該技術就能很好的解決識別不準確的問題,當出現識別不準確、出現多個識別結果時可以通過合理性驗證技術高效的過濾掉異常選項,從而實現快速、準確的識別。目前自然語言信息處理技術在文本方面應用最廣的就是文本檢索。通過采用自然語言信息處理技術,一方面能快速分析用戶輸入信息并進行準確理解為檢索提供更加準確的關鍵詞,并且可以擴展檢索輸入的范圍,讓其不僅僅局限在文本輸入方面,如采用語音輸入或基于圖像的輸入;另一方面,通過采用自然語言信息處理技術可以對搜索到的信息進行處理讓用戶獲取的是更加有效、準確的信息而不是海量的信息源(如許多網頁)。因為將自然語言處理技術與文本重組技術相結合就可以極大的提高檢索的效果,縮小答案的范圍,提高準確性。當然,還可以提高檢索的效率。目前,在中文全文檢索中已得到了廣泛的應用,并且效果良好。
如果能進一步的研究自然語言信息處理技術,將能實現信息的自動獲取與重組,這樣將能實現自動摘要生成、智能文本生成、文件自動分類與自動整理。若能進一步結合人工智能技術,將能實現文學規律探索、自動程序設計、智能決策等諸多方面的應用。這樣可以減輕人類的工作強度,讓我們從繁瑣的基礎工作中走出來,擁有更多思考的時間,從而能更加有效的推動技術的進步。
自然語言處理范文3
我從事計算語言學教學和研究已經50多年,在這半個多世紀的漫長歲月中,針對計算語言學的跨學科性質,我在北京大學學習過語言學,在中國科學技術大學研究生院學習過信息科學,在法國格勒諾布爾理科醫科大學學習過數學,前后花了將近20年的時間更新自己的知識,成為跨學科背景的計算語言學家?,F在我們已經進入了信息網絡時代,以自然語言信息處理作為研究目標的計算語言學正越來越受到語言學家的關注。然而,由于大多數語言學家僅具有文科背景,他們對于計算語言學中涉及的數學知識和計算機知識了解不多,盡管他們懷著關注計算語言學的強烈愿望,可是一旦看到計算語言學的專業文獻、接觸到其中的數學和計算機方面的問題,往往望而生畏,敬而遠之。他們精研通達的語言學知識,難以與數學知識和計算機知識融會貫通起來,這是十分可惜的!
我常常想,如果有計算語言學家能夠用一般語言學家可以理解的方式,深入淺出地闡述計算語言學的原理和方法,一定會吸引更多的語言學家參加到計算語言學的隊伍中,更好地推動我國計算語言學的教學和研究。
2004年我在英國伯明翰大學訪問時,在伯明翰市中心的一個書店里偶然發現了Ruslan Mitkov主編的《牛津計算語言學手冊》,很快就被它簡潔明了、深入淺出的寫作風格吸引住了。我覺得這本書就是我多年來夢寐以求的深入淺出的計算語言學著作,非常適合文科背景的語言學家閱讀,決心把這本書引進到國內來。
2005年回國之后,我馬上找到外語教學與研究出版社的朋友,向他們介紹這本書的價值。他們被我的誠意感動,很快就決定引進這本書,并且與牛津大學出版社商量,雙方一致同意合作在國內出版。2009年9月,《牛津計算語言學手冊》正式在國內發行。這是一件大快人心的好事!
本書由Ruslan Mitkov教授主編,收錄了包括語言學家、計算機專家和語言工程人員在內的49位學者撰寫的38篇針對計算語言學主要領域的綜述性文章,各章的寫作風格力求一致,使得全書前后關聯、渾然一體、可讀性強。《牛津計算語言學手冊》內容豐富、深入淺出,全面地反映了國外計算語言學的最新成果,是我們了解國外計算語言學發展動向的一個窗口,正好滿足了我國語言學界學習和了解國外計算語言學的研究成果和最新動態的要求。
本書主編Ruslan Mitkov是計算語言學家及語言工程專家,畢業于德國德累斯頓大學(Dresden University),現為英國伍爾弗漢普頓大學(University of Wolverhampton)教授。他的研究興趣是回指消解、機器翻譯和自動索引,曾于2002年出版過名為《回指消解》(Anaphora Resolution)的專著。著名計算語言學家Martin Kay(馬丁?凱伊)為本書作序。Martin Kay是美國斯坦福大學語言學教授,曾任計算語言學會主席、國際計算語言學委員會主席,是國際計算語言學界的領軍人物。
二、內容簡介
本書內容分三大部分:1.與計算語言學有關的語言學基礎理論(1~9章);2.計算語言學中自然語言的處理、方法與資源(10~26章);3.計算語言學的應用(27~38章),幾乎涵蓋了計算語言學的所有領域。書末有按照字母順序編排的計算語言學術語表,每個術語均有簡要的定義和解釋,便于讀者查詢。下面分別介紹各章的內容。
第1章“音系學”(phonology)介紹了描寫音系學和計算音系學的基本知識,著重介紹了非線性音系學中的有限狀態模型、音位的特征-值矩陣描述方法以及音系學研究中的計算工具。
第2章“形態學”(morphology)介紹了諸如語素、詞、屈折、派生等形態學的基本知識,分析了形態學對于音系學的影響,著重介紹計算形態學中的有限狀態分析方法,并介紹了雙層形態學和雙層規則的形式化描述方法。最后介紹了結構段形態學。
第3章“詞典學”(lexicography)首先簡要地回顧了詞典學的發展歷史,接著討論了人編詞典在計算機應用中的不足,說明了計算詞典學對于傳統的詞典編纂技術提出的挑戰。本章著重討論了詞匯在計算語言學中的功能以及計算技術在詞典編纂中的作用;說明了計算技術改變了詞典編纂工作的面貌,為新型詞典的編纂提供了有力的技術手段。本章強調指出,計算機輔助的詞典編纂應該成為今后詞典編纂工作的發展方向。
第4章“句法學”(syntax)首先列舉了一些有趣的句法現象,分析了這些現象在計算上的意義,接著介紹正則語法和有限狀態語法、上下文無關的短語結構語法、轉換語法、擴充轉移網絡、各種基于約束的特征結構語法(功能語法、詞匯功能語法、中心語驅動的短語結構語法、PATR語法)。最后,介紹了兩種在語言學和計算上有意義的句法框架(廣義短語結構語法、樹鄰接語法)。
第5章“語義學”(semantics)集中介紹了計算語義學的基本內容。首先討論語義的表示問題,介紹了語義的高階邏輯(higher-order-logic)表示法和語義的特征值矩陣(Attribute-Value Matrix)表示法。其次討論句法語義接口,介紹了“并行對應模型”(Parallel Correspondence Model,簡稱PCM);針對 Frege的“組成性原則”(principle of compositionality),介紹了“非組成性的語義學”。最后介紹了語義解釋的動態模型。
第6章“話語”(discourse)首先列舉了一些話語平面的現象,闡明“話語”研究的對象是句子之間的關聯問題,計算語言學中的話語研究要揭示句子之間關聯的機制。接著討論參照表示(referring expressions)和話語結構(discourse structure),說明參照表示的工作原理和參照表示的選擇方法,并討論主題(theme)與述題(rheme)、話題(topic)與焦點(focus),以及預設(presupposition)、蘊含(implicature)等問題。最后討論“話語樹”(discourse tree),介紹了“修辭結構理論”(rhetorical structure theory)和“中心理論”(centering theory)。
第7章“語用學和對話”(pragmatics and dialogue)討論語用學及其在計算機對話模型中的應用。首先介紹言語行為(speech act)、言外語力(illocutionary force)、合作原則(cooperative principle,簡稱CP)、關聯(relevance)等語用學的基本概念,并且介紹了意圖(intention)、信念(belief)、知識(knowledge)和推論(inference)等與概念表達有關的問題。著重討論了計算語用學中的對話模型(dialogue model),說明了從話語行為到對話行為的計算機制,并介紹了對話的管理模型(dialogue management models)。
第8章“形式語法與形式語言”(formal grammars and languages)介紹形式語言理論的基本知識,分別論述了形式語法和自動機,把形式語法看成是語言的生成裝置,把自動機看成語言的識別裝置。為了便于文科背景的讀者理解本章的內容,對于一些基本概念都給出了定義和實例;為了避免抽象的數學推理,對于一些基本的結論不在數學上加以證明。首先介紹了Chomsky的形式語法,給出了形式語法的Chomsky分類,分別討論了上下文無關語言(context-free languages)、線性和正則語言(linear and regular languages)、半線性語言(semilinear languages)、上下文有關語言(context-sensitive languages)、柔性上下文有關語言(mildly context-sensitive languages)。接著介紹自動機理論,分別討論了有限自動機(finite automata)、下推自動機(pushdown automata)、線性有界自動機(linear bounded automata)、圖靈機(Turing machine)。
第9章“計算復雜性”(complexity)介紹自然語言處理中的計算復雜性問題。首先介紹計算復雜性的度量方法和計算復雜性的類別,分別討論了多項式算法(Polynomial algorithm,簡稱P)和非確定多項式算法(Nondeterministic Polynomial algorithm,簡稱NP),并介紹了自然語言處理中關于“NP完全問題”(NP-complete problem)的一些研究。接著討論正則語言問題的計算復雜性,介紹了確定性(determinism)和非確定性(non-determinism)的概念、線性(linearity)和有限狀態特性(finite-stateness)的概念,說明了有限狀態方法的可應用性。然后討論上下文無關語言的計算復雜性,介紹了基于搜索的上下文無關識別(search-based context-free recognition)、自頂向下識別(top-down recognition)、線性時間與空間中的確定性語法識別(deterministic grammar recognition in linear time and space)。最后討論了概率語法和啟發式搜索、并行處理和實際效用等問題,說明計算復雜性分析在理解自然語言的復雜性以及在建立實際的自然語言處理系統中的用途。
第10章“文本切分”(text segmentation)介紹兩方面的內容:一方面是“詞例還原”(tokenization),一方面是“句子分離”(sentence splitting)。詞例還原的目標是把文本中的單詞、標點符號、數字、字母數字字符切分出來,以便進行進一步處理。本章分別介紹了單詞自動切分、縮寫切分(例如:“Mr.,Dr.,kg.”中的小黑點)、連字符處理(例如:“self-asessment,forty-two,F-16”中的連字符)的技術,并且討論了漢語和日語等東方語言中有關“詞例還原”(也就是“切詞”)的特殊問題。句子分離的目標是把文本中的句子分離出來,在很多自然語言處理系統中,都需要進行句子分離。本章介紹了基于規則的句子分離、基于統計的句子分離、非規范輸入文本中的句子分離等技術。
第11章“詞類標注”(part-of-speech tagging)介紹了詞類標注器(POS tagger)的設計技術以及兼類詞的排歧(disambiguation)方法。簡要回顧了詞類標注發展的歷史,介紹了基于局部性手寫規則的詞類標注器、基于n-元語法的詞類標注器、基于隱馬爾科夫模型(Hidden Markov Models)的詞類標注器、基于機器學習的詞類標注器、基于全局性手寫規則的詞類標注器、基于混合方法的詞類標注器,重點介紹了手工排歧語法(handwritten disambiguation grammars)。
第12章“句法剖析”(parsing)介紹了自動句法剖析的基本概念和關鍵技術。句法剖析的深度因自然語言處理的具體要求的不同而不同,有淺層的句法剖析(shallow parsing),也有深層的句法剖析(deep parsing)。本章首先介紹了淺層句法剖析,這種剖析只要把句子剖析為語塊(chunks)就可以了。之后,介紹了依存剖析(dependency parsing)。在介紹上下文無關剖析(context-free parsing)時,比較詳細地討論了CYK算法、自底向上剖析、左角分析法、自底向上的活性線圖分析法(bottom-up active chart)。在介紹基于合一的剖析(unification-based parsing)時,討論了特征-值矩陣。剖析時可能得到若干個結果,因此,本章還討論了剖析結果的排歧問題。最后,討論了剖析算法準確性的評測、剖析程序的效率以及剖析語法覆蓋面的度量方法等問題。
第13章“詞義排歧”(word-sense disambiguation,簡稱WSD)討論如何利用上下文來確定多義詞的準確意義。首先介紹了在計算語言學研究早期所提出的WSD優選語義學方法、詞專家剖析方法。這些方法由于缺乏可供使用的詞匯資源,出現了“知識獲取的瓶頸問題”(knowledge acquisition bottleneck)。這些問題由于大規模詞匯庫和知識庫的出現而得到緩解,又由于統計方法和機器學習方法的應用而可以從語料庫中獲取精確的數據。近年來,在WSD中普遍使用基于詞典的方法、聯結主義方法(connectionist)、統計方法、機器學習方法,取得了很大的進步。最后討論WSD的評測,介紹了SENSEVAL的評測活動,并介紹WSD的一些實際應用。
第14章“回指消解”(anaphora resolution)首先列舉了一些回指現象,說明了回指現象的各種變體。接著討論回指消解所需要的知識源、回指消解的過程、回指消解在自然語言處理中的應用。最后回顧了回指消解研究的發展歷史和現狀,討論了今后回指消解研究中應當注意的問題。
第15章“自然語言生成”(natural language generation,簡稱NLG)介紹了自然語言生成研究的理論和實踐問題,力圖說明在人們的心智上以及在計算機中,語言究竟是怎樣產生出來的。自然語言生成是一個知識密集的問題,可以從語言學、認知科學和社會學的角度來探討??梢园炎匀徽Z言生成看成一個映射問題,也可以把它看成一個選擇問題,還可以把它看成一個規劃問題。自然語言生成可以分為四個問題:宏觀規劃(macroplanning)、微觀規劃(microplanning)、表層實現(surface realization)、物理表達(physical presentation)。對于宏觀規劃,介紹了說話內容的規劃、文本的規劃,以及使用修辭結構理論的規劃方法;對于微觀規劃,著重介紹了詞匯生成的問題。最后介紹了表層生成的技術。
第16章“語音識別”(speech recognition)研究如何把作為聲學信號的聲波轉換為單詞的序列?,F在,最有效的語音識別方法是語音信號統計建模的方法。本章簡要地介紹了語音識別中的主要方法和技術:聲學語音信號的建模、語音識別中的詞匯表示、語音識別中的語言模型和解碼。重點介紹獨立于說話人的大詞匯量連續語音識別(large-vocabulary continuous speech recognition,簡稱LVCSR)的最新的技術。目前,語音識別主要應用于自動聽寫機的設計、口語對話系統、語音文獻的自動轉寫、語音信息檢索等領域中。最后討論了語音識別技術未來的研究前景。
第17章“文本-語音合成”(text-to-speech synthesis,簡稱TTS)介紹文本-語音合成的最新成果。TTS既涉及自然語言處理技術,也涉及數字信號的處理技術。本章主要從自然語言處理的角度來介紹TTS。首先介紹TTS系統的概貌以及它的商業應用價值。然后描述TTS系統的功能結構以及TTS系統的組成部分,TTS系統中的自動形態-句法分析、自動語音分析、自動韻律生成,說明了如何從文本中近似地計算語音的聲調和時長。最后介紹了聲波生成的兩種技術:規則合成技術(synthesis by rules)與毗連合成技術(concatenative synthesis)。
第18章“有限狀態技術”(finite-state technology)首先舉例介紹有限狀態語言、詞匯轉錄機、重寫規則等基本概念,然后介紹基本正則表達式的運算方法和復雜的正則表達式,最后討論有限狀態網絡的形式特性。
第19章“統計方法”(statistical methods)介紹了計算語言學中的統計方法。目前,統計方法已經成為自然語言處理的主流方法。本章首先介紹數理統計的基本概念(如:樣本空間、概率測度、隨機變量、條件概率、熵、隨機過程)以及如何把它們應用于自然語言的模擬問題,分別介紹了隱馬爾科夫模型(hidden Markov models)和最大熵模型(maximum-entropy models),最后介紹了這些模型的一些技術細節,如:韋特比搜索(Viterbi search)、最大熵方程(maximum-entropy equation)等。
第20章“機器學習”(machine learning)介紹了如何通過有指導的訓練實例(supervised training examples)來自動地獲取語言資源中蘊含的決策樹(decision-tree)和規則(rules),描述了怎樣從經過標注的訓練實例中進行推理的各種算法和知識表達技術,并介紹了如何使用已經獲得的知識來進行分類的基于實例的分類方法(instance-based categorization),較詳細地介紹了k-鄰近分類算法(k nearest-neighbour categorization algorithm)。這些機器學習的技術可以應用來解決計算語言學中的形態分析、詞類標注、句法剖析、詞義自動排歧、信息抽取、前指消解等各種各樣的問題。
第21章“詞匯知識的獲取”(lexical knowledge acquisition)首先介紹了詞匯知識自動獲取的一些背景,包括詞匯知識的形式、詞匯知識獲取的資源和工具、單詞的共現和相似度。然后介紹了從語料庫中自動獲取詞匯的搭配關系(lexical collocation)和聯想關系(lexical association)的方法,詞匯相似度(similarity)計算與敘詞表(thesaurus)構建的方法,動詞的次范疇框架(subcategorization frame)的獲取方法;分析了詞匯語義學(lexical semantics)和詞匯知識獲取的關系。最后介紹了從機器可讀的詞典中獲取詞匯知識的方法。由于在自然語言處理中越來越重視詞匯知識的作用,自然語言處理的形式模型中越來越多地采用“詞匯化”(lexicalized)的方法,詞匯知識的自動獲取是當前計算語言學研究的亮點之一。
第22章“評測”(evaluation)專門討論自然語言處理系統的評測問題。評測是推動自然語言處理研究發展的一個重要手段,評測的結果對于自然語言處理系統的投資者、開發者和使用者都是很有價值的。在自然語言處理技術發展的早期主要使用基于技術的評測(technology-based evaluation),在自然語言處理技術比較成熟時,就可以使用以用戶為中心的評測(user-centred evaluation)。根據評測時的輸入與輸出,評測技術又可以分為分析成分的評測(evaluation of analysis components)、輸出技術的評測(evaluation of output technologies)和交互系統的評測(evaluation of interactive systems)。分析成分的評測把語言映射為它的內部表達作為輸出(例如:有標記的片段、樹形圖、抽象的意義表達式等)。輸出技術的評測要把處理的結果用具體的語言表示出來(例如:文摘、生成的文本、翻譯的譯文等)。這種評測可以分別使用內部評測指標(intrinsic measures)和外部評測指標(extrinsic measures)來進行。交互系統的評測容許用戶與系統進行交互。本章總結了評測的各種技術,并指出它們的優點和缺點。
第23章“子語言和可控語言”(sublanguage and controlled language)首先討論了在限定語義領域中的計算語言學,指出了在當前的水平之下,在某些限定領域中應用自然語言處理技術的必要性。然后舉例說明了某些自發形成的子語言,分析了子語言的特性,討論了子語言在機器翻譯、文本數據抽取、自然語言生成、自動文摘中的應用問題。接著討論可控語言,分析了使用可控語言的必要性和局限性,介紹了可控語言的一個實例――簡化英語AECMA。最后討論子語言與可控語言的關系,分析了把子語言轉變為可控語言的途徑。
第24章“語料庫語言學”(corpus linguistics)主要討論了語料庫在自然語言處理中的應用問題。首先從語料的抽樣框架、語料的代表性、語料的平衡性等方面說明了建立語料庫的基本要求,簡要地回顧了語料庫的發展歷史,然后著重地討論了語料庫的標注(annotation)問題。標注過的語料庫的優點是:開發和研究上的方便性、使用上的可重用性、功能上的多樣性和分析上的清晰性。學術界對于語料庫標注的批評主要來自兩方面:一方面認為,語料庫經過標注之后失去了客觀性,所得到的語料庫是不純粹的;另一方面認為,手工標注的語料庫準確性高而一致性差,自動或半自動的標注一致性高而準確性差,語料庫的標注難以做到兩全其美,而目前大多數的語料庫標注都需要人工參與,因而很難保證語料庫標注的一致性。在分析了語料庫在自然語言處理中的應用問題之后,作者指出,不論標注過的語料庫,還是沒有標注過的語料庫,在自然語言處理中都是有用的,語料庫語言學有助于計算語言學的發展。
第25章“知識本體”(ontology)討論了知識本體及其在自然語言處理中的應用。首先,分別介紹了哲學傳統的知識本體、認知和人工智能傳統的知識本體、語言學傳統的知識本體,并討論了語言學中的知識本體與詞匯語義學的關系;然后,說明在自然語言處理中,知識本體可以用來幫助系統進行語言的結構分析(例如:英語中的PP附著問題、錯拼更正、句法檢錯、語音識別),也可以用來進行局部的自然語言理解(例如:信息檢索中的問題搜索、文本分類),并具體說明了知識本體在信息檢索、信息抽取、自動文摘、語義相似度計算、詞義排歧中的應用。
第26章“樹鄰接語法”(tree-adjoining grammar,簡稱TAG)介紹一種局部化的語法形式模型:樹鄰接語法(TAG)和詞匯化的樹鄰接語法(lexicalized tree-adjoining grammar,簡稱LTAG)。首先討論上下文無關語法CFG的局部化問題,說明TAG與CFG的不同:TAG以句法結構樹作為核心操作對象,在樹的基礎上來組織語言知識,它的產生式規則也對應著樹結構,它以線性的一維形式來表達二維的樹結構;而CFG以符號串作為操作對象,CFG是一個基于符號串的形式語法,而TAG是基于樹的形式語法。然后討論上下文無關語法CFG的詞匯化問題,介紹了LTAG。LTAG對于TAG的擴充主要在于把每一個初始樹(initial tree)和輔助樹(auxiliary tree)都與某一個或某一些叫作“錨點”(anchor)的具體單詞關聯起來。最后討論LTAG的一些重要特性及其與別的形式系統的關系。
第27章“機器翻譯:總體回顧”(machine translation:general overview)介紹了從20世紀50年代到90年代的基于規則的機器翻譯系統(rule-based machine translation,簡稱rule-based MT)的主要概念和方法:直接翻譯方法、中間語言方法、轉換方法、基于知識的方法,并介紹了主要的機器翻譯工具,簡要回顧了機器翻譯的歷史。
第28章“機器翻譯:新近的發展”(machine translation:latest developments)介紹了當前機器翻譯系統的研究、開發和應用的情況,討論了經驗主義的機器翻譯系統:基于實例的機器翻譯(example-based MT)和統計機器翻譯(statistical MT),并把它們與傳統的基于規則的機器翻譯系統進行了對比,同時還介紹了把各種方法融為一爐的混合機器翻譯系統(hybrid MT)。當前基于規則的機器翻譯的開發中,回指消解的研究以及基于中間語言和基于知識的機器翻譯的研究取得較大進展,本章也做了介紹;此外,還介紹了口語的機器翻譯,討論了少數民族語言和不發達語言的機器翻譯前景,討論了因特網上的機器翻譯(特別是網頁翻譯)問題。最后,本章介紹了譯者的電子翻譯工具,特別討論了雙語語料庫、翻譯記憶、雙語上下文索引等問題,并介紹了一些面向譯者的詞處理工具。
第29章“信息檢索”(information retrieval)主要介紹了文本的信息檢索。信息檢索系統的任務在于,對于用戶提出的提問或者命題,給出與之有關的文獻集合,作為檢索的結果。首先分析了信息檢索系統的軟件組成成分,包括文獻處理、提問處理、檢索匹配技術。然后討論自然語言處理技術對于信息檢索的推動和促進作用,講述了如何使用自然語言處理所得到的形態信息、短語信息、句法信息來改進信息檢索中的索引技術,并且指出,當前的趨向是使用語義信息來進行信息檢索。最后展望信息檢索的發展前景。
第30章“信息抽取”(information extraction,簡稱IE)討論如何從自由文本中自動地識別特定的實體(entities)、關系(relation)和事件(events)的方法和技術。本章主要討論兩種類型的信息抽?。阂环N是名稱的自動抽?。╡xtraction of names),一種是事件的自動抽?。╡xtraction of events),并介紹書寫抽取規則的方法。對于名稱的自動抽取,本章介紹了名稱標注器(name tagger);對于事件的自動抽取,介紹了事件識別器(event recognizer)。同時,還介紹了如何從已經標注了有關名稱或事件信息的文本語料庫中自動地學習和抽取規則的方法,這種方法也就是信息抽取的統計模型。最后,介紹了信息抽取的評測和應用。
第31章“問答系統”(question answering,簡稱QA)討論如何從大規模真實的聯機文本中對于指定的提問找出正確回答的方法和技術,這是文本信息處理的一個新的發展趨向。由于QA要對指定的提問給出一套數量不多的準確回答,在技術上,它更接近于信息檢索(information retrieval),而與傳統的文獻檢索(document retrieval)有較大的區別――QA要生成一個相關文獻的表作為對于用戶提問的回答。與信息抽取相比,QA要回答的提問可以是任何提問,而信息抽取只需要抽取事先定義的事件和實體。在開放領域的QA系統中,使用有限狀態技術和領域知識,把基于知識的提問處理、新的文本標引形式以及依賴于經驗方法的回答抽取技術結合起來,這樣,就把信息抽取技術大大地向前推進了一步。本章首先介紹了QA系統的類別和QA系統的體系結構,接著介紹了開放領域QA系統中的提問處理、開放領域QA系統中的提問類型以及關鍵詞抽取技術,并討論了開放領域QA系統中的文獻處理方法和提問抽取方法,最后展示了QA系統的發展前景。
第32章“自動文摘”(text summarization)介紹對單篇或多篇文本進行自動文摘的方法。首先討論自動文摘的性質和自動文摘的過程。接著介紹自動文摘的三個階段:第一階段是主題辨認(topic identification),第二階段是主題融合(topic fusion),第三階段是文摘生成(summary generation);并介紹了多文本的自動文摘。最后,介紹自動文摘的評測方法,討論了自動文摘評測的兩個指標:壓縮比(compression ratio,簡稱CR)和內容保留率(retention ratio,簡稱RR)。
第33章“術語抽取和自動索引”(term extraction and automatic indexing)介紹術語自動處理的技術。術語廣泛地出現在科技文獻中,術語的自動識別對于科技文獻的分析、理解、生成、翻譯具有關鍵性作用。隨著網絡的普及和數字技術的發展,出現在互聯網、政府、工業部門和數字圖書館中的專業文獻日益增多,術語的自動處理對于這些文獻的信息檢索、跨語言問答、多媒體文本自動索引、計算機輔助翻譯、自動文摘等都具有重要作用。本章把面向術語的語言自動處理分為術語發現(term discovery)和術語識別(term recognition)兩個部門,分別介紹了主要的技術和系統,最后介紹了雙語言術語的自動抽取技術。
第34章“文本數據挖掘”(text data mining,簡稱TDM)介紹了本文數據挖掘技術。文本數據挖掘的目的在于從大規模真實文本數據中發現或推出新的信息,找出文本數據集合的模型,發現文本數據中所隱含的趨勢,從文本數據的噪聲中分離出有用的信號。本章首先討論文本數據挖掘與信息檢索的區別,分析了文本數據挖掘與計算語言學和范疇元數據(category metadata)的關系。本章舉出實例,具體說明了怎樣使用生物醫學文獻中的文本數據來推測偏頭痛(migraine headaches)的病因,怎樣使用專利文獻中的文本數據來揭示專利文本與已經發表的研究文獻之間的關系,并介紹了LINDI(Linking Information for Novel Discovery and Insight)系統。這個系統的軟件能夠根據大規模的文本集合來發現文本中蘊含的重要的新信息。
第35章“自然語言接口”(natural language interaction簡稱NLI)介紹計算機自然語言接口系統。這樣的NLI系統可以把用戶使用的口頭自然語言或書面自然語言提出的問題轉化為計算機可以處理的形式。首先介紹了NLI系統的基本組成部分、意義表達語言(meaning representation language,簡稱MRL)、同義互訓軟件(paraphraser)、問題生成軟件(response generator)以及可移植工具(portability tools)。然后介紹口語對話系統(spoken dialogue systems,簡稱SDS),分別介紹了SDS的單詞識別軟件、任務模型、用戶模型、話語模型、對話管理軟件、消息生成軟件、語音合成軟件。最后討論SDS系統的靈活性、現狀以及將來的應用前景。
第36章“多模態和多媒體系統中的自然語言”(natural language in multimodal and multimedia systems)討論自然語言在多模態系統和多媒體系統應用中的重要作用,說明了怎樣把自然的口語或書面語與多媒體輸入協同地融合為一體,怎樣把自然語言與其他的媒體結合起來以生成更加有效的輸出,怎樣使用自然語言處理技術來改善多媒體文獻的存取。首先介紹包含自然語言的多模態和多媒體輸入的分析問題,討論了怎樣把自然語言處理技術作為多模態分析的基礎,怎樣把不同的模態結合起來的技術。接著介紹包含自然語言的多媒體輸出的生成問題,討論了怎樣把自然語言處理技術作為多媒體生成的基礎,并討論了不同模態的協調問題(包括不同模態的配置、不同模態輸出的裁剪、模態輸出中空間和時間的配合)。還討論了用于多媒體數據存取的自然語言處理技術(包括基于自然語言處理的圖形和圖像檢索、圖形和圖像數據庫的自然語言接口、多媒體信息的自然語言摘要)。最后討論在多媒體環境中使用語言的問題。
第37章“計算機輔助語言教學中的自然語言處理”(natural language processing in computer-assisted language learning)介紹在計算機輔助語言教學(computer-assisted language learning,簡稱CALL)中使用自然語言處理技術的問題。首先介紹CALL的發展歷史,接著介紹在自然語言處理背景下的CALL,語料庫與CALL,雙語語料庫,討論自然語言處理技術在形態學教學、語法教學、偏誤的識別與診斷中的應用。最后討論自然語言處理技術在CALL中應用的評估問題。
第38章“多語言的在線自然語言處理”(multilingual on-line natural language processing)討論在因特網上的多語言處理問題。因特網現在已經發展成多語言的網絡,英語獨霸互聯網天下的局面已經成為歷史,非英語的網站越來越多,語言障礙日益嚴重。為了克服語言障礙,機器翻譯當然是一個最重要的手段,除了機器翻譯之外的各種使用自然語言處理技術的多語言處理工具也雨后春筍般地開發出來。本章介紹了語種辨別(language identification)、跨語言信息檢索(cross-language information retrieval,簡稱CLIR)、雙語言術語對齊(bilingual terminology alignment)和語言理解助手(comprehension aids)4個方面的研究情況。語種辨別的目的在于讓計算機自動地判斷書面文本是用什么語言寫的,這顯然是多語言自動處理必須經過的第一步??缯Z言信息檢索CLIR的目的在于使用一種語言提問來檢索其他語言文本的信息。本章介紹了在CLIR中的譯文發現技術(finding translation)、翻譯變體的修剪技術(pruning translation alternatives)和翻譯變體的加權技術(weighting translation alternatives)。在這些應用中,雙語言詞典或多語言詞典是最重要的資源,而這些詞典的覆蓋面可以通過使用雙語言術語對齊的技術來加以提升。語言理解助手的功能在于給用戶提供軟件工具來理解外語書寫的文本,而不必使用全自動機器翻譯的技術。本章介紹了施樂公司歐洲研究中心(Xerox Research Centre Europe,簡稱XRCE)的語言理解助手LocoLex和語義模型,并介紹了施樂公司使用語言助手來改善數字圖書館Callimaque的技術。
本章最后附有各章作者簡介、計算語言學術語表、作者索引和主題索引,便于讀者查閱。
三、簡評
本書是手冊性的專著,有如下三個明顯特點:
1.深入淺出。本書各章寫作風格一致,內容協調,渾然一體,特別適合對計算語言學感興趣和初入門的讀者閱讀。本書使用流暢的文筆和有趣的實例來介紹艱深的技術問題,尤其適合文科背景的讀者閱讀。
2.專家執筆。本書的38章分別由各個領域內的46位知名專家執筆,由于這些專家具有所屬領域的精湛知識,對于自己的領域有深刻的理解,有力地保證了本書的學術質量和專業水平。
3.涵蓋全面。本書幾乎涵蓋了計算語言學的所有領域,反映了當前計算語言學的最新成就,使我們對計算語言學能夠獲得全面而系統的認識。
我國曾經翻譯出版過有關計算語言學和自然語言處理的大部頭專著,如馮志偉和孫樂翻譯的《自然語言處理綜論》(電子工業出版社,2005)被稱為自然語言處理教材的“黃金標準”。但是,這部專著主要針對理工科背景的讀者而寫,數學公式較多,文科背景的讀者閱讀和理解起來常常會感到困難。與《自然語言處理綜論》相比,本書盡量避免使用繁難的數學公式,文筆淺顯而流暢,內容新穎而有趣,更適合文科背景的讀者閱讀。目前,計算語言學這個新興的學科不僅吸引了大量理工科背景的研究人員,同時也有不少文科背景的研究人員投身到計算語言學的研究行列中來。本書的上述特點正好可以滿足文科背景研究人員的需要。當然,由于本書內容涵蓋面廣、專業性強,對理工科背景的研究人員也有很大的參考價值。
自然語言處理范文4
【關鍵詞】網頁信息抽??;HTML;網頁
1.現有的網頁信息抽取方法
1.1基于自然語言處理方式的信息抽取
使用自然語言處理進行信息抽取,需要經過的處理步驟包括:句法分析、語義標注、專有對象的識別(如人物、公司)和抽取規則。具體說來就是把文本分割成多個句子,對一個句子的句子成分(part ofspeech,簡稱為POS)進行標記,然后將分析好的句子語法結構和事先定制的語言模式(規則)匹配,獲得句子的內容即抽取信息。規則可由人工編制,也可從人工標注的語料庫中自動學習獲得。這類信息抽取技術中所用的抽取規則主要建立在詞或詞類間句法關系的基礎上。
基于自然語言處理方式在含有大量自由文本且句子完整、適合語法分析的網頁中的信息抽取取得了較好效果。這種方式的缺陷是:(1)將網頁頁面視為普通文本處理,沒有充分利用網頁文檔獨特于普通文本的層次特性。獲得有效的抽取規則需要大量的樣本學習,處理速度比較慢,這對于網上海量信息來說是一個大問題。
(2)網頁頁面中的文本通常不含有完整的句子,導致這種方法的適用范圍較小。
1.2基于包裝器歸納方式的信息抽取
包裝器歸納法是一種自動構造包裝器的技術。
主要思想是用歸納式學習方法生成抽取規則。用戶在一系列的網頁中標記出需要抽取的數據,系統在這些例子的基礎上歸納出規則。這些規則的精確度如何取決于例子的質量如何。如果能代表那些需要處理的網頁,這些例子就是高質量的。對于我們來說,提供好的樣本網頁要比提供明確的完整的規則要容易。
歸納學習法作為一種機器學習方法用來學習包裝器的規則,優于手動生成包裝器等其他包裝器生成方法的地方在于:自動歸納規則,減輕了人力負擔、減少了人為錯誤,并且當網頁頁面變化時,能對規則做適當調整,適應這種變化。
與自然語言處理方式比較,包裝器較少依賴于全面的句子語法分析和分詞等復雜的自然語言處理技術,更注重于文本結構和表現格式的分析。這種方式更適合于網頁頁面的信息抽取,使用包裝器能充分發掘網頁頁面的結構和格式特征,能避免使用復雜的語言學知識,加快信息抽取的速度。
使用包裝器的困難在于:(1)包裝器的針對性強,可擴展性差。一個包裝器處理一種特定的信息源,從幾個不同信息源中抽取信息,需要一系列的包裝器程序庫,造成巨大的工作量。
(2)可重用性差。包裝器對頁面結構的依賴性強,當出現一類新的網頁頁面或舊的網頁頁面結構變化時,原來的包裝器就會失效,無法從數據源中獲得數據或得到錯誤的數據,這就提出了一個新的問題—包裝器的維護,即包裝器失效時,如何修復失效的包裝器使之繼續正確抽取數據。
(3)缺乏對頁面的語義理解。目前的包裝器主要依賴于原網頁或其后臺數據庫的模式,基本上是一種數據模式的還原,缺乏主動性的對數據的語義理解。
1.3基于Ontology方式的信息抽取
Ontology在哲學中泛指對客觀世界的本體描述,在人工智能領域一般指智能系統中涉及的概念術語及其性質等靜態知識的描述?;贠ntology的信息抽取主要是利用對數據本身的描述信息實現抽取,對網頁結構的依賴較少。
該系統最大的優點是對網頁結構的依賴較少,只要事先創建的應用領域的Ontology足夠強大,系統可以對某一應用領域中各種網頁實現信息抽取。
主要缺點是:(1)需要由領域專家創建某一應用領域的詳細清晰的Ontology,工作量大。
(2)由于是根據數據本身實現信息抽取的,因此在減少了對網頁結構依賴的同時,增加了對網頁中所含的數據結構的要求。如要求內容中包含時間、日期、功號碼等有一定格式的內容。
1.4基于HTML結構的信息抽取
該類信息抽取技術的特點是,根據網頁頁面的結構定位信息。在信息抽取之前通過解析器將網頁文檔解析成語法樹,通過自動或半自動的方式產生抽取規則,將信息抽取轉化為對語法樹的操作實現信息抽取。
以XWRAP為例進行分析。通過交互的方式,由用戶在樣本頁中指定抽取區域的起始位置,系統確定整個抽取區域,并確定區域的類型(table,list等)然后通過可視化的方式,由用戶在樣本頁中指定語義項(如表頭)及與之對應的實例,系統自動產生抽取規則實現信息抽取,最后系統利用啟發信息獲得數據間的層次結構關系,生成XML文檔。
該系統對于不同的區域類型采用不同抽取規則提高系統的靈活性和效率。但是該系統只適合對含有明顯區域結構的網頁進行信息抽取,不支持對普通網頁的抽取,模式的表達能力也非常有限,在學習階段用戶參與太多。
1.5基于網頁查詢的信息抽取
上述的信息抽取工具,采用了不同的原理,抽取,此均不具有通用性?;诰W頁查詢的信息抽取,將網頁信息抽取轉化為使用標準的網頁查詢語言對網頁文檔的查詢,具有通用性和良好的可擴展性。
常用的技術有:搜索引擎技術、網頁查詢語言技術和智能Agent技術。這三類方法各有優缺點。如搜索引擎技術具有查詢條件簡單的優點,但查準率和查全率不高,需要用戶逐一瀏覽才能找到所需要的結果;網頁查詢語言技術具有查詢精度較高的優點,但是目前沒有統一的查詢語言,查詢時需要指定站點,應用面窄;將智能Agent技術應用于網頁查詢的優點是提高了查詢工具的智能化和個性化,缺點是知識庫的構造比較復雜,學習算法的優劣會直接影響查詢結果的準確性。
2.網頁信息抽取面臨的挑戰
(1)目前各類信息抽取技術中生成抽取規則的依據主要有三類:頁面結構信息(HTML語法)、頁面的內容和自然語言語義、語法信息?;诮Y構方式過分依賴網頁的結構、可擴展性弱,基于內容方式又需要復雜的語言知識和自然語言處理技術。因此,應繼續研究如何將基于結構方式和基于文本方式有效的結合起來克服各自的缺點。
(2)機器學習能提高獲取規則的自動化程度,但通常需要大量的樣本頁面,而且需要經過較長時間的學習,信息抽取才能獲得較好的查準率。需要研究如何簡化機器學習的過程,在較短時間內準確獲得需要的信息。
(3)網頁上的信息內容和網頁結構處于不斷地更新和變化中,因此,時刻注意如何感知這種更新和變化,進而修改已有規則,保證信息抽取的正確性。
(4)無論是自然語言處理,還是包裝器技術往往針對一個特定的信息源,一個特定主題和領域,每出現一個新的信息源就要重新構造一套抽取程序,造成系統的可擴展性差。因此,應研究如何最大程度地利用已有的資源(程序、數據等),通過最小程度地改造適應新的信息源,增強系統的可擴展性?!科]
【參考文獻】
[1]韓存鴿,燕敏. Web信息抽取方法研究[J].計算機系統應用,2009,(07).
[2]龍麗,龐弘燊.國外Web信息抽取研究綜述[J].圖書館學刊,2008,(05).
[3]宋明秋,張瑞雪,吳新濤,李文立.網頁正文信息抽取新方法[J].大連理工大學學報, 2009,(04).
自然語言處理范文5
在互聯網時代,用戶對信息的需求已經發生了很大變化,人們大多借助百度和Google這樣的搜索引擎來搜尋自己所需要的信息。但隨著互聯網信息量爆炸式的增長和個性化需求的增強,人們強烈需要在互聯網中篩選出符合自己需求的精確信息,尤其是政府和企業等用戶,更希望在搜索引擎的基礎上進行深入的需求發掘,能夠將信息升級為情報。
“智能計算在自然語言方面的處理就是幫助解決這一問題的?!焙A啃畔⒓夹g有限公司副總裁兼首席科學家周富秋博士介紹說,在互聯網信息挖掘中,智能計算是計算機利用存儲與統計等特長模擬出人類智能效果的技術,通過一系列針對互聯網數據的采集、分析、篩選、萃取等智能化技術手段,運用語義分析、數據挖掘、模式識別等一系列技術,從非結構化數據到結構化數據、從字符到語義,再進行海量計算后,將原始無序的數據轉化成容易理解、價值較高的信息,進而再提煉出有價值的情報,供做決策依據。
對于信息情報方面的智能計算技術,周富秋做了進一步的解釋,互聯網擁有大量的數據和信息,目前主要采用了淺度智能自然語言處理技術(NPL Shallow),通過這種方式提取出來的內容是數據和信息,Google和百度等提供的搜索引擎就是這樣實現的。
要想在數據和信息的基礎上進行精加工,進而生產出精華――情報,需要采用一種叫做深度智能自然語言處理的技術(NPL Deep)。該技術建立在自然語言處理(Nature Language Process,NPL)的基礎上,建立語料庫,進行分類,然后建立規則表和詞表。通過人工篩選出龐大語料庫,按照事先設計的算法,對海量數據進行識別,從中找到對用戶有用的信息和情報。
自然語言處理范文6
關鍵詞: 自然語言理解; 語義相似度; 全文檢索; 在線答疑系統
中圖分類號:TP399 文獻標志碼:A 文章編號:1006-8228(2015)05-10-03
Abstract: The similarity calculation based on natural language understanding is still a research content of the computer language processing technology. Based on the knowledge representation of "HowNet", considering the both factors of depth and density, by using a more sophisticated multivariate semantic similarity algorithm, and with a full-text search matching technology, an online answer system in the limited field is designed and implemented. The experimental results show that, the system is reliable, the answer effect is more obvious, and the desired goal is achieved.
Key words: natural language understanding; semantic similarity; full text retrival; on-line answer system
0 引言
隨著計算機網絡技術的飛速發展,傳統的教學手段已不能滿足當前大信息量的教學內容需求,因此,創造一個在教師指導和引導下學生自主式學習的智能系統平臺很有必要。智能的網絡答疑系統可以利用自然語言處理技術對學生的疑問進行自動匹配處理,它的出現為網絡教學提供了交互的情境,成為支持網絡教學順利進行的重要條件。智能網絡答疑系統是傳統課堂教學的重要補充,并逐漸在學生學習、認知、再學習這樣一個閉環的學習過程中發揮著舉足輕重的作用[1]。
1 設計思想及算法原理
基于計算機自然語言處理技術,充分利用校園網絡資源,通過人機互動等豐富信息表現形式,實現一個智能的、高效的基于自然語言理解的專業課程自動答疑系統。系統設計的關鍵是如何實現快速、高效的智能搜索答案。該過程實際上類似于一個搜索引擎,其核心就是構建一個結構合理、具有完整豐富內容的知識庫,并能夠在自然語言理解的基礎上,快速、準確的完成自動答疑工作。基于自然語言理解的在線答疑系統中兩個關鍵技術分別是:中文分詞技術和相似度計算。
1.1 中文分詞技術
自然語言理解(Natural Language Understanding,簡稱NLU)研究如何讓計算機理解和運用人類的自然語言,使得計算機懂得自然語言的含義,并對人給計算機提出的問題,通過人機對話(man-machine dialogue)的方式,用自然語言進行回答。為了使計算機系統能夠較好地理解用戶提出的問題,首先需要對問題進行處理,這一過程最先用到的最為關鍵的技術就是分詞技術【2,3】。由于中英文之間的語言組織、詞法結構不同,使得中文分詞一直以來成為制約中文自然語言處理的主要因素。而中文文本中,只是字、句和段之間可以通過明顯的分界符來簡單劃界,詞與詞之間沒有天然的分隔符,中文詞匯大多是由兩個或兩個以上的漢字組成,并且語句是連續書寫的。這就要求在對中文文本進行自動分析之前,先將整句切割成小的詞匯單元,即中文分詞(或中文切詞),相比英文語句處理,中文分詞難度更大。
從算法處理上看,目前主要有三種【4-6】:一是基于詞典的分詞方法,它使用機器詞典作為分詞依據,分詞效率高,目前應用范圍較廣;二是基于統計的分詞方法,它是利用統計方法,通過對大規模文本的統計,讓計算機自動判斷的方法,該方法使系統資源開銷較大;三是基于人工智能的分詞方法,如專家系統和神經網絡分詞方法等,這類方法目前尚處于實驗室階段,尚未投入實際應用。
1.2 相似度處理技術
相似度計算在自然語言處理、智能檢索、文本聚類、文本分類、自動應答、詞義排歧和機器翻譯等領域都有廣泛的應用[7]。其計算方法按照基于規則和統計分為兩種情況:一是根據某種世界知識(如Ontology)來計算,主要是基于按照概念間結構層次關系組織的語義詞典的方法,根據在這類語言學資源中概念之間的上下位關系和同位關系來計算詞語的相似度[8];二是利用大規模的語料庫進行統計,這種基于統計的方法主要將上下文信息的概率分布作為詞匯語義相似度的參照依據[9]。
⑴ 常用語義詞典
對于基于語義詞典的相似度計算方法,由于存在計算簡單、基礎條件低、假設條件易于滿足等優點,受到越來越多研究者的歡迎。常用語義詞典主要有[10-12]:WordNet、FrameNet、MindNet、知網(HowNet)、同義詞詞林、中文概念詞典(CCD),以及敘詞表、領域概念網、概念圖等概念網絡結構。本文對于相似度的計算主要是基于知網(HowNet)結構。其概念結構如圖1所示。
⑵ 相似度計算
與概念相似度密切相關的一個概念是語義距離(semantic distance)。在一棵樹形圖中,任何兩個節點之間有且只有一條路徑,在計算語義相似度的時候,這條路徑的長度就可以作為這兩個概念的語義距離的一種度量,通常認為它們是概念關系特征的不同表現形式,兩者之間可以建立一種簡單概念詞相似度用來描述概念樹中兩個節點之間的語義接近程度,一般最常用的是劉群提出的以《知網》為基礎的相似度計算方法[13]:
式⑴中,p1和p2表示兩個概念節點,dis(p1,p2)是樹狀結構中兩節點間的最短距離,α是一個調節參數,表示相似度為0.5時的路徑長度。
文獻[14,15]綜合考慮深度與密度因素,提出了多因素義原相似度計算方法:
式⑵中,h為義原樹深度,l為LCN層次,LCN為最小公共父節點。
文獻[16]認為該方法存在兩點不足:一是該式僅把相似度取為密度、深度因素的算術平均值,顯然對于概念節點分布不均的情況不夠合理;二是該式沒有對密度、深度兩者的影響程度進行分析,這樣對他的使用范圍受到了限制?;诖丝紤],提出了改進的語義相似度計算方法:
式⑶中,l(p1,p2)為分別遍歷概念網中節點p1,p2到達其最小公共父結點所歷經的父結點(包括最小公共父結點)數的最大值。w(p1,p2)為p1,p2所在層概念數的最大值。算法關鍵部分引進了一個調節參數λ(p1,p2),并保證在該參數的作用下,當節點p1,p2所在層概念數較多,即w(p1,p2)增大時,密度因素對相似度的貢獻值大;而當p1,p2離最小公共父結點較遠,即l(p1,p2)增大時,深度因素對相似度的貢獻值較大。同時算法約定,當p1,p2的父結點和最小公共父結點相同,且同層只有p1,p2兩個節點時,調節參數為0.5。該方法即為本文在相似度計算方面采用的算法模型。
2 模型設計
下面我們參考文獻[17],按照一般教師對于問題的處理方式,在上述概念語義相似度計算的基礎上,從計算機建模層面上給出計算機自動答疑模型的建模過程。
Step1:計算條件
已知標準問題庫A可以表示為關鍵詞序列:A=(a1,a2,…,an);學生提問B可以表示為關鍵詞序列:B=(b1,b2,…,bn)。
Step2:相似度計算
⑴ 知識點關鍵詞信息提取
該問題的處理主要通過提取學生問題中每一個關鍵詞,對照系統知識庫,從底層開始遍歷搜索,當找到對應的概念節點時,提取該節點的高度、密度等屬性信息,并保存起來,搜索完成后即可參加相似度的計算。
⑵ 概念相似度求解
概念相似度的計算采用語義相似度技術,設標準問題庫A可以表示為知識點的一個向量組A=(a1,a2,…,an),循環遍歷每一個學生輸入的問題關鍵詞序列,通過概念語義相似度算法可得到任意兩概念之間的相似度Sim(ai,bj),其中i=1,2,…,m,j=1,2,…,n。
Step3:匹配結果輸出
前面已經完成了輸入問題和標準問題庫之間的循環相似度匹配計算,為了將需要的信息提取出來,模型還需要設置一個閥值δ。通過閥值δ這個關卡,將相似度結果大于δ的問題提取出來,并按照降序排列輸出即可。論文答疑系統模型建模流程如圖2所示。
3 系統實現與驗證
系統設計環境為Visual Studio 2005,數據庫服務器為SQL Server 2000。采用B/S網絡模型進行構架設計,按照系統功能需求劃分為用戶表示層、應用邏輯層和數據訪問層三個層面。系統測試界面如圖3所示。
如圖3所示,在答疑系統界面中輸入問句:“計算機包含哪些硬件?”,系統自動分詞后生成的關鍵詞語匯單元為:“計算機;硬件”(其中“包含;哪些”等作為停用詞已經被過濾掉了),然后系統自動在數據庫中檢索匹配,最終反饋了12條相關結果,圖3為部分結果截圖。這里說明一點,反饋結果的多少取決于閥值δ,測試中我們選取的閥值δ為0.8,一般我們取閥值δ在0.8左右即可。
為了進一步驗證系統的查詢能力,我們將剛才的問句調整為:“計算機包含?”,這時系統自動分詞后生成的匯單元只有一個關鍵詞“計算機”,最終匹配結果如圖4所示。
這里讀者或許會發現,系統反饋回來的結果與問題毫不相關。其實,這并不是系統出錯,而是“知網”概念網絡中“計算機”與“硬件、軟件”兩個概念關系比較密切,表現為在概念網絡中的節點位置較為接近,匹配結果相似度值較高,因此才有了上述的結果。也就是說,也許在某些時候當查詢某個概念時,相近的結果就會被檢索出來(或者當不確定查找的問題時,只需輸入相近的問題,也會查詢到想要的答案),這就是基于自然語言理解的語義相似度計算模型優勢所在。
4 結束語
由于漢語詞匯表達的復雜性和詞匯語義概念較強的主觀性,以及具體應用領域的專業性等因素影響,目前基于自然語言理解的相似度計算仍是計算機語言處理技術需深入研究的內容。本文在“知網”知識表示的基礎上,充分考慮“知網”深度和密度因素影響,基于全文檢索匹配技術,設計并實現了一個限定領域內的在線答疑系統,大量的運行結果證明了該系統是可靠的,達到了系統設計的目的。但在準確性方面還存在不足,從第一個測試中可以看出,提問人員真正需要的是:“計算機的硬件組成”。其重點關注的是計算機、硬件,而答案給出了太多的“計算機特點,計算機發展”等其他一些與“計算機”有關的匹配答案,其原因是關鍵詞權重的影響因素沒有體現出來,離真正的自然語言理解還存在一定的距離,這是系統下一步有待改進的地方。
參考文獻:
[1] 馮志偉.自然語言問答系統的發展與現狀[J].外國語,2012.35(6):28-30
[2] 黃,符紹宏.自動分詞技術及其在信息檢索中的應用研究[J].現代圖書情報技術,2001.3:26-29
[3] 沈斌.基于分詞的中文文本相似度計算研究[D].天津財經大學,2006:12-17
[4] 張波.網絡答疑系統的設計與實現[D].吉林大學,2006:30-31
[5] 張麗輝.計算機領域中文自動問答系統的研究[D].天津大學,2006:14-18
[6] 朱.中文自動分詞系統的研究[D].華中師范大學,2004:12-13
[7] 周舫.漢語句子相似度計算方法及其應用的研究[D].河南大學,2005:24-25
[8] 于江生,俞士汶.中文概念詞典的結構[J].中文信息學報,2002.16(4):13-21
[9] 胡俊峰,俞士汶.唐宋詩中詞匯語義相似度的統計分析及應用[J].中文信息學報,2002.4:40-45
[10] Miller G A, Fellbaum C. Semantic network of English [M]//Levin B, pinker S. lexical & conceptual semantics. Amsterdam, Netherlands: E lsevier Science Publishers,1991.
[11] Baker C F. The Berkeley frameNet project [C]//Proceeding ofthe COLING -ACL.98.Montreal, Canada,1998:86-90
[12] 黃康,袁春風.基于領域概念網絡的自動批改技術[J].計算機應用研究,2004.11:260-262
[13] 劉群,李素建.基于“知網”的詞匯語義相似度計算[C].第三屆漢語詞匯語義學研討會論文集,2002:59-76
[14] AGIRREE, RIGAU G. A Proposal for Word Sense Disambigua-tion Using Conceptual Distance[EB/OL],1995:112-118
[15] 蔣溢,丁優,熊安萍等.一種基于知網的詞匯語義相似度改進計算方法[J].重慶郵電大學(自然科學版),2009.21(4):533-537