前言:中文期刊網精心挑選了語音識別技術范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
語音識別技術范文1
關鍵詞: 語音識別; 識別原理; 聲學建模方法; 多維模式識別系統
中圖分類號: TN912.3?34 文獻標識碼: A 文章編號: 1004?373X(2013)13?0043?03
Summary of speech recognition technology and its application
YU Lin?lin
(Naval Aviation Military Representative Office Stationed in Beijing, Beijing 100041, China)
Abstract: As a key technology of human?computer interface in information technology, speech recognition has great research significance and broad application value. the development history of speech recognition technology is introduced, the basic knowledge of speech recognition is expounded, such as concept, basic principle, the acoustic modeling approach. The application of speech recognition technology in various fields are briefly introduced.
Keywords: speech recognition; recognition principle; acoustic modeling approach; multi?dimension pattern recognition system
0 引 言
語言是人類相互交流最常用、最有效、最重要和最方便的通信形式,語音是語言的聲學表現,與機器進行語音交流是人類一直以來的夢想。隨著計算機技術的飛速發展,語音識別技術也取得突破性的成就,人與機器用自然語言進行對話的夢想逐步接近實現。語音識別技術的應用范圍極為廣泛,不僅涉及到日常生活的方方面面,在軍事領域也發揮著極其重要的作用。它是信息社會朝著智能化和自動化發展的關鍵技術,使人們對信息的處理和獲取更加便捷,從而提高人們的工作效率。
1 語音識別技術的發展
語音識別技術起始于20世紀50年代。這一時期,語音識別的研究主要集中在對元音、輔音、數字以及孤立詞的識別。
20世紀60年代,語音識別研究取得實質性進展。線性預測分析和動態規劃的提出較好地解決了語音信號模型的產生和語音信號不等長兩個問題,并通過語音信號的線性預測編碼,有效地解決了語音信號的特征提取。
20世紀70年代,語音識別技術取得突破性進展?;趧討B規劃的動態時間規整(Dynamic Time Warping, DTW)技術基本成熟,特別提出了矢量量化(Vector Quantization,VQ)和隱馬爾可夫模型(Hidden Markov Model,HMM)理論[1]。
20世紀80年代,語音識別任務開始從孤立詞、連接詞的識別轉向大詞匯量、非特定人、連續語音的識別,識別算法也從傳統的基于標準模板匹配的方法轉向基于統計模型的方法。在聲學模型方面,由于HMM能夠很好的描述語音時變性和平穩性,開始被廣泛應用于大詞匯量連續語音識別(Large Vocabulary Continous Speech Recognition, LVCSR)的聲學建模[2?3];在語言模型方面,以N元文法為代表的統計語言模型開始廣泛應用于語音識別系統[4]。在這一階段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神經網絡的語音建模方法開始廣泛應用于LVCSR系統,語音識別技術取得新突破。
20世紀90年代以后,伴隨著語音識別系統走向實用化,語音識別在細化模型的設計、參數提取和優化、系統的自適應方面取得較大進展[5]。同時,人們更多地關注話者自適應、聽覺模型、快速搜索識別算法以及進一步的語言模型的研究等課題[6]。此外,語音識別技術開始與其他領域相關技術進行結合,以提高識別的準確率,便于實現語音識別技術的產品化。
2 語音識別基礎
2.1 語音識別概念
語音識別是將人類的聲音信號轉化為文字或者指令的過程[7]。語音識別以語音為研究對象,它是語音信號處理的一個重要研究方向,是模式識別的一個分支。語音識別的研究涉及微機技術、人工智能、數字信號處理、模式識別、聲學、語言學和認知科學等許多學科領域,是一個多學科綜合性研究領域[8]。
根據在不同限制條件下的研究任務,產生了不同的研究領域。這些領域包括:根據對說話人說話方式的要求,可分為孤立字(詞)、連接詞和連續語音識別系統;根據對說話人的依賴程度,可分為特定人和非特定人語音識別系統;根據詞匯量的大小,可分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識別系統。
2.2 語音識別基本原理
從語音識別模型的角度講,主流的語音識別系統理論是建立在統計模式識別基礎之上的。語音識別的目標是利用語音學與語言學信息,把輸入的語音特征向量序列[X=x1,x2,…,xT]轉化成詞序列[W=w1,w2,…,wN]并輸出?;谧畲蠛篁灨怕实恼Z音識別模型如下式所示:
[W=argmaxW{P(W|X)}=argmaxWP(W|X)P(W)P(X)=argmaxW{P(X|W)P(W)}=argmaxW{logP(X|W)+λlogP(W)}]
上式表明,要尋找的最可能的詞序列[W],應該使[P(X|W)]與[P(W)]的乘積達到最大。其中,[P(X|W)]是特征矢量序列[X]在給定[W]條件下的條件概率,由聲學模型決定。[P(W)]是[W]獨立于語音特征矢量的先驗概率,由語言模型決定。由于將概率取對數不影響[W]的選取,第四個等式成立。[logP(X|W)]與[logP(W)]分別表示聲學得分與語言得分,且分別通過聲學模型與語言模型計算得到。[λ]是平衡聲學模型與語言模型的權重。從語音識別系統構成的角度講,一個完整的語音識別系統包括特征提取、聲學模型、語言模型、搜索算法等模塊。語音識別系統本質上是一種多維模式識別系統,對于不同的語音識別系統,人們所采用的具體識別方法及技術不同,但其基本原理都是相同的,即將采集到的語音信號送到特征提取模塊處理,將所得到的語音特征參數送入模型庫模塊,由聲音模式匹配模塊根據模型庫對該段語音進行識別,最后得出識別結果[9]。
語音識別系統基本原理框圖如圖1所示,其中:預處理模塊濾除原始語音信號中的次要信息及背景噪音等,包括抗混疊濾波、預加重、模/數轉換、自動增益控制等處理過程,將語音信號數字化;特征提取模塊對語音的聲學參數進行分析后提取出語音特征參數,形成特征矢量序列。語音識別系統常用的特征參數有短時平均幅度、短時平均能量、線性預測編碼系數、短時頻譜等。特征提取和選擇是構建系統的關鍵,對識別效果極為重要。
圖1 語音識別基本原理框圖
由于語音信號本質上屬于非平穩信號,目前對語音信號的分析是建立在短時平穩性假設之上的。在對語音信號作短時平穩假設后,通過對語音信號進行加窗,實現短時語音片段上的特征提取。這些短時片段被稱為幀,以幀為單位的特征序列構成語音識別系統的輸入。由于梅爾倒譜系數及感知線性預測系數能夠從人耳聽覺特性的角度準確刻畫語音信號,已經成為目前主流的語音特征。為補償幀間獨立性假設,人們在使用梅爾倒譜系數及感知線性預測系數時,通常加上它們的一階、二階差分,以引入信號特征的動態特征。
聲學模型是語音識別系統中最為重要的部分之一。聲學建模涉及建模單元選取、模型狀態聚類、模型參數估計等很多方面。在目前的LVCSR系統中,普遍采用上下文相關的模型作為基本建模單元,以刻畫連續語音的協同發音現象。在考慮了語境的影響后,聲學模型的數量急劇增加,LVCSR系統通常采用狀態聚類的方法壓縮聲學參數的數量,以簡化模型的訓練。在訓練過程中,系統對若干次訓練語音進行預處理,并通過特征提取得到特征矢量序列,然后由特征建模模塊建立訓練語音的參考模式庫。
搜索是在指定的空間當中,按照一定的優化準則,尋找最優詞序列的過程。搜索的本質是問題求解,廣泛應用于語音識別、機器翻譯等人工智能和模式識別的各個領域。它通過利用已掌握的知識(聲學知識、語音學知識、詞典知識、語言模型知識等),在狀態(從高層至底層依次為詞、聲學模型、HMM狀態)空間中找到最優的狀態序列。最終的詞序列是對輸入的語音信號在一定準則下的一個最優描述。在識別階段,將輸入語音的特征矢量參數同訓練得到的參考模板庫中的模式進行相似性度量比較,將相似度最高的模式所屬的類別作為識別中間候選結果輸出。為了提高識別的正確率,在后處理模塊中對上述得到的候選識別結果繼續處理,包括通過Lattice重打分融合更高元的語言模型、通過置信度度量得到識別結果的可靠程度等。最終通過增加約束,得到更可靠的識別結果。
2.3 聲學建模方法
常用的聲學建模方法包含以下三種:基于模式匹配的動態時間規整法(DTW);隱馬爾可夫模型法(HMM);基于人工神經網絡識別法(ANN)等。
DTW 是較早的一種模式匹配的方法。它基于動態規劃的思想,解決孤立詞語音識別中的語音信號特征參數序列比較時長度不一的模板匹配問題。在實際應用中,DTW通過計算已預處理和分幀的語音信號與參考模板之間的相似度,再按照某種距離測度計算出模板間的相似度并選擇最佳路徑。
HMM是對語音信號的時間序列結構所建立的統計模型,是在馬爾可夫鏈的基礎上發展起來的,它是一種基于參數模型的統計識別方法。HMM可模仿人的言語過程,可視作一個雙重隨機過程:一個是用具有有限狀態數的馬爾可夫鏈來模擬語音信號統計特性變化的隱含的隨機過程,另一個是與馬爾可夫鏈的每一個狀態相關聯的觀測序列的隨機過程[10]。
ANN以數學模型模擬神經元活動,將人工神經網絡中大量神經元并行分布運算的原理、高效的學習算法以及對人的認知系統的模仿能力充分運用到語音識別領域,并結合神經網絡和隱含馬爾可夫模型的識別算法,克服了ANN在描述語音信號時間動態特性方面的缺點,進一步提高了語音識別的魯棒性和準確率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估計音素或狀態的后驗概率。2011年,微軟以深度神經網絡替代多層感知機形成的混合模型系統大大提高了語音識別的準確率。
3 語音識別的應用
語音識別技術有著非常廣泛的應用領域和市場前景。在語音輸入控制系統中,它使得人們可以甩掉鍵盤,通過識別語音中的要求、請求、命令或詢問來作出正確的響應,這樣既可以克服人工鍵盤輸入速度慢,極易出差錯的缺點,又有利于縮短系統的反應時間,使人機交流變得簡便易行,比如用于聲控語音撥號系統、聲控智能玩具、智能家電等領域。在智能對話查詢系統中,人們通過語音命令,可以方便地從遠端的數據庫系統中查詢與提取有關信息,享受自然、友好的數據庫檢索服務,例如信息網絡查詢、醫療服務、銀行服務等。語音識別技術還可以應用于自動口語翻譯,即通過將口語識別技術、機器翻譯技術、語音合成技術等相結合,可將一種語言的語音輸入翻譯為另一種語言的語音輸出,實現跨語言交流[11]。
語音識別技術在軍事斗爭領域里也有著極為重要的應用價值和極其廣闊的應用空間。一些語音識別技術就是著眼于軍事活動而研發,并在軍事領域首先應用、首獲成效的,軍事應用對語音識別系統的識別精度、響應時間、惡劣環境下的頑健性都提出了更高的要求。目前,語音識別技術已在軍事指揮和控制自動化方面得以應用。比如,將語音識別技術應用于航空飛行控制,可快速提高作戰效率和減輕飛行員的工作負擔,飛行員利用語音輸入來代替傳統的手動操作和控制各種開關和設備,以及重新改編或排列顯示器上的顯示信息等,可使飛行員把時間和精力集中于對攻擊目標的判斷和完成其他操作上來,以便更快獲得信息來發揮戰術優勢。
4 結 語
語音識別的研究工作對于信息化社會的發展,人們生活水平的提高等方面有著深遠的意義。隨著計算機信息技術的不斷發展,語音識別技術將取得更多重大突破,語音識別系統的研究將會更加深入,有著更加廣闊的發展空間。
參考文獻
[1] 馬志欣,王宏,李鑫.語音識別技術綜述[J].昌吉學院學報,2006(3):93?97.
[2] RABINER L R, JUANG B H. An introduction to hidden Markov models [J]. IEEE ASSP Magazine, 1986, 3(1): 4?16.
[3] GALES M, YOUNG S. The application of hidden Markov models in speech recognition [J]. Foundations and Trends in Signal Processing, 2008, 1(3): 195?304.
[4] JELINEK F. Continuous speech recognition by statistical methods [J]. Proceedings of the IEEE, 1976, 64(4): 532?556.
[5] 倪崇嘉,劉文舉,徐波.漢語大詞匯量連續語音識別系統研究進展[J].中文信息學報,2009,23(1):112?123.
[6] 顧亞強.非特定人語音識別關鍵技術研究[D].長沙:國防科學技術大學,2009.
[7] 中華人民共和國國家質量監督檢驗檢疫總局.GB/T21023?2007 中文語音識別系統通用技術規范[S].北京:中國標準出版社,2007.
[8] 王文慧.基于ARM的嵌入式語音識別系統研究[D].天津:天津大學,2008.
[9] 何湘智.語音識別的研究與發展[J].計算機與現代化,2002(3):3?6.
語音識別技術范文2
關鍵詞:語音識別過程;動態時間規整;隱馬爾科夫模型;人工神經網絡;語音識別的應用
中圖分類號:TN912.34
1 語音識別技術基本原理及過程介紹
語音識別系統由語音信號預處理、特征提取、模式匹配三部分構成。第一步預處理,主要有A/D變換、預加重和端點檢測部分。經過預處理之后的語音信號,要進行第二步特征提取,該過程就是在原始語音信號中提取出所需要的特征參數,從而得到特征矢量序列,特征提取完成后,接下來就是語音識別的核心,也就是第三步模式匹配,也就是模式識別。系統框圖如下[1]。
圖1 一般語音識別系統框圖
2 語音識別方法
目前,主要的語音識別方法主要有特征參數匹配法、隱馬爾可夫法和人工神經網絡法。
2.1 動態時間規整
動態時間規整(DTW)是早期的模式匹配方法。由于語音信號是一種隨機性非常大的信號,例如相同的字,不同人說時的發音會不同,時間長短也會不同,即便是同一個人說相同的語句,發音結果也會不同,于是,在模式匹配時,要識別字詞的時間軸將不斷扭曲,以測試模板與參考模板對齊。DTW是一個比較典型的優化問題,它用滿足一定條件的時間規整函數W(n)描述測試模板和參考模板的時間對應關系,求解兩模板匹配時累計距離最小所對應的規整函數。動態時間規整也存在一些問題,它的計算量大,比較適合同一個人說話語音的識別,而且不能對樣本做動態訓練,語音信號的時序動態特性并沒有很好地利用,所以DTW多用于孤立字詞的識別。
2.2 隱馬爾可夫模型
隱馬爾可夫模型(HMM)是一種統計模型,用來描述隨機過程的統計特性。它是由馬爾可夫鏈演變來的。[2]
HMM可用三元組表示:λ=(π,A,B)
A:狀態轉移概率的集合。
B:觀察概率的集合,表示每個狀態輸出相應觀察值的概率。
π:系統初始狀態的集合。
這三個元素π,A,B可以分為由π、A描述的Markov鏈和由B描述的隨機過程。
HMM是一種理想的語音信號模型,如今,連續語音識別,非特定人識別系統大多是基于HMM模型的。HMM是對語音序列的時間序列結構建立統計模型的,HMM是數學上的雙重隨機過程:一個是具有有限狀態數的Markov鏈來模擬語音信號統計特性變化的隱含的隨機過程,另一個是與Markov鏈的每一個狀態相關聯的觀測序列的隨機過程[3]。
盡管馬爾可夫模型是一種理想的語音信號模型,但是它還有很多不足。HMM有三個不現實的重要假設,假設一“狀態轉移的Markov假設”:系統在當前時刻的狀態向下一時刻所處的狀態轉移的狀態轉移概率僅僅與當前時刻的狀態有關,而與以前的狀態無關。假設二“不動性假設”:狀態與具體時間無關。假設三“輸出值的Markov假設”:輸出僅與當前狀態有關。這三個假設之所以不合理,是因為任一時刻出現的觀測值的概率不僅是依賴于系統當前所處的狀態,也可能依賴于系統之前時刻所處的狀態[4]。
2.3 人工神經網絡
人工神經網絡(ANN)是在模擬人腦神經組織的基礎上發展起來的全新計算機系統。ANN是模擬人類思維中“信息的處理是通過神經元之間同時相互作用的動態過程來完成思維”。ANN是一種非線性動力學系統,它的特點在于信息的分布式儲存和并行協同處理。單個神經元的結構簡單,但是大量的神經元所構成的神經網絡卻是一種復雜的網絡。ANN更接近于人的認知過程。人工神經網絡也存在一些不足,它的訓練、識別時間較長、動態時間規整能力較弱并且不容易實現。
3 語音識別的應用和前景
如今的科技領域,幾乎每天都有新的技術,新的研究成果出現,而語音識別也是這科技研究的一熱門領域,也應用到了人類生活的方方面面。
語音識別的應用非常廣泛,語音輸入技術的出現,可以使人們通過說話,而非手動輸入來作出正確的響應,這樣使輸入變的更加簡單,提高了工作學習的效率。語音識別技術可以應用于汽車,可以使駕駛員用語音指令操縱車載設備,提高汽車駕駛的安全性和舒適性。將語音識別、語言理解與大量的數據庫檢索和查詢技術相結合,就能夠實現更輕松的信息查詢方式。比如,圖書館的資料信息將能夠對來自用戶的語音輸入進行理解,并將它轉化為相應的指令,從數據庫中獲取結果并返回給用戶。這種技術同樣可以運用于銀行服務、醫療服務等方面。語音識別技術還可以應用于口語翻譯,例如,可以讓與聾啞人對話的對方帶上一個智能語音識別的微型攝像裝置,或者給聾啞人帶上一種特制的手套,然后,就可以通過語音合成技術和語音識別技術將手語翻譯成聲音語言,同時,系統還能夠完成將正常人的語言翻譯成聾啞人的手語,這種口語翻譯一種語音輸入翻譯為另一種語言的語音輸出。除此之外,語音識別在軍事,航空等領域也有廣闊的應用空間。語音識別將不斷發展,不斷豐富人類的生活。
參考文獻:
[1]趙力.語音信號處理第2版[M].北京.機械工程出版社,2009(05).
[2]何彥斌,楊志義,馬薈.一種基于HMM的場景識別方法[J].計算機科學,2011(04):254-256.
[3]呂云芳,基于模板匹配法的語音識別系統研究與基本實現[D].天津:河北工業大學,2005.
[4]劉云中,林亞平,陳治平.基于隱馬爾可夫模型的文本信息抽取[J].系統仿真學報,2004(03):507-510.
語音識別技術范文3
此外,對于超聲科等醫技科室,由于醫生工作的特殊性,大多通過“一對一”聘請專業錄入員的方式提高檢查報告錄入效率。有些醫院為了節約人力,讓醫生把給病人檢查時的語音通過錄音設備錄制下來,后續通過錄入員測聽音頻文件進行轉錄,實現一個錄入員服務多個醫生,以此在一定程度上節約人力,但同時也延長了輸出檢查報告的時間。 在電子文本的錄入過程中基于模板填寫具體信息工作量還是比較大的。
另外,模板僅能解決一些常規情況的描述,如果完全按照模板填寫,對每位患者的情況記錄就缺少了個性化描述,不利于后續診斷使用。為提高文本錄入效率,有些醫生會使用“復制”、“粘貼”方式,通過在相似患者的病歷上進行修改完成病歷記錄,但有漏改、漏刪情況,這種方式在很大程度上增加了病歷記錄的出錯率,對醫療文本錄入的準確性是一個比較大的挑戰。
語音識別技術在醫療領域的應用越來越多
語音識別技術在歐美國家醫療領域已使用將近10年,主要用于節約醫生電子文本錄入的時間,降低文本錄入工作難度,提高醫生工作滿意度,讓醫生把更多時間和精力用在與患者及家俟低交流、為更多患者診斷等事情上。
美國Nuance公司的英文語音識別技術及電腦輔助病歷抄寫系統,醫生可使用掌上移動型設備將病患看診狀況口述下來,存成語音檔案,直接傳送到語音識別服務器,10小時的語音可在5分鐘內完成轉錄,大大縮短音頻文件轉錄文本的時間?;始绎w利浦電子公司推出的面向醫療領域實時語音識別的專用麥克風,表面采用符合醫療專業要求的防菌抑菌材質,并定制了針對實時語音識別所需的聲學硬件模塊,使醫院工作站實時語音識別實現成功應用,并已在歐美醫院成功推廣。在放射科等文本錄入工作量很大的醫技科室尤其受到歡迎。
從統計資料看,美國臨床中使用語音識別錄入的應用比例已達到10%~20%,主要用于放射科、病理科、急診室等部門,有效控制電子文本記錄及診斷報告生成時間和質量,明顯提高工作效率。
語音識別技術是理想的人機交互方式之一,它能夠讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令。北京協和醫院在國內首先提出使用語音識別技術錄入醫療領域電子文本時,醫生紛紛表示擔憂,在國內的醫療中語音識別技術的使用和推廣面臨以下幾個難點。
目前國內主流的HIS系統已做了大量工作減少醫生輸入病歷、醫囑時的工作量,如提供大量結構化的病歷。醫生已習慣這種工作模式。通過語音識別來錄入電子文本,尤其在超聲科、門診等環節,醫生需要一個熟悉過程。
國內醫生的工作環境較復雜,口音等問題也較國外更加突出,醫療特殊單位特殊符號較多,如何保證識別的準確率,讓醫生用的更加流暢,也是這個項目面臨的重要挑戰之一。國內移動醫療的趨勢越來越明顯,基于移動端小屏幕的文本輸入一直是語音識別應用致力于解決的問題。如何保障醫院復雜環境下移動端的語音識別效果是需要探討的問題之一。
由于醫療行業的專業性較強,每個學科差異較大,所使用的信息化系統也比較分散,如影像科使用PACS,內科使用HIS等。需要錄入文字的工作量較大,但使用的信息化系統較多,要求提供的語音錄入文本解決方案,需同時支持多個信息化系統使用,且最大限度降低與原有系統的耦合性。
以上問題,經過為期1年的醫療領域語音識別應用探索和實踐,都得到較好解決,超過95%的中文醫療垂直領域語音識別準確率已達到實用水平,中文醫療語音識別技術探索應用方案得到北京協和醫院醫生認可。
北京協和醫院語音識別應用探索和實踐
醫療語音識別技術的應用,能將醫生口述的語音轉成準確度高、完全格式化的初步文件,醫生可快速加以核對、編輯,每天可節約1小時左右時間。醫生普遍認為語音錄入病歷可提高文字輸入效率,降低工作難度,從總體上提高醫院收容處理病人的能力,同時縮短病人的無效等待時間,增加病人滿意度。
針對中文醫療語音識別的技術難點,北京協和醫院做了很多探索實踐工作。
一是定制醫療領域語言模型:針對各科室業務進行梳理,整理了超過30G的醫療文本資料,并對這些資料進行分類、檢索等處理。使得定制語音模型覆蓋各個科室常用的病癥、藥品名稱、操作步驟等關鍵信息,使語音識別準確率超過95%的水平。 二是定制個性化語言模型:不同科室的醫生在錄入醫囑時說的話也不同。北京協和醫院語音錄入系統和用戶的賬號系統綁定。醫生登錄HIS時會加載所在科室的語言模型,這樣就可以有效降低模型大小,提高識別準確度。同時醫生也可根據自己的使用習慣,向系統中添加自己常用的詞匯。 三是一體化私有建設:實現一套私有化部署的語音云支持多渠道多終端的一體化建設。除支持HIS、PACS等PC端應用,還支持移動查房等pad端應用,真正實現跨平臺的多渠道互聯互通應用,大大降低醫療信息化建設成本。 醫療語音識別系統采用分布式計算,具有高健壯性、高度靈活性、高性價比等特點,主要包括操作系統層、引擎層、資源包和管理工具4個層次。操作系統層提供開發接口,以及開發人員關注的接口定義、功能和使用方法;引擎層提供核心的語音處理功能,作為應用接口的功能實現者;在引擎層之上提供覆蓋醫療領域的資源包,為科室提供語音識別優化的功能。同時系統完美地支持傳統API調用和手機APP開發,為醫院原有信息化系統提供了相關接口和SDK。
北京協和醫院醫療語音識別應用效果初現
據了解,醫療語音識別已在北京協和醫院病房、醫技科室、手術休息區進行了嘗試使用。為更好地測試語音識別效果,北京協和醫院組織醫生進行了語音識別系統測試和主觀體驗,隨機抽樣了135例樣本進行精確統計。
已上線科室使用醫療語音識別系統的醫生表示,該系統的語音識別效果較好,可以有效提高工作效率,降低工作強度,減輕工作量,尤其對長段信息、自由醫囑錄入的效果明顯。超過50%的大夫認為語音識別技術每天可節約1小時左右時間。超過90%的大夫希望使用語音錄入方式,以提高工作效率。
語音識別技術范文4
【關鍵詞】競爭學習;廣度優先搜索鄰居;矢量量化;碼本
1.引言
現存的一些矢量量化方法一般都需要預先確定碼本大小,比如LBG[1],K-means算法等,然而在現實條件很難預先確定碼本大小。由中山大學賴劍煌教授和王長東提出的基于能量的競爭學習算法[2]應用在圖像分割中,這種算法能自動確定數據聚類個數,能夠保持類的大小(即一個類中所包含的樣本個數)和稀疏度(類中樣本的稀疏程度)均衡,并且具有自適應學習速率;本文嘗試將基于能量的競爭學習算法應用到特定人漢語數字0-9語音識別中,在基于能量的競爭學習算法確定初始化碼字中,筆者用廣度優先搜索鄰居的聚類算法進行了改進。
2.基于能量的競爭學習算法及其改進
3.2 實驗結果
4.結論
本文將EBCL學習算法運用在特定人的數字語音識別中,這個算法的優點就是能夠自動初始化,自動確定碼本的大小,這是此算法相對于以往的矢量量化算法所不具備的優點。從表1可以看出基于EBCL的數字語音識別可以達到較高的識別率,比經典的LBG算法的識別率還要高;LBG算法在碼本提取中需要事先確定碼本大小而EBCL能夠自動確定碼本大小,從表2中可以看出,在識別率相當的情況下,用EBCL算法獲得的每個數字語音的碼本大小不盡相同而LBG算法獲得的碼本大小是固定的;EBCL獲得的碼本的大小相對于LBG的更小,這樣使得碼本存儲空間更小,EBCL算法識別時間更短。將此算法運用到非特定人數字語音識別中時我們今后工作的重點。
參考文獻
[1]劉剛,劉晶,王泉.使用新的碼字分割方法的快速LBG算法[J].計算機工程與應用,2009,45(28):199-202.
[2]Chang-DongWang,Jiang-HuangLai.Energybasedcompetitivelearning[J].Neurocomputing,2011,74:2265-2275.
[3]錢江波,懂逸生.一種基于廣度優先搜索鄰居的聚類算法[J].東南大學學報,2004,34(1):109-113.
[4]蔡蓮紅,黃德智,蔡銳.現代語音技術基礎與應用[M].北京:清華大學出版社,2003:236-238.
[5][6]胡光銳,韋曉東.基于倒譜特征的帶噪語音端點檢測[J].電子學報,2000,28(10):95-98.
語音識別技術范文5
關鍵詞:管道輸油;安全隱患;識別技術;事故預防;對策
中圖分類號:TB
文獻標識碼:A
文章編號:16723198(2014)05018101
1引言
管道輸油安全是整個管道工程安全運行的重要內容,對確保油氣資源的順利輸送,滿足人們對油氣的使用具有重要作用。然而在實際工作,由于受到人員、制度等因素的制約,管道輸油安全隱患識別存在著一些不足,影響了安全事故的預防。為此在實際工作需提高安全隱患識別技術,并采取相應的事故預防策略,為管道輸油的安全提供保障。
2管道輸油安全隱患的種類與識別技術
(1)安全隱患的種類。根據分類標準的不同,管道輸油的安全隱患可以分為外泄露、內泄露,或者是動泄露、靜泄露等種類,導致這些泄露出現的原因是多方面,包括管道腐蝕、人為破壞、自然災害等等,為確保管道輸油的安全,必須采取相應的措施加強對安全隱患的識別和預防。
(2)安全隱患識別技術。具體的安全隱患識別技術有很多種,例如,負壓波法、聲波法、統計決策法、實時模型法、壓力梯度法、應力波法、質量平衡法等等,在安全隱患識別的時候,需要根據具體情況選用,以達到最佳的識別效果。
3管道輸油安全隱患識別存在的不足
(1)工作人員素質較低。很多管道輸油工程缺乏專職安全管理人員,缺少必要的專業技能和知識,難以做好日常安全管理工作,安全隱患識別技術沒有掌握,制約日常工作的開展,也難以采取有效的措施預防安全事故發生。
(2)安全管理制度不完善。對安全隱患識別不重視,安全管理機構設置不完善,安全隱患識別人員配置不齊全,難以對管道輸油存在的安全問題進行有效識別,導致安全問題出現之后沒有及時被發現,沒來得及立即采取措施處理。
(3)安全隱患巡查不到位。在對管道輸油進行安全隱患巡查時,工作人員不認真履行職責,相關記錄填寫不規范,不完善,不能全面反映管道輸油的安全狀況,制約了管道輸油安全管理水平的提高。
4管道輸油安全事故的預防對策
(1)提高管道設計、施工、安裝水平。提高設計水平,避免不合理設計給管道輸油帶來的泄露等問題,管道設計、施工、驗收要嚴格按照SH3501—2002的規范要求進行。整個管道系統在進行壓力和氣密性試驗之后,確保系統無泄露,或者泄漏量在允許值范圍內,才能竣工投產。
(2)改進管道輸油安全隱患識別技術。高效先進的檢測技術能夠提高安全隱患識別水平,提高檢測的精確度和可靠性,對管道輸油事故的檢測,應該以軟件方法為主,硬件方法為輔,將二者有效的結合起來,將檢測系統與SCADA系統結合起來使用,提高安全隱患識別水平。重視分布式光纖傳感器的運用,采取相應措施,有效預防管道輸油的破壞,例如,安裝聲光報警裝置,110聯動報警裝置,微機監控系統等,提高安全防范水平,確保整個管道輸油的安全。
(3)提高安全管理人員素質。企業必須重視對人員的管理,全面提高他們的素質。定期對安全管理人員開展培訓,充實他們的理論知識,豐富他們的安全管理經驗,提高他們的安全隱患識別技術,進而全面提高他們的綜合素質,使他們具備嚴格的責任意識,履行好自己的職責,做好自己的每一項工作。還要注重引進和吸收優秀的安全管理人員,充實本企業安全管理隊伍。完善獎懲激勵機制,充分發揮激勵作用,促進管理人員履行好自己的職責,出色的完成安全管理和安全隱患識別工作。
(4)完善管道輸油安全管理制度。企業領導在思想上就要重視安全管理和安全隱患識別工作,完善安全管理制度,強化領導,健全安全管理組織機構,建立安全管理責任制,將管道輸油安全管理和安全隱患識別的各項工作落實到相關單位和個人。管理人員應該明確施工安全管理的要求,提高本企業安全隱患識別意識,加強各項工作。做好管道輸油的日常巡檢工作,加強管道輸油的日常監測和控制,及時發現存在的安全隱患,并立即采取措施處理。
(5)重視管道輸油的日常巡查工作。對管道輸油進行定期巡查,發現問題及時通知管理人員。管理人員也要對管道輸油的安全狀況進行全面檢查。對存在的安全隱患要及時研究和分析,根據具體情況采取相應的安全控制措施,預防安全事故的發生。管理人員還要定期或不定期對管道輸油的安全狀況進行巡查,提高安全隱患識別技術,采取措施預防可能出現的事故,確保管道輸油的安全。
(6)建立管道輸油安全事故應急制度。在整個管道輸油過程中,管理部門要重視風險管理理論的運用,對可能出現的隱患進行預測和管理,提前做好安全隱患識別,做好重大安全事故的預測預報和防治工作,對其中可能出現的隱患及時預測和評價,并采取措施進行控制。同時建立完善的應急救援制度,制定應急預案,一旦發生事故,立即采取措施處理,將出現的事故可能帶來的影響降到最低,為管道輸油的安全順利運行提供保障。
5結束語
總之,在管道輸油過程中,加強安全管理,做好安全隱患識別的重要作用是不言而喻的。今后在實際工作中,應該認識安全管理和安全隱患識別的重要作用,并根據具體情況采取相應的對策,提高安全隱患識別技術,加強對安全事故的預防和控制,為管道輸油的安全運行提供保障。
參考文獻
[1]高安東.原油長輸管道安全生產管理措施淺析[J].安全健康環境,2013,(8).
[2]唐曉渭.輸油管道安全生產運行控制措施的探討[J].今日科苑,2013,(4).
語音識別技術范文6
關鍵詞:語音識別;噪音監測;智能語音預警
中圖分類號:TP18文獻標識碼:A文章編號:1009-3044(2011)23-5722-02
語音識別是解決機器“聽懂”人類語言的一項技術。作為智能計算機研究的主導方向和人機語音通信的關鍵技術,語音識別技術一直受到各國科學界的廣泛關注。
監獄是關押、改造犯人的場所,是重要的國家機器之一。監獄的安全防范工作關系著社會的穩定、國家的安寧。特別是在“構建和諧社會”的大環境下,構建好監獄的安全防范體系就顯得格外重要。近年來,國家司法部大力提倡科技強警和監獄信息化,監獄安防作為其中的核心部分,受到了高度重視,全國各大監獄都在積極籌建現代化安防系統,“向科技要警力”已經成為一種趨勢。
目前國內監獄安防系統主要還是以視頻監控為主,再附帶一些安防報警裝置,通過安防設備之間的聯動處理使得監獄達到一個高效的安防等級。但是安防系統很多業務大多時候只能用于事后處理和取證,無法起到預防、預警的作用。不過,隨著語音識別技術研究的突破,以語音識別技術開發出的產品應用非常廣泛,在安防系統中加入依靠語音技術開發出的智能語音預警功能將使安防系統的滿足更多的要求,而且該技術國外一些監獄已經成功采用。
1 語音識別技術簡介
語音識別技術,也被稱為自動語音識別Automatic Speech Recognition,(ASR),其目標是將人類的語音中的詞匯內容轉換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。與說話人識別及說話人確認不同,后者嘗試識別或確認發出語音的說話人而非其中所包含的詞匯內容。
早在計算機發明之前,自動語音識別的設想就已經被提上了議事日程,早期的聲碼器可被視作語音識別及合成的雛形。而1920年代生產的"Radio Rex"玩具狗可能是最早的語音識別器,當這只狗的名字被呼喚的時候,它能夠從底座上彈出來。最早的基于電子計算機的語音識別系統是由AT&T貝爾實驗室開發的Audrey語音識別系統,它能夠識別10個英文數字。其識別方法是跟蹤語音中的共振峰。該系統得到了98%的正確率。到1950年代末,倫敦學院(Colledge of London)的Denes已經將語法概率加入語音識別中。
1960年代,人工神經網絡被引入了語音識別。這一時代的兩大突破是線性預測編碼Linear Predictive Coding (LPC), 及動態時間彎折Dynamic Time Warp技術。
語音識別技術的最重大突破是隱含馬爾科夫模型Hidden Markov Model的應用。從Baum提出相關數學推理,經過Labiner等人的研究,卡內基梅隆大學的李開復最終實現了第一個基于隱馬爾科夫模型的大詞匯量語音識別系統Sphinx。此后嚴格來說語音識別技術并沒有脫離HMM框架。
廣泛意義上的語音識別按照任務的不同可以分為4個方向:說話人識別、關鍵詞檢出、語言辨識和語音識別。說話人識別技術是以話音對說話人進行區別,從而進行身份鑒別和認證的技術。關鍵詞檢出技術應用于一些具有特定要求的場合,只關注那些包含特定詞的句子。語言辨識技術是通過分析處理一個語音片斷以判別其所屬語言種類的技術,本質上也是語音識別技術的一個方面。語音識別就是通常人們所說的以說話的內容作為識別對象的技術,它是4個方面中最重要和研究最廣泛的一個方向,也是本文討論的主要內容。
2 語音識別技術的實現方法
一般來說,語音識別的方法有三種:基于聲道模型和語音知識的方法、模板匹配的方法以及利用人工神經網絡的方法。其中模板匹配的方法發展比較成熟,目前已達到了實用階段。在模板匹配方法中,要經過四個步驟:特征提取、模板訓練、模板分類、判決。
一個完整的基于統計的語音識別系統一般由語音信號預處理與特征提取,聲學模型與模式識別,語言模型與語音處理3部分組成. 4 總體上說,語音識別就是一個模式識別和匹配的過程,首先計算機必須根據人的語音特點來建立語音特征模型或字典庫;然后對獲取的語音輸入信號經過噪聲去除和端點檢測等預處理后進行特征分析和提取,建立所需識別的語音信號模板;再采用模式識別理論和技術,將計算機中已經存在的語音模板特征與輸入的語音信號特征進行比較,并根據一定的搜索和模式匹配的策略從語音特征庫中找出最優的語音模版與輸入語音進行匹配處理;最后通過查表或判別算法來給出識別結果.目前語音識別主要集中在特定人和非特定人語音識別、孤立詞和連續語音識別、小詞匯量和大詞匯量的語音識別方面.其語音識別系統結構如圖1所示。
常用的技術有三種:動態時間規整(DTW)、隱馬爾可夫(HMM)理論、矢量量化(VQ)技術。
3 語音識別在監獄安防中的應用
在監獄安防系統中使用好語言識別技術能夠在預警方面發揮作用。而且,筆者參與過的監獄安防項目中也采用了這一技術來實現噪音預警功能。噪音預警功能能夠識別采集到的聲音對群毆、哄監等異常事件做到事先預警的作用。
噪音預警是語音識別應用中相對容易實現的部分,技術難度不大,目前我們在監獄安防中應用的噪音預警功能是通過硬件支持和軟件分析兩部分來實現。硬件支持指的是拾音器設備,也就是音量采集設備,它將采集到的聲源不間斷的發給軟件進行分析;軟件分析指的是將硬件設備采集到的聲源進行音量、音色、音調三個方面的分析。具體實現的思想如下:
1)通過識別音量的大小,我們可以對監舍以及一些公共場所進行噪音監測,當音量大小超過正常秩序下設定的音量值,就發出預警報警信息,相關攝像頭也會自動切換到該區域,可以有效預防犯人大聲吵架而可能引起的打架斗毆事件。
2)通過對玻璃破碎聲、物品撞擊聲、洗漱器具與地面撞擊聲、餐飲器具與地面撞擊聲等的音色和音調進行分析,提取可識別的特征,當語音識別系統識別出與該特征相似的聲音時,就發出預警報警信息,相關攝像頭也會自動切換到該區域,可以有效預防犯人自殺、斗毆等事件的發生。
3)通過音調的快速變化可以識別(突然變高、突然變快),可以預測干警或者犯人遇到緊急情況。
4)通過敏感詞匯(如逃跑、越獄、翻墻、挖地道等)音調的特征提取可以識別某一區域的人在討論敏感信息發掘罪犯密謀信息,還可以加入多種方言音調特征,避免一些用方言密謀犯罪行為的遺漏。
5)通過聲音特征和位置的特性,設計專門針對某一特殊點的的語音識別方式,在聲音預警報警中往往能夠發出意想不到的作用。如:禁閉室里采集到低頻率的“砰砰”聲,可能是犯人在撞墻;值班室里采集到悶哼聲,可能是值班干警被不法分子捆綁并堵住嘴巴;監舍里采集到呼喊聲,可能是發生斗毆事件;房間里采集到砸碎玻璃的聲音,可能是犯人拿碎玻璃片自殺或者行兇等。
針對上述識別思想設計專門的音色模型庫,通過拾音器設備采集到語音信號,再進行處理,然后提取該聲音的特征與音色模型庫里的聲音進行比較,如果特征和音色模型庫里的一種或多種音色模型相符,則發生預警信號;否則,拾音器將會繼續采集。噪音預警分析流程如圖2所示。
4 語音識別在監獄安防領域的發展方向
通過語音/噪音識別技術的介紹,可以發現語音識別技術在監獄安防中可以有更大的作為。如語音驗證、智能語音識別預警等方面的實現與應用都會給監獄安防帶來新的突破。
門禁語音識別驗證:在門禁系統中加入語音驗證模塊,配合目前安防領域內的視網膜門禁、指紋識別門禁等一并使用,增加門禁的驗證環節,大大提高了門禁系統的安防等級。
智能語音識別預警:只要建立強大的語音模型庫,對一些緊急情況下的語音進行研究,收集大量的求救、呼喊類語音模型,尤其是對說話內容進行分析,只要采集到的聲音文件經過分析后與語言模型庫中的聲音相符合就會立即發出預警信號提示值班干警通過視頻查看現場狀況。
5 結束語
語音識別技術發展到今天,語音識別系統的識別精度在不斷提高,這些技術已經能夠滿足通常應用的要求。隨著噪音環境下的語音識別技術、語言模型和聲學模型的建立的進一步突破,使得語音識別技術的應用范圍更廣、識別精度更高,使得音色模型庫更加豐富全面,從而為監獄安防中的語音預警功能提供了強有力的支持,相信不久的將來智能語音識別預警功能的定會被廣泛使用,成為監獄安防系統“技防”中不可或缺的重要組成部分。
參考文獻:
[1] 胡光銳.語音處理與識別[M].上海:上??茖W技術文獻出版社,1994.
[2] 趙立.語音信號處理[M].北京:機械工業出版社,2003.
[3] 拉賓納 L,Rabiner Lawrence,阮平望,等.語音識別基本原理[M].北京:清華大學出版社,1999.
[4] 詹新明,黃南山,楊燦.語音識別技術研究進展[J].現代計算機,2008.