前言:中文期刊網精心挑選了卷積神經網絡方法范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
卷積神經網絡方法范文1
關鍵詞: 模式識別; 神經網絡; 卷積; 文字識別
中圖分類號: TN711?34; TP391.4 文獻標識碼: A 文章編號: 1004?373X(2014)20?0019?03
Large pattern online handwriting character recognition based on multi?convolution neural network
GE Ming?tao1, WANG Xiao?li1, PAN Li?wu2
(1. SIAS International School, Zhengzhou University, Zhengzhou 451150, China;
2. Henan University of Animal Husbandry and Economy, Zhengzhou 450011, China)
Abstract: Online handwriting character recognition is an important field in the research of pattern recognition. The traditional recognition method is based on the common convolutional neural networks (CNNs) technology. It has an efficient recognition rate for the small pattern character set online handwriting characters, but has low recognition rate for the large pattern character set recognition. A recognition method based on multi?convolutional neural networks (MCNNs) is presented in this paper to overcome the situation that the previous methods have the low recognition rate for large pattern character set and improve the recognition rate for the large pattern handwriting character set recognition. The stochastic diagonal Levenbert?Marquardt method is used in the system for training optimization. The experimental results show that the proposed method has the recognition rate of 89% and has a good prospect for online handwriting character recognition for large scale pattern.
Keywords: pattern recognition; neural network; convolution; character recognition
0 引 言
隨著全球信息化的飛速發展和對自動化程度要求的不斷提高 ,手寫文字識別技術被廣泛地應用到許多方面。特別是近幾年擁有手寫功能的手機、平板電腦等智能電子產品的普及,聯機手寫文字識別研究已經成為一個備受關注的主題。聯機手寫字符識別要求實時性較高,識別過程中要求特征空間的維數比較高,在進行特征樣本訓練時要求訓練的數目很大,要匹配的特征值或特征對象比較多 [1?2]。
卷積神經網絡(Convolutional Neural Networks,CNNs)的優點在于圖像的識別過程中對視覺模式的獲得是直接從原始圖像中獲得的,所以在設計系統時圖像的預處理工作很少,與一般神經網絡相比是一種高效的識別方法。卷積神經網絡在模式識別的一些領域具有很好的魯棒性,如在識別有變化的模式和對幾何變形的識別方面。利用卷積神經網絡的手寫識別方法具有如下一些優點:對于要檢測的圖像可以與事先制定網絡拓撲結構之間有較高的匹配率;特征提取和模式分類同時進行;訓練參數往往是系統計算量的重要參數,而卷積神經網絡中利用權值共享技術,這樣就可以大大降低該參數,在設計系統結構時使得結構變得更簡單,從而使得整個系統具有更好的適應性[3?5]。
目前,人機交互系統的手寫字符識別、汽車車牌號識別和信息安全中常用的人臉識別等領域都有卷積神經網絡的成功應用。文獻[6]用一個4層的卷積神經網絡LeNet?5對Mnist庫進行識別實驗,獲得了98.4%的識別率,用2層的BP網絡的識別率[4,6]是87%。許多學者對卷積神經網絡在聯機手寫文字識別方面做了多方位的研究。 但是,這些成功的聯機手寫文字識別主要是針對小模式字符集,利用以往的這些方法對大規模模式分類的聯機手寫文字的識別依然有識別率不高的問題。本文介紹了卷積神經網絡的基本概念和一種典型的卷積神經網絡結構,給出了基于多重卷積神經網絡的字符識別和詞語識別模型。通過使用大字符集的UNIPEN數據庫進行訓練和測試,本文提出的方法在大模式聯機手寫識別上,取得了較高的識別速度和滿意的識別率。
1 卷積神經網絡
文獻[6?7]中詳細地描述了卷積神經網絡如何保證圖像對位移、縮放、扭曲魯棒性能。典型的手寫字符卷積神經網絡LeNET 5的結構圖如圖1所示[6?7]。
圖1 典型的卷積神經網絡結構
在圖1中,輸入層接收要識別32×32的手寫字符圖像,經過簡單的大小歸一化和圖像灰度處理,之后的結果作為一個采樣層的圖像;然后用一個可學習核進行卷積操作,卷積結果經過激活函數的輸出形成這一層的神經元,每個神經元與輸入圖像的一個5×5的鄰域相連接,從而得到由6幅特征圖組成的第一個隱層(C1層)。每個特征圖有25個權值(如方向線段,端點、角點等),考慮到邊界效果,得到的特征圖的大小是28×28,小于輸入圖層[3?9]。卷積層的數學計算過程可表示為:
[xlj=fi∈Mjxl-1j*kernellij+blj] (1)
式中:[l] 代表層數;kernel是卷積核;[Mj]代表輸入特征圖的一個選擇。每個輸出圖有一個偏置[b]。
每個卷積層的結果作為下一個次采樣層的輸入,次采樣層的作用是對輸入信息進行抽樣操作。如果輸入的特征圖為n個,則經過次采樣層后特征圖的個數仍然為n,但是輸出的特征圖要變?。ɡ?,各維變為原來的50%)。因此隱層S2是由6個大小為14×14的特征圖組成的次采樣層。次采樣層計算公式可以用式(2)表示:
[xlj=fβl-1jdown(xl-1j)+blj] (2)
式中down(?) 表示次采樣函數。次采樣函數一般是對該層輸入圖像的一個n×n大小的區域求和,因此,輸出圖像的大小是輸入圖像大小的[1n]。每一個輸出的特征圖有自己的β和b。
類似的,C3層有16個10×10的特征圖組成的卷積層,特征圖的每個神經元與S2網絡層的若干個特征圖的5×5的鄰域連接。網絡層S4是由16個大小為5×5的特征圖組成的次采樣層。特征圖的每個神經元與C3層的一個2×2大小的鄰域相連接。網絡層C5是由120個特征圖組成的卷積層。每個神經元與S4網絡層的所有特征圖的5×5大小的鄰域相連接。網絡層F6,包括84個神經元,與網絡層C5進行全連接。最后,輸出層有10個神經元,是由徑向基函數單元(RBF)組成,輸出層的每個神經元對應一個字符類別。RBF單元的輸出yi的計算方法如式(3)所示:
[yi=j(xj-wij)2] (3)
很多研究人員通過對字符集作彈性訓練,經測試發現在MNIST字符集上的識別率可以高達99%以上[6?7] 。卷積神經網絡的優勢主要是對小模式集上,如對數字或26個英文字母組成的集合都有著較高的識別率。然而,對大模式集的識別仍然是一個挑戰,因為設計一個優化的并足夠大的單一網絡是比較困難的,且訓練時間也較長。因此,本文的目的旨在通過組合多個對某一字符集有高識別率的卷積神經網絡,從而構成多重卷積神經網絡,進而提高卷積神經網絡對大模式集手寫字符的識別率。
2 多重卷積神經網絡
2.1 多重卷積神經網絡字符識別
根據傳統卷積神經網絡的運算過程以及其在處理大模式集手寫字符時存在的不足,本文提出一種多重卷積神經網絡來改進傳統的卷積神經網絡模型,用多個擁有高識別率的小卷積神經網絡組成一個多重卷積神經網絡。每一重小卷積神經網絡對某一具體字符集有較高的識別率,另外,單重卷積神經網絡除了有一個正式的輸出集之外,還產生一個未知的輸出(即難以識別的字符),即如果一個輸入字符沒有被正確識別,它將被輸出為一個未知字符,然后輸入模式轉到下一重卷積神經網絡進行識別。最后,通過一個拼寫檢查模塊進行判斷,選擇最好的結果輸出。系統的流程如圖2所示。
其中CNN 1是識別手寫數字的卷積神經網絡,CNN 2是識別手寫小寫英文字母的卷積神經網絡,該模型具有極強的擴展性,可以添加多任意模式的卷積神經網絡(如中文,日文等)。
圖2 多重卷積神經網絡字符識別示意圖
2.2 隨機對角Levenberg?Marquardt訓練方法
傳統的結構比較簡單、單一的卷積神經網絡多采用基本的Back Propagation(BP)規則訓練網絡,往往需要幾百次迭代,網絡的收斂速度較慢。本文采用LeCun博士提出的隨機對角Levenberg?Marquardt 算法對網絡作訓練,該算法需要的迭代次數明顯比基本的BP 算法少[4,9]。隨機對角Levenberg?Marquardt算法的公式為:
[ηki=ε?2E?w2ij+μ] (4)
式中[ε]是全局的學習率,一般取初始值0.01,太大會使網絡無法收斂,太小則會降低收斂速度,且使網絡更容易陷入局部極小值,訓練過程中可以用啟發式規則改變[ε]的值,本文取最下值為5e-005; [?2E?w2ij]是一個估計值,根據訓練集的大小可以調整樣本數量,文中隨機選取200個樣本估算它的值;[μ]用來避免[?2E?w2ij] 太小時[ηki]的變化過大 。
2.3 多重卷積神經網絡詞句識別
本文提出的多重卷積神經網絡對手寫詞語的識別方法可以簡單地描述為:首先對輸入的手寫圖像進行預處理和分割,然后通過多重卷積神經網絡模塊分別進行識別,最后采用單詞識別模塊對識別結果進行判斷,選擇最好的結果輸出。其過程如圖3所示。
圖3 多重卷積神經網絡聯機手寫詞句識別過程
本文提出的多重卷積神經網絡聯機手寫文字識別方法克服了傳統卷積神經網絡文字識別的對字符集的限制,每一重卷積神經網絡是一個針對小模式的卷積神經網絡,易于訓練和優化,更重要的是此方案的靈活性非常好易于調節參數,可擴展性強。每一重卷積神經網絡都具有可重用能力,可以根據需要加載一個或多個網絡,可以根據新的模式添加新的網絡而不需改變或重建原來的網絡。
3 訓練和實驗
為了評估多重卷積神經網絡對基于大模式字符集的聯機手寫文字識別的性能,本系統采用MNIST和UNIPEN兩種不同的手寫字符訓練集進行測試。UNIPEN數據庫是在1992年舉行的IEEE IAPR會議上提出并建立的,其目的是創建一個大型的手寫體數據庫用于為在線手寫識別提供研究和開發的基礎,得到了多個知名公司或研究所的支持并完成了UNIPEN的規范設計。在進行數據比對實驗中,本文采用許多研究使用的MNIST手寫數字數據庫,該數據庫是NEC 研究中心設計的,是NIST(The National Institute of Standards and Technology)數據庫的一個子集,該訓練集中有大量訓練樣本和測試用例。本文默認用以下定義:
[識別率=正確識別數樣本總數×100%]
[失誤率誤識率=錯誤識別數樣本總數×100%]
實驗測試是在通用的臺式電腦上進行的。整個識別原型系統采用C#編寫,運行在.NetFrame 4.5平臺上。經測試對MNIST訓練集識別正確率可達[9]99%,對UNIPEN數字識別正確率可達97%,對UNIPEN數字和大寫字母識別正確率可達89%(1a,1b) ,對UNIPEN小寫字母識別正確率可達89%(1c) 。圖4是對UNIPEN小寫字母3次訓練的均方誤差比較。
圖4 訓練的誤差數據
從圖4中可以看出,在開始的幾個訓練周期內,均方誤差(MSE)下降得很快,然后在第13個周期后神經網絡達到一個穩定的值,約為0.148 5。也就是說,網絡在第13個周期后,改善程度就很小。所以修改訓練錯誤率的值為0.000 45后重新進行18代的第二次訓練,均方誤差有所降低。經過第三次的訓練后趨于穩定,對UNIPEN小寫字母識別正確率可達89%。經測試,通過使用隨機對角Levenberg?Marquardt方法,收斂速度比基本BP算法快了許多,經過68代訓練后識別正確率可達89%。
4 結 語
本文提出了基于多重卷積神經網絡的聯機手寫字符的識別方法,通過使用多個識別率高的卷積神經網絡和隨機對角 Levenberg? Marquardt方法,可以適用于大模式聯機手寫識別。經過實驗數據比較,該方法在大模式聯機手寫識別過程中具有很高的識別率,與此同時識別速度也很快,有很好的實時性,總體效果很好。在當今觸摸屏應用遍及生產生活的各個方面的趨勢下,該方法有著廣闊的應用前景。同時此方法為今后多手寫漢字識別的研究提供了很好的借鑒。
注:本文通訊作者為潘立武。
參考文獻
[1] 吳鳴銳,張鈸.一種用于大規模模式識別問題的神經網絡算法[J].軟件學報,2001,12(6):851?855.
[2] 張輝.大規模聯機手寫漢字識別數據庫整理、統計與實驗分析[D].廣州:華南理工大學,2012.
[3] 徐姍姍,劉應安,徐,等.基于卷積神經網絡的木材缺陷識別[J].山東大學學報:工學版,2013,43(2):23?28.
[4] 呂剛.基于卷積神經網絡的多字體字符識別[J].浙江師范大學學報:自然科學版,2011,34(4):425?428.
[5] PHAM D V. Online handwriting recognition using multi convolution neural networks [M]. Berlin Heidelberg: Springer, 2012: 310?319.
[6] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient?based learning applied to document recognition [C]// Proceeding of IEEE. USA: IEEE, 1998: 2278?2324.
[7] SIMARD P Y, STEINKRAUS Dave, PLATT John. Best practices for convolutional neural networks applied to visual document analysis [C]// International Conference on Document Analysis and Recognition (ICDAR). Los Alamitos: IEEE Computer Society, 2003: 958?962.
卷積神經網絡方法范文2
關鍵詞:全卷積神經網絡;顯著性預測;縮略圖生成
中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2017)14-0149-02
1概述
縮略圖是一種經壓縮方式處理后的圖片,在小尺度下包含了原圖像大部分有效信息,可廣泛應用于圖像快速索引、網頁超鏈接等多個領域。目前相關算法多采用固定分辨率縮放及中央裁剪等固定規則進行縮略圖生成,而忽視圖像自身具有的內容信息。為提高縮略圖攜帶的有效信息,該文利提出一種利用全卷積神經網絡對圖像進行顯著性預測,再由顯著點密度自動獲取圖像中包含最有意義信息的區域進行截取,進而生成圖像內容相關縮略圖的算法。
2算法設計
為生成面向圖像信息的自適應縮略圖,該方法由兩部分組成。第一部分為圖像識別模塊,主要工作是得到圖像的顯著性圖;第二部分為自適應滑動窗口模塊,主要工作是得到窗口內平均顯著度最強的窗口坐標。
2.1顯著性A測
該文在縮略圖截取區域識別階段采用顯著性預測算法作為識別手段。顯著性預測是目前非常活躍并正在不斷取得突破性進展的機器視覺領域下的一個子領域,是一種模擬人類注意力機制的算法。其主要目標是對圖像(畫面)中吸引人注意的地方(顯著性區域)進行自動的識別與提取,并生成與輸入圖像尺度對應的一張灰度圖。其生成的灰度圖中的高亮度區域代表具有顯著性物體,如汽車、人臉、字母等,并且服從高斯分布。根據特征融合理論(Feature Integration Theory),目前已有多種基于卷積神經網絡的顯著性預測算法被提出(如DeepFix、SALICON等),并極大的提高了顯著性識別的精度。
2.2卷積神經網絡概述
為生得到面向內容的縮略圖截取坐標,首先需要對圖像內容進行識別,并對圖像每個區域的重要程度進行分類。近年來由于GPU并行運算性能的突破性進步以及基于大數據技術的訓練數據集擴充,深度卷積神經網絡(Deep Convolutional Neu-ral Networks,DCNNs)在包括圖像識別、目標跟蹤及顯著性預測等多個圖像處理領域上的任務都取得了極大的提升。而預訓練參數(Pretraining)與轉移學習(Transfer Learning)等技術進一步提升了CNNs在多項圖像處理任務中的泛化能力及可用性,因此該文采用截斷VGG19模型為預訓練網絡,進行顯著點識別及縮略圖。全卷積神經網絡與傳統的全連接神經網絡類似,均采用梯度下降算法對權值進行更新。不同點在于,全卷積神經網絡每次更新的值包括卷積核的值以及該卷積核的權值。
2.3網絡結構
該文所采用的全卷積神經網絡采用截斷的VGGl9預訓練模型的前10層組成。VGGl9由進行圖像識別(物體分類)的ImageNet數據集訓練而成,可精確識別數據集中1000中物體分類,故其所學習的卷積核參數包含有豐富的物體信息。
其中網絡的具體成分主要由10層卷積模塊及3層最大池化層組成,而卷積模塊依次由一層卷積層,一層批量歸一化層以及一層ReLU(Rectified Linear Unit)激活函數層組成。其中前8層卷積層由普通3×3大小,1×1步長的卷積核組成,后兩層卷積層由帶2×2洞的3×3大?。ü蕦嶋H感受野為5×5),步長1×1的卷積核組成。
網絡結構如圖1所示。
2.4縮略圖生成
由全卷積神經網絡識別并得到的顯著性圖為灰度值為0-255的灰度圖,大的灰度值代表高顯著性激活度。在得到對應圖像的顯著性圖之后,方法采用步長為10像素的滑動窗口對顯著性圖進行遍歷,并選擇所窗口內激活程度最高的區域所處坐標作為縮略圖截取坐標。對于有多個相同激活值的區域則選取距離圖像中心最近的區域所處坐標為縮略圖截取坐標。最后通過對原始輸入圖像中對應縮略圖截取坐標進行截取,得到最終縮略圖。
3實驗設計
根據算法流程,該方法中實驗設計也可分為兩部分:第一部分為訓練用于得到顯著點坐標的全卷積神經網絡,第二部分為設計并實現基于顯著性圖的動態步長滑動窗口方法。
3.1網絡參數及訓練數據設置
該方法訓練數據選自開放數據集MIT1003及SALI-CONt31。實驗采用批量訓練方法,每批數據由128個樣本組成,共訓練2000個批次。網絡采用絕對平均誤差(Mean AbsoluteError,MAE)為損失函數(如公式1所示),并采用改進的梯度下降算法Adam算法進行權值更新,以提高網絡魯棒性及收斂性。網絡收斂曲線如圖2所示。
3.2滑動窗口設計
在得到輸入圖像的顯著性圖之后,所提方法通過滑動窗口截取縮略圖,并通過自適應步長降低算法的時間復雜度。自適應步長通過由當前窗口內顯著性圖的平均激活值得到。步長的最大分辨率為40像素,最小分辨率為5像素,當當前窗口內平均激活值小于預設閾值時,下一次窗口的滑動步長增加為當前步長2倍,直至增大到最大分辨率步長。當當前窗口呢平均激活值大于預設閾值時,則每一次滑動減小位原步長的1/2,直至衰減到最小分辨率步長。
3.3實驗結果
在驗證及測試階段,采用的測量標準為AUC-Judd,相關系數(Correlation Coefficient)以及KL散度(Kullback-Leibler Diver-gence)。其中AUC-Judd越大越好,KL散度越小越好。訓練收斂后以以上測量標準在MIT1003數據集上進行了驗證測試,所得結果如表一所示。表一表面該方法在顯著性預測上超過了傳統方法,取得了較好的結果。
圖3對所提方法得到的縮略圖進行了直觀展示。從中可知所提方法在縮略圖生成的過程中對圖像本身信息進行了有效提取且得到了有效的顯著性圖,并由該顯著性圖通過滑動窗口得到了縮略圖所需的正確截取坐標。最后得到的縮略圖對于原圖像本身信息具有高代表性,且并未損失分辨率信息。
卷積神經網絡方法范文3
關鍵詞:卷積神經網絡;語言模型;分析
1 卷積神經網絡語言模型
CNN語言模型基本結構包括輸入層、卷積層、池化層及后續的分類層。輸入層是表示語言的矩陣,該矩陣可以是通過Google word2vec或GloVe預訓練得到的詞嵌入表示,也可以是從原始數據重新訓練的語言的向量表示。輸入層之后是通過線性濾波器對輸入矩陣進行卷積操作的卷積層。在NLP問題中,輸入矩陣總是帶有固定順序的結構,因為矩陣的每一行都表示離散的符號,例如單詞或者詞組等。因此,使用等寬的濾波器是非常合理的設置。在這種設置下,僅需要考慮濾波器的高度既可以實現不同尺寸的濾波器做卷積操作。由此可知,在處理NLP問題時,卷積神經網絡的濾波器尺寸一般都是指濾波器的高度。
然后,將卷積層輸出的特征映射輸入池化層,通過池化函數為特征映射進行降維并且減少了待估計參數規模。一般的,CNN池化操作采用1-max池化函數。該函數能夠將輸入的特征映射統一生成維度相同的新映射。通過池化操作,可以將卷積層生成的特征連接成更抽象的高級特征,所得到的高級特征尺寸與輸入的句子不再存在直接關系。
最后,將得到的高級特征輸入softmax分類層進行分類操作。在softmax層,可以選擇應用dropout策略作為正則化手段,該方法是隨機地將向量中的一些值設置為0。另外還可以選擇增加l2范數約束,l2范數約束是指當它超過該值時,將向量的l2范數縮放到指定閾值。在訓練期間,要最小化的目標是分類的交叉熵損失,要估計的參數包括濾波器的權重向量,激活函數中的偏置項以及softmax函數的權重向量。
2 卷積神經網絡語言模型應用分析
CNN語言模型已經廣泛應用于諸如文本分類,關系挖掘以及個性化推薦等NLP任務,下面將對這些應用進行具體的介紹與分析。
2.1 CNN在文本分類中的應用分析
kim提出了利用CNN進行句子分類的方法。該方法涉及了較小規模的參數,并采用靜態通道的CNN實現了效果很優異的句子分類方法。通過對輸入向量的調整,進一步提高了性能實現了包括情感極性分析以及話題分類的任務。在其基礎上為輸入的詞嵌入設計了兩種通道,一種是靜態通道,另一種是動態通道。在卷積層每一個濾波器都通過靜態與動態兩種通道進行計算,然后將計算結果進行拼接。在池化層采用dropout正則化策略,并對權值向量進行l2約束。最后將該算法應用于MR、SST-1與SST-2、Subj、TREC、CR以及MPQA等數據集。MR數據集為電影評論數據集,內容為一句話的電影評論,其分類包括積極情感極性與消極情感極性兩類。SST-1與SST-2數據集為斯坦福情感樹庫是MR數據集的擴展,但該數據集已經劃分好了訓練集、驗證集及測試集并給出了細粒度的標記,標記包括非常積極、積極、中性、消極、非常消極等情感極性。Subj數據集為主觀性數據集,其分類任務是將句子分為主觀句與客觀句兩類。TREC數據集為問題數據集,其分類任務是將所有問題分為六類,例如關于數字、人物或位置等信息的問題。CR數據集為評論數據集,包括客戶對MP3、照相機等數碼產品的評論,其分類任務是將其分為積極評價與消極評價兩類。MPQA數據集是意見極性檢測任務數據集。通過實驗證明,該方法在這幾個典型數據集上都能取得非常優異的效果。
2.2 CNN在關系挖掘中的應用分析
Shen等人提出了一種新的潛在語義模型,以詞序列作為輸入,利用卷積-池化結構為搜索查詢和Web文檔學習低維語義向量表示。為了在網絡查詢或網絡文本中捕捉上下文結構,通過輸入單詞序列上下文時間窗口中的每個單詞來獲取詞匯級的n-gram語法特征,將這些特征聚合成句子級特征向量。最后,應用非線性變換來提取高級語義信息以生成用于全文字符串的連續向量表示。該模型的不同之處在于,輸入層與卷積層之間加入了word-n-gram層與letter-trigram層,它們能夠將輸入的詞序列轉變為letter-trigram表示向量。在卷積層通過上下文特征窗口發現相鄰單詞的位置特征,并變現為n-gram形式。然后通過max池化將word-n-gram特征合并為句子級的高級特征。在池化層之后增加了語義層來提取更高級的語義表示向量。
2.3 CNN在個性化推薦中的應用分析
Weston等人提出了一種能夠利用標簽(hashtag)有監督的學習網絡帖子短文本特征表示的卷e嵌入模型(Convolutional Embedding Model)。該方法利用提出的CNN模型在55億詞的大數據文本上通過預標注的100,000標簽進行訓練。該方法除了標簽預測任務本身能取得好的效果外,學習到的特征對于其它的文本表示任務也能起到非常有效的作用。該模型與其它的詞嵌入模型類似,輸入層為表示文本的矩陣,但是,在用查找表表示輸入文本的同時將標簽也使用查找表來表示。對于給定的文檔利用10萬條最頻繁出現的標簽通過評分函數對任何給定的主題標簽進行排序。
其中,econv(w)表示CNN的輸入文檔,elt(t)是候選標簽t的詞嵌入表示。因此,通過對分數f(w,t)進行排序可以獲取所有候選主題標簽中排序第一的話題進行推薦。實驗數據集采用了兩個大規模語料集,均來自流行的社交網絡文本并帶有標簽。第一個數據集稱作people數據集,包括搜集自社交網絡的2億1000萬條文本,共含有55億單詞。第二個數據集被稱作pages,包括3530萬條社交網絡文本,共含有16億單詞,內容包括企業、名人、品牌或產品。
3 結束語
卷積神經網絡應用于語言模型已經取得了非常大的發展,對于自然語言處理中的各項任務均取得了優異的結果。本文通過對幾項典型工作的分析,探討了不同卷積神經網絡模型結構在不同任務中的表現。通過綜合分析可以得出以下結論。首先,CNN的輸入采用原始數據訓練的向量表示一般效果會優于預訓練的詞嵌入表示;其次,在卷積層濾波器的尺寸一般采用寬度與輸入矩陣寬度相等的設置;最后,為了優化結果可以采用dropout正則化處理。
卷積神經網絡方法范文4
[關鍵詞]卷積網絡,mnist,深度學習;
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-914X(2017)02-0168-01
1 概述
幾年來,深度卷積網絡技術飛速發展,在圖像,語音,自然語言處理等多個人工智能領域紛紛取得領先。深度卷積網絡作為深度神經網絡的一種,其具有獨特的類似于人眼局部感受野的卷積核,以及類似于生物神經的層次級聯結構。由于權值共享的特性,網絡的參數大大減少,同時降低了對訓練數據過擬合的風險,具有比其他種類的深度網絡更加易于訓練的好處。
2 深度卷積網絡
2.1 深度卷積層的結構
一個典型的深度卷積網絡結構如圖2-1所示。
深度卷積網絡的第一層是輸入層,接下來是若干個卷基層和下采樣層,最后是一個分類器,如softmax分類器,由分類器輸出相應的分類結果。通常,每一個卷基層后面都緊跟一個下采樣層。在卷基層,利用局部連接和權值共享可以減少網絡的訓練參數,降低計算的復雜性。通過卷積運算,得到的卷積結果通過sigmoid等激活函數的輸出得到這一層的特征圖,然后作為下一層(下采樣層)的輸入。在下采樣層。將前一層對應的特征圖中相鄰若干個特征通過池化操作合并成一個特征。輸入的圖像數據可以直接傳送到第一個卷積層,進行逐層特征學習,最后利用有標簽樣本數據輸入到softmax分類器,通過后向反饋微調整個網絡的參數。
2.2 深度卷積網絡的學習算法
2.2.1 卷積層的學習
卷積層是利用局部連接和權值共享,減少網絡的自由參數個數,降低網絡參數選取復雜度。在每一個卷積層中,用一個可學習的卷積核與上一層若干個特征圖進行卷積,再通過一個激活函數f,如sigmoid利用式2-1就可以得到相應的輸入特征。
這里l表示層數,k是卷積核,*表示二維卷積,表示偏置,是輸入特征圖集合。
2.2.2 下采樣層的學習
下采樣層利用圖像局部相關性原理,對圖像進行子抽樣,在減少數據處理量的同時保留有用信息。這里通常是對前一層對應的特征圖中的向量特征進行池化操作。池化分為平均池化和最大池化等,池化后特征圖數量不變,但特征圖變小,輸出的特征可用式2-2計算。
其中對應權值,b表示相應偏置,dowm表示下采樣函數。
深度卷積網絡,輸入端直接輸入圖像像素,采用由前向后的逐層學習方式,計算損失函數,再通過bp算法對整個訓練參數進行調整。
3 深度學習中常用方法
3.1 線性校正單元
線性校正單元(ReLU)是當前最普遍使用的非線性激活函數,其函數形式為f(x)=max(x,0)。在過去神經網絡通常使用Tanh或Sigmoid函數作為激活函數。研究表明,生理神經元編碼可能是以稀疏分布的形式表示,因為神經元的活動電位和突出后效應消耗了絕大部分能量,同時能激活的神經元數量預測在1%至4%之間,所以大部分神經元處在靜息狀態。盡管ReLU非線性,并且在零點處不可微分,但是它可以生成真正的零來進行稀疏表示,所以對生理神經元激活的擬合更好。實驗表明,ReLU作為激活函數,在網絡中學習的更快。
3.2 Dropoup
在網絡的訓練過程中,過擬合是個常見的問題,尤其是在訓練大規模網絡的時候,Dropout 是處理這個問題的一種方法。Dropout 是指在訓練的時候,以隨機概率拋棄神經元的連接,進而增加網絡的健壯性。若在訓練中使用了 Dropout,則會導致網絡連接數變少,所以測試的時候需要通過對該層的所有權值等比例縮小,以平均近似訓練時的網絡。神經元與Dropout 隨機挑選的單元進行訓練,會使得每個單元不依賴于特定單元從而變得更加健壯,進而產生有用的特征信息。
4 仿真實驗
本文采用matlab仿真環境,網絡采用五層結構,前兩層為卷積層,卷積核分別為3和5。中間兩層為全連接,最后一層是softmax分類器。實驗結果如圖4-1所示。結果可以看到,錯誤率大約為0.48%左右,此網絡擁有很高的識別率。
參考文獻
[1] 段寶彬,韓立新. 改進的深度卷積網絡及在碎紙片拼接中的應用[J].計算機工程與應用,2014,50(9):176-181.
[2] 鄭昌艷,梅衛,王剛. 基于深度卷積神經網絡的蛇形機動航跡圖像識別[J].火力與指揮控制,2016.05.
[3] 張宏毅. 基于深度卷e網絡的同款商品圖像檢索研究[J].圖形圖像,2016.04.
[4] 劉暢. MRI腦影像的深度卷積網絡分割和三維可視化[D].
[5] Glorot X, Bordes A, Bengio Y.Deep sparse rectifier neural networks;International Conferenc e on Artificial Intelligence and Statistics[C], 2011.
[6] Lennie P.The cost of cortical computation [J].Current biology,2003,13(6):493-497.
卷積神經網絡方法范文5
Abstract:the mechanical transmission system is widely used in national defense, aerospace, production and other fields of industry. Among them, the gear transmission system is the most frequently used mechanical transmission mechanism. However, because of long time of mechanical work, gear wear and tear parts easily happened, and lead to the occurrence of a variety of mechanical failure. In this paper, the author analyzes the gear transmission process, the system fault diagnosis methods and solutions.
關鍵詞:機械傳動系統;故障診斷及解決
Keywords: mechanical transmission system; Troubleshooting and solutions
1. 引言
機械傳動系統廣泛運用于國防、航天航空、生產等各個領域及行業中,因此,確保其安全性和可靠性具有非常重要的意義。齒輪傳動系統,作為當今世界上運用頻率最高的機械傳動系統之一,對其故障的早期、及時診斷和解決,不僅有利于經濟合理地安排設備維修的時間,更能有效避免重大人身或設備傷亡事故的發生。
2. 齒輪傳動系統故障的診斷方法
2.1 常見齒輪傳動系統故障
根據經驗總結,常見的齒輪傳動故障一般可分為兩種:一種是分布在一個齒輪的各個輪齒上的分布式故障;另一種則是只集中于一個齒輪的某一個或者某幾個輪齒上的局部故障。以下就具體的系統故障做診斷方法分析。
2.2 齒輪故障的診斷方法
2.2.1 小波分析方法
小波變換是一種多分辨率的時頻分析方法。目前,齒輪傳動故障分析中使用最廣泛的小波分析方法是二進離散小波變換法。而隨著小波分析技術的不斷發展,和計算機容量、運算能力的飛速提高,連續小波變換也開始逐步應用于齒輪傳動故障的診斷分析。而且,與二進離散小波變換相比,連續小波具有時間和尺度網格劃分更細致、小波基無需正交和具有“時(移)不變”特性等多方面優勢,更適合機械動態信號的檢測和故障診斷。
2.2.2 神經網絡分析方法
神經網絡,在充分學習經驗樣本的基礎上,將知識轉換成為神經網絡的權值和閾值,并將其存儲在整個神經網絡中。雖然神經網絡模型可以映射出故障征兆的特征空間和模式空間,但是它不能解釋故障診斷的技術內容和實質,因此又相當于知識表達的“黑箱結構”。人工神經元網絡,是基于對人大腦中神經元結構特性的模仿,而建立起來的一種簡單的非線性動力學互聯網絡。人工神經元網絡的優點很多,例如:具有大規模并行處理能力、適應性學習和處理復雜多模式。BP網絡、Hopfield網絡和BAM網絡是齒輪傳動系統故障診斷領域常用的3種神經網絡。其中,BP網絡可以看作是一個靜態的系統,具有模式分類能力。
2.2.3 獨立變量分解法
之所以使用獨立變量分別是存在兩方面原因的。一方面,由于齒輪箱體表面測量到的振動信號是齒輪傳動系統的振源信號與系統結構的脈沖響應函數的卷積,直接對齒輪傳動的振源信號進行故障診斷非常困難;另一方面,獨立分量分析法(ICA)是具有盲源分離和盲反卷積功能的新型多變量數據統計方法。因此,獨立分量分析法在齒輪傳動系統故障的診斷中具有非常重要的作用。根據ICA盲源分離原理進行齒輪傳動故障診斷的方法主要可分為3類:①振動信號的盲源分離;②振動信號的單向分解;③利用部分已知信息進行盲源分離。ICA反卷積運算方法也是多種多樣,例如:窄帶信號卷積模型法。
3. 齒輪故障的解決方法
3.1 正確安裝和使用齒輪傳動系統,是預防系統故障發生的重要環節
只有嚴格遵守相應的安裝程序和操作技能要求,對齒輪傳動系統進行正確的安裝和使用,才能確保機械設備的正常運行。首先,要注意齒輪安裝的精度要求。齒輪安置精度的肯定,要在連系傳動齒輪的承載本領和使用壽命的基礎上舉行肯定。其次,不管是新安置、改換齒輪,仍是檢驗安置齒輪,都應該嚴格依照技術標準請求執行。最后,為了防止過度損壞齒輪的軸承或出現斷輪,安裝時切忌用鐵錐敲打。
3.2 正確使用和管理劑,是延長機械傳動齒輪使用壽命,減少故障發生的關鍵環節
劑的正確使用和管理,對避免齒輪傳動系統故障的發生,延長其使用壽命具有至關重要的作用。一方面,為了防止齒輪的加速老化磨損和使用壽命的不正??s短,應該結合齒輪的運轉情況、工作條件和環境等因素,正確使用劑。首先要科學記錄傳動齒輪的工作情況、每個部位使用的劑型號、使用時間等。然后根據出廠標準制定維修計劃,并結合實際工作環境和季節的變化,及時、適當地更換和加裝劑,保證機械傳動齒輪的正常工作。另一方面,還應該嚴格以科學的技術標準為指導,對劑的選擇、使用和更換過程進行嚴格把關。
3.3 完善生產技術和管理,對避免機械傳動齒輪故障也有重要意義
雖然機械傳動齒輪只是一個生產部件,但它與機械的軸和軸承都是相互聯系、相互作用的,每個部件的精度對生產都有重要影響作用。因此,必須嚴格按照出廠標準,對每一個部件進行安裝調試,以保證傳動齒輪和相關設備的精度,從而確保生產。日常生產管理過程中,也要在嚴格按照技術要求進行的基礎上,對其進行綜合的科學化管理,避免超負荷、故障生產。
4. 結論
齒輪傳動系統在國防、農業、工業和生產等領域的機械設備中都有廣泛的運用。因此,及時、早期的診斷和解決齒輪傳動系統中的故障,確保其安全性和可靠性具有非常重要的意義。首先,本文以小波分析方法、神經網絡分析方法和獨立變量分解法為例,詳細分析了齒輪故障的的診斷方法,并對故障的解決提出了3點建議:①正確安裝和使用齒輪傳動系統;②正確使用和管理劑;③完善生產技術和管理。
參考文獻:
[1]李濤.探析機械傳動系統關鍵零部件故障預測技術[J].中小企業管理與科技,2014(8).
[2]閆慧.關于采煤機械傳動齒輪失效問題的探討[J].科技創新與應用,2011(19).
卷積神經網絡方法范文6
關鍵詞:人機大戰;人工智能;發展前景
中圖分類號:TP391 文獻標識碼:A
0.引言
2016年3月15日,備受矚目的“人機大戰”終于落下帷幕,最終Google公司開發的“AlphaGo”以4∶1戰勝了韓國九段棋手李世h。毫無疑問,這是人工智能歷史上一個具有里程碑式的大事件。大家一致認為,人工智能已經上升到了一個新的高度。
這次勝利與1997年IBM公司的“深藍”戰勝國際象棋世界冠軍卡斯帕羅不同。主要表現在兩個方面:
(1)AlphaGo的勝利并非僅僅依賴強悍的計算能力和龐大的棋譜數據庫取勝,而是AlphaGo已經擁有了深度學習的能力,能夠學習已經對弈過的棋盤,并在練習和實戰中不斷學習和積累經驗。
(2)圍棋比國際象棋更加復雜,圍棋棋盤有361個點,其分支因子無窮無盡,19×19格圍棋的合法棋局數的所有可能性是冪為171的指數,這樣的計算量相當巨大。英國圍棋聯盟裁判托比表示:“圍棋是世界上最為復雜的智力游戲,它簡單的規則加深了棋局的復雜性”。因此,進入圍棋領域一直被認為是目前人工智能的最大挑戰。
簡而言之,AlphaGo取得勝利的一個很重要的方面就是它擁有強大的“學習”能力。深度學習是源于人工神經網絡的研究,得益于大數據和互聯網技術。本文就從人工智能的發展歷程與現狀入手,在此基礎上分析了人工智能的未來發展前景。
1.人工智能的發展歷程
AlphaGo的勝利表明,人工智能發展到今天,已經取得了很多卓越的成果。但是,其發展不是一帆風順的,人工智能是一個不斷進步,并且至今仍在取得不斷突破的學科?;仡櫲斯ぶ悄艿陌l展歷程,可大致分為孕育、形成、暗淡、知識應用和集成發展五大時期。
孕育期:1956年以前,數學、邏輯、計算機等理論和技術方面的研究為人工智能的出現奠定了基礎。德國數學家和哲學家萊布尼茨把形式邏輯符號化,奠定了數理邏輯的基礎。英國數學家圖靈在1936年創立了自動機理論(亦稱圖靈機),1950年在其著作《計算機與智能》中首次提出“機器也能思維”,被譽為“人工智能之父”??傊?,這些人為人工智能的孕育和產生做出了巨大的貢獻。
形成期:1956年夏季,在美國達特茅斯大學舉辦了長達2個多月的研討會,熱烈地討論用機器模擬人類智能的問題。該次會議首次使用了“人工智能”這一術語。這是人類歷史上第一次人工智能研討會,標志著人工智能學科的誕生。其后的十幾年是人工智能的黃金時期。在接下來的幾年中,在眾多科學家的努力下,人工智能取得了矚目的突破,也在當時形成了廣泛的樂觀思潮。
暗淡期:20世紀70年代初,即使最杰出的AI程序也只能解決問題中最簡單的部分,發展遇到瓶頸也就是說所有的AI程序都只是“玩具”,無法解決更為復雜的問題。隨著AI遭遇批評,對AI提供資助的機構也逐漸停止了部分AI的資助。資金上的困難使得AI的研究方向縮窄,缺少了以往的自由探索。
知識應用期:在80年代,“專家系統”(Expect System)成為了人工智能中一個非常主流的分支?!皩<蚁到y”是一種程序,為計算機提供特定領域的專門知識和經驗,計算機就能夠依據一組從專門知識中推演出的邏輯規則在某一特定領域回答或解決問題。不同領域的專家系統基本都是由知識庫、數據庫、推理機、解釋機制、知識獲取等部分組成。
集成發展期:得益于互聯網的蓬勃發展、計算機性能的突飛猛進、分布式系統的廣泛應用以及人工智能多分支的協同發展,人工智能在這一階段飛速發展。尤其是隨著深度學習和人工神經網絡研究的不斷深入,人工智能在近幾十年中取得了長足的進步,取得了令人矚目的成就。
人工智能發展到今天,出現了很多令人矚目的研究成果。AlphaGo的勝利就是基于這些研究成果的一個里程碑。當前人工智能的研究熱點主要集中在自然語言處理、機器學習、人工神經網絡等領域。
2.人工智能l展現狀與前景
人工智能當前有很多重要的研究領域和分支。目前,越來越多的AI項目依賴于分布式系統,而當前研究的普遍熱點則集中于自然語言處理、機器學習和人工神經網絡等領域。
自然語言處理:自然語言處理(Natural Language Processing,簡稱NLP),是語言學與人工智能的交叉學科,其主要功能就是實現讓機器明白人類的語言,這需要將人類的自然語言轉化為計算機能夠處理的機器語言。
自然語言處理主要包括詞法分析、句法分析和語義分析三大部分。詞法分析的核心就是分詞處理,即單詞的邊界處理。句法分析就是對自然語言中句子的結構、語法進行分析如辨別疑問句和感嘆句等。而語義分析則注重情感分析和整個段落的上下文分析,辨別一些字詞在不同的上下文定的語義和情感態度。
當前自然語言的處理主要有兩大方向。一種是基于句法-語義規則的理性主義理論,該理論認為需要為計算機制定一系列的規則,計算機在規則下進行推理與判斷。因此其技術路線是一系列的人為的語料建設與規則制定。第二種是基于統計學習的經驗主義理論,這種理論在最近受到普遍推崇。該理論讓計算機自己通過學習并進行統計推斷的方式不停地從數據中“學習”語言,試圖刻畫真實世界的語言現象,從數據中統計語言的規律。
機器學習:機器學習(Machine Learning)是近20年來興起的人工智能一大重要領域。其主要是指通過讓計算機在數據中自動分析獲得規律,從而獲取“自我學習”的能力,并利用規律對未知數據進行判斷和預測的方法。
機器學致可以分為有監督的學習和無監督的學習。有監督的學習是從給定的訓練數據集中練出一個函數和目標,當有新的數據到來時,可以由訓練得到函數預測目標。有監督的學習要求訓練集同時有輸入和輸出,也就是所謂的特征和目標。而依據預測的結果是離散的還是連續的,將有監督的學習分為兩大問題,即統計分類問題和回歸分析問題。統計分類的預測結果是離散的,如腫瘤是良性還是惡性等;而回歸分析問題目標是連續的,如天氣、股價等的預測。
無監督學習的訓練集則沒有人為標注的結果,這就需要計算機去發現數據間的聯系并用來分類等。一種常見的無監督學習是聚類分析(Cluster Analysis),它是將相似的對象通過靜態分類的方法分成不同的組別或者是特定的子集,讓同一個子集中的數據對象都有一些相似的屬性,比較常用的聚類方法是簡潔并快速的“K-均值”聚類算法。它基于K個中心并對距離這些中心最近的數據對象進行分類。
機器學習還包括如半監督學習和增強學習等類別??偠灾?,機器學習是研究如何使用機器來模擬人類學習活動的一門學科,而其應用隨著人工智能研究領域的深入也變得越來越廣泛,如模式識別、計算機視覺、語音識別、推薦算法等領域越來越廣泛地應用到了機器學習中。
人工神經網絡:在腦神經科學領域,人們認為人類的意識及智能行為,都是通過巨大的神經網絡傳遞的,每個神經細胞通過突出與其他神經細胞連接,當通過突觸的信號強度超過某個閾值時,神經細胞便會進入激活狀態,向所連接的神經細胞一層層傳遞信號。于1943年提出的基于生物神經元的M-P模型的主要思想就是將神經元抽象為一個多輸入單輸出的信息處理單元,并通過傳遞函數f對輸入x1,x2…,xn進行處理并模擬神經細胞的激活模式。主要的傳遞函數有階躍型、線性型和S型。
在此基礎上,對神經網絡算法的研究又有諸多進展。日本的福島教授于1983年基于視覺認知模型提出了卷積神經網絡計算模型。通過學習訓練獲取到卷積運算中所使用的卷積系數,并通過不同層次與自由度的變化,可以得到較為優化的計算結果。而AlphaGo也正是采用了這種深度卷積神經網絡(DCNN)模型,提高了AlphaGo的視覺分類能力,也就是所謂的“棋感”,增強了其對全盤決策和把握的能力。
3.人工智能的發展前景
總體來看,人工智能的應用經歷了博弈、感知、決策和反饋這幾個里程碑。在以上4個領域中,既是縱向發展的過程,也是橫向不斷改進的過程。
人工智能在博弈階段,主要是實現邏輯推理等功能,隨著計算機處理能力的進步以及深度學習等算法的改進,機器擁有了越來越強的邏輯與對弈能力。在感知領域,隨著自然語言處理的進步,機器已經基本能對人類的語音與語言進行感知,并且能夠已經對現實世界進行視覺上的感知?;诖髷祿奶幚砗蜋C器學習的發展,機器已經能夠對周圍的環境進行認知,例如微軟的Kinect就能夠準確的對人的肢體動作進行判斷。該領域的主要實現還包括蘋果的Siri,谷歌大腦以及無人駕駛汽車中的各種傳感器等。在以上兩個階段的基礎上,機器擁有了一定的決策和反饋的能力。無人駕駛汽車的蓬勃發展就是這兩個里程碑很好的例證。Google的無人駕駛汽車通過各種傳感器對周圍的環境進行感知并處理人類的語言等指令,利用所收集的信息進行最后的決策,比如操作方向盤、剎車等。
人工智能已經滲透到生活中的各個領域。機器已經能識別語音、人臉以及視頻內容等,從而實現各種人際交互的場景。在醫學領域,人工智能可以實現自動讀片和輔助診斷以及個性化t療和基因排序等功能。在教育領域,機器也承擔了越來越多的輔助教育,智能交互的功能。在交通領域,一方面無人車的發展表明無人駕駛是一個可以期待的未來,另一方面人工智能能夠帶來更加通暢和智能的交通。另外人工智能在安防、金融等領域也有非常廣闊的發展前景??傊?,人工智能在一些具有重復性的和具備簡單決策的領域已經是一種非常重要的工具,用來幫助人們解決問題,創造價值。
參考文獻
[1]阮曉東.從AlphaGo的勝利看人工智能的未來[J].新經濟導刊,2016 (6):69-74.