前言:中文期刊網精心挑選了卷積神經網絡的算法范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
卷積神經網絡的算法范文1
中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2016)35-0209-03
Research and Implementation of Image Classification Based on Convolution Neural Network
WANG Chao
(Information Engineering Institute,East China University of Technology, Nanchang 330013, China)
Abstract: The problem of image classification has been the core problem in computer vision. A good solution is developed by further study which can solve the problem of extracting image features in image classification. In order to learn image features efficiently, constructing the machine learning model with hidden layer as well as training a large number of image data will eventually promote the accuracy of image classification or prediction. This paper is intended as an in-depth Caffe learning framework to construct a small image data-base. The convolutional neural network provided by Caffe framework will make a training analysis of the data set and then extract the information of target image features. These can be used for the final prediction of the target image. Compared with the traditional image classification algorithm, the accuracy of the prediction will be greatly improved.
Key words: image classification; deep learning; Caffe framework; Convolutional Neural Network
S著計算機與互聯網技術的快速發展,我們已經進入了一個以圖像構建的世界。但是面臨有海量圖像信息卻找不到所需要的數據的困境,因而圖像分類技術應運而生。通過各種機器學習算法使計算機自動將各類圖像進行有效管理和分類,但是由于圖像內容包含著大量復雜且難以描述的信息,圖像特征提取和相識度匹配技術也存在一定的難題,要使得計算機能夠像人類一樣進行分類還是有很大的困難。
深度學習是近十年來人工智能領域取得的重要突破,在圖像識別中的應用取得了巨大的進步,傳統的機器學習模型屬于神經網絡模型,神經網絡有大量的參數,經常會出現過擬合問題,因而對目標檢測準確率上比較低。本文采用卷積神經網絡框架,圖像特征是從大數據中自動學習得到,而且神經網絡的結構深由很多層組成,通過重復利用中間層的計算單元來減少參數,在特征匯聚階段引入圖像中目標的顯著信信息,增強了圖像的特征表達能力。通過在圖像層次稀疏表示中引入圖像顯著信息,加強了圖像特征的語義信息,得到圖像顯著特征表示,通過實驗測試,效果比傳統的圖像分類算法預測的準確度有明顯的提升。
1 基于卷積神經網絡的圖像分類方法
1.1 人工神經網絡
人工神經網絡(Artificial Neural Network, ANN)是描述生物神經網絡運行機理和工作過程的抽象和簡化了的數學物理模型,使用路徑權值的有向圖來表示模型中的人工神經元節點和神經元之間的連接關系,之后通過硬件或軟件程序實現上述有向圖的運行[1]。目前最典型的人工神經網絡算法包括:目前最典型的人工神經網絡有BP網絡 [2]Hopfield網絡[3]Boltzmann機[4]SOFM網絡[5]以及ART網絡人工神經網絡[6],算法流程圖如圖1所示[7]。
1.2 卷積神經網絡框架的架構
Caffe是Convolutional Architecture for Fast Feature Embedding的縮寫[8],意為快速特征嵌入的卷積結構,包含最先進的深度學習算法以及一系列的參考模型,圖2表示的是卷積神經網絡結構圖。Caffe深度學習框架主要依賴CUDA,IntelMKL,OpenCV,glog軟件以及caffe文件。本文使用的各個軟件版本說明,如表1所示。
Caffe深度學習框架提供了多個經典的卷積神經網絡模型,卷積神經網絡是一種多層的監督學習神經網絡,利用隱含層的卷積層和池采樣層是實現卷積神經網絡特征提取功能,卷積神經網絡模型通過采取梯度下降法最小化損失函數對網絡中的權重參數逐層反向調節,通過頻繁的迭代訓練來提高網絡的精度。卷積神經網絡使用權值共享,這一結構類似于生物神經網絡,從而使網絡的復雜程度明顯降低,并且權值的數量也有大幅度的減少,本文使用這些模型直接進行訓練,和傳統的圖像分類算法對比,性能有很大的提升,框架系統訓練識別基本流程如圖3表示。
1.3 圖像分類特征提取
卷積神經網絡的結構層次相比傳統的淺層的神經網絡來說,要復雜得多,每兩層的神經元使用了局部連接的方式進行連接、神經元共享連接權重以及時間或空間上使用降采樣充分利用數據本身的特征,因此決定了卷積神經網絡與傳統神經網絡相比維度大幅度降低,從而降低計算時間的復雜度。卷積神經網絡主要分為兩個過程,分為卷積和采樣,分別的對上層數據進行提取抽象和對數據進行降維的作用。
本文以Caffe深度學習框架中的 CIFAR-10數據集的貓的網絡模型為例,如圖4所示,對卷積神經網絡模型進行訓練。CIFAR-10是一個標準圖像圖像訓練集,由六萬張圖像組成,共有10類(分為飛機,小汽車,鳥,貓,鹿,狗,青蛙,馬,船,卡車),每個圖片都是32×32像素的RGB彩色圖像。通過對數據進行提取和降維的方法來提取圖像數據的特征。
2 實驗分析
將貓的圖像訓練集放在train的文件夾下,并統一修改成256×256像素大小,并對貓的圖像訓練集進行標記,標簽為1,運行選擇cpu進行訓練,每進行10次迭代進行一次測試,測試間隔為10次,初始化學習率為0.001,每20次迭代顯示一次信息,最大迭代次數為200次,網絡訓練的動量為0.9,權重衰退為0.0005,5000次進行一次當前狀態的記錄,記錄顯示如下圖5所示,預測的準度在98%以上。而相比傳統的圖像分類算法BP神經網絡網絡的收斂性慢,訓練時間長的,網絡的學習和記憶具有不穩定性,因而卷e神經網絡框架在訓練時間和預測準度上具有非常大的優勢。
3 結束語
本文使用Caffe深度學習框架,以CIFAR-10數據集中貓的網絡模型為例,構建小型貓的數據集,提取貓的圖象特征信息,最后和目標貓圖像進行預測,并和傳統的圖像分類算法進行對比,預測的準確率有很大的提升。
參考文獻:
[1] 楊錚, 吳陳沭, 劉云浩. 位置計算: 無線網絡定位與可定位性[M]. 北京: 清華大學出版社, 2014.
[2] 丁士折. 人工神經網絡基礎[M]. 哈爾濱: 哈爾濱工程大學出版社, 2008.
[3] McClelland J L, Rumelhart D E, PDP Research Group. Parallel distributedprocessing[J]. Explorations in the microstructure of cognition, 1986, 2.
[4] Hopfield J J. Neural networks and physical systems with emergent collectivecomputational abilities[J]. Proceedings of the national academy of sciences, 1982, 79(8): 2554-2558.
[5] Ackley D H, Hinton G E, Sejnowski T J. A learning algorithm for boltzmannmachines[J]. Cognitive science, 1985, 9(1): 147-169.
[6] Kohonenmaps T. Self-Organized Formation of Topologically Correct Feature Maps[J]. Biological Cybernetics,1982, 43(1): 59-69.
卷積神經網絡的算法范文2
關鍵詞:深度學習;機器學習;卷積神經網絡
1概述
深度學習(Deep Learning)是人工智能、圖像建模、模式識別、神經網絡、最優化理論和信號處理等領域的交叉學科,主要構建和模擬人腦進行分析學習,它屬于機器學習的新興領域。
2大數據與深度學習
目前,光學檢測、互聯網、用戶數據、互聯網、金融公司等許多領域都出現了海量數據,采用BP算法對于訓練神經網絡出現了梯度越來越稀疏、收斂到局部最小值只能用有標簽的數據來訓練等缺點。Hinton于2006年提出了深度學習的概念,Lecun等人提出了卷積神經網絡,卷積神經網絡利用空間關系減少參數數目以提高訓練性能。
CPU和GPU計算能力大幅提升,為深度學習提供了硬件平臺和技術手段,在海量大數據處理技術上解決了早期神經網絡訓練不足出現的過擬合、泛化能力差等問題。
大數據和深度學習必將互相支撐,推動科技發展。
3深度學習模型
深度學習模型實際上是一個包含多個隱藏層的神經網絡,目前主要有卷積神經網絡,深深度置信神經網絡,循環神經網絡。
1)卷積神經網絡
在機器學習領域,卷積神經網絡屬于前饋神經網絡的一種,神經元不再是全連接的模式,而是應用了局部感受區域的策略。然而傳統的神經網絡使用神經元間全連接的網絡結構來處理圖像任務,因此,出現了很多缺陷,導致模型⑹急劇增加,及其容易過擬合。
在卷積神經網絡中,網絡中的神經元只與前一層的部分神經元連接,利用圖像數據的空間結構,鄰近像素間具有更強的相關性,單個神經元僅對局部信息進行響應,相鄰神經元感受區域存在重疊,因此,綜合所有神經元可以得到全局信息的感知。
另外,一個卷積層中的所有神經元均由同一個卷積核對不同區域數據響應而得到,即共享同一個卷積核,使得卷積層訓練參數的數量急劇減少,提高了網絡的泛化能力。
一般在卷積層后面會進行降采樣操作,對卷積層提取的特征進行聚合統計。降采樣區域一般不存在重疊現象。降采樣簡化了卷積層的輸出信息,進一步減少了訓練參數的數量,增強了網絡的泛化能力。
卷積神經網絡實現了局部特征的自動提取,使得特征提取與模式分類同步進行,適用于處理高分辨率的圖像數據。目前,卷積神經網絡在圖像分類、自然語言處理等領域得到廣泛應用。
2)深度置信網絡
深度置信網絡是一種生成模型,網絡中有若干隱藏層,同一隱藏層內的神經元沒有連接,隱藏層間的神經元全連接。神經網絡經過“反向運行”得到輸入數據。
深度置信網絡可以用做生成模型,通過前期的逐層無監督學習,神經網絡可以較好的對輸入數據進行描述,然后把訓練好的神經網絡看作深度神經網絡,最后得到分類任務的深度神經網絡。
深度置信網絡可以用于圖像識別、圖像生成等領域,深度置信網絡可以進行無監督或半監督的學習,利用無標記數據進行預訓練,提高神經網絡性能。但近幾年由于卷積神經網絡的飛速發展,深度置信網絡已經很少被提及。
3)循環神經網絡
循環神經網絡是一種專門用于處理時序數據的神經網絡,它與典型的前饋型神經網絡最大區別在于網絡中存在環形結構,隱藏層內部的神經元是互相連接的,可以存儲網絡的內部狀態,其中包含序列輸入的歷史信息,實現了對時序動態行為的描述。這里的時序并非僅僅指代時間概念上的順序,也可以理解為序列化數據間的相對位置。如語音中的發音順序,某個英語單詞的拼寫順序等。序列化輸入的任務都可以用循環神經網絡來處理。如語音、視頻、文本等。對于序列化數據,每次處理時輸入為序列中的一個元素,比如單個字符、單詞、音節,期望輸出為該輸入在序列數據中的后續元素。循環神經網絡可以處理任意長度的序列化數據。
循環神經網絡可以用于機器翻譯、連寫字識別、語音識別等。循環神經網絡和卷積網絡結合,將卷積神經網絡用于檢測并識別圖像中的物體,循環神經網絡用于識別出物體的名稱為輸入,生成合理的語句,從而實現對圖像內容的描述。
4深度學習應用
1)語音識別
語音識別技術主要包括特征提取技術、模式匹配準則及模型訓練技術三個方面。其應用領域主要有語音輸入系統、語音控制系統和智能對話查詢系統,語音識別極大地推動了人工智能的快速發展。1952年Davis等人研究了世界上第一個能識別10個英文數字發音的實驗系統。大規模的語音識別研究是在20世紀70年代以后,在小詞匯量、孤立詞的識別方面取得了實質性的進展。2012年,微軟研究院使用深度神經網絡應用在語音識別上將識別錯誤率降低了20%,取得了突破性的進展。2015年11月17日,浪潮集團聯合全球可編程芯片巨頭Altera,以及中國最大的智能語音技術提供商科大訊飛,共同了一套DNN語音識別方案。
2)圖像分析
圖像是深度學習最早嘗試的應用領域。1989年,LeCun和他的同事們就發表了卷積神經網絡的工作。2012年10月,Hinton和他的兩個學生用更深的CNN在ImageNet挑戰上獲得了第一名,使圖像識別向前躍進了一大步。
自2012年以來,深度學習應用于圖像識別使得準確率大大上升,避免了消耗人工特征抽取的時間,極大地提升了效率,目前逐漸成為主流的圖像識別與檢測方法。
卷積神經網絡的算法范文3
【關鍵詞】微表情識別 卷積神經網絡 長短時記憶
1 引言
人們的內心想法通常都會表現在面部表情上,然而在一些極端環境下,人們為了壓抑自己的真實內心情感時,他們的面部變化十分微小,我們通常稱之為微表情。在刑偵、醫學、教育、心理和國防等領域上,微表情的應用前景十分遠大, 不過即便是經過訓練的人也很難用肉眼來準確的檢測和識別微表情。其主要原因就是它的持續時間短,僅為1/5~1/25s,而且動作幅度很小。
人臉表情識別技術早已發展到一定程度了,甚至不少研究團隊提出的方法針對6種基本表情的識別率已經達到90%。然而微表情識別技術的研究在近幾年來才剛剛開始,如Pfister等提出了一種結合時域插值模型和多核學習的方法來識別微表情; Wu等設計了一種使用Gabor特征和支持向量機的微表情識別系統;唐紅梅等在LTP做出改進而提出的MG-LTP算法,然后采用極限學習機對微表情進行訓練和分類;Wang等提出了基于判別式張量子空間分析的特征提取方法,并利用極限學習機訓練和分類微表情。
上述的識別技術都是基于傳統機器學習的方法,而近幾年來,利用深度學習技術來解決圖像識別問題是當前的研究熱點。在ILSVRC-2012圖像識別競賽中,Krizhevsky等利用深度卷積神經網絡的自適應特征提取方法,其性能遠遠超過使用人工提取特征的方法,并且在近幾年內的ImageNet大規模視覺識別挑戰比賽中連續刷新了世界紀錄。
本文決定使用卷積神經網絡(CNN)來提取人臉微表情特征,它能讓機器自主地從樣本數據中學習到表示這些微表情的本質特征,而這些特征更具有一般性。由于微表情的特性,要充分利用微表情的上下文信息才能更為精確的識別微表情,這里我們采用長短時記憶網絡(LSTM),它是遞歸神經網絡(RNN)中的一種變換形式,它能夠充分的利用數據的上下文信息,在對序列的識別任務中表現優異,近幾年來它被充分的利用到自然語言處理、語音識別機器翻譯等領域。綜上所述,本文提出一種CNN和LSTM結合的微表情識別方法。
2 相關工作
2.1 卷積神經網絡模型
卷積神經網絡模型(CNN)最早是由LeCun等在1990年首次提出,現已在圖像識別領域取得巨大成功,它能夠發現隱藏在圖片中的特征,相比人工提取的特征更具有區分度,而且不需要對原始數據做過多的預處理。
卷積神經網絡(CNN)通過三種方式來讓網絡所學習到的特征更具有魯棒性:局部感受野、權值共享和降采樣。局部感受野是指每一個卷積層的神經元只能和上一層的一部分神經元連接,而不是一般神經網絡里所要求的全連接,這樣每一個神經元能夠感受到局部的視覺特征,然后在更高層將局部信息進行整合,進而得到整個圖片的描述信息。權值共享是指每一個神經元和上一層的部分神經元所連接的每一條邊的權值,和當前層其他神經元和上一層連接的每一條邊的權值是一樣的,首先@樣減少了需要訓練的參數個數,其次我們可以把這種模式作為提取整個圖片特征的一種方式。降采樣是指通過將一定范圍內的像素點壓縮為一個像素點,使圖像縮放,減少特征的維度,通常在卷積層之后用來讓各層所得到的特征具有平移、縮放不變形,從而使特征具有更強的泛化性。
2.2 長短時記憶型遞歸神經網絡模型
長短時記憶(LSTM)模型是由Hochreiter提出,它解決了傳統RNN在處理長序列數據時存在的梯度消失問題,這一切都要歸結于LSTM結構的精心設計。一個常規的LSTM結構如圖1所示。
每一個LSTM結構都有一個記憶單元Ct(t表示當前時刻),它保存著這個時刻LSTM結構的內部狀態,同時里面還有三個門來控制整個結構的變化,它們分別是輸入門(xt),忘記門(ft)和輸出門(ht),它們的定義如下所示:
(1)
(2)
(3)
(4)
(5)
(6)
其中σ是一個sigmod函數,而則表示輸入數據的非線性變化,W和b是模型需要訓練得到的參數。等式5展示了當前的記憶單元是由忘記門和上一時刻的內部狀態所控制的,ft決定了上一時刻的內部狀態對當前時刻的內部狀態的影響程度,而it則確定了輸入數據的非線性變換得到的狀態對當前時刻記憶單元的影響程度。等式6展示了輸出門和當前時刻的內部狀態決定了該LSTM的輸出。正因為這個巧妙的設計,LSTM就能處理長序列的數據,并且能夠從輸入序列中獲取時間上的關聯性,這一特性對于微表情的識別尤為重要。
3 網絡結構調優和改進
3.1 卷積神經網絡設計
本文針對輸入大小為96×96的灰度圖,構建了4個卷積層(C1,C2,C3,C4),4個池化層(S1,S2,S3,S4),1個全連接層(FC1)和1個Softmax層組成的卷積神經網絡結構,如圖2所示。卷積核(C1,C2,C3,C4)的大小分別為3×3,3×3,5×5,5×5,分別有32,32,32,64個。池化層的降采樣核大小均為2×2,并且全部采用的是最大采樣,每一個池化層都在對應的卷積層之后,而在所有的卷積層之后,連接了一個包含256個神經元的全連接層,為了盡可能的避免過擬合問題,本文在全連接層后加入一個p=0.75的Dropout層,除了softmax層,其余層的激活函數全部是采用ReLU,CNN的參數訓練都是采用隨機梯度下降算法,每一批次包含100張圖片,并設置沖量為0.9,學習速率為0.001。
3.2 長短時記憶型遞歸神經網絡設計
盡管CNN已經從人臉微表情圖片從學習到了特征,但是單一的CNN模型忽略了微表情在時域上的信息。于是我們提出通過LSTM來學習不同人臉表情在時域上的關聯特征。我們構建了多個LSTM層,以及一個softmax層。
我們首先先訓練好CNN的參數,然后把訓練好的CNN模型,作為一個提取人臉微表情的工具,對于每一幀圖片,我們把最后一個全連接層的256維的向量輸出作為提取的特征。那么給定一個時間點t,我們取之前的W幀圖片([t-W+1,t])。然后將這些圖片傳入到訓練好的CNN模型中,然后提取出W幀圖片的特征,如果某一個序列的特征數目不足,那么用0向量補全,每一個特征的維度為256,接著將這些圖片的特征依次輸入到LSTM的節點中去,只有t時刻,LSTM才會輸出它的特征到softmax層。同樣LSTM網絡的參數訓練還是采用隨機梯度下降算法,每一批次為50個序列,沖量為0.85,學習速率為0.01。
4 實驗
4.1 微表情數據集
該實驗的訓練數據和測試數據均來自于中國科學院心理研究所傅小蘭團隊的第2代改進數據庫CASMEII。該數據庫從26名受試者中捕捉到近3000個面部動作中選取的247個帶有微表情的視頻,并且給出了微表情的起始和結束時間以及表情標簽,由于其中悲傷和害怕表情的數據量并不多,因此本文選取了里面的5類表情(高興,惡心,驚訝,其他,中性),由于數據庫中的圖片尺寸不一樣并且是彩色圖片,因此先將圖片進行灰度處理,并歸一化到 大小作為網絡的輸入。本實驗采用5折交叉驗證的方法,選取245個微表情序列等分成5份,每個序列的圖片有10張到70張不等,每份均包含5類表情。
4.2 CNN+LSTM和CNN的對比實驗
從圖2中可以看出不同策略在五類表情里的識別率。當我們采用單一的CNN模型來對人臉微表情進行分類時,我們采取了dropout策略和數據集擴增策略來防止CNN過擬合。CNN+D表示采取了dropout策略的CNN模型,CNN+A表示采取了數據擴增策略的CNN模型, 即對每一張圖片進行了以下四種變換:旋轉、水平平移、垂直平移、水平翻轉。從而能將數據集擴增至4倍。CNN+AD表示采取了兩種策略的CNN模型。CNN+LSTM表示結合了CNN和LSTM的網絡模型。
從表1中我們可以看出,添加了策略的CNN,在人微表情識別上的表現要好于沒有添加策略的CNN,這可能是因為訓練圖片較少,而CNN網絡層次較深,導致沒有添加策略的CNN在訓練參數的過程中很容易就過擬合了。而對于CNN+LSTM的表現要好于單一的CNN模型,這說明LSTM的確能夠充分利用時域上的特征信息,從而能夠更好識別序列數據,這證明了CNN+LSTM的模型可以用于識別人臉微表情的可行性。從表1中,我們還可以看出高興和驚訝的表情識別率較高,而其他的則相對較低,這可能是因為高興和驚訝的區分度較大,并且樣本較多。
4.3 LSTM的參數調整
下面我們逐一的研究不同參數對CNN+LSTM模型的微表情識別率的影響程度。
圖4顯示輸入的序列個數為100左右能夠擁有相對較高的準確率,這說明只有充分利用每一個微表情序列的時域信息,這樣,訓練出的模型才更加具有一般性。
圖5顯示出當LSTM隱層的神經元個數為128時,此時的微表情平均識別率最高,這說明隱層需要足夠多的神經元才能保留更長的時域信息,對于微表情識別來說,能夠擁有更高的精度。
圖6顯示了LSTM隱層的個數為5時,該模型擁有最好的識別率,這說明較深的LSTM網絡才能充分挖掘特征的時域信息。因此經過以上實驗,我們得到了一個由5層LSTM,每一層包含128個神經元,并能夠處理長度為100的特征序列的模型。
4.4 和非深度學習算法的實驗對比
為了比較傳統機器學習算法和深度學習算法孰優孰劣,我們使用傳統機器學習算法在Casme2進行了一樣的實驗,從表2中可以看出,本文所提出的CNN+LSTM模型相對于這些傳統機器學習模型,有著較為優異的表現。
本文中的實驗均是基于Google的開源機器學習庫TensorFlow上進行的,硬件平臺是dell工作站:Intel(R) Core(TM) i7-5820K CPU、主頻3.3GHZ,內存64GB、Nvida GeForce GTX TITAN X GPU、顯存12GB。
5 結束語
本文針對傳統方法對微表情識別率低,圖片預處理復雜的情況,提出了采用卷積神經網絡和遞歸神經網絡(LSTM)結合的方式,通過前面的卷積網絡層來提取微表情的靜態特征,省去了傳統機器學習方法,需要人工提取特征的過程,簡化了特征提取的工作。然后再通過后面的遞歸神經網路,充分利用表情特征序列的上下文信息,從而在序列數據中發現隱藏在其中的時域信息,從實驗結果中可以看出,利用了時域信息的CNN+LSTM比單純使用CNN的識別率更高,而且相對于傳統機器學習方法也更為優秀。但是當數據量越大時,如果網絡的層次比較深的話,模型的訓練時間就會很長,并且極度依賴硬件設備,這算是深度學習通有的弊病。為了進一步投入到應用中去,接下來還得提高微表情的識別率,以及在實時環境下,如何能夠動態和準確的識別微表情,這些都將會是以后研究的重點。
參考文獻
[1]PORTER S,TEN BRINKE L.Reading between the Lies Identifying Concealed and Falsified Emotions in Universal Facial Expressions[J].Psychological Science,2008,19(05):508-514.
[2]Pfister T,Li X,Zhao G,Pietikainen M (2011) Recognising spontaneous facial micro-expressions.2011 Proc IEEE Int Conf Comput Vis (ICCV): IEEE.pp.1449-1456.
[3]Wu Q,Shen X,Fu X (2011) The Machine Knows What You Are Hiding: An Automatic Micro-expression Recognition System.In: D’Mello S,Graesser A,Schuller B,Martin J-C,editors.Affect Comput Intell Interact.Springer Berlin/ Heidelberg. pp.152-162.
[4]唐紅梅,石京力,郭迎春,韓力英,王霞. 基于MG-LTP與ELM的微表情識別[J].電視技術,2015,39(03):123-126.
[5]WANG S J,CHEN H L,YAN W J,et al. Face Recognition and Micro-Expression Recognition Based on Discriminant Tensor Subspace Analysis Plus Extreme Learning Machine[J].Neural Processing Letters,2014,39(01):25-43.
[6]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks. In:Advances in Neural Information Processing Systems 25.Lake Tahoe, Nevada,USA:Curran Associates,Inc., 2012.1097?1105
[7]DENG J,DONG W,SOCHER R,et al.Imagenet:A large-scale hierarchical image database [C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2009:248-255.
[8]BENGIO Y,DELALLEAU O.On the expressive power of deep archi-tectures[C]//Proc of the 14th International Conference on Discovery Science.Berlin:Springer-Verlag,2011:18-36.
[9]LeCun Y,Boser B,Denker J S,Howard R E,Hubbard W,Jackel L D,Henderson D.Handwritten digit recogni- tion with a back-propagation network. In: Proceedings of Advances in Neural Information Processing Systems 2. San Francisco,CA,USA:Morgan Kaufmann Publishers Inc.,1990.396-404.
[10]S可.卷積神經網絡在圖像識別上的應用研究[D].杭州:浙江大學[學位論文],2012.
[11]Hochreiter S,Sehmidhuber J.Long Short-Term Memory.Neural Computation,1997,9(08):1735-1780
[12]LUCEY P,COHN J F,KANADE T,et al.The Extended Cohn-Kanade Dataset ( CK + ): A complete dataset for ac- tion unit and emotion-specified expression [C] //IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).New York:IEEE,2010:94-101.
[13]Dayan P,Abott L F.Theoretical Neuroscience.Cambridge:MIT Press, 2001.
[14]YAN W J, LI X, WANG S J, et al. CASME II: An Improved Spontaneous Micro-Expression Database and the Baseline Evaluation [J].Plos One, 2014,9(01):1-8.
[15]Yandan Wang,John See,Raphael C-W Phan,Yee-Hui Oh. Efficient Spatio-Temporal Local Binary Patterns for Spontaneous Facial Micro-Expression Recognition[J].PLOS ONE,2013,10(05): 11-12
[16]張軒閣,田彥濤,郭艷君,王美茜.基于光流與LBP-TOP特征結合的微表情識別[J].吉林大學學報:信息科學版, 2015,33(05):521-522.
[17]Martín Abadi, Paul BarhamJianmin, Chen el.TensorFlow:Large-Scale Machine Learning on Heterogeneous Distributed Systems[EB/OL].https:///abs/1605.08695.
卷積神經網絡的算法范文4
關鍵詞:Deep Learning;多隱含層感知;DropConnect;算法
中圖分類號:TP181
Deep Learning是機器學習研究的新領域,它掀起了機器學習領域的第二次浪潮,并受到學術界到工業界高度重視。Deep Learning概念根源于人工神經網絡[3],它由Geoffrey Hinton等在Science上提出。它致力于建立模擬人腦分析學習機制的多層次神經網絡,并通過這種網絡分析解釋數據,如視頻、文本和聲音等。Deep Learning的多隱含層使得它具有優異的特征學習能力,而且學習得到的特征對數據有更本質的刻畫,從而有利于可視化或分類。它的“逐層初始化”(layer-wise pre-training[4])可以有效克服深度神經網絡在訓練上的難度。本文在對Deep Learning算法分析的基礎上,著重闡述了對Regularization of Neural Networks using DropConnect模型的改進。
1 Deep Learning算法分析
1.1 Deep Learning多隱含層感知架構
Deep Learning算法最優秀特征是多隱含層感知器架構,這種架構通過組合低層特征來形成更加抽象的高層屬性類別或特征,并實現對數據分布式表示。Deep Learning的多隱含層結構是由輸入層、隱層(多層)、輸出層組成的多層網絡(如圖1所示),只有相鄰層神經元之間有連接,同一層以及跨層節點之間相互無連接,每一層可以看作是一個淺層機器學習模型(如logistic regression,Support Vector Machines)。
圖1 含多個隱含層的Deep Learning模型
Deep Learning的多隱含層感知結構模擬的是人腦的大腦皮層工作。人大腦皮層計算也是分多層進行[5],例如圖像在人腦中是分多個階段處理,首先是進入大腦皮層V1區提取邊緣特征,然后進入大腦皮層V2區抽象成圖像的形狀或者部分,再到更高層,以此類推。高層的特征是由底層組合而成。使用含多隱含層感知器架構網絡主要優勢在于它能以更簡潔的方式表達比淺層網絡大得多的函數關系(如圖2)。通過這種深層非線性網絡結構,Deep Learning可以實現復雜函數的逼近,表征輸入數據的分布式表示,并展現了強大的從少數樣本集中學習數據集本質特征的能力。
圖2 多層次實現復雜函數圖
1.2 Deep Learning訓練過程
(1)首先逐層構建單層神經元,使得每次都是訓練一個單層網絡。
(2)當所有層訓練完后,使用Wake-Sleep算法[6]進行調優。
將除最頂層的其它層間的權重是雙向的。向上的權重用于“認知”,向下的權重用于“生成”。然后使用Wake-Sleep算法調整所有的權重。讓“認知”和“生成”達成一致,也就是保證生成的最頂層表示能夠盡可能正確的復原底層的結點。
1.3 Deep Learning數據處理一般過程
Deep Learning算法通過傳感器等方式獲得數據之后,首先對數據進行預處理。在數據預處理中,標準的第一步是數據歸一化處理,第二步是數據白化處理(如PCA白化和ZCA白化)。其次特征提取和特征選擇。然后將輸出作為下層的輸入,不斷進行特征提取和特征選擇,直到學習到合符要求的最佳特征。在特征提取和特征選擇過程中,常用自動編碼、稀疏編碼、聚類算法、限制波爾茲曼機、卷積神經網絡等算法進行特征提取和特征選擇。然后用反向傳播算法、隨機梯度下降算法、批量梯度下降算法等進行調優處理,再用池化等算法避免特征過度擬合,從而得到最終提取特征。最后將學習到的最終提取特征輸入到分類器(如softmax分類器,logistic回歸分類器)進行識別、推理或預測。
2 基于Regularization of Neural Networks using DropConnect模型改進
2.1 Regularization of Neural Networks using DropConnect模型[2]
該模型的四個基本組成成分是:
(1)特征提?。簐=g(x;Wg)。x是輸入層的輸入數據,Wg是特征提取函數的參數,v是輸出的提取特征,特征提取函數g()。其中g()為多層卷積神經網絡算法函數,而Wg卷積神經網絡的偏值。
(2)DropConnect層:r=a(u)=a((M*W)v)如圖3。v是輸出的提取特征,W是完全連接的權重矩陣,M是二進制掩碼矩陣,該矩陣的每個元素隨機的以1-p概率設置為0或以p概率設置為1,a()是一個非線性激活函數,r是輸出向量。M*W是矩陣對應元素相乘。
(3)Softmax分類器層:o=s(r;Ws)。將r映射到一個k維的輸出矩陣(k是類的個數),Ws是softmax分類函數的參數。
(4)交叉熵損失:A(y,o)=-∑yi(oi),i∈1,2,3…k。y是標簽,o是概率。
圖3 DropConnect示意圖
2.2 模型改進描述和分析
對DropConnect模型的改進主要集中在上面它的四個基本組成成分中的DropConnect層。由于該層以隨機方式讓掩碼矩陣M的每個元素Mij按1-p的概率設置為0,然后讓掩碼矩陣與層間的權重矩陣對應相乘即M*W。相對DropOut模型r=a((M*(Wv))得到的特征,r=a((M*W)v)得到的特征是比較好的特征r,同時也提高算法的泛化性。因為Dropconnect模型在權重W和v運算之前,將權重以一定的概率稀疏了,從運行結果看整體算法的錯誤率降低了。但是,由于是隨機的讓Mij按1-p的概率為0,并且這種隨機是不可以預測的,故可能會導致某些重要特征對應的權重被屏蔽掉,最終造成輸出ri的準確性降低。故就此提出了新的設計思想。
改進思想是用單層稀疏編碼層代替DropConnect層,通過稀疏編碼訓練出一組最佳稀疏的特征。具體描述:讓經過多層卷積神經網絡提取到的特征v作為稀疏編碼的輸入,經過稀疏編碼重復訓練迭代,最終得到最佳的稀疏的特征r。因為稀疏編碼算法是一種無監督學習方法,用它可以尋找出一組“超完備”基向量來更高效地表示輸入數據。
總之任何對Deep Learning算法的改進,都是為了提取出最佳特征,并使用優秀的分類算法來分類、預測或推理,最終降低算法的錯誤率。而對于怎樣改進算法,以何種方式降低錯誤率,則沒有具體的限制。并且各種提取特征和特征選擇的算法之間并不是互斥的,它們之間可以有各種形式的嵌套,最終的目標都是提高算法的正確率和效率。
3 結束語
Deep Learning使得語音、圖像和文本等的智能識別和理解取得驚人進展,如Google Brain項目和微軟推同聲傳譯系統。它極大地推動了人工智能和人機交互快速發展。隨著從學術界到工業界的廣泛重視,Deep Learning算法的改進依然在繼續,Deep Learning算法的正確率和效率仍在不斷提高。Deep Learning的發展將加快“大數據+深度模型”時代來臨。
參考文獻:
[1]Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science,2006(5786):504-507
[2]湯姆?米切爾.機器學習[M].北京:機械工業出版社,2003:1-280.
[3]吳昌友.神經網絡的研究及應用[D].哈爾濱:東北農業大學,2007.
[4]HINTON G,OSINDERO S,TEH Y. A fast learning algorithm for deep belief nets[J].Neural Computation,2006(07):1527-1554.
[5]Hubel D H, Wiesel T N. Receptive fields,binocular interaction and functional architecture in the cat's visual cortex[J].The Journal of physiology,1962(01):106.
[6]Chuang Gao,Bin Chen,Wei Wei.Dynamic detection of wake-sleep transition with reaction time-magnitude[J].Neural Regenerattion Research,2009(07):552-560.
卷積神經網絡的算法范文5
關鍵詞:圖像復原;盲復原;逆濾波;神經網絡復原
1 圖像退化及復原模型
1.1 圖像降質的數學模型
圖像復原處理的關鍵問題在于如何建立退化模型。假定輸入圖像f(x,y)經過某個退化系統后輸出的是一幅退化的圖像。為了方便討論, 把噪聲引起的退化(即噪聲)對圖像的影響一般作為加性噪聲考慮,這也與許多實際應用情況一致,如圖像數字化時的量化噪聲、隨機噪聲等就可以作為加性噪聲,即使不是加性噪聲而是乘性噪聲,也可以用對數方式將其轉化為相加形式。原始圖像f(x,y) 經過一個退化算子或系統H(x,y) 的作用,然后和噪聲n(x,y)進行疊加,形成退化后的圖像g(x,y)。圖像退化的過程可以用數學表達式寫成如下的形式:
g(x,y)=H[f(x,y)]+n(x,y)
n(x,y)是一種統計性質的信息下圖表示退化過程的輸入和輸出的關系,其中H(x,y)包含了退化系統的物理過程,即所要尋找的退化數學模型。
1.2 圖像的退化恢復模型
數字圖像的圖像恢復問題可以看作是:根據退化圖像g(x ,y)和退化算子H(x ,y)的形式,沿著逆向過程去求解原始圖像f(x ,y), 或者說逆向地尋找原始圖像的最佳近似估計。
2 研究背景與意義
圖像復原是數字圖像處理技術的一個重要研究方向,在現實生活中,有著非常廣闊的應用前景和市場。數字圖像處理研究很大部分是服務于數字圖像復原的,而運動模糊圖像的復原又是圖像復原中的重要課題之一,從六十年代起就有人研究它。初期研究的主要原因是對衛星所拍攝的圖像進行復原,因為衛星相對地球是運動的,所拍出的圖像是模糊的(當然衛星所拍攝圖像的模糊原因不僅僅是相對運動而造成的,還有其他原因如大氣湍流所造的模糊等等)。美國的噴氣推進實驗室(JPL)對徘徊者飛行器發回的月球照片進行了圖像恢復處理。傳統的圖像恢復方法可以很好地恢復出來原始圖像,但是需要事先知道系統的先驗知識(例如系統的點擴散函數)。在先驗知識不足的情況下,如何恢復出來原始圖像?這就需要模糊圖像盲恢復技術。根據不同的應用背景和先驗知識,大致可以兩種方法恢復兩種類型的模糊圖像,以滿足不同的應用要求。
第一種方法:如何快速恢復模糊圖像,進行適時性圖像處理?這個技術在實際生活中有著廣泛應用。
第二種方法:如何在事先不能確定模糊系統點擴散函數的情況下,恢復模糊圖像,改善圖像的質量,這就是圖像盲恢復的問題。
3 國際國內研究發展和現狀
從歷史上來看,數字圖像處理研究有很大部分是在圖像恢復方面進行的,包括對算法的研究和針對特定問題的圖像處理程序的編寫。數字圖像處理中很多值得注意的成就就是在這兩方面取得的。
在六十年代中期,去卷積(逆濾波)開始被廣泛地應用于數字圖像恢復。這一階段對模糊圖像的研究主要是把因相對運動而拍攝的模糊圖像復原過來,從而增強人們的判讀能力。早期做圖像復原研究,主要強調盡可能使模糊圖像復原到原貌,增加它的判讀性,在此發展了很多的復原方法,諸如:差分復原、維納濾波等.這些方法各有特點,較好的解決了運動模糊圖像的判讀問題,但是在應用上均有一定的限制。
雖然經典的圖象復原方法不少,但歸納起來大致可分為逆濾波法,或稱相關變換法( inv ersefiltering or t ransfo rm related techniques) 和代數方法( alg ebraic techniques) 兩種。
3.1 傳統復原法
3.1.1 逆濾波方法
逆濾波法大致有經典逆濾波法、維納濾波法、卡爾曼濾波法等. 其中,在傅立葉變換域,經典逆濾波的變換函數是引起圖象失真的變換函數的逆變換,其雖在沒有噪聲的情況下,可產生精確的復原圖象,但在有噪聲時,將對復原圖象產生嚴重的影響,雖然濾波函數經過修改,有噪聲的圖象也能復原,但它僅適用于極高信噪比條件下的圖象復原問題; 維納濾波法是通過選擇變換函數,同時使用圖象和噪聲的統計信息來極小化均方復原誤差,這雖然在一定程度上克服了逆濾波法的缺點,但是維納濾波法需要較多有關圖象的先驗知識,如需要對退化圖象進行滿足廣義平穩過程的假設,還需要知道非退化圖象的相關函數或功率譜特性等等,而在實際應用中,要獲得這些先驗知識有較大的困難,為此,Ozkan 等人在研究圖象序列的復原問題時,提出了一種解決空間和時間相關性的多幀維納濾波法,是近年來維納濾波法的新發展; 卡爾曼濾波是一種遞歸濾波方法,其雖可用于非平穩圖象的復原,但是因計算量過大,而限制了其實際應用的效果。 Wu 和Kundu 又對卡爾曼濾波方法進行了改進,不僅提高了速度,并考慮了應用于非高斯噪聲的情況; Cit rin 和Azimi-Sadjadi 也對卡爾曼濾波方法進行了改進,提出了塊卡爾曼濾波方法; Koch 等提出了擴展卡爾曼濾波( extended Kalmam filter) 復原方法,該方法可以較好地復原模糊類型不相似的退化圖象.除了上述的逆濾波方法外,還有參數估計濾波法,它實質上是維納濾波法的變種. 20 世紀90 年代初,又提出了基于遞歸圖象濾波的自適應圖象復原方法及合成濾波方法,它代表了濾波方法新的發展方向. 1998 年Kundur 等人首先明確提出了遞歸逆濾波( recursiv e inv er se filter ing ) 算法 ,2000 年Chow 等人又進行了改進,即在代價函數中增加了空間自適應正則化項,從而很好地抑制了噪聲,并減少了振鈴現象,較好實現了在低SNR 條件下的盲圖象復原. 2001 年,Eng 等人結合模糊集的概念,提出了自適應的軟開關中值濾波方法,它能在有效地去掉脈沖噪聲的同時,很好地保存圖象的細節,是一種值得重視的新的圖象復原方法。
3.1 2 代數方法
Andrews 和Hunt 提出了一種基于線性代數的圖象復原方法。這種方法可能比較適合那些相對于積分運算,則更喜歡矩陣代數,而相對于分析連續函數,又更喜歡離散數學的人的口味。它為復原濾波器的數字計算提供了一個統一的設計思路。代數方法可分為偽逆法、奇異值分解偽逆法、維納估計法和約束圖象復原方法等。 其中,偽逆法,實質上是根據圖象退化的向量空間模型來找到引起圖象退化的模糊矩陣,但由于模糊矩陣總是很大的,因此在計算上往往不可行; 而奇異值分解偽逆法則是利用矩陣可分解成特征矩陣系列的思想,將模糊矩陣進行分解,由于簡化了計算,從而有利于模糊矩陣的估計計算,但在有噪聲存在時,經常會出現不穩定的現象; 維納估計法雖然考慮了噪聲的情況,但它僅適合噪聲是二維隨機過程,且已知其期望和協方差的情況。前面的方法僅把圖象看成是數字的陣列,然而一個好的復原圖象應該在空間上是平滑的,其在幅度值上是正的,而約束圖象復原方法就是將這些因素作為約束條件,如基于維納估計法和回歸技術而提出的圖象復原方法就是一種約束圖象復原方法,而且通過選取不同的約束參數和回歸方法可以得到不同的圖象復原算法。傳統的圖象復原算法或面臨著高維方程的計算問題,或要求恢復過程滿足廣義平穩過程的假設,這就是,使得具有廣泛應用價值的圖象復原問題沒有得到圓滿的解決的根本原因。
3.2 神經網絡圖象復原的方法
神經網絡圖象復原方法的發展方向自從神經網絡圖象復原首次提出十多年來,其研究在不斷地深入和發展,描述它的現狀已屬不易,展望它的未來更是困難,況且科學研究具有不確定性. 據筆者判斷,如下諸方面是亟待解決的問題,或研究活動已有向這些方面集中的趨勢。
3. 2.1小波神經網絡用于圖象復原將是研究的重點
自1992 年Zhang 提出小波神經網絡以來,如今已提出了各種類型的小波網絡,且小波與神經網絡的結合成了一個十分活躍的研究領域。通過學者們的理論分析和模擬實驗表明: 由于小波神經網絡具有逼近能力強、可顯著降低神經元的數目、網絡學習收斂的速度快、參數( 隱層結點數和權重) 的選取有理論指導、能有效避免局部最小值問題等優點,因此將其用于圖象復原是一個值得研究的方向。將小波的時頻域局部性、多分辨性等性質,與神經網絡的大規模并行性、自學習特性等優點結合起來,不僅將使用于圖象復原的小波神經網絡具有自適應分辨性,也將使正則化參數的選取更具有自適應能力. 最終使復原圖象既能保持圖象的細節,又能很好地抑制圖象中的各種噪聲。
3.2.2細胞神經網絡、BP 網絡、自組神經網絡
值得進一步研究細胞神經網絡( CNN ) 由于其具有易于硬件實現的特點,因而具有很強的商業價值,但由于其自身還有很不成熟的地方,因此值得深入地研究. 其研究方向有: 細胞神經網絡理論基礎的進一步完善及在此基礎上建立細胞神經網絡中鄰域系統的概念; 與圖象數據局部相關性等概念結合起來研究,以建立新的圖象復原理論,形成新的圖象復原技術。BP 網絡對受污染或帶噪聲的訓練樣本,不僅能進行正確的映射,且與其純樣本仍相似。 正是BP 網絡的泛化能力強,使它在解決圖象復原問題時,可能比其他神經網絡具有更好的潛在性能。 將BP 網絡用于圖象復原是很值得進一步研究的.大家知道,人腦的學習方式是“自主的”,即有自組織和自適應的能力的,即人腦能在復雜、非平穩和有“干擾”的環境及其變化的情況下,來調整自己的思維和觀念,還能根據對外界事物的觀察和學習,找到其內在的規律和本質屬性,并能在一定的環境下,估計到可能出現的情況以及預期會遇到和感覺到的各種內容及情況。 自組織神經網絡(SONN) 正是基于人腦的這些功能而生成的,由于它具有能從輸入的數據中,揭示出它們之間內在關系的能力,因此將其用于“盲圖象”的復原將是非常有利的。
3.2.3 需要提出更適合圖象復原的新神經網絡模型
小波神經網絡是為逼近任意非線性函數而提出來的,但為了圖象復原的需要,可考慮針對圖象復原的特殊情況,提出新的神經網絡模型。 如,因為大多數圖象是由平滑區域和輪廓細節組成的,其圖象數據在平滑區域雖具有較強的相關性,但與輪廓細節相鄰的數據應極不相關,所以,提出一種專用于圖象復原的“相關性神經網絡模型”是必然的期待; 再有,因為多項式具有較廣的擬合性和較好的收斂性,所以應提出的“多項式神經網絡”,將它們用于圖象復原也是值得研究的。
3.2.4 神經網絡與其他理論的結合
研究是尋求新模型、新方法的重要途徑目前神經網絡的研究正由單純的神經計算轉向計算智能,并結合腦科學的研究向生物智能方向發展。 為此,神經網絡圖象復原的研究也應考慮吸收模糊、分形、混沌、進化計算、信息融合等交叉學科的研究成果。 與模糊系統的結合將是一個重要的研究方向,因為,神經網絡與模糊系統有如下很多的相同之處: ( 1) 它們在處理和解決問題時,無需建立對象的精確數學模型,而只需要根據輸入的采樣數據去估計其要求的決策; ( 2) 在對信息的加工處理過程中,均表現出了很強的容錯能力; ( 3) 它們都可以用硬件來實現. 由此可見,將神經網絡與模糊系統結合,用于圖象復原將是有意義的研究工作。
4 未來展望
圖像恢復發展到現在,已經有了許多成熟的算法,但是還是存在許多問題,等待著我們去解決。目前圖像恢復的最新發展有:
1. 非穩圖像復原,即空間可變圖像復原。
2. 退化視頻信號的復原問題,以及攝像機拍照圖像復原,這是一個需要進一步研究的領域。
3. 運動補償時空復原濾波,同時將時間相關應用到運動補償中。
4. “Telemedicine“的出現,遠程診斷極大的依賴于遠程接受的圖像質量,圖像恢復在醫學領域中有相當重要的作用。
5. 模糊 PSF 的 Identification 仍然是一個困難的問題,尤其在空間可變的 PSF 的估計中。
6. 空間可變恢復方法,可以利用 Wavelets 和 Markov 隨機場等方法進行復圖像恢復,這是一個具有發展潛力的研究方向。
參考文獻
1 馮久超,黃海東. 基于神經網絡的盲圖象恢復[ J ] . 計算機科學,2000,27( 1) : 67~68.
2 Er ler K,Jernigan E. Adaptive image restorat ion using recursive image f ilters [ J ] . IEE E Trans actions on Signal Process ing,1994,42( 7) : 1877~1881.
卷積神經網絡的算法范文6
中圖分類號:G642
1 背 景
電子信息科學與技術是以物理和數學為基礎,研究通過電學形式表達和操控信息的基本規律以及運用這些基本規律實現各種電子系統的方法。在進入電子時代和信息社會的今天,電子信息科學技術已滲透各個領域。隨著電子信息技術日新月異,電子信息教學領域也面臨著全新的挑戰,需要培養具有全方位視野和超強能力的新一代工程師及領導者。本著這一目標,清華大學電子系自2008年開始著手進行課程改革,通過改革課程體系將原有課程重新整合,從學科范式的角度整理出電子工程本科教育的知識體系結構,從而梳理出新的本科課程體系,形成電子信息領域學科地圖[1-2]。
2016年AlphaGo戰勝李世石的事實,讓人工智能技術再一次向世人展示了自己的潛力。人工智能無論在傳統的制造加工行業,還是在新興的互聯網行業,都成為國內外各大企業爭相研究開發的目標,在學術界也是如此。2016年底,Gartner全球峰會2017十大技術趨勢報告[3],預測2017年十大技術趨勢:人工智能與機器學習、智能應用、智能事物、虛擬和增強現實、數字化雙生、區塊鏈和已分配分類賬、對話式系統、格網應用和服務架構、數字化技術平臺、自適應安全架構。Gartner預計2017年全球將有超過60%的大型企業開始采用人工智能技術。
在2016年開設的媒體與認知課程內容中,我們參考國內外諸多名校相關課程的理論及項目內容,結合電子工程系在該領域研究的基礎優勢和創新性成果,建設了一套媒體認知人工智能技術教學課程內容及平臺,以期學生獲得人工智能技術中深度學習技術的基礎理論和開發能力。課程通過提供人工智能技術領域高層次專業人才必需的基本技能、專業知識及思維方式,力爭培養具有國際一流科研創新能力的人工智能方向的專業技術人才。
2 人工智能技術教學內容
美國MIT大學的Statistical Learning Theory and Applications課程[4],致力于從統計學習和正則化理論的角度介紹機器學習的基礎和最新進展。除了經典的機器學習方法,如支持向量機、流形學習、有監督學習等之外,還重點介紹深度學習計算的理論框架并要求學生以項目形式給出基于機器學習和深度神經網?j的解決方案。
美國CMU大學的Deep Learning課程[5]通過一系列研討會和課程實驗介紹深度學習這一主題,涵蓋深度學習的基礎知識和基礎理論及應用領域,以及大量數據學習的最新問題。通過若干實驗題目,學生可以對深度神經網絡原理及應用加深理解。
美國Stanford大學的Deep Learning for Natural Language Processing課程[6]深入介紹應用于自然語言理解的深度學習前沿研究,討論包括循環神經網絡、長短期記憶模型、遞歸神經網絡、卷積神經網絡等非常新穎的模型。通過上機實驗,學生將學習使用神經網絡工作的技巧來解決實際問題,包括實施、訓練、調試、可視化和提出自己的神經網絡模型,最終的實驗項目涉及復雜的循環神經網絡并將應用于大規模自然語言理解的問題。
媒體認知課程參考了上述著名課程的理論內容和項目特色。我們結合電子工程系在人工智能領域研究的基礎、優勢和創新性成果,設計開發了一套以人工智能技術為基礎的前沿探索型媒體認知教學課程內容及實驗平臺,試圖構建具有國際水準的人工智能技術教學課程內容。
3 深度學習技術發展概況
傳統的人工智能系統一般采用機器學習技術,這類技術在處理原始形式的自然數據的能力上受到限制,一般困難集中在如何將原始數據變換為合適的內部表示或特征向量。深度學習(deep learning)近年來受到人工智能行業的廣泛關注,是一種表征學習(representation-learning)方法,由于擁有可以逼近任意非線性函數的特性,深度神經網絡(deep neural network,DNN)及其衍生的各種神經網絡結構有能力取代傳統模型,在語音、圖像、文本、視頻等各種媒體的內容識別系統中發揮作用。
著名的人工智能科學家Yann LeCun于2015年在Nature上發表文章[7]指出,深度學習允許多個處理層組成的計算模型學習如何表征具有多級抽象層面的數據。這些方法已經大大提高語音識別、視覺識別、目標檢測以及諸如藥物發現、基因學等許多領域的最新技術水平。深度學習通過使用反向傳播算法發現大數據集中的復雜結構,以指示機器如何改變其內部參數,這些內部參數是從深度神經網絡上一層的表示中計算每層中的表示。深度卷積網絡在處理圖像、視頻、語音和音頻方面帶來突破性的進展,而遞歸網絡則對文本、語音等順序數據提供解決方案。
遞歸網絡可被視作較深的前饋網絡,其中所有層共享相同的權重。遞歸網絡的問題在于難以在長期的時間內學習并存儲信息。為了解決這一問題,長短期記憶(long short-term memory,LSTM)模型網絡被提出,主要特點在于其存儲器單元在下一個加權值為1的時間段內與自身連接,因此能夠在復制自身狀態的同時累加外部信號,此外這種自我連接被另一個單元通過學習決定何時清除此類信息。長短期記憶模型被證明在語音識別和機器翻譯應用系統中比傳統的遞歸網絡更加有效。
4 基于深度學習的語音識別教學項目
在對上述課程及配套項目進行詳細研究的基礎上,結合現有科研及平臺,我們構建了一種基于深度學習的連續語音識別項目平臺,包括兩個主要項目:深度神經網絡語音識別項目及長短期記憶模型遞歸神經網絡語音識別項目。
4.1 深度神經網絡語音識別項目
典型的深度神經網絡語音識別模型[8-9]核心是對聲學特征進行多層變換,并將特征提取和聲學建模在同一網絡中進行優化。神經網絡可以通過非線性激活函數來擬合任何非線性函數,可以使用神經網絡取代原有聲學模型中的高斯混合模型,用來計算每一幀的特征與每個音素的相似程度。深度神經網絡原理的結構示意圖如圖1所示。
圖1代表了一個擁有3個隱含層的深度神經網絡。相鄰兩層中,每層的每一個節點都與另外一層的所有節點單向連接。數據由輸入層輸入,逐層向下一層傳播。對于節點間的連接權重,采用BP算法。BP算法對于給定的輸入輸出訓練數據,首先通過正向傳播由輸入得到輸出,之后通過實際輸出與理論上的正確輸出之差得到殘差,并由輸出層向輸入層根據激活函數與連接權重反向傳播殘差,計算出每一個節點與理想值之間的殘差,最后根據每個節點的殘差修正節點間連接的權重,通過對權重的調整實現訓練,從而更加靠近理論輸出結果。
將DNN實際利用到語音識別的聲學模型時,其結構示意圖如圖2所示。深度神經網絡的輸入層輸入從每一幀音頻中提取出的特征,通過網絡的正向傳播,在輸出?郵涑齙鼻爸《雜Σ煌?音素的相似程度,從而作為HMM的發射概率進行語音識別??紤]到DNN沒有記憶特性,而語音信號即使是在音素層級上,其前后也有相當大的聯系。為了提高DNN在處理前后高度關聯的語音信號中的表現,一般選擇同時將當前幀的前后部分幀作為網絡的輸入,從而提高對當前幀識別的正確率。
4.2 長短期記憶模型遞歸神經網絡語音識別項目
長短期記憶模型應用于語音識別中聲學模型的思路和深度神經網絡類似[10-11],取代高斯混合模型用于計算輸入幀與各音素的匹配程度。原理為首先根據輸入門判斷輸入的數據可以進入記憶細胞的比例,同時遺忘門決定記憶細胞遺忘的比例;之后由記憶細胞殘存的記憶部分和新輸入的部分求和,作為記憶細胞的新記憶值;將新的記憶值根據輸出門的控制得到記憶細胞的輸出,并通過遞歸投影層降維,降維之后的結果一方面作為3個控制門的反饋,另一方面作為網絡的輸出;非遞歸投影層則僅僅作為最終輸出的補充,而不會影響控制門。將長短期記憶模型實際利用到語音識別的聲學模型時,其結構示意圖如圖3所示。
與深度神經網絡不同,長短期記憶模型遞歸神經網絡因為有記憶特性,所以不需要額外的多幀輸入,只需要輸入當前幀。然而,考慮到語音前后的關聯性,一般會將輸入的語音幀進行時間偏移,使得對t時刻幀的特征計算得到的輸出結果是基于已知未來部分幀的特征之后進行的,從而提高準確度。