前言:中文期刊網精心挑選了卷積神經網絡過程范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
卷積神經網絡過程范文1
手寫體數字識別在郵政、金融等領域應用廣泛。對于數字識別,人們往往要求識別器有很高的識別可靠性,數字識別的錯誤所帶來的影響比文字識別等其他識別所帶來的影響更大,特別是有關金融方面的數字識別錯誤所帶來的后果是無法想象的,識別錯一個數字,這其中的差距可能是幾的差距,也可能是幾十、幾百的差距,這些都還是小問題;但更有可能這一個數字代表的差距是幾萬、幾千萬甚至幾億乃至更多,那么這個錯誤造成的損失就無法估量了。因此,O計出有著高可靠性與高識別率的數字識別系統已經成為了字符識別領域一個非常重要的環節。
1 網絡模型和數據庫及學習算法的選擇
1.1 關于Mnist數據庫的介紹
首先,Mnist是NIST數據庫的一個優化子集。它是一個有著60000個訓練樣本集與10000個測試樣本集的手寫體數字數據庫。此數字庫一共有4個文件。
此數字庫的所有樣本集都有圖像文件以及標簽文件。標簽文件的作用是用來儲存樣本集中的每個樣本的數值標簽,而每一個樣本的圖像數據信息則是由圖像文件存儲著。此數據庫的圖像數據均保存在二進制文件之中,且每個樣本圖像的大小均為28*28。
1.2 數字識別的模型選擇
手寫體數字雖然只有0~9十個數字,但由于寫法因人而異,不同地域同樣一個數字有多種不同的寫法,每個人都有自己的書寫習慣。且一些紙質差異、筆畫粗細、光線問題、位置、尺度大小等等多種因素都能對輸入產生影響??紤]到這些因素,為讓網絡有良好的識別能力,我們這里采用在圖像識別領域有著優秀表現的卷積神經網絡作為此數字識別系統的訓練模型。
1.3 學習算法的選擇
一個優秀的網絡模型必須具備良好的學習算法,每個學習網絡都有著相對來說較為合適自己的學習算法,而并不是說越高端的算法就越好。在此文中,我選擇的學習算法是較為成熟的BP算法。此算法在文字前面有些許介紹,此處不再多做說明。
2 基于卷積神經網絡的數字識別系統的設計
2.1 輸入層以及輸出層設定
根據樣本的特征與此網絡的網絡結構,可以大概判斷出輸入層與輸出層該如何設置。隱含層的個數可以是一個,也可以是多個,這與要分類的問題有關。
前文提及到在mnist數據庫中,所有的圖像都是28*28大小的,且以整個圖片的像素形式存儲在數據文件之中。每張圖像大小為28*28,故一個圖片像素點個數為784個。這里,卷積神經網絡的輸入即為這784個像素點。
因為數字識別需要識別的是0~9這十個數字,即需要識別十種字符類別,所以將這個神經網絡輸出層的神經元節點數設置為10。
2.2 網絡的中間層設置
卷積神經網絡的中間層有兩個部分,即卷積層(特征提取層)與下采樣層(特征映射層),由第二章中圖2-1所示,C1、C3為卷積層,S2、S4為降采樣層。
1)激活函數選擇
激活函數選擇sigmoid函數。同樣,在第二章有所提及。Sigmoid函數是嚴格遞增函數,能較好的平衡線性與非線性之間的行為,比較貼近生物神經元的工作。相比于其他函數,sigmoid函數還存在著許多優勢,比如光滑性、魯棒性以及它的導數可以用它自身來表示。
sigmoid函數為:
(1)
其中,x為神經元凈輸入。
激活函數導數為:
(2)
2)卷積層設計
圖像經過卷積核對特征圖進行卷積,之后再經過sigmoid函數處理在卷積層得到特征映射圖。特征映射圖相比于原圖像,其特征更為明顯突出。
卷積運算其實就是一個加權求和的過程。離散卷積是本文所選取的方法,規定卷積核在水平和豎直兩個方向每次都是移動一個像素,即卷積的步長為1。
3)下采樣層的設計
根據圖像局部相關性這一原理,為了降低網絡的學習維度、減少需要處理的數據量且保留圖像的有用信息,可以對卷積后的圖像進行下采樣。這里,我們采取的是取卷積層4個像素點平均值為下采樣層的一個像素點的方法。這樣可以降低網絡規模。
2.3 網絡總體結構CNN-0
根據LeNet-5結構,再結合上文中的對輸入層、輸出層、中間層的設計,完成了如圖3-1所示的基本網絡結構:
相比于LeNet-5,CNN-0做了一些修改,并非完全按照LeNet-5網絡結構模型。Sigmoid函數是本網絡中的激活函數,選擇這個函數的好處在于可以讓所有層得到的輸出都在區間[-1,1]之內。網絡訓練的學習率固定值為1或者是衰減的學習速率。經過卷積后的一維向量與輸出層沒有沿用LeNet-5的徑向基函數網絡,而是采取全連接方式,省去了F6層。
3.3 卷積神經網絡訓練過程
在模式識別中,學習網絡有無指導學習網絡與有指導學習網絡兩個類別。無指導學習網絡一般是用來進行聚類分析,本文采取的是有指導學習網絡。
卷積神經網絡其實就是從輸入到輸出的一種映射,它可以學量的映射關系,只需要用現有的模式對網絡進行訓練,網絡就能具備映射能力。而不需要輸入與輸出之間的精確的關系。
訓練算法與傳統的BP算法相差無幾(BP算法在第二章有做概述),主要可分為四個步驟,而這四個步驟可以歸為向前傳播階段與向后傳播階段:相前傳播:
1)隨機的從樣本集中獲取一個樣本(A, ),然后將A輸入至網絡中;
2)根據公式(3)計算出實際輸出:
(3)
向后傳播:
1)計算和理想輸出之間的差;
2)根據極小化誤差方法調整權值矩陣。
結語
在手寫數字識別這一塊,相對來說比較有難度的應該就是脫機自由手寫字符識別了,不過本文所研究的并不是這一系統,本設計是一個基于卷積神經網絡的手寫數字識別系統,因卷積神經網絡的局部感受野和降采樣以及權值共享、隱性特征提取等優點,它在圖像識別領域得到了非常廣泛的應用。此程序是在Caffe這個框架上進行運行的,操作系統為Linux系統ubuntu14.04版本。Caffe是一個開源的深度學習框架,也可以說是一個編程框架或者模板框架,它提供一套編程機制。因此,本文所需要實際的卷積神經網絡就可以根據這個框架來進行構建。
參考文獻:
[1]張偉,王克儉,秦臻.基于神經網絡的數字識別的研究[J].微電子學與計算,2006年第23卷第8期.
卷積神經網絡過程范文2
【關鍵詞】深度神經網絡 序列到序列網絡 卷積網絡 對抗式生成網路
1 深度神經網絡起源
人工神經網絡(ArtificialNeuralNetworks,ANN)研究是人工智能領域的一個重要分支,在對生物神經網絡結構及其機制研究的基礎上,構建類似的人工神經網絡,使得機器能直接從大量訓練數據中學習規律。其研究最早可以追溯到1957年Frank Rosenblatt提出的感知機模型,他在《The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain》建立了第一個人工神經網絡數學模型,19世紀80年代末期反向傳播(Back Propagation)算法的發明更是帶來了ANN的學習熱潮,但由于理論分析難度較大,訓練方法及技巧尚不成熟,計算機運算能力還不夠強大,這個時期ANN結構較為簡單,大部分都可等價為單隱層神經網絡,主要是進行淺層學習(Shallow Learning)研究。
2006年Geoffrey Hinton在《A Fast Learning Algorithm for Deep Belief Nets》中提出了逐層貪婪預訓練(layerwise greedy pretraining),顯著提高了MNIST手寫數字識別的準確率,開創了深度學習的新方向;隨后又在《Reducing the Dimensionality of Data with Neural Networks》中提出了deep autoencoder結構,在圖像和文本降維實驗上明顯優于傳統算法,證明了深度學習的正確性。以這兩篇論文為開端,整個學術界掀起了對深度學習的研究熱潮,由于更多的網絡層數和參數個數,能夠提取更多的數據特征,獲取更好的學習效果,ANN模型的層數和規模相比之前都有了很大的提升,被稱之為深度神經網絡(Deep Neural Networks,DNN)。
2 深度神經網絡的現代應用
2010年以來,隨著理論不斷創新和運算能力的增長,DNN被應用到許多領域并取得了巨大的成功。2011年微軟和谷歌的研究員利用DNN將語音識別的錯誤率降低了20%~30%;2012年在ImageNet圖像識別挑戰賽(ILSVRC2012)中DNN更是將識別錯誤率從26%降到了15%;2016年3月DeepMind團隊研發的圍棋軟件AlphaGO以4:1的巨大優勢戰勝了世界圍棋冠軍李世石,2017年1月初AlphaGO的升級版Master以60:0的戰績擊敗了數十位中日韓圍棋高手。當前對DNN的研究主要集中在以下領域:
2.1 語音識別領域
微軟研究院語音識別專家鄧立和俞棟從2009年開始和深度學習專家Geoffery Hinton合作,并于2011年宣布推出基于DNN的識別系統,徹底改變了語音識別的原有技術框架;2012年11月,百度上線了第一款基于DNN的語音搜索系統,成為最早采用DNN技術進行商業語音服務的公司之一;2016年微軟使用循環神經網絡語言模型(Recurrent Neural Network based Language Modeling,RNN-LM)將switchboard的詞識別錯誤率降低到了6.3%。
2.2 圖像識別領域
早在1989年,YannLeCun和他的同事們就提出了卷積神經網絡(Convolution Neural Networks,CNN)結構。在之后的很長一段時間里,CNN雖然在諸如手寫數字問題上取得過世界最好的成功率,但一直沒有被廣泛應用。直到2012年10月,Geoffrey Hinton在ILSVRC2012中使用更深的CNN將錯誤率從26%降到15%,業界才重新認識到CNN在圖像識別領域上的巨大潛力;2012年谷歌宣布基于CNN使得電腦直接從一千萬張圖片中自發學會貓臉識別;2013年DNN被成功應用于一般圖片的識別和理解;2016年DeepMind團隊基于CNN研發了圍棋AI,并取得了巨大成功。
2.3 自然語言處理領域
2003年YoshuaBengio等人提出單詞嵌入(word embedding)方法將單詞映射到一個矢量空間,然后用ANN來表示N-Gram模型;2014年10月NEC美國研究院將DNN用于自然語言處理(Natural language processing,NLP)的研究工作,其研究員Ronan Collobert和Jason Weston從2008年開始采用單詞嵌入技術和多層一維卷積的結構,用于POS Tagging、Chunking、Named Entity Recognition、Semantic Role Labeling等四典型NLP問題;2014年IlyaSutskever提出了基于LSTM的序列到序列(sequence to sequence,seq2seq)網絡模型,突破了傳統網絡的定長輸入向量問題,開創了語言翻譯領域的新方向;2016年谷歌宣布推出基于DNN的翻譯系統GNMT(Google Neural Machine Translation),大幅提高了翻譯的精確度與流暢度。
3 深度神經網絡常見結構
DNN能夠在各領域取得巨大成功,與其模型結構是密不可分的,現代DNN大都可歸納為三種基本結構:序列到序列網絡、卷積網絡、對抗式生成網絡,或由這三種基本網絡結構相互組合而成。
3.1 序列到序列網絡
序列到序列網絡的最顯著特征在于,它的輸入張量和輸出張量長度都是動態的,可視為一串不定長序列,相比傳統結構極大地擴展了模型的適應范圍,能夠對序列轉換問題直接建模,并以端到端的方式訓練模型。典型應用領域有:自動翻譯機(將一種語言的單詞序列轉換為另一種語言的單詞序列),語音識別(將聲波采樣序列轉換為文本單詞序列),自動編程機研究(將自然語言序列轉換為語法樹結構),此類問題的特點在于:
(1)輸入和輸出數據都是序列(如連續值語音信號/特征、離散值的字符);
(2)輸入和輸出序列長度都不固定;
(3)輸入輸出序列長度沒有對應關系。
其典型如圖1所示。
網絡由編碼器(encoder)網絡和解碼器網絡(decoder)兩部分連接構成:
3.1.1 編碼器網絡
編碼器網絡通常是一個遞歸神經網絡(Recurrent Neural Networks,RNN),網絡節點一般使用長短期記憶模型(Long Short Term Memory,LSTM)實現,序列中里第t個張量xt的輸出yt依賴于之前的輸出序列(y0、y1…yt-1),輸入序列(x0、x1、x2…)那爸梁笠來問淙臚絡,整個序列處理完后得到最終的輸出Y以及各層的隱藏狀態H。
3.1.2 解碼器網絡
解碼器網絡是一個與編碼器網絡結構相同的RNN網絡,以解碼器的最終輸出(Y,H)為初始輸入,使用固定的開始標記S及目標序列G當作輸入數據進行學習,目標是使得在X輸入下Y和G盡量接近,即損失度函數f(X)取得最小值。
解碼器網絡屬于典型的監督學習結構,可以用BP算法進行訓練,而編碼器網絡的輸出傳遞給了解碼器網絡,因此也能同時進行訓練。網絡模型學習完畢后,將序列X輸入編碼器,并將起始標記S輸入解碼器,網絡就會給出正確的對應序列。
3.2 卷積神經網絡
卷積神經網絡將傳統圖像處理的卷積運算和DNN相結合,屬于前饋神經網絡,是在生物視覺皮層的研究基礎上發展而來的,在大型圖像處理上有出色表現。CNN一般由多個結構相似的單元組成,每個單元包含卷積層(convolution layer)和池化層(poolinglayer),通常網絡末端還連接全聯通層(fully-connected layer,FC)及Softmax分類器。這種結構使得CNN非常適合處理二維結構數據,相比其它DNN在圖像處理領域上具有天然優勢,CNN的另一優勢還在于,由于卷積層共享參數的特點,使得它所需的參數數量大為減少,提高了訓練速度。其典型結構如圖2所示:
3.2.1 卷積層(Convolutional layer)
卷積層由若干卷積核構成,每個卷積核在整個圖像的所有通道上同時做卷積運算,卷積核的參數通過BP算法從訓練數據中自動獲取。卷積核是對生物視覺神經元的建模,在圖像局部區域進行的卷積運算實質上是提取了輸入數據的特征,越深層的卷積層所能提取到的特征也越復雜。例如前幾個卷積層可能提取到一些邊緣、梯度、線條、角度等低級特征,后續的卷積層則能認識圓、三角形、長方形等稍微復雜的幾何概念,末尾的卷積層則能識別到輪子、旗幟、足球等現實物體。
3.2.2 池化層(Poolinglayer)
池化層是卷積網絡的另一重要部分,用于縮減卷積層提取的特征圖的尺寸,它實質上是某種形式的下采樣:將圖像劃分為若干矩形區塊,在每個區塊上運算池化函數得到輸出。有許多不同形式的池化函數,常用的有“最大池化”(maxpooling,取區塊中數據的最大值)和“平均池化”(averagepooling,取區塊中數據的平均值)。池化層帶來的好處在于:
(1)減小了數據尺寸,降低參數的數量和計算量;
(2)模糊了各“像素”相對位置關系,泛化了網絡識別模式。
但由于池化層過快減少了數據的大小,導致,目前文獻中的趨勢是在池化運算時使用較小的區塊,甚至不再使用池化層。
3.3 生成式對抗網絡(Generative Adversarial Network,GAN)
生成式對抗網絡最初由Goodfellow等人在NIPS2014年提出,是當前深度學習研究的重要課題之一。它的目的是收集大量真實世界中的數據(例如圖像、聲音、文本等),從中學習數據的分布模式,然后產生盡可能逼真的內容。GAN在圖像去噪,修復,超分辨率,結構化預測,強化學習中等任務中非常有效;另一重要應用則是能夠在訓練集數據過少的情況下,生成模擬數據來協助神經網絡完成訓練。
3.3.1 模型結構
GAN網絡典型結構如圖3所示,一般由兩部分組成,即生成器網絡(Generator)和識別器網絡(Discriminator):
(1)生成器網絡的目標是模擬真實數據的分布模式,使用隨機噪聲生成盡量逼真的數據。
(2)識別器的目標是學習真實數據的有效特征,從而判別生成數據和真實數據的差異度。
3.3.2 訓練方法
GAN采用無監督學習進行訓練,輸入向量z一般由先驗概率概率pz(z)生成,通過生成器網絡產生數據G(z)。來自訓練集的真實數據的分布為pdata (x),GAN網絡的實質是學習該特征分布,因此生成的數據G(z)必然也存在對應的分布pg (z),而識別器網絡則給出數據來自于真實數據的概率D(x)以及D(G(z) )。整個訓練過程的實質就是生成器網絡和識別器網絡的博弈過程,即找到
4 深度神經網絡研究展望
DNN雖然在各大領域都取得了重大的成功,甚至宣告了“智能時代”的來臨,但是與人類大腦相比,DNN在許多方面仍有顯著差距:
4.1 識別對抗樣本的挑戰
對抗樣本是指在數據集中添加微小的擾動所形成的數據,這些數據能使網絡以極高的置信度做出錯誤的判別。在網絡實際使用過程中會帶來非常大的問題,比如病毒制造者可能刻意構造樣本來繞過基于DNN的安全檢查網絡。部分研究指出問題的根因可能在于DNN本身的高度非線性,微小的擾動可能在輸出時產生巨大的差異。
4.2 構造統一模型的挑戰
DNN雖然在很多領域都取得了巨大的成功,但無論是序列到序列網絡、卷積網絡、還是對抗式生成網絡都只適應于特定領域,與此相對的則是,人類只用一個大腦就能完成語音、文本、圖像等各類任務,如何構建類似的統一模型,對整個領域都是極大的挑戰。
4.3 提高訓練效率的挑戰
DNN的成功依賴于大量訓練數據,據統計要使得網絡學會某一特征,平均需要50000例以上的樣本,相比而言人類只需要少量的指導即可學會復雜問題,這說明我們的模型和訓練方法都還有極大的提高空間。
參考文獻
[1]ROSENBLATT F.The perceptron:a probabilistic model for information storage and organization in the brain [M].MIT Press,1988.
[2]HINTON G E,OSINDERO S,TEH Y W.A fast learning algorithm for deep belief nets [J].Neural Computation,1989, 18(07):1527-54.
[3]HINTON G E,SALAKHUTDINOV R R. Reducing the Dimensionality of Data with Neural Networks[J].Science, 2006,313(5786):504.
[4]SEIDE F,LI G,YU D.Conversational Speech Transcription Using Context-Dependent Deep Neural Networks; proceedings of the INTERSPEECH 2011, Conference of the International Speech Communication Association, Florence,Italy,August,F,2011 [C].
[5]OQUAB M,BOTTOU L,LAPTEV I,et al. Learning and Transferring Mid-level Image Representations Using Convolutional Neural Networks; proceedings of the Computer Vision and Pattern Recognition,F,2014 [C].
[6]SILVER D,HUANG A,MADDISON C J,et al.Mastering the game of Go with deep neural networks and tree search [J].Nature,2016,529(7587):484.
[7]XIONG W,DROPPO J,HUANG X,et al.The Microsoft 2016 Conversational Speech Recognition System[J].2016.
[8]LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient-based learning applied to document recognition [J].Proceedings of the IEEE,1998,86(11):2278-324.
[9]BENGIO Y,DELALLEAU O, LE R N,et al.Learning eigenfunctions links spectral embedding and kernel PCA [J].Neural Computation,2004,16(10):2197-219.
[10]LEGRAND J,COLLOBERT R.Recurrent Greedy Parsing with Neural Networks [J].Lecture Notes in Computer Science,2014,8725(130-44.
[11]SUTSKEVER I,VINYALS O,LE Q V. Sequence to Sequence Learning with Neural Networks [J].Advances in Neural Information Processing Systems,2014,4(3104-12.
[12]WU Y,SCHUSTER M,CHEN Z,et al. Google's Neural Machine Translation System:Bridging the Gap between Human and Machine Translation [J]. 2016.
[13]GOODFELLOW I J,POUGETABADIE J,MIRZA M,et al.Generative Adversarial Networks [J].Advances in Neural Information Processing Systems,2014,3(2672-80.
作者撾
卷積神經網絡過程范文3
【關鍵詞】微表情識別 卷積神經網絡 長短時記憶
1 引言
人們的內心想法通常都會表現在面部表情上,然而在一些極端環境下,人們為了壓抑自己的真實內心情感時,他們的面部變化十分微小,我們通常稱之為微表情。在刑偵、醫學、教育、心理和國防等領域上,微表情的應用前景十分遠大, 不過即便是經過訓練的人也很難用肉眼來準確的檢測和識別微表情。其主要原因就是它的持續時間短,僅為1/5~1/25s,而且動作幅度很小。
人臉表情識別技術早已發展到一定程度了,甚至不少研究團隊提出的方法針對6種基本表情的識別率已經達到90%。然而微表情識別技術的研究在近幾年來才剛剛開始,如Pfister等提出了一種結合時域插值模型和多核學習的方法來識別微表情; Wu等設計了一種使用Gabor特征和支持向量機的微表情識別系統;唐紅梅等在LTP做出改進而提出的MG-LTP算法,然后采用極限學習機對微表情進行訓練和分類;Wang等提出了基于判別式張量子空間分析的特征提取方法,并利用極限學習機訓練和分類微表情。
上述的識別技術都是基于傳統機器學習的方法,而近幾年來,利用深度學習技術來解決圖像識別問題是當前的研究熱點。在ILSVRC-2012圖像識別競賽中,Krizhevsky等利用深度卷積神經網絡的自適應特征提取方法,其性能遠遠超過使用人工提取特征的方法,并且在近幾年內的ImageNet大規模視覺識別挑戰比賽中連續刷新了世界紀錄。
本文決定使用卷積神經網絡(CNN)來提取人臉微表情特征,它能讓機器自主地從樣本數據中學習到表示這些微表情的本質特征,而這些特征更具有一般性。由于微表情的特性,要充分利用微表情的上下文信息才能更為精確的識別微表情,這里我們采用長短時記憶網絡(LSTM),它是遞歸神經網絡(RNN)中的一種變換形式,它能夠充分的利用數據的上下文信息,在對序列的識別任務中表現優異,近幾年來它被充分的利用到自然語言處理、語音識別機器翻譯等領域。綜上所述,本文提出一種CNN和LSTM結合的微表情識別方法。
2 相關工作
2.1 卷積神經網絡模型
卷積神經網絡模型(CNN)最早是由LeCun等在1990年首次提出,現已在圖像識別領域取得巨大成功,它能夠發現隱藏在圖片中的特征,相比人工提取的特征更具有區分度,而且不需要對原始數據做過多的預處理。
卷積神經網絡(CNN)通過三種方式來讓網絡所學習到的特征更具有魯棒性:局部感受野、權值共享和降采樣。局部感受野是指每一個卷積層的神經元只能和上一層的一部分神經元連接,而不是一般神經網絡里所要求的全連接,這樣每一個神經元能夠感受到局部的視覺特征,然后在更高層將局部信息進行整合,進而得到整個圖片的描述信息。權值共享是指每一個神經元和上一層的部分神經元所連接的每一條邊的權值,和當前層其他神經元和上一層連接的每一條邊的權值是一樣的,首先@樣減少了需要訓練的參數個數,其次我們可以把這種模式作為提取整個圖片特征的一種方式。降采樣是指通過將一定范圍內的像素點壓縮為一個像素點,使圖像縮放,減少特征的維度,通常在卷積層之后用來讓各層所得到的特征具有平移、縮放不變形,從而使特征具有更強的泛化性。
2.2 長短時記憶型遞歸神經網絡模型
長短時記憶(LSTM)模型是由Hochreiter提出,它解決了傳統RNN在處理長序列數據時存在的梯度消失問題,這一切都要歸結于LSTM結構的精心設計。一個常規的LSTM結構如圖1所示。
每一個LSTM結構都有一個記憶單元Ct(t表示當前時刻),它保存著這個時刻LSTM結構的內部狀態,同時里面還有三個門來控制整個結構的變化,它們分別是輸入門(xt),忘記門(ft)和輸出門(ht),它們的定義如下所示:
(1)
(2)
(3)
(4)
(5)
(6)
其中σ是一個sigmod函數,而則表示輸入數據的非線性變化,W和b是模型需要訓練得到的參數。等式5展示了當前的記憶單元是由忘記門和上一時刻的內部狀態所控制的,ft決定了上一時刻的內部狀態對當前時刻的內部狀態的影響程度,而it則確定了輸入數據的非線性變換得到的狀態對當前時刻記憶單元的影響程度。等式6展示了輸出門和當前時刻的內部狀態決定了該LSTM的輸出。正因為這個巧妙的設計,LSTM就能處理長序列的數據,并且能夠從輸入序列中獲取時間上的關聯性,這一特性對于微表情的識別尤為重要。
3 網絡結構調優和改進
3.1 卷積神經網絡設計
本文針對輸入大小為96×96的灰度圖,構建了4個卷積層(C1,C2,C3,C4),4個池化層(S1,S2,S3,S4),1個全連接層(FC1)和1個Softmax層組成的卷積神經網絡結構,如圖2所示。卷積核(C1,C2,C3,C4)的大小分別為3×3,3×3,5×5,5×5,分別有32,32,32,64個。池化層的降采樣核大小均為2×2,并且全部采用的是最大采樣,每一個池化層都在對應的卷積層之后,而在所有的卷積層之后,連接了一個包含256個神經元的全連接層,為了盡可能的避免過擬合問題,本文在全連接層后加入一個p=0.75的Dropout層,除了softmax層,其余層的激活函數全部是采用ReLU,CNN的參數訓練都是采用隨機梯度下降算法,每一批次包含100張圖片,并設置沖量為0.9,學習速率為0.001。
3.2 長短時記憶型遞歸神經網絡設計
盡管CNN已經從人臉微表情圖片從學習到了特征,但是單一的CNN模型忽略了微表情在時域上的信息。于是我們提出通過LSTM來學習不同人臉表情在時域上的關聯特征。我們構建了多個LSTM層,以及一個softmax層。
我們首先先訓練好CNN的參數,然后把訓練好的CNN模型,作為一個提取人臉微表情的工具,對于每一幀圖片,我們把最后一個全連接層的256維的向量輸出作為提取的特征。那么給定一個時間點t,我們取之前的W幀圖片([t-W+1,t])。然后將這些圖片傳入到訓練好的CNN模型中,然后提取出W幀圖片的特征,如果某一個序列的特征數目不足,那么用0向量補全,每一個特征的維度為256,接著將這些圖片的特征依次輸入到LSTM的節點中去,只有t時刻,LSTM才會輸出它的特征到softmax層。同樣LSTM網絡的參數訓練還是采用隨機梯度下降算法,每一批次為50個序列,沖量為0.85,學習速率為0.01。
4 實驗
4.1 微表情數據集
該實驗的訓練數據和測試數據均來自于中國科學院心理研究所傅小蘭團隊的第2代改進數據庫CASMEII。該數據庫從26名受試者中捕捉到近3000個面部動作中選取的247個帶有微表情的視頻,并且給出了微表情的起始和結束時間以及表情標簽,由于其中悲傷和害怕表情的數據量并不多,因此本文選取了里面的5類表情(高興,惡心,驚訝,其他,中性),由于數據庫中的圖片尺寸不一樣并且是彩色圖片,因此先將圖片進行灰度處理,并歸一化到 大小作為網絡的輸入。本實驗采用5折交叉驗證的方法,選取245個微表情序列等分成5份,每個序列的圖片有10張到70張不等,每份均包含5類表情。
4.2 CNN+LSTM和CNN的對比實驗
從圖2中可以看出不同策略在五類表情里的識別率。當我們采用單一的CNN模型來對人臉微表情進行分類時,我們采取了dropout策略和數據集擴增策略來防止CNN過擬合。CNN+D表示采取了dropout策略的CNN模型,CNN+A表示采取了數據擴增策略的CNN模型, 即對每一張圖片進行了以下四種變換:旋轉、水平平移、垂直平移、水平翻轉。從而能將數據集擴增至4倍。CNN+AD表示采取了兩種策略的CNN模型。CNN+LSTM表示結合了CNN和LSTM的網絡模型。
從表1中我們可以看出,添加了策略的CNN,在人微表情識別上的表現要好于沒有添加策略的CNN,這可能是因為訓練圖片較少,而CNN網絡層次較深,導致沒有添加策略的CNN在訓練參數的過程中很容易就過擬合了。而對于CNN+LSTM的表現要好于單一的CNN模型,這說明LSTM的確能夠充分利用時域上的特征信息,從而能夠更好識別序列數據,這證明了CNN+LSTM的模型可以用于識別人臉微表情的可行性。從表1中,我們還可以看出高興和驚訝的表情識別率較高,而其他的則相對較低,這可能是因為高興和驚訝的區分度較大,并且樣本較多。
4.3 LSTM的參數調整
下面我們逐一的研究不同參數對CNN+LSTM模型的微表情識別率的影響程度。
圖4顯示輸入的序列個數為100左右能夠擁有相對較高的準確率,這說明只有充分利用每一個微表情序列的時域信息,這樣,訓練出的模型才更加具有一般性。
圖5顯示出當LSTM隱層的神經元個數為128時,此時的微表情平均識別率最高,這說明隱層需要足夠多的神經元才能保留更長的時域信息,對于微表情識別來說,能夠擁有更高的精度。
圖6顯示了LSTM隱層的個數為5時,該模型擁有最好的識別率,這說明較深的LSTM網絡才能充分挖掘特征的時域信息。因此經過以上實驗,我們得到了一個由5層LSTM,每一層包含128個神經元,并能夠處理長度為100的特征序列的模型。
4.4 和非深度學習算法的實驗對比
為了比較傳統機器學習算法和深度學習算法孰優孰劣,我們使用傳統機器學習算法在Casme2進行了一樣的實驗,從表2中可以看出,本文所提出的CNN+LSTM模型相對于這些傳統機器學習模型,有著較為優異的表現。
本文中的實驗均是基于Google的開源機器學習庫TensorFlow上進行的,硬件平臺是dell工作站:Intel(R) Core(TM) i7-5820K CPU、主頻3.3GHZ,內存64GB、Nvida GeForce GTX TITAN X GPU、顯存12GB。
5 結束語
本文針對傳統方法對微表情識別率低,圖片預處理復雜的情況,提出了采用卷積神經網絡和遞歸神經網絡(LSTM)結合的方式,通過前面的卷積網絡層來提取微表情的靜態特征,省去了傳統機器學習方法,需要人工提取特征的過程,簡化了特征提取的工作。然后再通過后面的遞歸神經網路,充分利用表情特征序列的上下文信息,從而在序列數據中發現隱藏在其中的時域信息,從實驗結果中可以看出,利用了時域信息的CNN+LSTM比單純使用CNN的識別率更高,而且相對于傳統機器學習方法也更為優秀。但是當數據量越大時,如果網絡的層次比較深的話,模型的訓練時間就會很長,并且極度依賴硬件設備,這算是深度學習通有的弊病。為了進一步投入到應用中去,接下來還得提高微表情的識別率,以及在實時環境下,如何能夠動態和準確的識別微表情,這些都將會是以后研究的重點。
參考文獻
[1]PORTER S,TEN BRINKE L.Reading between the Lies Identifying Concealed and Falsified Emotions in Universal Facial Expressions[J].Psychological Science,2008,19(05):508-514.
[2]Pfister T,Li X,Zhao G,Pietikainen M (2011) Recognising spontaneous facial micro-expressions.2011 Proc IEEE Int Conf Comput Vis (ICCV): IEEE.pp.1449-1456.
[3]Wu Q,Shen X,Fu X (2011) The Machine Knows What You Are Hiding: An Automatic Micro-expression Recognition System.In: D’Mello S,Graesser A,Schuller B,Martin J-C,editors.Affect Comput Intell Interact.Springer Berlin/ Heidelberg. pp.152-162.
[4]唐紅梅,石京力,郭迎春,韓力英,王霞. 基于MG-LTP與ELM的微表情識別[J].電視技術,2015,39(03):123-126.
[5]WANG S J,CHEN H L,YAN W J,et al. Face Recognition and Micro-Expression Recognition Based on Discriminant Tensor Subspace Analysis Plus Extreme Learning Machine[J].Neural Processing Letters,2014,39(01):25-43.
[6]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks. In:Advances in Neural Information Processing Systems 25.Lake Tahoe, Nevada,USA:Curran Associates,Inc., 2012.1097?1105
[7]DENG J,DONG W,SOCHER R,et al.Imagenet:A large-scale hierarchical image database [C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2009:248-255.
[8]BENGIO Y,DELALLEAU O.On the expressive power of deep archi-tectures[C]//Proc of the 14th International Conference on Discovery Science.Berlin:Springer-Verlag,2011:18-36.
[9]LeCun Y,Boser B,Denker J S,Howard R E,Hubbard W,Jackel L D,Henderson D.Handwritten digit recogni- tion with a back-propagation network. In: Proceedings of Advances in Neural Information Processing Systems 2. San Francisco,CA,USA:Morgan Kaufmann Publishers Inc.,1990.396-404.
[10]S可.卷積神經網絡在圖像識別上的應用研究[D].杭州:浙江大學[學位論文],2012.
[11]Hochreiter S,Sehmidhuber J.Long Short-Term Memory.Neural Computation,1997,9(08):1735-1780
[12]LUCEY P,COHN J F,KANADE T,et al.The Extended Cohn-Kanade Dataset ( CK + ): A complete dataset for ac- tion unit and emotion-specified expression [C] //IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).New York:IEEE,2010:94-101.
[13]Dayan P,Abott L F.Theoretical Neuroscience.Cambridge:MIT Press, 2001.
[14]YAN W J, LI X, WANG S J, et al. CASME II: An Improved Spontaneous Micro-Expression Database and the Baseline Evaluation [J].Plos One, 2014,9(01):1-8.
[15]Yandan Wang,John See,Raphael C-W Phan,Yee-Hui Oh. Efficient Spatio-Temporal Local Binary Patterns for Spontaneous Facial Micro-Expression Recognition[J].PLOS ONE,2013,10(05): 11-12
[16]張軒閣,田彥濤,郭艷君,王美茜.基于光流與LBP-TOP特征結合的微表情識別[J].吉林大學學報:信息科學版, 2015,33(05):521-522.
[17]Martín Abadi, Paul BarhamJianmin, Chen el.TensorFlow:Large-Scale Machine Learning on Heterogeneous Distributed Systems[EB/OL].https:///abs/1605.08695.
卷積神經網絡過程范文4
Abstract:the mechanical transmission system is widely used in national defense, aerospace, production and other fields of industry. Among them, the gear transmission system is the most frequently used mechanical transmission mechanism. However, because of long time of mechanical work, gear wear and tear parts easily happened, and lead to the occurrence of a variety of mechanical failure. In this paper, the author analyzes the gear transmission process, the system fault diagnosis methods and solutions.
關鍵詞:機械傳動系統;故障診斷及解決
Keywords: mechanical transmission system; Troubleshooting and solutions
1. 引言
機械傳動系統廣泛運用于國防、航天航空、生產等各個領域及行業中,因此,確保其安全性和可靠性具有非常重要的意義。齒輪傳動系統,作為當今世界上運用頻率最高的機械傳動系統之一,對其故障的早期、及時診斷和解決,不僅有利于經濟合理地安排設備維修的時間,更能有效避免重大人身或設備傷亡事故的發生。
2. 齒輪傳動系統故障的診斷方法
2.1 常見齒輪傳動系統故障
根據經驗總結,常見的齒輪傳動故障一般可分為兩種:一種是分布在一個齒輪的各個輪齒上的分布式故障;另一種則是只集中于一個齒輪的某一個或者某幾個輪齒上的局部故障。以下就具體的系統故障做診斷方法分析。
2.2 齒輪故障的診斷方法
2.2.1 小波分析方法
小波變換是一種多分辨率的時頻分析方法。目前,齒輪傳動故障分析中使用最廣泛的小波分析方法是二進離散小波變換法。而隨著小波分析技術的不斷發展,和計算機容量、運算能力的飛速提高,連續小波變換也開始逐步應用于齒輪傳動故障的診斷分析。而且,與二進離散小波變換相比,連續小波具有時間和尺度網格劃分更細致、小波基無需正交和具有“時(移)不變”特性等多方面優勢,更適合機械動態信號的檢測和故障診斷。
2.2.2 神經網絡分析方法
神經網絡,在充分學習經驗樣本的基礎上,將知識轉換成為神經網絡的權值和閾值,并將其存儲在整個神經網絡中。雖然神經網絡模型可以映射出故障征兆的特征空間和模式空間,但是它不能解釋故障診斷的技術內容和實質,因此又相當于知識表達的“黑箱結構”。人工神經元網絡,是基于對人大腦中神經元結構特性的模仿,而建立起來的一種簡單的非線性動力學互聯網絡。人工神經元網絡的優點很多,例如:具有大規模并行處理能力、適應性學習和處理復雜多模式。BP網絡、Hopfield網絡和BAM網絡是齒輪傳動系統故障診斷領域常用的3種神經網絡。其中,BP網絡可以看作是一個靜態的系統,具有模式分類能力。
2.2.3 獨立變量分解法
之所以使用獨立變量分別是存在兩方面原因的。一方面,由于齒輪箱體表面測量到的振動信號是齒輪傳動系統的振源信號與系統結構的脈沖響應函數的卷積,直接對齒輪傳動的振源信號進行故障診斷非常困難;另一方面,獨立分量分析法(ICA)是具有盲源分離和盲反卷積功能的新型多變量數據統計方法。因此,獨立分量分析法在齒輪傳動系統故障的診斷中具有非常重要的作用。根據ICA盲源分離原理進行齒輪傳動故障診斷的方法主要可分為3類:①振動信號的盲源分離;②振動信號的單向分解;③利用部分已知信息進行盲源分離。ICA反卷積運算方法也是多種多樣,例如:窄帶信號卷積模型法。
3. 齒輪故障的解決方法
3.1 正確安裝和使用齒輪傳動系統,是預防系統故障發生的重要環節
只有嚴格遵守相應的安裝程序和操作技能要求,對齒輪傳動系統進行正確的安裝和使用,才能確保機械設備的正常運行。首先,要注意齒輪安裝的精度要求。齒輪安置精度的肯定,要在連系傳動齒輪的承載本領和使用壽命的基礎上舉行肯定。其次,不管是新安置、改換齒輪,仍是檢驗安置齒輪,都應該嚴格依照技術標準請求執行。最后,為了防止過度損壞齒輪的軸承或出現斷輪,安裝時切忌用鐵錐敲打。
3.2 正確使用和管理劑,是延長機械傳動齒輪使用壽命,減少故障發生的關鍵環節
劑的正確使用和管理,對避免齒輪傳動系統故障的發生,延長其使用壽命具有至關重要的作用。一方面,為了防止齒輪的加速老化磨損和使用壽命的不正??s短,應該結合齒輪的運轉情況、工作條件和環境等因素,正確使用劑。首先要科學記錄傳動齒輪的工作情況、每個部位使用的劑型號、使用時間等。然后根據出廠標準制定維修計劃,并結合實際工作環境和季節的變化,及時、適當地更換和加裝劑,保證機械傳動齒輪的正常工作。另一方面,還應該嚴格以科學的技術標準為指導,對劑的選擇、使用和更換過程進行嚴格把關。
3.3 完善生產技術和管理,對避免機械傳動齒輪故障也有重要意義
雖然機械傳動齒輪只是一個生產部件,但它與機械的軸和軸承都是相互聯系、相互作用的,每個部件的精度對生產都有重要影響作用。因此,必須嚴格按照出廠標準,對每一個部件進行安裝調試,以保證傳動齒輪和相關設備的精度,從而確保生產。日常生產管理過程中,也要在嚴格按照技術要求進行的基礎上,對其進行綜合的科學化管理,避免超負荷、故障生產。
4. 結論
齒輪傳動系統在國防、農業、工業和生產等領域的機械設備中都有廣泛的運用。因此,及時、早期的診斷和解決齒輪傳動系統中的故障,確保其安全性和可靠性具有非常重要的意義。首先,本文以小波分析方法、神經網絡分析方法和獨立變量分解法為例,詳細分析了齒輪故障的的診斷方法,并對故障的解決提出了3點建議:①正確安裝和使用齒輪傳動系統;②正確使用和管理劑;③完善生產技術和管理。
參考文獻:
[1]李濤.探析機械傳動系統關鍵零部件故障預測技術[J].中小企業管理與科技,2014(8).
[2]閆慧.關于采煤機械傳動齒輪失效問題的探討[J].科技創新與應用,2011(19).
卷積神經網絡過程范文5
(廣東外語外貿大學 金融學院,廣東 廣州 510006)
摘 要:作為一個具有巨大應用前景研究方向,深度學習無論是在算法研究,還是在實際應用(如語音識別,自然語言處理、計算機視覺)中都表現出其強大的潛力和功能.本文主要介紹這種深度學習算法,并介紹其在金融領域的領用.
關鍵詞 :深度學習;受限波茲曼機;堆棧自編碼神經網絡;稀疏編碼;特征學習
中圖分類號:TP181 文獻標識碼:A 文章編號:1673-260X(2015)01-0037-03
1 深度學習的研究意義
深度學習是一類新興的多層神經網絡學習算法,因其緩解了傳統訓練算法的局部最小性,引起機器學習領域的廣泛關注.深度學習的特點是,通過一系列邏輯回歸的堆棧作為運算單元,對低層數據特征進行無監督的再表示(該過程稱為預學習),形成更加抽象的高層表示(屬性類別或特征),以發現數據的分布式特征表示.深度學習的這種特性由于與腦神經科學理論相一致,因此被廣泛應用于語音識別、自然語言處理和計算機視覺等領域.
生物學研究表明[1]:在生物神經元突觸的輸出變化與輸入脈沖的持續時間有關,即依賴于持續一定時間的輸入過程,輸出信號既依賴于輸入信號的空間效應和閾值作用,也依賴于時間總和效應.
傳統的深度學習方法雖然較好地模擬了生物神經元的一個重要特性——空間總和效應上的深度,卻忽視了生物神經元的另一個重要特性——時間總和效應上的寬度[2].因此,對于連續的時間變量問題(如語音識別),傳統深度學習方法只能將連續的時間函數關系轉化為空間關系,即離散化為時間序列進行處理.這樣做有幾個弊端:
(1)可能造成深度學習算法對時間采樣頻率的十分敏感,魯棒性較差.這使得,不同時間尺度下,需要使用不同的數據和算法.這無疑是十分不方便的;
(2)導致深度網絡規模過大,使得計算開銷增大、學習效果變差、泛化性能降低;
(3)難以滿足實際應用對算法的實時性的要求,更難以體現連續輸入信息的累積效應,大大降低深度學習算法的實用性.
因此,對傳統的深度學習算法進行改進,使其不但具有“深度”,亦能具有“寬度”,能夠對連續時變數據進行更好的特征提取、提高算法效率和實用性,顯得勢在必行.基于這個切入點,本項目借鑒時頻分析與小波分析中的方法,結合數學分析領域中的泛函分析技術,與堆棧自編碼神經網絡相結合,提出一種新的深度學習算法——深度泛函網絡.為了驗證算法的有效性及優越性,本項目將把新算法應用于金融時間序列的領域.
在目前國內外對于深度學習的研究中,幾乎沒有任何將深度學習技術運用于金融數據的研究.通過提出并運用得當的深度序列學習方法,我們期望從金融數據中抽取更高級的、具有經濟學意義或預測性意義的高級特征(與人工設計的“技術指標”相對應),并開發相應的量化交易策略,并與其它傳統算法進行對比,以說明所提算法的可行性和優越性.
2 國內外研究現狀
人類感知系統具有的層次結構,能夠提取高級感官特征來識別物體(聲音),因而大大降低了視覺系統處理的數據量,并保留了物體有用的結構信息.對于要提取具有潛在復雜結構規則的自然圖像、視頻、語音和音樂等結構豐富數據,人腦獨有的結構能夠獲取其本質特征[3].受大腦結構分層次啟發,神經網絡研究人員一直致力于多層神經網絡的研究.訓練多層網絡的算法以BP算法為代表,其由于局部極值、權重衰減等問題,對于多于2個隱含層的網絡的訓練就已較為困難[4],這使得實際應用中多以使用單隱含層神經網絡居多.
該問題由Hinton[5]所引入的逐層無監督訓練方法所解決.具體地,該法對深度神經網絡中的每一層貪婪地分別進行訓練:當前一層被訓練完畢后,下一層網絡的權值通過對該層的輸入(即前一層的輸出)進行編碼(Encoding,詳見下文)而得到.當所有隱含層都訓練完畢后,最后將使用有監督的方法對整個神經網絡的權值再進行精確微調.在Hinton的原始論文中,逐層貪婪訓練是通過受限波茲曼機(Restricted Boltzmann Machine,RBM)以及相對應的對比散度方法(Contrastive Divergence)完成的.與通常的神經元不同,RBM是一種概率生成模型,通常被設計為具有二元輸入-輸出(稱為Bernoulli-Bernoulli RBM).通過對每一層的受限波茲曼機進行自底向上的堆棧(如圖1),可以得到深度信念網(Deep Belief Network,DBN).
除了生成式的RBM,還有其他的深度學習結構被廣泛使用和研究.如堆棧自編碼神經網絡(Stacked Auto-Encoder Network,SAEN)[6],以及深度卷積神經網絡(Deep Convolutional Network)[7]等.前者的優勢在于可以簡單地采用通常的BP算法進行逐層預訓練,并且引入隨機化過程的抗噪聲自編碼網絡(Denoising SAEN)泛化性能甚至超過DBN[8];而后者則通過權值共享結構減少了權值的數量,使圖像可以直接作為輸入,對平移、伸縮、傾斜等的變形具有高度不變性,因此在圖像識別領域有著廣泛應用.
近年來,稀疏編碼(Sparse Encoding)和特征學習(Feature Learning)成為了深度學習領域較為熱門的研究方向.B.A.Olshausen[9]等針對人腦的視覺感知特性,提出稀疏編碼的概念.稀疏編碼算法是一種無監督學習方法,它用來尋找一組“過完備”的基向量來更高效地表示輸入數據的特征,更有效地挖掘隱含在輸入數據內部的特征與模式.針對稀疏編碼的求解問題,H.Lee等在2007年提出了一種高效的求解算法[10],該算法通過迭代地求解兩個不同的凸規劃問題以提高效率.同年,H.Lee等發現,當訓練樣本為圖像時,對DBN的訓練進行稀疏性的約束有利于算法學習到更高級的特征[11].例如,對手寫識別數據集進行訓練時,稀疏性約束下的DBN算法自主學習到了“筆畫”的概念.
基于[10,11]的研究成果,R.Raina等[12]提出了“自導師學習(Self-Taught Learning)”的概念.與無監督學習(Unsupervised Learning)和半監督學習(Semi-supervised Learning)不同,自導師學習利用大量易獲得的無標簽數據(可以來自不同類別甚至是未知類別),通過稀疏編碼算法來構建特征的高級結構,并通過支持向量機(Support Vector Machine,SVM)作為最終層分類器對少數有標簽數據進行分類.這種更接近人類學習方式的模式極大提高了有標簽數據的分類準確度.與之類似,H.Lee,R.Grosse等[13]提出了一種具有層次結構的特征學習算法.該算法將卷積神經網絡與DBN結合,并通過稀疏正則化(Sparsity Regularization)的手段無監督地學習層次化的特征表征.圖像識別實驗表明,該算法能夠自主學習得出“物體(Object Parts)”的概念,較好體現了人腦視覺感知的層次性和抽象性.
3 發展趨勢
由于信號處理、語音識別、金融時間序列分析、視頻分析等領域的實時應用需求,研究能夠處理連續時變變量、自然體現時間聯系結構的深度學習算法(即深度序列學習,Deep Sequence Learning)成為了新的研究熱點.G.W.Taylor,G.E.Hinton等[14]提出時間受限波茲曼機(Temporal RBM,TRBM).該模型使用二值隱含元和實值可視元,并且其隱含元和可視元可以與過去一段歷史的可視元之間可以有向地被相連.同時,該模型被用于人類動作識別,并展現出了優秀的性能.針對TRBM的一些不足,一些改進算法也不斷涌現,如[15,16].然而,該類深度學習模型雖然考慮了動態的時間變量之間的聯系,但依然只能處理離散時間問題,本質上還是屬于轉化為空間變量的化歸法.同時,在自編碼網絡框架下,依然缺乏較好解決時間過程(序列)問題的方案.
4 金融時序數據中的應用
傳統金融理論認為,金融市場中的證券價格滿足伊藤過程,投資者無法通過對歷史數據的分析獲得超額利潤.然而,大量實證研究卻表明,中國股票價格波動具有長期記憶性,拒絕隨機性假設,在各種時間尺度上都存在的可以預測的空間.因此,如何建立預測模型,對于揭示金融市場的內在規律,這無論是對于理論研究,還是對于國家的經濟發展和廣大投資者,都具有重要的意義.
股票市場是一個高度復雜的非線性系統,其變化既有內在的規律性,同時也受到市場,宏觀經濟環境,以及非經濟原因等諸多因素的影響.目前國內外對證券價格進行預測的模型大致分為兩類:一是以時間序列為代表的統計預測模型;該類方法具有堅實的統計學基礎,但由于金融價格數據存在高噪聲、波動大、高度非線性等特征,使得該類傳統方法無法提供有效的工具.另一類是以神經網絡、支持向量機等模型為代表的數據挖掘模型.該類模型能夠處理高度非線性的數據,基本上從擬合的角度建模.雖然擬合精度較高,但擬合精度的微小誤差往往和市場波動互相抵消,導致無法捕捉獲利空間甚至導致損失,外推預測效果無法令人滿意.因此,建立即能夠處理非線性價格數據,又有良好泛化能力的預測模型勢在必行.
——————————
參考文獻:
〔1〕Zhang L I, Tao H W, Holt C E, et al. A critical window for cooperation and competition among developing retinotectal synapses[J]. Nature, 1998, 395(6697).
〔2〕37-44.歐陽楷,鄒睿.基于生物的神經網絡的理論框架——神經元模型[J].北京生物醫學工程,1997,16(2):93-101.
〔3〕Rossi A F, Desimone R, Ungerleider L G. Contextual modulation in primary visual cortex of macaques[J]. the Journal of Neuroscience, 2001, 21(5): 1698-1709.
〔4〕Bengio Y. Learning deep architectures for AI[J]. Foundations and trends? in Machine Learning, 2009, 2(1):1-127.
〔5〕Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527-1554.
〔6〕Vincent P, Larochelle H, Bengio Y, et al. Extracting and composing robust features with denoising autoencoders[C]//Proceedings of the 25th international conference on Machine learning. ACM, 2008: 1096-1103.
〔7〕Lee H, Grosse R, Ranganath R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th Annual International Conference on Machine Learning. ACM, 2009: 609-616.
〔8〕Vincent P, Larochelle H, Lajoie I, et al. Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion[J]. The Journal of Machine Learning Research, 2010, 9999: 3371-3408.
〔9〕Olshausen B A, Field D J. Sparse coding with an overcomplete basis set: A strategy employed by V1?[J]. Vision research, 1997, 37(23): 3311-3325.
〔10〕Lee H, Battle A, Raina R, et al. Efficient sparse coding algorithms[J]. Advances in neural information processing systems, 2007, 19: 801.
〔11〕Lee H, Ekanadham C, Ng A Y. Sparse deep belief net model for visual area V2[C]//NIPS. 2007, 7: 873-880.
〔12〕Raina R, Battle A, Lee H, et al. Self-taught learning: transfer learning from unlabeled data[C]//Proceedings of the 24th international conference on Machine learning. ACM, 2007: 759-766.
〔13〕Lee H, Grosse R, Ranganath R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th Annual International Conference on Machine Learning. ACM, 2009: 609-616.
〔14〕Taylor G W, Hinton G E, Roweis S T. Modeling human motion using binary latent variables[J]. Advances in neural information processing systems, 2007, 19: 1345.
卷積神經網絡過程范文6
關鍵詞:BP神經網絡;Morlet小波;決策理論;Hilbert變換
中圖分類號:TP18文獻標識碼:A文章編號:1009-3044(2009)32-9050-02
Wireless Signal Simulation Algorithm for Automatic Identification
ZHANG Meng
(Purchasing, China Railway Communication Co., Ltd., Beijing 100140, China)
Abstract: We have firstly discussed the modulation distinguishing method based on rational budgeting theory through the method of comparing Tine-Frequency analysis of the analysis signals formed by Hibert Transform . And on the basic of analyzing the fault of this method ,we put forward the distinguishing method based on NN. When NN is distinguishing signals, it mainly depends on the different positions of peak. Wavelet Transform here equals a mathematic microscope .it reflects the inexorable links between the signal categories and the positions of peak. Taking advantage Wavelet Transform and the simple three-layer BP NN, the more accurate Time-Frequency characteristics of signals to be distinguishing can be drawn.
Keywords: BP ANN; Morlet Wavelet; BudgetingTheory; Hibert Transform
在軍事電子對抗等多方面的重要應用,通信信號調制的自動識別分類問題也相繼發展起來。無線電信號調制實識別就是要判斷截獲信號的調制種類。為此,需要事先對其特征進行選定,并確定它們與相應調制種類相聯系的取值范圍,然后再對信號進行特征測量,并根據測量結果對信號的調制進行分類判決。
如果把無線電信號的調制識別與分類視為一種模式識別問題,那末,從模式識別理論來看,模式分類是模式識別的一個子系統。因此,在模式識別理論框架下,無線電信號的調制識別是一個總體概念。而調制分類則只是調制識別的一個分支[1]。
1 基于決策理論的模擬調制方式識別方法
此算法主要實現區分AM、FM、DSB、LSB、USB、VSB、AM-FM等七種調制樣式,所分析的對象序列s(n)是由接收機中頻輸出并經過采樣得到的,這樣s(n)的采樣頻率和載頻都已知,分別記做Fs和Fc。算法分兩個步驟:
第一步,根據信號的包絡特征將AM、USB、LSB與FM區分開,因為前三種信號的包絡不為恒定值,而FM的包絡理論上是恒定值(實際中接近恒定)。因而可以從中提取一個特征參數R。參數R反映了零中心歸一化包絡的功率譜特征,FM的零中心歸一化包絡接近零,因其參數R應遠遠小于前三種信號。實際中若R
第二步,根據信號頻譜的對稱性,將AM與USB與LSB區分開,因為AM的單邊頻譜關于載頻是近似對稱的,USB和LSB的單邊頻譜對于載頻來說分別只有上邊頻和下邊頻。因而可以從中提取另一個特征參數 。理論上,由于AM的上下邊頻對稱,所以AM的P接近零,而LSB和USB的P分別接近1和-1。實際中若|P|< 0.5,判為AM信號,若P>0.5,判為LSB,P
第三步,零中心非弱信號段瞬時相位非線性分量絕對值的標準偏差:σap 。
σap由下式定義:
(1)
式中,at是判斷弱信號段的一個幅度判決門限電平,c是在全部取樣數據Ns中屬于非弱信號值的個數,?準NL(i)是經零中心化處理后瞬時相位的非線性分量,在載波完全同步時,有:?準NL(i)= φ(i)-φ0
式中:,φ(i)為瞬時相位。用σap來區分是DSB信號還是AM-FM信號。
第四步,零中心非弱信號段瞬時相位非線性分量的標準偏差:σdp。
σdp由下式定義:
(2)
σdp主要用來區別不含直接相位信息的AM、VSB信號類和含直接相位信息的DSB、LSB、USB、AM-FM信號類,其判決門限設為t(σdp) 。
2 決策論方法的改進
前面介紹的基于決策理論的模擬調制方式識別方法存在缺陷針對上述問題,人們又提出了基于神經網絡(NN)的識別方法。
2.1 BP網絡作為分類器的模擬調制方式識別方法
該算法用基于有監督訓練的神經網絡模型BP網絡作為分類器,用BP模型多層感知網絡與反向傳播學習算法相結合,通過不斷比較網絡的實際輸出與指定期望輸出間的差異來不斷的調整權值,直到全局(或局部)輸出差異極小值,不難想象該神經網絡對模型細節中的諸多問題均有良好效果。
基于NN的模擬信號調制識別框圖[2]如圖1所示,該NN采用三層結構即,1個輸入層,1個輸出層,1個中間層。中間層可采用多層。但由于受到計算復雜性的限制,目前采用單層或雙層中間層的NN比較多見。本圖中間層采用單層25個節點,輸入層和輸出層的節點數取決于信號特征參數的個數和信號的分類數,因而分別為4和7。
神經網絡具有信息分布式存儲、大規模自適應并行處理和高度容錯特性,適用于模式識別的基礎。其學習能力和容錯特性對不確定性模式識別具有獨到之處[3]。通信信號在傳播過程中受到信道噪聲的污染,接受到的信號是時變的、非穩定的,而小波變換特別適用于非穩定信號的分析,其作為一種信息提取的工具已得到較廣泛的應用。小波變換具有時頻局部性和變焦特性,而神經網絡具有自學習、自適應、魯棒性、容錯性和推廣能力,兩者優勢的結合可以得到良好的信號模式自動識別特性,從而形成各種處理方法。
2.2 基于小波的特征提取和識別方法
小波特別適用于非穩定信號的分析,作為一種特征提取的工具已得到較為廣泛的應用。小波的重要特點是它能夠提供一個信號局部化的頻域信息。小波變換能夠將各種交織在一起的不同頻率組成的混合信號分解成不同頻率的塊信號,它對不同的時間和頻率有不同的解釋,因此,對調制信號進行小波分解,得到不同水平下的細節信息,這些信息對于不同類別的調制信號來說是有差別的[4]。
在實際應用中,小波變換常用的定義有下列兩種:
(3)
(4)
式中,星號*表示共軛。式(3)表示小波變換是輸入信號想x(t)和小波函數φα, τ(t)的相關積分;式(4)用卷積代替了相關積分。兩種定義在本質上是一致的。本為采用后者。
將式(4)中的τ和t離散化,即令τ=kTs,及t=iTs,得連續小波變換公式(4)的離散形式,又稱小波系數:
(5)
Morlet小波是一種單頻復正弦調制高斯波,也是最常用的復值小波。其實、頻兩域都具有很好的局部性,它的時域形式如下:
(6)
雖然信號特征有很多種,神經網絡在進行信號識別時,主要是依據譜峰位置的不同,因此提取信號特征主要任務就是尋找信號類別與譜峰位置間的必然聯系。而小波變換在這里則相當于一個數學顯微鏡,通過它,可以詳細了解各類信號在不同低頻段上的頻譜構成。
整個系統在PC機上進行仿真,采用Windows2000操作系統和Matlab6.1和Cool Edit2.0進行聲音錄制。
在仿真中,采用44K的采樣率,錄制了一段歌聲和一段笑聲,用Matlab生成22K的正弦載波,并根據第二章的各調制樣式的定義,生成了各個仿真的調制波形。并轉化成.wav文件錄在電腦中。
3 結束語
本文僅限于理論理論研究,用MatLab仿真實現,沒有用DSP芯片等物理電路實現,僅為實際實現提供理論指導。
參考文獻:
[1] 羅利春.無線電偵察信號分析與處理[M].北京:國防工業出版社,2003.
[2] 楊小牛,樓才義,徐建良.軟件無線電原理與應用[M].北京:電子工業出版社,2001.