前言:中文期刊網精心挑選了卷積神經網絡優勢范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
卷積神經網絡優勢范文1
DOIDOI:10.11907/rjdk.162768
中圖分類號:TP317.4
文獻標識碼:A文章編號文章編號:16727800(2017)005017405
0引言
隨著電子商務的發展,大批藝術品交易網站隨之興起,藏品交易規模也越來越大。而當前的古玩網上交易平臺還不能夠實現對現有藏品圖片的自動分類,客戶在尋找目標藏品時不得不在眾多圖片中一一瀏覽。因此需要一種有效的方法來完成面向圖像內容的分類。
在基于內容的圖像檢索領域,常使用人工設計的特征-如根據花瓶、碗、盤子的不同形態特征:目標輪廓的圓度、質心、寬高比等[1],繼而使用BP神經網絡、SVM分類器等對特征進行學習分類。文獻[2]基于植物葉片的形狀特征,如葉片形狀的狹長度、矩形度、球狀性、圓形度、偏心率、周長直徑比等,利用BP神經網絡實現對植物葉片進行分類。文獻[3]研究印品圖像的各類形狀缺陷,利用圖像缺陷形狀的輪廓長度、面積和圓形度等幾何特征,導入SVM分類器進行訓練,得到分類器模型實現分類。文獻[4]提出了一種基于Zernike矩的水果形狀分類方法,通過提取圖像中具有旋轉不變性的Zernike矩特征,并運用PCA方法確定分類需要的特征數目,最后將這些特征輸入到SVM分類器中,完成水果形狀的分類。上述方法都要求對目標形狀分割的準確性,而分割過程中由于存在目標陰影、目標分割不完整問題,會影響到人工特征的準確選取。除了上述人工特征外,最常用的特征是HOG[5,6]、SIFT[7,8]等。HOG的核心思想是所檢測的局部物體外形能夠被光強梯度或邊緣方向的分布所描述。HOG表示的是邊緣結構特征,因此可以描述局部形狀信息。SIFT在圖像的空間尺度中尋找極值點,并提取出其位置、尺度、旋轉不變量。SIFT特征對于旋轉、尺度縮放、亮度變化保持不變。但是,這兩種特征在實際應用中,描述子生成過程冗長、計算量太大。而且在上述方法征設計需要啟發式的方法和專業知識,很大程度上依靠個人經驗。
卷積神經網絡不需要手動設計提取特征,可以直接將圖片作為輸入,隱式地學習多層次特征,進而實現分類[9]。相比目前常用的人工設計特征然后利用各分類器,具有明顯的優勢。近年來,卷積神經網絡已成為語音、圖像識別領域研究熱點。它的權值共享特點使得網絡復雜度降低,權值數量減少。而且,卷積神經網絡直接將圖片作為輸入,避免了復雜的特征設計和提取,具有一定的平移、縮放和扭曲不變性[10]。本文采用卷積神經網絡對古玩圖片進行分類。首先,將背景分離后的圖片作為網絡的輸入,相比原圖作為輸入,此方法的網絡結構更加簡單。然后,卷積層通過不同的卷積核對輸入圖片進行卷積得到不同特征圖,采樣層進一步對特征圖進行二次提取,最終提取到合適的特征輸入分類器進行分類,而在卷積層、采樣層征圖的大小、數目都會影響到網絡的分類能力。因此,本文通過優化網絡參數,使網絡達到較好的分類效果。
1卷積神經網絡
1989年,LECUN等[11]提出了卷積神經網絡(Convolution Neural Networks,CNN),CNN是一種帶有卷積結構的深度神經網絡,一般至少有2個非線性可訓練的卷積層、2個非線性的固定采樣層和1個全連接層,一共至少5個隱含層[12]。百度于2012年底將深度學習技術成功應用于自然圖像OCR識別和人臉識別,此后深度學習模型被成功應用于一般圖片的識別和理解。從百度經驗來看,深度學習應用于圖像識別不但大大提升了準確性,而且避免了人工特征抽取的時間消耗,從而大大提高了在線計算效率[13]。
卷積神經網絡作為一種高效的深度學習方法[14],在許多圖像識別方面取得了很好的成效[1519]。該網絡作為一種多隱層神經網絡,可以提取圖像的多層次特征進行識別。
卷積神經網絡主要包括卷積層和采樣層,卷積層通過可學習的卷積核對輸入圖片進行卷積得到特征圖,卷積操作即加強了輸入圖片的某種特征,并且降低噪聲。卷積之后的結果通過激活函數(通常選擇Sigmoid函數或Tanh函數)作用輸出構成該層的特征圖。特征圖上的每一個神經元只與輸入圖片的一個局部區域連接,每個神經元提取的是該局部區域的特征,所有神經元綜合起來就得到了全局特征,與神經元相連接的局部區域即為局部感受野[20]。而在卷積層中一般存在多張特征圖,同一張特征圖使用相同的卷積核,不同特征圖使用不同的卷積核[21],此特點稱為權值共享,即同一張特征圖上的所有神經元通過相同的卷積核連接局部感受野。卷積神經網絡的局部感受野和嘀倒蠶硤氐憒蟠蠹跎倭送絡訓練的參數個數,降低了網絡模型的復雜度。
采樣層對卷積層提取到的特征圖進行局部非重疊采樣,即把特征圖分為互不重疊的N×N個子區域,對每個子區域進行采樣。卷積神經網絡的采樣方式一般有兩種:最大值采樣和均值采樣。最大值采樣即選取區域內所有神經元的最大值作為采樣值,均值采樣為區域內所有神經元的平均值作為采樣值。最大值采樣偏向于提取目標的特征信息,而均值采樣偏向于提取背景的特征信息[22]。采樣后的特征平面在保留了區分度高特征的同時大大減少了數據量,它對一定程度的平移、比例縮放和扭曲具有不變性。
卷積神經網絡通過卷積層和采樣層的循環往復提取到圖像由低層次到高層次的特征,最后一般通過全連接層將所有特征圖展開得到一維向量,然后輸入到分類器進行分類。
卷積神經網絡在處理二維圖像時,卷積層中每個神經元的輸入與上一層的局部感受野相連接,并提取該局部的特征,權值共享特點又使得各神經元保持了原來的空間關系,將這些感受不同局部區域的神經元綜合起來就得到了全局信息。采樣層對特征圖進行局部特征提取,不會改變神經元之間的空間關系,即二維圖像經過卷積層、采樣層仍然保持二維形式。因此,卷積神經網絡有利于提取形狀方面的特征。雖然卷積神經網絡的局部感受野、權值共享和子采樣使網絡大大減少了需要訓練參數的個數,但是該網絡作為多隱層神經網絡還是十分復雜的。對于不同的數據庫,為了達到比較好的分類效果,網絡的層數、卷積層特征圖個數以及其它參數的設置都需要探究。
2基于卷積神經網絡的古玩圖片分類
2.1特征提取及傳遞
不同古玩的主要區別在于形狀不同,而花瓶、盤子和碗在古玩中最常見,因此將這3類圖片作為實驗對象,對于其它種類的古玩圖片的分類,該網絡同樣適用。卷積神經網絡采用如下圖所示的5層網絡結構,并對網絡各層的特征圖數目、大小均作了修改。對于網絡的輸入,先將原圖像進行目標與背景分割,然后進行灰度化、統一分辨率的處理,最后輸入到卷積神經網絡。由于訓練卷積神經網絡的根本目的是提取不同古玩的特征,而背景不是目標的一部分,對古玩識別來說并不提供任何有用的信息,反而對特征的提取造成干擾,所以去除背景噪聲后,網絡結構會更加簡單,同時也利于網絡對特征的學習。但是因為進行了去背景的預處理,網絡也失去了對復雜背景下圖片的識別能力,所以使用該網絡進行古玩圖片分類前都要進行目標分割的預處理過程。
卷積神經網絡對古玩圖片的特征提取過程如下:
(1)輸入網絡的圖片為100×100大小的預處理圖,卷積神經網絡的輸入層之后為卷積層,卷積層通過卷積核與輸入圖像進行卷積得到特征平面,卷積核大小為5×5。如圖2所示,特征平面上每個神經元與原圖像5×5大小的局部感受野連接。卷積核移動步長為1個像素,因此卷積層C1的特征平面大小為96×96。這種卷積操作在提取到輸入圖像的某一方面特征時,必然會損失掉圖像的其他特征,而采取多個卷積核卷積圖像得到多個特征平面則會一定程度上彌補這個缺陷。因此,在卷積層C1中使用了6個不同的卷積核與輸入圖像進行卷積,得到6種不同的特征平面圖。如圖3所示,同一張特征圖上的所有神經元共享一個卷積核(權值共享),圖中連接到同一個特征圖的連接線表示同一個卷積核,6個不同的卷積核卷積輸入圖片得到6張不同的特征平面圖。卷積之后的結果并非直接儲存到C1層特征圖中,而是通過激活函數將神經元非線性化,從而使網絡具有更強的特征表達能力。激活函數選擇Sigmoid函數。
卷積層中所使用的卷積核尺寸若過小,就無法提取有效表達的特征,過大則提取到的特征過于復雜。對于卷積層征圖個數的設置,在一定范圍內,特征圖的個數越多,卷積層提取到越多有效表達原目標信息的特征,但是特征圖個數如果過多,會使提取到的特征產生冗余,最終使分類效果變差。卷積層的各平面由式(1)決定: Xlj=f(∑i∈MjXl-1j*klij+blj)(1)
式(1)中,Mj表示選擇輸入的特征圖集合,l是當前層數,f是激活函數,klij表示不同輸入特征圖對應的卷積核,blj為輸出特征圖對應的加性偏置。
(2)卷積層C1后的采樣層S1由6個特征平面組成,采樣層對上一層特征圖進行局部平均和二次特征提取。采樣過程如圖4所示,特征平面上的每個神經元與上一層4×4大小的互不重合的鄰域連接進行均值采樣,最終每個平面的大小為24×24。采樣層的各平面由式(2)決定:
Xlj=f(βljdown(Xl-1j)+blj)(2)
式(2)中,down(.)表示一個下采樣函數,l是當前層數,f是激活函數,βlj表示輸出特征圖對應的乘性偏置,blj為輸出特征圖對應的加性偏置。
(3)卷積層C2與C1層操作方式一樣,唯一區別的是C2層每個特征圖由6個不同的卷積核與上一層6個特征圖分別卷積求和得到,因此C2層一共有6×6個不同的卷積核,卷積核大小為5×5,C2層每個平面大小為20×20,共6個特征平面。
(4)采樣層S2與S1層操作一樣,對上一層4×4大小鄰域進行均值采樣,輸出6個5×5大小的特征平面。本文所用的網絡共包括2個卷積層、2個采樣層、1個全連接層,由于輸入圖片已經過背景分離的預處理,采樣層S2特征圖大小為5×5,所以圖1所示5層網絡已經有很好的表達能力。如果直接將原圖作為輸入,那么網絡的層數以及特征圖的個數將比圖1所示的網絡更加復雜。
(5)全連接層將上一層6個5×5大小的二維平面展開成為1×150大小的一維向量輸入Softmax[23]分類器,輸出層一共有3個神經元(即分類的種類數目),分類器將提取到的特征向量映射到輸出層的3個神經元上,即實現分類。
2.2網絡訓練
訓練方式為有監督地訓練,網絡對盤子、花瓶和碗共三類圖片進行分類,所以分類器輸出一個3維向量,稱為分類標簽。在分類標簽的第k維中1表示分類結果,否則為0。訓練過程主要分為兩個階段:
第一階段:向前傳播A段。
將預處理過的圖片輸入卷積神經網絡計算得到分類標簽。
第二階段:向后傳播階段。
計算輸出的分類標簽和實際分類標簽之間的誤差。根據誤差最小化的原則調整網絡中的各個權值。分類個數為3,共有N個訓練樣本。那么第n個樣本的誤差為:
En=12∑3k=1(tnk-ynk)2(3)
式(3)中,tn表示第n個樣本的網絡輸出標簽,tnk對應標簽的第k維,yn表示第n個樣本的實際分類標簽,ynk對應標簽的第k維。為了使誤差變小,利用權值更新公式(4)更新各層神經元的權值,一直訓練直到網絡誤差曲線收斂。
W(t+1)=W(t)+η?δ(t)?X(t)(4)
式(4)中,W(t)表示算第n個樣本時的權值,W(t+1)表示計算第n+1個樣本的權值,η為學習速率,選取經驗值,δ為神經元的誤差項,X表示神經元的輸入。
3實驗結果及分析
實驗在MatlabR2012a平臺上完成,CPU 2.30GHz,內存4GB,所采用的圖像由相關古玩網站提供,分辨率統一格式化為100×100。由于盤子、花瓶和碗在各種古玩種類中它們之間的形狀差別比較明顯,本文實驗對這三類古玩圖片進行分類。對古玩圖片進行了水平翻轉處理,增加圖片數據量,以加強網絡對古玩圖片分類的魯棒性。實驗數據如表1所示,圖5列出了3類圖片的部分樣本,實驗所用圖片均與圖5所示圖片類似,背景比較單一,少數圖片下方有類似陰影。
為了形象表示網絡各層提取的不同特征,圖6展示了當網絡輸入為盤子時的各層特征圖。卷積層C1中6張特征圖分別提取到了輸入圖片的不同特征,而由于權值共享,同一張特征圖中神經元的空間關系保持不變,所以6張特征圖都抓住了盤子的圓形特征。采樣層S1對C1進行均值采樣,相當于模糊濾波,所以S1層各特征圖看起來模糊了一些。卷積層C2中每張特征圖由6個不同的卷積核卷積S1層各特征圖疊加而成,S2層與S1層處理方式相同。
為了說明將背景分離后的圖片作為輸入的網絡與原圖輸入的網絡之間的差異,設計了如表3所示的兩種網絡結構,網絡CNN4只需要4層網絡層就可以達到0.19%的錯誤率,而原圖作為輸入的CNN8共6層網絡層,在網絡達到收斂的情況下,錯誤率為5.24%。由此可以說明,將背景分離后圖片作為輸入的網絡結構更加簡單。
網絡的訓練采用了批量訓練方式,即將樣本分多批,當一批樣本前向傳播完之后才進行權值更新,每批大小為100,訓練集共2 200張圖片,網絡迭代次數為1時共進行22次權值更新,所以權值更新的計算次數與迭代次數有如下關系:
計算次數=22×迭代次數(5)
圖7為網絡在訓練集上的誤差曲線圖,橫坐標為誤差反向傳播的計算次數,縱坐標為訓練集上的均方誤差??梢钥闯?,當網絡訓練次數達到270次(計算次數約6 000)時,訓練集誤差趨于平緩,網絡已經基本擬合。訓練好的網絡可以用來對測試集圖片進行分類,表4為不同迭代次數下訓練的網絡在測試集上的分類錯誤率,可以看出迭代次數在達到270次后,網絡在測試集的錯誤率收斂,此時只有2張圖片出現分類錯誤。
表5給出了圖像分類算法中常用的人工特征+BP神經網絡、人工特征+SVM分類器以及Hog特征+SVM分類器與CNN方法的性能比較。人工設計的特征包括圖片中目標輪廓的最大長寬比、質心、圓度等特征。從準確率方面來看,CNN方法的準確率高于其他方法,Hog特征方法的準確率遠遠高于人工特征的方法,說明了特征的好壞對圖像分類效果有著很大程度上的影響,CNN提取到的特征比Hog和人工設計的特征更具代表性。從測試時間來看,Hog方法與CNN方法相差不多,采用人工特征的方法時間最長。綜合兩個方面,CNN方法在測試時間和HOG方法相近的情況下,準確率最高。
4結語
針對網上古玩圖片分類問題,為了克服現有算法中人工設計特征困難以及往往依賴個人專業經驗的不足,提出一種基于卷積神經網絡的方法。將背景分離后的目標圖片作為網絡輸入,可以實現自動提取特征進行分類,背景分離后圖片作為網絡輸入使得網絡結構更加簡單,并且設置了合適的特征圖個數以使網絡在古玩圖片集上取得較好的分類準確率。實驗數據表明,該方法能夠解決網上古玩圖片的分類問題,并且分類準確率達到99%,其準確率優于常用的Hog特征以及人工特征方法。另外該方法不僅可以應用于網上古玩圖片,還可應用于鞋類、服裝等其它商品圖像的分類。
參考文獻參考文獻:
[1]K KAVITHA,M.V.SUDHAMANI.Object based image retrieval from database using combined features[C].in Signal and Image Processing (ICSIP),2014.
[2]董紅霞,郭斯羽,一種結合形狀與紋理特征的植物葉片分類方法[J].計算機工程與應用,2014,50(23):185188.
[3]舒文娉,劉全香,基于支持向量機的印品缺陷分類方法[J].包裝工程,2014,35(23):138142.
[4]應義斌,桂江生,饒秀勤,基于Zernike矩的水果形狀分類[J].江蘇大學學報:自然科學版,2007,28(1):3639.
[5]ZHU Q,YEH M C,CHENG K T,et al.Fast human detection using acascade of histograms of oriented gradients[C].Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2006.
[6]M VILLAMIZAR,J SCANDALIANS,A SANFELIU bining colorbased invariant gradient detector with Hog descriptors for robust image detection in scenes under cast shadows[C].In Robotics and Automation,ICRA IEEE International Conference on.Barcelona,Spain:IEEE,2009.
[7]CHEN J,LI Q,PENG Q,et al.CSIFT based localityconstrained linear coding for image classification[J].Formal Pattern Analysis & Applications,2015,18(2):441450.
[8]AHMAD YOUSEF K M,ALTABANJAH M,HUDAIB E,et al.SIFT based automatic number plate recognition[C].International Conference on Information and Communication Systems.IEEE,2015.
[9]LAWRENCE S,GLIES C L,TSOI A C,et al.Face recognition:a convolutional neuralnetwork approach[J].IEEE Transactions on Neural Networks,1997,8(1):98113.
[10]TREVOR HASTIE,ROBERT TIBSHIRANI,J FRIEDMAN.The elements of statistical learning[M].New York:Springer,2001.
[11]Y LECUN,L BOUOU,Y BENGIO.Gradientbased learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):22782324.
[12]DAHL J V,KOCH K C,KLEINHANS E,et al.Convolutional networks and applications in vision[C].International Symposium on Circuits and Systems (ISCAS 2010),2010:253256.
[13]余凱,賈磊,陳雨強,等.深度學習的昨天、今天和明天[J].計算機研究與發展,2013(09):17991804.
[14]MAIRAL J,KONIUSZ P,HARCHAOUI Z,et al.Convolutional kernel networks[DB/OL].http:///pdf/1406.3332v2.pdf.
[15]Z世杰,楊東坡與劉金環,基于卷積神經網絡的商品圖像精細分類[J].山東科技大學學報:自然科學版,2014(6):9196.
[16]程文博等,基于卷積神經網絡的注塑制品短射缺陷識別[J].塑料工業,2015(7):3134,38.
[17]鄧柳,汪子杰,基于深度卷積神經網絡的車型識別研究[J].計算機應用研究,2016(4):14.
[18]T JONATAN,S MURPHY,Y LECUN,et al.Realtime continuous pose recovery of human hands using convolutional networks[J].ACM Transaction on Graphics,2014,33(5):3842.
[19]S SKITTANON,A C SURENARAN,J C PLATT,et al.Convolutional networks for speech detection[C].Interspeech.Lisbon,Portugal:ISCA,2004.
[20]HUBEL D H,WIESEL T N.Integrative action in the cat's lateral geniculate body[J].Journal of Physiology,1961,155(2):385398.
[21]JAKE BOUVRIE.Notes on convolutional neural networks[DB/OL].http:///5869/1/cnn_tutorial.pdf.
卷積神經網絡優勢范文2
(廣東外語外貿大學 金融學院,廣東 廣州 510006)
摘 要:作為一個具有巨大應用前景研究方向,深度學習無論是在算法研究,還是在實際應用(如語音識別,自然語言處理、計算機視覺)中都表現出其強大的潛力和功能.本文主要介紹這種深度學習算法,并介紹其在金融領域的領用.
關鍵詞 :深度學習;受限波茲曼機;堆棧自編碼神經網絡;稀疏編碼;特征學習
中圖分類號:TP181 文獻標識碼:A 文章編號:1673-260X(2015)01-0037-03
1 深度學習的研究意義
深度學習是一類新興的多層神經網絡學習算法,因其緩解了傳統訓練算法的局部最小性,引起機器學習領域的廣泛關注.深度學習的特點是,通過一系列邏輯回歸的堆棧作為運算單元,對低層數據特征進行無監督的再表示(該過程稱為預學習),形成更加抽象的高層表示(屬性類別或特征),以發現數據的分布式特征表示.深度學習的這種特性由于與腦神經科學理論相一致,因此被廣泛應用于語音識別、自然語言處理和計算機視覺等領域.
生物學研究表明[1]:在生物神經元突觸的輸出變化與輸入脈沖的持續時間有關,即依賴于持續一定時間的輸入過程,輸出信號既依賴于輸入信號的空間效應和閾值作用,也依賴于時間總和效應.
傳統的深度學習方法雖然較好地模擬了生物神經元的一個重要特性——空間總和效應上的深度,卻忽視了生物神經元的另一個重要特性——時間總和效應上的寬度[2].因此,對于連續的時間變量問題(如語音識別),傳統深度學習方法只能將連續的時間函數關系轉化為空間關系,即離散化為時間序列進行處理.這樣做有幾個弊端:
(1)可能造成深度學習算法對時間采樣頻率的十分敏感,魯棒性較差.這使得,不同時間尺度下,需要使用不同的數據和算法.這無疑是十分不方便的;
(2)導致深度網絡規模過大,使得計算開銷增大、學習效果變差、泛化性能降低;
(3)難以滿足實際應用對算法的實時性的要求,更難以體現連續輸入信息的累積效應,大大降低深度學習算法的實用性.
因此,對傳統的深度學習算法進行改進,使其不但具有“深度”,亦能具有“寬度”,能夠對連續時變數據進行更好的特征提取、提高算法效率和實用性,顯得勢在必行.基于這個切入點,本項目借鑒時頻分析與小波分析中的方法,結合數學分析領域中的泛函分析技術,與堆棧自編碼神經網絡相結合,提出一種新的深度學習算法——深度泛函網絡.為了驗證算法的有效性及優越性,本項目將把新算法應用于金融時間序列的領域.
在目前國內外對于深度學習的研究中,幾乎沒有任何將深度學習技術運用于金融數據的研究.通過提出并運用得當的深度序列學習方法,我們期望從金融數據中抽取更高級的、具有經濟學意義或預測性意義的高級特征(與人工設計的“技術指標”相對應),并開發相應的量化交易策略,并與其它傳統算法進行對比,以說明所提算法的可行性和優越性.
2 國內外研究現狀
人類感知系統具有的層次結構,能夠提取高級感官特征來識別物體(聲音),因而大大降低了視覺系統處理的數據量,并保留了物體有用的結構信息.對于要提取具有潛在復雜結構規則的自然圖像、視頻、語音和音樂等結構豐富數據,人腦獨有的結構能夠獲取其本質特征[3].受大腦結構分層次啟發,神經網絡研究人員一直致力于多層神經網絡的研究.訓練多層網絡的算法以BP算法為代表,其由于局部極值、權重衰減等問題,對于多于2個隱含層的網絡的訓練就已較為困難[4],這使得實際應用中多以使用單隱含層神經網絡居多.
該問題由Hinton[5]所引入的逐層無監督訓練方法所解決.具體地,該法對深度神經網絡中的每一層貪婪地分別進行訓練:當前一層被訓練完畢后,下一層網絡的權值通過對該層的輸入(即前一層的輸出)進行編碼(Encoding,詳見下文)而得到.當所有隱含層都訓練完畢后,最后將使用有監督的方法對整個神經網絡的權值再進行精確微調.在Hinton的原始論文中,逐層貪婪訓練是通過受限波茲曼機(Restricted Boltzmann Machine,RBM)以及相對應的對比散度方法(Contrastive Divergence)完成的.與通常的神經元不同,RBM是一種概率生成模型,通常被設計為具有二元輸入-輸出(稱為Bernoulli-Bernoulli RBM).通過對每一層的受限波茲曼機進行自底向上的堆棧(如圖1),可以得到深度信念網(Deep Belief Network,DBN).
除了生成式的RBM,還有其他的深度學習結構被廣泛使用和研究.如堆棧自編碼神經網絡(Stacked Auto-Encoder Network,SAEN)[6],以及深度卷積神經網絡(Deep Convolutional Network)[7]等.前者的優勢在于可以簡單地采用通常的BP算法進行逐層預訓練,并且引入隨機化過程的抗噪聲自編碼網絡(Denoising SAEN)泛化性能甚至超過DBN[8];而后者則通過權值共享結構減少了權值的數量,使圖像可以直接作為輸入,對平移、伸縮、傾斜等的變形具有高度不變性,因此在圖像識別領域有著廣泛應用.
近年來,稀疏編碼(Sparse Encoding)和特征學習(Feature Learning)成為了深度學習領域較為熱門的研究方向.B.A.Olshausen[9]等針對人腦的視覺感知特性,提出稀疏編碼的概念.稀疏編碼算法是一種無監督學習方法,它用來尋找一組“過完備”的基向量來更高效地表示輸入數據的特征,更有效地挖掘隱含在輸入數據內部的特征與模式.針對稀疏編碼的求解問題,H.Lee等在2007年提出了一種高效的求解算法[10],該算法通過迭代地求解兩個不同的凸規劃問題以提高效率.同年,H.Lee等發現,當訓練樣本為圖像時,對DBN的訓練進行稀疏性的約束有利于算法學習到更高級的特征[11].例如,對手寫識別數據集進行訓練時,稀疏性約束下的DBN算法自主學習到了“筆畫”的概念.
基于[10,11]的研究成果,R.Raina等[12]提出了“自導師學習(Self-Taught Learning)”的概念.與無監督學習(Unsupervised Learning)和半監督學習(Semi-supervised Learning)不同,自導師學習利用大量易獲得的無標簽數據(可以來自不同類別甚至是未知類別),通過稀疏編碼算法來構建特征的高級結構,并通過支持向量機(Support Vector Machine,SVM)作為最終層分類器對少數有標簽數據進行分類.這種更接近人類學習方式的模式極大提高了有標簽數據的分類準確度.與之類似,H.Lee,R.Grosse等[13]提出了一種具有層次結構的特征學習算法.該算法將卷積神經網絡與DBN結合,并通過稀疏正則化(Sparsity Regularization)的手段無監督地學習層次化的特征表征.圖像識別實驗表明,該算法能夠自主學習得出“物體(Object Parts)”的概念,較好體現了人腦視覺感知的層次性和抽象性.
3 發展趨勢
由于信號處理、語音識別、金融時間序列分析、視頻分析等領域的實時應用需求,研究能夠處理連續時變變量、自然體現時間聯系結構的深度學習算法(即深度序列學習,Deep Sequence Learning)成為了新的研究熱點.G.W.Taylor,G.E.Hinton等[14]提出時間受限波茲曼機(Temporal RBM,TRBM).該模型使用二值隱含元和實值可視元,并且其隱含元和可視元可以與過去一段歷史的可視元之間可以有向地被相連.同時,該模型被用于人類動作識別,并展現出了優秀的性能.針對TRBM的一些不足,一些改進算法也不斷涌現,如[15,16].然而,該類深度學習模型雖然考慮了動態的時間變量之間的聯系,但依然只能處理離散時間問題,本質上還是屬于轉化為空間變量的化歸法.同時,在自編碼網絡框架下,依然缺乏較好解決時間過程(序列)問題的方案.
4 金融時序數據中的應用
傳統金融理論認為,金融市場中的證券價格滿足伊藤過程,投資者無法通過對歷史數據的分析獲得超額利潤.然而,大量實證研究卻表明,中國股票價格波動具有長期記憶性,拒絕隨機性假設,在各種時間尺度上都存在的可以預測的空間.因此,如何建立預測模型,對于揭示金融市場的內在規律,這無論是對于理論研究,還是對于國家的經濟發展和廣大投資者,都具有重要的意義.
股票市場是一個高度復雜的非線性系統,其變化既有內在的規律性,同時也受到市場,宏觀經濟環境,以及非經濟原因等諸多因素的影響.目前國內外對證券價格進行預測的模型大致分為兩類:一是以時間序列為代表的統計預測模型;該類方法具有堅實的統計學基礎,但由于金融價格數據存在高噪聲、波動大、高度非線性等特征,使得該類傳統方法無法提供有效的工具.另一類是以神經網絡、支持向量機等模型為代表的數據挖掘模型.該類模型能夠處理高度非線性的數據,基本上從擬合的角度建模.雖然擬合精度較高,但擬合精度的微小誤差往往和市場波動互相抵消,導致無法捕捉獲利空間甚至導致損失,外推預測效果無法令人滿意.因此,建立即能夠處理非線性價格數據,又有良好泛化能力的預測模型勢在必行.
——————————
參考文獻:
〔1〕Zhang L I, Tao H W, Holt C E, et al. A critical window for cooperation and competition among developing retinotectal synapses[J]. Nature, 1998, 395(6697).
〔2〕37-44.歐陽楷,鄒睿.基于生物的神經網絡的理論框架——神經元模型[J].北京生物醫學工程,1997,16(2):93-101.
〔3〕Rossi A F, Desimone R, Ungerleider L G. Contextual modulation in primary visual cortex of macaques[J]. the Journal of Neuroscience, 2001, 21(5): 1698-1709.
〔4〕Bengio Y. Learning deep architectures for AI[J]. Foundations and trends? in Machine Learning, 2009, 2(1):1-127.
〔5〕Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527-1554.
〔6〕Vincent P, Larochelle H, Bengio Y, et al. Extracting and composing robust features with denoising autoencoders[C]//Proceedings of the 25th international conference on Machine learning. ACM, 2008: 1096-1103.
〔7〕Lee H, Grosse R, Ranganath R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th Annual International Conference on Machine Learning. ACM, 2009: 609-616.
〔8〕Vincent P, Larochelle H, Lajoie I, et al. Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion[J]. The Journal of Machine Learning Research, 2010, 9999: 3371-3408.
〔9〕Olshausen B A, Field D J. Sparse coding with an overcomplete basis set: A strategy employed by V1?[J]. Vision research, 1997, 37(23): 3311-3325.
〔10〕Lee H, Battle A, Raina R, et al. Efficient sparse coding algorithms[J]. Advances in neural information processing systems, 2007, 19: 801.
〔11〕Lee H, Ekanadham C, Ng A Y. Sparse deep belief net model for visual area V2[C]//NIPS. 2007, 7: 873-880.
〔12〕Raina R, Battle A, Lee H, et al. Self-taught learning: transfer learning from unlabeled data[C]//Proceedings of the 24th international conference on Machine learning. ACM, 2007: 759-766.
〔13〕Lee H, Grosse R, Ranganath R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th Annual International Conference on Machine Learning. ACM, 2009: 609-616.
〔14〕Taylor G W, Hinton G E, Roweis S T. Modeling human motion using binary latent variables[J]. Advances in neural information processing systems, 2007, 19: 1345.
卷積神經網絡優勢范文3
【關鍵詞】人臉識別;人臉檢測;方法
Abstract:Face recognition system is one of the most popular current scientific research,In this paper,the process and prospects of face recognition system to do a simple review.The application of the system to do a simple analysis and the main method of face recognition for the corresponding category.For the future development of face recognition systems were mainly discussed.
Key words:Face Recognition;Face Detection;Methods
一、引言
隨著科學技術的突飛猛進,計算機及網絡的高速發展,信息的安全性、隱蔽性越來越重要,如何有效、方便的進行身份驗證和識別,已經成為人們日益關心的問題。生物認證的方法,即利用人類自身的特征來進行身份認證,具有傳統方法沒有的有點,也解決了身份認證技術所面臨的一大難題。其具有方便、強化安全、不會丟失、遺忘或轉讓等優點?,F在人體生物識別技術的研究主要針對人臉、指紋、虹膜、手型、聲音等物理或行為特征來進行。本文主要對人臉識別技術的介紹。
人臉識別是指給定一個靜止或動態圖像,利用已有的人臉數據庫來確認圖像中的一個或多個人。如同人的指紋一樣,人臉也具有唯一性,也可用來鑒別一個人的身份。現在己有實用的計算機自動指紋識別系統面世,并在安檢等部門得到應用,但還沒有通用成熟的人臉自動識別系統出現。人臉圖像的自動識別系統較之指紋識別系統、DNA鑒定等更具方便性,因為它取樣方便,可以不接觸目標就進行識別,從而開發研究的實際意義更大。另一方面,人臉表情的多樣性;以及外在的成像過程中的光照,圖像尺寸,旋轉,姿勢變化等給識別帶來很大難度。因此在各種干擾條件下實現人臉圖像的識別,也就更具有挑戰性。
二、人臉識別系統流程
(1)人臉圖像的獲?。簣D像的獲取都是通過攝像頭攝取,但攝取的圖像可以是真人,也可以是人臉的圖片或者為了相對簡單,可以不考慮通過攝像頭來攝取頭像,而是直接給定要識別的圖像。
(2)人臉的檢測:人臉檢測的任務是判斷靜態圖像中是否存在人臉。若存在人臉,給出其在圖像中的坐標位置、人臉區域大小等信息。而人臉跟蹤則需要進一步輸出所檢測到的人臉位置、大小等狀態隨時間的連續變化情況。
圖1 人臉識別框架
(3)特征提取:通過人臉特征點的檢測與標定可以確定人臉圖像中顯著特征點的位置(如眼睛、眉毛、鼻子、嘴巴等器官),同時還可以得到這些器官及其面部輪廓的形狀信息的描述。根據人臉特征點檢測與標定的結果,通過某些運算得到人臉特征的描述(這些特征包括:全局特征和局部特征,顯式特征和統計特征等)。
(4)基于人臉圖像比對的身份識別:即人臉識別問題。通過將輸入人臉圖像與人臉數據庫中的所有已知原型人臉圖像計算相似度并對其排序來給出輸入人臉的身份信息。
(5)基于人臉圖像比對的身份驗證:即人臉確認問題。系統在輸入人臉圖像的同時輸入一個用戶宣稱的該人臉的身份信息,系統要對該輸入人臉圖像的身份與宣稱的身份是否相符作出判斷。
三、人臉識別技術現狀及發展前景
自1995年以來,國外一些公司看準了人臉識別系統廣闊的應用前景,動用了大量人力和物力,自己獨立研發或與高校合作,開發了多個實用的人臉識別系統,例如:加拿大Imagis公司的ID-2000面部識別軟件,美國Identix公司1的FaceIt人臉識別系統,德國Human Scan公司的BioID身份識別系統,德國Cognitec Systems公司的Face VACS人臉識別系統等;美國A4vision公司的3D人臉識別產品;等等。
國內相關領域較為出名的公司有上海銀晨智能識別科技有限公司(IS'vision),他們與中科院計算所聯合開發了會議代表身份認證/識別系統、嫌疑人面像比對系統、面像識別考勤/門禁系統、出人口黑名單監控系統等多種自動人臉識別應用系統。2008年,北京奧運會開幕式正式使用了中國自主知識產權的人臉識別比對系統;2010年4月1日起,國際民航組織(ICAO)已確定其118個成員國家和地區必須使用機讀護照,人臉識別技術是首推識別模式,該規定已經成為國際標準;2011年,Face book初次引入人臉識別技術,登陸人員可以免信息驗證而激活頁面;2012年3月6日,江蘇省公安廳與南京理工大學日前簽約共建“社會公共安全重點實驗室”,開展“人臉識別”技術相關領域項目攻關。
到目前為止,雖然有關自動人臉識別的研究已經取得了一些可喜的成果,但在實際應用環境下仍面臨著許多難以解決的問題:人臉的非剛體,表情、姿態、發型和化妝的多樣性以及環境光照的復雜性都給正確的人臉識別帶來了很大的困難。即使在大量來自模式識別、計算機視覺、生理學、心理學、神經認知科學等領域的研究人員對自動人臉識別艱苦工作40余年之后,其中不少問題至今仍然困繞著研究人員,始終找不到完善的解決辦法。
在人臉識別市場,特別是在中國的市場,正經歷著迅速的發展,而且發展的腳步也將越來越快。主要有三大原因:
1.是科技界和社會各個領域都認識到人臉識別技術的重要性,國家政策對人臉識別技術研究給予了很大支持,使得我國人臉識別技術取得了很大進展。國際上,美國國家標準技術局(NIST)舉辦的Face Recognition Vendor Test 2006(FRVT2006)通過大規模的人臉數據測試表明,當今世界上人臉識別方法的識別精度比2002年的FRVT2002至少提高了一個數量級(10倍)。其中一些方法的識別精度已經超過人類的平均水平。而對于高清晰、高質量人臉圖像識別,機器的識別精度幾乎達到100%。
2.各種應用需求不斷出現。人臉識別市場的快速發展一方面歸功于生物識別需求的多元化,另一方面則是由于人臉識別技術的進步。從需求上來說,除了傳統的公司考勤、門禁等應用外,視頻監控環境下的身份識別正成為一種迫切的需求,即在一個較復雜的場景中,在較遠的距離上識別出特定人的身份,這顯然是指紋識別的方法不能滿足的,而人臉識別卻是一個極佳的選擇。
3.人口基數因素。人臉識別系統的市場大小,很大程度上是和人口的數量大小相關的。而我國有13億人口,這從本質上說明了我國是世界上規模最大的生物識別市場。
四、常用的人臉識別方法
人臉識別技術和方法可分為兩大類:基于幾何特征的方法和基于模板匹配的方法?;趲缀翁卣鞣椒ǖ乃枷胧鞘紫葯z測出嘴巴,鼻子,眼睛,眉毛等臉部主要部分的位置和大小,然后利用這些部件的總體幾何分布關系以及相互之間的參數比例來識別人臉?;谀0宓姆椒ㄊ抢媚0搴驼麄€人臉圖像的像素值之間的自相關性進行識別,這種方法也叫做基于表象的方法。
本文主要分析了常用的人臉識別方法為:幾何特征的方法、模型的方法、神經網絡的方法和多分類器集成方法。
1.幾何特征的方法
最早的人臉識別方法就是Bledsoe提出的基于幾何特征的方法,這種方法以面部特征點之間的距離和比率作為特征通過最近鄰方法來識別人臉。該方法建立的人臉識別系統是一個半自動系統,其面部特征點必須由人手工定位,也正是由于人工的參與,該系統對光照變化和姿態變化不敏感。
Kanade首先計算眼角、鼻孔、嘴巴、下巴等面部特征之間的距離和它們之間的角度以及其它幾何關系然后通過這些幾何關系進行人臉的識別工作在一個20人的數據庫上識別率為45%一75%。
Brunelli和Poggio通過計算鼻子的寬度和長度、嘴巴位置和下巴形狀等進行識別,在一個47人的人臉庫上的識別率為90%.然而,簡單模板匹配方法在同一人臉庫上的識別率為100%。
基于幾何特征的方法比較直觀,識別速度快,內存要求較少,提取的特征在一定程度上對光照變化不太敏感。但是,當人臉具有一定的表情或者姿態變化時,特征提取不精確,而且由于忽略了整個圖像的很多細節信息且識別率較低,所以近年來已經很少有新的發展。
2.模型的方法
隱馬爾可夫模型,是一種常用的模型,原HMM的方法首先被用于聲音識別等身份識別上,之后被Nefian和Hayrs引人到人臉識別領域。它是用于描述信號統計特性的一組統計模型。
在人臉識別過程中,首先抽取人臉特征,得到后觀察向量,構建HMM人臉模型,然后用EM算法訓練利用該模型就可以算出每個待識別人臉觀察向量的概率,從而完成識別,HMM方法的魯棒性較好,對表情、姿態變化不太敏感,識別率高。
3.神經網絡的方法
神經網絡在人臉識別領域有很長的應用歷史,1994年就出現了神經網絡用于人臉處理的綜述性文章。
動態鏈接結構(DLA)是用于人臉識別系統中最有影響的神經網絡方法。DLA試圖解決傳統的神經網絡中一些概念性問題,其中最突出的是網絡中語法關系的表達。DLA利用突觸的可塑性將神經元集合劃分成若干個結構,同時保留了神經網絡的優點。
自組織映射神經網絡(SOM)與卷積神經網絡相結合的混合神經網絡方法進行人臉識別。SOM實現對圖像的采樣向量降維,且對圖像樣本的小幅度變形不敏感。卷積網絡用來實現相鄰像素間的相關性知識,在一定程度對圖象的平移、旋轉、尺度和局部變形也都不敏感。
神經網絡方法較其他人臉識別方法有著特有的優勢,通過對神經網絡的訓練可以獲得其他方法難以實現的關于人臉圖像的規則和特征的隱性表示,避免了復雜的特征抽取工作,并有利于硬件的實現。缺點主要在于其方法的可解釋性較弱,且要求多張人臉圖像作為訓練集,所以只適合于小型人臉庫。
4.多分類器集成方法
人臉的表象會因為光照方向、姿態、表情變化而產生較大的變化,每種特定的識別器只對其中一部分變化比較敏感,因此,將可以整合互補信息的多個分類器集成能夠提高整個系統的分類準確率。
Gutta等人提出將集成的RBF與決策樹結合起來進行人臉識別。結合了全局的模板匹配和離散特征的優點,在一個350人的人臉庫上測試,取得了較好的實驗結果。
五、總結及展望
隨著圖像處理、模式識別、人工智能以及生物心理學的研究進展,人臉識別技術也將會獲得更大的發展。面對這種高新技術,人臉識別技術有著不可代替的優點。近幾年對三維模型的人臉識別研究以成為一個熱點。從二維模型到三維模型是一個階躍性的發展,中間必須克服三維模型的開銷大,所占空間大等因素。因此如何增強這類系統的保密性將是人臉識別系統要考慮的問題,它將是這種識別系統投入使用后人們最關心的問題,同時也是人臉識別領域需要研究的新課題。我們期待在不久的將來,人們將告別鑰匙,迎來人臉開門的新時代。
參考文獻
[1]李武軍,王崇駿,張煒,等.人臉識別研究綜述[J].模擬識別與人工智能,2006,19(1):58-65.
[2]李子青.人臉識別技術應用及市場分析[J].中國安防,2007,8:42-46.
[3]柴秀娟,山世光,卿來云,等.基于3D人臉重建的光照、姿態不變人臉識別[J] .軟件學報,2006,17(3):525-534.
卷積神經網絡優勢范文4
前 言
雖然目前公眾媒體將無線通信炒的很熱,但這個領域從1897年馬可尼成功演示無線電波開始,已經有超過一百年的歷史。到1901年就實現了跨大西洋的無線接收,表明無線通信技術曾經有過一段快速發展時期。在之后的幾十年中,眾多的無線通信系統生生滅滅。
20世紀80年代以來,全球范圍內移動無線通信得到了前所未有的發展,與第三代移動通信系統(3g)相比,未來移動通信系統的目標是,能在任何時間、任何地點、向任何人提供快速可靠的通信服務。因此,未來無線移動通信系統應具有高的數據傳輸速度、高的頻譜利用率、低功耗、靈活的業務支撐能力等。但無線通信是基于電磁波在自由空間的傳播來實現信息傳輸的。信號在無線信道中傳輸時,無線頻率資源受限、傳輸衰減、多徑傳播引起的頻域選擇性衰落、多普勒頻移引起的時間選擇性衰落以及角度擴展引起的空間選擇性衰落等都使得無線鏈路的傳輸性能差。和有線通信相比,無線通信主要由兩個新的問題。一是通信行道經常是隨時間變化的,二是多個用戶之間常常存在干擾。無線通信技術還需要克服時變性和干擾本文由收集由于這個原因,無線通信中的信道建模以及調制編碼方式都有所不同。
1.無線數字通信中盲源分離技術分析
盲源分離(bss:blind source separation),是信號處理中一個傳統而又極具挑戰性的問題,bss指僅從若干觀測到的混合信號中恢復出無法直接觀測的各個原始信號的過程,這里的“盲”,指源信號不可測,混合系統特性事先未知這兩個方面。在科學研究和工程應用中,很多觀測信號都可以看成是多個源信號的混合,所謂“雞尾酒會”問題就是個典型的例子。其中獨立分量分析ica(independent component analysis)是一種盲源信號分離方法,它已成為陣列信號處理和數據分析的有力工具,而bss比ica適用范圍更寬。目前國內對盲信號分離問題的研究,在理論和應用方面取得了很大的進步,但是還有很多的問題有待進一步研究和解決。盲源分離是指在信號的理論模型和源信號無法精確獲知的情況下,如何從混迭信號(觀測信號)中分離出各源信號的過程。盲源分離和盲辨識是盲信號處理的兩大類型。盲源分離的目的是求得源信號的最佳估計,盲辨識的目的是求得傳輸通道混合矩陣。盲源信號分離是一種功能強大的信號處理方法,在生物醫學信號處理,陣列信號處理,語音信號識別,圖像處理及移動通信等領域得到了廣泛的應用。
根據源信號在傳輸信道中的混合方式不同,盲源分離算法分為以下三種模型:線性瞬時混合模型、線性卷積混合模型以及非線性混合模型。
1.1 線性瞬時混合盲源分離
線性瞬時混合盲源分離技術是一項產生、研究最早,最為簡單,理論較為完善,算法種類多的一種盲源分離技術,該技術的分離效果、分離性能會受到信噪比的影響。盲源分離理論是由雞尾酒會效應而被人們提出的,雞尾酒會效應指的是雞尾酒會上,有音樂聲、談話聲、腳步 聲、酒杯餐具的碰撞聲等,當某人的注意集中于欣賞音樂或別人的談話,對周圍的嘈雜聲音充耳不聞時,若在另一處有人提到他的名字,他會立即有所反應,或者朝 說話人望去,或者注意說話人下面說的話等。該效應實際上是聽覺系統的一種適應能力。當盲源分離理論提出后很快就形成了線性瞬時混合模型。線性瞬時混合盲源分離技術是對線性無記憶系統的反應,它是將n個源信號在線性瞬時取值混合后,由多個傳感器進行接收的分離模型。
20世紀八、九十年代是盲源技術迅猛發展的時期,在1986年由法國和美國學者共同完了將兩個相互獨立的源信號進行混合后實現盲源分離的工作,這一工作的成功開啟了盲源分離技術的發展和完善。在隨后的數十年里對盲源技術的研究和創新不斷加深,在基礎理論的下不斷有新的算法被提出和運用,但先前的算法不能夠完成對兩個以上源信號的分離;之后在1991年,法國學者首次將神經網絡技術應用到盲源分離問題當中,為盲源分離提出了一個比較完整的數學框架。到了1995年在神經網絡技術基礎上盲源分離技術有了突破性的進展,一種最大化的隨機梯度學習算法可以做到同時分辨出10人的語音,大大推動了盲源分離技術的發展進程。
1.2 線性卷積混合盲源分離
相比瞬時混合盲源分離模型來說,卷積混合盲源分離模型更加復雜。在線性瞬時混合盲源分離技術不斷發展應用的同時,應用中也有無法準確估計源信號的問題出現。常見的是在通信系統中的問題,通信系統中由于移動客戶在使用過程中具有移動性,移動用戶周圍散射體會發生相對運動,或是交通工具發生的運動都會使得源信號在通信環境中出現時間延遲的現象,同時還造成信號疊加,產生多徑傳輸。正是因為這樣問題的出現,使得觀測信號成為源信號與系統沖激響應的卷積,所以研究學者將信道環境抽象成為線性卷積混合盲源分離模型。線性卷積混合盲源分離模型按照其信號處理空間域的不同可分為時域、頻域和子空間方法。
1.3 非線性混合盲源分離
非線性混合盲源分離技術是盲源分離技術中發展、研究最晚的一項,許多理論和算法都還不算成熟和完善。在衛星移動通信系統中或是麥克風錄音時,都會由于乘性噪聲、放大器飽和等因素的影響造成非線性失真。為此,就要考慮非線性混合盲源分離模型。非線性混合模型按照混合形式的不同可分為交叉非線性混合、卷積后非線性混合和線性后非線性混合模型三種類型。在最近幾年里非線性混合盲源分離技術受到社會各界的廣泛關注,特別是后非線性混合模型。目前后非線性混合盲源分離算法中主要有參數化方法、非參數化方法、高斯化方法來抵消和補償非線性特征。
2.無線通信技術中的盲源分離技術
在無線通信系統中通信信號的信號特性參數復雜多變,實現盲源分離算法主要要依據高階累積量和峭度兩類參數。如圖一所示,這是幾個常見的通信信號高階累積量。
在所有的通信系統中,接收設備處總是會出現白色或是有色的高斯噪聲,以高階累積量為準則的盲源分離技術在處理這一問題時穩定性較強,更重要的是對不可忽略的加性高斯白噪聲分離算法同時適用。因此,由高階累積量為準則的盲源分離算法在通信系統中優勢明顯。
分離的另一個判據就是峭度,它是反映某個信號概率密度函數分布情況與高斯分布的偏離程度的函數。峭度是由信號的高階累積量定義而來的,是度量信號概率密度分布非高斯性大小的量值。
卷積神經網絡優勢范文5
關鍵詞人臉識別;特征提取
1人臉識別技術概述
近年來,隨著計算機技術的迅速發展,人臉自動識別技術得到廣泛研究與開發,人臉識別成為近30年里模式識別和圖像處理中最熱門的研究主題之一。人臉識別的目的是從人臉圖像中抽取人的個性化特征,并以此來識別人的身份。一個簡單的自動人臉識別系統,包括以下4個方面的內容:
(1)人臉檢測(Detection):即從各種不同的場景中檢測出人臉的存在并確定其位置。
(2)人臉的規范化(Normalization):校正人臉在尺度、光照和旋轉等方面的變化。
(3)人臉表征(FaceRepresentation):采取某種方式表示檢測出人臉和數據庫中的已知人臉。
(4)人臉識別(Recognition):將待識別的人臉與數據庫中的已知人臉比較,得出相關信息。
2人臉識別算法的框架
人臉識別算法描述屬于典型的模式識別問題,主要有在線匹配和離線學習兩個過程組成,如圖1所示。
圖1一般人臉識別算法框架
在人臉識別中,特征的分類能力、算法復雜度和可實現性是確定特征提取法需要考慮的因素。所提取特征對最終分類結果有著決定性的影響。分類器所能實現的分辨率上限就是各類特征間最大可區分度。因此,人臉識別的實現需要綜合考慮特征選擇、特征提取和分類器設計。
3人臉識別的發展歷史及分類
人臉識別的研究已經有相當長的歷史,它的發展大致可以分為四個階段:
第一階段:人類最早的研究工作至少可追朔到二十世紀五十年代在心理學方面的研究和六十年代在工程學方面的研究。
J.S.Bruner于1954年寫下了關于心理學的Theperceptionofpeople,Bledsoe在1964年就工程學寫了FacialRecognitionProjectReport,國外有許多學校在研究人臉識別技術[1],其中有從感知和心理學角度探索人類識別人臉機理的,如美國TexasatDallas大學的Abdi和Tool小組[2、3],由Stirling大學的Bruce教授和Glasgow大學的Burton教授合作領導的小組等[3];也有從視覺機理角度進行研究的,如英國的Graw小組[4、5]和荷蘭Groningen大學的Petkov小組[6]等。
第二階段:關于人臉的機器識別研究開始于二十世紀七十年代。
Allen和Parke為代表,主要研究人臉識別所需要的面部特征。研究者用計算機實現了較高質量的人臉灰度圖模型。這一階段工作的特點是識別過程全部依賴于操作人員,不是一種可以完成自動識別的系統。
第三階段:人機交互式識別階段。
Harmon和Lesk用幾何特征參數來表示人臉正面圖像。他們采用多維特征矢量表示人臉面部特征,并設計了基于這一特征表示法的識別系統。Kaya和Kobayashi則采用了統計識別方法,用歐氏距離來表征人臉特征。但這類方法需要利用操作員的某些先驗知識,仍然擺脫不了人的干預。
第四階段:20世紀90年代以來,隨著高性能計算機的出現,人臉識別方法有了重大突破,才進入了真正的機器自動識別階段。在用靜態圖像或視頻圖像做人臉識別的領域中,國際上形成了以下幾類主要的人臉識別方法:
1)基于幾何特征的人臉識別方法
基于幾何特征的方法是早期的人臉識別方法之一[7]。常采用的幾何特征有人臉的五官如眼睛、鼻子、嘴巴等的局部形狀特征。臉型特征以及五官在臉上分布的幾何特征。提取特征時往往要用到人臉結構的一些先驗知識。識別所采用的幾何特征是以人臉器官的形狀和幾何關系為基礎的特征矢量,本質上是特征矢量之間的匹配,其分量通常包括人臉指定兩點間的歐式距離、曲率、角度等。
基于幾何特征的識別方法比較簡單、容易理解,但沒有形成統一的特征提取標準;從圖像中抽取穩定的特征較困難,特別是特征受到遮擋時;對較大的表情變化或姿態變化的魯棒性較差。
2)基于相關匹配的方法
基于相關匹配的方法包括模板匹配法和等強度線方法。
①模板匹配法:Poggio和Brunelli[10]專門比較了基于幾何特征的人臉識別方法和基于模板匹配的人臉識別方法,并得出結論:基于幾何特征的人臉識別方法具有識別速度快和內存要求小的優點,但在識別率上模板匹配要優于基于幾何特征的識別方法。
②等強度線法:等強度線利用灰度圖像的多級灰度值的等強度線作為特征進行兩幅人臉圖像的匹配識別。等強度曲線反映了人臉的凸凹信息。這些等強度線法必須在背景與頭發均為黑色,表面光照均勻的前提下才能求出符合人臉真實形狀的等強度線。
3)基于子空間方法
常用的線性子空間方法有:本征子空間、區別子空間、獨立分量子空間等。此外,還有局部特征分析法、因子分析法等。這些方法也分別被擴展到混合線性子空間和非線性子空間。
Turk等[11]采用本征臉(Eigenfaces)方法實現人臉識別。由于每個本征矢量的圖像形式類似于人臉,所以稱本征臉。對原始圖像和重構圖像的差分圖像再次進行K-L變換,得到二階本征空間,又稱二階本征臉[12]。Pentland等[13]提出對于眼、鼻和嘴等特征分別建立一個本征子空間,并聯合本征臉子空間的方法獲得了好的識別結果。Shan等[14]采用特定人的本征空間法獲得了好于本征臉方法的識別結果。Albert等[15]提出了TPCA(TopologicalPCA)方法,識別率有所提高。Penev等[16]提出的局部特征分析(LFALocalFeatureAnalysis)法的識別效果好于本征臉方法。當每個人有多個樣本圖像時,本征空間法沒有考慮樣本類別間的信息,因此,基于線性區別分析(LDALinearDiscriminantAnalysis),Belhumeur等[17]提出了Fisherfaces方法,獲得了較好的識別結果。Bartlett等[18]采用獨立分量分析(ICA,IndependentComponentAnalysis)的方法識別人臉,獲得了比PCA方法更好的識別效果。
4)基于統計的識別方法
該類方法包括有:KL算法、奇異值分解(SVD)、隱馬爾可夫(HMM)法。
①KL變換:將人臉圖像按行(列)展開所形成的一個高維向量看作是一種隨機向量,因此采用K-L變換獲得其正交K-L基底,對應其中較大特征值基底具有與人臉相似的形狀。國外,在用靜態圖像或視頻圖像做人臉識別的領域中,比較有影響的有MIT的Media實驗室的Pentland小組,他們主要是用基于KL變換的本征空間的特征提取法,名為“本征臉(Eigenface)[19]。
②隱馬爾可夫模型:劍橋大學的Samaria和Fallside[20]對多個樣本圖像的空間序列訓練出一個HMM模型,它的參數就是特征值;基于人臉從上到下、從左到右的結構特征;Samatia等[21]首先將1-DHMM和2-DPseudoHMM用于人臉識別。Kohir等[22]采用低頻DCT系數作為觀察矢量獲得了好的識別效果,如圖2(a)所示。Eickeler等[23]采用2-DPseudoHMM識別DCT壓縮的JPEG圖像中的人臉圖像;Nefian等采用嵌入式HMM識別人臉[24],如圖2(b)所示。后來集成coupledHMM和HMM通過對超狀態和各嵌入狀態采用不同的模型構成混合系統結構[25]。
基于HMM的人臉識別方法具有以下優點:第一,能夠允許人臉有表情變化,較大的頭部轉動;第二,擴容性好.即增加新樣本不需要對所有的樣本進行訓練;第三,較高的識別率。
(a)(b)
圖2(a)人臉圖像的1-DHMM(b)嵌入式隱馬爾科夫模型
5)基于神經網絡的方法
Gutta等[26]提出了混合神經網絡、Lawrence等[27]通過一個多級的SOM實現樣本的聚類,將卷積神經網絡CNN用于人臉識別、Lin等[28]采用基于概率決策的神經網絡方法、Demers等[29]提出采用主元神經網絡方法提取人臉圖像特征,用自相關神經網絡進一步壓縮特征,最后采用一個MLP來實現人臉識別。Er等[30]采用PCA進行維數壓縮,再用LDA抽取特征,然后基于RBF進行人臉識別。Haddadnia等[31]基于PZMI特征,并采用混合學習算法的RBF神經網絡進行人臉識別。神經網絡的優勢是通過學習的過程獲得對這些規律和規則的隱性表達,它的適應性較強。
6)彈性圖匹配方法
Lades等提出采用動態鏈接結構(DLA,DynamicLinkArchitecture)[32]的方法識別人臉。它將人臉用格狀的稀疏圖如圖3所示。
圖3人臉識別的彈性匹配方法
圖3中的節點用圖像位置的Gabor小波分解得到的特征向量標記,圖的邊用連接節點的距離向量標記。Wiskott等人使用彈性圖匹配方法,準確率達到97.3%。Wiskott等[33]將人臉特征上的一些點作為基準點,構成彈性圖。采用每個基準點存儲一串具有代表性的特征矢量,減少了系統的存儲量。Wurtz等[34]只使用人臉ICI部的特征,進一步消除了結構中的冗余信息和背景信息,并使用一個多層的分級結構。Grudin等[35]也采用分級結構的彈性圖,通過去除了一些冗余節點,形成稀疏的人臉描述結構。另一種方法是,Nastar等[36]提出將人臉圖像I(x,y)表示為可變形的3D網格表(x,y,I(x,y)),將人臉匹配問題轉換為曲面匹配問題,利用有限分析的方法進行曲面變形,根據兩幅圖像之間變形匹配的程度識別人臉。
7)幾種混合方法的有效性
(1)K-L投影和奇異值分解(SVD)相融合的分類判別方法。
K-L變換的核心過程是計算特征值和特征向量。而圖像的奇異值具有良好的穩定性,當圖像有小的擾動時,奇異值的變化不大。奇異值表示了圖像的代數特征,在某種程度上,SVD特征同時擁有代數與幾何兩方面的不變性。利用K-L投影后的主分量特征向量與SVD特征向量對人臉進行識別,提高識別的準確性[37]。
(2)HMM和奇異值分解相融合的分類判別方法。
采用奇異值分解方法進行特征提取,一般是把一幅圖像(長為H)看成一個N×M的矩陣,求取其奇異值作為人臉識別的特征。在這里我們采用采樣窗對同一幅圖片進行重疊采樣(如圖4),對采樣所得到的矩陣分別求其對應的前k個最大的奇異值,分別對每一組奇異值進行矢量標準化和矢量重新排序,把這些處理后的奇異值按采樣順序組成一組向量,這組向量是惟一的[38]。
圖4采樣窗采樣
綜合上述論文中的實驗數據表明[39],如表1:
表1人臉識別算法比較
8)基于三維模型的方法
該類方法一般先在圖像上檢測出與通用模型頂點對應的特征點,然后根據特征點調節通用模型,最后通過紋理映射得到特定人臉的3D模型。Tibbalds[40]基于結構光源和立體視覺理論,通過攝像機獲取立體圖像,根據圖像特征點之間匹配構造人臉的三維表面,如圖5所示。
圖5三維人臉表面模型圖6合成的不同姿態和光照條件下二維人臉表面模型
Zhao[41]提出了一個新的SSFS(SymetricShape-from-Shading)理論來處理像人臉這類對稱對象的識別問題,基于SSFS理論和一個一般的三維人臉模型來解決光照變化問題,通過基于SFS的視圖合成技術解決人臉姿態問題,針對不同姿態和光照條件合成的三維人臉模型如圖6所示。
三維圖像有三種建模方法:基于圖像特征的方法[42、43]、基于幾何[44]、基于模型可變參數的方法[45]。其中,基于模型可變參數的方法與基于圖像特征的方法的最大區別在于:后者在人臉姿態每變化一次后,需要重新搜索特征點的坐標,而前者只需調整3D變形模型的參數。三維重建的系統框圖,如圖7所示。
圖7三維建模的系統框圖
三維人臉建模、待識別人臉的姿態估計和識別匹配算法的選取是實現三維人臉識別的關鍵技術。隨著采用三維圖像識別人臉技術的發展,利用直線的三維圖像信息進行人臉識別已經成為人們研究的重心。
4總結與展望
人臉自動識別技術已取得了巨大的成就,隨著科技的發展,在實際應用中仍然面臨困難,不僅要達到準確、快速的檢測并分割出人臉部分,而且要有效的變化補償、特征描述、準確的分類的效果,還需要注重和提高以下幾個方面:
(1)人臉的局部和整體信息的相互結合能有效地描述人臉的特征,基于混合模型的方法值得進一步深入研究,以便能準確描述復雜的人臉模式分布。
(2)多特征融合和多分類器融合的方法也是改善識別性能的一個手段。
(3)由于人臉為非剛體性,人臉之間的相似性以及各種變化因素的影響,準確的人臉識別仍較困難。為了滿足自動人臉識別技術具有實時要求,在必要時需要研究人臉與指紋、虹膜、語音等識別技術的融合方法。
(4)3D形變模型可以處理多種變化因素,具有很好的發展前景。已有研究也表明,對各種變化因素采用模擬或補償的方法具有較好的效果。三維人臉識別算法的選取還處于探索階段,需要在原有傳統識別算法的基礎上改進和創新。
(5)表面紋理識別算法是一種最新的算法[52],有待于我們繼續學習和研究出更好的方法。
總之,人臉識別是極富挑戰性的課題僅僅采用一種現有方法難以取得良好的識別效果,如何與其它技術相結合,如何提高識別率和識別速度、減少計算量、提高魯棒性,如何采用嵌入式及硬件實現,如何實用化都是將來值得研究的。
參考文獻
[1]O''''TooleAJ,AbdiH,DeffenbacherKA,etal.Alowdimensionalrepresentationoffacesinthehigherdimensionsofspace.[J].JournaloftheOpticalSocietyof2America,1993,10:405~411
[2]張翠萍,蘇光大.人臉識別技術綜述.中國圖像圖形學報,2000,5(11):885-894
[3]A.Samal,P.A.Iyengar.Automaticrecognitionandanalysisofhumanfacesandfacialexpressions:asurvey[J].PatternRecognition,1992,25(1):65-67
[4]TurkM,PentlandA.Eigenfacesforrecognition[J].JournalofCognitiveNeuroscience,1991,3(1):71~86
[5]BartlettMS,MovellanJR,SejnowskiTJ.FaceRecognitionbyIndependentComponentAnalysis[J].IEEETrans.onNeuralNetwork,2002,13(6):1450-1464
[6]ManjunathBS,ShekharCandChellappaR.Anewapproachtoimagefeaturedetectionwithapplication[J].Patt.Recog,1996,29(4):627-640
[7]ChengY.LiuK,YangJ,etal.Humanfacerecognitionmethodbasedonthestatisticalmodelofsmallsamplesize.SPIEProc,Intell.RobotsandComputerVisionX:AlgorithmsandTechn.1991,1606:85-95
[8]NefianAVEmbeddedBayesianNetworksforFaceRecognition[A].Proceedings.IEEEInternationalConferenceonMultimediaandExpo[C]2002,2:133-136
[9]GuttaS,WechslerH.FaceRecognitionUsingHybridClassifiers[J].PatternRecognition,1997,30(4):539-553
[10]HaddadniaJ,AhmadiM,FaezKAHybridLearningRBFNeuralNetworkforHumanFaceRecognitionwithPseudoZernikeMomentInvariant[A].Proceedingsofthe2002InternationalJointConferenceonNeuralNetworks[C].2002,1:11-16
[11]M.Lades,J.C.Vorbruggen,J.Buhmann,ect.Distortioninvariantobjectrecognitioninthedynamiclinkarchitecture.IEEETrans.onComputer,1993,42(3):300-311
[12]NastarC,MoghaddamBA.FlexibleImages:MatchingandRecognitionUsingLearnedDeformations[J].ComputerVisionandImageUnderstanding,1997,65(2):179-191
[13]羊牧.基于KL投影和奇異值分解相融合人臉識別方法的研究[D].四川大學.2004,5,1
[14]白冬輝.人臉識別技術的研究與應用[D].北方工業大學.2006,5
卷積神經網絡優勢范文6
關鍵詞:語義標記;三維人臉;網格標記;隨機森林;正方形切平面描述符
DOIDOI:10.11907/rjdk.171139
中圖分類號:TP317.4
文獻標識碼:A 文章編號:1672-7800(2017)006-0189-05
0 引言
在計算機視覺與圖像領域,對于二維圖像人臉的研究(包括人臉識別、人臉檢測、人臉特征點標記等)非常多,并且取得了很大進展。特別是近幾年,隨著深度學習算法的應用,對于二維人臉的研究有了極大突破[1]。然而,相對于二維人臉,人們對三維人臉研究較少。三維人臉的研究是以人臉的三維數據為基礎,結合計算機視覺和計算機圖形學,充分利用三維人臉的深度信息和其它幾何信息,解決和克服現有二維人臉研究中面臨的光照、姿態、表情等問題[3]。三維人臉模型標記與分割是將三維人臉網格模型上的頂點進行分類,將人臉劃分為幾個區域,例如眉毛、眼睛、鼻子、嘴等。對這些區域的標記與分割對三維人臉重建、特征點定位和表情動畫等方面的研究都起著重要作用。三維人臉的研究是模式識別和圖形學領域活躍且極具潛力的研究方向之一,在影視、游戲動畫、人臉識別、虛擬現實、人機交互等方面都有著廣泛應用[2-3]。
目前,許多對三維人臉方面的研究,包括三維人臉重建、識別與跟蹤、姿態估計及特征點標記等,都是基于深度圖的方法[4-7]。Fanelli等[6-8]提出一種方法,將從深度數據估算人臉姿態表達為一個回歸問題(Regression Problem),然后利用隨機森林算法解決該問題,完成一個簡單深度特征映射到三維人臉特征點坐標、人臉旋轉角度等實值參數的學習。通過訓練數據集建立隨機森林,該數據集包括通過渲染隨機生成姿態的三維形變模型得到的5萬張640*480深度圖像。在實驗部分,對Fanelli等提出的從深度圖中提取特征的方法與本文的特征提取方法進行了對比。與文獻[6]中的方法相比,Papazov[9]提出了一個更為復雜的三角形表面patch特征,該特征是從深度圖重建成的三維點云中計算獲得的,主要包括兩部分:線下測試和線上測試。將三角形表面patch(TSP)描述符利用快速最近鄰算法(FLANN)從訓練數據中尋找最相似的表面patches。
在計算機圖形學領域,網格理解在建立和處理三維模型中起著重要作用。為了有效地理解一個網格,網格標記是關鍵步驟,它用于鑒定網格上的每個三角形屬于哪個部分,這在網格編輯、建模和變形方面都有著重要應用。Shapira等[10]利用形狀直徑函數作為分割三維模型的一個信號,通過對該信號的計算,定義一個上下文感知的距離測量,并且發現眾多目標之間的部分相似性;隨后,Sidi等[11]提出一個半監督的聯合分割方法,利用一個預定義的特征集實現對目標的預先分割,然后將預先做好的分割嵌入到一個普通空間,通過使用擴散映射獲得最終的對網格集的聯合分割。網格標記的一個關鍵問題是建立強大的特征,從而提高各類網格模型標記結果的準確性,增加泛化能力。為了解決該問題,Kalogerakis等[12]提出采用一種基于條件隨機場算法的方法來標記網格。通過對已標記的網格進行訓練,成功地學習了不同類型的分割任務;Xie等[13]提出一種三維圖形快速分割與標記的方法,用一系列特征描述法和極端學習器來訓練一個網格標記分類的神經網絡;Guo等[14]提出用深度卷積神經網絡(CNNs)從一個大的聯合幾何特征中學習網格表示方式。這個大的聯合幾何特征首先被提取出來表示每個網格三角形,利用卷積神經網絡的卷積特征,將這些特征描述符重新組織成二維特征矩陣,作為卷積神經網絡的輸入進行訓練與學習。
本文提出一種新的幾何特征描述符(正方形切平面描述符)來表示人臉模型上的頂點特征,利用隨機森林算法對三維人臉模型頂點進行訓練,實現對人臉模型上頂點的分類(屬于鼻子或是眼睛區域等),從而實現三維人臉模型的區域標記。這種新描述符并非從深度圖提取的簡單矩形區域特征,而是直接從三維人臉模型計算獲得,在人臉的姿勢、尺寸、分辨率的改變上具有一定魯棒性。因此,訓練過程是在三維人臉模型上執行的,這種數據相對于真實的深度圖數據更容易獲?。ɡ缭谖墨I[6]中使用的訓練數據)。
1 特征描述符與三維人臉區域分割
1.1 正方形切平面描述符
從一個三維人臉模型M的所有頂點上隨機選取一個種子點P,根據三維人臉模型的幾何結構,計算該種子點的法向量,此時根據一點和法向量即可確定一個切平面。確定正方形的邊長L和正方形的方向。正方形的方向(正方形局部坐標系)是根據全局坐標系下建立的正方形,通過法向量轉換而成。建立正方形局部坐標系,以便于計算三維人臉上的點到正方形的投影距離,減少程序運行時間,從而可以確定一個正方形切平面塊S。在這種情況下,根據正方形切平面塊S,可以計算出一個簡單且具有魯棒性的幾何描述符V。將正方形邊長分成K等份,正方形則細分為K2個小正方形,如圖1(a)所示。模型M上的所有點向正方形切平面塊上投影,如果投影點在正方形內,此點則肯定在K2個小正方形中的某一個正方形內,稱該點屬于該小正方形或者稱小正方形包含該點。每個小正方形的描述符是其包含所有點投影距離的平均值。考慮到人臉模型的幾何特征,有些人臉部分存在于正方形上面,有些部分則存在于正方形下面,因此每個點的投影距離有正負之分。整個正方形切平面塊的描述符V是所有小正方形描述符的簡單串聯。在實驗部分,本文將對邊長L和劃分的小正方形個數K2對分類的準確率進行對比研究。
使用每個小正方形包含所有點的平均投影距離作為描述符,使得該描述符對噪聲、數據分解和分辨率上的變化具有魯棒性,這在實驗部分有所體現。許多三維幾何特征已經在一些文章中被提出,包括Spin Images(SI)[15]、3D shape context (SC)[16]、 SHOT[17]和MeshHOG[18-19]。這些描述法都根據局部坐標系定義并且依賴于大量的平面法向量,使噪聲數據對結果產生一定影響。和以上描述法相比,本文描述符取平均投影距離,并且正方形取的足夠大,使描述法更加簡單、有效且具有魯棒性。除三維幾何特征外,許多文章也對三維模型投影生成的深度圖進行了特征選取和處理。例如,Fanelli等[6-8]在深度圖中選取patch,然后在patch中隨機選取兩個矩形框F1、F2,如圖2所示。以像素點的深度值和幾何法向量的X、Y、Z值作為隨機森林的4個特征通道,F1和F2中所有像素點某個特征通道平均值的差值作為隨機森林每棵樹節點的二元測試。二元測試定義為:
本文在實驗部分對上述特征選取方式與本文提出的正方形描述符在三維人臉區域標記上的結果進行了比較。
1.2 數據庫與人臉區域分割
訓練階段的正方形切平面描述符均取自于高分辨率的人臉網格模型,這些訓練模型由Basel Face Model (BFM)[20]生成。BFM是一個公開、可獲得的基于PCA的三維形變模型,由200個人臉對象的高分辨率三維掃描創建而成。通過從一個正態分布取樣的PCA系數,BFM能被用來生成任意數量的隨機網格人臉。此外,在所有生成的人臉網格模型上,對應頂點的索引都是一樣的。例如,在所有訓練模型上,在鼻尖的頂點有相同的索引數字,這將帶來諸多便利。對于訓練模型,只需在任意一個BFM人臉模型上進行一次人臉區域的手動標記,即可知道每個訓練模型要分割的區域上各點的索引,如每個模型鼻子區域的所有頂點索引都是一樣的。
對訓練模型進行手動分割標記(只需分割標記一次),將一個三維人臉模型分割為10個區域:左眉毛、右眉毛、左眼睛、右眼睛、左臉頰、右臉頰、鼻子、上嘴唇、下嘴唇、下巴,剩下部分屬于其它區域。如圖3所示,對三維人臉模型進行區域分割,不同的分割區域用不同顏色進行標記,每個區域包含很多三維人臉模型頂點。由于很多三維人臉模型額頭部分包含的頂點相對較少,特征信息也相對較少,所以將額頭區域劃分至其它區域。人臉模型的每個區域包含的所有頂點屬于同一類,根據上述BFM數據庫特點可知,數據庫中任何一個人臉模型每個區域包含的所有頂點索引都是一致的。
2 隨機森林算法分類標記人臉區域
2.1 隨機森林算法
分類回歸樹[21]是一個強大的工具,能夠映射復雜的輸入空間到離散或者分段連續的輸出空間。一棵樹通過分裂原始問題到更簡單、可解決的預測以實現高度非線性映射。樹上的每一個節點包含一個測試,測試的結果指導數據樣本將分到左子樹或是右子樹。在訓練期間,這些測試被選擇用來將訓練數據分組,這些分組對應著實現很好預測的簡單模型。這些模型是由訓練時到達葉子節點的被標記的數據計算而來,并且存儲于葉子節點。Breiman[22]指出雖然標準的決策樹單獨使用會產生過擬合,但許多隨機被訓練的樹有很強的泛化能力。隨機被訓練樹的隨機性包括兩方面,一是用來訓練每棵樹的訓練樣本是隨機選取的,二是每棵樹上的二元測試是從使每個節點最優的測試集中隨機選取的。這些樹的總和稱為隨機森林。本文將三維人臉模型區域的標記與分割描述為一個分類問題,并利用隨機森林算法來有效地解決它。
2.2 訓練
訓練數據集是由BFM生成的50個三維人臉模型。從每個模型上隨機取n=10 000個頂點樣本,每個頂點對應一個正方形切平面塊。本文實驗中森林由100棵樹建立而成,森林里每個樹由隨機選取的一系列塊(patch){Pi=Vfi,θi}構建而成。Vfi是從每個樣本提取的特征,即正方形切平面描述符,f是特征通道的個數,正方形劃分為K2個小正方形,f=K2。實值θi是這個樣本所屬的類別,例如鼻子區域類別設為數字1,那么鼻子區域內的頂點樣本所對應的θ=1。建立決策樹時,在每個非葉子節點上隨機生成一系列可能的二元測試,該二元測試定義為:
這里的Pi∈{L,R}是到達左子樹或右子樹節點上的樣本集合,wi是到左子樹或右子樹節點的樣本數目和到父節點樣本數目的比例,例如:wi=|Pi||P|。
2.3 測試
通過BFM生成55個三維人臉模型,其中50個人臉模型作為訓練數據,剩下5個人臉模型作為測試數據。測試數據依然取10 000個樣本點,并且知道每個樣本點屬于哪一個區域,通過測試數據計算三維人臉模型網格點分類的準確率。為了測試提出方法的有效性,研究過程中從網上下載獲取了其它三維人臉模型,對人臉模型上的所有網格點通過之前訓練好的隨機森林模型進行分類。因為其它人臉模型與BFM生成人臉模型的尺寸、坐標單位等不一致,所以本研究對這些測試模型進行了后期處理,對正方形的邊長按照模型尺寸的比例M行選取。
3 實驗
3.1 數據集與實驗環境
本文三維人臉標記與分割所用的訓練和測試三維人臉模型由BFM生成,50個模型作為訓練數據,5個模型作為測試數據。每個模型包含53 490個頂點和106 466個三角形網格,每個訓練模型選取10 000個頂點樣本。用C++和OpenGL、OpenCV等庫對三維人臉模型數據進行采樣,得到每個樣本的正方形切平面描述符。在Matlab平臺下用隨機森林算法對數據集進行訓練和測試,并對實驗結果進行可視化。
3.2 實驗結果
利用已訓練好的模型對測試數據集上三維人臉模型的所有頂點進行分類,計算頂點分類的準確率。準確率(Accuracy Rate)計算公式為:
準確率=預測正確的頂點個數(m)人臉模型上所有頂點個數(N)
根據文獻[10]提出的類似描述符參數選取以及參數優化策略,經過多次實驗,研究發現正方形邊長L和正方形劃分的小正方形數目K2兩個參數的選取對頂點分類準確率有著一定影響。實驗中選取參數L∈{60,80,100}、參數K2∈{9,16,25,36}進行對比,具體對比結果如表1、表2所示(其中表1中K2為16,表2中L為80mm)。
根據上面兩個表格,可以明顯得出,L=80mm,K2=25時頂點分類準確率最高。接下來對L=80mm,K2=25情況下的三維人臉模型區域進行標記,可視化結果如圖4所示,上邊是原始三維模型數據,下邊是標記后的結果。(a)、(b)模型標記圖是由BFM生成的三維人臉模型區域標記的結果,模型有53 490個頂點。為了驗證本文方法的一般性和對分辨率具有不變性,(c)~(e)模型標記圖是非BFM生成的其它三維人臉模型的標記結果,模型約有5 000個頂點。以上所有圖都是對三維人臉模型所有頂點進行標記的結果。
文獻[6]~[8]中提到的基于深度圖的特征提取方法(見圖1),同樣利用隨機森林算法進行了實驗,并與本文的正方形特征描述符的實驗結果進行了比較,如表3所示。將深度圖投影到96*96大小,深度圖patch所取邊長c深度圖大小的比例和正方形所取邊長與模型大小的比例相等。
由表3可得,對三維人臉模型頂點級分類和區域標記問題,本文提出的特征描述符的標記結果優于深度圖patch特征選取方法。此外,由于深度圖的一些局限性,直接對三維模型處理要比對深度圖處理更有優勢。
3.3 結果討論與分析
圖4中5個模型頂點數目、三角形面數目和頭部姿勢都不一樣,驗證了本文所提方法對于姿勢、模型尺寸和模型分辨率具有較好的魯棒性。并且其對不同的眉毛、眼睛、臉頰區域也能進行很好的區分,將左右眉毛、左右眼睛和左右臉頰用同一顏色、不同符號進行顯示。本文提出的描述符和直接對三維模型處理的方法,與在深度圖上選取特征方法相比具有一定優勢。由于手動分割人臉區域時,很難避免分割粗糙,區域交界處有的部分頂點沒有包含進去,因此在區域交界處頂點的分類誤差會相對略大,特別是嘴唇之間的部分。另外,三維人臉模型中額頭和下巴的頂點和特征相對較少,所以相較于其它區域,這兩個區域的頂點分類誤差也會略大。
4 結語
本文提出一種基于正方形切平面描述符的三維人臉區域標記方法。將這種幾何特征描述符作為選取樣本的特征,通過隨機森林算法,對三維人臉模型進行區域分類和標記。該方法可有效識別出三維人臉模型的眉毛、眼睛、鼻子、嘴巴和臉頰等區域,這對三維人臉特征點的定位及其它三維人臉方面的研究都具有重要意義。本文提出的方法對三維人臉模型頭部姿態、模型尺寸、模型分辨率具有較好的魯棒性。和基于深度圖的方法相比,本文提出的方法具有更好的泛化能力,是一種行之有效的特征提取方法。
然而,手動分割人臉區域的做法在一定程度上略顯粗糙,特征選取速度亦仍需優化。同時,本文僅對三維模型上所有頂點所屬區域進行標記,沒有將標記后的結果結合三維分割算法進行區域分割優化。如何對相關算法加以改進,將是下一步需要解決的問題。
參考文獻:
[1]SUN Y, WANG X, TANG X. Deep convolutional network cascade for facial point detection[J]. Computer Vision & Pattern Recognition,2013,9(4):3476-3483.
[2]CAO C, WENG Y, LIN S, et al. 3D shape regression for real-time facial animation[J]. Acm Transactions on Graphics, 2013, 32(4):96-96.
[3]CAO C, HOU Q, ZHOU K. Displaced dynamic expression regression for real-time facial tracking and animation[J]. Acm Transactions on Graphics, 2014, 33(4):1-10.
[4]SEEMAN E, NICKEL K, STIEFELHAGEN R. Head pose estimation using stereo vision for human-robot interaction[C].ICAFGR, 2004 Sixth IEEE International Conference on Automatic Face and Gesture Recognition. IEEE, 2004: 626-631.
[5]BREITENSTEIN M D, KUETTEL D, WEISE T, et al. Real-time face pose estimation from single range images[C]. Proc.IEEE put.Vis.Pattern Recognit, 2008:1-8.
[6]FANELLI G, GALL J, GOOL L V. Real time head pose estimation with random regression forests[C]. IEEE Conference on Computer Vision & Pattern Recognition, 2011:617-624.
[7]FANELLI G, WEISE T, GALL J, et al. Real time head pose estimation from consumer depth cameras[C].Pattern Recognition Dagm Symposium, Frankfurt/main, Germany, 2011:101-110.
[8]FANELLI G, DANTONE M, GALL J, et al. Random forests for real time 3D face analysis[J]. International Journal of Computer Vision, 2013, 101(3):437-458.
[9]PAPAZOV C, MARKS T K, JONES M. Real-time 3D head pose and facial landmark estimation from depth images using triangular surface patch features[C].IEEE Conference on Computer Vision and Pattern Recognition. 2015:4722-4730.
[10]SHAPIRA L, SHALOM S, SHAMIR A, et al. Contextual part analogies in 3D objects[J]. International Journal of Computer Vision, 2010, 89(2):309-326.
[11]SIDI O, KAICK O V, KLEIMAN Y, et al. Unsupervised co-segmentation of a set of shapes via descriptor-space spectral clustering[C].SIGGRAPH Asia Conference. 2011.
[12]KALOGERAKIS E, HERTZMANN A, SINGH K. Learning 3D mesh segmentation and labeling[J]. Acm Transactions on Graphics, 2010, 29(4):157-166.
[13]XIE Z, XU K, LIU L, et al. 3D shape segmentation and labeling via extreme learning machine[J]. Computer Graphics Forum, 2014, 33(5):85-95.
[14]GUO K, ZOU D, CHEN X. 3D mesh labeling via deep convolutional neural networks[J]. Acm Transactions on Graphics, 2015, 35(1):1-12.
[15]JOHNSON A E, HEBERT M. Using spin images for efficient object recognition in cluttered 3d scenes[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1999, 21(5):433-449.
[16]FROME A, HUBER D, KOLLURI R, et al. Recognizing objects in range data using regional point descriptors[J]. Lecture Notes in Computer Science, 2004.
[17]TOMBARI F, SALTI S, STEFANO L D. Unique signatures of histograms for local surface description[C].European Conference on Computer Vision Conference on Computer Vision. Springer-Verlag, 2010:356-369.
[18]ZAHARESCU A, BOYER E, VARANASI K, et al. Surface feature detection and description with applications to mesh matching[C]. IEEE Conference on Computer Vision & Pattern Recognition, 2009:373-380.
[19]ZAHARESCU A, BOYER E, HORAUD R. Keypoints and local descriptors of scalar functions on 2D manifolds[J]. International Journal of Computer Vision, 2012, 100(1):78-98.
[20]PAYSAN P, KNOTHE R, AMBERG B, et al. A 3D face model for pose and illumination invariant face recognition[C].IEEE International Conference on Advanced Video & Signal Based Surveillance. IEEE Computer Society, 2009:296-301.
[21]BREIMAN, LEO. Classification and regression trees[M].Classification and regression trees /. Chapman & Hall/CRC, 1984:17-23.
[22]MITCHELL. Machine learning[M]. McGraw-Hill, 2003.