前言:中文期刊網精心挑選了卷積神經網絡總結范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
卷積神經網絡總結范文1
中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2016)33-0167-04
如今在機器學習領域中,深度學習方法已經占據了相當重要的地位,通過模仿人X學習方式構造模型,在圖像、文本、語音處理方面取得了顯著成果[1]。目前應用較為廣泛的深度學習模型包含多層感知器模型(MLP)[2],卷積神經網絡模型和限制性玻爾茲曼機模型等[4]。多層感知器[2]網絡結構的神經節點一般分層排列,主要由輸入層,輸出層和一些隱層組成,同層之間的神經元節點無連接,相鄰的兩層神經元進行全連接,前一層的神經元的輸出作為后一層神經元的輸入,但本身此種算法存在著一些問題,那就是它的學習速度非常慢,其中一個原因就是由于層與層之間進行全連接,所以它所需要訓練的參數的規模是非常大的,所以對其進行改進,產生了卷積神經網絡模型。卷積神經網絡模型在圖像識別方面的應用十分廣泛[5,8,9]。從它的結構上來看,層與層之間的神經元節點采用局部連接模式,而并非MLP的全連接模型,這樣就降低了需要訓練的參數的規模。而在它卷積層中,它的每一個濾波器作為卷積核重復作用于整個輸入圖像中,對其進行卷積,而得出的結果作為輸入圖像的特征圖[6],這樣就提取出了圖像的局部特征。而由于每一個卷積濾波器共享相同的參數,這樣也就大大降低了訓練參數的時間成本。而本文,以卷積神經網絡為研究對象,在其模型的基礎上通過對其結構中卷積核也就是濾波器的大小進行調整并結合卷積核個數調整和gpu加速等已有的訓練提速方法,達到降低訓練時間并且對識別結果并無太大影響的目的。
1 卷積神經網絡
卷積神經網絡在MLP的基礎上,已經對結構進行了優化,通過層與層之間的局部連接以及權值共享等方式對要訓練的參數的進行了大幅減低。
1.1局部連接
BP神經網絡中,神經元在本層中呈線性排列狀態,層與層之間進行全連接,而在卷積神經網絡中,為了減少每層之間的可訓練參數數量,對連接方式進行了修改,相對于BP神經網絡的全連接,卷積神經網絡采取了局部連接的連接方式[7],也就是說按照某種關聯因素,本層的神經元只會與上層的部分神經元進行連接。
2.2 權值共享
在CNN中,卷積層中的卷積核也就是濾波器,重復作用在輸入圖像上,對其進行卷積,最后的輸出作為他的特征圖,由于每個濾波器共享相同的參數,所以說他們的權重矩陣以及偏置項是相同的。
我們從上圖看出,相同箭頭連線的權值是共享的,這樣在原有的局部連接的基礎上我們又降低了每層需要訓練的參數的數量。
2.3卷積過程
特征圖是通過濾波器按照特定的步長,對輸入圖像進行濾波,也就是說我們用一個線性的卷積核對輸入圖像進行卷積然后附加一個偏置項,最后對神經元進行激活。如果我們設第k層的特征圖記為[hk],權重矩陣記為[Wk],偏置項記為[bk],那么卷積過程的公式如下所示(雙曲函數tanh作為神經元的激活函數):
2.4 最大池采樣
通過了局部連接與權值共享等減少連接參數的方式卷積神經網絡中還有另外一個重要的概念那就是最大池采樣方法,它是一種非線性的采樣方法。最大池采樣法在對減少訓練參數數量的作用體現在兩個方面:
1 )它減小了來自m-1層的計算復雜度。
2 )池化的單元具有平移不變性,所以即使圖像在濾波后有小的位移,經過池化的特征依然會保持不變。
3卷積神經網絡整體構造以及減少訓練時間的方法
3.1使用GPU加速
本次論文實驗中,使用了theano庫在python環境下實現卷積神經網絡模型,在lenet手寫數字識別模型上進行改進,由于theano庫本身支持GPU加速,所以在訓練速度上實現了大幅度的提高。
3.2 數據集的預處理
本次實驗使用的兩個數據集是mnist手寫數字庫以及cifar_10庫
Mnist手寫數字庫具有60000張訓練集以及10000張測試集,圖片的像素都為28*28,而cifar_10庫是一個用于普適物體識別的數據集,它由60000張32*32像素的RGB彩色圖片構成,50000張圖片組成訓練集,10000張組成測試集。而對于cifar_10數據集來說,由于圖片都是RGB的,所以我們在進行實驗的時候,先把其轉換為灰度圖在進行存儲。由于實驗是在python環境下運行,theano函數庫進行算法支持,所以我們把數據集進行處理,此處我們對使用的數據集進行了格式化。格式化的文件包括三個list,分別是訓練數據,驗證數據和測試數據。而list中每個元素都是由圖像本身和它的相對應的標簽組成的。以mnist數據集為例,我們包含train_set,valid_set,test_set三個list,每個list中包含兩個元素,以訓練集為例,第一個元素為一個784*60000的二維矩陣,第二個元素為一個包含60000個元素的列向量,第一個元素的每一行代表一張圖片的每個像素,一共60000行,第二個元素就存儲了對相應的標簽。而我們取訓練樣本的10%作為驗證樣本,進行相同的格式化,而測試樣本為沒有經過訓練的10000張圖片。在以cifar_10數據集為實驗對象時,把其進行灰度化后,進行相同的格式化處理方式。
3.3實驗模型結構
本次實驗是在python環境下基于theano函數庫搭建好的lenet模型進行參數的調整,以達到在實驗準確度可接受情況下減少訓練時間的目的。
上圖為實驗中的基礎模型舉例說明實驗過程,首先以mnist數據集為例,我們的輸入圖像為一個28*28像素的手寫數字圖像,在第一層中我們進行了卷積處理,四個濾波器在s1層中我們得到了四張特征圖。在這里要特別的說明一下濾波器的大小問題,濾波器的大小可根據圖像像素大小和卷積神經網絡整體結構進行設置,舉例說明,假如說我們的輸入圖像為28*28像素的圖像,我們把第一層卷積層濾波器大小設置為5*5,也就是說我們用一個大小為5*5的局部滑動窗,以步長為一對整張圖像進行滑動濾波,則滑動窗會有24個不同的位置,也就是說經過卷積處理后的C1層特征圖的大小為24*24。此處的濾波器大小可進行調整,本論文希望通過對濾波器大小的調整,已達到減少訓練時間的目的,并尋找調整的理論依據。C1層的特征圖個數與卷積過程中濾波器數量相同。S1層是C1經過降采樣處理后得到的,也就是說四點經過降采樣后變為一個點,我們使用的是最大池方法,所以取這四個點的最大值,也就是說S1層圖像大小為12*12像素,具有4張特征圖。而同理S1層經過卷積處理得到C2層,此時我們濾波器的大小和個數也可以自行設置,得到的C2層有6張特征圖,C2到S2層進行降采樣處理,最后面的層由于節點個數較少,我們就用MLP方法進行全連接。
3.4實驗參數改進分析
由此可見,我們對濾波器的大小以及個數的改變,可以直接影響到卷積訓練參數的個數,從而達到減少訓練時間的目的。
從另一種角度來看,增大濾波器的大小,實際效果應該相似于縮小輸入圖像的像素大小,所以這樣我們可以預測增大濾波器的大小會減少樣本的訓練時間,但是這樣也可能會降低訓練后的分類的準確率,而濾波器的大小是如何影響訓練時間以及分類準確率的,我們通過對兩種圖片庫的實驗來進行分析。
4 實驗結果與分析
4.1以mnist手寫數字數據集作為實驗數據
我們知道卷積層可訓練參數的數字與濾波器的大小和數字有關,所以我們通過對卷積層濾波器大小的變化來尋找較為普遍的可減少訓練參數從而達到減少訓練時間的目的。在實驗記錄中,我們表格縱列記錄兩層卷積層濾波器大小,橫列分別為對已經過訓練圖像識別和對未經過訓練的驗證圖像進行識別的錯誤率,最后記錄每種濾波器大小搭配的使用時間。我們設定每次試驗都進行100次重復訓練,每次對權重矩陣進行優化。
此處我們記錄兩層濾波器大小之和作為橫坐標,比較濾波器大小與實驗之間的關系。兩層濾波器大小相加后相同的元素我們把其對應時間做平均。
4.2以cifar_10數據集作為實驗數據
同樣是以100次循環訓練進行測試,通過改變兩層中濾波器的大小來尋找減少訓練時間的設定。
此處以同樣的方法,記錄兩層濾波器大小之和作為橫坐標,比較濾波器大小與實驗之間的關系。
4.3實驗結果分析
從兩組試驗中,在不同的數據集下,我們得到了濾波器的大小與訓練時間成反比的關系,而在減少了訓練時間的同時確實增大了訓練的錯誤率。
5 總結
通過實驗結果分析表明,增大卷積層濾波器大小的方法,在此兩種數據庫的情況下,是有效減小訓練時間的方式,而在不同的數據庫對分類準確率的影響程度不同,mnist手寫數字數據庫中圖像之間的相似度非常高,所以濾波器的增大對準確率產生的負面影響較小,而ifar_10數據集中圖像之間的相似度較小,所以增大濾波器的大小對其分類結果的準確率的負面影響較大。
參考文獻:
[1]LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[2] Ruck D W, Rogers S K, Kabrisky M. Feature selection using a multilayer perceptron[J]. ]Journal of Neural Network Computing, 1990, 2(2): 40-48.
[3]LeCun Y, Bengio Y. Convolutional networks for images, speech, and time series[J]. The handbook of brain theory and neural networks, 1995, 3361(10): 1995.
[4] Larochelle H, Bengio Y. Classification using discriminative restricted Boltzmann machines[C]//Proceedings of the 25th international conference on Machine learning. ACM, 2008: 536-543.
[5]Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.
[6] Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]//European Conference on Computer Vision. Springer International Publishing, 2014: 818-833.
[7] Jarrett K, Kavukcuoglu K, Lecun Y. What is the best multi-stage architecture for object recognition?[C]//2009 IEEE 12th International Conference on Computer Vision. IEEE, 2009: 2146-2153.
卷積神經網絡總結范文2
黑科技?神經網絡是個什么鬼
說到神經網絡,很多朋友都會認為這是一個高大上的概念。從生物學角度來說,人類復雜的神經系統是由數目繁多的神經元組合而成,它們互相聯結形成神經網絡,經過對信息的分析和綜合,再通過運動神經發出控制信息,從而實現各種精密活動,如識別各種物體、學習各種知識、完成各種邏輯判斷等。
隨著人工智能技術的發展,科學家開發出人工神經網絡,它的構成原理和功能特點等方面更加接近人腦。它不是按給定的程序一步一步地執行運算,而是能夠自身適應環境、總結規律、完成某種運算、識別或過程控制。比如多倫多大學的Krizhevsky等人構造了一個超大型卷積神經網絡,有9層,共65萬個神經。第一層神經元只能識別顏色和簡單紋理,但是第五層的一些神經元可以識別出花、圓形屋頂、鍵盤、烏、黑眼圈等更為抽象豐富的物體(圖1)。因此神經網絡實際上是基于人工智能技術而形成的一種和人類神經網絡相似的網絡系統。
媲美Photoshop 神經網絡磨皮技術背后
如上所述,現在神經網絡技術發展已經非常迅猛,而且運用在各個領域。神經網絡磨皮則是指該技術在照片識別和美化方面的運用。那么它是怎樣實現對照片的美化?在Photoshop中磨皮操作是用戶先選中人臉區域,然后再使用Photoshop內置的方法實現磨皮。神經網絡磨皮原理類似,只不過這些操作是自動完成的。
首先是對照片人臉識別。要實現對照片的美容就必須先精確識別人臉,由于人臉有五官這個顯著特征,因此神經網絡磨皮技術只要通過機器對一定數量的人臉照片進行識別、讀取,然后就可以精確識別人臉。它的原理和常見的人臉識別技術類似(圖2)。
其次則是美化。在完成人臉識別后就需要對美化操作進行機器學習,以磨皮為例。因為人臉的每個年齡階段皮膚性質是不同的,為了達到更真實的磨皮效果,神經網絡磨皮是實現用戶“回到”幼年或者“穿越”到老年臉部皮膚的效果。研究人員將年齡段分類為0~18歲、19~29歲、30~39歲、40~49歲、50~59歲和60歲以上這幾個階段(圖3)。
然后準備兩個深度學習機器同時工作。兩個機器一個用來生成人臉,一個用來鑒別人臉。而且兩個機器會通過分析人臉圖像,提前學習到各年齡段人臉大概是什么樣子的。在每個年齡分組里,研究人員讓機器學習超過5000張標記過年齡的人臉圖像。通過大量的照片學習后,機器就可以學會每個年齡分組內的標簽,它可以準確知道每個人不同年齡階段的臉部特征。這樣無論你是要磨皮為年輕時的皮膚光滑、圓潤狀態,還是要變為50歲以后皺褶、粗糙的皮膚,神經磨皮都可以輕松幫助你實現。
當然學習有個通病,就是在合成過程中,機器可能會喪失掉圖片原有的識別資料(1D)。為了解決這個問題,上述介紹中的人臉鑒別機器就發揮功效了。它通過查看這個照片的識別資料是不是唯一的,如果不是的話照片則會被拒絕輸出。研究人員讓機器合成10000張從數據庫中抽取出來的人像,這些照片之前從未用來訓練機器。然后他們用開發的軟件程序來檢測訓練前后的兩張照片是否為同一個人,測試結果顯示有80%經訓練的照片都被認為和原照片是同一個人(而作為對比,用其他方法加工照片,平均測試結果只有50%)。舉個簡單例子,如果40歲的用戶將自己磨皮為20歲的樣子,如果軟件程序來檢測訓練前后的兩張照片為同一個人,那么就輸出磨皮效果,從而讓用戶可以輕松磨皮到20歲的狀態。這樣經過訓練的神經磨皮算法可以很真實地實現人臉的磨皮。
神經網絡 不H僅是磨皮
卷積神經網絡總結范文3
關鍵詞:黑白棋;人工智能;算法
中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2016)29-0198-03
1簡介
黑白棋是被稱為“設計理念”僅次于圍棋的棋類游戲。它的棋盤只有8*8大,乍一看貌似簡單,以為只要略微搜索就可以窮盡其中的路數。然而隨著探究的不斷深入,這個看似簡單的游戲卻不斷涌現出它神秘莫測的一面。
作為一名高中生,經過為數不多課余時間的努力,我所設計的黑白棋程序bwcore實力已經達到相當的水平。經測試,它在北京大學人工智能對抗平臺上戰力排行達到第一。通過與另外一些AI的測試表明,目前的bwcore可以輕易打敗國內個人編寫的程序,亦能與專業公司開發的黑白棋軟件(zebra,傷心黑白棋等)相抗衡。
本篇著重講述了bwcore是如何更好地運用各類算法,使之融入到黑白棋AI設計中,達到提高AI水平的目的。本文還對AI設計作了一定程度的研究,先是介紹了一些較基礎的算法在黑白棋AI設計中的應用,而后還探討了實現AI的一些更高級的方法,以求有所突破。
2AI設計
2.1Minimax搜索
Minimax搜索的第一要義是雙方都按照對自己最有利的決策,對盤面進行模擬。如果能夠評價某一時刻其中一方的優劣程度,則另一方走棋時就會選一種使對方優勢盡可能小的走法。如圖所示,按照這種方式模擬出井字棋所有可能的局面,所有局面就構成一棵極大極小博弈樹。
根據上述做法,不難寫出簡易MiniMax搜索的代碼。當搜索達到指定深度后,進行當前局面的分值估算。val為當前層的分值,當前層的顏色與己方相同時,使之盡可能大。
float Cmp_BW::MaxMinSearch(Map&fmap,int col,int deep)
{
if deep>target_deep Then
search_cnt++;
return Sence_Evalution
For-Each place_in_board
If place_is_availaleThen
MakeMove
ret=MaxMinSearch(board.color_other,deep+1);
UnMakeMove
if col==my_color Then
2.2剪枝c改進
Minimax算法提供了一種在博弈樹上尋求最優解的方法,但缺點很明顯。算法需要遍歷博弈樹上所有可能的情況,盡管很多時候是根本不可能的(例如一方選擇了一個明顯劣勢的位置)。通過AlphaBeta剪枝可以減少這種情況發生。如果當前結點獲得的值已經小于其父節點之前得出的值,那么就沒有繼續搜索的必要,因為按照選擇的邏輯,這個節點一定會被父節點排除在外。
經測試,搜索的節點數明顯減少,約為原來的3/4次方。
測試表明,一般人已經難以戰勝4~5層的搜索了。而把搜索深度設定為4層可以在botzone排行榜上達到約40名。
3高級搜索方法
3.1蒙特卡洛搜索
谷歌的圍棋智能AlphaGo就使用了基于蒙特卡洛樹搜索(MCTS)的搜索方式。MCTS在圍棋領域十分成功,在其他方面也有很大的借鑒意義。
蒙特卡洛搜索通過對局面的隨機模擬來獲得對各個節點搜索的關注程度,可以說在理念上很接近人的思維方式。UCT算法是蒙特卡洛搜索的一種,旨在得分未知的前提下使期望得分最大。UCT算法為每一個節點計算UCB值,每次擴展時選擇UCB最大的節點。
其中,X表示以前的收益,N表示總次數,T表示當前階段的次數。這個式子的蘊含的內容是,如果一個節點的得分很高,那么就它很值得深入研究,而一些得分較低的節點有時也會去嘗試,但次數不會很多。在極端條件下,多個選擇方案中有一個方案的值遠好于其他方案,則UCT算法的收斂速度很快。另一方面,如果所有方案得分相差不大,UCT隨著搜索次數的增加,所有節點的得分趨于穩定。
結果表明單純的UCT算法效率極高,經過很少時間就估算出精確值相近的結果。但因有時隨機選點得出結果差異大,下棋時偶爾會出現失誤。但總體而言,樸素的UCT算法的效果已經很優秀,測試過程中棋力超過前面基于MiniMax搜索的算法??梢韵胍姡绻茉赟imulation過程中加以優化,還有很大提升空間。
3.2遺傳算法
遺傳算法也是比較好的搜索方式,它通過借鑒生物界的進化規律來加強搜索。將前面的搜索局面各行列情況視為遺傳算子,搜索過程中經過交叉、變異算子,評估新算子的可靠程度,將進化較成功算子反作用于搜索,每次得出更好的搜索方法。具體過程如下:
1)隨機生成n個個體作為迭代的初始群體;
2)計算群體中每個個體的適應程度;
3)進行選擇,把適應度高的個體的基因傳遞給下一代;
4)使新生成個體的基因交叉互換;
5)對基因做一定程度的變異;
6)返回2),除非適應度達到指定水平或已經達到最大迭代次數。
經過多次迭代,適應度高(這里即勝率高)的基因將遺傳下來,最終得到高度適應的群體,即我們下一步所期望的走法。
4機器學習與增強學習
前面的幾種搜索方法比原先單純的搜索更具智能性,有更高的效率。目前為止,我們還未對局面的評估做出很好的改進。而估價函數的選取十分困難,大多依靠編寫者自己的直覺,有時為了讓某個權重來達到合適的值,還要耗費大量時間進行試驗并調節。所幸,運用機器學習的方法可以使這些問題得到較好的解決。
4.1決策樹與隨機森林
決策樹(Decision Tree)是其中一種比較簡單的做法。決策樹可用于對帶標簽數據的分類,并可以在相對短的時間得出效果良好的結果。依照數據標注的特點,決策樹的每一個分支對這些樣本進行劃分,最終使樣本按照標簽歸類。預測時,將想要預測的數據選擇相應分支找到對應的歸屬即可。
在黑白棋中,如果將黑方獲勝視為樣本中的正類,白方獲勝視為負類,棋盤上黑白棋子的位置作為樣本的標簽,就可以將對局面的評價轉化為分類問題。決策樹通過不停尋找最優分裂使數據更好地被分離。這里使用C4.5算法,通過信息熵獲得最優分裂。由于單純使用棋子的位置作為標簽信息量較大且十分復雜,容易造成一種稱為過擬合的題。將決策樹上改為隨機森林,可以避免了過擬合,節約了訓練時間。
4.2神經網絡算法
人工神經網絡是當下計算機話題最熱門的內容之一。神經網絡的種類繁多,BP神經網絡是神經網絡中最簡單的一種模型。
BP神經網絡的結構如圖,左邊為輸入層節點,右邊為輸出層節點,中間包含一個或多個隱含層。
每個神經元從其上一層獲得輸入,將輸入通過自身權值和閾值變換后施以適當激活函數,傳遞到下一次神經元。這樣的過程稱為正向傳遞(Fowed Transfer)過程。根據正向傳遞得到的網絡輸出與訓練目標比較計算當前網絡的誤差,然后向前調整各個神經元權值,就是所謂的反向傳遞(Reverse Transfer)過程。BP網絡不停通過這種方式訓練減小誤差,最終使每個訓練輸入都收斂于目標輸出。
這里使用棋盤上黑白棋子的分布作為輸入層節點,用01表示,輸出層表示輸贏棋子數。訓練結果表明,雖然目前的網絡能較好地擬合訓練集中的局面,但對于推廣與訓練集不同的輸入數據較為困難,這可能是因為當前所使用網絡的局限性。此外,BP神經網絡隱含層的層數不宜過多,否則收斂十分緩慢。使用深度學習中更高級的神經網絡如卷積神經網絡(CNN)等應該能夠得到更好的效果,但過程比較復雜,目前個人難以實現。
4.3訓練方式
學習算法需要進行訓練,一種方式是使用接近后期時搜索得出的結果,這種方式獲得樣本的準確度較高。如果按照終局搜索步數15-20步計,訓練好的AI將可以在近30步時獲取很大優勢。
//用后期對局結果作為樣本訓練
void Cmp_BW::train(int repeat)
For lxain_count
For remain_step>target_step
run_easy(map)//使用簡單方式下棋,節約時間
score=getScore(map)//獲得比分
deetree.tmin(map,score);//用樣本訓練
卷積神經網絡總結范文4
關鍵詞: 動態紋理分類; 慢特征分析; 深度學習; 堆棧降噪自動編碼網絡模型
中圖分類號: TN919?34 文獻標識碼: A 文章編號: 1004?373X(2015)06?0020?05
Dynamic texture classification method based on stacked denoising autoencoding model
WANG Cai?xia, WEI Xue?yun, WANG Biao
(School of Electronics and Information Engineering, Jiangsu University of Science and Technology, Zhenjiang 212003 China)
Abstract: To overcome the shortcomings of extracting the feature descriptors by manual operation and too high feature dimension for dynamic scene classification, a deep learning network model is proposed to extract dynamic texture features. Firstly, the slow feature analysis method is used to learn dynamic characteristics of each video sequence through before hand, and the learned feature is used as input data of deep learning to get the advanced representation of the input signal. The stacked denoising autoencoding model is selected for the deep learning network mode. SVM classification method is used for its classification. The experimental result proves that the feature dimension extracted by this method is low and can effectively describe dynamic textures.
Keywords: dynamic texture classification; slow feature analysis; deep learning; stacked denoising autoencoding model
0 引 言
動態紋理是指具有空間重復性、并隨時間變化的視覺模式,這種模式形成了一系列在時間域上具有某種不變性的圖像序列[1]。不同的動態紋理可能具有相似的外觀,但是卻具有不同的運動形式,所以表觀和運動是動態紋理特征的兩大方面。在目前的動態視頻分析系統中,最關鍵的步驟是如何提取有效的動態紋理特征描述符。在過去幾十年里,對紋理的研究大部分都集中在靜態紋理特征的研究,動態紋理的研究相對靜態紋理而言起步要晚的多。動態紋理的研究最早始于20世紀90年代初,由Nelson和Polana采用建立線性系統模型的方法對其進行研究[2],并且將視覺運動劃分為三類[3]:行為、運動事件以及動態紋理。隨后,Szummer 和 Picard提出采用時空自回歸模型(Spatio?Temporal Auto Regressive,STAR)[4]對動態紋理序列進行建模?;诠饬鞯淖R別法是目前比較流行的動態紋理識別法,因為其計算效率高,并且以一種很直觀的方式來描述圖像的局部動態紋理特征,Fazekas和Chetverikov總結出,正則性(Regulated)全局流與普通流(Normal Flow)相比,普通流可以同時包含動態特性和形狀特性[5]?;贚BP的動態紋理方法是最近幾年才提出的一種有效算法,典型的是Zhao等人提出的兩種時空域上的描述子:時空局部二值模式(Volume Local Binary Pattern,VLBP)[6]和三正交面局部二值模式(Local Binary Pattern from Three Orthogonal Planes,LBP?TOP)[7],有效地結合“運動”和“外觀”特征。2007―2008年是動態紋理研究最多的兩年,各大期刊雜志連續刊登有關動態紋理的研究文章。
本文試圖解決動態自然場景的分類問題(例如:煙火、河流、風暴、海洋、雪花等)。在計算機視覺領域,過去采用較多的是手動提取特征來表示物體運動信息(例如:HOF、基于STIP的HOG算法等),實驗表明該類方法對人體行為識別非常有效。但是由于自然環境比較復雜,動態紋理表現不穩定,易受光照、遮擋等影響,而手動選取特征非常費力,需要大量的時間進行調節,所以該類方法并不適用于動態場景分類。Theriault等人提出利用慢特征分析的方法來提取動態視頻序列的特征[8]。該方法雖然能有效表示動態紋理特征,但是其提取的特征維數較高。深度學習是機器學習研究中一個新的領域,其動機在于建立、模擬人腦進行分析學習的神經網絡,近幾年深度學習網絡模型在大尺度圖像分類問題中成功應用使得其得到越來越多人的重視。卷積神經網絡、深度置信網絡和堆棧自編碼網絡是三種典型的深度學習網絡模型,而堆棧自編碼網絡模型不僅對高維數據有很好的表示,而且采用非監督的學習模式對輸入數據進行特征提取,這對于傳統的手動提取特征。利用堆棧自編碼網絡模型對慢特征進行進一步學習,不僅能降低數據維度,而且還能提取出數據更有效的特征表示。
1 基于堆棧自編碼網絡模型的慢特征分析法
1.1 慢特征分析法
文獻[9?10]中提到,慢特征分析算法的目標是從不斷變化的輸入信號中學習不變量,即除了無意義的常值信號外,最具不變性質的信息,其實質也就是從快速變化的信號中提取緩慢變化的信號特征,這種特征是從混合信號中提取出來的源信號的高級表示,表征信號源的某些固有屬性[11]。
實驗證明,慢特征分析法在人體行為識別中有很好的描述作用,這為動態紋理分類提供了一個很好的選擇。慢特征分析算法的核心思想是相關矩陣的特征值分解,其本質是在經過非線性擴展特征空間對目標函數進行優化,尋找最優解的線性組合。
給定一個時域輸入信號序列:
[vt=v1t,v2t,…,vDtT]
目標就是學習一組映射函數:
[Sv=S1v,S2v,…,SMv]
使得輸出信號[yt=y1t,y2t,…,yMtT]的各個分量[yj=Sjvt]的變化盡可能緩慢,而且仍然保留相關的重要信息。選用時域信號一階導數的均方值來衡量輸出信號個分量的變化率:
[minSj<y?2j>t] (1)
且滿足以下條件:
(1) [<yj>t=0];
(2) [<y2j>t=1];
(3) [?j<j':<yj,yj'>t=0]。
其中:[<y>t]是[y]的時域平均值;[y?j]是[yj]的時域一階導數。這三個約束條件保證慢特征分析的輸出信號的各分量的變化率盡可能小,其中條件1和條件2確保輸出沒有無意義的常信號值,條件3確保輸出各分量之間是非相關的,且不同慢特征承載著不同信息。值得注意的是,函數[Sv]是輸入信號的瞬時函數,所以輸出結果不能看成是通過低通濾波器的結果,慢特征處理速度要比低通濾波器快很多。如圖1所示。
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t1.tif>
圖1 時域輸入信號慢特征的提取
輸出信號各分量按照變化率從小到大排列,且互不相關,其最優解問題可以看成以下公式的解特征值問題:
[Sj:<v?v?T>tSj=λjSj] (2)
求解得到的特征值按從小到大的順序排列,即[λ1≤λ2≤???≤λM],輸出信號的慢特征和最小特征值息息相關。輸入信號[vt]可以是多種模式的圖像特征(例如色彩,梯度,SIFT特征,HOG特征)。
這里采用的是v1特征[12?13],該特征對圖像有很好的表示,確保預先學習到的慢特征能達到最優。
1.2 堆棧自動編碼模型
自動編碼器模型是深度學習網絡模型之一,其盡可能復現輸入信號,捕捉代表輸入信號的主要成分。
如圖2所示,對于給定輸入信號[x],根據式(2)得到輸出[y],此過程為編碼過程:
[y=fθx=sWx+b] (3)
式中:[sx=11+θ-x];[W]是[d′×d]維權重矩陣;[b]是偏移向量。
為了驗證輸出[y]是否準確表達原輸入信號,利用式(2)對其進行重構,得到重構信號[z]。此過程為解碼/重構過程:
[gθ′y=sW′y+b′] (4)
從輸入到輸出的權值記為[θ=W,b],從輸出到輸入的權值記為[θ′=W′,b′]。逐層進行參數[θ]和[θ′]的優化,式(5)為其目標函數:
[θ?,θ′*=argminθ,θ′Lx,zLx,z=12x-z2] (5)
調整參數,使得重構誤差達到最小,因此可以得到[x]的第一層表示。
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t2.tif>
圖2 普通DA和降噪DA
降噪自動編碼器(Denoising Auto Encoder,Dae)是在自動編碼器的基礎上給訓練數據加入噪聲,編碼器需要學習去除噪聲而獲得沒有被噪聲污染的輸入信號,因此獲得輸入信號更加魯棒的表達。堆棧自動編碼模型(Sda)是將多個Dae堆疊起來形成的一種深度網絡模型。利用優化后的參數[θ]得到當前層的輸出[y](即下一層的輸入),將得到的[y]作為新一層的輸入數據,逐層進行降噪自動編碼的過程,直到到達多層神經網絡中間隱層的最后一層為止,算出該層輸出,即為輸出特征,如圖3所示。
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t3.tif>
圖3 多層神經網絡結構圖
1.3 基于Sda的慢特征分析法
基于Sda的慢特征分析方法利用慢特征分析法預先學習動態視頻序列的慢特征,將該特征作為模型輸入,進行多層降噪自動編碼網絡模型參數的學習,最后使用SVM分類器對該模型的輸出特征進行分類,具體步驟如圖4所示。
2 實 驗
2.1 實驗數據集與評估準則
實驗所用數據由10類動態場景構成(包括海灘,電梯,森林煙火,高速公路,閃電,海洋,鐵路,河流,云,街道),且每一個類別由30個250×370 pixels大小的彩序列構成。這些視頻序列全部來自于加拿大約克大學計算機視覺實驗室于2012年的YUPENN動態場景數據集[14],該數據庫主要強調的是對象和表層在短時間內場景的實時信息。如圖5所示。
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t4.tif>
圖4 基于Sda的慢特征分析步驟圖
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t5.tif>
圖5 YUPENN動態數據庫
將所有彩序列進行尺度縮放,分別放大和縮小1.2倍,1.4倍,1.6倍,并且在每一個尺度上進行旋轉,旋轉角度分別為[2°,4°,6°,-2°,-4°,-6°]。所以樣本總數為(10×30)×(6×6)=10 800個。實驗性能使用混淆矩陣(Confusion Matrix)進行衡量?;煜仃囀嵌喾诸悊栴}中常用的衡量準則,它使得分類結果一目了然并能指出錯誤預測的影響。分類矩陣通過確定預測值是否與實際值匹配,將模型中的所有事例分為不同的類別。然后會對每個類別中的所有事例進行計數,并在矩陣中顯示總計。實驗中一共有14個類別的數據集,所以最后會產生一個大小為14×14的混淆矩陣。
2.2 實驗結果與分析
實驗選用線性SVM分類器,采用Leave?One?Out 分析法進行分類。所有視頻序列全部轉換成灰度視頻進行慢特征分析,輸出大小為4 032維的慢特征向量作為Sda網絡模型的輸入數據。
2.2.1 Sda網絡模型大小
堆棧降噪自動編碼器網絡層數以及每一層的大小對輸出特征的魯棒性和SVM分類結果有重要的影響。當網絡層數不一樣時,模型學習到的特征也就不一樣,網絡層數過低,學習力度可能不夠,特征達不到最佳表示效果,網絡層數太高,可能會出現過擬合現象,隱層的大小和最后的分類結果也息息相關,所以選取不同網絡層數和隱層大小分別進行實驗,如圖6所示,選取網絡層數分別為1,2,3,隱層大小分別為500,1 000,2 000。由圖6可知,當隱層大小為500時的分類得分顯然比1 000和2 000時高很多;在隱層大小為500時,隨著網絡層數不斷增加,實驗結果不斷提升,當網絡層數由2層上升到3層時,實驗結果已經非常接近(網絡層數為2時score=95.9%,網絡層數為3時score=96.3%)??梢缘弥?,隨著網絡層數不斷增加,分類的效果逐漸提高,當網絡層數為3時,分類結果已非常接近。
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t6.tif>
圖6 不同網絡層數和隱層大小的分類結果
2.2.2 噪聲
Sdae對每一層的輸入加入噪聲,編碼器自動學習如何去除噪聲而獲得更加魯棒的動態紋理特征,因此每一層所加入的噪聲的大小對提取的特征有很大的影響。因此,選取不同大小的噪聲分別進行實驗,如圖7所示,選取噪聲大小分別為10%,15%,20%,25%,30%,35%,40%,45%,50%,固定網絡層大小為[500,500,500];由圖可知,加入噪聲對分類得分的影響呈類似拋物線形狀,對每一層輸入數據加入25%的噪聲時score=0.964為最大值。
2.2.3 混淆矩陣以及實驗與現有方法的比較
圖8為實驗最優參數所計算出的混淆矩陣,由圖可知,海灘、電梯、高速公路以及海洋的分類效果達到100%,噴泉(Fountain)的分類效果雖然最差,但也已經達到83%左右,其容易被誤分成森林火災(17%錯誤分類)。由該混淆矩陣可以得知,實驗所用方法能夠達到將近96.4%平均得分。表1是本文所用方法與現有幾個比較常用的動態紋理特征提取方法的比較,分別有HOF[15],GIST[16],Chaos[17],SFA[8]。由表格可以得知,SFA是幾個方法中效果最好的,可以達到76.7%的分類效果,而本文所用方法SFA+Sda比SFA方法提高了將近20%的分類得分,并且在每一個動態場景中分類效果總是優于其他幾種方法。
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t7.tif>
圖7 加入不同噪聲的分類結果
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t8.tif>
圖8 混淆矩陣
表1 本實驗與現有方法比較
3 結 語
本文提出一種基于多層降噪自動編碼網絡模型的動態紋理分類方法:預先學習動態視頻序列的慢特征,以此作為多層降噪自編碼網絡模型的輸入數據進行非監督的深度學習,網絡最頂層的輸出即為所提取的動態紋理特征,采用SVM分類器對該特征進行分類。本文對實驗中的各種影響參數如網絡模型的深度、每一層的大小以及加入噪聲的大小做了充分的研究,實驗證明,該方法所提取的特征對動態紋理有很好的表示作用,分類效果不錯,在動態場景分類問題中有很大的應用價值。
參考文獻
[1] DORETTO G, CHIUSO A, WU Y, et al. Dynamic textures [J]. International Journal on Computer Vision, 2003, 51(2): 91?109.
[2] NELSON R C, POLENA P. Qualitative recognition of motion using temporal texture [J]. CVGIP: Image Understanding, 1992, 56(1): 78?89.
[3] POLANA R, NELSON R. Temporal texture and activity recognition [J]. Motion?Based Recognition: Computational Imaging and Vision, 1997, 9: 87?124.
[4] SZUMMER M, PICARD R W. Temporal texture modeling [C]// Proceedings of 1996 International Conference on Image Processing. [S.l.]: [s.n.], 1996: 11?16.
[5] FAZEKAS S, CHETVERIKOV D. Normal versus complete ?ow in dynamic texture recognition a comparative study [C]// 2005 4th International Workshop on Texture Analysis and Synthesis (ICCV 2005). [S.l.]: [s.n.], 2005: 37?42.
[6] ZHAO G, PIETIK?INEN M. Dynamic texture recognition using volume local binary patterns [C]// European Conference on Computer Vision. [S.l.]: [s.n.], 2006: 165?177.
[7] PIETIK¨AINEN G Z M. Dynamic texture recognition using local binary patterns with an application to facial expression [J]. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2007, 29(6): 915?928.
[8] THERIAULT Christian, THOME Nicolas, CORD Matthieu. Dynamic scene classification: learning motion descriptors with slow features analysis [EB/OL]. [2014?09?17]. http://.
[9] FRANZIUS M, WILBERT N, WISKOTT L. Invariant object recognition with slow feature analysis [C]// ICANN 18th International Conference. Berlin: Springer?Verlag, 2008: 961?970.
[10] WISKOTT L, SEJNOWSKI T. Slow feature analysis: Unsupervised learning of invariances [J]. Neural Comput., 2002, 14: 715?770.
[11] 馬奎俊,韓彥軍,陶卿,等.基于核的慢特征分析算法[J].模式識別與人工智能,2011(2):79?84.
[12] DE VALOIS R, YUND E, HEPLER N. The orientation and direction selectivity of cells in macaque visual cortex [J]. Vision Research, 1982, 22: 531?544.
[13] HUBEL D, WIESEL T. Receptive fields of single neurons in the cat’s striate cortex [J]. Journal of Physiol, 1959, 4: 574?591.
[14] DERPANIS Konstantinos, LECCE M, DANIILIDIS K, et al. Dynamic scene understanding: the role of orientation features in space and time in scene classification [C]// International Conference on Computer Vision and Pattern Recognition. [S.l.]: [s.n.], 2012: 111?121.
[15] MARSZALEK M, LAPTEV I, SCHMID C. Actions in Context [C]// 2009 IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2009: 2?6.
卷積神經網絡總結范文5
關鍵詞:麥克風陣列,陣列信號處理,語音增強
(一)引言
在日常生活和工作中,語音通信是人與人之間互相傳遞信息溝通不可缺少的方式。近年來,雖然數據通信得到了迅速發展,但是語音通信仍然是現階段的主流,并且在通信行業中占主導地位。在語音通信中,語音信號不可避免地會受到來自周圍環境和傳輸媒介的外部噪聲、通信設備的內部噪聲及其他講話者的干擾。這些干擾共同作用,最終使聽者獲得的語音不是純凈的原始語音,而是被噪聲污染過的帶噪聲語音,嚴重影響了雙方之間的交流。
應用了陣列信號處理技術的麥克風陣列能夠充分利用語音信號的空時信息,具有靈活的波束控制、較高的空間分辨率、高的信號增益與較強的抗干擾能力等特點,逐漸成為強噪聲環境中語音增強的研究熱點。美國、德國、法國、意大利、日本、香港等國家和地區許多科學家都在開展這方面的研究工作,并且已經應用到一些實際的麥克風陣列系統中,這些應用包括視頻會議、語音識別、車載聲控系統、大型場所的記錄會議和助聽裝置等。
本文將介紹各種麥克風陣列語音增強算法的基本原理,并總結各個算法的特點及存在的局限性。
(二)常見麥克風陣列語音增強方法
1.基于固定波束形成的麥克風陣列語音增強
固定波束形成技術是最簡單最成熟的一種波束形成技術。論文大全,陣列信號處理。論文大全,陣列信號處理。1985年美國學者Flanagan提出采用延時-相加(Delay-and-Sum)波束形成方法進行麥克風陣列語音增強,該方法通過對各路麥克風接收到的信號添加合適的延時補償,使得各路輸出信號在某一方向上保持同步,使在該方向的入射信號獲得最大增益[1]。此方法易于實現,但要想獲取較高的噪聲抑制能力需要增加麥克風數目,并且對非相干噪聲沒有抑制能力,環境適應性差,因此,實際中很少單獨使用。后來出現的微分麥克風陣列(DifferentialMicrophone Arrays),超方向麥克風陣列(Superairective MicrophoneArrays)和固定頻率波束形成(Frequency-InvariantBeamformers)技術也屬于固定波束形成。
2.基于自適應波束形成器的麥克風陣列語音增強
自適應波束形成是現在廣泛使用的一類麥克風陣列語音增強方法。最早出現的自適應波束形成算法是1972年由Frost提出的線性約束最小方差(LinearlyConstrained Minimum Variance, LCMV)自適應波束形成器[2]。其基本思想是在某方向有用信號的增益一定的前提下,使陣列輸出信號的功率最小。在線性約束最小方差自適應波束形成器的基礎上,1982年Griffiths和Jim提出了廣義旁瓣消除器(GeneralizedSidelobe Canceller, GSC)[3],成為了許多算法的基本框架(圖1)。
圖1 廣義旁瓣消除器的基本結構
廣義旁瓣消除器是麥克風陣列語音增強應用最廣泛的技術,帶噪聲的語音信號同時通過自適應通道和非自適應通道,自適應通道中的阻塞矩陣將有用信號濾除后產生僅包含多通道噪聲參考信號,自適應濾波器根據這個參考信號得到噪聲估計,最后由這個被估計的噪聲抵消非自適應通道中的噪聲分量,從而得到有用的純凈語音信號。
如果噪聲源的數目比麥克風數目少,自適應波束法能得到很好的性能。但是隨著干擾數目的增加和混響的增強,自適應濾波器的降噪性能會逐漸降低。
3.基于后置濾波的麥克風陣列語音增強
1988年Zelinski將維納濾波器應用在了麥克風陣列延時—相加波束形成的輸出端,進一步提高了語音信號的降噪效果,提出了基于后置濾波的麥克風陣列語音增強方法[4](圖2)?;诤笾脼V波的方法在對非相干噪聲抑制方面,具有良好的效果,還能夠在一定程度上適應時變的聲學環境。它的基本原理是:假設各麥克風接收到的目標信號相同,接收到的噪聲信號獨立同分布,信號和噪聲不相關,根據噪聲特性,依據某一準則實時更新濾波器權系數,對所接收到數據進行濾波,從而達到語音增強的目的。
圖2 結合后置濾波的固定波束形成器
后置濾波方法存在以下不足:首先,算法的性能受到時延誤差的影響,使增強后的語音信號有一定失真。其次,該方法對方向性的強干擾抑制效果不佳。后置濾波方法極少單獨使用,常與其他方法聯合使用。文獻[5]研究了后置濾波和通用旁瓣對消器結合使用的問題。論文大全,陣列信號處理。
4.基于近場波束形成的麥克風陣列語音增強
當聲源位于麥克風陣列近場(即陣列的入射波是球面波)情況下,聲波的波前彎曲率不能被忽略,如果仍然把入射聲波作為平面波考慮,采用常規的波束形成方法來拾取語音信號,那么麥克風陣列系統輸出效果會很不理想。解決這個問題,最直接的方法就是根據聲源位置和近場聲學的特性,對入射聲波進行近場補償[6],但是這種方法需要已知聲源位置,這在實際應用中難以是滿足。由于近場聲學的復雜性,目前有關近場波束形成麥克風陣列語音增強方法的研究相對較少。
5.基于子空間的麥克風陣列語音增強
子空間方法的基本思想是計算出信號的自相關矩陣或協方差矩陣,然后對其進行奇異值分解,將帶噪聲語音信號劃分為有用信號子空間和噪聲子空間,利用有用信號子空間對信號進行重構,從而得到增強后的信號。由Asano等提出的基于相干子空間的麥克風陣列語音增強方法是一種典型的子空間方法[7]。該方法首先將語音信號劃分到不同頻帶,然后在每個頻帶再利用空間信息,進行子空間處理。
基于子空間的麥克風陣列語音增強方法雖然降噪性受噪聲場是否相關影響較小,在相干和非相干噪聲場中均有一定的消噪效果,但是由于計算量較大,實現實時處理具有一定困難。
6.基于盲源分離的麥克風陣列語音增強
在很多實際應用中,信號源情況和信道的傳遞參數都很難獲取,盲源分離技術(BlindSource Separation, BSS)就是在這種需求下提出的。盲源分離是根據輸入源信號和干擾的統計特性,從傳感器陣列接收到的混合信號中提取出各個獨立分量的過程。法國學者Herault.J和Jutten.C在信源與信道先驗條件未知的情況下,利用人工神經網絡分離出了有用信號,開創了盲源分離的先河[8]。目前為止,已有許多學者將盲源分離技術應用于麥克風陣列語音增強。論文大全,陣列信號處理。
經過二十多年來國內外學者的不斷深入研究,盲源分離技術已經取得了巨大的進步和發展,對盲信號分離問題的研究己經從瞬時混迭模型擴展成為線性卷積模型和非線性瞬時混迭模型,但是由于盲源分離仍屬一個新興的研究方向,理論上還不成熟,這類方法一般運算量大,全局收斂性和漸進穩定性有待加強,距離實際應用有一段距離。
7.其他方法
90年代以來,一些學者將各種信號處理算法與麥克風陣列技術相融合,各種語音增強算法不斷涌現,諸如倒譜分析、小波變換、神經網絡、語音模型等方法已經在語音信號處理領域得到應用。雖然這些方法從不同角度對語音增強系統的性能進行了不同程度的改善,但大多計算量龐大,不適合時變性較強的聲學環境,而且在需要實時處理的場合,對硬件的要求也將大大提高。論文大全,陣列信號處理。
近些年國內一些高校,如清華大學,大連理工大學,電子科技大學,西安電子科技大學等也做了一些關于麥克風陣列技術的研究工作,取得了一定的研究成果。張麗艷等提出一種改進的麥克風陣列倒譜域語音去混響方法,改善混響環境下的語音質量[9]。崔瑋瑋等提出一種基于一階差分麥克風陣列的實時噪聲譜估計和抵消方法,提高輸出信噪比的同時降低了計算量[10]。曾慶寧等將陣列交叉串擾信號的自適應噪聲抵消方法應用于麥克風陣列語音增強,適用于在多種噪聲環境中實時實現[11]。
(三)結論
語音信號增強是諸如智能控制、辦公自動化、多媒體消費品等領域的關鍵技術之一,將麥克風陣列技術應用于語音增強,能夠取得傳統單麥克風難以達到的增強效果。論文大全,陣列信號處理。語音信號作為一種寬帶的非平穩信號,在傳輸過程中不可避免地會受到各種噪聲的干擾,所以采用麥克風陣列系統時需滿足在一個比較寬的聲域范圍抑制各種噪聲干擾,減少語音的失真,同時也要降低系統成本和計算時間,以達到較好的實時性和實用性。在實際應用中應根據具體的使用環境的噪聲特性,設計合適的麥克風陣列結構,選擇最佳的算法及其具體的實現形式。
【參考文獻】
[1]Flanagan J L, JohnstonD J, Zahn R, et al. Computer-steered microphone arrays for sound transductionin large rooms[J]. Journal of Acoustical Society of American. 1985, 78(5).
[2]O. L. Frost. Analgorithm for linearly-constrained adaptive array processing[J]. Proc. IEEE.1972, 60(8).
[3]L. J. Griffiths, C. W.Jim. An alternative approach to linearly constrained adaptive beamforming[J].IEEE Trans. On Antennas and Propagation. 1982, 30(1).
[4]Zelinski R. A microphone array with adaptive post-filtering for noise reductionin reverberant rooms[A]. IEEE International Conference on Acoustics, Speech andSignal Processing, USA: 1988.
[5]S. Cannot and I. Cohen. Speech enhancement based on the general transfer function GSC andpostfiltering[J]. IEEE Trans. Speech and Audio Processing, 2004, 12(6).
[6]Khalil F, Jullien J P, Crilloire A. Microphone array for sound pickup inteleconference systems[J]. Audio Engineering Society, 1994, 42( 9).
[7]Asano F, Hayamizu S. Speech enhancement using css-based array processing[A].IEEE International Conference on Acoustics, Speech and Signal Processing. Germany: 1997.
[8]Jutten C and Herault J. Blind separation of sources, part I: an adaptivealgorithm based on neuromimetic architecture[J]. Signal Processing, 1991,24(l).
[9]張麗艷等.一種適用于混響環境的麥克風陣列語音增強方法[J].信號處理.2009,25(5).
[10]崔瑋瑋等.基于FDM陣列技術的雙通道語音增強方法[J].清華大學學報(自然科學版).2008,48(7).
[11]曾慶寧等.基于陣列抗串擾自適應噪聲抵消的語音增強[J].電子學報.2005,33(2).
卷積神經網絡總結范文6
關鍵詞:科學計算;大數據處理;超級計算機;模擬仿真;并行計算
1引言
在現代科學研究和工程實踐中,通常使用數學方程式來表示某些自然科學規律,產生了眾多復雜繁瑣的數學計算問題[1]?;谄胀ㄓ嬎愎ぞ邅斫鉀Q這些問題,將耗費大量人力物力,甚至無法得到準確結果。而科學計算[2],利用計算機仿真、重現、預測或探索自然世界萬物運動規律和演變特性的全過程,通過研究合理的計算方法,設計高效的并行算法,研制合適的應用程序,能準確、高效地模擬各領域研究過程,分析計算結果。然而,普通計算機的科學計算能力往往是有限的,現有的計算能力無法高效地解決某些基礎學科和工程技術部門的科學計算問題,如長期天氣預報、石油勘探、飛機整體氣動力等等。
與此同時,地震檢測儀、粒子碰撞器、天文望遠鏡以及高通量分析裝置等大型科學儀器的研制和發展[3],產生了大量非結構化或半結構化的數據,使得“大數據”趨勢變得越來越突出[4]。如今,許多科學發現和見解由大量數據集驅動,“大數據”被認為是除了實驗、理論和計算方法之外的第四種科學范式[5]。數據生成的容量、速度和多樣性構成了分析大數據的主要挑戰。
為提高科學計算能力,解決大數據問題,高性能計算(HPC)[6]技術迅猛發展。高性能計算機代表用于解決計算密集型科學和工程問題的高端計算基礎設施。我國的高性能計算早已突破每秒浮點運算千萬億次的壁壘,并繼續解決性能、可擴展性、可編程性、能效和可靠性等問題,探索新的支持技術以達到e級計算能力。
目前,高性能計算機已在多個領域得到了成功的應用[7],但仍存在大量可供多個研究機構使用的空閑節點。本文簡介了一些高性能計算機系統及其性能,針對近年來在高性能計算機上的各大領域應用實例進行總結,并對在其他領域的應用做出了展望,以促進更高效、全面地使用高性能計算機。
2高性能計算機系統概述
中國首臺千萬億次超級計算機,是“天河一號”?!疤旌右惶枴背売嬎銠C使用由中國自行研發的“龍”芯片,其峰值計算速度能夠達到1.206TFlop/s,同時Linpack實測性能達到了0.563TFlop/s,該超級計算機位居當時公布的中國超級計算機前100強之首,中國成為了繼美國之后世界上第二個能夠自主研制千萬億次超級計算機的國家。
天河一號采用6144個英特爾通用多核處理器和5120個AMD圖形加速處理器,其內存總容量98TB。至于點對點通信的帶寬就達到了40Gbps,而其用于共享的磁盤總容量則達到1PB。該超級計算機系統部署于天津濱海新區的國家超級計算天津中心作為業務主機。
2013年,由國防科學技術大學研制的“天河二號”大型超級計算機以每秒33.86千萬億次的浮點運算速度成為全球最快的超級計算機,位列國際大型超級計算機TOP500榜首。隨后,“天河二號”實現了世界最快超算“六連冠”。天河二號采用基于加速器的架構[8]。在可接受的總成本、功率預算、支持可靠性、可用性和可服務性(RAS)的能力、應用開發和移植的復雜性下提供高的計算性能。
天河二號的硬件系統由五個子系統組成,包括計算系統、通信系統、存儲系統、監控診斷系統和服務系統。它由16000個節點組成,每個節點有2顆基于IvyBridge-EXeonE52692處理器和3顆XeonPhi,每個節點的內存是64GB。所有的計算節點都通過專有的高速互連系統連接。還提供了一個服務子系統的4096個節點,以加快高吞吐量的計算任務,如大數據處理。存儲子系統包括256個I/O節點和64個容量為12.4PB的存儲服務器。天河二號文件系統命名為h2fs,采用麒麟操作系統、基于SLURM的全局資源管理。支持大多數現代編程語言,包括C、C++、Java、Python等。采用的是新型異構多態體系結構(Multipurpose-Heterogeneous)[9]。
天河二號的系統配置列于表1中。
“天河二號”集科學計算、大數據分析和云計算于一體,被認為是滿足工業和社會需求的戰略基礎設施。以超級計算機為支撐的高性能計算應用正加速向各個領域滲透。
Table1SystemindicatorsofTianhe-2
表1天河二號系統指標
width=375,height=252,dpi=110
在國內早期的高性能計算機研究中,2004年6月超級計算機曙光4000A研制成功,落戶上海超級計算中心,標志著繼美國和日本之后,中國是第三個能研制10萬億次高性能計算機的國家。曙光能夠每秒運算11萬億次,進入全球超級計算機前十名。經過十多年發展,曙光E級高性能計算機系統項目現在是國家“十三五”期間高性能計算的重點專項,其最顯著的特點是突破了制約E級計算發展的各個關鍵技術,通過這樣原型機的研制去驗證E級的技術路線,為未來真正實現國產E級系統做技術鋪墊。
width=642,height=303,dpi=110
Figure1StructureofSugon’sCPU
圖1曙光CPU結構
在2016年法蘭克福世界超算大會上,“神威·太湖之光”超級計算機系統成為新的榜首,速度較第二名“天河二號”快出近兩倍,效率提高三倍。
神威·太湖之光超級計算機由40個運算機柜和8個網絡機柜組成。每個運算機柜包含4塊由32塊運算插件組成的超節點。每個插件由4個運算節點板組成,一個運算節點板又含2塊“申威26010”高性能處理器。一臺機柜就有1024塊處理器,整臺“神威·太湖之光”共有40960塊處理器。每個單個處理器有260個核心,主板為雙節點設計,每個CPU固化的板載內存為32GBDDR3-2133。
在2018年的法蘭克福世界超算大會上,美國能源部橡樹嶺國家實驗室(ORNL)推出的新超級計算機“Summit”以每秒12.23億億次的浮點運算速度,接近每秒18.77億億次峰值速度奪冠,“神威·太湖之光”屈居第二。
3高性能計算機各大領域應用實例分析
為充分發揮高性能計算機的優勢,極大限度地滿足客戶需求,自超級計算機在中國開始發展以來,相關團隊都致力于擴展高性能計算在各個領域的利用,迎合各領域應用的計算要求,協助用戶配置應用環境,建立高效模型,設計合理并行算法,以實現各領域的科學計算和大數據處理在高性能計算機上的應用。
3.1生物計算與精準醫療
根據廣州國家超級計算中心的內部統計[10],生物醫學相關應用現在是超級計算中心的主要客戶。生物醫學研究主要包括生物大分子的結構模擬與功能建模,藥物設計與篩選,蛋白質序列分析,基因序列分析與比對,基因調控網絡的分析與建模,醫療衛生的雙數據分析及生物醫學文獻挖掘等。
生物醫學數據繁多,且一直呈指數增長。如世界最大的生物數據保存者之一,歐洲生物信息學研究所(EBI),存儲超過20PB的數據,并且最近每年的數據量都增加一倍[11]。數據源的異質性,包括基因組學、蛋白質組學、代謝組學、微陣列數據、文獻等,使其更加復雜。
針對典型類型的大數據——基因組大數據,在大數據框架(如Hadoop和Spark)的幫助下,云計算已經在大數據處理中發揮著積極作用?,F在,HPC在中國的快速發展使得以不同的方式解決基因組大數據挑戰成為可能。Yang等人[12]強調了在現代超級計算機上增強大數據支持的必要性,提出只需單個命令或單個shell腳本就能使當前的大數據應用在高性能計算機上運行,并且支持多個用戶同時處理多個任務的Orion作為高性能計算機的大數據平臺。該平臺可以根據大數據處理需求,合理分配所需的資源量,并使用HPC系統軟件棧自動建立和配置可回收的Hadoop/Spark集群。以華大基因提供的基因組學大數據作為案例研究,測試基因組分析流水線SOAPGaea的FASTQ過濾、讀取對齊、重復刪除和質量控制四個過程,證明了Orion平臺的高效性。
為更好地了解基因的精細結構、分析基因型與表現型的關系、繪制基因圖譜,DNA序列分析成為生物醫學中的重要課題[12]。
DNA序列的排序是對DNA序列分析的基礎[13]。通常先使用測序儀得到生物體基因組的一些片段,再利用計算機對片段進行denovo拼接,從而得到DNA序列的排列順序。而隨著測序儀的發展,基因組的數據量增大,分析復雜性提高,普通計算工具分析數據會消耗大量時間和空間。張峰等人[14]基于高性能計算機,使用一種新型序列拼接工具SGA(StringGraphAssernbler),對任務之間數據耦合度小的分批構建FM-Index,采用粗粒度的多進程并行;對任務之間數據耦合度較大的FM-Index合并過程,采用多線程的細粒度并行。這種多進程與多線程的混合并行策略,使用并行計算代替通信開銷,測試小規模數據時,將索引構建時間的最佳性能提高了3.06倍。葉志強等人[15]在基因組排序時,引入隨機listranking算法,基于高性能計算機,使用MPI并行實現Pregel框架的線性化步驟,利用節點之間的通信和計算能力,減少了線性化步驟時間。
SNP(單核苷酸多態性)檢測是DNA序列分析的關鍵步驟[16]。它將對齊的read、參考序列和被編排的數據庫(如數據庫SNPP)作為輸入,通過站點檢測對齊的read和引用站點的信息,生成SNP站點的列表。SNP檢測工具SoAPSNP可以用一個多星期的時間來分析一個覆蓋20倍的人類基因組。崔英博等人[17]通過重新設計SOAPSNP的關鍵數據結構以降低內存操作的開銷,設計CPU與XeonPhi協作的協調并行框架,以獲得更高的硬件利用率。并提出了一種基于讀取的窗口劃分策略(RWD),在多個節點上提高吞吐量和并行規模,開發了SOAPSNP的并行版本MSNP,在沒有任何精度損失的情況下,利用高性能計算機的一個節點實現了45倍的加速。
方翔等人[18]利用高性能計算機,構建了由基因組與轉錄組測序數據分析、蛋白質結構預測和分子動力學模擬三個功能模塊組成的生物信息平臺分析水產病原,對約氏黃桿菌等多種水生動物病原進行生物信息學分析。
從生物醫學文獻中提取有價值的信息的一種主流方法是在非結構化文本上應用文本挖掘方法。然而,大量的文獻需要分析,這對文本挖掘的處理效率提出了巨大的挑戰。彭紹亮等人[19]將針對疾病實體識別的軟件DNorm加入可高效識別基因、蛋白質、藥物、基因通路等實體關系的文本挖掘工具PWTEES流水線中,擴充了PWTEES的功能。使用LINNAEUS導入MEDLIN數據庫提供的摘要,并在個人賬戶目錄下,動態使用計算節點,編譯安裝配置了非關系型數據庫(MySQL),將大量非結構化數據(文獻)轉為結構化數據。將平時在普通服務器上需100天能完成的文本挖掘過程縮短為1小時,并利用200個進程并行挖掘7萬篇頭頸癌相關文獻中的關鍵命名實體,得到了80%以上的并行效率。Xing等人[20]開發了一個可運行的框架PARABTM,它能夠在超級計算機上實現并行文本挖掘。以GNormPlus、tmVar2.0、Dnorm三種命名實體識別任務為例,對多個數據集上PARABTM的性能進行了評價。結果表明,使用PARABTM并行處理策略中的短板匹配負載平衡算法(Short-Boardloadbalancingalgorithm),最大程度地提高了生物醫學命名實體識別的處理速度。
3.2全數字設計與制造
數字設計與制造是一種以計算機系統為中心的集成制造方法。隨著制造工廠中計算機系統數量和質量的提高,數字化趨勢迅速。越來越多的自動化工具被用于制造工廠,有必要對所有機器、工具和輸入材料進行建模、模擬和分析,以優化制造過程。而模擬能夠建模和測試一個系統行為特性,讓工程師能夠用更低耗、更快速同時更安全的方式來分析所做的設計會產生什么樣的影響。模擬的應用范圍廣泛,涵蓋了產品設計、過程設計以及企業資源安排[21]。在模擬過程中,利用超級計算機強大的計算能力,使工程師能在幾分鐘或幾小時內仿真和測試數千種設計方案。
利用數字化的方式,可以對產品進行結構力學分析、流體力學分析、電磁設計和多物理場模擬等多種計算仿真。
在計算流體力學CFD(CcomputationalFluidDynamics)領域的一大熱點研究問題就是如何在當前主流的眾核異構高性能計算機平臺上進行超大規模計算。楊梅芳等人[22]在高性能計算機的單個節點上,利用超然沖壓發動機燃燒數值模擬軟件LESAP模擬一個實際發動機燃燒化學反應和超聲速流動的問題,采用OpenMP4.0編程標準,向量化SIMD,優化數據傳輸過程,均衡基于網格塊劃分的負載技術,實現了軟件面向CPU+MIC異構平臺的移植,達到了3.07倍的性能加速比。王勇獻等人[23]面向高性能計算機探索了高階精度CFD流場數值模擬程序的高效并行性。在高性能異構并行計算平臺上進行了多個算例的數值模擬的結果顯示最大CFD規模達到1228億個網格點,共使用約59萬CPU+MIC處理器核,實現了移植后的性能大幅度提高。通過將算法移植到超級計算機進行大規模并行,能夠實現高效的流體力學分析。而文獻[24-26]都是針對空氣動力學中的具體分類利用高性能計算機進行模擬以驗證有效性的研究。利用數字化設計,能夠快速低成本地對設計性能進行分析評估。
在圖像模擬中,Metropolis光傳輸算法能夠利用雙向路徑跟蹤構建出由眼睛到光源的路徑,是MonteCarlo方法的變體。然后,使用Metropolis算法靜態計算圖像中光線的恰當的散射狀態,由一條已發現的光到眼睛的路徑,能搜索到鄰近路徑。簡單地說,Metropolis光傳輸算法能夠生成一條路徑并存儲其上的節點,同時能通過添加額外節點來調整并生成新的路徑。隨著對照片級真實感圖像的要求越來越高,為Metropolis光傳輸算法開發高效且高度可擴展的光線跟蹤器變得越來越重要。主要是渲染圖像通常需要花費大量時間,開發高效且高度可擴展的光線跟蹤器的困難來自不規則的存儲器訪問模式、光攜帶路徑的不平衡工作量以及復雜的數學模型和復雜的物理過程。Wu等人[27]提出了一種基于物理的高度可擴展的并行光線追蹤器,并在高性能計算機上進行了實現,利用多達26400個CPU內核,證明了其可擴展性,能夠從復雜的3D場景生成逼真圖像。
模擬高場非局部載流子傳輸同樣需要3DMonteCarlo模擬方法,通過適當的量子校正涵蓋散射效應,半經典的MC模擬能夠給出準確的結果。但是,MC方法中3D模擬和量子校正都需要巨大的計算資源[28],由效率出發超級計算機的計算能力就至關重要了。文獻[29]中,通過在高性能計算機上使用IntelMIC協處理器,進一步提高了之前工作中開發的3D并行的繼承MC模擬器的并行效率。
對于高性能計算機在全數字設計和制造領域的集成應用,國家超級計算廣州中心推出了天河星光云超算平臺,以云服務的方式提供CAE計算和HPC訪問,大大降低了數字設計的門檻,支持產品設計的全工作流。目前基于該平臺支撐的項目有諸如國產大飛機、高鐵等,都是國家工業生產中重要項目[30]。
3.3地球科學與環境工程
基于該應用領域,超級計算機的主要作用在于變革對自然界中諸如地理狀況、海洋、大氣等種種元素的模擬方式。以超算為平臺,不僅能模擬出地球上每個時期的狀況,甚至是對宇宙中的種種同樣能進行模擬分析,讓地球科學和環境工程的研究范圍不再限于此時此地,而是更廣闊的空間。
在宇宙學的層面,早在2015年就利用高性能計算機模擬出宇宙大爆炸后1600萬年之后至今約137億年的暗物質和中微子的演化過程,并將進一步尋找宇宙邊界的報告[31]。中微子雖然是自然界中的基本粒子之一,在宇宙大爆炸約1s后與其他等離子體物質退耦,形成看不見的宇宙背景,通過物理實驗和實際的天文觀測都無法精確測量中微子的質量。在高性能計算機平臺上,利用3萬億粒子來對宇宙中的中微子和暗物質的分布和演化進行模擬,開創了宇宙學中獨立測量中微子質量的道路。
在地球外圍層面上,大氣變化同樣是一個關注點。Xue等人[32]提出了一種基于高性能計算機的全球性大氣動態模擬的混合算法。通過使用更靈活的域分區方案來支持節點中任意數量的CPU和加速器,算法能夠充分利用超算的優良性能。當使用8664個節點,包括了近170萬個核心時,可以有效地利用節點內的三個MIC卡,對兩個IvyBridgeCPU(24個內核)實現4.35倍的加速?;诔晒Φ挠嬎?通信重疊,算法分別在弱和強縮放測試中實現了93.5%和77%的并行效率。
相較于廣袤無邊的宇宙,大部分人們對于腳下的土地更加關心。自然災害如地震、泥石流等,可能會造成巨大的生命財產損失,而地下油氣資源又是經濟社會發展所必需的,利用超級計算機去探索大地也是發展所需要的。
中石油集團開發的用于石油油氣勘探的GeoEast系統已經經過了十幾年的發展更新,在數據模型、數據共享、一體化運行模式、三維可視化、交互應用框架、地震地質建模、網絡運行環境和并行處理方面取得了多項創新與重大技術突破,是地震數據處理解釋一體化系統。目前GeoEastV3.0版本軟件總體達到國際同類軟件先進水平,為推動中國石油勘探開發領域不斷取得新成果發揮了重要作用[33]。但是,這樣的一體化系統在使用中勢必會產生大量的數據,這就對計算機的性能有了要求。因此,在GeoEast系統聞名世界的過程中,高性能計算機在幕后是功臣之一,保證了系統的順利運行,助力石油勘探工作[34]。而文獻[35]專注于地震模擬,提出了針對英特爾至強處理器的對于軟件SeisSol的優化,以適用于高性能計算機的計算環境中,通過全摩擦滑動和地震波的耦合仿真實現了空前復雜的地震模型。移植到高性能計算機的SeisSol提供近乎最佳的弱縮放,在8192個節點上達到8.6DP-PFLOPS,在所利用的整個高性能計算機上能達到18~20DP-PFLOPS,成功模擬了1992年蘭德斯地震。
3.4智慧城市云計算
城市發展經過多年的調整,已經在經濟上有了相當進展,目前從如何讓人們生活更加便捷出發,許多地區開始建設智慧城市。智慧城市(SmartCity)是指利用各種信息技術或創新意念,集成城市的組成系統服務,以提升資源運用的效率,優化城市管理和服務,進而能夠提高居民生活質量。智慧城市的發展不僅僅是對生活的改變,還能促進生產方式的轉變,解決在城市擴張及經濟高速發展中產生的一系列“城市病”問題。智慧城市,代表的是城市的智慧,由智慧,能夠衍生出智能中、知識和數字等更廣泛的內涵[36]。
迄今為止,廣州、北京、上海、寧波、無錫、深圳、武漢、佛山等國內城市已紛紛啟動“智慧城市”戰略,相關規劃、項目和活動漸次推出。高性能計算機云平臺應運而生,為智慧城市建立堅實、先進的基石。智慧城市由于其性能需求,對依賴的平臺的計算能力的要求會更高,而超算的計算能力就能為智慧城市的建設提供相當助力。在2014年,就有中國首臺千萬億次超級計算機“天河一號”在智慧城市中應用的報道,以其在天津濱海區的應用為例,“天河一號”的建筑信息領域的大數據平臺通過對建筑信息建模,實現對建筑物從規劃、設計、建造到后期物業管理理的全程數字化。此外,城市規劃、氣象預測、生物醫療、裝備制造、汽車碰撞模擬等行業,也能更多地通過“天河一號”,實現大批量數據計算、分析和存儲[37]。
而高性能計算機的持續計算速度進一步達到了億億次,所能提供的服務質量也更高,麒麟云平臺被部署在1920個節點(15個機柜),其中64個節點(兩個機框)作為云平臺控制節點,其余節點為運行虛擬機的計算節點和分布式存儲的存儲節點。為方便管理,將計算節點進行分區管理,512個節點(4個機柜)為一區,用于滿足生產環境、適配環境、測試環境需要。分布式存儲沒有分區,所有節點形成一個全局的分布式存儲池,但在使用時可按需劃分指定容量的區域供不同用途使用[38]。這種云超算服務采用麒麟安全云系統實現虛擬化技術,將虛擬機資源遠程推送給用戶使用[39]??赏ㄟ^互聯網遠程管理虛擬機資源,使高性能計算機云平臺資源能夠被更多人使用,超算的計算能力能夠更好地推動社會各個領域發展。2017年OpenStack的第15個版本中,麒麟云團隊在核心功能解決的Bug數,以及Commits的數量均進入全球前20,麒麟云的發展是非常迅速的,與開源社區緊密結合,貢獻突出[40]。
3.5材料科學與工程
在材料科學與工程的研究中,量子力學、經典動力學、統計力學是三大基礎且主要的研究方向。研究人員致力于材料參數的建模、多尺度平臺開發和新材料的設計、開發和優化。
分子動力學模擬在材料科學、生物化學和生物物理學等領域得到了廣泛的應用。分子動力學(MD)是研究分子和分子的物理運動的計算機模擬方法,它提供分子尺度上的微觀取樣?;谀芰考毣妮o助建模AMBER(AssistedModelBuildingwithEnergyRefinement)[41]是用于MD模擬的使用最廣泛的軟件包之一。然而,對于具有百萬原子級的系統的AMBERMD模擬的速度仍然需要改進。彭紹亮等人[42]在單CPU上的細粒度OpenMP并行、單節點CPU/MIC并行優化和多節點多MIC協作并行加速方面進行了改進。在高性能計算機上實現AMBER的并行加速策略,與原程序相比,實現了25~33倍的最高加速比。同時,對于計算資源的限制,分子動力學軟件GROMACS不能大規模地進行滿意的操作。Wang等人[43]提出了一種利用卸載模式加速GROMACS的方法。為了提高GROMACS的效率,提出了異步化、數據重組和數組重用等一系列方法。在這種模式下,GROMACS可以與CPU和IntelXeonPHITM多個集成內核(MIC)協處理器同時有效地配置,充分利用高性能計算機資源。
材料輻照效應(Materialirradiationeffect)是使用核能的重要關鍵之一。然而,由于高通量輻照設施和進化過程知識的缺乏,此效應的利用并不好。在高性能計算的幫助下,Hu等人[44]提出了一種新的數據結構,用于大規模并行模擬金屬材料在輻照環境下的演化?;谒岢龅臄祿Y構,開發了一種新的分子動力學軟件——CrystalMD,并在高性能計算機上進行了二兆個原子模擬,對MD輻射效應研究的模擬規模進行了擴展。
3.6其他領域
近年來,隨高性能計算的推廣,政府部門對超級計算機的重視,舊產業轉向新產業的變化及大量有高性能計算需求的企業對超級計算機的需求增大,超算人才培養初見成效[45]。在應用軟件開發等推動下,高性能計算機的適用范圍逐漸向更多領域滲透。
源于人工神經網絡的研究深度學習作為人工智能的一個新研究領域,在模仿人腦的機制來解釋如圖像、聲音和文本數據上有了很大進展。例如,卷積神經網絡(CNN)能準確地對大型圖像進行識別處理,然而CNN的訓練密集程度很高,特別是對于大型具挑戰性的任務,卷積層的參數數據量龐大。而高性能計算機的易訪問、高峰值等性能使學術界和工業界都可以輕松訪問相關平臺,并可以在合理的時間內訓練中等和較大規模的CNN。使用基于輸入展開以將其投影為矩陣乘法(Unfold+Parallel-GEMM)的算法的CAFFE、Theano、Torch7、Chainer、CNTK和TensorFlow等最先進的CNN基礎設施已可以在高性能計算機上進行部署和應用。
增強現實技術AR(AugmentedReality),將真實世界信息模擬至虛擬世界,讓人隨時產生真實感受。通過高性能計算機高效地實現算法,可以數字虛擬孕育“互聯網+”新業態,開發虛擬試衣、模擬試駕等應用項目。