前言:中文期刊網精心挑選了卷積神經網絡的發展范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
卷積神經網絡的發展范文1
中圖分類號 TP18 文獻標識碼:A 文章編號:1009-3044(2016)10-0194-03
Abstract: In this paper, the convolution neural network recognition in the leaves, and the process by convolution of image visualization. Experiments show that the neural network application identification convolution leaves a 92% recognition rate. In addition , this neural network and support vector machine comparative study can be drawn from the study , convolutional neural network in either speed or accuracy better than support vector machines, visible, convolution neural network in the leaves aspect has good application prospects.
Key words recognition leaves; SVM; convolutional neural network
1 概述
樹葉識別與分類在對于區分樹葉的種類,探索樹葉的起源,對于人類自身發展、科普具有特別重要的意義。目前的樹葉識別與分類主要由人完成,但,樹葉種類成千上萬種,面對如此龐大的樹葉世界,任何一個植物學家都不可能知道所有,樹葉的種類,這給進一步研究樹葉帶來了困難。為了解決這一問題,一些模式識別方法諸如支持向量機(Support Vector Machine,SVM)[1],K最近鄰(k-NearestNeighbor, KNN)[2]等被引入,然而,隨著大數據時代的到來,這些傳統分類算法暴露出越來越多的不足,如訓練時間過長、特征不易提取等不足。
上世紀60年代開始,學者們相繼提出了各種人工神經網絡[3]模型,其中卷積神經網絡由于其對幾何、形變、光照具有一定程度的不變形,因此被廣泛應用于圖像領域。其主要特點有:1)輸入圖像不需要預處理;2)特征提取和識別可以同時進行;3)權值共享,大大減少了需要訓練的參數數目,是訓練變得更快,適應性更強。
卷積神經網絡在國內研究才剛剛起步。LeNet-5[4]就是一種卷積神經網絡,最初用于手寫數字識別,本文研究將卷積神經網絡LeNet-5模型改進并應用于樹葉識別中。本文首先介紹一下卷積神經網絡和LeNet-5的結構,進而將其應用于樹葉識別,設計了實驗方案,用卷積神經網絡與傳統的模式識別算法支持向量機(SVM)進行比較,得出了相關結論,并對進一步研究工作進行了展望。
2人工神經網絡
人工神經網絡方面的研究很早就已開展,現在的人工神經網絡已經發展成了多領域、多學科交叉的獨立的研究領域。神經網絡中最基本的單元是神經元模型。類比生物神經元,當它“興奮”時,就會向相連的神經元發送化學物質,從而改變這些神經元的狀態。人工神經元模型如圖1所示:
上述就是一個簡單的神經元模型。在這個模型中,神經元接收來自n個其他神經元傳遞過來的輸入信號,這些信號通過帶權重的w進行傳遞,神經元接收到的總輸入值將與神經元的閾值進行比較,然后通過“激活函數”來產生輸出。
一般采用的激活函數是Sigmoid函數,如式1所示:
[σz=11+e-z] (1)
該函數圖像圖2所示:
2.1多層神經網絡
將上述的神經元按一定的層次結構連接起來,就得到了如圖3所示的多層神經網絡:
多層神經網絡具有輸入層,隱藏層和輸出層。由于每一層之間都是全連接,因此每一層的權重對整個網絡的影響都是特別重要的。在這個網絡中,采用的訓練算法是隨機梯度下降算法[5],由于每一層之間都是全連接,當訓練樣本特別大的時候,訓練需要的時間就會大大增加,由此提出了另一種神經網絡―卷積神經網絡。
2.2卷積神經網絡
卷積神經網絡(CNN)由于在圖像分類任務上取得了非常好的表現而備受人們關注。發展到今天,CNN在深度學習領域已經成為了一種非常重要的人工神經網絡。卷積神經網絡的核心在于通過建立很多的特征提取層一層一層地從圖片像素中找出關系并抽象出來,從而達到分類的目的,CNN方面比較成熟的是LeNet-5模型,如圖4所示:
在該LeNet-5模型中,一共有6層。如上圖所示,網絡輸入是一個28x28的圖像,輸出的是其識別的結果。卷積神經網絡通過多個“卷積層”和“采樣層”對輸入信號進行處理,然后在連接層中實現與輸出目標之間的映射,通過每一層卷積濾波器提取輸入的特征。例如,LeNet-5中第一個卷積層由4個特征映射構成,每個特征映射是一個24x24的神經元陣列。采樣層是基于對卷積后的“平面”進行采樣,如圖所示,在第一個采樣層中又4的12x12的特征映射,其中每個神經元與上一層中對應的特征映射的2x2鄰域相連接,并計算輸出??梢姡@種局部相關性的特征提取,由于都是連接著相同的連接權,從而大幅度減少了需要訓練的參數數目[6]。
3實驗研究
為了將LeNet-5卷積網絡用于樹葉識別并檢驗其性能,本文收集了8類樹葉的圖片,每一類有40張照片,如圖5所示的一張樹葉樣本:
本文在此基礎上改進了模型,使用了如圖6卷積神經網絡模型:
在此模型中,第一個卷積層是由6個特征映射構成,每個特征映射是一個28*28的神經元陣列,其中每個神經元負責從5*5的區域通過卷積濾波器提取局部特征,在這里我們進行了可視化分析,如圖7所示:
從圖中可以明顯地看出,卷積網絡可以很好地提取樹葉的特征。為了驗證卷積神經網絡與傳統分類算法之間的性能,本文基于Python語言,CUDA并行計算平臺,訓練同樣大小8類,一共320張的一批訓練樣本,采用交叉驗證的方法,得到了如表1所示的結論。
可見,無論是識別率上,還是訓練時間上,卷積網絡較傳統的支持向量機算法體現出更好地分類性能。
4 總結
本文從人工神經網絡出發,重點介紹了卷積神經網絡模型LeNet-5在樹葉識別上的各種研究并提取了特征且進行了可視化,并與傳統分類算法SVM進行比較。研究表明,該模型應用在樹葉識別上較傳統分類算法取得了較好的結果,對收集的樹葉達到了92%的準確率,并大大減少了訓練所需要的時間。由于卷積神經網絡有如此的優點,因此在人臉識別、語音識別、醫療識別、犯罪識別方面具有很廣泛的應用前景。
本文的研究可以歸納為探討了卷積神經網絡在樹葉識別上的效果,并對比了傳統經典圖像分類算法,取得了較好的分類精度。
然而,本文進行實驗的樣本過少,當數據集過多的時候,這個卷積神經網絡算法的可行性有待我們進一步的研究;另外,最近這幾年,又有很多不同的卷積神經網絡模型出現,我們會繼續試驗其他的神經網絡模型,力求找到更好的分類算法來解決樹葉識別的問題。
參考文獻:
[1]Bell A, Sejnowski T. An Information-Maximization Approach to Blind Separation and Blind Deconvolution[J]. Neural Computation, 1995, 7(6):1129-59.
[2]Altman N S. An Introduction to Kernel and Nearest-Neighbor Nonparametric Regression[J]. American Statistician, 1992, 46(3):175-185.
[3]Ripley B D, Hjort N L. Pattern Recognition and Neural Networks[M]. Pattern recognition and neural networks. Cambridge University Press,, 1996:233-234.
[4]Lécun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.
卷積神經網絡的發展范文2
【關鍵詞】深度神經網絡 序列到序列網絡 卷積網絡 對抗式生成網路
1 深度神經網絡起源
人工神經網絡(ArtificialNeuralNetworks,ANN)研究是人工智能領域的一個重要分支,在對生物神經網絡結構及其機制研究的基礎上,構建類似的人工神經網絡,使得機器能直接從大量訓練數據中學習規律。其研究最早可以追溯到1957年Frank Rosenblatt提出的感知機模型,他在《The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain》建立了第一個人工神經網絡數學模型,19世紀80年代末期反向傳播(Back Propagation)算法的發明更是帶來了ANN的學習熱潮,但由于理論分析難度較大,訓練方法及技巧尚不成熟,計算機運算能力還不夠強大,這個時期ANN結構較為簡單,大部分都可等價為單隱層神經網絡,主要是進行淺層學習(Shallow Learning)研究。
2006年Geoffrey Hinton在《A Fast Learning Algorithm for Deep Belief Nets》中提出了逐層貪婪預訓練(layerwise greedy pretraining),顯著提高了MNIST手寫數字識別的準確率,開創了深度學習的新方向;隨后又在《Reducing the Dimensionality of Data with Neural Networks》中提出了deep autoencoder結構,在圖像和文本降維實驗上明顯優于傳統算法,證明了深度學習的正確性。以這兩篇論文為開端,整個學術界掀起了對深度學習的研究熱潮,由于更多的網絡層數和參數個數,能夠提取更多的數據特征,獲取更好的學習效果,ANN模型的層數和規模相比之前都有了很大的提升,被稱之為深度神經網絡(Deep Neural Networks,DNN)。
2 深度神經網絡的現代應用
2010年以來,隨著理論不斷創新和運算能力的增長,DNN被應用到許多領域并取得了巨大的成功。2011年微軟和谷歌的研究員利用DNN將語音識別的錯誤率降低了20%~30%;2012年在ImageNet圖像識別挑戰賽(ILSVRC2012)中DNN更是將識別錯誤率從26%降到了15%;2016年3月DeepMind團隊研發的圍棋軟件AlphaGO以4:1的巨大優勢戰勝了世界圍棋冠軍李世石,2017年1月初AlphaGO的升級版Master以60:0的戰績擊敗了數十位中日韓圍棋高手。當前對DNN的研究主要集中在以下領域:
2.1 語音識別領域
微軟研究院語音識別專家鄧立和俞棟從2009年開始和深度學習專家Geoffery Hinton合作,并于2011年宣布推出基于DNN的識別系統,徹底改變了語音識別的原有技術框架;2012年11月,百度上線了第一款基于DNN的語音搜索系統,成為最早采用DNN技術進行商業語音服務的公司之一;2016年微軟使用循環神經網絡語言模型(Recurrent Neural Network based Language Modeling,RNN-LM)將switchboard的詞識別錯誤率降低到了6.3%。
2.2 圖像識別領域
早在1989年,YannLeCun和他的同事們就提出了卷積神經網絡(Convolution Neural Networks,CNN)結構。在之后的很長一段時間里,CNN雖然在諸如手寫數字問題上取得過世界最好的成功率,但一直沒有被廣泛應用。直到2012年10月,Geoffrey Hinton在ILSVRC2012中使用更深的CNN將錯誤率從26%降到15%,業界才重新認識到CNN在圖像識別領域上的巨大潛力;2012年谷歌宣布基于CNN使得電腦直接從一千萬張圖片中自發學會貓臉識別;2013年DNN被成功應用于一般圖片的識別和理解;2016年DeepMind團隊基于CNN研發了圍棋AI,并取得了巨大成功。
2.3 自然語言處理領域
2003年YoshuaBengio等人提出單詞嵌入(word embedding)方法將單詞映射到一個矢量空間,然后用ANN來表示N-Gram模型;2014年10月NEC美國研究院將DNN用于自然語言處理(Natural language processing,NLP)的研究工作,其研究員Ronan Collobert和Jason Weston從2008年開始采用單詞嵌入技術和多層一維卷積的結構,用于POS Tagging、Chunking、Named Entity Recognition、Semantic Role Labeling等四典型NLP問題;2014年IlyaSutskever提出了基于LSTM的序列到序列(sequence to sequence,seq2seq)網絡模型,突破了傳統網絡的定長輸入向量問題,開創了語言翻譯領域的新方向;2016年谷歌宣布推出基于DNN的翻譯系統GNMT(Google Neural Machine Translation),大幅提高了翻譯的精確度與流暢度。
3 深度神經網絡常見結構
DNN能夠在各領域取得巨大成功,與其模型結構是密不可分的,現代DNN大都可歸納為三種基本結構:序列到序列網絡、卷積網絡、對抗式生成網絡,或由這三種基本網絡結構相互組合而成。
3.1 序列到序列網絡
序列到序列網絡的最顯著特征在于,它的輸入張量和輸出張量長度都是動態的,可視為一串不定長序列,相比傳統結構極大地擴展了模型的適應范圍,能夠對序列轉換問題直接建模,并以端到端的方式訓練模型。典型應用領域有:自動翻譯機(將一種語言的單詞序列轉換為另一種語言的單詞序列),語音識別(將聲波采樣序列轉換為文本單詞序列),自動編程機研究(將自然語言序列轉換為語法樹結構),此類問題的特點在于:
(1)輸入和輸出數據都是序列(如連續值語音信號/特征、離散值的字符);
(2)輸入和輸出序列長度都不固定;
(3)輸入輸出序列長度沒有對應關系。
其典型如圖1所示。
網絡由編碼器(encoder)網絡和解碼器網絡(decoder)兩部分連接構成:
3.1.1 編碼器網絡
編碼器網絡通常是一個遞歸神經網絡(Recurrent Neural Networks,RNN),網絡節點一般使用長短期記憶模型(Long Short Term Memory,LSTM)實現,序列中里第t個張量xt的輸出yt依賴于之前的輸出序列(y0、y1…yt-1),輸入序列(x0、x1、x2…)那爸梁笠來問淙臚絡,整個序列處理完后得到最終的輸出Y以及各層的隱藏狀態H。
3.1.2 解碼器網絡
解碼器網絡是一個與編碼器網絡結構相同的RNN網絡,以解碼器的最終輸出(Y,H)為初始輸入,使用固定的開始標記S及目標序列G當作輸入數據進行學習,目標是使得在X輸入下Y和G盡量接近,即損失度函數f(X)取得最小值。
解碼器網絡屬于典型的監督學習結構,可以用BP算法進行訓練,而編碼器網絡的輸出傳遞給了解碼器網絡,因此也能同時進行訓練。網絡模型學習完畢后,將序列X輸入編碼器,并將起始標記S輸入解碼器,網絡就會給出正確的對應序列。
3.2 卷積神經網絡
卷積神經網絡將傳統圖像處理的卷積運算和DNN相結合,屬于前饋神經網絡,是在生物視覺皮層的研究基礎上發展而來的,在大型圖像處理上有出色表現。CNN一般由多個結構相似的單元組成,每個單元包含卷積層(convolution layer)和池化層(poolinglayer),通常網絡末端還連接全聯通層(fully-connected layer,FC)及Softmax分類器。這種結構使得CNN非常適合處理二維結構數據,相比其它DNN在圖像處理領域上具有天然優勢,CNN的另一優勢還在于,由于卷積層共享參數的特點,使得它所需的參數數量大為減少,提高了訓練速度。其典型結構如圖2所示:
3.2.1 卷積層(Convolutional layer)
卷積層由若干卷積核構成,每個卷積核在整個圖像的所有通道上同時做卷積運算,卷積核的參數通過BP算法從訓練數據中自動獲取。卷積核是對生物視覺神經元的建模,在圖像局部區域進行的卷積運算實質上是提取了輸入數據的特征,越深層的卷積層所能提取到的特征也越復雜。例如前幾個卷積層可能提取到一些邊緣、梯度、線條、角度等低級特征,后續的卷積層則能認識圓、三角形、長方形等稍微復雜的幾何概念,末尾的卷積層則能識別到輪子、旗幟、足球等現實物體。
3.2.2 池化層(Poolinglayer)
池化層是卷積網絡的另一重要部分,用于縮減卷積層提取的特征圖的尺寸,它實質上是某種形式的下采樣:將圖像劃分為若干矩形區塊,在每個區塊上運算池化函數得到輸出。有許多不同形式的池化函數,常用的有“最大池化”(maxpooling,取區塊中數據的最大值)和“平均池化”(averagepooling,取區塊中數據的平均值)。池化層帶來的好處在于:
(1)減小了數據尺寸,降低參數的數量和計算量;
(2)模糊了各“像素”相對位置關系,泛化了網絡識別模式。
但由于池化層過快減少了數據的大小,導致,目前文獻中的趨勢是在池化運算時使用較小的區塊,甚至不再使用池化層。
3.3 生成式對抗網絡(Generative Adversarial Network,GAN)
生成式對抗網絡最初由Goodfellow等人在NIPS2014年提出,是當前深度學習研究的重要課題之一。它的目的是收集大量真實世界中的數據(例如圖像、聲音、文本等),從中學習數據的分布模式,然后產生盡可能逼真的內容。GAN在圖像去噪,修復,超分辨率,結構化預測,強化學習中等任務中非常有效;另一重要應用則是能夠在訓練集數據過少的情況下,生成模擬數據來協助神經網絡完成訓練。
3.3.1 模型結構
GAN網絡典型結構如圖3所示,一般由兩部分組成,即生成器網絡(Generator)和識別器網絡(Discriminator):
(1)生成器網絡的目標是模擬真實數據的分布模式,使用隨機噪聲生成盡量逼真的數據。
(2)識別器的目標是學習真實數據的有效特征,從而判別生成數據和真實數據的差異度。
3.3.2 訓練方法
GAN采用無監督學習進行訓練,輸入向量z一般由先驗概率概率pz(z)生成,通過生成器網絡產生數據G(z)。來自訓練集的真實數據的分布為pdata (x),GAN網絡的實質是學習該特征分布,因此生成的數據G(z)必然也存在對應的分布pg (z),而識別器網絡則給出數據來自于真實數據的概率D(x)以及D(G(z) )。整個訓練過程的實質就是生成器網絡和識別器網絡的博弈過程,即找到
4 深度神經網絡研究展望
DNN雖然在各大領域都取得了重大的成功,甚至宣告了“智能時代”的來臨,但是與人類大腦相比,DNN在許多方面仍有顯著差距:
4.1 識別對抗樣本的挑戰
對抗樣本是指在數據集中添加微小的擾動所形成的數據,這些數據能使網絡以極高的置信度做出錯誤的判別。在網絡實際使用過程中會帶來非常大的問題,比如病毒制造者可能刻意構造樣本來繞過基于DNN的安全檢查網絡。部分研究指出問題的根因可能在于DNN本身的高度非線性,微小的擾動可能在輸出時產生巨大的差異。
4.2 構造統一模型的挑戰
DNN雖然在很多領域都取得了巨大的成功,但無論是序列到序列網絡、卷積網絡、還是對抗式生成網絡都只適應于特定領域,與此相對的則是,人類只用一個大腦就能完成語音、文本、圖像等各類任務,如何構建類似的統一模型,對整個領域都是極大的挑戰。
4.3 提高訓練效率的挑戰
DNN的成功依賴于大量訓練數據,據統計要使得網絡學會某一特征,平均需要50000例以上的樣本,相比而言人類只需要少量的指導即可學會復雜問題,這說明我們的模型和訓練方法都還有極大的提高空間。
參考文獻
[1]ROSENBLATT F.The perceptron:a probabilistic model for information storage and organization in the brain [M].MIT Press,1988.
[2]HINTON G E,OSINDERO S,TEH Y W.A fast learning algorithm for deep belief nets [J].Neural Computation,1989, 18(07):1527-54.
[3]HINTON G E,SALAKHUTDINOV R R. Reducing the Dimensionality of Data with Neural Networks[J].Science, 2006,313(5786):504.
[4]SEIDE F,LI G,YU D.Conversational Speech Transcription Using Context-Dependent Deep Neural Networks; proceedings of the INTERSPEECH 2011, Conference of the International Speech Communication Association, Florence,Italy,August,F,2011 [C].
[5]OQUAB M,BOTTOU L,LAPTEV I,et al. Learning and Transferring Mid-level Image Representations Using Convolutional Neural Networks; proceedings of the Computer Vision and Pattern Recognition,F,2014 [C].
[6]SILVER D,HUANG A,MADDISON C J,et al.Mastering the game of Go with deep neural networks and tree search [J].Nature,2016,529(7587):484.
[7]XIONG W,DROPPO J,HUANG X,et al.The Microsoft 2016 Conversational Speech Recognition System[J].2016.
[8]LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient-based learning applied to document recognition [J].Proceedings of the IEEE,1998,86(11):2278-324.
[9]BENGIO Y,DELALLEAU O, LE R N,et al.Learning eigenfunctions links spectral embedding and kernel PCA [J].Neural Computation,2004,16(10):2197-219.
[10]LEGRAND J,COLLOBERT R.Recurrent Greedy Parsing with Neural Networks [J].Lecture Notes in Computer Science,2014,8725(130-44.
[11]SUTSKEVER I,VINYALS O,LE Q V. Sequence to Sequence Learning with Neural Networks [J].Advances in Neural Information Processing Systems,2014,4(3104-12.
[12]WU Y,SCHUSTER M,CHEN Z,et al. Google's Neural Machine Translation System:Bridging the Gap between Human and Machine Translation [J]. 2016.
[13]GOODFELLOW I J,POUGETABADIE J,MIRZA M,et al.Generative Adversarial Networks [J].Advances in Neural Information Processing Systems,2014,3(2672-80.
作者撾
卷積神經網絡的發展范文3
關鍵詞:ROS;表面缺陷;圖像采集;神經網絡;模型訓練
飛機蒙皮是包圍在飛機骨架結構外且用粘接劑或鉚釘固定于骨架上,形成飛機氣動力外形的維形構件,在飛機正常工作狀態下扮演著重要的角色,一旦飛機蒙皮出現缺陷等問題,需要及時的反饋出來并且維修。傳統的飛機表面缺陷檢測方式大多數是由人工來完成,會存在效率低、成本高等缺點,甚至會出現檢測失誤的情況。本文就針對鋁合金表面缺陷檢測方面,提出一種基于ROS的飛機表面缺陷檢測系統,采用移動機器人底盤定位和導航技術,結合深度學習、圖像處理等技術檢測出存在缺陷的位置并標記出來,通過機器代替傳統人工的方式,旨在提高檢測效率和檢測精度,為飛機表面缺陷檢測提供一種方式。
1系統的總體設計
飛機表面缺陷檢測系統主要由檢測模塊、ROS機器人模塊、圖像處理模塊三大部分組成,系統的總體結構框圖如圖1所示。系統的具體工作原理為:在某一區域范圍內,檢測模塊以樹莓派為核心控制器,通過檢測模塊中的圖像采集系統對鋁合金材料表面進行圖像采集,將采集到的圖像通過TCP通信傳輸到圖像處理模塊上[4]。圖像處理模塊利用深度學習中設計的卷積神經網絡進行數據訓練,得到檢測模型,將檢測模型應用到圖像預處理上。此時,OpenCV對檢測模塊得到的圖像進行圖像處理[5],最終得到缺陷出現的位置。當前區域檢測完畢后,通過ROS機器人模塊的定位和導航功能,驅動運動執行機構工作,并移動到相鄰下一塊檢測區域,直到所有位置都檢測完畢。上述工作原理可實現飛機表面缺陷檢測系統,下文將對其包括的三大模塊進行說明介紹。
2檢測模塊設計
如圖2所示,系統的檢測模塊主要是包括樹莓派和攝像頭,其中樹莓派作為檢測模塊的處理器,搭建的有Ubuntu系統,是系統實現的重要組成部分。樹莓派可以提供普通計算機的功能,并且功耗低。可直接在樹莓派上安裝Keil進行開發,具有很好的開發效果,運行穩定。本次飛機表面缺陷檢測系統實現了樹莓派將攝像頭拍攝的圖片發送到圖像處理模塊上,同時也搭載ROS系統實現了移動底盤的定位和導航功能。
3ROS機器人模塊設計
ROS隨著機器人技術發展愈發受到關注,采用分布式框架結構來處理文件,這種方式允許開發者單獨設計和開發可執行文件。ROS還以功能包的形式封裝功能模塊,方便移植和用戶之間的共享。下面將介紹其建圖和導航功能的實現。
3.1建圖設計
本文在ROS系統中使用Gmapping算法軟件包實現建圖[7],在ROS系統中設計了建圖過程中各節點及節點間的話題訂閱/的關系如圖3所示。在圖3建圖節點話題關系圖上,其中橢圓形里代表節點,矩形基于ROS的飛機表面缺陷檢測系統胡浩鵬(紐約大學NewYorkUniversity紐約10003)框里代表的是主題,節點指向主題代表著該節點了主題消息,主題指向節點代表著該節點訂閱了主題消息。在建圖過程中,主要涉及激光雷達節點、鍵盤控制節點、底盤節點、Gmapping節點和地圖服務節點。
3.2導航設計
ROS提供的Navigation導航框架結構如圖4所示,顯然MOVE_BASE導航功能包中包括全局路徑規劃和局部路徑規劃兩部分,即在已構建好的地圖的基礎上,通過配置全局和局部代價地圖,從而支持和引導路徑規劃的實施。為了保證導航效果的準確,通過AMCL定位功能包進行護理床的位置定位[8]。獲取目標點的位置后,MOVE_BASE功能包結合傳感器信息,在路徑規劃的作用下,控制指令,控制護理床完成相應的運動。
4圖像處理模塊設計
圖像處理模塊設計主要分為圖像預處理、模型訓練和卷積神經網絡三大部分,通過TCP通信協議進行通信,TCP通信是一種面向連接的通信,可完成客戶端(樹莓派)和服務端(PC)的信息傳遞[9]。下面主要對卷積神經網絡部分進行介紹。
4.1卷積神經網絡訓練流程
通過相機采集到的缺陷和問題圖像作為訓練樣本,這部分是檢測飛機表面缺陷的關鍵一步,然后對訓練樣本進行訓練,具體步驟如下所示。(1)訓練標記數據:首先使用圖像預處理中標記好的道路故障提取出來,通過卷積神經網絡對標記框內的目標數據進行訓練;(2)提取特征數據:將道路故障的類型統計并歸納;(3)誤差反饋學習:對測試樣本進行誤差反饋學習,并進行測試;(4)優化訓練數據:將得到的測試結果與設定的故障分類結果進行誤差對比,不斷優化訓練集,最終得到理想的訓練數據。
4.2缺陷檢測流程
缺陷檢測流程如圖5所示,首先輸入缺陷原始圖像,通過特征提取網絡,將處理后的圖像使用檢測器進行檢測,其中檢測器里為卷積神經網絡訓練后得到的模型,最終缺陷檢測后得到的識別后的圖像,并反饋出來。
4.3實驗測試
鋁合金表面缺陷主要有碰傷、刮花、凸粉、臟點等常見的缺陷,下面將以這四種為主要對象進行檢測訓練,各自訓練集數量為1000張。通過卷積神經網絡對缺陷的特征進行提取和分類,最終實現了缺陷的檢測。本次實驗測試的樣本為200張,每種缺陷50張,均采集自鋁合金材料表面且與訓練樣本一致,實驗結果如表1所示。由表1可知,檢測臟點的準確率高達98%,刮花和凸粉的準確率也達到94%,但碰傷的準確率相對較低,只有88%??赡茉斐傻脑蚴牵孩儆布驅е虏杉膱D像清晰度比較低;②碰傷缺陷不明顯,無人機難以識別;③訓練的數據集較少,特征學習誤差大;但最后結果是滿足了設計需求,還需進一步改進。
5總結與展望
卷積神經網絡的發展范文4
關鍵詞:Deep Learning;多隱含層感知;DropConnect;算法
中圖分類號:TP181
Deep Learning是機器學習研究的新領域,它掀起了機器學習領域的第二次浪潮,并受到學術界到工業界高度重視。Deep Learning概念根源于人工神經網絡[3],它由Geoffrey Hinton等在Science上提出。它致力于建立模擬人腦分析學習機制的多層次神經網絡,并通過這種網絡分析解釋數據,如視頻、文本和聲音等。Deep Learning的多隱含層使得它具有優異的特征學習能力,而且學習得到的特征對數據有更本質的刻畫,從而有利于可視化或分類。它的“逐層初始化”(layer-wise pre-training[4])可以有效克服深度神經網絡在訓練上的難度。本文在對Deep Learning算法分析的基礎上,著重闡述了對Regularization of Neural Networks using DropConnect模型的改進。
1 Deep Learning算法分析
1.1 Deep Learning多隱含層感知架構
Deep Learning算法最優秀特征是多隱含層感知器架構,這種架構通過組合低層特征來形成更加抽象的高層屬性類別或特征,并實現對數據分布式表示。Deep Learning的多隱含層結構是由輸入層、隱層(多層)、輸出層組成的多層網絡(如圖1所示),只有相鄰層神經元之間有連接,同一層以及跨層節點之間相互無連接,每一層可以看作是一個淺層機器學習模型(如logistic regression,Support Vector Machines)。
圖1 含多個隱含層的Deep Learning模型
Deep Learning的多隱含層感知結構模擬的是人腦的大腦皮層工作。人大腦皮層計算也是分多層進行[5],例如圖像在人腦中是分多個階段處理,首先是進入大腦皮層V1區提取邊緣特征,然后進入大腦皮層V2區抽象成圖像的形狀或者部分,再到更高層,以此類推。高層的特征是由底層組合而成。使用含多隱含層感知器架構網絡主要優勢在于它能以更簡潔的方式表達比淺層網絡大得多的函數關系(如圖2)。通過這種深層非線性網絡結構,Deep Learning可以實現復雜函數的逼近,表征輸入數據的分布式表示,并展現了強大的從少數樣本集中學習數據集本質特征的能力。
圖2 多層次實現復雜函數圖
1.2 Deep Learning訓練過程
(1)首先逐層構建單層神經元,使得每次都是訓練一個單層網絡。
(2)當所有層訓練完后,使用Wake-Sleep算法[6]進行調優。
將除最頂層的其它層間的權重是雙向的。向上的權重用于“認知”,向下的權重用于“生成”。然后使用Wake-Sleep算法調整所有的權重。讓“認知”和“生成”達成一致,也就是保證生成的最頂層表示能夠盡可能正確的復原底層的結點。
1.3 Deep Learning數據處理一般過程
Deep Learning算法通過傳感器等方式獲得數據之后,首先對數據進行預處理。在數據預處理中,標準的第一步是數據歸一化處理,第二步是數據白化處理(如PCA白化和ZCA白化)。其次特征提取和特征選擇。然后將輸出作為下層的輸入,不斷進行特征提取和特征選擇,直到學習到合符要求的最佳特征。在特征提取和特征選擇過程中,常用自動編碼、稀疏編碼、聚類算法、限制波爾茲曼機、卷積神經網絡等算法進行特征提取和特征選擇。然后用反向傳播算法、隨機梯度下降算法、批量梯度下降算法等進行調優處理,再用池化等算法避免特征過度擬合,從而得到最終提取特征。最后將學習到的最終提取特征輸入到分類器(如softmax分類器,logistic回歸分類器)進行識別、推理或預測。
2 基于Regularization of Neural Networks using DropConnect模型改進
2.1 Regularization of Neural Networks using DropConnect模型[2]
該模型的四個基本組成成分是:
(1)特征提?。簐=g(x;Wg)。x是輸入層的輸入數據,Wg是特征提取函數的參數,v是輸出的提取特征,特征提取函數g()。其中g()為多層卷積神經網絡算法函數,而Wg卷積神經網絡的偏值。
(2)DropConnect層:r=a(u)=a((M*W)v)如圖3。v是輸出的提取特征,W是完全連接的權重矩陣,M是二進制掩碼矩陣,該矩陣的每個元素隨機的以1-p概率設置為0或以p概率設置為1,a()是一個非線性激活函數,r是輸出向量。M*W是矩陣對應元素相乘。
(3)Softmax分類器層:o=s(r;Ws)。將r映射到一個k維的輸出矩陣(k是類的個數),Ws是softmax分類函數的參數。
(4)交叉熵損失:A(y,o)=-∑yi(oi),i∈1,2,3…k。y是標簽,o是概率。
圖3 DropConnect示意圖
2.2 模型改進描述和分析
對DropConnect模型的改進主要集中在上面它的四個基本組成成分中的DropConnect層。由于該層以隨機方式讓掩碼矩陣M的每個元素Mij按1-p的概率設置為0,然后讓掩碼矩陣與層間的權重矩陣對應相乘即M*W。相對DropOut模型r=a((M*(Wv))得到的特征,r=a((M*W)v)得到的特征是比較好的特征r,同時也提高算法的泛化性。因為Dropconnect模型在權重W和v運算之前,將權重以一定的概率稀疏了,從運行結果看整體算法的錯誤率降低了。但是,由于是隨機的讓Mij按1-p的概率為0,并且這種隨機是不可以預測的,故可能會導致某些重要特征對應的權重被屏蔽掉,最終造成輸出ri的準確性降低。故就此提出了新的設計思想。
改進思想是用單層稀疏編碼層代替DropConnect層,通過稀疏編碼訓練出一組最佳稀疏的特征。具體描述:讓經過多層卷積神經網絡提取到的特征v作為稀疏編碼的輸入,經過稀疏編碼重復訓練迭代,最終得到最佳的稀疏的特征r。因為稀疏編碼算法是一種無監督學習方法,用它可以尋找出一組“超完備”基向量來更高效地表示輸入數據。
總之任何對Deep Learning算法的改進,都是為了提取出最佳特征,并使用優秀的分類算法來分類、預測或推理,最終降低算法的錯誤率。而對于怎樣改進算法,以何種方式降低錯誤率,則沒有具體的限制。并且各種提取特征和特征選擇的算法之間并不是互斥的,它們之間可以有各種形式的嵌套,最終的目標都是提高算法的正確率和效率。
3 結束語
Deep Learning使得語音、圖像和文本等的智能識別和理解取得驚人進展,如Google Brain項目和微軟推同聲傳譯系統。它極大地推動了人工智能和人機交互快速發展。隨著從學術界到工業界的廣泛重視,Deep Learning算法的改進依然在繼續,Deep Learning算法的正確率和效率仍在不斷提高。Deep Learning的發展將加快“大數據+深度模型”時代來臨。
參考文獻:
[1]Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science,2006(5786):504-507
[2]湯姆?米切爾.機器學習[M].北京:機械工業出版社,2003:1-280.
[3]吳昌友.神經網絡的研究及應用[D].哈爾濱:東北農業大學,2007.
[4]HINTON G,OSINDERO S,TEH Y. A fast learning algorithm for deep belief nets[J].Neural Computation,2006(07):1527-1554.
[5]Hubel D H, Wiesel T N. Receptive fields,binocular interaction and functional architecture in the cat's visual cortex[J].The Journal of physiology,1962(01):106.
[6]Chuang Gao,Bin Chen,Wei Wei.Dynamic detection of wake-sleep transition with reaction time-magnitude[J].Neural Regenerattion Research,2009(07):552-560.
卷積神經網絡的發展范文5
1989年貝爾實驗室成功利用反向傳播算法,在多層神經網絡開發了一個手寫郵編識別器。1998年Yann LeCun和Yoshua Bengio發表了手寫識別神經網絡和反向傳播優化相關的論文《Gradient-based learning applied to document recognition》,開創了卷積神經網絡的時代。
此后,人工智能陷入了長時間的發展沉寂階段,直到1997年IBM的深藍戰勝國際象棋大師和2011年IBM的沃森智能系統在Jeopardy節目中勝出,人工智能才又一次為人們所關注。2016年Alpha Go擊敗韓國圍棋九段職業選手,則標志著人工智能的又一波。從基礎算法,底層硬件,工具框架到實際應用場景,目前人工智能已經全面開花。 作為人工智能核心的底層硬件AI芯片,也同樣經歷了多次的起伏和波折,
總體看來,AI芯片的發展前后經歷了四次大的變化,其發展歷程如下圖所示。
(1)2007年以前,AI芯片產業一直沒有發展成為成熟的產業;同時由于當時算法、數據量等因素,這個階段AI芯片并沒有特別強烈的市場需求,通用的CPU芯片即可滿足應用需要。
(2)隨著高清視頻、VR、AR游戲等行業的發展,GPU產品取得快速的突破;同時人們發現GPU的并行計算特性恰好適應人工智能算法及大數據并行計算的需求,如GPU比之前傳統的CPU在深度學習算法的運算上可以提高幾十倍的效率,因此開始嘗試使用GPU進行人工智能計算。
(3)進入2010年后,云計算廣泛推廣,人工智能的研究人員可以通過云計算借助大量CPU和GPU進行混合運算,進一步推進了AI芯片的深入應用,從而催生了各類AI芯片的研發與應用。
(4)人工智能對于計算能力的要求不斷快速地提升,進入2015年后,GPU的性能功耗比不高的特點使其適用場合受到很多限制,業界開始研發針對人工智能的專用芯片,通過更好的硬件和芯片架構,在計算效率、能耗比上進一步提升。
卷積神經網絡的發展范文6
人工智能的概念已提出60年,從原來的理論框架體系的搭建,到實驗室關鍵技術的準備,如今已開始進入全新的發展階段――產業化。
目前,從基本的算法到腦科學研究,人工智能都還沒有突破性進展的可能性。但是,以深度神經網絡為代表的人工智能,結合日新月異的大數據、云計算和移動互聯網,就可以在未來5到10年改變我們的世界。
人工智能+時代的兩大機遇
人工智能不僅將替代簡單重復的勞動,還將替代越來越多的復雜的高級腦力活動,創造一個個新的機會。可以說,任何一個行業、企業或今天的創業者,如果不用人工智能改變今天的生產和生活方式,5年后一定會出局。
第一個趨勢是以語音為主導、以鍵盤和觸摸為輔助的人機交互時代正在到來。如今越來越多的設備不再需要屏幕,越來越多的場景我們不用直接碰觸。比如,想把燈光調亮,想打開五米之外的設備,我們的手沒法直接觸碰。再如,開車時不方便用手、用眼做其他事情。這時,語音就成為最主要的一個交互方式。
第二個趨勢是人工智能正在全球范圍內掀起一股浪潮,“人工智能+”的時代到來,而且會比我們想象的還要快。為什么呢?麥肯錫分析認為,當前45%的工作可以被技術自動化,不只是簡單重復性的工作,CEO20%的工作也可以被機器取代?!犊茖W》雜志預測,2045年人工智能會顛覆全球50%、中國77%的就業。也就是說,今天的我們3/4的工作30年后會被人工智能取代。埃森哲認為,到2035年人工智能會讓12個發達國家經濟增長率翻一倍。我國的增長率只有比這還高,才對得起今天的時代機遇。
從科大訊飛的情況可以看出,人工智能將迎來兩大產業機遇。
第一,未來3到5年,萬物互聯的時代到來,以語音為主、鍵盤觸摸為輔的人機交互將廣泛應用。第二,未來5到10年,人工智能會像水和電一樣進入各行各業,深刻改變我們的生活。
認知智能是最大技術瓶頸
人工智能技術有兩種分類方法。一種分為強人工智能和弱人工智能;另一種是訊飛研究院提出的、跟技術演進路徑相關的分類,分成計算智能、感知智能和認知智能。
計算智能就是機器能存會算。就像當年IBM的深藍電腦下象棋超過卡斯帕羅夫,典型的就是因為運算能力強,提前算到了所有的結果。
感知智能,比如語音合成技術,能夠讓機器開口說話。再如語音識別技術,就像今天的演講,后臺系統把它變成文字,準確率可達95%。
認知智能是讓機器具備能理解、會思考的能力。這是最大的挑戰,也是大家最熱切期待的技術突破。工業革命讓我們從繁重的體力勞動中解放出來,未來的認知智能會讓人從今天很多復雜的腦力勞動中解放出來。
科大訊飛選擇以語音為入口解決認知難題,進行認知革命。以人機交互為入口的目的,就是為了解決自然語言理解的技術難題。這個入口可以把人類的智慧最便捷地匯聚到后臺,供機器學習和訓練,也可以使后臺人工智能的成果最簡單直接地輸出,從社會不斷取得它學習需要的反饋信息,在此基礎上實現知識管理和推理學習。
科大訊飛承擔的科技部第一個人工智能重大專項――高考機器人。目標是為了“考大學”,但其核心技術正是語言理解、知識表達、聯想推理和自主學習。
人工智能技術正走向產業化
目前,科大訊飛的人工智能研究已經取得了階段性成果。
在教育行業,科大訊飛的機器人通過構建學生全過程的學習數據和老師上課的數據,提升了課堂效率,原來45分鐘的課堂,現在15分鐘就搞定。因為大量的內容學生都是知道的,老師只需向個別沒掌握的學生單獨講授。這樣,老師就有時間把課堂的重點放在大家都不了解的知識上,學生可以用大量時間進行啟發式學習。借助這些手段,學生的重復性訓練可以降低50%以上。
在醫療行業,科大訊飛利用語音解決門診電子病歷,利用人工智能輔助診療。學習最頂尖醫療專家知識后的人工智能產品,可以超過一線全科醫生的水平。當前,醫療行業一線最缺的是全科醫生和兒科醫生,引入人工智能技術就可以緩解醫療資源短缺壓力。
科大訊飛的人工智能技術還應用在汽車領域。在寶馬汽車去年的國際測試中,科大訊飛以86%的準確率名列第一。
在客服領域,機器已經替代掉了30%的人工服務。目前,安徽移動呼叫中心有75%的服務內容已被機器替代。
機器人還將從服務后臺走向前端。今年第四季度末或明年,服務機器人將開始在銀行和電信營業廳上崗工作,它們不僅好玩、有趣,吸引人氣,還能幫客戶解決實際問題。