前言:中文期刊網精心挑選了卷積神經網絡的深度范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
卷積神經網絡的深度范文1
中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2016)35-0209-03
Research and Implementation of Image Classification Based on Convolution Neural Network
WANG Chao
(Information Engineering Institute,East China University of Technology, Nanchang 330013, China)
Abstract: The problem of image classification has been the core problem in computer vision. A good solution is developed by further study which can solve the problem of extracting image features in image classification. In order to learn image features efficiently, constructing the machine learning model with hidden layer as well as training a large number of image data will eventually promote the accuracy of image classification or prediction. This paper is intended as an in-depth Caffe learning framework to construct a small image data-base. The convolutional neural network provided by Caffe framework will make a training analysis of the data set and then extract the information of target image features. These can be used for the final prediction of the target image. Compared with the traditional image classification algorithm, the accuracy of the prediction will be greatly improved.
Key words: image classification; deep learning; Caffe framework; Convolutional Neural Network
S著計算機與互聯網技術的快速發展,我們已經進入了一個以圖像構建的世界。但是面臨有海量圖像信息卻找不到所需要的數據的困境,因而圖像分類技術應運而生。通過各種機器學習算法使計算機自動將各類圖像進行有效管理和分類,但是由于圖像內容包含著大量復雜且難以描述的信息,圖像特征提取和相識度匹配技術也存在一定的難題,要使得計算機能夠像人類一樣進行分類還是有很大的困難。
深度學習是近十年來人工智能領域取得的重要突破,在圖像識別中的應用取得了巨大的進步,傳統的機器學習模型屬于神經網絡模型,神經網絡有大量的參數,經常會出現過擬合問題,因而對目標檢測準確率上比較低。本文采用卷積神經網絡框架,圖像特征是從大數據中自動學習得到,而且神經網絡的結構深由很多層組成,通過重復利用中間層的計算單元來減少參數,在特征匯聚階段引入圖像中目標的顯著信信息,增強了圖像的特征表達能力。通過在圖像層次稀疏表示中引入圖像顯著信息,加強了圖像特征的語義信息,得到圖像顯著特征表示,通過實驗測試,效果比傳統的圖像分類算法預測的準確度有明顯的提升。
1 基于卷積神經網絡的圖像分類方法
1.1 人工神經網絡
人工神經網絡(Artificial Neural Network, ANN)是描述生物神經網絡運行機理和工作過程的抽象和簡化了的數學物理模型,使用路徑權值的有向圖來表示模型中的人工神經元節點和神經元之間的連接關系,之后通過硬件或軟件程序實現上述有向圖的運行[1]。目前最典型的人工神經網絡算法包括:目前最典型的人工神經網絡有BP網絡 [2]Hopfield網絡[3]Boltzmann機[4]SOFM網絡[5]以及ART網絡人工神經網絡[6],算法流程圖如圖1所示[7]。
1.2 卷積神經網絡框架的架構
Caffe是Convolutional Architecture for Fast Feature Embedding的縮寫[8],意為快速特征嵌入的卷積結構,包含最先進的深度學習算法以及一系列的參考模型,圖2表示的是卷積神經網絡結構圖。Caffe深度學習框架主要依賴CUDA,IntelMKL,OpenCV,glog軟件以及caffe文件。本文使用的各個軟件版本說明,如表1所示。
Caffe深度學習框架提供了多個經典的卷積神經網絡模型,卷積神經網絡是一種多層的監督學習神經網絡,利用隱含層的卷積層和池采樣層是實現卷積神經網絡特征提取功能,卷積神經網絡模型通過采取梯度下降法最小化損失函數對網絡中的權重參數逐層反向調節,通過頻繁的迭代訓練來提高網絡的精度。卷積神經網絡使用權值共享,這一結構類似于生物神經網絡,從而使網絡的復雜程度明顯降低,并且權值的數量也有大幅度的減少,本文使用這些模型直接進行訓練,和傳統的圖像分類算法對比,性能有很大的提升,框架系統訓練識別基本流程如圖3表示。
1.3 圖像分類特征提取
卷積神經網絡的結構層次相比傳統的淺層的神經網絡來說,要復雜得多,每兩層的神經元使用了局部連接的方式進行連接、神經元共享連接權重以及時間或空間上使用降采樣充分利用數據本身的特征,因此決定了卷積神經網絡與傳統神經網絡相比維度大幅度降低,從而降低計算時間的復雜度。卷積神經網絡主要分為兩個過程,分為卷積和采樣,分別的對上層數據進行提取抽象和對數據進行降維的作用。
本文以Caffe深度學習框架中的 CIFAR-10數據集的貓的網絡模型為例,如圖4所示,對卷積神經網絡模型進行訓練。CIFAR-10是一個標準圖像圖像訓練集,由六萬張圖像組成,共有10類(分為飛機,小汽車,鳥,貓,鹿,狗,青蛙,馬,船,卡車),每個圖片都是32×32像素的RGB彩色圖像。通過對數據進行提取和降維的方法來提取圖像數據的特征。
2 實驗分析
將貓的圖像訓練集放在train的文件夾下,并統一修改成256×256像素大小,并對貓的圖像訓練集進行標記,標簽為1,運行選擇cpu進行訓練,每進行10次迭代進行一次測試,測試間隔為10次,初始化學習率為0.001,每20次迭代顯示一次信息,最大迭代次數為200次,網絡訓練的動量為0.9,權重衰退為0.0005,5000次進行一次當前狀態的記錄,記錄顯示如下圖5所示,預測的準度在98%以上。而相比傳統的圖像分類算法BP神經網絡網絡的收斂性慢,訓練時間長的,網絡的學習和記憶具有不穩定性,因而卷e神經網絡框架在訓練時間和預測準度上具有非常大的優勢。
3 結束語
本文使用Caffe深度學習框架,以CIFAR-10數據集中貓的網絡模型為例,構建小型貓的數據集,提取貓的圖象特征信息,最后和目標貓圖像進行預測,并和傳統的圖像分類算法進行對比,預測的準確率有很大的提升。
參考文獻:
[1] 楊錚, 吳陳沭, 劉云浩. 位置計算: 無線網絡定位與可定位性[M]. 北京: 清華大學出版社, 2014.
[2] 丁士折. 人工神經網絡基礎[M]. 哈爾濱: 哈爾濱工程大學出版社, 2008.
[3] McClelland J L, Rumelhart D E, PDP Research Group. Parallel distributedprocessing[J]. Explorations in the microstructure of cognition, 1986, 2.
[4] Hopfield J J. Neural networks and physical systems with emergent collectivecomputational abilities[J]. Proceedings of the national academy of sciences, 1982, 79(8): 2554-2558.
[5] Ackley D H, Hinton G E, Sejnowski T J. A learning algorithm for boltzmannmachines[J]. Cognitive science, 1985, 9(1): 147-169.
[6] Kohonenmaps T. Self-Organized Formation of Topologically Correct Feature Maps[J]. Biological Cybernetics,1982, 43(1): 59-69.
卷積神經網絡的深度范文2
關鍵詞:卷積神經網絡;圖像分類;空間變換;可變形卷積
DOIDOI:10.11907/rjdk.171863
中圖分類號:TP317.4
文獻標識碼:A 文章編號:1672-7800(2017)006-0198-04
0 引言
圖像分類一直是計算機視覺領域的一個基礎而重要的核心問題,具有大量的實際應用場景和案例。很多典型的計算機視覺問題(如物體檢測、圖像分割)都可以演化為圖像分類問題。圖像分類問題有很多難點需要解決,觀測角度、光照條件的變化、物體自身形變、部分遮擋、背景雜波影響、類內差異等問題都會導致被觀測物體的計算機表示(二維或三維數值數組)發生劇烈變化。一個良好的圖像分類模型應當對上述情況(以及不同情況的組合)不敏感。使用深度學習尤其是深度卷積神經網絡,用大量圖像數據進行訓練后可以處理十分復雜的分類問題。
卷積神經網絡是為識別二維形狀而專門設計的一個多層感知器,這種網絡結構對平移、縮放、傾斜等擾動具有高度不變性,并且具有強大的特征學習與抽象表達能力,可以通過網絡訓練獲得圖像特征,避免了復雜的特征提取與數據重建過程。通過網絡層的堆疊,集成了低、中、高層特征表示。AlexNet等網絡模型的出F,也推動了卷積網絡在海量圖像分類領域的蓬勃發展。
1 卷積神經網絡
卷積神經網絡是人工神經網絡的一種,其“局部感知”“權值共享”[1]等特性使之更類似于生物神經網絡,網絡模型復雜度大大降低,網絡訓練更容易,多層的網絡結構有更好的抽象表達能力,可以直接將圖像作為網絡輸入,通過網絡訓練自動學習圖像特征,從而避免了復雜的特征提取過程。
Yann LeCun等[2]設計的LeNet-5是當前廣泛使用的卷積網絡結構原型,它包含了卷積層、下采樣層(池化層)、全連接層以及輸出層,構成了現代卷積神經網絡的基本組件,后續復雜的模型都離不開這些基本組件。LeNet-5對手寫數字識別率較高,但在大數據量、復雜的物體圖片分類方面不足,過擬合也導致其泛化能力較弱。網絡訓練開銷大且受制于計算機性能。
2012年,在ILSVRC競賽中AlexNet模型[3]贏得冠軍,將錯誤率降低了10個百分點。擁有5層卷積結構的AlexNet模型證明了卷積神經網絡在復雜模型下的有效性,并將GPU訓練引入研究領域,使得大數據訓練時間縮短,具有里程碑意義。AlexNet還有如下創新點:①采用局部響應歸一化算法(Local Response Normalization,LRN),增強了模型的泛化能力,有效降低了分類錯誤率;②使用Dropout技術,降低了神經元復雜的互適應關系,有效避免了過擬合;③為了獲得更快的收斂速度,AlexNet使用非線性激活函數ReLU(Rectified Linear Units)來代替傳統的Sigmoid激活函數。
Karen等[4]在AlexNet的基礎上使用更小尺寸的卷積核級聯替代大卷積核,提出了VGG網絡。雖然VGG網絡層數和參數都比AlexNet多,但得益于更深的網絡和較小的卷積核尺寸,使之具有隱式規則作用,只需很少的迭代次數就能達到收斂目的。
復雜的網絡結構能表達更高維的抽象特征。然而,隨著網絡層數增加,參數量也急劇增加,導致過擬合及計算量大增,解決這兩個缺陷的根本辦法是將全連接甚至一般的卷積轉化為稀疏連接。為此,Google團隊提出了Inception結構[5],以將稀疏矩陣聚類為較為密集的子矩陣來提高計算性能。以Inception結構構造的22層網絡GoogLeNet,用均值池化代替后端的全連接層,使得參數量只有7M,極大增強了泛化能力,并增加了兩個輔助的Softmax用于向前傳導梯度,避免梯度消失。GoogLeNet在2014年的ILSVRC競賽中以Top-5錯誤率僅6.66%的成績摘得桂冠。
網絡層數的增加并非永無止境。隨著網絡層數的增加,將導致訓練誤差增大等所謂退化問題。為此,微軟提出了一種深度殘差學習框架[6],利用多層網絡擬合一個殘差映射,成功構造出152層的ResNet-152,并在2015年的ILSVRC分類問題競賽中取得Top-5錯誤率僅5.71%的成績。隨后,對現有的瓶頸式殘差結構進行改進,提出了一種直通結構[7],并基于此搭建出驚人的1001層網絡,在CIFAR-10分類錯誤率僅4.92%。至此,卷積神經網絡在越來越“深”的道路上一往直前。
2 可變形的卷積神經網絡
2.1 空間變換網絡
空間變換網絡(Spatial Transformer Network,STN)[8]主要由定位網絡(Localisation net)、網格生成器(Grid generator)和可微圖像采樣(Differentiable Image Sampling)3部分構成,如圖1所示。
定位網絡將輸入的特征圖U放入一個子網絡(由卷積、全連接等構成的若干層子網絡),生成空間變換參數θ。θ的形式可以多樣,如需要實現2D仿射變換,那么θ就是一個2×3的向量。
2.3 本文模型
本文以自建的3層卷積網絡C3K5(如圖6所示)和VGG-16作為基準網絡,分別引入空間變換網絡、可變形卷積和可變形池化,構造出8個卷積神經網絡,用以驗證可變形模塊對淺層網絡和深層網絡的影響,如表1所示。
圖6中C3K5網絡模型包含3個帶有ReLU層、LRN層和池化層的卷積模塊,卷積層采用步長為1的5×5卷積核,輸出保持原大小,池化層采用步長為2核為2×2的最大值池化,即每經過一個卷積模塊,特征圖縮小為原來的一半。
3 實驗與分析
3.1 實驗設置
本文實驗環境:CPU為Intel i5-7400,8G內存,顯卡為GTX1060,采用Cuda8+CuDNN6.0加速。
實驗數據集包括公共圖像數據集mnist、cifar-10、cifar-100和自建圖像數據集pen-7。公共數據集分別有50 000張訓練樣本圖像和10 000張測試樣本圖像。自建數據集pen-7為京東商城的七類筆圖像庫,每類有600張圖片,圖像分辨率為200×200,總計訓練樣本數3 360,測試樣本數840, 圖7為其中的14個樣本。
3.2 結果與分析
分別將表1中的10個卷積網絡應用到mnist、cifar-10、cifar-100和pen-7四個數據集進行訓練,batch-size設置100,即每次傳入100張圖片進行訓練,每訓練100次測試一次(記為一次迭代),總共迭代100次,取最后10次迭代的準確率計算平均值,得各網絡應用在不同數據集的分類結果,如表2所示。
實驗結果表明,在卷積網絡中引入空間變換網絡、用可變形的卷積層和可變形的池化層替換傳統的卷積層和池化層,不管是在淺層網絡還是在深層網絡,都能獲得更高的分類準確率,這驗證了空間變換網絡和可變形卷積(池化)結構,豐富了卷積神經網絡的空間特征表達能力,提升了卷積網絡對樣本的空間多樣性變化的魯棒性。包含3種模塊的網絡獲得了最高的分類精度,使空間變換網絡、可變形卷積層和可變形池化層在更多應用場景中并駕齊驅成為可能。
4 結語
通過在現有卷積神經網絡中引入空間變換網絡、可變形的卷積層和可變形的池化層,使得卷積網絡在mnist、cifar-10、cifar-100及自建的pen-7數據集中獲得了更高的分類精度,包含3種模塊的網絡獲得了最高分類精度,證明了空間變換網絡、可變形的卷積層和可變形池化層都能豐富網絡的空間特征表達能力,協同應用于圖像分類工作,這為后續研究打下了堅實的基礎。
參考文獻:
[1]BOUVRIE J. Notes on convolutional neural networks[J].Neural Nets,2006(1):159-164.
[2]Y LECUN,L BOTTOU,Y BENGIO,et al.Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[3]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems. Curran Associates Inc,2012:1097-1105.
[4]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. Computer Science, 2014(6):1211-1220.
[5]SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[J]. CVPR, 2015(3):1-9.
[6]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]. Computer Vision and Pattern Recognition. IEEE, 2015:770-778.
[7]HE K, ZHANG X, REN S, et al. Identity mappings in deep residual networks[J]. arXiv,2016(1603):5-27.
[8]JADERBERG M, SIMONYAN K, ZISSERMAN A, et al. Spatial transformer networks[J].Computer Science, 2015(5):1041-1050.
[9]DAI J, QI H, XIONG Y, et al. Deformable convolutional networks[J]. arXiv: 2017(1703):62-111.
卷積神經網絡的深度范文3
以上文章都結合卷積神經網絡模型對交通標志分類做了大量的研究,避免了復雜的人工特征提取算法的設計,研究結果具有一定的參考性。在現有卷積神經網絡模型的啟發下,以上文章都采用分類器。而訓練分類器需要大量樣本,因而在小樣本數據下,采用分類器容易造成過擬合,降低網絡的泛化性。同時,由于SVM分類器在小樣本數據集上具有出色分類性能,本文提出一種基于卷積神經網絡和多類SVM分類器[[4]的交通標志識別模型。此模型利用卷積神經網絡強大的特征提取和泛化能力,使得算法在復雜環境中依然具有可靠的識別結果。 首先,本文通過遷移學習策略「51L61對AlexNet網絡[7]特征提取部分進行微調,并將微調結果作為本文的特征提取器。然后將卷積神經網絡提取的特征作為多類SVM分類器的輸入。同時為了進一步防止過擬合現象的發生,本文在SVM分類器中加入dropout層,利用隨機置零策略進行參數選擇。最后,文章通過實驗結果證實本文提出的分類模型相比于采用softmax分類器有更好的準確率、在復雜背景中具有較高的識別率和較強的魯棒性棒。1卷積神經網絡和SVM
1.1 AlexNet網絡
AlexNet網絡是著名的卷積分類網絡,可成功實現對1000類別物體的分類。其結構可以分為特征提取器和分類器兩部分。
特征提取器主要由卷積層、池化層、激活函數組成。卷積層由大小不同的卷積核組成,卷積核類似于傳統視覺中的特征提取算子。但區別于傳統視覺算子,卷積核參數由網絡自己學習得到,可以提取圖像從底層到高層的不同特征信息。池化層常連接在卷積層之后,一般常用最大池化操作。池化層可以加強網絡對平移變化的魯棒性。激活函數為網絡引入非線性因素,使得網絡可以逼近任意函數形式。
分類層主要由全連接層和多類邏輯回歸函數組成。全連接層學習用合理的方式組合特征,可以看為函數映射。邏輯回歸函數進行類別概率判別,邏輯回歸判別見公式。同時,為了防止全連接層過擬合,AlexNet網絡引入dropout層,dropout[9]采用隨機置零的方式,防止神經元以特定的方式組合工作,從而防止深度網絡的過擬合。p}Y}}}=j1二(‘);B)=藝 e醉x})丫‘eBTx}' }e' j代表類別,二(i)為輸入,k代表類別總數,8,表示將樣本x}')映射到j類的參數,B代表er,r=i,z,~… ,,組成的矩陣,p(少‘)=j}x(仍表示x}'}屬于j類的概率。1.2標準SVM SVM是基于結構風險最小化理論的有監督學習算法,通過尋找最優分割超平面來實現分類[}10}。相比于神經網絡,SVM在小樣本數據集上也能表現出良好的分類效果,因而得到廣泛使用。標準的SVM通過尋求公式(2)的最優解來找到最優超分割平面。minw,b含,,w,,(2)yc> (w·二(‘)+b) >_ 1,i=1, 2,……,m尹)代表第i個樣本標簽,x}'}代表第i個樣本特,m為訓練集大小。分類模型設計
本文提出的分類模型主要分為兩部分,特征提取部分和多類SVM分類器。整體結構如圖1所示。
圖1中,特征提取器主要對輸入圖片進行特征提取和融合,最終得到圖像的高階特征并將提取到的信息特征送入多類SVM分類器。dropout層進行參數隨機丟失步驟,此步驟通過隨機失活神經元可有效防止過擬合的發生;然后結合不加正則化項的SVM算法進行分類,得到最終輸出結果。
2.1特征提取器
卷積神經網絡的深度范文4
關鍵詞:ROS;表面缺陷;圖像采集;神經網絡;模型訓練
飛機蒙皮是包圍在飛機骨架結構外且用粘接劑或鉚釘固定于骨架上,形成飛機氣動力外形的維形構件,在飛機正常工作狀態下扮演著重要的角色,一旦飛機蒙皮出現缺陷等問題,需要及時的反饋出來并且維修。傳統的飛機表面缺陷檢測方式大多數是由人工來完成,會存在效率低、成本高等缺點,甚至會出現檢測失誤的情況。本文就針對鋁合金表面缺陷檢測方面,提出一種基于ROS的飛機表面缺陷檢測系統,采用移動機器人底盤定位和導航技術,結合深度學習、圖像處理等技術檢測出存在缺陷的位置并標記出來,通過機器代替傳統人工的方式,旨在提高檢測效率和檢測精度,為飛機表面缺陷檢測提供一種方式。
1系統的總體設計
飛機表面缺陷檢測系統主要由檢測模塊、ROS機器人模塊、圖像處理模塊三大部分組成,系統的總體結構框圖如圖1所示。系統的具體工作原理為:在某一區域范圍內,檢測模塊以樹莓派為核心控制器,通過檢測模塊中的圖像采集系統對鋁合金材料表面進行圖像采集,將采集到的圖像通過TCP通信傳輸到圖像處理模塊上[4]。圖像處理模塊利用深度學習中設計的卷積神經網絡進行數據訓練,得到檢測模型,將檢測模型應用到圖像預處理上。此時,OpenCV對檢測模塊得到的圖像進行圖像處理[5],最終得到缺陷出現的位置。當前區域檢測完畢后,通過ROS機器人模塊的定位和導航功能,驅動運動執行機構工作,并移動到相鄰下一塊檢測區域,直到所有位置都檢測完畢。上述工作原理可實現飛機表面缺陷檢測系統,下文將對其包括的三大模塊進行說明介紹。
2檢測模塊設計
如圖2所示,系統的檢測模塊主要是包括樹莓派和攝像頭,其中樹莓派作為檢測模塊的處理器,搭建的有Ubuntu系統,是系統實現的重要組成部分。樹莓派可以提供普通計算機的功能,并且功耗低。可直接在樹莓派上安裝Keil進行開發,具有很好的開發效果,運行穩定。本次飛機表面缺陷檢測系統實現了樹莓派將攝像頭拍攝的圖片發送到圖像處理模塊上,同時也搭載ROS系統實現了移動底盤的定位和導航功能。
3ROS機器人模塊設計
ROS隨著機器人技術發展愈發受到關注,采用分布式框架結構來處理文件,這種方式允許開發者單獨設計和開發可執行文件。ROS還以功能包的形式封裝功能模塊,方便移植和用戶之間的共享。下面將介紹其建圖和導航功能的實現。
3.1建圖設計
本文在ROS系統中使用Gmapping算法軟件包實現建圖[7],在ROS系統中設計了建圖過程中各節點及節點間的話題訂閱/的關系如圖3所示。在圖3建圖節點話題關系圖上,其中橢圓形里代表節點,矩形基于ROS的飛機表面缺陷檢測系統胡浩鵬(紐約大學NewYorkUniversity紐約10003)框里代表的是主題,節點指向主題代表著該節點了主題消息,主題指向節點代表著該節點訂閱了主題消息。在建圖過程中,主要涉及激光雷達節點、鍵盤控制節點、底盤節點、Gmapping節點和地圖服務節點。
3.2導航設計
ROS提供的Navigation導航框架結構如圖4所示,顯然MOVE_BASE導航功能包中包括全局路徑規劃和局部路徑規劃兩部分,即在已構建好的地圖的基礎上,通過配置全局和局部代價地圖,從而支持和引導路徑規劃的實施。為了保證導航效果的準確,通過AMCL定位功能包進行護理床的位置定位[8]。獲取目標點的位置后,MOVE_BASE功能包結合傳感器信息,在路徑規劃的作用下,控制指令,控制護理床完成相應的運動。
4圖像處理模塊設計
圖像處理模塊設計主要分為圖像預處理、模型訓練和卷積神經網絡三大部分,通過TCP通信協議進行通信,TCP通信是一種面向連接的通信,可完成客戶端(樹莓派)和服務端(PC)的信息傳遞[9]。下面主要對卷積神經網絡部分進行介紹。
4.1卷積神經網絡訓練流程
通過相機采集到的缺陷和問題圖像作為訓練樣本,這部分是檢測飛機表面缺陷的關鍵一步,然后對訓練樣本進行訓練,具體步驟如下所示。(1)訓練標記數據:首先使用圖像預處理中標記好的道路故障提取出來,通過卷積神經網絡對標記框內的目標數據進行訓練;(2)提取特征數據:將道路故障的類型統計并歸納;(3)誤差反饋學習:對測試樣本進行誤差反饋學習,并進行測試;(4)優化訓練數據:將得到的測試結果與設定的故障分類結果進行誤差對比,不斷優化訓練集,最終得到理想的訓練數據。
4.2缺陷檢測流程
缺陷檢測流程如圖5所示,首先輸入缺陷原始圖像,通過特征提取網絡,將處理后的圖像使用檢測器進行檢測,其中檢測器里為卷積神經網絡訓練后得到的模型,最終缺陷檢測后得到的識別后的圖像,并反饋出來。
4.3實驗測試
鋁合金表面缺陷主要有碰傷、刮花、凸粉、臟點等常見的缺陷,下面將以這四種為主要對象進行檢測訓練,各自訓練集數量為1000張。通過卷積神經網絡對缺陷的特征進行提取和分類,最終實現了缺陷的檢測。本次實驗測試的樣本為200張,每種缺陷50張,均采集自鋁合金材料表面且與訓練樣本一致,實驗結果如表1所示。由表1可知,檢測臟點的準確率高達98%,刮花和凸粉的準確率也達到94%,但碰傷的準確率相對較低,只有88%。可能造成的原因是:①硬件原因導致采集的圖像清晰度比較低;②碰傷缺陷不明顯,無人機難以識別;③訓練的數據集較少,特征學習誤差大;但最后結果是滿足了設計需求,還需進一步改進。
5總結與展望
卷積神經網絡的深度范文5
究竟深度學習、機器學習與人工智能的關系是什么?能為人類帶來怎樣的改變?《中國信息化》記者采訪到了IEEE的兩位專家,為讀者解答關于人工智能與機器學習的技術與應用趨勢。
常規人工智能幫助機器自學
首先,我們需要明確一個問題,深度學習和人工智能之間的關系是什么?
Steve Furber博士是IEEE會士,“歐盟人腦計劃”神經形態計算系統項目和SpiNNaker計劃的負責人,目前擔任英國曼徹斯特大學計算機科學學院教授。對于這個問題,Steve Furber表示,分清楚通用人工智能(AGI)和常規人工智能(或機器學習)之間的區別非常重要。前者是指機器能夠獲得像人類一樣的智慧和能力,而后者是指開發出各種算法來讓機器通過對數據進行深層次的統計分析以進行“自學”。
目前看來,通用人工智能的發展依然任重道遠。而深度學習是機器學習(常規人工智能)算法的其中一種,最初的發展來源于吉奧夫.辛頓(Goeff Hinton)的大力推動。大概十年前,吉奧夫.辛頓重新整理了他在上個世紀80年代的研究成果并將其拓展為深度神經網絡理論。他發現電子計算機技術經歷了這樣一段時間發展,已經取得了日新月異的進步,很多在上世紀無法實現的技術在當時已經能夠實現了。另外,他也在學習算法的一些分支領域中有了突破性的研究。
所以,現在很多在應用領域中性能最佳的機器學習算法都是基于模仿人類大腦結構的神經網絡設計而來的。
Kevin Curran博士是IEEE高級會員,IEEE互聯網安全領域專家,英國厄爾斯特大學計算機科學專業教授、智能環境與虛擬世界研究實驗室團隊總負責人,曾參與多個“歐盟框架計劃”科研項目及技術轉移項目。
Kevin Curran表示,人工智能涵蓋的領域十分廣泛,深度學習只是其中的一個分支,并隸屬于機器學習的范疇。至今為止,人工智能的概念仍是非常寬泛的。因此,為了實現多樣性的應用,人工智能需要有自主“思考”能力與機器學習技術的支持,深度學習便是幫助機器實現“獨立思考”的其中一種方式。
所謂深度學習,就是將數據輸入系統后,通過建模及模擬人腦的神經網絡從而進行學習的技術。
他說,我們可以這樣來比喻,像生物神經元一樣,神經網絡系統中有一系列分層排列的模擬神經元(信息傳遞的連接點),且經過每個神經元的響應函數(又稱“激活函數”)都會分配一個相應的“權值”,表示彼此間的連接強度。通過每層神經元相互“連接”,計算機就可以由達到最佳方案時所有神經元的加權和,從而可以即時實現這一決策方案。
當然,計算機也會參考類似的先例,在龐大的數據庫中調出對應的決策方案,如此復雜的決策過程都是由計算機在深度神經網絡內部自動完成的。不過對于這一點,人類更勝一籌,因為人類可以直接對比不同決策的測試結果,在總體上更直觀地評估深度學習推算的決策方案。可以預見,深度學習將與其它各項技術結合,持續深化人工智能的技術發展及應用領域。
深度學習解決社會難題
明確了深度學習和人工智能的關系,再來看看最近深度學習取得的技術突破體現在哪些方面?這些突破離商用或者離我們的生活有多遠?
Steve Furber表示,繼當初杰夫. 辛頓的突破之后,相關領域的科研毫無疑問已經取得了長足的發展。他認為其中最重大的一項成就,應該就是Yann LeCun在卷積神經網絡領域的研究成果。卷積神經網絡作為最有效的深層神經網絡,現在已經被越來越廣泛地運用到了很多智能應用之中,并且它們也越來越像人類大腦了。比如現在常常在用的Google, Siri和Facebook等都應用了卷積神經網絡。
Kevin Curran則表示,目前深度學習在計算機視覺,自動語音識別,自然語言處理,音頻識別和生物信息學等領域都取得了技術性突破,并在不同的應用領域都展示了深度學習的極佳效果。全球IT行業巨頭Google, Microsoft, Facebook等企業已經紛紛把深度學習作為重點項目,應用到他們的各種研究項目。
那么,對于深度學習和人工智能的商業化會首先應用在哪些領域?
Steve Furber表示,深度學習和人工智能的商業化應用已經率先在語音識別系統方面得到實現,例如Apple公司的Siri,微軟公司的Cortana等。
Kevin Curran則認為,深度學習可以用來解決任何具有對抗性的問題,例如需要用到策略的博弈,各種比賽,戰爭或金融交易。短期內,它可被用于智能手機助手,優化其輔助功能;但從長遠來看,它將能夠幫助科學家攻克諸如氣候模擬、醫療疾病分析等社會難題。同時,深度學習也有助于研發反應更加迅速的機器人,可以更智能地應對改變環境因素時的情景。最終,深度學習將能迅速地推進科研進度。憑借其強大的運算性能及龐大的數據分析,科研人員可以產出更多研究碩果,有望在更短的時間內實現對現有技術的重要突破。
而對于在其他領域的應用發展,Kevin Curran認為,醫療領域是目前深度學習和人工智能取得重要成果的關鍵領域之一。他說,深度學習能夠探測未來個人健康的潛在風險。它可以通過一系列健康大數據中尋找疾病的致病機理,從而實現在健康和疾病相關研究領域的重大突破。這僅靠人工計算是永遠不可能實現的。
而對于中國目前非常關注的智能制造領域,Kevin Curran認為,制造機器人是深度學習在應用領域的經典案例。深度學習的機器人能夠自動適應外部環境變化。舉個例子,現階段的機器人都需要事先編程才能精準地完成相應的任務。一旦要讓它們完成程序以外的任務,就必須重新改寫程序代碼。例如,專門負責修理某車型的機器人面對一款完全不同的車型時便不能順利完成修理任務。而具備深度學習技術的機器人就不一樣了,即時讓它們去修理從來沒有“見”過的車型,它們也可以自動重新調整算法和技術,順利完成修理工作。
中國占據一席之地
人工智能研究的起步,一般被認為是在20世紀50年代。中國則遲至80年代,才實質性進入人工智能研究領域?,F在,在深度學習和人工智能領域,中國和世界的差距主要體現在哪些方面?
Steve Furber認為目前在深度學習方面最前沿的研究仍然主要集中在包括Google以及DeepMind和Facebook等為數不多的幾家大型科技公司的研發部門之中。但是,近年來美國也有致力于這一領域的創業公司如雨后春筍般不斷涌現。可以預見,在未來這領域內的技術研究將有突破性的進展。
卷積神經網絡的深度范文6
人工智能的概念已提出60年,從原來的理論框架體系的搭建,到實驗室關鍵技術的準備,如今已開始進入全新的發展階段――產業化。
目前,從基本的算法到腦科學研究,人工智能都還沒有突破性進展的可能性。但是,以深度神經網絡為代表的人工智能,結合日新月異的大數據、云計算和移動互聯網,就可以在未來5到10年改變我們的世界。
人工智能+時代的兩大機遇
人工智能不僅將替代簡單重復的勞動,還將替代越來越多的復雜的高級腦力活動,創造一個個新的機會。可以說,任何一個行業、企業或今天的創業者,如果不用人工智能改變今天的生產和生活方式,5年后一定會出局。
第一個趨勢是以語音為主導、以鍵盤和觸摸為輔助的人機交互時代正在到來。如今越來越多的設備不再需要屏幕,越來越多的場景我們不用直接碰觸。比如,想把燈光調亮,想打開五米之外的設備,我們的手沒法直接觸碰。再如,開車時不方便用手、用眼做其他事情。這時,語音就成為最主要的一個交互方式。
第二個趨勢是人工智能正在全球范圍內掀起一股浪潮,“人工智能+”的時代到來,而且會比我們想象的還要快。為什么呢?麥肯錫分析認為,當前45%的工作可以被技術自動化,不只是簡單重復性的工作,CEO20%的工作也可以被機器取代。《科學》雜志預測,2045年人工智能會顛覆全球50%、中國77%的就業。也就是說,今天的我們3/4的工作30年后會被人工智能取代。埃森哲認為,到2035年人工智能會讓12個發達國家經濟增長率翻一倍。我國的增長率只有比這還高,才對得起今天的時代機遇。
從科大訊飛的情況可以看出,人工智能將迎來兩大產業機遇。
第一,未來3到5年,萬物互聯的時代到來,以語音為主、鍵盤觸摸為輔的人機交互將廣泛應用。第二,未來5到10年,人工智能會像水和電一樣進入各行各業,深刻改變我們的生活。
認知智能是最大技術瓶頸
人工智能技術有兩種分類方法。一種分為強人工智能和弱人工智能;另一種是訊飛研究院提出的、跟技術演進路徑相關的分類,分成計算智能、感知智能和認知智能。
計算智能就是機器能存會算。就像當年IBM的深藍電腦下象棋超過卡斯帕羅夫,典型的就是因為運算能力強,提前算到了所有的結果。
感知智能,比如語音合成技術,能夠讓機器開口說話。再如語音識別技術,就像今天的演講,后臺系統把它變成文字,準確率可達95%。
認知智能是讓機器具備能理解、會思考的能力。這是最大的挑戰,也是大家最熱切期待的技術突破。工業革命讓我們從繁重的體力勞動中解放出來,未來的認知智能會讓人從今天很多復雜的腦力勞動中解放出來。
科大訊飛選擇以語音為入口解決認知難題,進行認知革命。以人機交互為入口的目的,就是為了解決自然語言理解的技術難題。這個入口可以把人類的智慧最便捷地匯聚到后臺,供機器學習和訓練,也可以使后臺人工智能的成果最簡單直接地輸出,從社會不斷取得它學習需要的反饋信息,在此基礎上實現知識管理和推理學習。
科大訊飛承擔的科技部第一個人工智能重大專項――高考機器人。目標是為了“考大學”,但其核心技術正是語言理解、知識表達、聯想推理和自主學習。
人工智能技術正走向產業化
目前,科大訊飛的人工智能研究已經取得了階段性成果。
在教育行業,科大訊飛的機器人通過構建學生全過程的學習數據和老師上課的數據,提升了課堂效率,原來45分鐘的課堂,現在15分鐘就搞定。因為大量的內容學生都是知道的,老師只需向個別沒掌握的學生單獨講授。這樣,老師就有時間把課堂的重點放在大家都不了解的知識上,學生可以用大量時間進行啟發式學習。借助這些手段,學生的重復性訓練可以降低50%以上。
在醫療行業,科大訊飛利用語音解決門診電子病歷,利用人工智能輔助診療。學習最頂尖醫療專家知識后的人工智能產品,可以超過一線全科醫生的水平。當前,醫療行業一線最缺的是全科醫生和兒科醫生,引入人工智能技術就可以緩解醫療資源短缺壓力。
科大訊飛的人工智能技術還應用在汽車領域。在寶馬汽車去年的國際測試中,科大訊飛以86%的準確率名列第一。
在客服領域,機器已經替代掉了30%的人工服務。目前,安徽移動呼叫中心有75%的服務內容已被機器替代。
機器人還將從服務后臺走向前端。今年第四季度末或明年,服務機器人將開始在銀行和電信營業廳上崗工作,它們不僅好玩、有趣,吸引人氣,還能幫客戶解決實際問題。