卷積神經網絡的核心范例6篇

前言:中文期刊網精心挑選了卷積神經網絡的核心范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。

卷積神經網絡的核心

卷積神經網絡的核心范文1

關鍵詞:樹葉識別;支持向量機;卷積神經網絡

中圖分類號 TP18 文獻標識碼:A 文章編號:1009-3044(2016)10-0194-03

Abstract: In this paper, the convolution neural network recognition in the leaves, and the process by convolution of image visualization. Experiments show that the neural network application identification convolution leaves a 92% recognition rate. In addition , this neural network and support vector machine comparative study can be drawn from the study , convolutional neural network in either speed or accuracy better than support vector machines, visible, convolution neural network in the leaves aspect has good application prospects.

Key words recognition leaves; SVM; convolutional neural network

1 概述

樹葉識別與分類在對于區分樹葉的種類,探索樹葉的起源,對于人類自身發展、科普具有特別重要的意義。目前的樹葉識別與分類主要由人完成,但,樹葉種類成千上萬種,面對如此龐大的樹葉世界,任何一個植物學家都不可能知道所有,樹葉的種類,這給進一步研究樹葉帶來了困難。為了解決這一問題,一些模式識別方法諸如支持向量機(Support Vector Machine,SVM)[1],K最近鄰(k-NearestNeighbor, KNN)[2]等被引入,然而,隨著大數據時代的到來,這些傳統分類算法暴露出越來越多的不足,如訓練時間過長、特征不易提取等不足。

上世紀60年代開始,學者們相繼提出了各種人工神經網絡[3]模型,其中卷積神經網絡由于其對幾何、形變、光照具有一定程度的不變形,因此被廣泛應用于圖像領域。其主要特點有:1)輸入圖像不需要預處理;2)特征提取和識別可以同時進行;3)權值共享,大大減少了需要訓練的參數數目,是訓練變得更快,適應性更強。

卷積神經網絡在國內研究才剛剛起步。LeNet-5[4]就是一種卷積神經網絡,最初用于手寫數字識別,本文研究將卷積神經網絡LeNet-5模型改進并應用于樹葉識別中。本文首先介紹一下卷積神經網絡和LeNet-5的結構,進而將其應用于樹葉識別,設計了實驗方案,用卷積神經網絡與傳統的模式識別算法支持向量機(SVM)進行比較,得出了相關結論,并對進一步研究工作進行了展望。

2人工神經網絡

人工神經網絡方面的研究很早就已開展,現在的人工神經網絡已經發展成了多領域、多學科交叉的獨立的研究領域。神經網絡中最基本的單元是神經元模型。類比生物神經元,當它“興奮”時,就會向相連的神經元發送化學物質,從而改變這些神經元的狀態。人工神經元模型如圖1所示:

上述就是一個簡單的神經元模型。在這個模型中,神經元接收來自n個其他神經元傳遞過來的輸入信號,這些信號通過帶權重的w進行傳遞,神經元接收到的總輸入值將與神經元的閾值進行比較,然后通過“激活函數”來產生輸出。

一般采用的激活函數是Sigmoid函數,如式1所示:

[σz=11+e-z] (1)

該函數圖像圖2所示:

2.1多層神經網絡

將上述的神經元按一定的層次結構連接起來,就得到了如圖3所示的多層神經網絡:

多層神經網絡具有輸入層,隱藏層和輸出層。由于每一層之間都是全連接,因此每一層的權重對整個網絡的影響都是特別重要的。在這個網絡中,采用的訓練算法是隨機梯度下降算法[5],由于每一層之間都是全連接,當訓練樣本特別大的時候,訓練需要的時間就會大大增加,由此提出了另一種神經網絡―卷積神經網絡。

2.2卷積神經網絡

卷積神經網絡(CNN)由于在圖像分類任務上取得了非常好的表現而備受人們關注。發展到今天,CNN在深度學習領域已經成為了一種非常重要的人工神經網絡。卷積神經網絡的核心在于通過建立很多的特征提取層一層一層地從圖片像素中找出關系并抽象出來,從而達到分類的目的,CNN方面比較成熟的是LeNet-5模型,如圖4所示:

在該LeNet-5模型中,一共有6層。如上圖所示,網絡輸入是一個28x28的圖像,輸出的是其識別的結果。卷積神經網絡通過多個“卷積層”和“采樣層”對輸入信號進行處理,然后在連接層中實現與輸出目標之間的映射,通過每一層卷積濾波器提取輸入的特征。例如,LeNet-5中第一個卷積層由4個特征映射構成,每個特征映射是一個24x24的神經元陣列。采樣層是基于對卷積后的“平面”進行采樣,如圖所示,在第一個采樣層中又4的12x12的特征映射,其中每個神經元與上一層中對應的特征映射的2x2鄰域相連接,并計算輸出。可見,這種局部相關性的特征提取,由于都是連接著相同的連接權,從而大幅度減少了需要訓練的參數數目[6]。

3實驗研究

為了將LeNet-5卷積網絡用于樹葉識別并檢驗其性能,本文收集了8類樹葉的圖片,每一類有40張照片,如圖5所示的一張樹葉樣本:

本文在此基礎上改進了模型,使用了如圖6卷積神經網絡模型:

在此模型中,第一個卷積層是由6個特征映射構成,每個特征映射是一個28*28的神經元陣列,其中每個神經元負責從5*5的區域通過卷積濾波器提取局部特征,在這里我們進行了可視化分析,如圖7所示:

從圖中可以明顯地看出,卷積網絡可以很好地提取樹葉的特征。為了驗證卷積神經網絡與傳統分類算法之間的性能,本文基于Python語言,CUDA并行計算平臺,訓練同樣大小8類,一共320張的一批訓練樣本,采用交叉驗證的方法,得到了如表1所示的結論。

可見,無論是識別率上,還是訓練時間上,卷積網絡較傳統的支持向量機算法體現出更好地分類性能。

4 總結

本文從人工神經網絡出發,重點介紹了卷積神經網絡模型LeNet-5在樹葉識別上的各種研究并提取了特征且進行了可視化,并與傳統分類算法SVM進行比較。研究表明,該模型應用在樹葉識別上較傳統分類算法取得了較好的結果,對收集的樹葉達到了92%的準確率,并大大減少了訓練所需要的時間。由于卷積神經網絡有如此的優點,因此在人臉識別、語音識別、醫療識別、犯罪識別方面具有很廣泛的應用前景。

本文的研究可以歸納為探討了卷積神經網絡在樹葉識別上的效果,并對比了傳統經典圖像分類算法,取得了較好的分類精度。

然而,本文進行實驗的樣本過少,當數據集過多的時候,這個卷積神經網絡算法的可行性有待我們進一步的研究;另外,最近這幾年,又有很多不同的卷積神經網絡模型出現,我們會繼續試驗其他的神經網絡模型,力求找到更好的分類算法來解決樹葉識別的問題。

參考文獻:

[1]Bell A, Sejnowski T. An Information-Maximization Approach to Blind Separation and Blind Deconvolution[J]. Neural Computation, 1995, 7(6):1129-59.

[2]Altman N S. An Introduction to Kernel and Nearest-Neighbor Nonparametric Regression[J]. American Statistician, 1992, 46(3):175-185.

[3]Ripley B D, Hjort N L. Pattern Recognition and Neural Networks[M]. Pattern recognition and neural networks. Cambridge University Press,, 1996:233-234.

[4]Lécun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.

卷積神經網絡的核心范文2

關鍵詞:ROS;表面缺陷;圖像采集;神經網絡;模型訓練

飛機蒙皮是包圍在飛機骨架結構外且用粘接劑或鉚釘固定于骨架上,形成飛機氣動力外形的維形構件,在飛機正常工作狀態下扮演著重要的角色,一旦飛機蒙皮出現缺陷等問題,需要及時的反饋出來并且維修。傳統的飛機表面缺陷檢測方式大多數是由人工來完成,會存在效率低、成本高等缺點,甚至會出現檢測失誤的情況。本文就針對鋁合金表面缺陷檢測方面,提出一種基于ROS的飛機表面缺陷檢測系統,采用移動機器人底盤定位和導航技術,結合深度學習、圖像處理等技術檢測出存在缺陷的位置并標記出來,通過機器代替傳統人工的方式,旨在提高檢測效率和檢測精度,為飛機表面缺陷檢測提供一種方式。

1系統的總體設計

飛機表面缺陷檢測系統主要由檢測模塊、ROS機器人模塊、圖像處理模塊三大部分組成,系統的總體結構框圖如圖1所示。系統的具體工作原理為:在某一區域范圍內,檢測模塊以樹莓派為核心控制器,通過檢測模塊中的圖像采集系統對鋁合金材料表面進行圖像采集,將采集到的圖像通過TCP通信傳輸到圖像處理模塊上[4]。圖像處理模塊利用深度學習中設計的卷積神經網絡進行數據訓練,得到檢測模型,將檢測模型應用到圖像預處理上。此時,OpenCV對檢測模塊得到的圖像進行圖像處理[5],最終得到缺陷出現的位置。當前區域檢測完畢后,通過ROS機器人模塊的定位和導航功能,驅動運動執行機構工作,并移動到相鄰下一塊檢測區域,直到所有位置都檢測完畢。上述工作原理可實現飛機表面缺陷檢測系統,下文將對其包括的三大模塊進行說明介紹。

2檢測模塊設計

如圖2所示,系統的檢測模塊主要是包括樹莓派和攝像頭,其中樹莓派作為檢測模塊的處理器,搭建的有Ubuntu系統,是系統實現的重要組成部分。樹莓派可以提供普通計算機的功能,并且功耗低。可直接在樹莓派上安裝Keil進行開發,具有很好的開發效果,運行穩定。本次飛機表面缺陷檢測系統實現了樹莓派將攝像頭拍攝的圖片發送到圖像處理模塊上,同時也搭載ROS系統實現了移動底盤的定位和導航功能。

3ROS機器人模塊設計

ROS隨著機器人技術發展愈發受到關注,采用分布式框架結構來處理文件,這種方式允許開發者單獨設計和開發可執行文件。ROS還以功能包的形式封裝功能模塊,方便移植和用戶之間的共享。下面將介紹其建圖和導航功能的實現。

3.1建圖設計

本文在ROS系統中使用Gmapping算法軟件包實現建圖[7],在ROS系統中設計了建圖過程中各節點及節點間的話題訂閱/的關系如圖3所示。在圖3建圖節點話題關系圖上,其中橢圓形里代表節點,矩形基于ROS的飛機表面缺陷檢測系統胡浩鵬(紐約大學NewYorkUniversity紐約10003)框里代表的是主題,節點指向主題代表著該節點了主題消息,主題指向節點代表著該節點訂閱了主題消息。在建圖過程中,主要涉及激光雷達節點、鍵盤控制節點、底盤節點、Gmapping節點和地圖服務節點。

3.2導航設計

ROS提供的Navigation導航框架結構如圖4所示,顯然MOVE_BASE導航功能包中包括全局路徑規劃和局部路徑規劃兩部分,即在已構建好的地圖的基礎上,通過配置全局和局部代價地圖,從而支持和引導路徑規劃的實施。為了保證導航效果的準確,通過AMCL定位功能包進行護理床的位置定位[8]。獲取目標點的位置后,MOVE_BASE功能包結合傳感器信息,在路徑規劃的作用下,控制指令,控制護理床完成相應的運動。

4圖像處理模塊設計

圖像處理模塊設計主要分為圖像預處理、模型訓練和卷積神經網絡三大部分,通過TCP通信協議進行通信,TCP通信是一種面向連接的通信,可完成客戶端(樹莓派)和服務端(PC)的信息傳遞[9]。下面主要對卷積神經網絡部分進行介紹。

4.1卷積神經網絡訓練流程

通過相機采集到的缺陷和問題圖像作為訓練樣本,這部分是檢測飛機表面缺陷的關鍵一步,然后對訓練樣本進行訓練,具體步驟如下所示。(1)訓練標記數據:首先使用圖像預處理中標記好的道路故障提取出來,通過卷積神經網絡對標記框內的目標數據進行訓練;(2)提取特征數據:將道路故障的類型統計并歸納;(3)誤差反饋學習:對測試樣本進行誤差反饋學習,并進行測試;(4)優化訓練數據:將得到的測試結果與設定的故障分類結果進行誤差對比,不斷優化訓練集,最終得到理想的訓練數據。

4.2缺陷檢測流程

缺陷檢測流程如圖5所示,首先輸入缺陷原始圖像,通過特征提取網絡,將處理后的圖像使用檢測器進行檢測,其中檢測器里為卷積神經網絡訓練后得到的模型,最終缺陷檢測后得到的識別后的圖像,并反饋出來。

4.3實驗測試

鋁合金表面缺陷主要有碰傷、刮花、凸粉、臟點等常見的缺陷,下面將以這四種為主要對象進行檢測訓練,各自訓練集數量為1000張。通過卷積神經網絡對缺陷的特征進行提取和分類,最終實現了缺陷的檢測。本次實驗測試的樣本為200張,每種缺陷50張,均采集自鋁合金材料表面且與訓練樣本一致,實驗結果如表1所示。由表1可知,檢測臟點的準確率高達98%,刮花和凸粉的準確率也達到94%,但碰傷的準確率相對較低,只有88%??赡茉斐傻脑蚴牵孩儆布驅е虏杉膱D像清晰度比較低;②碰傷缺陷不明顯,無人機難以識別;③訓練的數據集較少,特征學習誤差大;但最后結果是滿足了設計需求,還需進一步改進。

5總結與展望

卷積神經網絡的核心范文3

關鍵詞:圖像采集和處理;圖像檢測;Gabor紋理濾波;神經網絡

DoI:10.15938/j.jhust.2016.06.009

中圖分類號:TPl83;TP391.4

文獻標志碼:A

文章編號:1007-2683(2016)06-0044-06

0.引言

鋼鐵企業為了提高競爭力,對帶鋼的生產提出了新的要求,也對帶鋼表面檢測系統提出了更高的要求,既要有更高的檢測速度還要有更加準確的檢測精度,而與此同時,跟隨機器視覺技術的發展,帶鋼表面檢測系統也得到了廣泛的研究與應用,主要研究包括:①光源技術,由于帶鋼檢測對光源要求頻度高、體積小,這限制了傳統光源在其應用,激光具有方向性好、亮度高、體積小等優點,被廣泛應用于帶鋼檢測應用中,國內的徐科等提出熱軋鋼檢測中用綠光作為激光光源,但激光照明需解決均勻性問題.②掃描技術,由于電荷耦合元件(charge-coupled device,CCD)能夠實現實時檢測,成為目前研究和應用的主流技術,但是,CCD電荷耦合器需在同步時鐘的控制下,以行為單位一位一位地輸出信息,速度較慢,而互補金屬氧化物半導體(complementary metal oxide semiconductor,CMOS)光電傳感器采集光信號的同時就可以取出電信號,還能同時處理各單元的圖像信息,速度比CCD電荷耦合器快很多,③圖像處理算法,受限于帶鋼加工過程的特性,帶鋼表面呈現出隨機紋理的特點,對于隨機紋理圖像的處理分析,目前常用的方法有共生矩陣法、頻域濾波法、分形法等,作為頻域濾波法的代表,二維Gabor濾波器有著與生物視覺系統相近的特點,廣泛應用于紋理圖像的處理分析,但是,CPU很難滿足現在的帶鋼檢測的實時要求,④分類算法,特征選擇的主流算法是主成分分析和信息增益,主成分分析存在特征向量方向不一致的問題,而且如何確定主成分存在主觀性,信息增益可以衡量特征的劣,利用它可對特征進行排序,方便后面的特征選擇,但信息增益適用于離散特征,信息增益率既適用于離散特征也適用于連續特征,被廣泛應用于特征選擇的過程中,圖像分類算法主流算法包括支持向量機和BP神經網絡,支持向量機不適用于大樣本的分類問題,BP神經網絡方法具有能夠解決非線性分類問題,對噪聲不敏感等優點,被廣泛應用于帶鋼檢測中,如王成明等提出的基于BP神經網絡的帶鋼表面質量檢測方法等,但是BP神經網絡的超參的設定往往具有隨機性,這嚴重影響了分類效果。

本文首先介紹了帶鋼表面缺陷高速高分辨率成像系統的設計,針對光源的不均勻性、圖像處理速度慢等問題,提出改進方法,然后介紹了分類器的構建,針對樣本劃分的隨機性、特征選擇的隨機性以及BP神經網絡超參設定的隨機性問題,做出改進,最后介紹試驗結果。

1.帶鋼表面缺陷高速高分辨率的成像系統的設計

1)大功率半導體均勻發光激光器技術,激光能夠保證帶鋼表面缺陷的檢出率,本系統選用808mm半導體激光器作為照明源,出光功率可達30w,亮度可達1500流明,激光照明需解決均勻性的問題,本文采用了基于鮑威爾棱鏡的激光線發生辦法,解決了激光照明的均勻性問題,其光路如圖1所示。

該方法首先在激光聚焦位置放置圓形球面透鏡,負責將發散的激光束匯聚成準平行光,同時控制光柱的粗細,然后,利用鮑威爾棱鏡的擴散效果對圓柱的一個方向進行擴束,最終形成激光線,為保證亮度及寬度的適應性,激光器出光口距離圓透鏡、鮑威爾棱鏡的距離可以精密調整,為了降低反射亮度損失,在透鏡表面鍍上808±5nm的T≥99%的增透膜。

GPU的算法分為兩個流程:訓練過程主要針對無缺陷圖像進行,通過訓練完成紋理圖像的背景建模,一方面消除背景變化帶來的干擾,另一方面形成有效的Gabor卷積參數,以便在檢測過程中得到最優的檢出效果.檢測過程對實際拍攝的缺陷圖像進行分析,首先按照GPU的核心數和緩存大小對圖像進行分解,本文所有GPU的核心數為1024,顯存2G,因此將原始圖像分解為1000塊,分別加載到1000個核心中,同時并發運行卷積運算.最后將各個窗口的卷積結果合并到一起,得到完成的濾波結果,最后借助于背景模式,將背景的干擾消除,得到干凈的缺陷區域。

3)成像系統,根據缺陷檢測的精度要求(1800m/min的檢測速度,0.25mm的精度),帶鋼的規格要求(1900 mm規格),對帶鋼進行成像系統設計,基于互補金屬氧化物半導體(CMOS)的成像芯片具有速度快,用電低等優勢,選用兩個4K線掃描CMOS相機作為成像核心器件,選用Camera Link Full接口作為數據輸出,兩個4K掃描中間重疊100mm作為圖像拼接區,兩組線激光光源與線掃描組成系統的主要成像模塊,成像系統結構如圖3所示。

2.構建分類器

檢測缺陷類別及其特征描述如表1所示:

1)訓練集和樣本集劃分.主要缺陷類別有5個,每個類別收集樣本7000,共計35000個樣本,為了避免訓練集和樣本集劃分的盲目性,采用10一折交叉驗證的方式劃分訓練集和測試集,即將樣本集分成10份,從中選1份為測試集,剩下的為訓練集,如圖4所示,究竟選擇哪一份作為測試集,需在后面的嵌套循環中實現。

2)特征選擇,缺陷區域的長度、寬度、面積、區域對比度等共計138個特征形成初始特征集合,利用信息增益率來對各個特征排序。

上述各循環組合在一起就是一個嵌套循環,其N-S盒圖如圖5所示,最外層是測試集和訓練集的10折交叉驗證,第1層是確定最優的特征數,第3層是確定最優的隱含層節點數,第4、5層是確定最優的輸入層和隱含層、隱含層和輸出層的初始權值。

經以上循環,確定D3作為測試集,最優特征數為23個,最優的隱含層節點數是46個,同時也確定了最優的初始權值,對應的3層BP神經網絡的網絡模型如圖6所示。

3.實驗結果

1)鮑威爾棱鏡與柱透鏡進行對比在實際工作距離1.5m處,采用0.1m為間隔使用光功率計測試光源功率,如圖7所示,橫軸為測試點,縱軸為測試點的光功率。實驗表明,鮑威爾棱鏡均勻性優于柱透鏡。

2)Gabor濾波方法與其他方法比較將動態閾值法+Blob分析法(方法A)和灰度共生矩陣紋理背景消除法(方法B)兩種方法與Gabor濾波方法進行比較,如圖8所示.由于缺陷與背景灰度相近(圖(a)),致使方法A缺陷丟失(圖(b)),由于缺陷與背景紋理相近(圖(d)),致使方法B產生噪聲(圖(e)),Gabor方法取得了不錯的效果(圖(e)、(圖(f)))。

3)GPU與CPU比較以4096×4096的圖像為例,選10幅有代表性圖像,利用CPU(最新的inteli7-2600處理器,4核8線程,2.6GHz,內存8G)和GPU(nVidiaGTX970,4G存顯卡)進行Ga-bor運算,計算時間如表2所示,GPU計算效率明顯優于CPU,其中CPU的平均耗時為290.4ms,而GPU的平均耗時為31.7ms。

4)檢測效果在產線速度為1775m/min,最小檢測缺陷的尺寸為0.25mm的檢測系統中,對帶鋼的主要4種類型缺陷進行檢測統計,檢測結果如表3所示。

可計算出整體檢出率99.9%,檢測準確率99.4%。

卷積神經網絡的核心范文4

2. 應用領域安防

實時從視頻中檢測出行人和車輛。

自動找到視頻中異常的行為(比如,醉酒的行人或者逆行的車輛),并及時發出帶有具體地點方位信息的警報。

自動判斷人群的密度和人流的方向,提前發現過密人群帶來的潛在危險,幫助工作人員引導和管理人流。

醫療

對醫學影像進行自動分析的技術。這些技術可以自動找到醫學影像中的重點部位,并進行對比比分析。

通過多張醫療影像重建出人體內器官的三維模型,幫助醫生設計手術,確保手術

為我們每個人提供康建議和疾病風險預警,從而讓我們生活得更加健康。

智能客服

智能客服可以像人一樣和客戶交流溝通。它可以聽懂客戶的問題,對問題的意義進行分析(比如客戶是詢問價格呢還是咨詢產品的功能呢),進行準確得體并且個性化的回應。

自動駕駛

現在的自動駕駛汽車通過多種傳感器,包括視頻攝像頭、激光雷達、衛星定位系統(北斗衛星導航系統BDS、全球定位系統GPS等)等,來對行駛環境進行實時感知。智能駕駛系統可以對多種感知信號進行綜合分析,通過結合地圖和指示標志(比如交通燈和路牌),實時規劃駕駛路線,并發出指令,控制車子的運行。

工業制造

幫助工廠自動檢測出形態各異的缺陷

3. 概念什么是人工智能?

人工智能是通過機器來模擬人類認知能力的技術。

人工智能的三種訓練方式分別是監督學習、非監督學習、強化學習。下文會一一介紹。

二、這是不是鸞尾花(分類器)1. 特征提取人類感官特征

花瓣數量、顏色

人工設計特征

先確定哪些特征,再通過測量轉化為具體數值

深度學習特征

這里先不提及,文章后面會說

2. 感知器

老師給了一道題:

要區分兩種鸞尾花,得畫出一條直線區分兩類花,你可以畫出無數條直線,但是哪條才是最好的呢?

怎么辦呢?我可是學渣啊,靠蒙!

隨便找三個數a=0.5、b=1.0、c=-2 帶入 y = ax[1] + bx[2] + c,

每朵花的兩個特征也代入x[1]、x[2],比如帶入(4, 1) 得出 y[預測] = 1,此時 y[實際] = 1 (樣本設定變色鸞尾花為 1,山鸞尾為 -1 ),所以y[實際] – y[預測] = 0.

重復以上兩步,得出所有的『實際值和預測值的差距的綜合,記為 Loss1

可怎么知道是不是最優的直線呢?繼續猜??!繼續懵!像猜世界杯一樣猜就好了。

通過沿 y = ax[1] + bx[2] + c 梯度(梯度就是求導數,高中有學的!)下降的方向繼續猜數字,具體過程大概是這樣子的:

上述所屬的實際值和預測值的差距 實際上是一種損失函數,還有其他的損失函數,比如兩點間直線距離公式,余弦相似度公式等等可以計算預測結果和實際結果之間的差距。

劃重點:損失函數就是現實和理想的差距(很殘酷)

3. 支持向量機

*判斷依據的區別也導致了損失函數的不同(但依舊是猜)

直觀的說,縫隙(上圖的分類間隔)越大越好

4. 多分類

如果有多種花怎么辦?

一趟植物課上,老師請來了牡丹鑒別專家、荷花鑒別專家、梅花鑒別專家。老師拿出了一盤花給各個專家鑒定,牡丹角色這是牡丹的概率是0.013、荷花專家角色這是荷花的概率是0.265、梅花專家角色這是梅花的概率是0.722。

老師綜合了各位專家的意見后,告訴同學們,這是一盤梅花。

小明:這老師是不是傻,一朵花是啥都不知道,還要請三個專家

老師:你給我滾出去

實際計算過程就是通過用 2.2 和 2.3 等方法訓練的二分類器,分別輸出對應的分類值(比如三種花的分類器分別輸出-1,2,3),那怎么把這些分類值轉化成概率呢?這就要用到歸一化指數化函數 Softmax(如果是二分類就用 Sigmoid函數),這里就不拿公式來說,可以直觀的看看書中這個表格就懂了:

5. 非監督學習第 2.2 能從預測值和實際值的差別判斷”是否猜對了”,是因為生物老師告訴了學渣,哪些樣本是山鸞尾花,哪些變色鸞尾花。但如果老師連樣本實際的類別也不告訴學渣(非監督式學習),學渣不知道樣本分別是什么花。

那該怎么辦呢?

機器學習的入門課程總是在講鸞尾花,也是夠煩的。

這里我們換個場景:

假如你是某直播老板,要找一堆小主播,這時候你有一堆應聘者,然而你只有她們的胸圍和臀圍數據。一堆8份簡歷擺在你面前,你是不知道哪些更加能干( capable啊 ! ) 的,更能吸引粉絲。你也沒空全部面試,那應該怎么挑選呢?

這時候你把她們的胸圍和臀圍都標準在一張二維坐標圖上:

這是你隨手一劃,把她們分成兩組,可以說“聚成兩類了”。

用某種計算方式(比如平均值)找到這個聚類的中心。點離聚類中心越近,代表越相似。

求出每個聚類中的點到藍色聚類中心點和黃色聚類中心的距離

如果一個點離黃色聚類中心更近卻被你隨手劃到了藍色分組(上圖用紅色邊框標出的小方塊),那么就把它劃入黃色分組。

這時因為分組范圍和分組內包含哪些小姐姐都發生了變化。這時候你需要以 步驟3 的方法重新計算聚類的中心

重復步驟 4 (算點中心距離)-> 重復步驟 5 (調整黃色小姐姐們和藍色小姐姐們)-> 重復步驟 3 (算中心),一直循環這個過程直到藍色和黃色聚類下所包含的小姐姐不再發生變化。那么就停止這一循環。

至此,小姐姐們已經被分為兩大類。你可以得出兩類小姐姐:

計算機在沒有監督的情況下,成功把小姐姐們分成兩類,接下來就可以在把兩種主播各投放2個到平臺看看誰更能干。效果更好的,以后就以那個聚類的樣本特征擴充更多能干的主播。

小明:有什么了不起的,我一眼就能看出黃色小姐姐更能干

老師:你給我滾出去

上面聚類小姐姐的算法就叫做 K 鄰近算法,K 為要聚類的數量(這需要人工指定),上述例子 K=2.那么如果分成三類就是 K=3,訓練過程可以看下圖,有個直觀的了解:

三、這是什么物品(圖像識別)1. 特征提取人類感官特征

花瓣顏色、花瓣長度、有沒有翅膀(區分貓和小鳥)、有沒有嘴巴和眼睛(飛機和小鳥)

感官的特征通過量化得到顏色(RGB值)、邊緣(圓角、直角、三角)、紋理(波浪、直線、網格)數值特征

人工設計特征

深度學習特征

通過卷積提取圖像特征

劃重點:卷積的作用就是提取圖像有用信息,好比微信把你發出的圖片壓縮了,大小變小了,但是你依舊能分辨出圖像的主要內容。

1維卷積 1*5+2*4+3*3=22、1*4+2*3+3*2=16、1*3+2*2+3*1=10

2維卷積 1*2+3*0+2*4+4*2=28…

通過卷積就可以得到圖像的特征信息,比如邊緣

垂直邊緣檢測

水平邊緣檢測

方向梯度直方圖

2. 深度學習和傳統模式分類的區別既然有傳統模式分類,為什么還要神經網絡呢?

區別就在于傳統的模式分類需要人為設置特征,比如花瓣長度、顏色等等。而深度學習省略掉人工設計特征的步驟,交由卷積操作去自動提取,分類器的訓練也同時融入到神經網絡當中,實現了端對端的學習

劃重點:端對端學習(End to End)就是從輸入直接得出輸出,沒有中間商,自己賺差價。

3. 深(多)層神經網絡存在的問題一般來說,神經網絡層數增多,會提高準確率。但是,網絡層數加深導致:

過擬合學渣把高考預測試題的答案都背一遍而不理解,考試的時候,如果試題是考生背過的,那么考生就能答對;如果沒背過那么考生就不會回答了。我們就可以說,學渣『過擬合了預測試題。

與之對應的是:欠擬合渣得不能再渣的人,連預測試題都背不下來,即使考試試題和預測試題一模一樣,他也只能答對30%。那么就可以說這種人~~欠揍~~欠擬合。

有興趣的還可以了解一下梯度彌散和梯度爆炸下面是網上很火很勵志的一個公式,權重在多層網絡中相乘,比如每一層的權重都是0.01,傳遞100層 就是 0.01 的100 次方,變得非常小,在梯度下降 Gradient Descent 的學習過程中,學習將變得非常慢。(好比從一個碗頂部放下一個小球,在底部徘徊的速度會越來越慢)

非凸優化學習過程可能在局部最小值(極小值)就停止了,因為梯度(斜率)為零。在局部最低停止而不是全局最低停止,學習到的模型就不夠準確了。

看圖感受一下

你說的底不是底,你說的頂是什么頂

解決的辦法

均勻初始化權重值(Uniform Initialization)、批歸一化(Batch Normalization)、跳遠鏈接(Shortcut)涉及到比較多數學邏輯,這里就不展開說明了。

4. 應用人臉識別

自動駕駛把汽車頂部拍攝到的圖片切分層一個個小方塊,每個小方塊檢測物體是車還是行人還是狗,是紅燈還是綠燈,識別各種交通標識等等。再配合雷達等判斷物體距離。

四、這是什么歌(語音識別)1. 特征提取人類感官特征音量、音調、音色

通過采樣、量化、編碼。實現聲波數字化(聲波轉電信號)

人工設計特征梅爾頻率在低頻部分分辨率高,高頻部分分辨率低(這與人耳的聽覺感受是相似的,即在一定頻率范圍內人對低頻聲音比較敏感而對高頻聲音不敏感)。

關系為:

在每一個頻率區間對頻譜求均值,它代表了每個頻率范圍內聲音能量的大小。一共有26個頻率范圍,從而得到26維的特征。倒譜操作后,得到 13 維的梅爾頻率倒譜系數(Mel-FrequencyCepstralCoefficients,MFCCs)

深度學習特征通過 3.1 所介紹的 1維卷積進行特征提取

2. 應用音樂風格分類

輸入:音頻文件特征:聲音特征輸出:音樂種類

語音轉文字

輸入:音頻文件特征:聲音特征輸出:聲學模型(比如26個英文字母)

再把聲學模型送入另外的學習器

輸入:聲學模型特征:語義和詞匯輸出:通順的語句(可以查看第6點,如何讓計算機輸出通順的語句)

聽歌識曲通過窗口掃描(把音樂分割成一小段一小段的),然后通過4.1說的方法提取這一段的特征,就得到一個特征向量。對數據庫的歌和用戶錄音的歌做同樣的操作得到特征向量,然后兩兩之間計算相似度(兩個向量的距離可以用余弦公式算夾角大小或者兩點間距離公式來算)

五、視頻里的人在做什么(視頻理解,動作識別)1. 介紹視頻,本質是由一幀幀圖片連續組成的,因為人視覺的暫留效應(Persistence of vision,人眼在觀察景物時,光信號傳入大腦神經,并不立即消失,讓人產生畫面連續的印象),看上去是連續的,也就是視頻。識別視頻里面有什么物體,可以用上文說過的圖像識別和分類方法去實時分析單幀圖像,比如:

但是視頻相對于圖像有一個更重要的屬性:動作(行為)。

怎么從一個連續的視頻分析動作呢?

舉個例子,像上圖那只二哈,腿部的像素點相對于黃色的方框(框和狗相對靜止)在左右”移動”,這里的”移動”我們引入一個概念——光流(一個像素點從一個位置移動到另一個位置),通過像素點移動形成的光流作為神經網絡的訓練特征(X),『奔跑作為訓練目標值(Y),經過多次的迭代訓練,機器就可以擬合得出一個 Y = f(X) 用于判斷視頻中的物體(Object)是否在奔跑。

2. 光流假設,1)相鄰兩幀中物體運動很小2)相鄰兩幀中物體顏色基本不變

至于神經網絡是怎么跟蹤某個像素點的,這里不展開說明。

第 t 時刻的點指向第 t+1 時刻該點的位置,就是該點的光流,是一個二維的向量。

整個畫面的光流就是這樣:

整個視頻的光流(軌跡)是這樣的

不同的虛線代表圖像上某個點移動的軌跡

假設視頻寬width、高 height、一共有 m 幀,那么該視頻可以用 width * height * m * 2 的張量(就是立體的矩陣)來表示,把向量喂到神經網絡即可進行分類訓練。

進一步優化,可以把光流簡化為8個方向上的,把視頻某一幀的所有光流累加到這八個方向上得出某一幀的光流直方圖,進一步得出 8 維的特征向量。

六、一段文字在表達什么(自然語言處理)1. 特征提取

這里有4個句子,首先進行分詞:

去掉停用詞(副詞、介詞、標點符合等等,一般在文本處理上都有一個停用詞表)

編碼詞表

句子向量化

這樣就得到一個句子19 維 的 特征向量,再把這19維的特征向量用普通卷積網絡或者 LSTM 循環神經網絡作為 X 讀入(喂它吃東西),文本的分類(比如積極、消極)作為訓練標簽值 Y,迭代訓練得到的模型可以用于情感分析或文本分類等任務。

2. 進階詞向量化厲害-牛逼、計算機-電腦是同義詞。光從上面的步驟,我們可能認為厲害和牛逼是兩個完全不一樣的詞語,但其實他們是近似的意思,怎么才能 AI 學習知道這點呢?需要從多個維度去進一步給詞語更豐富的內涵,比如:

舉例來說,男性用1表示,女性用0表示,不帶性別傾向就是0.5。多個維度擴展之后,就得到“男人”這個詞的特征向量(1,0, 0.5,0,1)

逆向文檔頻率一個詞在一類文章出現的多,而在另外分類的文章出現的少,越能說明這個次能代表這篇文章的分類。比如游泳在體育類的文章中出現的多(2次),而在工具類的文章出現的少(0次),相比其他詞語(1次)更能代表體育類的文章。

假設句子中有 N 個詞, 某個詞出現次數為 T,一共有 X 個句子,該詞語在 W 個句子出現,則逆向文檔頻率 TF-IDF 為 T/N * log(X/W)

3. 應用

七、讓計算機畫畫(生成對抗網絡)從前有個人,以賣臨摹名家的畫來賺錢。他開始臨摹一副名畫:

第一次他畫成這樣子了:

鑒賞家一眼就看出來是假的,他不得不回去畫第二幅畫、第三幅畫…

經過了10萬次”畫畫-鑒別”的過程,這個臨摹者畫出來的畫,鑒賞家居然認為這是真的原作,以高價買入了這副畫。

這種生成(畫畫)- 鑒別(鑒偽)的模式正是生成對抗網絡(GAN)的核心。

通過生成器,把隨機像素點有序排列形成具有意義的畫面,再通過鑒別器得出生成的畫面的分類、和真實畫面之間的差距,并告訴生成器要往什么方向去優化。多輪的訓練之后,生成器就學會了畫『真畫了。

計算機是怎么把隨機像素點變成有意義的畫面的呢?我們通過一個簡化的例子來看看。

直線上一些均勻分布的點,經過 y=2x+1變換后變成了非均勻分布。一張隨機排布的像素點畫面,經過某個f(x) 變換后就會變成具有某種意義的畫面,而生成器就是不停地去近似f(x), 就像 2.2 感知器擬合一條直線那樣。

下圖為計算機生成手寫數字的過程

劃重點:函數可以變換數據分布(庫克說:可以把直的變成彎的)

八AlphaGo是怎么下棋的?(強化學習)1. 粗略認知監督/無監督訓練:盡可能讓每一次任務正確強化學習:多次任務是否達成最終目標

每一次任務都準確,不就是能達成最終目標嗎?我們來看一個例子:

一家批發商店的老板愛麗絲要求她的經理比爾增加銷售額,比爾指導他的銷售員多賣一些收音機,其中一個銷售員查爾斯弄到了一個可以獲利的大單,但是之后公司因為供應緊缺無法交付這些收音機。

應該責怪誰呢?

從愛麗絲的角度來看,查爾斯的行為讓公司蒙羞了(最終任務沒完成)。

但是從比爾的角度,查爾斯成功地完成了他的銷售任務,而比爾也增加了銷量(子任務達成)?!缎闹巧鐣返?.7章

2. AlphaGo下圍棋,最古老的辦法是決策樹,從左上角的位置開始到右下角的位置遍歷,每一個空的位置就是一個分支,然后預測每種棋局贏的概率,找出最大概率的走法玩。這就是落子預測器。

但是由于圍棋19X19的超大棋盤,空間復雜度高達10的360次方,要窮盡所有的走法幾乎是不可能的,如大海撈針。

要降低復雜度,關鍵是要降低搜索的廣度和深度。

我們栽培一顆小盆栽的時候,如果不對枝葉進行修剪,那么養分就會浪費在沒長好的枝條上。需要及時對枯萎或者異常的枝條進行修剪以保證養分往正常(或者說我們希望它生長的方向)枝條上輸送。

同樣的道理,有限的計算機算力如果浪費在窮盡所有圍棋走法上,將導致棋局推演非常慢,而且耗費大量的時間也難以找到最優的方案。

是否可以通過 “修剪” 落子選擇器這顆龐大的決策樹,加快較優落子方案的選擇呢?怎么判斷哪些是好的”枝條”,哪些是壞的”枝條”呢?這就需要棋局價值評估器(哪個棋盤的贏的概率更大),把沒有價值的棋局先去掉不再往下遍歷,這就同時減少了搜索的廣度和深度。

其中,落子預測器有個名稱,叫做政策網絡(policy network)價值評估器有個名稱,叫做價值網絡(value network)政策網絡(policy network)利用蒙特卡洛搜索樹從當前棋局推演(隨機下棋)到最終的棋局,最終勝則回報為正,反之回報為負。之后該算法會反向沿著該對弈過程的落子方案步步回溯,將路徑上勝者所選擇的落子方案分數提高,與此對應將敗者的落子方案分數降低,所以之后遇到相同局面時選擇勝者方案的概率就會增加。因此可以加速落子選擇,稱為快速走子網絡。

通過 政策網絡 + 價值網絡 + 蒙特卡洛搜索樹 實現最優落子方案的選擇,同時兩個機器人互相對弈,這樣就不停地訓練網絡,學習落子方案。

3. 定義接下來說一下枯燥的定義

什么是強化學習?

當我們關注的不是某個判斷是否準確,而是行動過程能否帶來最大的收益時使用強化學習(reinforeement learning)。比如在下棋、股票交易或商業決策等場景中。

強化學習的目標是要獲得一個策略(poliey)去指導行動。比如在圍棋博弈中,這個策略可以根據盤面形勢指導每一步應該在哪里落子;在股票交易中,這個策略會告訴我們在什么時候買入、什么時候賣出。

一個強化學習模型一般包含如下幾個部分:

一組可以動態變化的狀態(sute)

對于圍棋棋盤上黑白子的分布位置對于股票交易來說,就是股票的價格

一組可以選取的動作(metion)

對于圍棋來說,就是可以落子的位置;對于股票交易來說,就是每個時間點,買入或者賣出的股票以及數量。

一個可以和決策主體(agent)進行交互的環境(environment)這個環境會決定每個動作后狀態如何變化。

棋手(主體)的落子會影響棋局(環境),環境給主體獎勵(贏)或懲罰(輸)操盤手(主體)的買入或賣出會影響股票價格(環境,供求關系決定價格),環境給主體獎勵(賺錢)或懲罰(虧錢)

卷積神經網絡的核心范文5

【關鍵詞】:高速公路 防逃 人臉識別 高清視

中圖分類號:U412.36+6 文獻標識碼:A

人臉識別的分類與概述

人臉識別就是通過計算機提取人臉的特征,并根據這些特征進行身份驗證。人臉與人體的其他生物特征(指紋、虹膜等)一樣與生俱來,它們所具有的唯一性和不易被復制的良好特性為身份鑒別提供了必要的前提;同其他生物特征識別技術相比,人臉識別技術具有操作簡單、結果直觀、隱蔽性好的優越性。人臉識別一般包括三個步驟:人臉檢測、人臉特征提取和人臉的識別與驗證。其處理流程如圖

輸入圖像 人臉圖像人臉特征輸出結果

人臉識別的一般步驟

人臉識別方法繁多,早期研究較多的方法有基于幾何特征的人臉識別方法和基于模板匹配的人臉識別方法。目前人臉識別方法主要研究及應用的是基于統計的識別方法、基于連接機制的識別方法以及其它一些綜合方法。下面是這幾類方法的基本介紹:[2]

(1)基于幾何特征的人臉識別方法

幾何特征矢量是以人臉器官如眼睛、鼻子、嘴巴等的形狀和幾何關系為基礎的特征矢量,其分量通常包括人臉指定兩點間距離、曲率、角度等。早期的研究者Brunelli[3]等人采用改進的積分投影法提取出用歐式距離表征的35維人臉特征矢量用于人臉識別。Huang Chung Lin等人[4]采用動態模板[5,6,7]與活動輪廓模型提取出人臉器官的輪廓[8,9,10]?;趲缀翁卣鞯娜四樧R別方法有如下優點:符合人類識別人臉的機理,易于理解;對每幅圖像只需要存儲一個特征矢量,存儲量??;對光照變化不敏感。但這種方法同樣存在一些問題,如從圖像中提取這些特征比較困難;對強烈的表情變化和姿態變化的魯棒性差等。

(2)基于模板匹配的人臉識別方法

模板匹配大都采用歸一化相關,直接計算兩幅圖之間的匹配程度。最簡單的人臉模板就是將人臉看成一個橢圓[10,11]。另一種方法就是將人臉用一組獨立的小模板表示,如眼睛模板、嘴巴模板、鼻子模板等,采用彈性模板方法提取這些模板特征[12]。Brunelli等人專門比較了基于幾何特征的人臉識別方法和基于模板匹配的人臉識別方法,他們得出的結論是:基于幾何特征的人臉識別方法具有識別速度快和內存要求小等優點,但基于模板匹配的識別率要高于基于幾何特征的識別率。

(3)基于統計的人臉識別方法

基于統計特征的識別方法包括基于特征臉的方法和基于隱馬爾可夫模型的方法。特征臉(Eigenface)方法[13]是從主成分分析導出的一種人臉識別和描述技術。主成分分析實質上是K-L展開的網絡遞推實現,K-L變換是圖像壓縮中的一種最優正交變換,其生成矩陣一般為訓練樣本的總體散布矩陣。特征臉方法就是將包含人臉的圖像區域看作是一種隨機向量,因此可以采用K-L變換獲得其正交K-L基底。對應其中較大特征值的基底具有與人臉相似的形狀,因此又稱之為特征臉。

隱馬爾可夫模型(HMM)是用于描述信號統計特性的一組統計模型?;谌四槒纳系较隆淖蟮接业慕Y構特征,Samaria等人[14]首先將1-D HMM和2-D Pseudo HMM用于人臉識別。Kohir等[15]采用1-D HMM將低頻DCT系數作為觀察矢量獲得了好的識別效果。Eickeler等[16]采用2-DPseudo HMM識別DCT壓縮的JPEG圖像中的人臉圖像。Nefian等[17]采用嵌入式HMM識別人臉。

(4)基于連接機制的人臉識別方法(神經網絡彈性圖匹配)

基于連接機制的識別方法,包括一般的神經網絡方法和彈性圖匹配(Elastic Graph Matching)方法。神經網絡在人臉識別應用中有很長的歷史[18]。Demers 等[19]提出采用PCA方法提取人臉圖像特征,用自相關神經網絡進一步壓縮特征,最后采用一個多層處理器來實現人臉識別。Laurence等[20]通過一個多級的SOM實現樣本的聚類,將卷積神經網絡(CNN)用于人臉識別。Lin等[21]采用基于概率決策的神經網絡(PDBNN)方法。最近,徑向基函數RBF神經網絡因具有逼近性好、空間描述緊湊和訓練速度快等特點而被用于人臉識別。Gutta等[22]提出了將RBF與樹分類器結合起來進行人臉識別的混合分類器結構,后來他們用RBF神經網絡進行了針對部分人臉的識別研究[23],他們的研究表明利用部分人臉也可以有效地識別人臉。Er等[24]采用PCA進行維數壓縮,再用LDA抽取特征,然后基于RBF進行人臉識別。Haddadnia 等[25]基于PZMI(Pseudo Zernike Moment Invariant)特征,并采用混合學習算法的RBF神經網絡進行人臉識別。此外,Lucas 等采用連續的n-tuple網絡識別人臉。

彈性圖匹配方法是一種基于動態鏈接結構的方法[26]。在人臉圖像上放置一組矩形網格節點,每個節點的特征用該節點處的多尺度Gabor幅度特征描述,各節點之間的連接關系用幾何距離表示,從而構成基于二維拓撲圖的人臉描述。根據兩個圖像中各節點和連接之間的相似性可以進行人臉識別。Wiskott等[27]將人臉特征上的一些點作為基準點,強調了人臉特征的重要性。他們采用每個基準點存儲一串具有代表性的特征矢量,大大減少了系統的存儲量。Würtz 等[28]只使用人臉面部的特征,進一步消除了結構中的冗余信息和背景信息,并使用一個多層的分級結構。Grudin等[29]也采用分級結構的彈性圖,通過去除了一些冗余節點,形成稀疏的人臉描述結構。Nastar等[30]提出將人臉圖像I(x,y)表示為可變形的3D網格表面(x, y, I(x,y)),將人臉匹配問題轉換為曲面匹配問題,利用有限元分析的方法進行曲面變形,根據兩幅圖像之間變形匹配的程度識別人臉。

(5)基于形變模型的方法

基于形變模型的方法是一個受到重視的方法。通過合成新的視覺圖像,可以處理姿態變化的問題。Lanitis等[31]通過在人臉特征邊沿選擇一些稀疏的基準點描述人臉的形狀特征,然后將形狀變形到所有人臉圖像的平均形狀,再根據變形后的形狀進行紋理(灰度)變形,形成與形狀無關的人臉圖像。然后分別對形狀和灰度進行PCA變換,根據形狀和紋理的相關性,用PCA對各自的結果進一步分析,最終得到描述人臉的AAM(Active Appearance Model)模型。通過改變這些參數可得到不同變化的人臉圖像,模型參數能夠用于人臉識別。Romdhani 等[32]采用激光掃描儀獲得人臉的3D數據,分別對一些基準點構成的形狀和基準點的灰度(或彩色)完成PCA,得到3D人臉形狀和灰度(彩色)基圖像,通過變化參數就可獲得不同的3D人臉模型。通過施加一些先驗約束可以避免合成不真實的人臉圖像。利用線性形狀和紋理誤差,通過3D模型向2D輸入圖像的自動匹配實現人臉識別。

項目采用的識別算法

人臉自動識別技術經過多年來的研究已經積累了大量研究成果。但是仍然面臨很多問題,尤其是在非約束環境下的人臉識別。結合本研究項目及應用環境綜合考慮,采用特征臉方法對視屏資料中的司機臉部進行提取識別。

特征臉方法是90年代初期由Turk和Pentland提出算法,具有簡單有效的特點, 也稱為基于主成分分析(principal component analysis,簡稱PCA)的人臉識別方法。把人臉圖像空間線性投影到一個低維的特征空間。PCA實質上是K-L展開的網絡遞推實現。K-L變換是圖像壓縮技術中的一種最優正交變換。人們將它用于統計特征提取。從而形成子空間法模式識別的基礎。若將K-L變換用于人臉識別,則需假設人臉處于低維線性空間。由高維圖像空間K-L變換后,可得到一組新的正交基,由此可以通過保留部分正交基獲得正交K-L基底。如將子空間對應特征值較大的基底按照圖像陣列排列,則可以看出這些正交基呈現出人臉的形狀。因此這些正交基也稱為特征臉,這種人臉的識別方法也叫特征臉法。

特征子臉技術的基本思想是:從統計的觀點,尋找人臉圖像分布的基本元素,即人臉圖像樣本集協方差矩陣的特征向量,以此近似地表征人臉圖像。這些特征向量稱為特征臉(Eigenface)。

利用這些基底的線性組合可以描述、表達和逼近人臉圖像,因此可以進行人臉識別與合成。識別過程就是將人臉圖像映射到由特征臉張成的子空間上,比較其與已知人臉在特征臉空間中的位置,具體步驟如下:[33]

(1)初始化,獲得人臉圖像的訓練集并計算特征臉,定義為人臉空間;

(2)輸入待識別人臉圖像,將其映射到特征臉空間,得到一組權值;

(3)通過檢查圖像與人臉空間的距離判斷它是否為人臉;

(4)若為人臉,根據權值模式判斷它是否為數據庫中的某個人。

1. 計算特征臉

假設人臉圖像包含個像素,因此可以用維向量Γ表示。如人臉訓練集由幅人臉圖像構成,則可以用表示人臉訓練集。

其均值為:

(2-1)

每幅圖像與均值的差為:

(2-2)

構造人臉訓練集的協方差矩陣:

(2-3)

其中 。

協方差矩陣的正交分解向量即為人臉空間的基向量,也即特征臉。

一般比較大(通常大于1000),所以對矩陣直接求解特征向量是不可能的,為此引出下列定理:

SVD定理:設是一秩為的維矩陣,則存在兩個正交矩陣:

(2-4)

(2-5)

以及對角陣:

(2-6)

滿足

其中:為矩陣和的非零特征值,和分別為和對應于的特征矢量。上述分解成為矩陣的奇異值分解(SVD),為的奇異值。

推論:

(2-7)

由上述定理可知:

人臉訓練集所包含的圖像一般要比圖像的像素數小的多,因此可以轉求矩陣

(2-8)

的特征向量,M為人臉訓練集圖像總數。

矩陣的特征向量由差值圖像與線性組合得到:

=(2-9)

實際上,m(m

(2-10)

識別

基于特征臉的人臉識別過程由訓練階段和識別階段兩個階段組成。在訓練階段,每個己知人臉映射由特征臉張成的子空間上,得到m維向量:

(2-11)

距離閾值定義如下:

(2-12)

在識別階段,首先把待識別的圖像映射到特征臉空間,得到向量

(2-13)

與每個人臉集的距離定義為

(2-14)

為了區分人臉和非人臉,還需計算原始圖像與其由特征臉空間重建的圖像之間的距離:

(2-15)

其中:

(2-16)

采用最小距離法對人臉進行分類,分類規則如下:

(1)若,則輸入圖像不是人臉圖像;

(2)若,則輸入圖像包含未知人臉;

(3)若,則輸入圖像為庫中的某個人臉。

實際上,特征臉反映了隱含在人臉樣本集合內部的信息和人臉的結構關系。將眼睛、面頰、下頜的樣本集協方差矩陣的特征向量稱為特征眼、特征頜和特征唇,統稱特征子臉。特征子臉在相應的圖像空間中生成子空間,稱為子臉空間。計算出測試圖像窗口在子臉空間的投影距離,若窗口圖像滿足閾值比較條件,則判斷其為人臉。

基于特征分析的方法,也就是將人臉基準點的相對比率和其它描述人臉臉部特征的形狀參數或類別參數等一起構成識別特征向量,這種基于整體臉的識別不僅保留了人臉部件之間的拓撲關系,而且也保留了各部件本身的信息,而基于部件的識別則是通過提取出局部輪廓信息及灰度信息來設計具體識別算法?,F在Eigenface(PCA)算法已經與經典的模板匹配算法一起成為測試人臉識別系統性能的基準算法;而自1991年特征臉技術誕生以來,研究者對其進行了各種各樣的實驗和理論分析,FERET測試結果也表明,改進的特征臉算法是主流的人臉識別技術,也是具有最好性能的識別方法之一。

該方法是先確定眼虹膜、鼻翼、嘴角等面像五官輪廓的大小、位置、距離等屬性,然后再計算出它們的幾何特征量,而這些特征量形成一描述該面像的特征向量。其技術的核心實際為"局部人體特征分析"和"圖形/神經識別算法。"這種算法是利用人體面部各器官及特征部位的方法。如對應幾何關系多數據形成識別參數與數據庫中所有的原始參數進行比較、判斷與確認。Turk和Pentland提出特征臉的方法,它根據一組人臉訓練圖像構造主元子空間,由于主元具有臉的形狀,也稱為特征臉,識別時將測試圖像投影到主元子空間上,得到一組投影系數,和各個已知人的人臉圖像比較進行識別。

結束語

從目前國情來講,在一段時間內高速公路收費還會繼續存在,某些司機逃費的僥幸心也同樣會有。通過帶路徑識別功能的 RFID 復合卡作為通行卡,利用 RFID 卡的信息對車輛進行跟蹤,在不增加硬件投入的情況下,直接可以給車道收費系統提供抓拍高清圖像,以及其它報警聯動系統提供圖像等,可有效解決高速公路沖卡逃費問題,可廣泛應用于封閉式管理的公路收費系統。

參考文獻:

[1]江艷霞. 視頻人臉跟蹤識別算法研究. 上海交通大學博士學位論文,2007.

[2]Brunelli R and Poggio T., Feature Recognition: Features Versus Templates. IEEE Transactions on

PAMI, 1993, 15(10):1042 -1052.

[3]李剛. 基于特征臉法的正面人臉識別研究. 國防科學技術大學碩士學位論文,2002.11

[4]JOHN CANNY. A Computational Approach to Edge Detection. IEEE TRANSACTIONS ON PATTERN

ANALYSIS AND MACHINE INTELLIGENCE, VOL.PAMI-8, NO.6, NOVEMBER 1986.

[5]張建飛、陳樹越等. 基于支持向量基的交通視頻人車識別研究[J]. 電視技術,2011

[6]肖波、樊友平等. 復雜背景下基于運動特征的人面定位[J]. 重慶大學學報,2002

[7] 《中華人民共和國交通部公路聯網收費技術要求》,交通部

[8] 《廣東省高速公路聯網收費系統》,DB44 127-2003,廣東省質量技術監督局

[9] 《視頻安防監控數字錄像設備》,GB 20815-2006

[10]《安全防范工程技術規范》,GB 50348-2004

卷積神經網絡的核心范文6

關鍵字:車牌;識別;二值化

1、研究概況

車牌識別技術是智能化移動式稽查系統中的關鍵技術,其是指不依賴于電子信號,利用光學特性,基于光學字符識別(簡稱OCR,即Optical Character Recognition)技術對車輛牌照進行識別,從而辨識車輛唯一身份的一種技術。

從OCR技術的含義來說,車牌識別技術的基本工作流程如下圖所示:

車牌識別技術的基本工作流程

其中:圖像采集指從實際環境中或者交通車輛行駛視頻中獲取圖像,可以通過攝像設備直接獲取,也可以用圖像采集卡采集。車牌識別技術均基于對圖像進行分析識別,這一步是為了提供識別的對象。識別核心為整個系統的工作核心。通過OCR字符識別技術,獲得車輛牌照識別結果(包括車牌顏色、牌照位置等重要信息)。

車牌識別技術是集光學、電子、軟件、人工智能等多領域的一項實用技術,由于其完全采用光學圖像,避免了以往采取微波、雷達等電子設備進行交通監控造成的電子污染,同時使用一些反監控電子裝置,增加了ITS系統對交通監控領域的有效性和威懾力。

2、關鍵技術

2.1、車輛牌照的定位

首先,由于圖像的采集色系為RGB色系,故需要將RGB色系的圖像轉化到HSV色系中。在HSV色系中,利用H、S色系分量可以確定藍色、黃色牌照區域;利用S、V色系分量可以確定白色牌照區域;利用V色系分量可以確定黑色牌照區域。之后,通過將其進行圖像灰度化處理,利用灰度化的形態學開、閉運算消除干擾、降低噪聲后,遍歷迭代出連通區域來確定牌照的位置。

車輛牌照定位流程圖

1)確定各種車輛顏色在HSV色系空間中的閾值

車輛牌照的顏色分為黑、白、藍、黃四種顏色,這樣我們和容易將四種顏色的標準RGB色系轉化到HSV色系中來,但考慮到光照度以及牌照的顏色深淺度并不相同,所以可以通過均值、方差的方法來進行多個采樣本H、S、V各個分量的值。經過試驗證明,采樣本的H、S、V分量值的閾值屬于正態分布,故可以通過正態分布來確定閾值區間。

2)通過引入圖像灰度化原理,將圖像進行灰度化處理

在HSV色系中,通過上面確定的閾值區間將圖像進行處理,并通過灰度化原理對圖像進行灰度化。

步驟如下:

①若圖像像素中H分量是在黃色閾值區間內,且像素S分量也屬于黃色區間,則將該像素灰度值設定為一個試驗標準值1。

②若圖像像素中H分量是在藍色閾值區間內,且像素S分量也屬于藍色區間,則將該像素灰度值設定為一個試驗標準值2。

③若圖像像素中V分量是在白色閾值區間內,且像素S分量也屬于白區間,則將該像素灰度值設定為一個試驗標準值3。

④若圖像像素中V分量是在黑色閾值區間內,則將該像素灰度值設定為一個試驗標準值4。

⑤若圖像像素不屬于上述的任何閾值空間,則將該像素灰度值設定為一個試驗標準值5。

3)圖像消噪處理

圖像在經過灰度化處理之后,會有很多的噪聲干擾。研究證明,通過顏色的濾波方法雖然可以消除噪聲,但是這種方法很容易造成裂紋、很多個不連通區域,這樣通過濾波的方式便不可行。通過采用圖像灰度化的開運算以及確定合適的結構元素將可以大大去除噪聲,并可以有效地保證圖像質量。

4)牌照候選區域的選擇

通過利用迭代法選擇搜索出符合牌照特性的矩形區域,之后利用真實牌照的長、寬比例作為驗證標準,搜索出候選區域。

根據牌照圖像為矩形的特點,對連通區域的標注上、下、左、右四個標注。

5)在候選區域中找到真正的牌照位置

對候選區域在水平方向上進行二值化處理,計算水平方向跳躍次數以及字符所包含像素與整個候選區域像素的比例來進行驗證,符合標準的,便將牌照圖像切割下來,作為牌照的定位結果。

2.2、牌照的提取

由于車輛牌照的位置、光度都有很大的差異,為了能夠有效地提取車輛牌照,需利用明暗相間紋理以及sobel算子確定牌照的邊界,具體流程圖如下:

車輛牌照提取流程圖

上圖中顯示了具體一幅車輛圖片的牌照提取過程。其中用到了大量的數字圖像處理算法,包括圖像的彩色圖到灰度圖變換,灰度拉伸,均衡,邊緣卷積算子,紋理特征提取,去噪,濾波等。

3、牌照圖像的預處理(即牌照圖像的二值化)

牌照圖像的二值化是處理與識別圖像關鍵的一個步驟,通過引入Marr算子成功解決了圖像二值化中閥值的選取問題。

1)本系統引入Marr算子

由于牌照圖片可以看作由前景字符和背景組成,在光照比較均勻的時候,二值化就相當于如何找到一個合適的閥值把字符和背景分開。對于階躍邊緣,變化最劇烈的地方位于某一階導數的極限點,或者說,位于其二階導數的過零點處。由于圖像的邊緣有一定取向,如果希望二階導數無方向,則可用拉普拉斯算子。而為了減少噪聲的影響,可先把圖像做高斯濾波。

2)Marr算子實現牌照圖像二值化

對于灰度圖而言只有兩種情況一種是底色比字符亮,一種是底色比字符暗,對于字符比底色亮的牌照首先要反色后才能用Marr算子來二值化,所以就必須判斷牌照的底色顏色,但是在光照不均勻和牌照過亮的情況下是很難判定顏色是白色還是藍色,而在比較暗的地方則很難判定藍色和黑色。所以就提出了一個判定是否需要反色的方法,因為如果能夠得到字符內的像素的平均亮度和底色的平均亮度,則很容易判斷反色,方法如下:

首先,對牌照圖像進行對比度拉伸;

然后,用水平Sobel算子和垂直Sobel算子得到牌照的邊緣圖,對水平Sobel圖逐行掃描,碰到邊緣點時則記下這一小段線段的終點,繼續掃描直到碰到另一段邊緣的起點,計算這兩點間距離。如果距離小于閥值t(t=3)則認為這是字符內像素點,如果距離大于t (t=5)則認為是底色的點,此外情況則不考慮,給這些像素點做好標記。同樣,對垂直Sobel圖掃描,然后把兩幅掃描圖綜合起來,求底色和字符色的比值。

通過以上方法可以判斷是否需要反色,如果要反色,則反色后再用Marr算子和圖像進行卷積,然后根據過零點來二值化。

3)二值化后牌照圖像處理

對二值化的圖像處理方法之一就是去除左右邊緣,一般情況左右邊緣在兩邊,在確定了可能的左右邊緣后,可以分析此區域的特點,它可能會高出上邊緣或者低于下邊緣或者兩者皆有,通過分析這些特征,可以確定其是否是真正的邊緣。對于上下邊緣的處理則比較簡單,一般情況下,上下邊緣會比較長并且會在字符的上下邊緣之外。在知道了字符的上下點后可以用來擬合直線,通??捎脕砬宄本€外的區域。直線的擬合算法用的是最小二乘法。

2.4、字符分割及識別

通過神經網絡算法迭代查詢具有自學習、自記憶的知識樹,每個樹枝結點都可能是最終值,迭代后,按照輸出值的可能性比例,產生識別出的車牌號碼。神經網絡應用于牌照識別技術中是通過將二值化后的圖像進行迭代查詢來實現的。

3、結語

1)通過改進的神經網絡算法(將一顆大的神經樹分成若干小的神經樹)迭代查詢知識樹。該方法大大提高了圖像識別率和識別準確度。

亚洲精品一二三区-久久