卷積神經網絡實現過程范例6篇

前言:中文期刊網精心挑選了卷積神經網絡實現過程范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。

卷積神經網絡實現過程

卷積神經網絡實現過程范文1

關鍵詞:機器學習;深度學習;推薦算法;遠程教育

深度學習(DeepLearning),也叫階層學習,是機器學習領域研究的分支,它是學習樣本數據的表示層次和內在規律,在學習的過程中獲取某些信息,對于數據的解釋有巨大幫助。比如對文字數據的學習,在網絡上獲取關鍵字,對圖像數據的學習,進行人臉識別等等。

一、深度學習發展概述

深度學習是機器學習領域里一種對數據進行表征學習的方法。一句話總結三者之間的關系就是:“機器學習,實現人工智能的方法;深度學習,實現機器學習的技術。深度學習目前是機器學習和人工智能領域研究的主要方向,為計算機圖形學、計算機視覺等領域帶來了革命性的進步。機器學習最早在1980年被提出,1984年分類與回歸樹出現,直到1986年,Rumelhart等人反向傳播(BackPropaga-tion,BP)算法的提出,解決了感知模型只能處理線性分類的問題,1989年出現的卷積神經網絡(ConvolutionalNeuralNet-works,CNN)也因此得到了一定的發展。在1990年至2012年,機器學習逐漸成熟并施以應用,GeoffreyHinton在2006年設計出了深度信念網絡,解決了反向傳播算法神經網絡中梯度消失的問題,正式提出了深度學習的概念,逐漸走向深度學習飛速發展的時期。隨后,各種具有獨特神經處理單元和復雜層次結構的神經網絡不斷涌現,深度學習技術不斷提高人工智能領域應用方面的極限。

二、深度學習主要模型

1、卷積神經網絡卷積神經網絡(ConvolutionalNeuralNetworks,CNN)是指有著深度結構又包含著卷積計算的前饋神經網絡。卷積物理上理解為系統某一時刻的輸出是有多個輸入共同疊加的結果,就是相當于對一個原圖像的二次轉化,提取特點的過程。卷積神經網絡實際上就是一個不斷提取特征,進行特征選擇,然后進行分類的過程,卷積在CNN里,首先對原始圖像進行特征提取。所以卷積神經網絡能夠得到數據的特征,在模式識別、圖像處理等方面應用廣泛。一個卷積神經網絡主要由三層組成,即卷積層(convolutionlayer)、池化層(poolinglayer)、全連接層(fullyconnectedlayer)。卷積層是卷積神經網絡的核心部分,通過一系列對圖像像素值進行的卷積運算,得到圖像的特征信息,同時不斷地加深節點矩陣的深度,從而獲得圖像的深層特征;池化層的本質是對特征圖像進行采樣,除去冗雜信息,增加運算效率,不改變特征矩陣的深度;全連接將層間所有神經元兩兩連接在一起,對之前兩層的數據進行分類處理。CNN的訓練過程是有監督的,各種參數在訓練的過程中不斷優化,直到得到最好的結果。目前,卷積神經網絡的改進模型也被廣泛研究,如全卷積神經網絡(FullyConvolutionalNeuralNetworks,FCN)和深度卷積神經網絡(DeepConvolutionalNeuralNetworks,DCNN)等等。2、循環神經網絡區別于卷積神經網絡在圖片處理領域的應用,循環神經網絡(RecurrentNeuralNetwork,RNN)主要應用在自然語言處理領域。RNN最大的特點就是神經元的輸出可以繼續作為輸入,再次利用到神經元中循環使用。RNN是以序列的方式對數據進行讀取,這也是RNN最為獨特的特征。RNN的串聯式結構適用于時間序列的數據,可以完好保持數據中的依賴關系。循環神經網絡主要有三層結構,輸入層,隱藏層和輸出層。隱藏層的作用是對輸入層傳遞進來的數據進行一系列的運算,并將結果傳遞給輸出層進行輸出。RNN可用于許多不同的地方。下面是RNN應用最多的領域:1.語言建模和文本生成,給出一個詞語序列,試著預測下一個詞語的可能性。這在翻譯任務中是很有用的,因為最有可能的句子將是可能性最高的單詞組成的句子;2.語音識別;3.生成圖像描述,RNN一個非常廣泛的應用是理解圖像中發生了什么,從而做出合理的描述。這是CNN和RNN相結合的作用。CNN做圖像分割,RNN用分割后的數據重建描述。這種應用雖然基本,但可能性是無窮的;4.視頻標記,可以通過一幀一幀地標記視頻進行視頻搜索。3、深度神經網絡深度神經網絡(deepneuralnetworks,DNN)可以理解為有很多隱藏層的神經網絡。多層神經網絡和深度神經網絡DNN其實也是指的一個東西,DNN有時也叫做多層感知機(Mul-ti-Layerperceptron,MLP)。DNN內部的神經網絡層也是分為三類,輸入層,隱藏層和輸出層,一般來說第一層是輸入層,最后一層是輸出層,而中間的層數都是隱藏層。深度神經網絡(DNN)目前作為許多人工智能應用的基礎,并且在語音識別和圖像識別上有突破性應用。DNN的發展也非常迅猛,被應用到工業自動駕駛汽車、醫療癌癥檢測等領域。在這許多領域中,深度神經網絡技術能夠超越人類的準確率,但同時也存在著計算復雜度高的問題。因此,那些能夠解決深度神經網絡表現準確度或不會增加硬件成本高效處理的同時,又能提升效率和吞吐量的技術是現在人工智能領域能夠廣泛應用DNN技術的關鍵。

三、深度學習在教育領域的影響

1、學生學習方面通過網上學習的實時反饋數據對學生的學習模式進行研究,并修正現有教學模式存在的不足。分析網絡大數據,相對于傳統在線學習本質區別在于捕捉學生學習過程,有針對性,實現學生個性化學習。舉個例子,在學習過程中,可以通過學習平臺對學生學習課程所花費的時間,參與的程度,知識的偏好等等數據加以分析。也可以通過學生學習某門課程的次數,鼠標點擊次數、停留的時間等,來推斷學生學習情況。通過以上或類似數據匯總分析,可以正向引導學生學習,并給予積極的學習評價。這種利用計算機收集分析出來的客觀數據,很好展示了學生學習行為的結果,總結學習規律,而不需要教師多年的教學經驗來判斷。對于教育研究者而言,利用深度學習技術可以更客觀準確地了解學生,使教學工作良好發展更進一步。2、教學方面學習平臺的數據能夠對教學模式的適應度進行預測,通過學生的考試成績和對教師的線上評價等加以分析,能夠預測出某一階段的教學方式發發是否可行,影響如何。通過學生與教師的在線互動,學生測驗時完成的時間與完成的結果,都會產生大量的有效的數據,都可以為教師教學支持服務的更好開展提供幫助,從而避免低效率的教學模式造成教學資源的浪費。

四、成人遠程教育中深度學習技術的可應用性

深度學習方面的應用在眾多領域都取得了成功,比如電商商品推薦、圖像識別、自然語言處理、棋類博弈等等。在遠程教育方面,深度學習的技術還有很大的發揮空間,智能網絡教育的實現是人們的眾望所盼。若要將深度學習技術應用到遠程教育平臺,首先要清楚學生的需求和教學資源如何分配。1、針對學生的學習需求與學習特征進行分析美國斯坦福大學克里斯皮希研究團隊的研究成果顯示,通過對學生知識學習進行時間建模,可以精確預測出學生對知識點的掌握情況,以及學生在下一次學習中的表現。深度學習的應用可以幫助教師推測出學生的學習能力發展水平。通過學生與教學環境的交互行為,分析其學習風格,避免教師用經驗進行推斷而產生的誤差。2、教學資源的利用與分配深度學習技術能夠形成智能的分析結論。計算機實時采集數據集,對學生的學習情況加以分析,使教師對學生的學習狀態、情緒狀態等有更加清晰、準確的了解。有了上面良好的教學模式,教師對學生的學習狀態有了更準確的掌握,對學生的學習結果就有了更科學的教學評價?;谏疃葘W習的人工智能技術,還可以輔助教師實現智能閱卷,通過智能閱卷自動總結出學習中出現的問題,幫助教師減少重復性勞動,減輕教師負擔。作為成人高校,遠程教育是我們的主要教學手段,也是核心教學方式,學校的教學必定是在學生方便學習的同時,以學生的學習效果為重。通過深度學習技術,可以科學地分析出學生的學習效果,對后續教與學給予科學、可靠的數據支撐。我們可以在平臺上為每位同學建立學習模型,根據學生的學習習慣為其定制個性化方案,按他們的興趣進行培養,發揮他們專業的潛能。同時,可以將學生正式在線參加學習和考試的學習行為和非學習時間瀏覽網站的行為結合到一起,更加科學地分析出學生在學習網站上感興趣的地方。采用深度學習算法,根據學生學習行為產生的海量數據推算出學生當前狀態與目標狀態之間的差距,做到精準及時的學習需求反饋。有助于幫助學生明確學習目標,教師確立教學目標,真正做好因材施教。基于深度學習各種智能識別技術,可以為教師的線上教學活動增光添彩,在反饋學生學習狀態的同時,采用多種形式的教學方法吸引學生的注意力,增強教學活動的互動性,達到良好的教學效果。

卷積神經網絡實現過程范文2

關鍵詞:卷積神經網絡;點擊率預測;搜索廣告

中圖分類號:TP391.41 文獻標識號:A 文章編號:2095-2163(2015)04-

Click-Through Rate Prediction for Search Advertising based on Convolution Neural Network

LI Siqin, LIN Lei, SUN Chengjie

(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)

Abstract: Click-Through Rate (CTR) prediction is the foundation of search advertising. Nowadays, lots of researches have been explored to predict CTR, and most of those researches either rely on liner model or employ method of recommendation system. However, the relations between different features in CTR predication have not been fully explored in previous works, and the relations between different features also cannot be fully embodied. In this paper, CTR prediction for search advertising based on convolution neural network is proposed, and process of convolution neural network simulating the process of human thought on feature learning is explained. Furthermore, the performance of different features have been analyzed in the task of predicting CTR. Experiments are conducted on the dataset of KDD Cup 2012 Track2 and the proposed method achieves 0.7925 in AUC, demonstrating the effectiveness of the proposed approach.

Keywords: Convolution Neural Network; Click-Through Rate Prediction; Search Advertising

0 引 言

隨著Web搜索技術的成熟,搜索廣告已經成為互聯網行業的主要收入來源之一,其根據用戶輸入的查詢詞,在搜索的結果頁面呈現出相應的廣告信息。廣告媒介的收益通過每次點擊費用(CostPerClick,CPC)與廣告點擊率(Click-Through Rate,CTR)預測共同影響而得到,即CPC*CTR。由于用戶點擊廣告的概率隨著廣告位的排放順序呈遞減趨勢,因此對CTR進行準確高效的預測,并將CTR高的廣告投放在搜索結果頁面靠前的位置,不僅能增加廣告媒介的收益,還能提高用戶對搜索結果的滿意程度。

廣告點擊率預測是廣告算法中最核心的技術,近年來被學術界廣泛關注。部分學者使用基于推薦方法的模型來解決CTR預測問題?;魰则E等人[1]采用協同過濾算法,為頁面找到與其相似的其他鄰居頁面,實現CTR的預測,以此作為基礎進行廣告推薦,但當相似頁面的數量增加時,該方法的結果質量會嚴重下滑。Kanagal等人[2]提出了一種聚焦矩陣分解模型,針對用戶對具體的產品的喜好以及相關產品的信息進行學習,解決因用戶-產品交互活動少而造成的數據稀疏問題。在文獻[2]的基礎上,Shan等人[3]提出了一種立方矩陣分解模型,通過對用戶、廣告和網頁三者之間關系的立方矩陣進行分解,利用擬合矩陣的值來預測CTR,雖然立方矩陣分解模型增加了一維交互關系,但所刻畫的交互關系仍然十分局限,不能在CTR預測中充分挖掘廣告所有特征之間的聯系。

作為典型的預測問題,很多研究中通過將CTR預測問題看作分類或者回歸問題來解決,其中最常見的是應用線性模型來預測CTR。Chapelle等人[4]使用動態貝葉斯網絡,通過對用戶產生的點擊過程建立模型,考慮級聯位置的信息模擬出特定位置與相近位置的相關性,以判斷該位置上的廣告是否滿足用戶搜索要求。Chakrabarti等人[5]利用點擊反饋的相關性,通過在網頁和廣告詞等特征上使用邏輯回歸模型提高廣告檢索和預測的效果。Wu等人[6]基于融合的思想,將不同線性模型的實驗效果相結合,來提高搜索廣告CTR預測的結果。真實的場景中CTR的預測并非簡單的線性問題,因此,一些學者開始使用非線性模型來解決CTR的預測。Dave等人[7]在搜索廣告點擊信息以及廣告商賬戶信息上提取語義特征,使用基于投票思想的梯度提升決策樹模型,提高了CTR預測的效果。Zhang等人[8]利用神經網絡模型對影響搜索廣告點擊率的因素進行的探索,從特征因素方面提高CTR預測的結果,但是資源單一,數據交互的關系沒有獲得良好的利用。

本文對基于卷積神經網絡(Convolution Neural Network,CNN)的CTR預測進行研究,通過卷積與亞采樣操作的結合,能更好地學習出數據特征之間的關系,不僅解決了線性模型無法模擬真實廣告數據場景的問題,也解決了淺層學習模型無法深入挖掘特征間相互關系的問題,并且較之于傳統的神經網絡,CNN能更好地理解特征之間的關系。在真實的數據集上的實驗驗證了本文的方法能夠提高搜索廣告中CTR預測的AUC值。

1卷積神經網絡模型

1.1 卷積神經網絡基本模型

卷積神經網絡作為人工神經網絡之一,目前已成為深度學習領域中研究的熱點,權值共享以及局部窗口滑動的特點使之能更好地模擬出生物神經網絡。卷積神經網絡在結構上有兩個重要的組成部分:卷積層和亞采樣層。如圖1所示。

圖1 卷積層與亞采樣層結構

Fig.1 Convolution layer and sub-sampling layer structure

在卷積層中,原始特征通過卷積核進行卷積得到輸出的特征,使用不同的卷積核就可以得到一系列不同的輸出特征。對卷積層的計算,有如下公式:

(1)

這里, 是sigmoid 函數, , ; 代表輸入特征上選定的窗口,即在卷積過程中當前卷積核在計算時所對應在輸入特征上的位置; 和 分別是第 層輸入特征和第 層輸出特征上相應的值; 是卷積核的權重值; 是特征的偏置,每一層對應一個。

卷積過程,一個卷積核通過滑動會重復作用在整個輸入特征上,構建出新的特征。同一個卷積核進行卷積時,共享相同的參數,包括同樣的權重和偏置,這也使要學習的卷積神經網絡參數數量大大降低了。而當我們使用不同的卷積核進行卷積時,可以得到相應的不同的輸出特征,這些輸出特征組合到一起,構成卷積層的輸出。

在亞采樣層,前一個卷積層的輸出將作為該層的輸入特征,首先設定大小的窗口,然后通過滑動,用窗口區域中最大(或平均)的特征值來表示該窗口中的特征值,最后組合這些特征值得到降維后的特征。亞采樣過程可表示如下:

(2)

這里,類似于卷積層, 和 分別是第 層輸入特征和第 層輸出特征上相應的值, 是特征的偏置; 表示取最大值 或者平均值 的函數。

典型的卷積神經網絡通常由n(n>=1)個卷積層和亞采樣層以及最末尾的m(m>=1)全連接層組合而成。一個亞采樣層跟隨在一個卷積層后出現,通過這若干卷積層和亞采樣層后得到的特征,將經過全連接層與輸出層相連。全連接層公式如下:

(3)

這里, 是sigmoid函數, 是計算第 層到第 層時的權重值。

1.2基于卷積神經網絡的CTR預測模型

研究中使用卷積神經網絡對搜索廣告的CTR進行預測,網絡結構如圖2所示。

圖2 卷積神經網絡在搜索廣告點擊率預估中的應用

Fig.2 Convolution neural network in search ad click rate through prediction

實驗中一共設置了兩個卷積層、兩個亞采樣層以及一個全連接層。首先從歷史日志中提取相應的特征構建出輸入(Feature_Input),設置好卷積的窗口大小后根據公式(1)對輸入特征進行卷積,每一次卷積是對窗口內所有值的組合,因此卷積過程相當于特征融合過程。對卷積后得到的特征,設置亞采樣的窗口并根據公式(2)進行最大值-采樣,選取出窗口中的最有表達能力的特征值(最大特征值)表示整個窗口的特征,因此亞采樣過程相當于特征的萃取過程。整個卷積和亞采樣過程的結合,模擬出了人對事物的理解和總結的過程。最后將特征經過一層全連接后連接到輸出,得到最終的預測結果。

在一次特定的卷積(或亞采樣)全過程中即訓練的一次迭代過程中,權值并不會隨著窗口的滑動而改變,即在計算中,所有窗口滑過的特征享受同樣的權值。這也是CNN區別于其他神經網絡的特點――權值共享。如此即使得CNN更方便訓練,更能多角度地對特征進行學習。

2特征構建

本文所采用的實驗數據集為KDD Cup 2012中Track 2提供的數據集。該數據由騰訊公司下的搜索品牌搜搜(SOSO)搜索引擎提供,因為涉及公司商業信息,數據經過哈希處理。實驗數據集中,每條記錄包含12個屬性,各屬性詳解如表1所示。

研究按照實際含義將這12個屬性構造了四大類特征:歷史點擊率特征、相似度特征、位置特征和高影響力特征。

2.1基于卷積神經網絡的CTR預測模型

歷史點擊率特征是不同類別ID在歷史數據中的點擊率,雖然比較簡單但十分有效,因為歷史點擊率在一定程度上代表了類別ID對某個廣告感興趣程度的高低,當一個ID對某個廣告的歷史點擊率高時,意味著其對這個廣告更感興趣,后續點擊的概率也更大。

歷史點擊率( )是點擊數( )與展示數( )之比,在統計計算過程發現有很多情況下有些類別信息沒有點擊實例,因此研究采用了平滑方法解決零值問題,根據公式(4)來計算平均點擊率。計算公式如下:

(4)

公式中的 和 是調節參數,根據公式(4)計算出AdID,AdvertiserID,QueryID,KeywordID,TitleID,DescriptiomID,UserID的歷史點擊率。

2.2相似度特征

相似度特征用來刻畫屬性兩兩之間的相似程度,用戶搜索的內容與被投放的廣告屬性相似度高時,廣告被點擊的概率更大。例如當搜索內容Query與廣告關鍵字屬性Keyword相似度高時,意味著網頁投放的廣告與用戶期望搜索的廣告結果相似度高,更符合用戶點擊廣告的動作。

通過對Query、Keyword、Title、Description的屬性描述文件構造出相關的TF-IDF向量,Query為用戶搜索內容,Keyword,Title,Description是廣告的相關屬性,數據集提供的屬性信息都是經過哈希后的數字形式,但是屬性之間的相對含義不變,然后計算相互之間的余弦相似度作為特征。

2.3位置特征

該特征描述的是指定廣告在搜索結果頁面中的位置信息。用戶搜索時需求的多樣化要求在對廣告進行排序和投放時,在結果頁面靠前的位置中盡可能地投放滿足用戶需求的廣告,從而最大化用戶的滿意度、提高用戶點擊的興趣[9]。因此,研究即用當前預測廣告的相對位置Pos來刻畫該廣告在結果頁面中排序靠前的程度,其定義如下:

(5)

這里, 指頁面投放的廣告總數, 指當前所預測廣告的位置。

2.4位置特征

在預測模型中,ID屬性信息通常采用one-hot形式的特征編碼方式,在將不同的屬性經過one-hot編碼后的特征向量組合在一起,這樣方式簡單直觀,卻使得特征的維度巨大并且非常稀疏。然而在這龐大且稀疏的特征中,絕大部分維度上的特征值對整個模型的預測結果貢獻非常小甚至為零,只有少數維度上的特征值對預測結果有較高的影響力。因此研究采用L1范數正則化的方式,在邏輯回歸模型的代價函數中加入L1范數[10],使得模型學習得到的結果滿足稀疏化,在學習參數中按大小順序取出前N維權重較大的,將這N維權重對應位置上的特征值構建新的特征,稱為高影響力特征,考慮到實驗硬件,取N=180。

3 實驗結果與結論分析

3.1數據準備

實驗目標是通過給定的信息預測搜索網頁的廣告點擊率,由于數據量過大并且正負樣本不平衡,實驗中從訓練集隨機采樣10%作為本文實驗中模型訓練的訓練集,既縮小了樣本空間,同時隨機采樣也保持了原始數據的分布信息。實驗中隨機抽取部分樣本作為驗證集用于參數的調節。本文所用測試集為 KDD Cup 2012中track 2的全部測試數據,因此本文的結果與KDD Cup 2012中track 2比賽的結果具有可比性。數據的統計信息如表2所示。

這里, 、 分別表示結果中預測對的正樣本數和負樣本數, 、 分別表示結果中預測錯的正樣本數和負樣本數。對于廣告點擊率預測問題,較大的AUC值代表了較好的性能。

3.2實驗設置和結果分析

實驗的操作系統為Ubuntu 12.04 LTS OS,卷積神經網絡在4G RAM 的NVIDIA GeForce GT 610 GPU條件下運行。過程中選用了Dense Gaussian對卷積層、亞采樣層的邊和節點進行初始化,用常數初始化輸出層,學習卷積神經網絡各邊權值時的優化函數使用梯度下降算法,其中學習率為0.01、動量項為0.9,訓練步數為100,設置公式(4)中參數α=0.05,β=75。實驗時使用邏輯回歸模型(LR)、支持向量回歸模型(SVR)和深度神經網絡(DNN)作為對比方法,所有方法都使用相同的特征,其中DNN的層數以及每層的節點數與卷積神經網絡相同。

具體地,首先探究了卷積神經網絡中節點的設置,因為在CNN中后續層的節點數根據第一個卷積層和每層卷積(或亞采樣)滑動窗口的大小計算得到,并以第一個卷積層節點的設置為實驗變量,同時控制DNN中每層的節點數均與CNN相同,在驗證集上的實驗結果如圖3所示。

從圖3可以看出,隨著節點的增加,AUC的值也在不斷增長,在一定范圍內,節點數越多,實驗的結果越好。但隨著節點數的增大,模型的訓練時間也在延長,對設備的開銷需求也在升高,綜合上述因素,最終將第一層的節點數設為9 216。

CNN與各對比實驗的實驗結果如表3所示,可以看出CNN的效果最佳,此外在表中還列出了KDD Cup 2012 track 2比賽中第一名的結果。DNN的AUC值優于LR和SVR,驗證了深度學習模型比淺層學習模型更適合解決CTR預估問題,同時CNN的結果高于DNN,說明CNN中卷積層的特征融合和亞采樣層的特征萃取過程是有效的。本文中CNN目前的實驗結果略低于KDD Cup 2012 track 2中第一名的結果,原因是比賽隊伍使用了多模型融合并提取了龐大的(千萬維)輸入特征。

進一步地,實驗探索了每一類特征對搜索廣告點擊率預測的貢獻。在所有特征的情況下,去掉某一類特征來進行預測,實驗結果如表4所示。實驗結果表明,去掉任意一類特征都將使得實驗效果有所下降。其中去掉歷史點擊率特征效果下降得最明顯,說明用戶是否點擊廣告,與其之前的點擊行為非常相關。而去掉位置特征時,效果下降得最為不明顯,因為在實驗使用的數據集中,每個頁面最多僅呈現三個廣告,頁面中的廣告數少時,位置對用戶點擊的影響小。

4 結束語

對搜索廣告點擊率的有效預測不但能夠更好的提高在線廣告投放的性能,增加廣告商的收益,還能增強用戶的體驗。研究使用卷積神經網絡CNN對搜索廣告點擊率進行預測,對特征因素的分析之后,在真實數據的環境下對搜索廣告點擊率進行預測的實驗本文的方法的效果相對于其他方法有明顯的提高。本文的主要貢獻有:(1)本文提出了基于卷積神經網絡的搜索廣告點擊率預測的方法。(2)針對高維特征,提出了一種特征選擇策略,可以在計算能力受限的情況下使用CNN模型來解決廣告點擊預測問題,并取得較好效果。在未來的工作中,一方面要繼續研究更有效的特征來提高對點擊率的預測效果,另一方面也將嘗試對CNN模型的內部細節進行改進,使之更適合我們的預測場景。

參考文獻:

[1] 霍曉駿,賀牛楊燕. 一種無位置偏見的廣告協同推薦算法[J]. 計算機工程, 2014, 40(12): 39-44.

[2] BHARGAV K, AHMED A, PANDEY S, et al. Focused matrix factorization for audience selection in display advertising[C]// Data Engineering (ICDE), 2013 IEEE 29th International Conference on, Brisbane , Australia: IEEE, 2013:386-397.

[3] SHAN Lili, LEI Lin, DI Shao, et al. CTR Prediction for DSP with Improved Cube Factorization Model from Historical Bidding Log[M]// C K Loo, et al(Eds.): Neural Information Processing. Switzerland:Springer,2014,8836:17-24.

[4] OLIVIER C, ZHANG Ya. A dynamic bayesian network click model for web search ranking[C]//Proceedings of the 18th international conference on World wide web. Madrid: ACM,2009:1-10.

[5] DEEPAYAN C, AGARWAL D, JOSIFOVSKI V. Contextual advertising by combining relevance with click feedback[C]//Proceedings of the 17th international conference on World Wide Web. Beijing: ACM,2008:417-426.

[6] WU Kuanwei, FERNG C S, HO C H, et al., A two-stage ensemble of diverse models for advertisement ranking in KDD Cup 2012[J]. KDDCup, 2012.

[7] DAVE K S, VARMA V. Learning the click-through rate for rare/new ads from similar ads[C]// Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval, Geneva, Switzerland:ACM,2010.

[8] ZHANG Ying, JANSEN B J , SPINK A. Identification of factors predicting clickthrough in Web searching using neural network analysis[J]. Journal of the American Society for Information Science and Technology, 2009, 60(3): 557-570.

[9] 林古立.互聯網信息檢索中的多樣化排序研究及應用[D].華南理工大學,2011.

卷積神經網絡實現過程范文3

關鍵詞:深度學習;網絡安全;網絡數據;計算機

隨著信息化社會的進步,互聯網與人們的生活緊密相關,人們可以通過互聯網進行購物、社交、學習,為人們的生活帶來便利的同時,也促進了社會經濟的發展。然而,信息安全問題日益突出,存在數據外泄的風險[1]。網絡病毒、數據泄露等問題一直在威脅著人們的信息安全,不僅會影響個人的信息安全,還會威脅國家網絡信息安全,因此必須從多方面對互聯網信息安全進行防護[2]。在計算機網絡安全管理中,需要實時檢測網絡平臺數據的安全狀態。深度學習是一種通過模擬人腦對視覺和聽覺的反應對圖片和音頻進行分析的一種模型[3]?;诖耍疚臉嫿ɑ谏疃葘W習的網絡安全管理模型,利用深度學習模型對網絡數據中的不安全因素進行分析。

1網絡安全管理模型設計

1.1構建網絡平臺防護框架

計算機病毒是危害互聯網信息安全的重要因素之一,一般隱藏在執行程序、數據和文件中,不容易被人們發現。感染計算機病毒的電腦存在泄露個人信息的風險,而個人信息泄漏也會使其他的信息安全遭到一定程度的威脅,影響了我國的互聯網安全。在大數據背景下,針對不同的情況應采用不同等級的防御系統[4]。本文以系統安全性評價為基礎,構建網絡平臺防護框架,如圖1所示[5]。網絡平臺防護框架包括用戶信息采集模塊、用戶信息認證模塊、防火墻模塊、常用存儲模塊、備用存儲模塊、報警模塊、數據監控模塊、網絡數據庫模塊、中央處理器模塊、信息安全監測模塊、信息安全分析模塊和信息安全處理模塊。

1.2網絡信息安全檢測

黑客攻擊手段分為非破壞性攻擊和破壞性攻擊兩類,非破壞性攻擊是利用拒絕服務等手段來影響操作系統的正常工作,破壞性攻擊則是指通過非法方式進入其他計算機,以竊取重要的操作系統保密信息,從而攻擊系統的重要數據[5]。在黑客進行攻擊時,最常用的手段就是利用域名隨機算法隨機生成惡意域名。雖然國內已經開發出相對完善的查殺系統和網絡監測體系,但是隨著人工智能技術的發展,惡意域名的識別也更加困難[6-8]。因此,需要建立新的域名檢測方式,加強對惡意域名的識別,保障網絡環境安全。

1.3基于深度學習的惡意域名檢測模型

基于深度學習的惡意域名檢測模型擁有多層認知機制,可通過訓練實現對不同網絡數據的識別[9-11]。深度學習基礎模型大致包括卷積計算神經網絡模型、深度信任網絡模型及堆棧式自編碼網絡模型。在應用模型的過程中,可利用卷積神經網絡數據識別的優點,對網絡系統中存在的數據風險進行準確分析。卷積神經網絡通過卷積層、池化層、全連接層來模擬人視覺神經網絡,卷積層能夠保留數據特征,并經過池化層進行降維和分析,通過全連接層輸出最終結果。該模型的兼容性較強,可先進行預處理后再識別域名數據,能夠節省計算時間。卷積神經網絡可以實現對數據的識別,并通過模型中的多層神經網來模擬人腦對數據的處理方式。由于基于深度學習的惡意域名檢測模型具有較強的自主學習能力,因此能夠有效執行異常數據識別等操作,有效實現對惡意域名的檢測。基于深度學習的惡意域名檢測模型的檢測過程如圖2所示。輸入域名后對域名進行預處理,排除數據中的重復域名和大數據中已有的非法域名,并對正常域名和非法域名進行標記[12]。進入嵌入階段,將域名中的字符通過特定方式映射為多維向量,然后對向量進行訓練[13]。檢測域名中是否包含特殊字符,識別特殊字符的惡意程度,因為域名長度不長且沒有完整的語法結構,所以利用卷積算法進行計算[14-15]。將數據輸入卷積層提取信息后,輸送至折疊層構建矩陣,最后進入全連接層進行訓練,輸出結果。

2實驗對比分析

為證實網絡安全管理模型的實用性能,采用對比實驗的方式進行驗證,分別采用本文設計的基于深度學習的網絡安全管理模型與傳統模型對實驗數據進行安全監測。

2.1實驗準備

在選取數據時,篩選當天產生的惡意域名,選取可信度高的30萬條域名作為實驗數據,再選取30萬條正常域名將兩者混合進行實驗,另外再選取6萬條惡意域名和6萬條正常域名作為測試數據,實驗數據劃分情況如表1所示。將實驗數據分批次進行訓練,實驗環境配置表如表2所示。

2.2實驗數據和分析

在實驗過程中,將數據分為5組分別進行實驗,得到的實驗數據如表3所示。從表3可以看出,基于深度學習的檢測模型在檢測過程中能夠正確識別的數量明顯多于傳統模型,便于對數據進行進一步處理。

3結語

卷積神經網絡實現過程范文4

關鍵詞 人臉識別;Gabor小波;小波網絡;神經網絡;特征抽取

中圖分類號TP39 文獻標識碼A 文章編號 1674-6708(2012)58-0183-02

0 引言

隨著信息技術的發展,人臉識別因在公安、身份驗證、安全驗證系統、醫學、考勤系統等各方面的巨大應用前景而成為當前人工智能和模式識別領域的研究熱點。人臉識別是指利用攝像頭捕捉人的面部圖片,利用計算機分析比較人臉的生物特征來進行身份識別。雖然人類能夠輕易識別出人臉和表情,但是人臉機器識別卻是一個難度極大的課題[1]。

基于Gabor小波彈性圖匹配算法作為一種有效的人臉識別方法,雖然方法簡單,但是實現復雜、計算量大、耗時多,本文提出了一種改進的基于局部特征Gabor小波的BP神經網絡方法,此方法避免了彈性如匹配算法的高計算量,神經網絡由于學習和記憶能力,提高了算法容錯性。本文采用Gabor小波特征空間作為神經網絡輸入空間,然后使用神經網絡作為分類器。

1 基于局部特征的Gabor小波

1.1 Gabor濾波器數組

二維圖像的離散Gabor 變換的定義見文獻[4],對特征點圖像模板進行離散Gabor 變換的Gabor核函數如下:

式中參數描述三角函數的波長,參數描述小波的方向性。依David S. Bolme 的取值對人臉圖像的處理間隔4 個像素,即分別取{4 , ,8, , 16};對的取值從0到π的區間分別取{0 ,π/ 8 ,2π/ 8 ,3π/ 8 ,4π/ 8 ,5π/ 8 ,6π/ 8 ,7π/ 8}共8個方向,π到2π區間的方向性由于小波的奇偶對稱性而省去。參數描述三角函數的相角,取∈{ 0 , π/2} ;參數描述高斯半徑,取=;參數描述高斯的方向角,選取=1 ;這樣通過選取一系列的5個不同的和8個方向的,就可以得到40個二維的復數離散Gabor濾波器組。

1.2 Gabor小波特征值

GaborJet是根據特征點的位置坐標(xn,yn),對特征點作Gabor變換得到的。具體方法是對每一個特征點,以(xn,yn)為中心提取該特征點周圍的正方形圖像區域的圖像灰度信息,然后通過該圖像區域與特定波長、方向的2D Gabor濾波器卷積,從而得到該特征點的頻率信息等。

2 改進的BP神經網絡

1988年,Rumelhart、Hinion和Williams提出了用于前向神經網絡學習訓練的誤差反向傳播算法(Error Back Propagation,EBP,簡稱BP),成功地解決了多層網絡中隱含層神經連接權值的學習問題[2]。

BP神經網絡訓練過程即學習過程:神經網絡在外界輸入樣本的刺激下不斷改變網絡的連接權值,以使網絡的輸出不斷地接近期望的輸出。學習的本質是對各連接權值的動態調整,令輸出結果達到預期目標。學習規則是在學習過程中網絡中各神經元的連接權變化所依據的一定的調整規則。圖1為改進BP神經網絡的模型圖。

原始BP算法的主要缺點[3]為:收斂速度慢和可能陷入局部極值。本文對BP算法進行了改進,改進方法如下:

1)Sigmoid函數的改進:在實驗過程中將產生較大的誤差時,S型函數的標準形式用來生成輸出的分類,并可能會出現不收斂。因此為了解決這個問題的辦法是采取 改進的S型函數如式2.1所示。k的值越大越容易收斂,但收斂速度較慢;k較小可以使得S型函數較穩定,其收斂速度快,但容易產生不穩定。經多次不同值的實驗,最終選定 k=3. 5。

2)學習速率自調整模型:學習速率自調整的BP算法縮短了學習時間。神經網絡學習過程,即連接下層節點和上層節點之間的權重拒陣Wij的設定和誤差修正過程。BP網絡自學習方式:需要設定期望值和輸入樣本。自學習模型為:

h 是學習因子;是輸出節點i的計算誤差;Oj是輸出節點j的計算輸出;a是動量因子。

3 人臉識別實驗與結果分析

采用ORL人臉數據庫,每個人臉有10幅不同細節的圖片。識別率檢測數據庫A:選擇30個人作為測試對象。取每個人的前4幅圖片共120幅圖片作為人臉數據庫。然后使用另外的180幅圖片進行測試。

由于定位特征點位置會有一些誤差,所以在試驗階段人臉數據庫中的人臉特征點位置手工標注,這樣可以從初始階段減少誤差。人工標注圖像的各個特征點的實例如圖2所示:

對每個特征點特區Gabor特征,存入數組作為BP神經網絡輸入。然后使用樣本進行訓練得到神經網絡分類器。當訓練完成后,采用測試圖片進行識別統計識別效率和識別時間。

其中一組訓練和識別樣本實驗結果如表1所示。

其中前5列是該人的訓練樣本,后5列是該人的識別樣本。由于本系統神經網絡輸出數目與數據庫中人物數一樣,所以每個人有8個輸出,每行表示測試圖片與數據庫中一個人相似度。訓練時輸出為,其中0.9表示輸出目標,訓練誤差為0.01。輸出為0.9附近就是識別目標。

采用不同的方法系統識別率不同,或者相同方法采用不同人臉圖像庫系統識別率也會不同。根據上面實驗,表2統計了不同人臉識別算法的識別率。

分別在PC平臺上進行測試,EBGM大約需要1s時間,而本算法只需要0.01s,大大提高了算法效率。

4 結論

基于EBGM與本文人臉識別算法比較,本文算法有效的解決了傳統彈性圖匹配算法計算復雜的問題,無需進行彈性圖粗匹配和精確匹配,只需要訓練,在識別時保留了Gabor小波生物特性基礎上大大提高了傳統算法實時性。在識別能力上,神經網絡具有學習分類作用,比傳統彈性圖匹配具有更高的識別率。

參考文獻

[1]焦峰,山世光,崔國勤,等.基于局部特征分析的人臉識別方法[J].計算機輔助設計與圖形學學報,2003,15(1).

[2]M Riedmiiler and H Braum.A direct adaptive method for faster baek Propagation learning:The RPOP algorlthm. Proceedings of the IEEE International Coference on Neural Networks(ICNN).San Fraueisco, 1993:586-591.

[3]Phillips P J, Moon H, Rizvi S A, et al.The FERET Evaluation Methodology for Face recongition Algorithms. IEEE Transaction on Pattern Analysis and Machine Intelligence,2000, 22(10):1090-1104.

卷積神經網絡實現過程范文5

關鍵詞: 積分投影; 循環神經網絡; 長短時記憶網絡; 防止過擬合技術; 精度; 留一法

中圖分類號:TP391.4 文獻標志碼:A 文章編號:1006-8228(2017)04-13-04

Abstract: The existing research on micro expression recognition is mainly based on the improved LBP (local binary patterns) algorithm and SVM (support vector machine). Recently, integral projection has been applied in the field of face recognition. The long and short memory network (LSTM), as a kind of recurrent neural network, can be used to process time series data. So LSTM-IP model, which combines integral projection with LSTM, is proposed, and experimented on the latest micro-expression database CASME II. The horizontal and vertical projection vectors obtained by integral projection are used as the input of LSTM and classified, and the over-fitting preventing method is used. The experimental results show that LSTM-IP algorithm gets better results than the previous method.

Key words: integral projection; recurrent neural network; long and short memory network; prevent over-fitting; accuracy; leave-one-subject-out cross validation

0 引言

人們表情的短時間變化,也叫微表情,心理學在這方面的研究很早就開始了。近年來,有關利用機器學習的方法來對微表情進行研究的學者越來越多,其成為當前一個熱門研究方向。微表情的研究成果可用于測謊[2-4]、臨床診斷等方面,因橐話閎思幢閌切睦硪繳也很難注意到1/25~1/5秒人表情的變化[1],而這時,機器可以很好的對微表情進行自動的識別。

最近,基于積分投影和紋理描述符的方法被用在人臉識別[5],然而,很少有研究將積分投影用于包含人臉的時間序列中進行識別。微表情與人臉識別有很大不同,特征很難單從每幀圖片中提取,這時就需要考慮時間軸。LSTM可以對時序數據進行分類,以前基本用在語音識別和自然語言處理的任務中,很少用于圖像識別,可能是因為LSTM處理的是一維的數據,而圖像是二維的數據。將圖像的二維信息積分投影到一維(水平方向和垂直方向),并以此作為LSTM的輸入并分類,這樣就能將二者很好的結合起來。

本文構造了基于積分投影和LSTM的深度學習的模型來對微表情進行識別。得到的結果不僅比以前的基于局部二值模式(LBP)的方法好,而且也略微的優于最近基于積分投影的論文中的方法。

1 CASME II微表情數據集介紹

2014年,中科院心理研究所建立了更進一步改進的自然誘發的微表情數據庫CASMEII[8]。CASMEII有26個平均年齡為22歲左右的亞洲人,9類表情(happiness, surprise, disgust, fear, sadness, anger, repression, tense, negative)組成。用來錄制的高速相機為200 fps。高速相機可以捕捉更細節的微表情。CASMEII是據我們所知目前最好的自然誘發的微表情數據庫。

2 基于差分圖像的積分投影

Mateos等人的開拓性工作[6-7]表明積分投影可以提取同一人臉圖像的共同基本特征。積分投影將人臉的特征水平和垂直投影,可以用公式⑴和⑵表示:

其中It(x,y)表示時間為t時,圖像位于(x,y)時的像素值,Ht(y)和Vt(x)表示水平和垂直積分投影。直接將積分投影應用到CASME II微表情數據集上效果如圖1所示。

然而,由于微表情的變化是十分微小的,若直接采用上面的積分投影會有很多噪聲,從圖1(c)可以看出區分不是很明顯。因此,我們采用改進的積分投影方法??梢杂霉舰呛廷缺硎荆?/p>

我們將每個視頻下的2到N幀微表情的圖像減去第1幀,將得到的差分圖像做積分投影,效果如圖2所示。

從圖2的(c)可以看出,采用基于差分圖像的水平積分投影效果更好,去掉了不必要的噪聲。

3 長短時記憶網絡

循環神經網絡(RNN)可以用來處理時序數據,但它有一個明顯的缺陷,就是不能記憶發生在較久以前的信息。長短時記憶網絡(LSTM)[9]是一種特殊的RNN,比RNN多了一些特殊的門和細胞,可以學習長期依賴信息。LSTM結構如圖3所示。

最上面橫著帶箭頭的線包含細胞單元,作用是記憶之前LSTM單元的信息。x和+表示點分的乘法與加法,表示Sigmoid激活函數(如公式⑸),tanh表示雙曲正切激活函數(如公式⑹)。

最下面圓圈中的X和最上面圓圈中的h分別表示時序輸入和輸出。

通用的LSTM結構可以參考圖4,圖4中,底層節點為輸入,頂層節點為輸出,中間層為隱藏層節點或記憶塊。(a)描述的是傳統的 感知機(MLP)網絡,即不考慮數據的時序性,認為數據是獨立的;(b)將輸入序列映射為一個定長向量(分類標簽),可用于文本、視頻分類;(c)輸入為單個數據點,輸出為序列數據,典型的代表為圖像標注;(d)這是一種結構序列到序列的任務,常被用于機器翻譯,兩個序列長度不一定相等;(e)這種結構會得到一個文本的生成模型,每詞都會預測下一時刻的字符。

4 LSTM-IP模型

因為CASME II數據集每個視頻下微表情圖像幀數是不一樣的,為了方便我們統一LSTM的輸入,所以我們提取了最能代表這個視頻微表情的10幀,同時,本文將整個數據集圖像的尺寸統一到200×200像素,將原來彩色圖像轉化為灰度圖像。通過基于差分圖像的積分投影,得到一個視頻下差分圖像每幀圖像的水平和垂直投影,一個圖像可以得到一個200維的水平向量和一個200維的垂直向量,因為差分圖像是后面9張減去了第一張圖像,所以一個視頻下共有9個水平向量和9個垂直向量,初始化兩個9×200大小的一維向量分別保存水平向量和垂直向量。

本文采用圖4(b)和圖4(e)結合的LSTM結構,如圖5所示。

頂層的X_IP表示將一個視頻下9個差分圖像的水平投影組成的9×200的一維特征向量作為輸入,經過第一層LSTM得到9×128的一維特征向量,接著經過第二層LSTM得到9×128的一維特征向量,最后經過一層LSTM得到一個128的特征向量,Y_IP也是同樣的處理過程。最后將這兩部分的128的特征向量連接起來作為一個256的特征向量輸入softmax分類器,結果輸出屬于五類微表情的哪一類。在圖5的每兩層之間加入一層Dropout層,Dropout的比率設為0.5。LSTM內部參數初始化采用了glorot_normal,相比較于其他初始化方法,glorot_normal效果最好。

Softmax和Dropout在深度學習中都是常用的技術。Softmax是邏輯斯特回歸應用于多分類的推廣。Dropout[10]這種技術的作用是減少過擬合,是一種正則化技術,通過防止由完全連接的層引起神經元的參數過多,有助于減少神經網絡的過度擬合問題。給定 dropout率p,其在我們的LSTM中被設置為0.5,50%單位將被保留,而另外50%將被放棄。簡單地說,“Dropout”只是隨機忽略一些神經元。然而在測試階段,每個神經元的輸出將通過因子1-p(保持率)加權以保持與訓練階段中產生相同的效果。如圖6所示。

我們的實驗采用基于Theano的keras框架,keras借b了Torch的搭建深度學習網絡的方式,而且使用筆者比較熟悉的Python語言(Torch使用Lua語言),keras的底層可以是Theano或者Tensorflow,可能是因為keras最先在Theano開發的,經過實驗比較單個GPU下,Theano的速度要比Tensorflow快,所以我們的底層采用Theano。

5 實驗結果與分析

現在微表情識別的算法主要是基于LBP改進的算法,例如LBP-TOP[11](Local Binary Pattern-Three Orthogonal Planes)、LBP-SIP[12](LBP-Six Intersection Points)和LOCP-TOP[13](Local ordinal contrast pattern-

TOP)等。我們將LSTM-IP算法與以前的方法做了比較,如表1所示。

實驗是在CASME II上做的,因為CASME II微表情數據集是最新最好的微表情數據集。STLBP-IP也是基于積分投影的,結合了1DLBP來提取特征。通過表1的比較我們發現,基于積分投影的算法效果好于原來基于LBP的算法,可以得出,采用提取積分投影特征的方法在微表情數據集CASME II上效果比較好。可以看出,STLBP-IP的性能優于文獻[27]的重新實現,STLBP-IP的精度提高了20.64%。從表1中可知,時間插值法(TIM)可以提高LBP-TOP的性能,其中LBP-TOP增加到39.68%。然而,與STLBP-IP相比,LBP-TOP在微表情識別上的效果上有很大的差距(19.43%)。比較兩種基于積分投影的方法,本文提出的方法略微好于STLBP-IP,但通過閱讀STLBP-IP的論文筆者發現,這種方法存在繁瑣的調參過程,比如圖像如何分塊,SVM核參數的選擇,而本文提出的LSTM-IP算法可以自動從差分圖像的積分投影中學習,調參的內容比較少,而且速度也很快。這些結果表明,LSTM-IP實現了令人滿意的效果,而不是LOCP-TOP和LBP-SIP。 這部分地解釋了LSTM-IP通過使用積分投影來保持形狀和辨識的能力。

實驗采用了留一法交叉驗證,CASME II有26個subjects,通過把每個subject作為測試,其余作為訓練,循環26次,最后把每次測試得到的正確視頻個數相加除以總的視頻數,得到識別精度,這種方法現在是微表情識別主流的驗證方法。

6 Y束語

基于差分圖像的積分投影方法,保存了我們微表情形狀的特征,然后增強微表情的辨別力。深度學習在圖像識別領域已經取得了很不錯的成績,而現在深度學習的技術還沒有應用于微表情識別。本文將差分圖像的積分投影與LSTM結合,從實驗結果上看,結果要好于以前的方法。我們認為深度學習的探索不會停止,會有越來越多新的網絡模型產生,也會有越來越多的深度學習的技術應用于微表情識別。

我們將繼續探索基于深度學習的微表情識別的方法及技術手段。卷積神經網絡在圖像識別上取得了很好的成績,但筆者也將卷積神經網絡應用于微表情上,效果并不好,可能是因為微表情在圖像上變化比較細微,卷積神經網絡不容易捕捉到特征,但如果考慮了一個視頻時間序列的特性,也許會有比較好的結果,對此還有待進一步研究。隨著技術的進步,相信微表情識別效果會越來越好,并最終能夠應用于我們的生活中。

參考文獻(References):

[1] Ekman P. Micro Expressions Training Tool[M]. Emotion-

srevealed. com,2003.

[2] Ekman P. Darwin, deception, and facial expression[J].

Annals of the New York Academy of Sciences,2003.1000(1):205-221

[3] Ekman P. Lie catching and microexpressions[J]. The

philosophy of deception,2009:118-133

[4] Ekman P, O'Sullivan M. From flawed self-assessment to

blatant whoppers: the utility of voluntary and involuntary behavior in detecting deception[J]. Behavioral sciences & the law,2006.24(5):673-686

[5] Benzaoui A, Boukrouche A. Face recognition using 1dlbp

texture analysis[J]. Proc. FCTA,2013: 14-19

[6] Mateos G G. Refining face tracking with integral projections

[C]//International Conference on Audio-and Video-Based Biometric Person Authentication. Springer Berlin Heidelberg,2003: 360-368

[7] García-Mateos G, Ruiz-Garcia A, López-de-Teruel P

E. Human face processing with 1.5 D models[C]//International Workshop on Analysis and Modeling of Faces and Gestures. Springer Berlin Heidelberg,2007:220-234

[8] Yan W J, Li X, Wang S J, et al. CASME II: An improved

spontaneous micro-expression database and the baseline evaluation[J]. PloS one, 2014.9(1):e86041

[9] Hochreiter S, Schmidhuber J. Long short-term memory[J].

Neural computation,1997.9(8):1735-1780

[10] Hinton G E, Srivastava N, Krizhevsky A, et al. Improving

neural networks by preventing co-adaptation of feature detectors[J]. Computer Science,2012.3(4):212-223

[11] Zhao G, Pietikainen M. Dynamic texture recognition

using local binary patterns with an application to facial expressions[J]. IEEE transactions on pattern analysis and machine intelligence,2007.29(6).

[12] Wang Y, See J, Phan R C W, et al. Lbp with six

intersection points: Reducing redundant information in lbp-top for micro-expression recognition[C]//Asian Conference on Computer Vision. Springer International Publishing,2014:525-537

[13] Chan C H, Goswami B, Kittler J, et al. Local ordinal

contrast pattern histograms for spatiotemporal, lip-based speaker authentication[J]. IEEE Transactions on Information Forensics and Security,2012.7(2):602-612

卷積神經網絡實現過程范文6

關鍵詞:車牌;識別;專利;分析

引言

車牌識別技術[1-2]是指自動提取受監控區域車輛的車牌信息并進行處理的技術,其通過運用圖像處理、計算機視覺、模式識別等技術,對攝像頭捕獲的車輛照片或視頻進行分析,進而自動識別車輛的車牌號碼。車牌識別技術可應用于停車場自動收費管理、道路監控等領域,在城市交通管理中發揮了重要作用。

1 中國專利申請情況分析

以CNABS專利數據庫中的檢索結果為分析樣本,介紹車牌識別技術的中國專利申請量趨勢以及重要申請人的狀況。

1.1 第一階段(2005年及之前)

在這階段,申請量極少且申請人也極少,且針對的環境較為簡單,處于技術的萌芽階段,其中,專利CN1529276,通過車牌定位、字符分割和分類識別完成機動車牌號自動識別,其實現過程較為簡單,具體細節描述較少。

1.2 第二階段(2006年-2010年)

在這階段的申請量比上一階段有所增加,而且申請人數量相較之前也有增長,其中來自高校的申請量明顯增加,反映出了高校研究者開始更加注重對研究成果的保護,這一階段的專利所針對的環境場景更為復雜,識別準確率得到提高,對車牌定位、字符分割、字符識別等關鍵技術的研究更為深入。

1.3 第三階段(2011年及以后)

在2011年之后車牌識別技術的專利申請量呈現快速增長,這一階段車牌識別技術得到了更進一步的豐富,涉及的關鍵技術的解決途徑也呈現出多樣性,檢測效率和精度也得到進一步提高,其中,專利CN104035954A,涉及一種基于Hadoop的套牌車識別方法,將云計算應用于車牌識別,使得與傳統環境下不經過優化的方法相比具有^高的運行效率和加速比,可以有效地識別套牌車。

圖2示出了中國重要申請人分布情況,申請量分布前十的申請人包括:電子科技大學、深圳市捷順科技實業股份有限公司(捷順科技)、浙江宇視科技有限公司(宇視科技)、信幀電子技術(北京)有限公司(信幀電子)、中國科學院自動化研究所(自動化研究所)、安徽清新互聯信息科技有限公司(清新互聯)、青島海信網絡科技股份有限公司(海信網絡)、浙江工業大學、四川川大智勝軟件股份有限公司(川大智勝)、上海高德威智能交通系統有限公司(高德威智能交通),從圖2中可以看出,不同申請人的申請量差距不是很大,幾乎保持在一個比較持平的狀態。

電子科技大學在車牌識別技術的專利申請中,CN 101064011A提出一種基于小波變換的復雜背景中的車牌提取方法,可大大提高對晴天、雨天、霧天、白天及夜晚等環境的通用性和適用性,實現車牌的精確定位并提高車牌提取的準確度;CN 103455815A提出一種復雜場景下的自適應車牌字符分割方法,能快速、準確地搜索2、3字符間隔位置,實現自適應調整分割參數,使車牌字符分割穩定可靠,在復雜的環境中魯棒性強,防止噪聲干擾;CN 105005757A提出一種基于Grassmann流行的車牌字符識別方法,最大限度地利用了已獲得的車牌字符信息以及同類字符之間的相互關系,對于車牌字符的成像質量要求更低,應用于復雜的環境中具有很好的魯棒性和準確性。

2 關鍵技術分析

一個完整的車牌定位與識別系統,其前端包括圖像采集和傳輸系統,末端還需要與數據庫相連接。從定位到識別的核心算法上,主要包括圖像預處理、車牌定位、字符分割和字符識別四大部分[3]。

圖像預處理,是指通過對攝像頭捕獲的彩色圖像進行預處理。常用的預處理方法包括圖像灰度化、圖像二值化、邊緣檢測等。

車牌定位,是指在經預處理后的車輛圖像中,定位出車輛的車牌所在位置。常用的車牌定位方法包括基于紋理分析的方法、基于數學形態學的方法、基于邊緣檢測的方法、基于小波變換的方法和基于神經網絡的方法等。CN 104298976A提出一種基于卷積神經網絡的車牌檢測方法,利用卷積神經網絡完整車牌識別模型對車牌粗選區域進行篩選,獲取車牌最終候選區域。

字符分割,是指將定位出的車牌區域圖像分割成單個的字符圖像。常用的字符分割方法包括基于輪廓的方法、基于投影的方法、基于模板匹配的方法和基于連通區域的方法等。CN 104408454A提出一種基于彈性模板匹配算法的車牌字符分割方法,基于彈性模板,通過插空進行模板序列形狀的彈性調整,將車牌圖片與理想模板進行匹配,獲得全局最優匹配,確定字符位置,將分割算法作用于投影序列,實現對車牌字符的分割。

字符識別,是指對字符分割之后的單個字符圖像進行識別,進而得到車輛的車牌號碼。常用的車牌字符識別方法包括基于字符結構特征的識別方法、基于模板匹配的識別方法、基于神經網絡的識別方法、基于模糊理論的模式識別方法和基于支持向量機分類識別方法等。CN 105975968A提出一種基于Caffe框架的深度學習車牌字符識別方法,以基于Caffe架構的深度學習為基礎,解決了現有的車牌字符識別方法中對傾斜、斷裂、相近字符識別精度不高的問題,大大提高了對于車牌字符的識別精度。

3 結束語

本文以車牌識別相關專利文獻為樣本,分析統計了該技術中國專利申請現狀,并對車牌識別技術的關鍵技術進行簡單分析。在經歷了從無到有、從萌芽到飛速發展的階段之后,車牌識別技術慢慢走向成熟,越來越多的企業和高校在車牌識別的研究上投入了大量的精力,也獲得了豐碩的研究成果。

參考文獻

[1]尹旭.汽車牌照定位研究綜述[J].電腦知識與技術,2010,6(14):3729-3730.

亚洲精品一二三区-久久