卷積神經網絡的主要思想范例6篇

前言:中文期刊網精心挑選了卷積神經網絡的主要思想范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。

卷積神經網絡的主要思想

卷積神經網絡的主要思想范文1

關鍵詞:卷積神經網絡;點擊率預測;搜索廣告

中圖分類號:TP391.41 文獻標識號:A 文章編號:2095-2163(2015)04-

Click-Through Rate Prediction for Search Advertising based on Convolution Neural Network

LI Siqin, LIN Lei, SUN Chengjie

(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)

Abstract: Click-Through Rate (CTR) prediction is the foundation of search advertising. Nowadays, lots of researches have been explored to predict CTR, and most of those researches either rely on liner model or employ method of recommendation system. However, the relations between different features in CTR predication have not been fully explored in previous works, and the relations between different features also cannot be fully embodied. In this paper, CTR prediction for search advertising based on convolution neural network is proposed, and process of convolution neural network simulating the process of human thought on feature learning is explained. Furthermore, the performance of different features have been analyzed in the task of predicting CTR. Experiments are conducted on the dataset of KDD Cup 2012 Track2 and the proposed method achieves 0.7925 in AUC, demonstrating the effectiveness of the proposed approach.

Keywords: Convolution Neural Network; Click-Through Rate Prediction; Search Advertising

0 引 言

隨著Web搜索技術的成熟,搜索廣告已經成為互聯網行業的主要收入來源之一,其根據用戶輸入的查詢詞,在搜索的結果頁面呈現出相應的廣告信息。廣告媒介的收益通過每次點擊費用(CostPerClick,CPC)與廣告點擊率(Click-Through Rate,CTR)預測共同影響而得到,即CPC*CTR。由于用戶點擊廣告的概率隨著廣告位的排放順序呈遞減趨勢,因此對CTR進行準確高效的預測,并將CTR高的廣告投放在搜索結果頁面靠前的位置,不僅能增加廣告媒介的收益,還能提高用戶對搜索結果的滿意程度。

廣告點擊率預測是廣告算法中最核心的技術,近年來被學術界廣泛關注。部分學者使用基于推薦方法的模型來解決CTR預測問題。霍曉駿等人[1]采用協同過濾算法,為頁面找到與其相似的其他鄰居頁面,實現CTR的預測,以此作為基礎進行廣告推薦,但當相似頁面的數量增加時,該方法的結果質量會嚴重下滑。Kanagal等人[2]提出了一種聚焦矩陣分解模型,針對用戶對具體的產品的喜好以及相關產品的信息進行學習,解決因用戶-產品交互活動少而造成的數據稀疏問題。在文獻[2]的基礎上,Shan等人[3]提出了一種立方矩陣分解模型,通過對用戶、廣告和網頁三者之間關系的立方矩陣進行分解,利用擬合矩陣的值來預測CTR,雖然立方矩陣分解模型增加了一維交互關系,但所刻畫的交互關系仍然十分局限,不能在CTR預測中充分挖掘廣告所有特征之間的聯系。

作為典型的預測問題,很多研究中通過將CTR預測問題看作分類或者回歸問題來解決,其中最常見的是應用線性模型來預測CTR。Chapelle等人[4]使用動態貝葉斯網絡,通過對用戶產生的點擊過程建立模型,考慮級聯位置的信息模擬出特定位置與相近位置的相關性,以判斷該位置上的廣告是否滿足用戶搜索要求。Chakrabarti等人[5]利用點擊反饋的相關性,通過在網頁和廣告詞等特征上使用邏輯回歸模型提高廣告檢索和預測的效果。Wu等人[6]基于融合的思想,將不同線性模型的實驗效果相結合,來提高搜索廣告CTR預測的結果。真實的場景中CTR的預測并非簡單的線性問題,因此,一些學者開始使用非線性模型來解決CTR的預測。Dave等人[7]在搜索廣告點擊信息以及廣告商賬戶信息上提取語義特征,使用基于投票思想的梯度提升決策樹模型,提高了CTR預測的效果。Zhang等人[8]利用神經網絡模型對影響搜索廣告點擊率的因素進行的探索,從特征因素方面提高CTR預測的結果,但是資源單一,數據交互的關系沒有獲得良好的利用。

本文對基于卷積神經網絡(Convolution Neural Network,CNN)的CTR預測進行研究,通過卷積與亞采樣操作的結合,能更好地學習出數據特征之間的關系,不僅解決了線性模型無法模擬真實廣告數據場景的問題,也解決了淺層學習模型無法深入挖掘特征間相互關系的問題,并且較之于傳統的神經網絡,CNN能更好地理解特征之間的關系。在真實的數據集上的實驗驗證了本文的方法能夠提高搜索廣告中CTR預測的AUC值。

1卷積神經網絡模型

1.1 卷積神經網絡基本模型

卷積神經網絡作為人工神經網絡之一,目前已成為深度學習領域中研究的熱點,權值共享以及局部窗口滑動的特點使之能更好地模擬出生物神經網絡。卷積神經網絡在結構上有兩個重要的組成部分:卷積層和亞采樣層。如圖1所示。

圖1 卷積層與亞采樣層結構

Fig.1 Convolution layer and sub-sampling layer structure

在卷積層中,原始特征通過卷積核進行卷積得到輸出的特征,使用不同的卷積核就可以得到一系列不同的輸出特征。對卷積層的計算,有如下公式:

(1)

這里, 是sigmoid 函數, , ; 代表輸入特征上選定的窗口,即在卷積過程中當前卷積核在計算時所對應在輸入特征上的位置; 和 分別是第 層輸入特征和第 層輸出特征上相應的值; 是卷積核的權重值; 是特征的偏置,每一層對應一個。

卷積過程,一個卷積核通過滑動會重復作用在整個輸入特征上,構建出新的特征。同一個卷積核進行卷積時,共享相同的參數,包括同樣的權重和偏置,這也使要學習的卷積神經網絡參數數量大大降低了。而當我們使用不同的卷積核進行卷積時,可以得到相應的不同的輸出特征,這些輸出特征組合到一起,構成卷積層的輸出。

在亞采樣層,前一個卷積層的輸出將作為該層的輸入特征,首先設定大小的窗口,然后通過滑動,用窗口區域中最大(或平均)的特征值來表示該窗口中的特征值,最后組合這些特征值得到降維后的特征。亞采樣過程可表示如下:

(2)

這里,類似于卷積層, 和 分別是第 層輸入特征和第 層輸出特征上相應的值, 是特征的偏置; 表示取最大值 或者平均值 的函數。

典型的卷積神經網絡通常由n(n>=1)個卷積層和亞采樣層以及最末尾的m(m>=1)全連接層組合而成。一個亞采樣層跟隨在一個卷積層后出現,通過這若干卷積層和亞采樣層后得到的特征,將經過全連接層與輸出層相連。全連接層公式如下:

(3)

這里, 是sigmoid函數, 是計算第 層到第 層時的權重值。

1.2基于卷積神經網絡的CTR預測模型

研究中使用卷積神經網絡對搜索廣告的CTR進行預測,網絡結構如圖2所示。

圖2 卷積神經網絡在搜索廣告點擊率預估中的應用

Fig.2 Convolution neural network in search ad click rate through prediction

實驗中一共設置了兩個卷積層、兩個亞采樣層以及一個全連接層。首先從歷史日志中提取相應的特征構建出輸入(Feature_Input),設置好卷積的窗口大小后根據公式(1)對輸入特征進行卷積,每一次卷積是對窗口內所有值的組合,因此卷積過程相當于特征融合過程。對卷積后得到的特征,設置亞采樣的窗口并根據公式(2)進行最大值-采樣,選取出窗口中的最有表達能力的特征值(最大特征值)表示整個窗口的特征,因此亞采樣過程相當于特征的萃取過程。整個卷積和亞采樣過程的結合,模擬出了人對事物的理解和總結的過程。最后將特征經過一層全連接后連接到輸出,得到最終的預測結果。

在一次特定的卷積(或亞采樣)全過程中即訓練的一次迭代過程中,權值并不會隨著窗口的滑動而改變,即在計算中,所有窗口滑過的特征享受同樣的權值。這也是CNN區別于其他神經網絡的特點――權值共享。如此即使得CNN更方便訓練,更能多角度地對特征進行學習。

2特征構建

本文所采用的實驗數據集為KDD Cup 2012中Track 2提供的數據集。該數據由騰訊公司下的搜索品牌搜搜(SOSO)搜索引擎提供,因為涉及公司商業信息,數據經過哈希處理。實驗數據集中,每條記錄包含12個屬性,各屬性詳解如表1所示。

研究按照實際含義將這12個屬性構造了四大類特征:歷史點擊率特征、相似度特征、位置特征和高影響力特征。

2.1基于卷積神經網絡的CTR預測模型

歷史點擊率特征是不同類別ID在歷史數據中的點擊率,雖然比較簡單但十分有效,因為歷史點擊率在一定程度上代表了類別ID對某個廣告感興趣程度的高低,當一個ID對某個廣告的歷史點擊率高時,意味著其對這個廣告更感興趣,后續點擊的概率也更大。

歷史點擊率( )是點擊數( )與展示數( )之比,在統計計算過程發現有很多情況下有些類別信息沒有點擊實例,因此研究采用了平滑方法解決零值問題,根據公式(4)來計算平均點擊率。計算公式如下:

(4)

公式中的 和 是調節參數,根據公式(4)計算出AdID,AdvertiserID,QueryID,KeywordID,TitleID,DescriptiomID,UserID的歷史點擊率。

2.2相似度特征

相似度特征用來刻畫屬性兩兩之間的相似程度,用戶搜索的內容與被投放的廣告屬性相似度高時,廣告被點擊的概率更大。例如當搜索內容Query與廣告關鍵字屬性Keyword相似度高時,意味著網頁投放的廣告與用戶期望搜索的廣告結果相似度高,更符合用戶點擊廣告的動作。

通過對Query、Keyword、Title、Description的屬性描述文件構造出相關的TF-IDF向量,Query為用戶搜索內容,Keyword,Title,Description是廣告的相關屬性,數據集提供的屬性信息都是經過哈希后的數字形式,但是屬性之間的相對含義不變,然后計算相互之間的余弦相似度作為特征。

2.3位置特征

該特征描述的是指定廣告在搜索結果頁面中的位置信息。用戶搜索時需求的多樣化要求在對廣告進行排序和投放時,在結果頁面靠前的位置中盡可能地投放滿足用戶需求的廣告,從而最大化用戶的滿意度、提高用戶點擊的興趣[9]。因此,研究即用當前預測廣告的相對位置Pos來刻畫該廣告在結果頁面中排序靠前的程度,其定義如下:

(5)

這里, 指頁面投放的廣告總數, 指當前所預測廣告的位置。

2.4位置特征

在預測模型中,ID屬性信息通常采用one-hot形式的特征編碼方式,在將不同的屬性經過one-hot編碼后的特征向量組合在一起,這樣方式簡單直觀,卻使得特征的維度巨大并且非常稀疏。然而在這龐大且稀疏的特征中,絕大部分維度上的特征值對整個模型的預測結果貢獻非常小甚至為零,只有少數維度上的特征值對預測結果有較高的影響力。因此研究采用L1范數正則化的方式,在邏輯回歸模型的代價函數中加入L1范數[10],使得模型學習得到的結果滿足稀疏化,在學習參數中按大小順序取出前N維權重較大的,將這N維權重對應位置上的特征值構建新的特征,稱為高影響力特征,考慮到實驗硬件,取N=180。

3 實驗結果與結論分析

3.1數據準備

實驗目標是通過給定的信息預測搜索網頁的廣告點擊率,由于數據量過大并且正負樣本不平衡,實驗中從訓練集隨機采樣10%作為本文實驗中模型訓練的訓練集,既縮小了樣本空間,同時隨機采樣也保持了原始數據的分布信息。實驗中隨機抽取部分樣本作為驗證集用于參數的調節。本文所用測試集為 KDD Cup 2012中track 2的全部測試數據,因此本文的結果與KDD Cup 2012中track 2比賽的結果具有可比性。數據的統計信息如表2所示。

這里, 、 分別表示結果中預測對的正樣本數和負樣本數, 、 分別表示結果中預測錯的正樣本數和負樣本數。對于廣告點擊率預測問題,較大的AUC值代表了較好的性能。

3.2實驗設置和結果分析

實驗的操作系統為Ubuntu 12.04 LTS OS,卷積神經網絡在4G RAM 的NVIDIA GeForce GT 610 GPU條件下運行。過程中選用了Dense Gaussian對卷積層、亞采樣層的邊和節點進行初始化,用常數初始化輸出層,學習卷積神經網絡各邊權值時的優化函數使用梯度下降算法,其中學習率為0.01、動量項為0.9,訓練步數為100,設置公式(4)中參數α=0.05,β=75。實驗時使用邏輯回歸模型(LR)、支持向量回歸模型(SVR)和深度神經網絡(DNN)作為對比方法,所有方法都使用相同的特征,其中DNN的層數以及每層的節點數與卷積神經網絡相同。

具體地,首先探究了卷積神經網絡中節點的設置,因為在CNN中后續層的節點數根據第一個卷積層和每層卷積(或亞采樣)滑動窗口的大小計算得到,并以第一個卷積層節點的設置為實驗變量,同時控制DNN中每層的節點數均與CNN相同,在驗證集上的實驗結果如圖3所示。

從圖3可以看出,隨著節點的增加,AUC的值也在不斷增長,在一定范圍內,節點數越多,實驗的結果越好。但隨著節點數的增大,模型的訓練時間也在延長,對設備的開銷需求也在升高,綜合上述因素,最終將第一層的節點數設為9 216。

CNN與各對比實驗的實驗結果如表3所示,可以看出CNN的效果最佳,此外在表中還列出了KDD Cup 2012 track 2比賽中第一名的結果。DNN的AUC值優于LR和SVR,驗證了深度學習模型比淺層學習模型更適合解決CTR預估問題,同時CNN的結果高于DNN,說明CNN中卷積層的特征融合和亞采樣層的特征萃取過程是有效的。本文中CNN目前的實驗結果略低于KDD Cup 2012 track 2中第一名的結果,原因是比賽隊伍使用了多模型融合并提取了龐大的(千萬維)輸入特征。

進一步地,實驗探索了每一類特征對搜索廣告點擊率預測的貢獻。在所有特征的情況下,去掉某一類特征來進行預測,實驗結果如表4所示。實驗結果表明,去掉任意一類特征都將使得實驗效果有所下降。其中去掉歷史點擊率特征效果下降得最明顯,說明用戶是否點擊廣告,與其之前的點擊行為非常相關。而去掉位置特征時,效果下降得最為不明顯,因為在實驗使用的數據集中,每個頁面最多僅呈現三個廣告,頁面中的廣告數少時,位置對用戶點擊的影響小。

4 結束語

對搜索廣告點擊率的有效預測不但能夠更好的提高在線廣告投放的性能,增加廣告商的收益,還能增強用戶的體驗。研究使用卷積神經網絡CNN對搜索廣告點擊率進行預測,對特征因素的分析之后,在真實數據的環境下對搜索廣告點擊率進行預測的實驗本文的方法的效果相對于其他方法有明顯的提高。本文的主要貢獻有:(1)本文提出了基于卷積神經網絡的搜索廣告點擊率預測的方法。(2)針對高維特征,提出了一種特征選擇策略,可以在計算能力受限的情況下使用CNN模型來解決廣告點擊預測問題,并取得較好效果。在未來的工作中,一方面要繼續研究更有效的特征來提高對點擊率的預測效果,另一方面也將嘗試對CNN模型的內部細節進行改進,使之更適合我們的預測場景。

參考文獻:

[1] 霍曉駿,賀牛楊燕. 一種無位置偏見的廣告協同推薦算法[J]. 計算機工程, 2014, 40(12): 39-44.

[2] BHARGAV K, AHMED A, PANDEY S, et al. Focused matrix factorization for audience selection in display advertising[C]// Data Engineering (ICDE), 2013 IEEE 29th International Conference on, Brisbane , Australia: IEEE, 2013:386-397.

[3] SHAN Lili, LEI Lin, DI Shao, et al. CTR Prediction for DSP with Improved Cube Factorization Model from Historical Bidding Log[M]// C K Loo, et al(Eds.): Neural Information Processing. Switzerland:Springer,2014,8836:17-24.

[4] OLIVIER C, ZHANG Ya. A dynamic bayesian network click model for web search ranking[C]//Proceedings of the 18th international conference on World wide web. Madrid: ACM,2009:1-10.

[5] DEEPAYAN C, AGARWAL D, JOSIFOVSKI V. Contextual advertising by combining relevance with click feedback[C]//Proceedings of the 17th international conference on World Wide Web. Beijing: ACM,2008:417-426.

[6] WU Kuanwei, FERNG C S, HO C H, et al., A two-stage ensemble of diverse models for advertisement ranking in KDD Cup 2012[J]. KDDCup, 2012.

[7] DAVE K S, VARMA V. Learning the click-through rate for rare/new ads from similar ads[C]// Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval, Geneva, Switzerland:ACM,2010.

[8] ZHANG Ying, JANSEN B J , SPINK A. Identification of factors predicting clickthrough in Web searching using neural network analysis[J]. Journal of the American Society for Information Science and Technology, 2009, 60(3): 557-570.

[9] 林古立.互聯網信息檢索中的多樣化排序研究及應用[D].華南理工大學,2011.

卷積神經網絡的主要思想范文2

關鍵詞:人臉識別技術;病毒管控;人工智能;神經網絡

互聯網在今天的社會中發揮著舉足輕重的作用。如今社會,隨著許多人工智能技術、網絡技術、云計算等互聯網技術不斷發展,像人臉識別等技術的應用越來越廣泛,在控制病毒傳播途徑等場合發揮了巨大作用,不斷地提高著社會的安全性和便利性,不僅提高了防控中病毒檢測效率,也為病毒的控制提供了可靠的技術方法,能夠及時發現和控制公共場所的安全隱患因素,避免對社會經濟、居民生活造成破壞,。但目前的人臉識別等技術還存在許多缺陷,需要完善和革新,充滿著巨大的潛力和進步空間。

1人臉識別技術研究意義

人臉識別技術是一種生物特征識別技術,最早產生于上世紀60年代,基于生理學、圖像處理、人機交互及認知學等方面的一種識別技術。相比于其他人類特征像指紋識別、聲紋識別、虹膜識別等技術,人臉識別雖然存在人臉識別單一性低,且區分度難度高、易受環境影響等不足。但是人臉識別技術擁有速度快、大范圍群體識別及非接觸、遠距離可識別等優勢,都是其他生物識別識別技術所不具備的,而在傳播性強、感染風險大的病毒傳播過程中,這些顯然是必須要考慮的重要影響因素。通過將人臉識別等人工智能技術引入信息管理系統,綜合集成視頻監控、圖像處理、深度學習和大數據等技術,結合非接觸測溫、定位等技術,助力病情防控,在一定程度上推動病毒病情防控信息化、智能化發展進程??勺鳛榧訌姽矆鏊娜藛T的體溫實時監測、地址信息定位的監控管理,規范公共場所針對病毒傳播的預防行為。

2人臉識別技術

2.1人臉檢測技術

人臉檢測是自動人臉識別系統中的一個關鍵環節。早期的人臉識別研究主要針對具有較強約束條件的人臉圖象(如無背景的圖象),往往假設人臉位置靜止或者容易獲取。人臉檢測分為前深度學習時期,AdaBoost框架時期以及深度學習時期。前深度學習時期,人們將傳統的計算機視覺算法運用于人臉檢測,使用了模板匹配技術,依賴于人工提取特征,然后用這些人工特征訓練一個檢測器;后來技術發展,在2001年Viola和Jones設計了一種人臉檢測算法,它使用簡單的Haar-like特征和級聯的AdaBoost分類器構造檢測器,檢測速度較之前的方法有2個數量級的提高,并且保持了很好的精度,稱這種方法為VJ框架。VJ框架是人臉檢測歷史上第一個最具有里程碑意義的一個成果,奠定了基于AdaBoost目標檢測框架的基礎,使用級聯AdaBoost分類器進行目標檢測的思想是:用多個AdaBoost分類器合作實現對候選框的分類,這些分類器組成一個流水線,對滑動窗口中的候選框圖像進行判定,確定檢測目標是人臉還是非人臉。Adaboost框架技術的精髓在于用簡單的強分類器在初期快速排除掉大量的非人臉窗口,同時保證高的召回率,使得最終能通過所有級強分類器的樣本數數量較少。在深度學習時期,開始將卷積神經網絡應用于人臉檢測領域。研究方向有兩種:一是將適用于多任務的目標檢測網絡應用于人臉檢測中;另一種是研究特定的的人臉檢測網絡。人臉檢測技術具有特殊唯一性和穩定性,在現今社會對于構建居民身份識別系統,病毒傳播防控系統,以及計算機視覺交互模型的構建具有廣泛的應用。人臉檢測技術不僅作為人臉識別的首要步驟,也在許多其他領域發揮巨大影響,如人臉關鍵點提取、人臉追蹤、基于內容的檢索、數字視頻處理、視頻檢測、安防監控、人證比對、社交等領域都有重要的應用價值。數碼相機、手機等移動端上的設備已經大量使用人臉檢測技術實現成像時對人臉的對焦、圖集整理分類等功能,各種虛擬美顏相機也需要人臉檢測技術定位人臉。評價一個人臉檢測算法好壞的指標是檢測率和誤報率,我們定義檢測率為:算法要求在檢測率和誤報率之間盡量平衡,理想的情況是達到高檢測率,低誤報率。

2.2人臉識別技術

目前主要流行的人臉識別技術包括幾何特征識別,模型識別,特征臉識別和基于深度學習/神經網絡的的人臉識別技術等。人臉特征識別主要通過對人臉面部結構特征如眼睛、鼻子等五官幾何特點及其相對位置分布等,生成圖像,并計算各個面部特征之間的歐式距離、分布、大小等關系該方法比較簡單,反應速度快,并且具有魯棒性強等優點,但是在實際環境下使用容易受檢測的環境的變化、人臉部表情變化等影響,精度通常不高,細節處理上不夠完善。模型識別技術主要包括隱馬爾可夫模型、主動表象模型、主動形狀模型等,識別率較高,并且對表情等變化影響較小。特征臉識別來源于主成分描述人臉照片技術(PCA技術),從數學上來講,特征臉就是人臉的圖像集協方差矩陣的特征向量。該技術能有效的顯示人臉信息,效率較高?;谏疃葘W習的人臉識別是獲取人臉圖像特征,并將包含人臉信息的特征進行線性組合等,提取人臉圖像的特征,學習人臉樣本數據的內在規律和表示層次。可以采用如三層前饋BP神經網絡。BP神經網絡是1986年由Rumelhart和McClelland為首的科學家提出的概念,是一種按照誤差逆向傳播算法訓練的多層前饋神經網絡,是應用最廣泛的神經網絡模型之一。BP網絡本質上是一種能夠學量的輸入與輸出之間的映射關系的輸入到輸出的映射,從結構上講,BP網絡具有輸入層、隱藏層和輸出層;從本質上講,BP算法就是以網絡誤差平方為目標函數、采用梯度下降法來計算目標函數的最小值。BP神經網路輸入層有n個神經元節點,輸出層具有m個神經元,隱含層具有k個神經元,采用BP學習算法訓練神經網絡。BP算法主要包括兩個階段:向前傳播階段和向后傳播階段。在向前傳播階段,信息從輸入層經過逐級的變換,傳送到輸出層。這個過程也是在網絡完成訓練后正常運行時執行。將Xp作為輸入向量,Yp為期望輸出向量則BP神經網絡向前傳播階段的運算,得到實際輸出表達式為向后傳播階段主要包括兩大步驟:①計算實際輸出Op與對應理想輸出Yp之差;②按極小化誤差方法調整帶權矩陣。之所以將此階段稱為向后傳播階段,是對應于輸入信號的正常傳播而言的,因為該階段都需要收到精度要求進行誤差處理,所以也可以稱之為誤差傳播階段。(1)確定訓練集。由訓練策略選擇樣本圖像作為訓練集。(2)規定各權值Vij,Wjk和閾值Φj,θk參數,并初始化學習率α及精度控制參數ε。(3)從訓練集中取輸入向量X到神經網絡,并確定其目標輸出向量D。(4)利用上式計算出一個中間層輸出H,再用本式計算出網絡的實際輸出Y。(5)將輸出矢量中yk與目標矢量中dk進行比較,計算輸出誤差項,對中間層的隱單元計算出L個誤差項。(6)最后計算出各權值和閾值的調整量。所以,卷積神經網絡算法是通過訓練人臉特征庫的方式進行學習生成,對不同環境下不同表現情況的人臉圖像識別有更高的精確性。

2.3人臉識別軟件實現方式

(1)采集人臉數據集,然后對數據集進行標注,對數據進行預處理變成訓練格式。(2)部署訓練模型,根據訓練算法所需依賴部署電腦環境。(3)訓練過程,下載預訓練模型,將人臉數據集分批次作為輸入開始訓練,最終輸出為訓練好的模型。(4)部署訓練好的模型,捕獲畫面即可對畫面中的人臉進行實時檢測。

3人臉識別在病毒傳播防控中的應用

通過人臉識別技術,可以實現無接觸、高效率的對流動人員進行信息的收集、身份識別、定位地址信息等操作,大大減少了傳染的可能性,切斷了病毒傳播途徑,大大提高了工作效率。通過提前收錄人臉信息,采用深度學習對人臉特征模型的訓練學習,即可獲取人臉識別特征模型,再次驗證時即可實現人臉識別和個人信息快速匹配。AI人工智能幫助人們更好的解放雙手,為人們的生活和工作提供了重要的幫助。本文還提出了在人臉識別的系統基礎上,可以加入定位系統、測溫系統等,依托物聯網技術和云計算大數據,更加優化管控系統的效率。病毒傳播防控中人臉識別系統流程可以概括為圖2。

4結語

本文研究了一種人臉識別技術在病毒傳播管控系統中的應用,并分析設計了人臉識別實時監測及病毒管控系統的流程,大大提高了信息管理的效率,減弱了傳播風險。作為一門新興技術,目前的人臉識別技術還存在著諸多不足之處,像存在環境光的影響、人臉表情變化、妝容變化、佩戴口罩等都會影響到系統識別精度;另外安全問題也引人深思:現今人臉支付方式迅猛發展,錄入的人臉模型信息數據庫存在有一定的安全風險,一旦被不法分子盜取信息后果不堪設想,所以模型數據庫安全、網絡安全,也是系統開發中必須重視的問題。人臉識別為代表的人工智能技術的研究,在病毒傳播管控作出重大貢獻,依托我國領先的計算機網絡技術和5G等技術,加強人工智能技術與5G通信技術的結合,優勢互補,以此來加快大數據、人工智能和物聯網技術發展進程,對我國社會進步,促進城市建設和管理朝著高效、秩序、和諧穩定的方向不斷發展,增強我國的經濟實力有著重大價值和研究意義。

參考文獻

[1]王彥秋,馮英偉.基于大數據的人臉識別方法[J].現代電子技術,2021,44(7):87-90.

[2]李剛,高政.人臉自動識別方法綜述[J].計算機應用研究,2003,20(8):4-9,40.

[3]馬玉琨,徐姚文.ReviewofPresentationAttackDetectioninFaceRecognitionSystem[J].計算機科學與探索,2021,7(15):1195-1206.

[4]余璀璨,李慧斌.基于深度學習的人臉識別方法綜述[J].工程數學學報,2021,38.

[5]王紅星,胡永陽,鄧超.基于LBP和ELM的人臉識別算法研究與實現[J].河南理工大學學報(自然科學版),2005.

[6]鐘陳,王思翔,王文峰.面向疫情防控的人臉識別系統與標準研究[J].信息技術與標準化,2020,6,11-13,1671-539X.

[6]彭駿,吉綱,張艷紅,占濤.精準人臉識別及測溫技術在疫情防控中的應用[J].軟件導刊,2020,10,1672-7800.

卷積神經網絡的主要思想范文3

本文作者:工作單位:安徽埃夫特智能裝備有限公司

從控制系統設計角度來說,可以采用辯證法內外因基本原理來分析影響重載機器人控制品質的因素,首先,如果系統存在動力學耦合、柔性等非線性因素,僅僅采用傳統的線性控制很難獲得良好的控制品質,底層伺服回路的控制缺陷是影響機器人控制品質的內因。第二,如果運動規劃環節處理不當,傳輸給底層運動控制回路的運動指令不合理,即存在位置不連續,速度不連續,加速度躍變等情況,對系統會產生嚴重的沖擊,即便底層伺服控制設計再優秀,同樣也會嚴重影響系統控制品質,這就是所謂的外因。下面就從內外因角度對目前在機器人運動規劃和底層伺服控制方面的相關進展進行綜述。機器人運動規劃方法運動規劃與軌跡規劃是指根據一定規則和邊界條件產生一些離散的運動指令作為機器人伺服回路的輸入指令。運動規劃的輸入是工作空間中若干預設點或其他運動學和動力學的約束條件;運動規劃的輸出為一組離散的位置、速度和加速度序列。運動規劃算法設計過程中主要需要考慮以下三個問題:(1)規劃空間的選?。和ǔG闆r下,機器人軌跡規劃是在全局操作空間內進行的,因為在全局操作空間內,對運動過程的軌跡規劃、避障及幾何約束描述更為直觀。然而在一些情況下,通過運動學逆解,運動規劃會轉換到關節空間內完成。在關節空間內進行運動規劃優點如下:a.關節空間內規劃可以避免機構運動奇異點及自由度冗余所帶來種種問題[1-4];b.機器人系統控制量是各軸電機驅動力矩,用于調節各軸驅動力矩的軸伺服算法設計通常情況也是在關節空間內的,因此更容易將兩者結合起來進行統一考慮[5,6];c.關節空間運動規劃可以避免全局操作空間運動規劃帶來的每一個指令更新周期內進行運動規劃和運動學正逆計算帶來的計算量,因為如果指令更新周期較短,將會對CPU產生較大的計算負荷。(2)基礎函數光滑性保證:至少需要位置指令C2和速度指令C1連續,從而保證加速度信號連續。不充分光滑的運動指令會由于機械系統柔性激起諧振,這點對高速重載工業機器人更為明顯。在產生諧振的同時,軌跡跟蹤誤差會大幅度增加,諧振和沖擊也會加速機器人驅動部件的磨損甚至損壞[7]。針對這一問題,相關學者引入高次多項式或以高次多項式為基礎的樣條函數進行軌跡規劃,其中Boryga利用多項式多根的特性,分別采用5次、7次和9次多項式對加速度進行規劃,表達式中僅含有一個獨立參數,通過運動約束條件,最終確定參數值,并比較了各自性能[8]。Gasparetto采用五次B樣條作為規劃基礎函數,并將整個運動過程中加速度平方的積分作為目標函數進行優化,以確保運動指令足夠光滑[9]。劉松國基于B樣條曲線,在關節空間內提出了一種考慮運動約束的運動規劃算法,將運動學約束轉化為樣條曲線控制頂點約束,可保證角度、角速度和角加速度連續,起始點和終止點角速度和角加速度可以任意配置[10]。陳偉華則在Cartesian空間內分別采用三次均勻B樣條,三次非均勻B樣條,三次非均勻有理B樣條進行運動規劃[11]。(3)運動規劃中最優化問題:目前常用的目標函數主要為運行時間、運行能耗和加速度。其中關于運行時間最優的問題,較為經典是Kang和Mckay提出的考慮系統動力學模型以及電機驅動力矩上限的時間最優運動規劃算法,然而該算法加速度不連續,因此對于機器人來說力矩指令也是不連續的,即加速度為無窮大,對于真實的電驅伺服系統來說,這是無法實現的,會對系統產生較大沖擊,大幅度降低系統的跟蹤精度,對機械本體使用壽命也會產生影響[12]。針對上述問題Constantinescu提出了解決方法,在考慮動力學特性的基礎上,增加對力矩和加速度的約束,并采用可變容差法對優化問題進行求解[13]。除了以時間為優化目標外,其他指標同樣被引入最優運動規劃模型中。Martin采用B函數,以能耗最少為優化目標,并將該問題轉化為離散參數的優化問題,針對數值病態問題,提出了具有遞推格式的計算表達式[14]。Saramago則在考慮能耗最優的同時,將執行時間作為優化目標之一,構成多目標優化函數,最終的優化結果取決于兩個目標的權重系數,且優化結果對于權重系數選擇較為敏感[15]。Korayem則在考慮機器人負載能力,關節驅動力矩上限和彈性變形基礎上,同時以在整個運行過程中的位置波動,速度波動和能耗為目標,給出了一種最優運動規劃方法[6],然而該方法在求解時,收斂域較小,收斂性較差,計算量較大。

考慮部件柔性的機器人控制算法機器人系統剛度是影響動態性能指標重要因素。一般情況下,電氣部分的系統剛度要遠遠大于機械部分。雖然重載工業機器人相對于輕型臂來說,其部件剛度已顯著增大,但對整體質量的要求不會像輕型臂那么高,而柔性環節仍然不可忽略,原因有以下兩點:(1)在重載情況下,如果要確保機器人具有足夠的剛度,必然會增加機器人部件質量。同時要達到高速高加速度要求,對驅動元件功率就會有很高的要求,實際中往往是不可實現(受電機的功率和成本限制)。(2)即使驅動元件功率能夠達到要求,機械本體質量加大會導致等效負載與電機慣量比很大,這樣就對關節剛度有較高的要求,而機器人關節剛度是有上限的(主要由減速器剛度決定)。因此這種情況下不管是開鏈串聯機構還是閉鏈機構都會體現出明顯的關節柔性[16,17],在重載搬運機器人中十分明顯。針對柔性部件帶來的系統控制復雜性問題,傳統的線性控制將難以滿足控制要求[17-19],目前主要采用非線性控制方法,可以分成以下幾大類:(1)基于奇異攝動理論的模型降階與復合控制首先針對于柔性關節控制問題,美國伊利諾伊大學香檳分校著名控制論學者MarkW.Spong教授于1987年正式提出和建立柔性關節的模型和奇異攝動降階方法。對于柔性關節的控制策略絕大多數都是在Spong模型基礎上發展起來的。由于模型的階數高,無法直接用于控制系統設計,針對這個問題,相關學者對系統模型進行了降階。Spong首先將奇異攝動理論引入了柔性關節控制,將系統分成了慢速系統和邊界層系統[20],該方法為后續的研究奠定了基礎。Wilson等人對柔性關節降階后所得的慢速系統采用了PD控制律,將快速邊界層系統近似為二階系統,對其阻尼進行控制,使其快速穩定[21]。針對慢速系統中的未建模非線性誤差,Amjadi采用模糊控制完成了對非線性環節的學習[22]。彭濟華在對邊界層系統提供足夠阻尼的同時,將神經網絡引入慢速系統控制,有效的克服了參數未知和不確定性問題。連桿柔性會導致系統動力學方程階數較高,Siciliano和Book將奇異攝動方法引入柔性連桿動力學方程的降階,其基本思想與將奇異攝動引入柔性關節系統動力學方程一致,都將柔性變形產生的振動視為暫態的快速系統,將名義剛體運動視為準靜態的慢速系統,然后分別對兩個系統進行復合控制,并應用于單柔性連桿的控制中[23]。英國Sheffield大學A.S.Morris教授領導的課題組在柔性關節奇異攝動和復合控制方面開展了持續的研究。在2002年利用Lagrange方程和假設模態以及Spong關節模型建立柔性關節和柔性連桿的耦合模型,并對奇異攝動理論降階后的慢速和快速子系統分別采用計算力矩控制和二次型最優控制[24]。2003年在解決柔性關節機器人軌跡跟蹤控制時,針對慢速系統參數不確定問題引入RBF神經網絡代替原有的計算力矩控制[25].隨后2006年在文獻[24]所得算法和子系統模型的基礎上,針對整個系統穩定性和魯棒性要求,在邊界層采用Hinf控制,在慢速系統采用神經網絡算法,并給出了系統的穩定性分析[26]。隨著相關研究的開展,有些學者開始在奇異攝動理論與復合控制的基礎上作出相應改進。由于奇異攝動的數學復雜性和計算量問題,Spong和Ghorbel提出用積分流形代替奇異攝動[27]。針對奇異攝動模型需要關節高剛度假設,在關節柔度較大的情況下,劉業超等人提出一種剛度補償算法,拓展了奇異攝動理論的適用范圍[28]。(2)狀態反饋和自適應控制在采用奇異攝動理論進行分析時,常常要同時引入自適應控制律來完成對未知或不精確參數的處理,而采用積分流形的方式最大的缺點也在于參數的不確定性,同樣需要結合自適應控制律[29,30]。因此在考慮柔性環節的機器人高動態性能控制要求下,自適應控制律的引入具有一定的必要性。目前對于柔性關節機器人自適應控制主要思路如下:首先根據Spong模型,機器人系統階數為4,然后通過相應的降階方法獲得一個二階的剛體模型子系統,而目前的大多數柔性關節自適應控制律主要針對的便是二階的剛體子系統中參數不確定性。Spong等人提出了將自適應控制律引入柔性關節控制,其基于柔性關節動力學奇異攝動方程,對降階剛體模型采用了自適應控制律,主要采用的是經典的Slotine-Li自適應控制律[31],并通過與Cambridge大學Daniel之間互相糾正和修改,確立一套較為完善的基于奇異攝動模型的柔性關節自適應控制方法[32-34]。(3)輸入整形控制輸入整形最原始的思想來自于利用PosicastControl提出的時滯濾波器,其基本思想可以概括為在原有控制系統中引入一個前饋單元,包含一系列不同幅值和時滯的脈沖序列。將期望的系統輸入和脈沖序列進行卷積,產生一個整形的輸入來驅動系統。最原始的輸入整形方法要求系統是線性的,并且方法魯棒性較差,因此其使用受到限制。直到二十世紀九十年初由MIT的Signer博士大幅度提高該方法魯棒性,并正式將該方法命名為輸入整形法后[35],才逐漸為人們重視,并在柔性機器人和柔性結構控制方面取得了一系列不錯的控制效果[36-39]。輸入整形技術在處理柔性機器人控制時,可以統一考慮關節柔性和連桿柔性。對于柔性機器人的點對點控制問題,要求快速消除殘余振蕩,使機器人快速精確定位。

這類問題對于輸入整形控制來說是較容易實現的,但由于機器人柔性環節較多,呈現出多個系統模態,因此必須解決多模態輸入整形問題。相關學者對多模態系統的輸入整形進行了深入研究。多模態系統的輸入整形設計方法一般有:a)級聯法:為每個模態設計相應的濾波器,然后將所有模態的時滯濾波器進行級聯,組合成一個完整的濾波器,以抑制所有模態的振蕩;b)聯立方程法:直接根據系統的靈敏度曲線建立一系列的約束方程,通過求解方程組來得到濾波器。這兩種方法對系統的兩種模態誤差均有很好的魯棒性。級聯法設計簡單,且對高模態的不敏感性比聯立方程法要好;聯立方程法比較直接,濾波器包含的脈沖個數少,減少了運行時間。對于多模態輸入整形控制Singer博士提出了一種高效的輸入整形方法,其基本思想為:首先在靈敏度曲線上選擇一些滿足殘留振蕩最大幅值的頻段,在這些特定的頻帶中分別選擇一些采樣頻率,計算其殘留振蕩;然后將各頻率段的殘留振蕩與期望振蕩值的差平方后累加求和,構成目標函數,求取保證目標函數最小的輸入整形序列。將頻率選擇轉化為優化問題,對于多模態系統,則在每個模態處分別選擇頻率采樣點和不同的阻尼系數,再按上述方法求解[40]。SungsooRhim和WayneBook在2004年針對多模態振動問題提出了一種新的時延整形濾波器,并以控制對象柔性模態為變量的函數形式給出了要消除殘余振動所需最基本條件。同時指出當濾波器項數滿足基本條件時,濾波器的時延可以任意設定,消除任何給定范圍內的任意多個柔性振動模態產生的殘余振動,為輸入整形控制器實現自適應提供了理論基礎[41],同時針對原有輸入整形所通常處理的點對點控制問題進行了有益補充,M.C.Reynolds和P.H.Meckl等人將輸入整形應用于關節空間的軌跡控制,提出了一種時間和輸入能量最優的軌跡控制方法[42]。(4)不基于模型的軟計算智能控制針對含有柔性關節機器人動力學系統的復雜性和無法精確建模,神經網絡等智能計算方法更多地被引入用于對機器人動力學模型進行近似。Ge等人利用高斯徑向函數神經網絡完成柔性關節機器人系統的反饋線性化,仿真結果表明相比于傳統的基于模型的反饋線性化控制,采用該方法系統動態跟蹤性能較好,對于參數不確定性和動力學模型的變化魯棒性較強,但是整個算法所用的神經網絡由于所需節點較多,計算量較大,并且需要全狀態反饋,狀態反饋量獲取存在一定困難[43]。孫富春等人對于只具有關節傳感器的機器人系統在輸出反饋控制的基礎上引入神經網絡,用于逼近機器人模型,克服無法精確建模的非線性環節帶來的影響,從而提高機器人系統的動態跟蹤性能[44]。A.S.Morris針對整個柔性機器人動力學模型提出了相應的模糊控制器,并用GA算法對控制器參數進行了優化,之后在模糊控制器的基礎上,綜合了神經網絡的逼近功能對剛柔耦合運動進行了補償[45]。除采用神經網絡外,模糊控制也在柔性機器人控制中得以應用。具有代表性的研究成果有V.G.Moudgal設計了一種具有參數自學習能力的柔性連桿模糊控制器,對系統進行了穩定性分析,并與常規的模糊控制策略進行了實驗比較[46]。Lin和F.L.Lewis等人在利用奇異攝動方法基礎上引入模糊控制器,對所得的快速子系統和慢速子系統分別進行模糊控制[4748]。快速子系統的模糊控制器采用最優控制方法使柔性系統的振動快速消退,慢速子系統的模糊控制器完成名義軌跡的追蹤,并對單柔性梁進行了實驗研究。Trabia和Shi提出將關節轉角和末端振動變形分別設計模糊控制器進行控制,由于對每個子系統只有一個控制目標,所以模糊規則相對簡單,最后將兩個控制器的輸出進行合成,完成復合控制,其思想與奇異攝動方法下進行復合控制類似[49]。隨后又對該算法進行改進,同樣采用分布式結構,通過對輸出變量重要性進行評估,得出關節和末端點的速度量要比位置量更為重要,因此將模糊控制器分成兩部分,分別對速度和位置進行控制,并利用NelderandMeadSimplex搜索方法對隸屬度函數進行更新[50]。采用基于軟計算的智能控制方法相對于基于模型的控制方法具有很多優勢,特別是可以與傳統控制方法相結合,完成對傳統方法無法精確建模的非線性環節進行逼近,但是目前這些方法的研究絕大部分還處于仿真階段,或在較簡單的機器人(如單自由度或兩自由度機器人)進行相關實驗研究。其應用和工程實現受限的主要原因在于計算量大,但隨著處理器計算能力的提高,這些方法還有廣泛的應用前景。

卷積神經網絡的主要思想范文4

關鍵詞: 動態紋理分類; 慢特征分析; 深度學習; 堆棧降噪自動編碼網絡模型

中圖分類號: TN919?34 文獻標識碼: A 文章編號: 1004?373X(2015)06?0020?05

Dynamic texture classification method based on stacked denoising autoencoding model

WANG Cai?xia, WEI Xue?yun, WANG Biao

(School of Electronics and Information Engineering, Jiangsu University of Science and Technology, Zhenjiang 212003 China)

Abstract: To overcome the shortcomings of extracting the feature descriptors by manual operation and too high feature dimension for dynamic scene classification, a deep learning network model is proposed to extract dynamic texture features. Firstly, the slow feature analysis method is used to learn dynamic characteristics of each video sequence through before hand, and the learned feature is used as input data of deep learning to get the advanced representation of the input signal. The stacked denoising autoencoding model is selected for the deep learning network mode. SVM classification method is used for its classification. The experimental result proves that the feature dimension extracted by this method is low and can effectively describe dynamic textures.

Keywords: dynamic texture classification; slow feature analysis; deep learning; stacked denoising autoencoding model

0 引 言

動態紋理是指具有空間重復性、并隨時間變化的視覺模式,這種模式形成了一系列在時間域上具有某種不變性的圖像序列[1]。不同的動態紋理可能具有相似的外觀,但是卻具有不同的運動形式,所以表觀和運動是動態紋理特征的兩大方面。在目前的動態視頻分析系統中,最關鍵的步驟是如何提取有效的動態紋理特征描述符。在過去幾十年里,對紋理的研究大部分都集中在靜態紋理特征的研究,動態紋理的研究相對靜態紋理而言起步要晚的多。動態紋理的研究最早始于20世紀90年代初,由Nelson和Polana采用建立線性系統模型的方法對其進行研究[2],并且將視覺運動劃分為三類[3]:行為、運動事件以及動態紋理。隨后,Szummer 和 Picard提出采用時空自回歸模型(Spatio?Temporal Auto Regressive,STAR)[4]對動態紋理序列進行建模?;诠饬鞯淖R別法是目前比較流行的動態紋理識別法,因為其計算效率高,并且以一種很直觀的方式來描述圖像的局部動態紋理特征,Fazekas和Chetverikov總結出,正則性(Regulated)全局流與普通流(Normal Flow)相比,普通流可以同時包含動態特性和形狀特性[5]?;贚BP的動態紋理方法是最近幾年才提出的一種有效算法,典型的是Zhao等人提出的兩種時空域上的描述子:時空局部二值模式(Volume Local Binary Pattern,VLBP)[6]和三正交面局部二值模式(Local Binary Pattern from Three Orthogonal Planes,LBP?TOP)[7],有效地結合“運動”和“外觀”特征。2007―2008年是動態紋理研究最多的兩年,各大期刊雜志連續刊登有關動態紋理的研究文章。

本文試圖解決動態自然場景的分類問題(例如:煙火、河流、風暴、海洋、雪花等)。在計算機視覺領域,過去采用較多的是手動提取特征來表示物體運動信息(例如:HOF、基于STIP的HOG算法等),實驗表明該類方法對人體行為識別非常有效。但是由于自然環境比較復雜,動態紋理表現不穩定,易受光照、遮擋等影響,而手動選取特征非常費力,需要大量的時間進行調節,所以該類方法并不適用于動態場景分類。Theriault等人提出利用慢特征分析的方法來提取動態視頻序列的特征[8]。該方法雖然能有效表示動態紋理特征,但是其提取的特征維數較高。深度學習是機器學習研究中一個新的領域,其動機在于建立、模擬人腦進行分析學習的神經網絡,近幾年深度學習網絡模型在大尺度圖像分類問題中成功應用使得其得到越來越多人的重視。卷積神經網絡、深度置信網絡和堆棧自編碼網絡是三種典型的深度學習網絡模型,而堆棧自編碼網絡模型不僅對高維數據有很好的表示,而且采用非監督的學習模式對輸入數據進行特征提取,這對于傳統的手動提取特征。利用堆棧自編碼網絡模型對慢特征進行進一步學習,不僅能降低數據維度,而且還能提取出數據更有效的特征表示。

1 基于堆棧自編碼網絡模型的慢特征分析法

1.1 慢特征分析法

文獻[9?10]中提到,慢特征分析算法的目標是從不斷變化的輸入信號中學習不變量,即除了無意義的常值信號外,最具不變性質的信息,其實質也就是從快速變化的信號中提取緩慢變化的信號特征,這種特征是從混合信號中提取出來的源信號的高級表示,表征信號源的某些固有屬性[11]。

實驗證明,慢特征分析法在人體行為識別中有很好的描述作用,這為動態紋理分類提供了一個很好的選擇。慢特征分析算法的核心思想是相關矩陣的特征值分解,其本質是在經過非線性擴展特征空間對目標函數進行優化,尋找最優解的線性組合。

給定一個時域輸入信號序列:

[vt=v1t,v2t,…,vDtT]

目標就是學習一組映射函數:

[Sv=S1v,S2v,…,SMv]

使得輸出信號[yt=y1t,y2t,…,yMtT]的各個分量[yj=Sjvt]的變化盡可能緩慢,而且仍然保留相關的重要信息。選用時域信號一階導數的均方值來衡量輸出信號個分量的變化率:

[minSj<y?2j>t] (1)

且滿足以下條件:

(1) [<yj>t=0];

(2) [<y2j>t=1];

(3) [?j<j':<yj,yj'>t=0]。

其中:[<y>t]是[y]的時域平均值;[y?j]是[yj]的時域一階導數。這三個約束條件保證慢特征分析的輸出信號的各分量的變化率盡可能小,其中條件1和條件2確保輸出沒有無意義的常信號值,條件3確保輸出各分量之間是非相關的,且不同慢特征承載著不同信息。值得注意的是,函數[Sv]是輸入信號的瞬時函數,所以輸出結果不能看成是通過低通濾波器的結果,慢特征處理速度要比低通濾波器快很多。如圖1所示。

<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t1.tif>

圖1 時域輸入信號慢特征的提取

輸出信號各分量按照變化率從小到大排列,且互不相關,其最優解問題可以看成以下公式的解特征值問題:

[Sj:<v?v?T>tSj=λjSj] (2)

求解得到的特征值按從小到大的順序排列,即[λ1≤λ2≤???≤λM],輸出信號的慢特征和最小特征值息息相關。輸入信號[vt]可以是多種模式的圖像特征(例如色彩,梯度,SIFT特征,HOG特征)。

這里采用的是v1特征[12?13],該特征對圖像有很好的表示,確保預先學習到的慢特征能達到最優。

1.2 堆棧自動編碼模型

自動編碼器模型是深度學習網絡模型之一,其盡可能復現輸入信號,捕捉代表輸入信號的主要成分。

如圖2所示,對于給定輸入信號[x],根據式(2)得到輸出[y],此過程為編碼過程:

[y=fθx=sWx+b] (3)

式中:[sx=11+θ-x];[W]是[d′×d]維權重矩陣;[b]是偏移向量。

為了驗證輸出[y]是否準確表達原輸入信號,利用式(2)對其進行重構,得到重構信號[z]。此過程為解碼/重構過程:

[gθ′y=sW′y+b′] (4)

從輸入到輸出的權值記為[θ=W,b],從輸出到輸入的權值記為[θ′=W′,b′]。逐層進行參數[θ]和[θ′]的優化,式(5)為其目標函數:

[θ?,θ′*=argminθ,θ′Lx,zLx,z=12x-z2] (5)

調整參數,使得重構誤差達到最小,因此可以得到[x]的第一層表示。

<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t2.tif>

圖2 普通DA和降噪DA

降噪自動編碼器(Denoising Auto Encoder,Dae)是在自動編碼器的基礎上給訓練數據加入噪聲,編碼器需要學習去除噪聲而獲得沒有被噪聲污染的輸入信號,因此獲得輸入信號更加魯棒的表達。堆棧自動編碼模型(Sda)是將多個Dae堆疊起來形成的一種深度網絡模型。利用優化后的參數[θ]得到當前層的輸出[y](即下一層的輸入),將得到的[y]作為新一層的輸入數據,逐層進行降噪自動編碼的過程,直到到達多層神經網絡中間隱層的最后一層為止,算出該層輸出,即為輸出特征,如圖3所示。

<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t3.tif>

圖3 多層神經網絡結構圖

1.3 基于Sda的慢特征分析法

基于Sda的慢特征分析方法利用慢特征分析法預先學習動態視頻序列的慢特征,將該特征作為模型輸入,進行多層降噪自動編碼網絡模型參數的學習,最后使用SVM分類器對該模型的輸出特征進行分類,具體步驟如圖4所示。

2 實 驗

2.1 實驗數據集與評估準則

實驗所用數據由10類動態場景構成(包括海灘,電梯,森林煙火,高速公路,閃電,海洋,鐵路,河流,云,街道),且每一個類別由30個250×370 pixels大小的彩序列構成。這些視頻序列全部來自于加拿大約克大學計算機視覺實驗室于2012年的YUPENN動態場景數據集[14],該數據庫主要強調的是對象和表層在短時間內場景的實時信息。如圖5所示。

<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t4.tif>

圖4 基于Sda的慢特征分析步驟圖

<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t5.tif>

圖5 YUPENN動態數據庫

將所有彩序列進行尺度縮放,分別放大和縮小1.2倍,1.4倍,1.6倍,并且在每一個尺度上進行旋轉,旋轉角度分別為[2°,4°,6°,-2°,-4°,-6°]。所以樣本總數為(10×30)×(6×6)=10 800個。實驗性能使用混淆矩陣(Confusion Matrix)進行衡量?;煜仃囀嵌喾诸悊栴}中常用的衡量準則,它使得分類結果一目了然并能指出錯誤預測的影響。分類矩陣通過確定預測值是否與實際值匹配,將模型中的所有事例分為不同的類別。然后會對每個類別中的所有事例進行計數,并在矩陣中顯示總計。實驗中一共有14個類別的數據集,所以最后會產生一個大小為14×14的混淆矩陣。

2.2 實驗結果與分析

實驗選用線性SVM分類器,采用Leave?One?Out 分析法進行分類。所有視頻序列全部轉換成灰度視頻進行慢特征分析,輸出大小為4 032維的慢特征向量作為Sda網絡模型的輸入數據。

2.2.1 Sda網絡模型大小

堆棧降噪自動編碼器網絡層數以及每一層的大小對輸出特征的魯棒性和SVM分類結果有重要的影響。當網絡層數不一樣時,模型學習到的特征也就不一樣,網絡層數過低,學習力度可能不夠,特征達不到最佳表示效果,網絡層數太高,可能會出現過擬合現象,隱層的大小和最后的分類結果也息息相關,所以選取不同網絡層數和隱層大小分別進行實驗,如圖6所示,選取網絡層數分別為1,2,3,隱層大小分別為500,1 000,2 000。由圖6可知,當隱層大小為500時的分類得分顯然比1 000和2 000時高很多;在隱層大小為500時,隨著網絡層數不斷增加,實驗結果不斷提升,當網絡層數由2層上升到3層時,實驗結果已經非常接近(網絡層數為2時score=95.9%,網絡層數為3時score=96.3%)。可以得知,隨著網絡層數不斷增加,分類的效果逐漸提高,當網絡層數為3時,分類結果已非常接近。

<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t6.tif>

圖6 不同網絡層數和隱層大小的分類結果

2.2.2 噪聲

Sdae對每一層的輸入加入噪聲,編碼器自動學習如何去除噪聲而獲得更加魯棒的動態紋理特征,因此每一層所加入的噪聲的大小對提取的特征有很大的影響。因此,選取不同大小的噪聲分別進行實驗,如圖7所示,選取噪聲大小分別為10%,15%,20%,25%,30%,35%,40%,45%,50%,固定網絡層大小為[500,500,500];由圖可知,加入噪聲對分類得分的影響呈類似拋物線形狀,對每一層輸入數據加入25%的噪聲時score=0.964為最大值。

2.2.3 混淆矩陣以及實驗與現有方法的比較

圖8為實驗最優參數所計算出的混淆矩陣,由圖可知,海灘、電梯、高速公路以及海洋的分類效果達到100%,噴泉(Fountain)的分類效果雖然最差,但也已經達到83%左右,其容易被誤分成森林火災(17%錯誤分類)。由該混淆矩陣可以得知,實驗所用方法能夠達到將近96.4%平均得分。表1是本文所用方法與現有幾個比較常用的動態紋理特征提取方法的比較,分別有HOF[15],GIST[16],Chaos[17],SFA[8]。由表格可以得知,SFA是幾個方法中效果最好的,可以達到76.7%的分類效果,而本文所用方法SFA+Sda比SFA方法提高了將近20%的分類得分,并且在每一個動態場景中分類效果總是優于其他幾種方法。

<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t7.tif>

圖7 加入不同噪聲的分類結果

<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t8.tif>

圖8 混淆矩陣

表1 本實驗與現有方法比較

3 結 語

本文提出一種基于多層降噪自動編碼網絡模型的動態紋理分類方法:預先學習動態視頻序列的慢特征,以此作為多層降噪自編碼網絡模型的輸入數據進行非監督的深度學習,網絡最頂層的輸出即為所提取的動態紋理特征,采用SVM分類器對該特征進行分類。本文對實驗中的各種影響參數如網絡模型的深度、每一層的大小以及加入噪聲的大小做了充分的研究,實驗證明,該方法所提取的特征對動態紋理有很好的表示作用,分類效果不錯,在動態場景分類問題中有很大的應用價值。

參考文獻

[1] DORETTO G, CHIUSO A, WU Y, et al. Dynamic textures [J]. International Journal on Computer Vision, 2003, 51(2): 91?109.

[2] NELSON R C, POLENA P. Qualitative recognition of motion using temporal texture [J]. CVGIP: Image Understanding, 1992, 56(1): 78?89.

[3] POLANA R, NELSON R. Temporal texture and activity recognition [J]. Motion?Based Recognition: Computational Imaging and Vision, 1997, 9: 87?124.

[4] SZUMMER M, PICARD R W. Temporal texture modeling [C]// Proceedings of 1996 International Conference on Image Processing. [S.l.]: [s.n.], 1996: 11?16.

[5] FAZEKAS S, CHETVERIKOV D. Normal versus complete ?ow in dynamic texture recognition a comparative study [C]// 2005 4th International Workshop on Texture Analysis and Synthesis (ICCV 2005). [S.l.]: [s.n.], 2005: 37?42.

[6] ZHAO G, PIETIK?INEN M. Dynamic texture recognition using volume local binary patterns [C]// European Conference on Computer Vision. [S.l.]: [s.n.], 2006: 165?177.

[7] PIETIK¨AINEN G Z M. Dynamic texture recognition using local binary patterns with an application to facial expression [J]. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2007, 29(6): 915?928.

[8] THERIAULT Christian, THOME Nicolas, CORD Matthieu. Dynamic scene classification: learning motion descriptors with slow features analysis [EB/OL]. [2014?09?17]. http://.

[9] FRANZIUS M, WILBERT N, WISKOTT L. Invariant object recognition with slow feature analysis [C]// ICANN 18th International Conference. Berlin: Springer?Verlag, 2008: 961?970.

[10] WISKOTT L, SEJNOWSKI T. Slow feature analysis: Unsupervised learning of invariances [J]. Neural Comput., 2002, 14: 715?770.

[11] 馬奎俊,韓彥軍,陶卿,等.基于核的慢特征分析算法[J].模式識別與人工智能,2011(2):79?84.

[12] DE VALOIS R, YUND E, HEPLER N. The orientation and direction selectivity of cells in macaque visual cortex [J]. Vision Research, 1982, 22: 531?544.

[13] HUBEL D, WIESEL T. Receptive fields of single neurons in the cat’s striate cortex [J]. Journal of Physiol, 1959, 4: 574?591.

[14] DERPANIS Konstantinos, LECCE M, DANIILIDIS K, et al. Dynamic scene understanding: the role of orientation features in space and time in scene classification [C]// International Conference on Computer Vision and Pattern Recognition. [S.l.]: [s.n.], 2012: 111?121.

[15] MARSZALEK M, LAPTEV I, SCHMID C. Actions in Context [C]// 2009 IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2009: 2?6.

卷積神經網絡的主要思想范文5

論文摘要: 當點擴展函數未知或不確知的情況下, 從觀察到的退化圖像中恢復原始圖像的過程稱為圖像盲復原。近年來, 圖像盲復原算法得到了廣泛的研究。本文在介紹了盲圖像恢復算法的現狀的基礎上進一步研究其的發展方向。

一、引言

圖像恢復是圖像處理中的一大領域,有著廣泛的應用,正成為當前研究的熱點。圖像恢復的主要目的是使退化圖像經過一定的加工處理,去掉退化因素,以最大的保真度恢復成原來的圖像。傳統的圖像恢復假設圖像的降質模型是己知的。而許多情況下,圖像的降質模型未知或具有較少的先驗知識,必須進行所謂的盲恢復。其重要性和艱巨性而成為一個研究熱點。目前所能獲取的觀測圖像是真實圖像經過觀測系統成像的結果。由于觀測系統本身物理特性的限制,同時受觀測環境的影響,觀測圖像和真實圖像之間不可避免地存在著偏差和失真,稱觀測系統對真實圖像產生了降質。圖像恢復的目的就是根據降質的觀測圖像分析和計算得出真實圖像。

二、圖像盲恢復算法的現狀

總體來說, 圖像盲復原方法主要分為以下兩類: 一是首先利用真實圖像的特別特征估計PSF,然后借助估計得到的PSF,采用經典的圖像復原方法進行圖像的復原。這類方法將PSF的估計與圖像的復原過程分為2個不同的過程,因而具有較少計算量的特點;二是PSF辨識和真實圖像估計相結合,同時辨識PSF和真實圖像。這類算法較為復雜,計算量較大。另外,對于點擴展函數也考慮了空間變化的復雜情況。針對目前的盲復原算法的現狀,根據退化模型的特點, 重新將算法分為空間不變的單通道盲復原算法、空間不變多通道盲復原算法和空間變化圖像盲復原算法3類。

(一)單通道空間不變圖像盲復原算法

在這類算法中, 最為常用的是參數法和迭代法。

1)參數法。所謂參數法, 即模型參數法, 就是將PSF和真實圖像用某一類模型加以描述, 但模型的參數需要進行辨識。在參數法中, 典型的有先驗模糊辨識法和ARMA 參數估計法, 前者先辨識PSF的模型參數,后辨識真實圖像, 屬于第1 種類型的圖像盲復原算法, 因而計算量較?。缓笳咄瑫r辨識PSF和真實圖像模型參數, 屬于第2種類型圖像盲復原算法。

2)迭代法。所謂的迭代法, 不是通過建立模型而是通過算法的迭代過程, 加上有關真實圖像和PSF的約束來同時辨識PSF和真實圖像的方法。迭代法是單通道

圖像盲復原算法中應用最廣泛的一類算法, 它不需建立模型, 也不要求PSF 為最小相位系統, 因而跟實際更為接近。在這類算法中, 迭代盲復原算法(IBD), 基于非負性和決策域的遞歸逆濾波器算法(NAR2R IF) ,基于高階統計特性的最小

熵算法等最為典型。

(二)多通道二維圖像盲復原

多通道二維圖像盲復原, 這類方法將數字通訊領域應用的一維多通道盲原分離算法擴展到二維情況并用于圖像的盲恢復。這類算法中有兩種代數方法, 一種是先辨識模糊函數, 再采用常規的恢復算法進行復原;另一種是直接對逆濾波器進行估計。此類算法的優點在于不需對初始圖像進行估計, 也不存在穩定性和收斂性問題,對圖像以及模糊函數的約束是松弛的,算法具有一般性。但是第1種算法要求采用復原算法具有收斂性;第2種算法對噪聲敏感。

(三)空間改變的圖像盲復原方法

在許多實際的應用中, 模糊往往是空間變化的,但由于處理工作的難度, 目前的研究較少,基本有相關轉換恢復和直接法兩類。

相關轉換恢復的基本思想是區域分割, 即將整幅圖像分為若干局部區域, 然后假設在各個局部區域模糊是空間不變的, 利用空間不變的圖像復原有關算法進行復原。這類方法都是基于窗口的模糊辨識技術, 圖像的估計取決于窗口的大小, 由于模糊參數是連續變化的, 在范圍較大時空間不變的假設是不成立的, 因而模糊的估計精度較差, 而且這種方法只能針對部分空間變化的模糊進行處理, 缺乏通用性; 其次在區域的邊上存在振鈴現象。

直接法的基本思想是直接對圖像進行處理。如采用簡化的二維遞推卡爾曼濾波器進行圖像模型和模糊模型的直接轉換方法, 其缺點是只能針對有限的模型, 而且模型數增加, 計算量會顯著增大;采用共軛梯度迭代算法, 但只見到一個31×31 的文本圖像處理的結果報道,對于大圖像處理效果尚需進一步的研究;將空間變化圖像系統建立成馬爾苛夫隨機模型,對復原過程,采用模擬退火算法進行最大后驗估計的方法,這種方法避免了圖像的窗口化, 并能克服模糊參數不連續性造成的影響,但這種方法只能局限于將模糊過程建立成單參數的馬爾苛夫隨機模型的情況,而且計算量也較大。

三、圖像盲恢復的應用前景

(1)現有算法的改進以及新的算法研究?,F有各種算法還存在許多不足,有必要對算法進一步改進。如IBD算法中, 如何選擇初始條件才能保證算法的收斂;如何選擇算法終止條件才能保證恢復的質量; 如何選擇濾波器中的噪聲參數才能減少噪聲的影響。又如NAR2R IF算法中, 如何進一步解決噪聲敏感問題,支持域的確定以及如何將算法擴展到非均勻背景的情況等。提出新的算法更好地解決圖像盲復原問題, 也是今后研究的熱點。

(2)基于非線性退化模型的圖像盲復原算法。在實際應用中,嚴格來講,所有的退化模型都是非線性的。對模型采用線性化的方法進行近似處理,雖然算法簡單,但對非線性嚴重的情況處理效果并不理想?;诙囗検揭约吧窠浘W絡兩種參數模型處理非線性信號盲分離算法,算法擴展到二維圖像情況需要進一步研究。研究基于非線性退化模型的圖像盲復原算法也是下一步研究方向之一。

(3)去噪處理算法研究。加性噪聲的存在,使圖像的復原問題變成了一個病態問題,而且由于一般假設只知道噪聲的統計特性,因此要從退化圖像中完全去除噪聲是不可能的。另外,由于噪聲的存在,恢復的效果并不理想,結合降噪的圖像盲恢復的算法研究有很現實的意義,這方面也進行了部分工作。為克服噪聲的影響,一般采用先進行降噪,后進行復原;二是將降噪和復原同時進行這兩類方法。目前,大多數算法中將噪聲描述成高斯噪聲進行研究, 在實際應用時有較大局限性。對于非高斯情況的研究采用基于噪聲的高階統計特性的去噪算法研究也是很重要的研究方向,也可采用其他類型的方法進行降噪,利用自組織映射的非線性獨立組件分析方法進行圖像降噪處理算法。

(4)實時處理算法。算法的的復雜性是制約算法應用的一個重要方面。可采用正則化的離散周期Radon變換的方法將二維的卷積轉化為一維進行處理,以提高算法的速度;也可采用神經網絡的實時處理算法。算法的實時性是算法實際應用的先決條件。

(5)應用研究。算法的應用是推動算法研究的動力。雖然圖像盲復原算法在天文學、醫學、遙感等方面獲得了較大的應用, 但將算法應用到一般的工業圖像實時檢測、機器視覺、網絡環境下的圖像傳輸恢復、刑事偵破等方面還有大量的工作要做。

參考文獻:

[1] 薛梅,楊綠溪.用于含噪二值圖像的改進NAS-RIF圖像盲復原算[J].數據處理.2006.17.(2).

卷積神經網絡的主要思想范文6

關鍵詞:PCB;圖像處理;視覺檢測

中圖分類號:TP277文獻標識碼:A文章編號:1009-3044(2012)07-1648-06

當今世界科技發展日新月異,電子產業的發展直接制約著國民經濟的騰飛與否,而PCB電路板制作工藝的提高對促進電子產業的發展至關重要,能否有效精確地檢測PCB電路板的缺陷一直都是電子行業的研究熱點。國外的印刷電路板自動檢測技術一直領先于國內,國內的很多廠家不得不采用昂貴的外國技術,雖然近年國內的印刷電路板自動檢測技術發展迅速,但大都沒有取得令人非常滿意的結果。加入研究這一領域的熱潮,趕超外國的先進技技水平,打斷外國壟斷技術,對于發展國民經濟具有十分重要的意義。

1 PCB檢測系統的硬件設計

1.1 PCB檢測系統的硬件組成框圖

雖然本文所做的工作主要是軟件方面,但對于硬件系統的設計也是至關重要的,它對于建立有效的計算機視覺識別檢測系統,起著決定性作用。因此,必須在綜合考慮系統性價比和系統性能的基礎上,設計出合理的硬件系統[9]。PCB檢測系統的硬件組成框圖如圖1所示:圖1 PCB檢測系統硬件組成框圖

1.2系統的硬件組成

系統的硬件組成[10]主要包括:計算機主機、CCD攝像機、圖像采集卡、照明系統及相關的設備。

2 PCB電路板缺陷檢測識別

PCB電路板在電子工業中的應用越來越廣泛,如何降低電路板的故障率、提高電路板的質量直接影響到整個產業的發展。因此,對于PCB電路板缺陷的識別技術的發展至關重要。PCB電路板的缺陷很多[16],主要有短路、斷路、劃痕、凸起、空洞、缺焊、過焊等等,由于實驗室設備限制和個人水平所限,本文主要研究的內容是PCB電路板短路與斷路的檢測識別

近年來出現了很多圖像檢測算法,這些算法大致可分為三大類:有參考算法、無參考算法以及混合型算法。有參考算法分為兩大類:圖像對比法和模型對比法。無參考算法是一種不需要標準圖像的檢測算法,它是基于一定的設計規則來進行檢測的?;旌闲头椒ㄊ菍⒂袇⒖妓惴ㄅc無參考算法混合使用,從而發揮出各自的優點。比如,模板匹配法與數學形態學方法結合使用,或者連接表方法與數學形態學方法結合使用等。本文中短路與斷路的檢測識別采取了圖像對比法,即將經過一定處理后的圖像進行相減,從而分析相應的結果;而對焊點缺陷的識別主要采用模板匹配法與數學形態學方法結合使用。

2.1 PCB電路板缺陷檢測識別的主要流程圖

圖2為子程序流程圖;圖3為主程序流程圖。

2.2 PCB電路板短路與斷路的檢測識別

2.2.1邊緣檢測

在對圖像進行基本的處理過后可以將圖像與背景分割開來。邊緣檢測是圖像處理和計算機視覺中的基本問題,邊緣檢測的目的是標識數字圖像中亮度變化明顯的點。圖像屬性中的顯著變化通常反映了屬性的重要事件和變化。

這些包括:深度上的不連續;表面方向不連續;物質屬性變化;場景照明變化。邊緣檢測是圖像處理和計算機視覺中,尤其是特征提取中的一個研究領域。

圖像邊緣檢測大幅度地減少了數據量,并且剔除了可以認為不相關的信息,保留了圖像重要的結構屬性。有許多方法用于邊緣檢測,它們的絕大部分可以劃分為兩類[17]:基于查找一類和基于零穿越的一類?;诓檎业姆椒ㄍㄟ^尋找圖像一階導數中的最大和最小值來檢測邊界,通常是將邊界定位在梯度最大的方向?;诹愦┰降姆椒ㄍㄟ^尋找圖像二階導數零穿越來尋找邊界,通常是Laplacian過零點或者非線性差分表示的過零點。

1)Roberts算子

邊緣,是指周圍像素灰度有階躍變化或屋頂等變化的那些像素的集合。圖像的邊緣對應著圖像灰度的不連續性。顯然圖像的邊緣很少是從一個灰度跳到另一個灰度這樣的理想狀況。真實圖像的邊緣通常都具有有限的寬度呈現出陡峭的斜坡狀。邊緣的銳利程度由圖像灰度的梯度決定。梯度是一個向量,?f指出灰度變化的最快的方向和數量,如式2-1所示。

?f=(決定的。

因此最簡單的邊緣檢測算子是用圖像的垂直和水平差分來逼近梯度算子,式2-4所示。?f=(f(x,y)-f(x-1,y),f(x,y)-f(x,y-1))(式2-4)

因此當我們想尋找邊緣的時候,最簡單的方法是對每一個像素計算出(2,4)的向量,然后求出他的絕對值,然后進行閥值操作就可以了。利用這種思想就得到了Roberts算子,由式2-5所示。

R(i,j)=

(式2-5)

它是一個兩個2×2模板作用的結果。

2)Sobel算子

該算法通過2個3*3的模板,對選定的二維圖像中同樣大小窗口進行卷積,通常是一個模板對一個邊緣響應大,另一個模板對水平邊緣響應大,兩個卷積值對最大值作為該點對輸出。對于圖像上的任意點(i,j)進行卷積,可得其X方向上的差分由式2-6、式2-7所示。Δx=f(i-1,j+1)+2f(i,j+1)+f(i+1,j+1)-[f(i-1,j-1)+2f(i,j-1)+f(i+1,j-1)](式2-6)Δy=f(i-1,j-1)+2f(i-1,j)+f(i-1,j+1)-[f(i+1,j+1)+2f(i+1,j)+f(i+1,j+1)](式2-7)則輸出圖像公式如式2-8所示。

用sobel算子檢測階躍邊緣得到的邊緣寬度至少為兩個寬度。3)Laplacian邊緣檢測算子

Laplacian算子定義由式2-9所示。

Δ2f(x,y)=

(式2-9)它的差分形式由式2-10所示。

Δ2f(x,y)={[f(x+1,y)-f(x,y)]-[f(x,y)-f(x-1,y)]}+{[f(x,y+1)-f(x,y)]-[f(x,y)-f(x,y-1)]}

=f(x+1,y)+f(x-1,y)+f(x,y-1)+f(x,y+1)+f(x,y+1)+4f(x+1,y)(式2-10)

Laplacian算子是一種各向同性算子,在只關心邊緣的位置而不考慮其周圍的灰度象素差值時時比較合適,Laplacian算子對孤立象素的響應要比對邊緣或線的響應更要強烈,因此只適用于無噪聲圖像。

原圖像與用三種邊緣檢測算子處理后的圖像如下所示:圖6 Sobel邊緣檢測圖7 Laplacian邊緣檢測

從上面四幅圖分析比較可得出結論:用Roberts邊緣檢測得出的圖像較之其他方法更為清晰,噪點更少,圖像更為連續,所以本文中采用Roberts算子來進行邊緣檢測。

2.2.2閾值分割

閾值分割法是一種基于區域的圖像分割技術,其基本原理是:通過設定不同的特征閾值,把圖像象素點分為若干類。常用的特征包括:直接來自原始圖像的灰度或彩色特征;由原始灰度或彩色值變換得到的特征。設原始圖像為f(x,y),按照一定的準則f(x,y)中找到特征值T,將圖像分割為兩個部分,分割后的圖像為:

若?。篵0=0(黑),b1=1(白),即為我們通常所說的圖像二值化。

在數字化的圖像數據中,無用的背景數據和對象物的數據經常放在一起,同時,圖像中還含有各種噪聲,因此可以根據圖像的統計性質,從概率的角度來選擇合適的閾值。

1)最大方差閾值法

把待處理圖像的直方圖在某一閾值處分割為兩組,當被分割成的兩組間的方差最大時,便可以決定閾值了。

設灰度圖像f(x,y)的灰度級為0-L,灰度級I的像素為Ni,則圖中:

總象素數N=∑j=0 i=LNi(式2-11)灰度級i出現的概率Pi= 1-ω(K)(式2-16)則兩組間的數學期望為ω0μ0ω1μ1=μ(式2-17)兩組間的方差為ρ2(k)

ρ2(k)是K的函數,計算k取從0,1,2…L時ρ2(k)的值,當多的值為最大時,K即為閾值。

2)雙峰法

根據圖像的直方圖具有背景和對象物的兩個峰,分割兩個區域的閾值由兩個峰值之間的谷所對應的灰度值決定。設灰度圖像f(x,y)的灰度級為0-L,灰度i的像素為Pi,分別計算

因為實際PCB電路板有著許多的劃痕、污點等,使用最大方差閾值法時,會在處理后的圖像上產生許多誤點,而影響實際結果的分析,而雙峰法能夠順利地濾除這些干擾,這個結論在分析對比以上圖像時也可得出。所以本文選用了雙峰法來進行閾值分割。

2.2.3粒子分析與圖像對比

經過邊緣檢測和閾值分割的圖像中會存在許多瑕點,這些點會影響到最后的圖像識別與分析,有可能會增加多余的殘留圖像。本文中利用NI VISION ASSISTANT中的REMOVE SMALL OBJECTS功能進行去除,如圖11和圖12所示。圖11原圖像圖12粒子分析

將標準PCB圖片減去缺陷缺陷PCB圖片,便可以得到缺陷板的斷路部分的圖像,再利用NI ASSISTANT中的PARTICLE ANALYSIS可以得到斷路部分的具體分析,如圖13示。

將缺陷PCB圖片減去標準PCB圖片,便可以得到缺陷板的短路部分的圖像,與上述相同的方法,便可以得到短路部分的具體分析,如圖14所示。

3結束語

利用LABVIEW來進行PCB電路板缺陷的識別與檢測是一項非常好的課題,它在近些年已經得到了一定的發展,并將得到更大的進步。限于本人能力和時間,本文的研究還未涉及很深的領域,可以在以下方面加以改進:

1)本文中只利用到NI公司的LABVIEW和IMAQ VISION,更好的設計可以再利用其他語言如VISUAL BASIC,C++等編程語言加以輔助設計,相信可以取得更加令人滿意的結果。

2)由于實驗設備等其他因素,本文中只重點研究了PCB電路板短路與斷路的檢測識別,PCB電路板的其他缺陷還有待于進一步的分析研究、分類和總結,并設計出更好的檢測方法,以真正滿足PCB電路板檢測的需求。

3)照明設備的限制在很大程度上影響到了圖像的檢測效果,為取得PCB缺陷檢測的進一步進展,在照明設備的選擇上必須重視,并且設計出更好的圖像采集系統。

4)在識別與檢測手段上,可以引入更新更好的方法,而不要局限于在傳統的方法中分析比較,例如基于BP神經網絡的識別檢測,圖像的模糊決策等將有待于進一步研究。

總之,基于LABVIEW的機器視覺檢測系統已經取得了不錯的進展,高速發展的PCB制造技術和計算機技術對于PCB缺陷的檢測提出了更高的要求,同時也大大地促進了PCB缺陷檢測技術的發展。利用機器視覺檢測在未來的較長的一段時間內將占據檢測行業的半壁江山,相信在未來會取得更大的發展。

參考文獻:

[1]程學慶,房曉溪.LabVIEW圖形化編程與實例應用[M].北京:中國鐵道出版社,2005.

[2]胡仲波.基于虛擬儀器技術的PCB視覺檢測系統[D].南京:南京理工大學碩士學位論文,2006.

[3]段峰,王耀南.機器視覺技術及其應用綜述[J].自動化博覽,2002,19(3).

[4]周長發.精通Visual C++圖像處理編程[M].北京:電子工業出版社,2004.

[5]陳錫輝,張銀鴻.LabVIEW 8.20程序設計從入門到精通[M].北京:清華大學出版社,2007.

[6]鄭偉.圖像法檢測印刷電路板缺陷[M].西安:西安理工大學,2002.

[7] National Instruments,IMAQ User Manual Concepts[Z].1999.

[8]李強.PCB板缺陷自動檢測技術的分析研究[D].合肥:合肥工業大學,2002.

[9]傅茂名.基于形態邊緣檢測算法的一種改進[J].電子科技大學學報,2005(2).

[10]王思華.計算機視覺新技術及其在IC標記質量檢驗系統設計中的應用[J].電子技術應用,2000(9).

[11]岳永哲.圖像處理技術在閱卷系統中的應用[D].北京:北京工業大學,2006.

[12] Bruce sehneier.Applied Cryptography protocols,Algorithms,and SourceCode[M].C Jolm Wiley & Sons,Inc,1994.

[13] William work Security Essentials:Applications and Standard[M].Prentice Hall/Pearson,2002.

[14]高育鵬,楊俊,何廣軍.基于圖像識別的自動閱卷系統研究[J].現代電子期刊,2006(22).

[15]楊青燕,彭延軍.基于灰度圖像的答題卡識別技術[J].山東科技大學學報:自然科學版,2009(3).

[16]周海濤,韓曉軍.基于數字圖像處理的答題卡識別方法研究[J].電腦知識與技術,2008(28).

[17]周萬珍,鄭廣,王建霞,等.數字圖像處理技術在客觀題閱卷中的應用[J].數學的實踐與認識,2006(8).

[18]王勝春.基于SVM的信息卡識別系統[D].長沙:湖南師范大學,2008.

[19]吳志明.SMT系統中焊點位置的檢測[D].哈爾濱:哈爾濱工業大學,2006.

[20]楊敏,王春青,鄒增大,等.表面組裝印刷電路板上焊點信息的自動獲取[J].焊接學報,2005,39(6).

亚洲精品一二三区-久久