前言:中文期刊網精心挑選了卷積神經網絡的步驟范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
卷積神經網絡的步驟范文1
黑匣認為,復雜神經網絡、LSTMs(長短期記憶網絡)、注意力模型(Attention Models)等十大趨勢將塑造人工智能未來的技術格局。
上述判斷來自NIPS(神經信息處理系統) 2015大會。NIPS始于1987年,是人工智能領域兩大重要學習會議之一,由于AI的爆炸式發展,近年來逐漸成為許多硅谷公司必須參加的年度會議。在蒙特利爾召開的NIPS 2015吸引了眾多AI學界與業界的頂級專家,與會人數接近4000。大會總共收錄了403篇論文,其中深度學習課題約占11%。來自Dropbox的高級軟件工程師Brad Neuberg分享了他所注意到的十大技術趨勢,黑匣將對每種趨勢做了詳細分析。
1、神經網絡的架構正變得越來越復雜
感知和翻譯等大多數神經網絡的架構正變得越來越復雜,遠非此前簡單的前饋神經網絡或卷積神經網絡所能比。特別需要注意的是,神經網絡正與不同的技術(如LSTMs、卷積、自定義目標函數等)相混合。
神經網絡是多數深度學習項目的根基。深度學習基于人腦結構,一層層互相連接的人工模擬神經元模仿大腦的行為,處理視覺和語言等復雜問題。這些人工神經網絡可以收集信息,也可以對其做出反應。它們能對事物的外形和聲音做出解釋,還可以自行學習與工作。未來的人工智能,最熱門的技術趨勢是什么?
(人工模擬神經元試圖模仿大腦行為|圖片來源:Frontiers)
但這一切都需要極高的計算能力。早在80年代初期,Geoffrey Hinton和他的同事們就開始研究深度學習。然而彼時電腦還不夠快,不足以處理有關神經網絡的這些龐大的數據。當時AI研究的普遍方向也與他們相反,人們都在尋找捷徑,直接模擬出行為而不是模仿大腦的運作。
隨著計算能力的提升和算法的改進,今天,神經網絡和深度學習已經成為人工智能領域最具吸引力的流派。這些神經網絡還在變得更復雜,當年“谷歌大腦”團隊最開始嘗試“無監督學習”時,就動用了1.6萬多臺微處理器,創建了一個有數十億連接的神經網絡,在一項實驗中觀看了千萬數量級的YouTube圖像。
2、酷的人都在用LSTMs
當你閱讀本文時,你是在理解前面詞語的基礎上來理解每個詞語的。你的思想具有連續性,你不會丟棄已知信息而從頭開始思考。傳統神經網絡的一大缺陷便是無法做到這一點,而遞歸神經網絡(RNN)能夠解決這一問題。
RNN擁有循環結構,可以持續保存信息。過去幾年里,RNN在語音識別和翻譯等許多問題上取得了難以置信的成功,而成功的關鍵在于一種特殊的RNN——長短期記憶網絡(LSTMs)。
普通的RNN可以學會預測“the clouds are in the sky”中最后一個單詞,但難以學會預測“I grew up in France…I speak fluent French?!敝凶詈笠粋€詞。相關信息(clouds、France)和預測位置(sky、French)的間隔越大,神經網絡就越加難以學習連接信息。這被稱為是“長期依賴關系”問題。未來的人工智能,最熱門的技術趨勢是什么?
(長期依賴問題|圖片來源:CSDN)
LSTMs被明確設計成能克服之一問題。LSTMs有四層神經網絡層,它們以特殊的方式相互作用。這使得“能記住信息很長一段時間”可以被視作LSTMs的“固有行為”,它們不需要額外學習這一點。對于大多數任務,LSTMs已經取得了非常好的效果。
3、是時候注意“注意力模型(attention models)了
LSTMs是人們使用RNNs的一個飛躍。還有其他飛躍嗎?研究者共同的想法是:“還有注意力(attention)!”
“注意力”是指神經網絡在執行任務時知道把焦點放在何處。我們可以讓神經網絡在每一步都從更大的信息集中挑選信息作為輸入。
例如,當神經網絡為一張圖片生成標題時,它可以挑選圖像的關鍵部分作為輸入。未來的人工智能,最熱門的技術趨勢是什么?
(擁有“注意力”的RNN在圖像識別中的成功運用|圖片來源:Github)
4、神經圖靈機依然有趣,但還無法勝任實際工作
當你翻譯一句話時,并不會逐個詞匯進行,而是會從句子的整體結構出發。機器難以做到這一點,這一挑戰被稱為“強耦合輸出的整體估計”。NIPS上很多研究者展示了對跨時間、空間進行耦合輸出的研究。
神經圖靈機(Neural Turing Machine)就是研究者們在硅片中重現人類大腦短期記憶的嘗試。它的背后是一種特殊類型的神經網絡,它們可以適應與外部存儲器共同工作,這使得神經網絡可以存儲記憶,還能在此后檢索記憶并執行一些有邏輯性的任務。未來的人工智能,最熱門的技術趨勢是什么?
(模仿人類短期工作記憶的神經圖靈機|圖片來源:arXiv)
2014年10月,Google DeepMind公布了一臺原型電腦,它可以模仿一些人類大腦短期工作記憶的特性。但直到NIPS2015,所有的神經圖靈機都過于復雜,并且只能解決一些“小玩具”問題。在未來它們或將得到極大改進。
5、深度學習讓計算機視覺和自然語言處理不再是孤島
卷積神經網絡(CNN)最早出現在計算機視覺中,但現在許多自然語言處理(NLP)系統也會使用。LSTMs與遞歸神經網絡深度學習最早出現在NLP中,但現在也被納入計算機視覺神經網絡。
此外,計算機視覺與NLP的交匯仍然擁有無限前景。想象一下程序為美劇自動嵌入中文字幕的場景吧。
6、符號微分式越來越重要
隨著神經網絡架構及其目標函數變得日益復雜和自定義,手動推導出“反向傳播”(back propagation)的梯度(gradients)也變得更加苦難而且容易出錯。谷歌的TensorFlow等最新的工具包已經可以超負荷試驗符號微分式,能夠自動計算出正確的微分,以確保訓練時誤差梯度可被反向傳播。
7、神經網絡模型壓縮的驚人成果
多個團隊以不同方法大幅壓縮了訓練一個良好模型所需的素材體量,這些方法包括二值化、固定浮點數、迭代修剪和精細調優步驟等。
這些技術潛在的應用前景廣闊,可能將會適應在移動設備上進行復雜模型的訓練。例如,不需要延遲就可以得到語音識別結果。此外,如果運算所需要的空間和時間極大降低,我們就可以極高幀率(如30 FPS)查詢一個模型,這樣,在移動設備上也可以運用復雜神經網絡模型,從而近乎實時地完成計算機視覺任務。
8、深度學習和強化學習繼續交匯
雖然NIPS 2015上沒有什么強化學習(reinforcement learning)的重要成果,但“深度強化學習”研討會還是展現了深度神經網絡和強化學習相結合的前景。
在“端對端”(end-to-end)機器人等領域出現了令人激動的進展,現在機器人已經可以一起運用深度和強化學習,從而將原始感官數據直接轉化為實際動作驅動。我們正在超越“分類”等簡單工作,嘗試將“計劃”與“行動”納入方程。還有大量工作需要完成,但早期的工作已經使人感到興奮。
9、難道你還沒有使用批標準化?
批標準化(batch normalization)現在被視作評價一個神經網絡工具包的部分標準,在NIPS 2015上被不斷提及。
卷積神經網絡的步驟范文2
關鍵詞:無人機 雙目視覺 機器學習 姿態識別
中圖分類號:TP391.41 文獻標識碼:A 文章編號:1007-9416(2016)10-0048-02
無人機的姿態測量方法可分兩大類:一是在無人機上裝載傳感器,如陀螺儀、GPS等,把相關的數據傳回地面處理,即所謂的遙測法,它的優點是可以不受空間的限制,但精準度會大大降低。本文采用基于雙目視覺的無人機姿態測量方法, 采用全站儀和圖像采集裝置構建系統,利用全站儀數據進行三維標定,圖像采集裝置對無人機進行三維重建,利用雙目直線原理重構機身、機翼的空間直線向量,再根據直線向量算出姿態參數,該方法具有精度高、適用范圍高等特點。
1 系統設計概述
本設計利用四臺全高清的攝像頭、全站儀、時間同步器及PC終端組成。系統由四臺攝像頭分別處于邊長為5米的矩形場地的(我給你新加的文字)四個角中,用以(我給你新加的文字)采集視頻數據,再由全站儀提供的相關角度矢量參數,通過計算得出系統所需要測量的姿態參數:偏航角、俯仰角及翻滾角。最后把這些參數存儲到數據庫中,并進行BP神經網絡算法機器學習,讓該系統具有(新加)能夠二次識別飛行目標參數的能力。該系統能廣泛應用于無人機的主動測量領域,即不需要在無人機上安裝傳感器,也能夠準確識別無人機的姿態參數,應用方便、快捷。
2 姿態參數計算分析
步驟一:利用雙目視覺原理,對飛行物體進行三維姿態恢復。
步驟二:分離目標和背景。對飛行物體進行數字信息提取。統計每幀圖像像素分布直方圖,設此時像素分布直方圖的灰度分布為gmin及gmax,在gmin及gmax中選擇較合適的灰度值g作為分割的閾值,去分離目標和標景。
步驟三:分離機身及機翼。在做實驗前,對飛機進行如下處理:機翼與機身處涂上不同的顏色。獲取視頻信息后利用直方圖對灰度進行分析,把兩者分離出來,并分別對兩者信息進行存儲。
步驟四:對機身進行邊緣檢測處理,構建直線向量。
(1)選用的是Sobel算子來對其圖像進行檢測。Sobel算子模板分為水平模板及垂直模板,利用此模板在每幀上的像素去卷積,那么就可以得到機身的邊緣輪廓線段。(2)構建機身直線向量。利用雙目攝像頭在空間交匯產生直線,可構建直線向量。如圖2所示,對于任兩個攝像機,無人機在其攝像頭所投影的圖像平面分別為S1、S2,兩攝像頭在空間所形成的平面相交即會產生一直線,可以利用這一原理來計算機身直線向量。
本系統采用的是四臺攝像機,可以排除更大的干擾,因此,可以利用構建一個關于的集合,為:
式中指的是攝像機的臺數。
步驟五:對圖像的機翼處理。圖像的機翼部分可看作為梯形。由上述,利用Hough Transform進行邊緣檢測,求飛行目標的前后翼邊緣,設其在圖像坐標系下的直線方程為:
由上式,可以算出點’
由上述求的兩點,就可以算出此機翼在圖像坐標系下的直線方程:
同理,利用雙目系統中兩兩圖像平面相交可求得機翼向量
步驟六:利用構建的空間向量計算姿態參數。參數推導如下:
由向量得出:
3 實驗
3.1 數據準備
準備的數據為訓練集及測試集,里面的數據包括特征數據及樣本標簽。
訓練集便是雙攝像頭采集到的視頻數據,通過數字圖像處理,提取圖像的特征數據存儲。測試數據集表示二次提取圖像信息時所得到的圖像特征信息,二者都需過相同的處理,所得的參數求法是一樣的。
特征數據是根據雙目視覺分析的圖像的特征數據,這里選用了周長像素點總數、奇數鏈碼數目、高度、寬度、周長目標面積、矩形度、伸長度、及七個不變距特征。
3.2 訓練結果與分析
根據上述算法,對1241組特征數據進行訓練,為了結果更為準確,本文從測試的的數據中拿了一部分數據作為輸入的訓練,這里取訓練組的數據1000組,測試的數據241組。經過BP神經網絡算法后,對測試的數據進行了測試,為了結果的顯示,只從測試數據中隨機抽出50組數據對訓練結果進行測試。
圖1中黑色空白圈表示測試的值,星點表示神經網絡學習后所得的理想值??梢钥闯鱿鄬τ谀滁c的測試值與理想值相擬合程度相對較高,也就是說,在一定的范圍內,系統可以正常測量無人機的姿態參數。但也有部分數據擬合程度不太好,這和實驗設備及機器學習的算法都有很大的關系。
如圖2所示,BP網絡預誤差圖中可以看出,把測試樣本增大到100個,測量誤差也控制在30%之內,所以,系統具有一定的穩定性。
4 結語
本文論述了基于雙目視覺的無人機姿態測量系統,該系統通過四臺攝像頭讀取無人機數據,利用雙目視覺系統對無人機三維形態進行恢復,通過數字圖像處理技術提取無人機的特征信息并進行存儲。首先利用直方圖法分離背景及無人機,再分離無人機的機翼及機身信息,并分別進行數據存儲。其次利用空間兩圖像平面相交得出了無人機的機身、機翼向量,然后利用這些向量進行了姿態參數的計算。最后把無人機的特征參數及姿態參數做上相應的標簽,讓其進行機器學習。由實驗得出,該系統具有二次識別無人機姿態的能力,且此系統比較穩定。但由于實驗設備及算法原因,該系統還存在一定的誤差,但大部分數據誤差率保持在30%內。
參考文獻
[1]蘇國中.基于光電經緯儀影像的飛機姿態測量方法研究[J].武漢大學,博士論文,2005.
[2]H.Mostafavi,M.A. Streicker.Rigid body attitude estimation from a single view.[J] SPIE Ultrahigh-and High- speed Phot ography,videography,and Phot oni cs,1992,290-297.
卷積神經網絡的步驟范文3
關鍵詞: 受限玻爾茲曼機; 深度模型; 隱藏單元; 學習方法
中圖分類號:TP391 文獻標志碼:A 文章編號:1006-8228(2014)11-10-04
RBM learning method comparison
Lu Ping, Chen Zhifeng, Shi Lianmin
(Dept. of Information, Suzhou Institute of Trade & Commerce, Suzhou, Jiangsu 215009, China)
Abstract: With the deep learning on the breakthrough of models, algorithms and theory studies, models based on Boltzmann machine have been used in many areas in recent years, such as target recognition and natural language processing. The concept of Boltzmann machine is presented. The restricted Boltzmann machine's advantage is also pointed out. In this paper, the learning method of RBM is described in detail and some typical learning algorithms widely used are compared. The study on learning algorithms will still be a core issue in deep learning area.
Key words: RBM; depth model; hidden units; learning method
0 引言
當前深度學習(deep learning)作為機器學習中新興的代表,由于其具有能夠處理大規模的數據、自動提取有意義的特征、完成數以百萬計的自由參數的學習等諸多淺層模型所無法匹敵的能力,而受到各領域的廣泛關注。目前深度學習模型已經被逐漸應用于圖像分類、目標識別、自然語言處理、數據挖掘等各類應用中。當前的深度模型,如深度信念網絡(deep belief net,DBN)、深度玻爾茲曼機(deep Boltzmann machine, DBM)等均采用的是由受限玻爾茲曼機(restricted Boltzmann machine,RBM)堆疊而成。在RBM中,可見層各單元之間與隱藏層各單元之間無連接的拓樸結構使得其模型相對簡單,參數學習相對容易,因此使用RBM作為構建深度模型的基礎結構單元成為研究人員的最佳選擇。雖然深度學習模型還有堆疊自動編碼器(stacked auto encoders)、卷積神經網絡(convolutional neural net,CNN)等,但由于以RBM為核心的結構在深度模型中占據著核心的地位,因此本文主要關注于RBM的模型結構與其中的學習方法。
1 玻爾茲曼機概述
1.1 玻爾茲曼機
玻爾茲曼機(Boltzmann machine, BM)是源于物理學的一種基于能量函數的建模方法,能夠描述變量的高層相互作用。雖然BM中學習算法復雜,但其模型與算法有完備的物理解釋與數理統計理論基礎。Hinton與Sejnowski最早將BM模型引入人工神經網絡中,用于自動提取數據的內在特征表示。將BM作為單層反饋網絡時,具有與Hopfield網絡類似的對稱權值,且每個單元與自已無連接。網絡由可見層與隱藏層組成,對應的網絡節點也可以分為可見單元(visible unit)與隱藏單元(hidden unit),每個單元不存在自回路,圖1給出了BM的示意圖。
圖1 BM模型結構示意圖
由于其中樣本分布服從玻爾茲曼分布故命名為BM ,BM由二值單元構成,各單元的狀態隨機,且只可取0或1兩種狀態,1指代單元處于激活(on)狀態,0則指代此單元處于斷開(off)狀態。由于每個單元僅有2種狀態si={0,1},因此網絡的總的能量函數為:
⑴
其中wij為神經元i與j之間的連接權重,θi為神經元i的閾值。神經元i狀態為0與1所產生的能量的差值則可表示為:
⑵
si=1的概率為:
⑶
其中T為系統的溫度。相應的,si=0的概率則為:
⑷
由式(3)/式(4)可得:
⑸
進一步將上式推廣到網絡中任意兩個全局狀態α與β,有:
⑹
此即為玻爾茲曼分布的表達式。
1.2 受限玻爾茲曼機
由于BM的模型結構復雜,學習時間很長,而且無法確切地計算BM所表示的分布,甚至獲得BM表示分布的隨機樣本也非常困難。為此,Smolensky提出了受限玻爾茲曼機(restricted Boltzmann machine, RBM)模型,其結構如圖2所示。與一般BM相比,RBM具有更優的性質:在給定可見層單元輸入時,各隱藏層單元的激活條件獨立;反之亦然。這樣盡管RBM所表示的分布仍無法有效計算,但卻可以通過Gibbs采樣獲得服從RBM分布的隨機樣本。
圖2 RBM模型結構示意圖
RBM也可以被看作為一個無向圖(undirected graph)模型,其中v為可見層,用于表示輸入數據,h為隱藏層,可以看作為特征提取器,W為兩層間對稱的連接權重。若一個RBM中可見層單元數為n,隱藏層單元數為m,用向量V與h分別表示可見層與隱藏層的狀態,當狀態(v,h)給定時,與BM類似,則RBM中的能量定義為:
⑺
其中wij為可見單元i與隱藏單元j之間的連接權重,ai為可見單元i的偏置,bj為隱藏單元j的偏置。θ={wij,ai,bj}指代RBM中所有參數集。當θ確定時,則可根據式⑺的能量函數獲得(v,h)的聯合概率為:
⑻
其中z(θ)為保證P(v,h|θ)成為概率分布的歸一化項,也稱為劃分函數。若可見單元服從某種概率分布,根據RBM的給定可見單元時各隱藏單元激活狀態獨立的條件,可獲得隱藏單元為1的條件概率為:
⑼
同理,若令隱藏單元服從某種概率分布,可見單元向量v為1的條件概率分布為:
(10)
因此可以獲得在給定可見單元向量v時隱藏單元j的條件概率及給定隱藏單元向量h時可見單元i為1的條件概率分布為:
(11)
其中,為sigmoid激活函數。
2 RBM中的學習
為了學習RBM中的參數集θ,以擬合給定的訓練數據,可以通過最大化RBM在訓練集上的對數似然函數而獲得,假設訓練集中樣本數為T,有:
(12)
這樣獲得最優的參數θ*則可以采用隨機梯度上升法求得使的最大值,為此,對logP(v(t)|θ)求參數θ的偏導數有:
(13)
其中為求關于分布P的數學期望。由于訓練樣本已知,所以上式中前一項期望易求得,但對于P(h,v|θ)需要求得隱藏單元與可見單元的聯合分布,由于劃分函數Z(θ)的存在,無法直接計算,而只能采用一些采樣方法獲得其近似值。若分別用與指代P(h|v(t),θ)和P(h,v|θ)分布,則對式(13)中關于連接權重Wij,可見單元偏置ai和隱藏單元偏置bj的偏導數分別為:
(14)
RBM的學習過程可以分為正階段與負階段兩個步驟。在正階段,可見單元狀態取訓練輸入樣本值,經采樣得到隱藏單元。在負階段中,從當前模型采樣得到可見單元與隱藏單元狀態,重建可見單元狀態。BM的學習即通過調節連接權重,使得模型定義的概率分布P-(va)與訓練樣本集定義的概率P+(va)一致,如果采用K-L散度度量兩個概率的近似程度:
(15)
當且僅當P+(va)=P-(va)時,G=0,即兩個分布完全一致。這樣可以通過不斷調節連接權重來使模型確定的概率分布與數據概率分布的K-L散度盡可能接近。RBM的學習步驟如下:
⑴ 隨機設定網絡的初始連接權重wij(0)與初始高溫;
⑵ 按照已知概率P(va)依次給定訓練樣本,在訓練樣本的約束下按照SA算法運行網絡到平衡狀態,統計,同樣在無約束條件下按同樣的步驟運行網絡相同次數,統計;
⑶ 修改各個連接權重:wij(k+1)=wij(k)+Δwij。
重復上面的步驟,直到-小于某個閾值,獲得合適的權重。
3 RBM學習方法對比
當前在對RBM的研究中,典型的學習方法有Gibbs采樣(Gibbs sampling)算法,變分近似方法(variational approach),對比散度 (contrastive divergence,CD)算法,模擬退火 (simulate annealing) 算法等。下面對這些方法進行對比。
3.1 Gibbs采樣算法
Gibbs采樣(Gibbs sampling)算法是一種基于馬爾可夫鏈蒙特卡羅(Markov Chain Monte Carlo, MCMC)策略的采樣方法。給定一個N維的隨機向量X=(X1,X2,…,XN),若直接求取X的聯合分布P(X1,X2,…,XN)非常困難,但如果可以在給定其他分量時,求得第k個分量的條件分布P(Xk|Xk-),其中Xk-=(X1,X2,…,Xk-1,Xk+1,…,XN)指代排除Xk的其他N-1維的隨機向量,則可以從X的一個任意狀態[x1(0),x2(0),…,xk(0)]開始,利用條件分布,對各分量依次迭代采樣。隨著采樣次數增加,隨機變量[x1(n),x2(n),…,xk(n)]將會以幾何級數的速度收斂于聯合分布P(X1,X2,…,XN)。在訓練RBM的迭代過程中,可以設置一個收斂到模型分布的馬爾可夫鏈,將其運行到平衡狀態時,用馬爾可夫鏈近似期望值。
使用Gibbs采樣算法具有通用性好的優點,但是由于每次迭代中都需要馬爾可夫鏈達到極限分布,而Gibbs采樣收斂度緩慢,需要很長的時間,因此也限制了其應用。
3.2 變分方法
變分方法(variational approach)的基本思想是通過變分變換將概率推理問題轉換為一個變分優化問題。對于比較困難的概率推理問題,對應的變分優化問題通常也缺乏有效的精確解法,但此時可以對變分優化問題進行適當的松弛,借助于迭代的方法,獲得高效的近似解。在變分學習中,對每個訓練樣本可見單元向量v,用近似后驗分布q(h|v,μ)替換隱藏單元向量上的真實后驗分布p(h|v,θ),則RBM模型的對數似然函數有下面形式的變分下界:
(16)
其中H(?)為熵函數。
使用變分法的優勢在于,它能夠在實現最大化樣本對數似然函數的同時,最小化近似后驗分布與真實后驗分布之間的K-L距離。若采用樸素平均場方法,選擇完全可因式分解化的分布來近似真實后驗分布:,其中q(hj=1)=μj,訓練樣本的對數似然函數的下界有如下的形式:
(17)
采用交替優化的方式,首先固定參數θ,最大化上式學習變分參數μ,得到不平均場不動點方程:
(18)
接下來,再給定變分參數μ,采用Gibbs采樣法與模擬退火方法等其他方法更新模型參數θ。在實際使用中,使用變分方法能夠很好地估計數據期望,但由于式(17)中的負號會改變變分參數,使得近似后驗分布與真實后驗分布的K-L距離增大,因此將其用來近似模型期望時不適用。
3.3 對比散度算法
對比散度(contrastive divergence, CD)學習方法由Hinton提出,能夠有效地進行RBM學習,而且能夠避免求取對數似然函數梯度的麻煩,因此在基于RBM構建的深度模型中廣泛使用。CD算法使用估計的概率分布與真實概率分布之間K-L距離作為度量準則。在近似的概率分布差異度量函數上求解最小化。執行CD學習算法時,對每個批次的各訓練樣本運行n步Gibbs采樣,使用得到的樣本計算。則連接權重的CD梯度近似為:
(19)
其中pn為n步Gibbs采樣后獲得的概率分布。通常在使用中只需要取n=1即可以進行有效的學習,因此在使用中較為方便。但CD算法隨著訓練過程的進行與參數的增加,馬爾可夫鏈的遍歷性將會下降,此時算法對梯度的近似質量也會退化。
3.4 模擬退火算法(Simulated Annealing)
模擬退火算法是對Gibbs采樣算法的改進,由于Gibbs采樣收斂速度緩慢,因此模擬退火算法采用有索引溫度參數的目標分布進行采樣,其核心思想是模擬多個不同的溫度并行運行多個MCMC鏈,每個MCMC鏈在一個有序序列溫度ti上,且t0=1
4 結束語
隨機深度神經網絡的興起,借助RBM來學習深層網絡逐漸成為了研究的主流,作為深度網絡的基礎單元結構―RBM,也成為深度學習領域中的核心,它為人們解決各類問題提供了一種強有力的工具。本文對RBM的基本模型進行簡要介紹,并對RBM的各種學習方法進行對比分析。目前RBM的各種學習算法仍各有利弊,尚未有滿足各種場合要求的學習方法。因此,進一步研究如何有效減少計算復雜性,簡化網絡拓撲結構,以及快速有效的RBM學習方法仍將在深度學習模型中占據重要的地位。
參考文獻:
[1] 李海峰,李純果.深度學習結構和算法比較分析[J].河北大學學報(自
然科學版),2012.32(5):538-544
[2] Salakhutdinov R, Hinton G E. An efficient learning procedure for
deep Boltzmann machines[J]. Neural Computation,2012.24(8):1967-2006
[3] 孫志軍,薛磊,許陽明,王正.深度學習研究綜述[J].計算機應用研究,
2012.29(8):2806-2810.
[4] 鄭胤,陳權峰,章毓晉.深度學習及其在目標和行為識別中的新進展[J].
中國圖象圖形學報,2014.19(2):175-184
[5] 程強,陳峰,董建武,徐文立.概率圖模型中的變分近似推理方法[J].自
動化學報,2012.38(11):1721-1734
[6] Geoffrey E. Hinton,Simon Osindero,Yee-Whye T eh. A fast
learning algorithm for deep belief nets[J]. Neural Computation,2006.18(7):1527-1554
[7] Ruslan Salakhutdinov,Geoffrey Hinton. Deep Boltzmann Machines[J].
JMLR W&CP,2009.5:448-455
卷積神經網絡的步驟范文4
可以看出,krisch算子的運算量比較大。其次在邊緣檢測中邊緣定位能力和噪聲抑制能力方面,有的算子邊緣定位能力強,有的抗噪聲能力比較好:roberts算子利用局部差分算子尋找邊緣,邊緣定位精度較高,但容易丟失一部分邊緣,同時由于沒經過圖像平滑計算,不能抑制噪聲。該算子對具有陡峭的低噪聲圖像響應最好;sobel算子和prewitt算子都是對圖像進行差分和濾波運算,差別只是平滑部分的權值有些差異,對噪聲具有一定的抑制能力,不能完全排除檢測結果中出現偽邊緣。這兩個算子的邊緣定位比較準確和完整,但容易出現邊緣多像素寬。對灰度漸變和具有噪聲的圖像處理的較好;krisch算子對8個方向邊緣信息進行檢測,因此有較好的邊緣定位能力,并且對噪聲有一定的抑制作用,該算子的邊緣定位能力和抗噪聲能力比較理想;laplacian算子是二階微分算子,對圖像中的階躍型邊緣點定位準確且具有旋轉不變性即無方向性。但該算子容易丟失一部分邊緣的方向信息,造成不連續的檢測邊緣,同時抗噪聲能力比較差,比較適用于屋脊型邊緣檢測(將在第3節中討論)。 2.2 最優算子 最優算子又可以分為馬爾算子(log濾波算子)、坎尼(canny)邊緣檢測、曲面擬合法。 torre和poggio[5]提出高斯函數是接近最優的平滑函數,marr和hildreth應用gaussian函數先對圖像進行平滑,然后采用拉氏算子根據二階導數過零點來檢測圖像邊緣,稱為log算子。對于log算子數學上已經證明[6],它是按照零交叉檢測階躍邊緣的最佳算子。但在實際圖像當中,高斯濾波的零交叉點不一定全部是邊緣點,還需要進一步確定真偽[7];坎尼把邊緣檢測問題轉換為檢測單位函數極大值問題,根據邊緣檢測的有效性和定位的可靠性,研究了最優邊緣檢測器所需的特性,推導出最優邊緣檢測器的數學表達式。與坎尼密切相關的還有deriche算子和沈俊算子,它們在廣泛的意義下是統一的;曲面擬合的基本思想是用一個平滑的曲面與待測點周圍某鄰域內像素的灰度值進行擬合,然后計算此曲面的一階或二階導數。該方法依賴于基函數的選擇,實際應用中往往采用低階多項式。 2.3 多尺度方法 早期邊緣檢測的主要目的是為了處理好尺度上的檢測和定位之間的矛盾,忽略了在實際圖像中存在的多種干擾邊緣,往往影響到邊緣的正確檢測和定位。 rosenfeld等[8]首先提出要把多個尺寸的算子檢測到的邊緣加以組合;marr倡導同時使用多個尺度不同的算子,并提出了一些啟發性的組合規則。這一思想后來經witkin等發展成了尺度空間濾波理論,說明了不同尺度上的零交叉的因果性;lu jain對二維信號進行了類似的研究;yuille和poggio證明了對于任意維信號,當用高斯函數濾波時,尺度圖中包含了數目最小的零交叉,并且可以由粗到細地跟蹤這些零交叉。 多尺度信號處理不僅可以辨識出信號中的重要特征,而且能以不同細節程度來構造信號的描述,在高層視覺處理中有重要的作用。 其中小波變換是近年得到廣泛應用的數學工具。與傅立葉變換和窗口傅立葉變換相比,小波變換是時間和頻率的局域變換,因而能有效地從信號中提取信息,它通過伸縮和平移等運算功能對函數或信號進行多尺度細化分析,解決了傅立葉變換不能解決的很多困難問題,因而被譽為“數學顯微鏡”。信號突變點檢測及由邊緣點重建原始信號或圖像是小波變換應用的一個很重要的方面。 從邊緣檢測的角度看,小波變換有以下幾個優點: (1)小波分解提供了一個數學上完備的描述; (2)小波變換通過選取合適的濾波器,可以極大地減小或去除所提取的不同特征之間的相關性; (3)具有“變焦”特性:在低頻段可用高頻分辨率和低時間分辨率;在高頻段可用低頻分辨率和高時間分辨率; (4)小波變換可通過快速算法來實現。 文獻[9]提出了一種基于層間相關性的小波邊緣檢測算法,依據的是信號主要分布在低頻部分或低尺度部分,而噪聲分布于高頻部分或高尺度部分的特點。另外小波變換具有較強的去相關性,變換后的小波系數之間仍然存在大量的相關性質,即小波系數在不同分辨率下的對應系數之間具有較強的相關性或稱層間的相關性。通過對比該方法能夠較好多的防止噪聲干擾,又能有效地保留圖像邊緣。 2.4 自適應平滑濾波方法 該方法是邊緣檢測的一個重要方法[10],無論是對于灰度圖象處理還是距離圖像和平面曲線處理都是非常有效的。它的優點是: (1)平滑濾波的迭代運算使信號的邊緣得到銳化,此時再進行邊緣檢測,可以得到很高的邊緣定位精度; (2)通過自適應迭代平滑,實現了將高斯平滑之后的階躍邊緣、屋頂狀邊緣和斜坡邊緣都轉化為理想的階躍邊緣,提高了圖像的信噪比; (3)經過多次迭代運算,圖像按邊緣分塊實現自適應平滑,但不會使邊緣模糊; (4)應用自適應平滑濾波得到一種新的圖像尺度空間描述。 2.5 其他方法 近年來隨著模糊數學、神經網絡的發展,人們不斷探索將其應用于圖像的邊緣檢測中。文獻[11]和[12]依據模糊理論討論了邊緣檢測算法的抗噪性和檢測速度問題,并證明了模糊集合理論能較好地描述人類視覺中的模糊性和隨機性;應用人工神經網絡提取圖像邊緣成為新的研究分支,目前已提出了很多算法,具有計算簡單功能強的特點,但是速度慢,穩定性差。但是神經網絡邊緣檢測可以避免自適應確定閾值的問題,具有較好的容錯性和聯想功能。 2.6 邊緣檢測的步驟 邊緣檢測分為彩色圖像邊緣檢測和灰度圖像邊緣檢測兩種,由于彩色圖像有八種彩色基,在邊緣檢測時選用不同的彩色基將直接影響實時性、兼容性和檢測效果,因此本文只限于灰度圖像的邊緣檢測研究,其步驟如圖2.1所示。
其中邊緣定位是對邊緣圖像進行處理,以得到單像素寬的二值邊緣圖像,通常使用的技術是閾值法和零交叉法。邊緣定位后往往存在一些小的邊緣片斷,通常是由于噪聲等因素引起的,為了形成有意義的邊緣需要對定位后的邊緣進行鏈接。通常有兩種算法:局部邊緣鏈接和全局邊緣鏈接。 3 邊緣模型的分類及性能分析 本小節從邊緣檢測“兩難”問題出發,總結了實際圖像中可能出現的七種邊緣類型,并分別給出了數學模型描述,最后分析比較了不同邊緣類型表現出的特性及不同類型的邊緣定位與平滑尺度的關系。 3.1 邊緣檢測的“兩難”問題 首先來了解一下邊緣檢測的常用定義[13]:邊緣檢測是根據引起圖像灰度變化的物理過程來描述圖像中灰度變化的過程。引起圖像灰度不連續性的物理過程可能是幾何方面的(深度的不連續性、表面取向、顏色和紋理的不同),也可能是光學方面的(表面反射、非目標物體產生的陰影及內部倒影等)。這些景物特征混在一起會使隨后的解釋變得非常困難,且實際場合中圖像數據往往被噪聲污染。信號的數值微分的病態問題:輸入信號的一個很小的變化就會引起輸出信號大的變化。令 f(x)為輸入信號,假設由于噪聲的影響,使 f(x)發生了一個很小的變動: 式(3.1) 其中 ε<<1。對式(3.1)兩邊求導數則: 式(3.2) 由式(3.2)可以看到,若w足夠大,即噪聲為高頻噪聲時,會嚴重影響信號 f(x)的微分輸出,進而影響邊緣檢測的結果。為了使微分正則化,則需要先對圖像進行平滑。然而圖像平滑會引起信息丟失,并且會使圖像平面的主要結構發生移位。另外若使用的微分算子不同,則同一幅圖像會產生不同的邊緣,因此噪聲消除與邊緣定位是兩個相互矛盾的部分,這就是邊緣檢測中的“兩難”[14,15]。 3.2 邊緣分類及性能分析 圖像中的邊緣通常分為:階躍邊緣、斜坡邊緣、三角型屋脊邊緣、方波型屋脊邊緣、樓梯邊緣、雙階躍邊緣和雙屋脊邊緣[1]。 (1)階躍邊緣 模型為: f(x)=cl(x) ,其中 c>0為邊緣幅度, 為階躍函數。若存在噪聲,可以選用大尺度的模板平滑圖像,不會影響邊緣的定位。 (2)斜坡邊緣 理想的斜坡邊緣模型為:,其中s為邊緣幅度,d為邊緣寬度。斜坡邊緣的檢測不僅跟尺度有關,還與邊緣本身的寬度有關,若邊緣寬度比較小,則在小的平滑尺度下也能檢測到邊緣;無論是檢測極值點還是過零點,邊緣的定位都沒有隨著尺度的變化而變化。因此,對于斜坡邊緣若存在噪聲,可以選用大尺度的模板平滑圖像。而不會影響到邊緣定位。 (3)三角型屋脊邊緣 模型為:,其中s為邊緣幅度,d為邊緣寬度。對于三角型屋脊邊緣若存在噪聲可以選用大尺度的平滑模板,而不會影響邊緣的定位。 (4)方波型屋脊邊緣 方波型屋脊邊緣的模型為:,其中s為邊緣幅度,d為邊緣寬度。對于方波型屋脊邊緣檢測,不僅與平滑尺度有關,還與邊緣寬度有關,若存在噪聲,可以選用大尺度的平滑模板,而不會影響邊緣的定位。 (5)樓梯邊緣 樓梯邊緣模型為:,其中c1、c2、l均為常數。這種檢測的特點是平滑后的樓梯邊緣不能準確定位,必須對檢測到的邊緣位置進行移位校正。 (6)雙階躍邊緣 雙階躍邊緣與方波型屋脊邊緣相同,不同之處為:雙階躍邊緣的邊緣點為x=-d/2與 x=d/2,而方波型屋脊邊緣的邊緣點為 x=0。雙階躍邊緣的兩個邊緣點通過檢測一階導數的兩個極值點和二階導數的兩個過零點獲得。因此對于雙階躍邊緣大尺度下不能準確定位,必須對檢測到的邊緣位置進行移位校正。 (7)雙屋脊邊緣 模型為:, 其中:
卷積神經網絡的步驟范文5
Abstract: Image enhancement is a fundamental and important technology in image processing field. So fundamental theory and some newapproaches aboutimage enhancement have been introducedin this paper.
關鍵詞:圖像增強;空間域圖像增強技術;頻域圖像增強技術
Key words: image enhancement;image enhancement technology in spatial domain;image enhancement technology in frequency domain
中圖分類號:TP391.41文獻標識碼:A文章編號:1006-4311(2010)19-0124-01
1圖像增強的研究意義
圖像增強是數字圖像處理的最基本的方法之一,它是為了改善視覺效果或便于人或機器對圖像的分析理解,根據圖像的特點或存在的問題,以及應用目的所采取的改善圖像質量的方法或加強圖像的某些特征的措施。
2圖像增強的研究現狀
由于圖像增強技術現在還沒有通用的算法,因此圖像增強技術根據各種不同目的而產生了多種算法,最常用的即 “空間域”方法和“頻率域”方法[1]。隨著數學各分支在理論和應用上的逐步深入,使得數學形態學、模糊數學、遺傳算法、小波理論等在圖像增強技術中的應用取得了很大進展,產生了不少新的算法。如數學形態濾波器,基于模糊數學的濾波方法,基于遺傳算法的濾波方法,小波濾波器等。
3圖像增強的基本理論
圖像增強技術主要包括:灰度變換,直方圖修正,圖像平滑,圖像銳化及彩色增強等。從圖像增強的作用域出發可分為兩類:①空域處理法;②頻域處理法。
3.1 空間域圖像增強技術空間域指的是平面本身,空間域圖像增強方法是對圖像的像素進行處理??梢远x為:
g(x,y)=T[f(x,y)](1)
其中,f(x,y)是輸入圖像,g(x,y)是處理后的圖像,T是對f的一種操作。 空間域圖像增強技術又可分為點處理和鄰域處理。
3.1.1 點處理技術
3.1.1.1 灰度變換灰度變換可使圖像動態范圍增大,圖像對比度擴展,圖像變清晰,特征明顯,是圖像增強的重要手段之一。①線性變換。如果原圖像f(x,y)的灰度范圍是[m,M],我們希望變換后的圖像g(x,y)灰度范圍是[n,N],那么可以用式(2)來完成這一變換:g(x,y)=(N-n)[f(x,y)-m]/(M-m)+n(2)
②分段線性變換。為了突出感興趣的目標或灰度區間,相對抑制那些不感興趣的灰度區間,可采用分段線性變換。其數學表達式如下:
g(x,y)=kf(x,y)+b;0f(x,y)f1;k1=kf(x,y)+b;f
③非線性灰度變換。當使用某些非線性轉換函數(例如對數函數、冪指數函數等)作為式(1)的變換函數時,可以實現圖像灰度的非線性變換。
3.1.1.2 直方圖修整法①直方圖均衡化。②直方圖規定化。
3.1.2 鄰域處理技術空域濾波是在圖像空間借助模板進行鄰域操作完成的,它根據功能分成平滑和銳化兩類。
3.1.2.1 圖像平滑一幅原始圖像在其獲取和傳輸等過程中,會受到各種噪聲的干擾,使圖像質量下降。為了抑制噪聲改善圖像質量所進行的處理稱圖像平滑或去噪。常用的有局部平滑法和中值濾波法。
3.1.2.2 圖像銳化在圖像的識別中常需要突出邊緣和輪廓信息。圖像銳化就是增強圖像的邊緣或輪廓。①梯度銳化法。圖像銳化法最常用的是梯度法。 對于圖像f(x,y),在(x,y)處的梯度定義為:grad(x,y)ff= (4)
對于離散圖像處理而言,常用到梯度的大小,因此把梯度的大小習慣稱為“梯度”。并且一階偏導數采用一階差分近似表示,即:
f=f(x+1,y)-f(x,y)f=f(x,y+1)-f(x,y)(5)
為簡化梯度的計算,經常使用:
grad(x,y)=Max(│f│,│f│)
或grad(x,y)=Max(│f│+│f│)(6)
除梯度算子以外,還可采用Roberts、Prewitt和Sobel 算子計算梯度,來增強邊緣。
②高通濾波法。高通濾波法就是用高通濾波算子和圖像卷積來增強邊緣。常用的算子有:H1= 0-10-15-1 0-10H2=-1-1-1-1 9-1-1-1-1
3.2 頻域圖像增強技術頻域(變換域)圖像增強操作的基本原理都是讓圖像在變換域某個范圍內的分量受到抑制而讓其他分量不受影響,從而改變輸出圖像的頻率分布,達到增強的目的。在頻率域中進行增強的主要步驟有[2]:①計算需增強圖像的傅里葉變換;②將其與一個(根據需要設計的)傳遞函數進行卷積;③將結果進行傅立葉反變換以得到增強的圖像。
3.2.1 低通濾波器對圖像作傅氏變換得到它的頻譜,零頻率分量等于圖像的平均灰度,平滑的圖像信號在頻域中貢獻低頻分量,圖像中的細節和邊界貢獻較高頻域的分量,噪聲的頻譜具有豐富的高頻分量。
3.2.2 高通濾波器圖像的區域邊界和細節提供較高頻率的能量,因此在頻域中讓圖像信號經過一高通濾波器可以實現圖像的銳化,增強圖像的邊緣細節。
4結束語
隨著圖像增強技術在各個不同領域的應用,出現了多種圖像增強的算法。這些算法各有其優缺點,目前涉及到的大部分非線性濾波算法都是針對特定圖像或特定噪聲提出的,也就是說,是基于它們的統計特性提出的濾波方案。但是,在實際處理中,自然圖像的多樣性和噪聲本身的復雜性決定了這些濾波算法不可能對所有圖像濾波效果均為最佳,所以,那些事先不需要知道圖像和噪聲統計特性的非線性濾波機制將會得到很廣泛的應用:比如自適應濾波器和各種基于神經網絡和模糊理論具有自組織、自學習等能力的濾波器的應用和研究將會得到更大的發展。這些濾波圖像增強技術也是目前研究的重點。
參考文獻:
[1]孫即祥.圖像處理.北京:科學出版社,2004.
卷積神經網絡的步驟范文6
【關鍵詞】3D打?。获R爾可夫隨機場;建筑結構
0 引言
3D打印,是快速成型技術的一種,它是一種以三維設計軟件數據為基礎,運用液體、粉末等可粘合材料,通過逐層累加的方式來構造物體的技術[1]。以具有周期短、成本低、操作簡單、精準度高為特點的3D打印技術的發展與逐漸成熟,是第三次工業革命的重要標志之一[2]。
本文結合3D打印技術的主要特點,介紹在建筑結構中應用3D打印技術的方法,同時提出以照片建模方式來簡化3D建模過程,以改善傳統手動建模時間長、難度大的不足,并通過機器學習及遺傳算法給出合理的建筑結構,盡可能的減少不合理的結構設計。
1 圖像處理
3D打印所需的數據通常是通過CAD等三維軟件制作生成,往往制作周期長、難度大,本文提出通過照片的方式建模。
1.1圖像去噪
與日常3D打印物體相比,建筑結構的打印實體通常比較大,且圖像質量無法保證,因此需對圖像進行去噪處理。本文采用馬爾可夫去噪方法[3]:
1.將圖片轉換為灰度,便于簡化計算;
2.假設本圖片是理想圖片沒有噪點,而且有噪點的圖片噪點數量比較少,那么理想圖片和噪點圖片對應像素間必然相關;
3.我們同樣可以假設在一個小范圍內,每個像素同其周圍的像素間也必然存在聯系;
4.可以將他們之間的聯系用能量表示:
公式1-1
這里可以改變相鄰像素的位置,以期達到更好的效果
公式1-2
式中的m、n分別表示距離像素xi的距離。
1.2 圖像分割和輪廓提取
圖像分割可以看作是將有相似密度的像素群進行分類的過程,同樣可以采用馬爾可夫方法[4]:
1.將圖像劃分為n個區域,使得同一區域的像素同其他區域像素相對獨立;
2.計算每個像素在這些區域的能量;
3.計算每個像素對應區域:
公式1-3
其中如果考慮相鄰像素的影響,可以將加入公式中
公式1-4
公式中是對應相鄰像素能量的變化閥值。
4.降溫并設置對應閥值。
2 結構建模
對于以上得到的輪廓信息,還不足以直接生成3D模型,因為該信息是在二維平面的,缺少深度信息。對于深度信息的恢復,常見的方法有從明暗恢復形狀,從紋理恢復形狀,從陰影恢復形狀,利用多光源信息等。由于對于建筑結構,很多信息是已知的,所以可以直接從已知的知識中重建形狀。
2.1 3D重建
對于簡單的結構,比如立方體、圓柱體,可以根據立體幾何知識加以重建;對于復雜的結構,可以采用馬爾可夫隨機場確定相應結構[5]。
1.參數化每個超像素點的位置和方向信息;
2.發掘圖像特征和深度信息;
3.發掘連接結構、共面結構和共線結構;
4.采用機器學習技術,利用以上知識恢復重建3D結構。
實際操作中,對于不準確的恢復可采用貝塞爾曲線加以修復:
公式2-1
2.2 建筑構造
對于建筑構造,可以采用遺傳算法,給出合理的建筑結構,盡可能的減少不合理的結構設計。以平屋面建筑構造為例[6]:
1.初始化種群:立墻、女兒墻、變形縫、雨水口、煙囪、屋面檢修孔、屋面出入口、檐溝、挑檐等構造;
2.適應度計算:對構造個體在不同位置及大小進行適應度計算;
3.選擇運算:選擇不同個體進行遺傳操作;
4.交叉運算:以某一概率相互交換某兩個個體之間的部分染色體;
5.變異運算:對個體的某一個或某一些基因值按某一較小的概率進行改變;
6.重復以上過程,直到得到可接受的結果。
3 探 討
圖像處理部分,圖像去噪本文采用了馬爾可夫去噪方法,針對不同圖像不同噪點強度,相鄰像素的選擇也不完全相同;圖像分割和輪廓提取,也同樣需要控制閥值和冷卻溫度來確保準確度;結構建模部分,機器學習實例的數量以及圖像與訓練實例的相似度,對3D重建的準確度影響很大;同時,遺傳算法中個體適應度及變異運算也需要針對不同構造加以修正。
由于機器學習技術的興起,也可以考慮將機器學習算法(比如卷積神經網絡)應用于建模部分。比如訓練二維圖像和3D結構之間的關系,預測已知圖像的3D結構。但這種方式目前訓練樣本往往很大,訓練速度慢,機器要求高。但其準確性和智能性卻是其他算法無法比擬的。
因此,在實際建模過程中,每個環節都需要人工干預,對錯誤和不足及時進行修正;同時,這種建模方式的精度自然要低于純手動建模的方式,但效率要比純手動建模高很多。
4 結 語
本文介紹了3d打印在建筑結構中的應用,給出了一般的建模過程,并針對每個步驟給出了解決方案,同時也分析了照片建模的不足。相信隨著3D打印技術的進步,必將推動建筑相關行業的發展與成熟。
[1] Huaiyu Wu. 3D printing: 3D creation via intelligent digitization. Beijing: Publishing House of Electronics Industry, 2014 (in Chinese) 吳懷宇. 3D打印:三維智能數字化創造. 北京: 電子工業出版社, 2014
[2]The Third Industrial Revolution;The Digitisation of Manufacturing Will Transform the Way Goods are Made and Change the Politics of Jobs Too[J/OL].The Economist,2012.
[3]Z.Ghahramani.An introduction to Hidden Markov Models and Bayesian networks.International Journal of Pattern Recognition and Artificial Intelligence,15::9-42,2001.
[4]Tama?s Szira?nyi.Image Segmentation Using Markov Random Field Model in Fully Parallel Cellular Network Architectures.Real-Time Imaging 6, 195-211,2000.
[5]Ashutosh Saxena,Min Sun,Andrew Y. Ng.Learning 3-D Scene Structure from a Single Still Image. International Journal of Computer Vision (IJCV), Aug 2007.
[6]J. F. GONC?ALVES.A GENETIC ALGORITHM FOR THE RESOURCE CONSTRAINED
MULTI-PROJECT SCHEDULING PROBLEM.AT&T Labs Research Technical Report:TD- 668LM4.2006
姓名:宋全記
出生年月:1981年06月
性別:男
學歷:碩士
職稱:講師
工作單位及教學系:四川建筑職業技術學院 信息工程系
研究方向:計算機應用