前言:中文期刊網精心挑選了如何學習計算機視覺范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
如何學習計算機視覺范文1
物體為什么會呈現出人們所看到的視覺效果?經過多重反射后,光線將怎樣變化?如何讓計算機把真實世界里的物理原理數字化表現出來?這些都是松下康之在微軟亞洲研究院工作時要思考的問題,攝像機拍攝出的畫面抖動看不清怎么辦?松下康之也遇到過生活提出的小挑戰。
松下康之用研究員的“專屬語言”解釋道,“低層視覺研究”和“滿幀視頻穩定技術”可以很好地回答和解決上面問題。“這也正是我所從事的兩個研究方向:一個是光度學,另一個是視頻分析,”微軟亞洲研究院視覺計算組主管研究員松下康之說,“兩者之間并沒有十分緊密的聯系,但這也正是有趣的地方?!?/p>
從東京大學的博士到微軟亞洲研究院實習生、從日本東京到北京的希格瑪大廈、從電氣工程學專業到以物理學為基礎的計算機視覺和視頻分析與合成。事實上,這種“毫無關系”所帶來的驚喜與巧合也貫穿于松下康之的經歷之中。于是,松下康之給記者講述了一個充滿偶然與必然、選擇與堅持的故事。言語間,流露出日本文化的嚴謹、美國式的活潑和與在微軟亞洲研究院的中國研究員一樣的親切與隨和。
邂逅未來
微軟亞洲研究院院長洪小文曾說過:“創新更多的是意外”。而松下康之與微軟亞洲研究院的緣分,正是充滿著這種“必然的意外”。
在東京大學讀書的時候,松下康之本科、碩士、博士的專業方向都是電氣工程。那時,松下康之已經研究了智能交通系統?!暗牵乙庾R到自己想做一些更加基礎的研究,并且希望可以把這些研究應用到不同的事情上?!痹诓┦慨厴I前兩年,松下康之就發現了自己對計算機視覺領域的濃厚興趣。而電氣工程與計算機科學聯系緊密,計算機系統結構和軟件都有學習,所以對于松下康之來說,從電氣工程轉到計算機視覺并不是一個很大的跨越。
2002年,當時松下康之還在讀博,在一次國際性的計算機視覺大會上,他見到了時任微軟亞洲研究院副院長的沈向洋,“我之前就認識他,還知道他在計算機視覺領域非常有名。我希望能有機會與他一起工作,學到更多東西。”于是,松下康之向沈向洋毛遂自薦,“意外地”成了一名微軟亞洲研究院的實習生,經過4個月的實習生活之后,松下康之發現自己已經喜歡上了這里的研究環境和生活,就這樣,在微軟亞洲研究院的工作開始了。
如何用科技來解決實際問題,從而改變更多人的生活,一直是微軟亞洲研究院的初衷。生活也不斷地給松下康之帶來靈感和意外的收獲。
其中,“滿幀視頻穩定技術”的“誕生”就源于松下康之的婚禮――用手持的攝像機拍攝的婚禮畫面是搖晃的,看起來很不舒服,新婚妻子對婚禮錄像效果很不滿意,松下康之就想通過研究解決視頻顫抖的問題?!艾F有的數字影像鑲嵌技術可以對畫面進行穩定性處理,但如果物體移動,這種在場景固定的情況下才能實現的方法就不可行了。而通過‘滿幀視頻穩定技術’,丟失掉的像素被自然的補充上了?!蓖恚€可以去除覆蓋在視頻上的文字、鏡頭上的污點,來補上丟失的像素。
科技的光影魔術
“視頻分析在不久的將來將變得更加重要,因為圖像和視頻的界限已經越來越模糊,我相信最后一切都將變成視頻?!彼上驴抵畬τ浾哒f。
微軟亞洲研究院的計算機視覺包括:高層視覺(如人臉識別技術)和低層視覺(如光度學,即研究光線與物體的相互作用),松下康之的研究方向屬于后者。
“光度學也非常重要,因為如果我們不明白‘低層’上發生了什么,就無法在‘高層視覺’研究上取得突破,所以‘低層視覺’研究是非?;A的。如果“低層視覺”發展了,那么“高層視覺”也會隨之發展?!?/p>
雖然是“肉眼”難以察覺的變化,但是松下康之卻給記者描述了光度學形象的應用――3D復原和現實物體數字化。而要實現上面的兩項應用,很明顯需要比普通人更特別的“視力”。
“計算機視覺里有一個傳統的方法,叫多視角立體視覺法(multi-view stereo),通過不同視角拍攝的圖片我們可以重現3D,但不能做細節的重現;還有另一種方法,叫立體光學法(photometric stereo),攝像機和物體都是固定的,但是光線是變化的,如果移動光源就可以得到物體的不同觀察值,通過觀察值可以得到表面方向(surface orientation)?!?/p>
前者可以得到整體的形狀,但卻無法得到細節,而后者不能給你整體的形狀,因為它只能給你表面方向。如何把兩個技術的優點結合起來得到最真實的3D圖像呢?
“我們考慮如果把一個持續光源固定在攝像機上,這樣我們就可以同時移動光源和攝像機?!庇谑?,松下康之和他來自東京大學的實習生一起做出了看起來與普通家用數碼產品沒有太大差別的“3D攝像機”?!斑@個3D攝像機的相關的配件在市場上很容易就能買到,手持永遠是簡單的,人們不會想要拿著一個龐然大物?!彼上驴抵蛴浾呓榻B研發背后的原因。
文化熔爐
作為美國電氣電子工程師協會2009年計算機視覺與模式識別國際會議(CVPR)和2009年計算機視覺國際會議(ICCV)的區域主席、著名期刊International Journal of Computer Vision(IJCV)和Computer Vision Applications(CVA)的編委,松下康之坦言,微軟亞洲研究院對研究員在專業領域的自由交流的支持,使得研究員對自己的研究領域“看得更遠、更透徹”。
“通過這些職務,我對研究方向有了更高的認識,這種視野能夠幫助我決定今后什么樣的研究更有價值。此外,我能夠認識計算機視覺界的很多人,這是另一個收獲。”松下康之笑著說。
如何學習計算機視覺范文2
關鍵詞:印制電路板;圖像處理;機器視覺;PCB裸板;自動光學檢測;缺陷檢測 文獻標識碼:A
中圖分類號:TP391 文章編號:1009-2374(2016)09-0010-05 DOI:10.13535/ki.11-4406/n.2016.09.005
我國是全球第一大PCB生產基地,作為電子產品承載體的電路板,其集成度和產量不斷在提高。為了保證電子產品的性能,電路板缺陷檢測技術已經成為電子行業中非常關鍵的技術。建立在圖像處理算法基礎上的機器視覺檢測技術與傳統的人工檢測技術相比,提高了缺陷檢測的效率和準確度。因此,設計一種高效精準的機器視覺檢測電路板缺陷的系統,具有非常重要的現實意義。評估印刷電路板質量的一個重要因素就是表觀檢測,PCB的表觀質量對產品性能及成品使用安全有著極大的重要性。而伴隨著近年來在工業生產領域崛起的計算機視覺,當前表觀缺陷檢測和分類識別的研究方向已經轉向了利用計算機視覺技術來實現。計算機圖像處理識別技術這種基于計算機視覺的檢測技術成功取代了傳統的PCB缺陷檢測方法,在自動光學檢測系統眾多應用中占據了相對重要的地位,一躍成為PCB生產業表觀缺陷的主要檢測方法。
圖1 系統框圖
因此本文通過設計AOI自動光學檢測系統,搭建較為簡單的PCB缺陷自動檢測系統的實驗平臺,對PCB中四類較為關鍵、常見的缺陷進行檢測、分析、識別、判定,為研究推廣PCB缺陷自動檢測系統開拓應用前景,如能實現工業上的產業化檢測,將有高額的經濟收益。本文側重對PCB中的四類較為關鍵、常見的缺陷進行檢測、分析、識別、判定,并且僅搭建了較為簡單的PCB缺陷自動檢測系統的實驗平臺,即通過復雜算法對采集到的圖像進行處理、配準、對比,從而得出PCB缺陷類型及對其進行標識。如圖1所示。
1 硬件設計方案
PCB缺陷檢測的總體系統設計方案主要是基于自動光學檢測技術來搭建PCB缺陷檢測系統,硬件設計是使用CNC-T程控光源高精度影像測試系統操作臺,對待測電路板進行圖像采集,再通過VS2010軟件所編寫程序處理,得出待測電路板的缺陷種類。整個系統主要分為運動控制、光源、圖像采集、圖像處理四個模塊,分模塊簡要闡述了實驗過程、所需設備以及軟件算法,搭建了一個相對完整的系統工作平臺。
圖2 CNC-T程控光源影像操作臺
該設備具有測量元素種類齊全、手動測量、自動對焦等多種功能,使用該設備采集圖像進行二維檢測,測量軟體為YR-CNC,將圖像儲存至電腦后便由VS軟件進行圖像處理。實驗組成如圖3所示:
圖3 實驗系統框圖
1.1 運動控制模塊
本系統運動流程為:被檢測的PCB在檢測臺上,通過步進電機XY軸運動到攝像機拍攝區域,CCD攝像機固定在工作臺上方(Z軸),通過Z軸的運動實現聚焦。如圖4所示:
圖4 平臺運動示意圖
設備工作臺臺面尺寸為746mm×506mm,承載玻璃面尺寸為452mm×354mm,有效測量行程為400×300×200。本裝置既可通過軟件驅動自動采集圖像,也可以通過手動控制,移動并聚焦采集待測PCB的圖像。
1.2 光源模塊
輔助光照――采用的是正向和背向光源這兩種輔助光照。其中正光源和攝像頭同側,均位于Z軸上,正光源主要用于檢測待測物體的表面特征。背光源位于檢測臺面下方,與正光源處于同軸反向關系,背光源能突出待測物體的輪廓特征,常用于檢測物體輪廓尺寸。
圖像采集:分別利用正光源突出PCB表面如走線、過孔和焊盤等主要特征,而下光源主要使PCB的輪廓尺寸和過孔產生強烈的輪廓對比。
光源:使用的是高度集中照明光源中心的LDR系列,由于該光源的傘狀結構緊密排列著LED且采用了CCS獨創的柔性板,使之成為LED照明系統的標準模式。照明系統如圖5所示:
圖5 照明系統
1.3 圖像采集模塊
圖像采集模塊是由圖像采集卡、相機和鏡頭組成的,該模塊是圖像配準階段的硬件基礎。計算機采集圖像的媒介就是相機,而相機按照不同原理又分為多種,常見的有CCD(Charge Coupled Device)和CMOS(Complementary Metal Oxide Semiconductor)兩類。本系統采用的是CCD 1/2英寸43萬像素彩色攝像頭和高清晰度0.7~4.5X變焦倍率鏡頭,顯示分辨率為0.001mm。
1.4 圖像處理模塊
通常獲得的圖像將受到工業現場環境、光照等條件的干擾,計算機所獲得的圖像質量多數參差不齊,圖像的清晰度不一致,大大增加了PCB缺陷檢測的難度,所以在利用復雜算法檢測、識別PCB缺陷前要先對圖像進行預處理。
本圖像處理模塊主要通過VS軟件在OpenCV計算機視覺庫的基礎上,通過一系列算法對圖像進行處理對比。
2 系統軟件設計
2.1 OpenCV
OpenCV(Open Source Computer Vision Library)是一個跨平臺的可以運行在Linux、Windows和Mac OS操作系統上的基于(開源)發行的計算機視覺庫。它重量輕而高效,開放了多種接口如MATLAB、Ruby和Python等,并且在計算機視覺和圖像處理中大多數通用的算法都是被允許的。OpenCV可用于開發實時圖像處理、計算機視覺和模式識別方案,它提供了多種函數,實現了大量的計算機視覺算法,算法涵蓋了從最基礎的濾波至以高級的物體檢測。OpenCV實際上是一堆C和C++語言源代碼文件,許多常見的計算機視覺算法由這些源代碼文件實現。如C接口函數cvCanny()實現Canny邊緣檢測算法。它可直接加入到我們自己的軟件項目編程中,而無需去編寫自己的Canny算子代碼,就是沒有必要重復“造輪子”。
根據OpenCV中源代碼文件巨多的特點,以算法的功能為基準,將這些源文件分到多個模塊中,如core、imgproc、highgui等。將每個模塊中的源文件編譯成一個庫文件(如opencv_core.lib、opencv_imgproc.lib、opencv_highgui.lib等),用戶在使用時,僅需在自己的項目中添加要用的庫文件,與自己的源文件一起連接成可執行程序即可。
OpenCV計算機視覺庫的出現,是為了使人們利用方便快捷的計算機視覺框架,在計算機視覺領域可以更加輕松地設計出更為復雜的應用程序。OpenCV涵蓋了多種計算機視覺應用區域,如用戶界面、信息安全、醫學影像學、工廠產品檢驗、立體視覺、機器人和攝像機標定等,約有500多個函數。因為計算機視覺與機器學習是相輔相成的,所以OpenCV也開放了MLL(Machine Learning Library)機器學習庫。MLL除了在視覺任務相關中使用,也可以很容易地應用到其他機器學習中。
2.2 Microsoft Visual Studio2010
Visual Studio是微軟公司推出的開發環境,是同行業中目前最流行的Windows平臺應用程序開發環境。Visual Studio 2010于2010年4月12日,其集成開發環境(IDE)已被重新設計和組織,變得更簡單了。
Visual Studio 2010同時帶來了NET Framework 4.0、Microsoft Visual Studio 2010 CTP(Community Technology Preview――CTP),并且支持開發面向Windows 7的應用程序。除了Microsoft SQL Server外,它還支持IBM DB2和Oracle數據庫。目前有專業版、高級版、旗艦版、學習版和測試版五個版本。Visual Studio的用處十分廣泛,不僅可被用來基于Windows平臺創建Windows應用程序和Web應用程序,還可被用來創建智能設備、Office插件和Web服務等應用程序。微軟的Visual Studio 2010將成為一個版本的經典,這是相當于6.0版本。該版本可以自定義開始頁,新功能還包括:(1)C# 4.0中的動態類型和動態編程;(2)多顯示器支持;(3)使用Visual Studio 2010的特性支持TDD;(4)支持Office;(5)Quick Search特性;(6)C++ 0x新特性;(7)IDE增強;(8)使用Visual C++ 2010創建Ribbon界面;(9)新增基于.NET平臺的語言F#。本課題將基于OpenCV計算機視覺庫使用Microsoft Visual Studio2010開發環境,通過編輯算法實現PCB缺陷檢測。
3 圖像預處理
要使用計算機對圖像進行處理,所得到的連續圖像就必須被轉換為離散的數據集,這是因為計算機只能處理離散度數據,這一過程我們稱之為圖像采集。圖像采集由圖像采集系統實現,如圖6所示。圖像采集系統的三個主要模塊是成像系統、采樣系統和量化器。
圖6
將整理出的字符圖像交予識別模塊來識別,被稱為圖像的預處理。PCB的圖像預處理包括灰度化、增強、濾波、二值化、配準等,處理后的PCB輸出的圖像質量將得到改善,在很大程度上使得該圖像特征更直觀,方便計算機分析和處理。PCB的圖像預處理為整個PCB缺陷檢測系統的核心部件,很大程度上決定了檢測的準確性。圖像預處理流程如圖7所示:
圖7 圖像預處理流程圖
4 PCB缺陷檢測
本文針對四種常見缺陷:斷路、短路、毛刺(凸起)、缺損(凹陷)進行檢測研究。在這四種缺陷中,最為嚴重的缺陷類型是斷路和短路,它們將會使整塊板子失去本來的功能;而凸起、凹陷也可能影響到PCB在使用過程中的穩定性能。如圖8所示為幾種常見的缺陷:
圖8 常見電路板缺陷
4.1 PCB缺陷的檢測方法
常用的PCB缺陷檢測方法有參考法和非參考法兩種。要是從概念理解和電路難易程度看,參考法明顯更加具有概念直觀、電路簡單的優勢;要是從檢測所需要的條件來看,非參考法則在不需要待測PCB與標準PCB進行準確對準這一點上優于參考法。
本課題采用參考法進行PCB缺陷檢測。
使用參考法對PCB缺陷進行檢測的流程為:(1)確定標準的PCB圖像并放入參考庫;(2)通過成像設備采集待測PCB圖像,進行圖像預處理之后,再二值化PCB待測圖像,并對其進行連通域提??;(3)然后將處理結果與標準圖像進行對比,利用圖像相減來判斷PCB可能存在的缺陷;(4)進行分類,確定缺陷類型。
4.2 圖像連通域
像素是圖像中最小的單位,每個像素周圍有8個鄰接像素,常見的鄰接關系有兩種:4鄰接與8鄰接。4鄰接一共4個點,即上下左右。包括對角線位置的點,8鄰接的點一共有8個,如圖9所示:
圖9 領域示圖
如果像素點A與B鄰接,我們稱A與B連通,即有如下的結論:
如果A與B連通、B與C連通,則A與C連通。在視覺上看來,點與點相互連通,形成一個區域,而不是連通的點形成不同的區域。這種相互立體的所有的點,我們稱為連通區域。連通區域標記常用的方法有Two-Pass(兩遍掃描法)和Seed Filling(種子填充法)兩種方法,本課題主要介紹第二種。
Seed Filling來源于計算機圖形學,通常應用在填充圖形上。思路:以一個前景像素當作種子,而后在處于同一像素值且位置相鄰的連通區域,把和種子相鄰的前景像素融合到同一組像素中,結果將是獲得一個像素集,即連通區域。接下來介紹使用種子填充法實現的連通區域分析法:
第一,重復掃描圖像,當得到當前像素點B(x,y)=1時停止:(1)賦予B(x,y)一個label,并將像素位置作為種子,接著將所有位于該種子周圍的前景像素都壓入棧中;(2)將棧頂像素賦以相同的label值并彈出,接著將全部位于棧頂像素周邊的前景像素都壓入棧中;(3)重復(2)步驟,直到棧為空。此時,圖像B中的一個像素值被標記為label的連通區域便被找到了。
第二,在掃描結束前,重復第一個步驟,由此可以獲得圖像B中所有的連通區域在掃描結束后。
掃描所得的連通域如圖10所示:
圖10 圖像連通域提取
4.3 缺陷識別
缺陷識別具體特征如表1所示:
表1 缺陷特征
缺陷種類 二值圖像面積 連通區域數
斷路 減少 增加
短路 增加 減少
凸起 增加 不變
凹陷 減少 不變
第一,短路和斷路。在出現短路缺陷時,待測圖像與標準圖像相比,其所包含的連通區域數將會減少。同理可得,在出現斷路缺陷時,待測圖像與標準圖像相比,其所包含的連通區域數將會增多。因此,斷路和短路缺陷便可利用比較連通區域數來判定和識別。
第二,凸起和凹陷。凸起缺陷將導致導線和導線、導線和其他導體間的間隙變小,而凹陷缺陷將導致導線和導線、導線和其他導體間的間隙變大,二者均會導致PCB使用過程中出現不穩定狀態。而觀察可知,這兩種缺陷的連通區域相同,差別在于各自二值化面積的大小,所以可以通過計算該待測圖像的連通區域面積來識別凸起、凹陷缺陷。
識別過程:將經過圖像預處理的待測PCB圖像與標準圖像進行對比后,通過算法找出缺陷。比較二者的連通區域數,若前者大于后者,則標定該缺陷點為斷路,反之則為短路;若二者連通區域數相同,則比較二值化圖像面積,若前者大于后者,則標定該缺陷點為凸起,反之則為凹陷。檢測流程如圖11所示:
圖11 PCB缺陷檢測流程圖
5 系統實驗
本文使用CNC-T程控光源高精度影像測試系統操作臺,結合VS2010軟件基于OpenCV計算機視覺庫的算法編程來實現PCB的缺陷檢測。整體實驗過程為:手動控制操作臺捕捉、聚焦、采集待測PCB的圖像,采集到的圖像與標準圖像進行對比、識別,得出缺陷種類并顯示結果。
本課題一共就所研究缺陷類型,做了40組實驗,通過實驗結果計算正確率。如表2所示:
表2 實驗結果統計
缺陷類型 實驗次數 正確率
斷路 10 100%
短路 10 100%
凸起 10 100%
凹陷 10 100%
針對不同電路板圖中出現的同種斷路類型進行檢測,效果如圖12a、圖12b、圖12c所示,可準確檢測出缺陷存在。
圖12
針對不同電路板圖中出現的同種短路類型進行檢測,效果如圖13a、圖13b、圖13c所示,可準確檢測出缺陷存在。
圖13
針對不同電路板圖中出現的同種凸起類型進行檢測,效果如圖14a、圖14b、圖14c所示,可準確檢測出缺陷存在。
圖14
針對不同電路板圖中出現的同種凹陷類型進行檢測,效果如圖15a、圖15b、圖15c所示,可準確檢測出缺陷存在。
圖15
6 結語
PCB板面向體積越來越小、密度越來越高的方向發展。在檢測產品價格方面,國外AOI檢測產品價格普遍偏高,而由于經濟原因,在國內PCB板生產制造商多數仍采用人工目測等傳統檢測方法檢測。隨著經濟的發展,數字圖像處理研究的深入,自動光學檢測系統也開始頻繁活躍在人們視線中,但在PCB缺陷檢測方面的應用卻還有待完善。因此,本論文建立在深入掌握工控系統結構并從PCB板的質量標準、圖像特點、缺陷特征及檢測要求的分析基礎上,對以圖像處理為基礎的PCB缺陷檢測技術進行了深入研究。由于PCB缺陷自動檢測系統的研究涉及多個領域的知識,其研究過程十分耗時、繁瑣,由此,本論文僅僅對PCB缺陷檢測中較為常見的問題進行了較深入研究,并且僅搭建了較為簡單的PCB缺陷自動檢測系統的實驗平臺,對PCB中的四類較為關鍵、常見的缺陷進行檢測、分析、識別、判定。雖然還未實現真正實現工業上產業化檢測,但是在未來幾十年中,研究推廣的PCB缺陷自動檢測系統將有十分良好的應用前景,也將有高額的經濟收益。
參考文獻
[1] 陳勝勇,劉盛,等.基于OpenCV的計算機視覺技術實現[M].北京:科學出版社,2008.
[2] Gary Bradski,Adrian Kaebler,于仕琪,等.學習OpenCV[M].北京:清華大學出版社,2009.
[3] 周長發.精通Visual C++圖像處理編程(第3版)
[M].北京:電子工業出版社,2006.
[4] 黨振.中國大陸PCB產業的現狀與未來[J].印制電路信息,2006,32(1).
[5] 胡躍明,譚穎.自動光學檢測在中國的應用現狀和發展[J].微計算機信息,2006,(4).
[6] 李漢,何星,等.印刷電路板的自動光學檢測系統
[J].無損檢測,2004,26(6).
[7] 張利,高永英,等.PCB板檢測中的定位研究[J].中國圖像圖形學,1999,4(8).
[8] 姚立新,張武學,等.AOI系統在PCB中的應用[J].電子工業專用備,2004,(5).
[9] 范小濤,夏雨人.一種基于圖像處理的PCB檢測算法研究[J].計算機工程與應用,2004,(13).
[10] 傅莉.印制電路板的發展及前景[J].電腦與電信,2010,(5).
[11] 張明軒.基于視頻序列的人臉檢測與跟蹤算法研究[D].中北大學,2011.
[12] 張馳.基于機器視覺的智能控制與圖像識別問題研究[D].蘭州理工大學,2009.
[13] 謝飛.基于計算機視覺的自動光學檢測關鍵技術與應用研究[D].南京大學,2013.
[14] 張靜.PCB表觀缺陷的自動光學檢測理論與技術
[D].電子科技大學,2013.
[15] 俞瑋.AOI技術在PCB缺陷檢測中的應用研究[D].電子科技大學,2007.
如何學習計算機視覺范文3
因為太多的交流是非語言性的,這就很容易理解為什么人與計算機交互會有障礙。我們經歷了從打孔卡到鍵盤的發展,隨著諸如Siri等APP的興起,我們可以進行語音輸入,但是僅僅通過語言,機器還是不能理解我們。
這就是為什么最近機器情緒識別的發展會如火如荼的原因。由于照相機技術和計算機視覺算法的發展,計算機通過面部表情、眼動方式、肢體語言、說話方式甚至抬頭等理解我們的能力顯著提高。
想象一下:一位虛擬心理醫生在臨床診斷時可以通過分析患者的面部表情來確診抑郁癥,甚至可以隨著病情的變化來量化情緒變化。銷售人員能更好地分析客戶對其產品和廣告的反應,老師們能知道課程計劃是否適用于全體學生,智能手機如果感覺到我們不安或困惑,會改變方式并提出建議。
換句話說,冷靜的設備會通過我們的面部表情來得知我們的情緒。
計算機視覺研究者已經致力于這項研究幾十年了。在這幾十年中發生了哪些改變?照相機技術是一個改變。為了理解面部表情,通常需要對表情的微妙變化進行檢測,比如臉頰肌肉、嘴部的變化以及挑眉。然而,直到最近,在許多網絡相機中人臉看起來還是像一大團粉紅色的物質。但是現在即使最原始的智能手機都具有高質量的照相機,能捕捉到諸多顯示面部情緒和意圖的面部動作。
另一個變化是常規可用計算能力與內存的提高,從而可以運行更加復雜的情緒感知算法。由于有大量訓練面部表情算法的視頻數據庫可用,計算機視覺算法變得越來越正確、有效,還能實時工作。
卡耐基梅隆大學機器人研究所的Fernando De la Torre發明了特別強大的面部識別軟件,被稱作IntraFace。他的團隊采用機器學習的方法來教IntraFace如何以一種適用于大多數面孔的方式來識別和追蹤面部表情。然后他們創建了個性化算法能夠讓軟件對個人進行情感表達分析。不僅準確,而且高效,該軟件甚至能在手機上運行。
De la Torre和匹茲堡大學心理學家Jeffrey Cohn已經在臨床檢測抑郁癥上獲得了令人鼓舞的結果。在自然環境下檢測抑郁癥要求能夠捕捉微妙的面部表情,這就是他們正在做的事。
當然,這并不是萬無一失的。演員可能會成功地偽造情感表達。但是,由于真假情緒在表達時間上的不一致,因此關注時間的算法不會輕易上當。此外,面部表情是嵌入到其他非語言行為中的。Cohn和其同事發現嚴重抑郁癥和輕微抑郁癥之間在聲音的時間上有細微的差別。
另一位成員,語言技術研究所的Louis-Philipe Morency使用多模式機器學習來評估病人的非語言行為來幫助醫生更好地評估抑郁癥和焦慮。他設想這項技術不僅能幫助診斷疾病,還能在某種程度上量化情感反應,可以幫助醫生追蹤精神疾病,就像血液檢測和X射線能夠幫助醫生監測身體疾病一樣。
如果機器能理解我們的情緒,我們與機器的交互就會變得更加豐富。卡耐基梅隆大學的Justine Cassell研究虛擬同伴在教育行業的應用,她發現當虛擬同伴能對學生們的情緒狀態做出適當反應,甚至在某些場合嘲笑他們時,學生們會更積極地參與也會學得更多。
如何學習計算機視覺范文4
在1998年第三次高校本科專業目錄修訂調整前,測繪學科本科有4個專業:攝影測量與遙感、工程測量、大地測量、地圖制圖,雖然都要學習攝影測量學,但是各個專業間差異較大,如原武漢測繪科技大學(武測)對攝影測量與遙感專業學生有關攝影測量方面的教學內容包括:基礎攝影測量、解析攝影測量、數字攝影測量、攝影技術、航空與航天攝影技術、非地形攝影測量;實踐環節包括:航測實驗、航測外業實習、航測內業實習。而原測繪學院攝影測量與遙感專業有關攝影測量方面的教學內容包括:攝影與空中攝影、航空攝影測量、航天攝影測量、解析攝影測量、航測自動化、像片判繪(包括實習)、像片轉繪,實踐環節還包括航測外業實習。由于當時攝影測量教學中實驗或實習內容涉及很多價格昂貴的專業攝影測量儀器,一些院校受限于辦學條件,當時只開設有工程測量專業。原武測工程測量專業在攝影測量學方面主要的課程有:攝影技術(一學期)、攝影測量學(一學期),但沒有相關實習;而同濟大學工程測量專業,在20世紀90年代中期開設的攝影測量學相關課程有:攝影測量與遙感(上、下兩個學期)、工程攝影測量,實踐環節包括:攝影測量實驗、遙感實習;相較一些院校的工程測量專業,其攝影測量方面的學時數已經偏多。1998年第三次高校本科專業目錄修訂后,以一級學科設置本科教學專業,現在本科階段只有測繪工程專業,攝影測量學作為測繪工程專業的主干課程及方向之一,與原來工程測量專業比,攝影測量學在教學中所占的比重增加,但是該比重遠低于在攝影測量與遙感專業中的比重,并且由于總課時呈壓縮態勢,因此實際授課時間實際是在減少。隨著空間技術、傳感器技術和計算機技術的發展,近20年來攝影測量學內容發生了很大變化;在經歷模擬、解析、數字3個階段發展后,攝影測量快速進入了航空攝影測量與航天攝影測量并存的發展階段;航空攝影發展到了模擬航空攝影和數碼航空成像并存階段,航天攝影(測繪衛星)完全實現了數字成像;攝影測量數據處理則實現了全數字化。為了適應攝影測量快速發展的情況,同濟大學測量系在2005—2006學年開設了攝影測量學的雙語教學[9],其他院校也對攝影測量學教學進行了有益的改革與嘗試[10-11]。攝影測量的快速發展使得一方面涌現大量新知識點,現在本科教學中攝影測量方面涉及的很多內容實際上是20世紀90年代以來人們的研究結果,因此需要教授的內容大量增加;另一方面,以一級學科設置本科專業,測繪學科的各個二級學科的內容都要涉及,而通識教育本身又需要挪出相當的學時進行通識類課程學習,造成的結果是在攝影測量方面,現在同濟本科教學中相關的課程只有:攝影測量基礎、數字攝影測量及實踐環節———攝影測量實習,并且其中作為專業主干課的“攝影測量基礎”課時縮減為一周4課時(將來還將縮減為3課時),在這種背景下,攝影測量方面的教學應如何開展,特別是主干課攝影測量基礎教學如何開展,教學中應該包括哪些內容?過去的模擬攝影測量內容是否要涉及?怎樣涉及?這些都須考慮。
二、通識教育下同濟大學測繪專業“攝影測量基礎”教學探索
作為一門主干專業基礎課,攝影測量學在數學上具有完整的理論基礎,與其他測繪基礎課程如測量學、大地測量學有較大的差異,也是一門非大眾化的學科課程;但作為測繪技術中的一個分支,其具有廣泛的應用,是后續學習數字攝影測量、近景攝影測量及遙感等專業課程的基礎。隨著近、現代攝影測量理論研究和技術的發展,相關內容更新非???,而且與計算機視覺的結合日趨緊密,因此現階段攝影測量學的教學內容也有較大的變化,一是內容增多,二是內容改變多特別是涉及應用方面。而通識教育背景下,造成課時數緊縮,因此在攝影測量基礎教學中須兼顧兩者,在教學內容安排中尤其要注意基礎部分、拓展部分的比例安排,統籌考慮一般學生的需求和感興趣且學有余力同學進一步深入的要求。結合攝影測量方面課程的教學經驗,確定了“攝影測量基礎”課程教學的指導思想。
1.“攝影測量基礎”課程教學的指導思想
攝影測量學基礎作為一門基礎性專業課程,在現在學時大大壓縮的情況下,整個教學內容應強調基礎性,為學生將來可能的進一步學習打好基礎。測繪工程專業的學生將來會從事各種不同的行業應用,同濟大學測繪工程專業的學生畢業后單純從事攝影測量與遙感方面研究與實際工作的并不多,比較多的從事工程測量,但現在工程測量這方面的儀器不少涉及近景攝影測量原理的應用,如工業場景監測等;另一方面還有不少學生從事GIS數據處理的工作,其中會涉及不少航空、航天影像的處理。針對這些不同的學生,項目組成員認為“攝影測量基礎”課教學的目的是在有限的學時下,傳授攝影測量最基本的概念方法,建立攝影測量學基本框架;為將來進一步學習相關后續課程及將來工作中有關知識學習作準備??紤]到同濟大學測繪工程專業攝影測量學方面課程分為攝影測量基礎和數字攝影測量學兩部分,而衛星影像幾何處理集中在后續的遙感課程中講授,且課時數有限,因此現在“攝影測量學基礎”課的教學,其指導思想應是:對攝影測量學的講授內容側重于攝影測量基本原理、基本過程,使學生建立起攝影測量的基本思想,保證學生對攝影測量整體過程的理解;在此基礎上適當加強攝影測量實際應用部分的教學,提升學生的學習興趣,同時通過雙語教學實踐來提高學生的專業外語能力,為今后進一步學習做準備。
2.構建科學的“攝影測量基礎”課程教學的目標體系
從上述“攝影測量基礎”教學指導思想出發,構建了通識教育下“攝影測量基礎”課程教學的目標體系。總體上,“攝影測量基礎”教學目的是為滿足寬口徑人才的培養,滿足不同部門對于攝影測量和影像空間信息獲取人才的要求,為學生將來的對攝影測量學相關內容的進一步學習、自主學習打好基礎,為這一目標,將教學中涉及的內容分成4類:需熟練掌握的、需掌握的、需了解的及興趣拓展部分。有關數字影像匹配方法的基本計算過程,數字高程模型的建立及其應用,數字微分糾正的原理及正射影像圖的制作;全部放到數字攝影測量課中講授,不在攝影測量基礎課上做要求。這樣通過本課程教學,使學生系統地學習攝影測量學的基本理論與方法,著重使學生掌握攝影測量學的基本知識(包括空間解析定位和圖像解譯)及利用攝影測量方法獲取空間幾何位置信息的基本操作過程;了解攝影測量學與遙感、GIS的密切關系,空間定位技術(GPS)的關系,在攝影測量影像信息處理中的應用及攝影測量學的最新發展及其在國民經濟建設中的主要應用。一些感興趣的學生可以進一步拓展了解其歷史發展知識及與計算機視覺的關系。
3.優化教學內容,為學生進一步的學習打好基礎
合理選擇、組織的教學內容是滿足在課時較少情況下學生仍能夠較好掌握攝影測量基本知識的重要保證。攝影測量學教學中既包括有大量的攝影幾何原理,又涉及很多數據處理的方法及相關應用方面的知識,在現有的教學中各門相關課程的講授內容各有側重。而傳統的教學方法中沿著攝影測量的發展脈絡,從模擬—解析—數字來介紹,其最大的好處是:對攝影測量的發展歷史、相關概念演變的關系學生能比較清晰的掌握,但這是建立在過去專業細分的基礎上的、需要大量課時,并且最好有一定模擬儀器的支持,這在現有情況下無法滿足,而且其中部分知識內容已屬于比較陳舊過時的內容,也沒有必要講授,而其中歷史部分,雖應涉及,但不同學生對各部分內容的興趣并不一樣。由于將“攝影測量基礎”課程的教學內容分成了4部分,因此,攝影測量歷史部分知識屬于學生只需了解的內容,而模擬攝影測量部分的絕大多數內容則屬于興趣拓展部分的內容。在教學中重點放在學生需要掌握或熟練掌握的內容;同時考慮到計算機視覺研究對攝影測量的沖擊與促進,在教學內容中增加了相關內容的介紹,其中部分如計算機視覺方向如何表示像點、物點的關系,它與攝影測量表示方法的關系,是學生應了解或興趣拓展的內容。目前對攝影測量基礎的教學內容及教學順序作了較大調整:①考慮到學生在先前階段并沒有課程專門講授攝影測量中的影像獲取及其要求,在內容中增加影像獲取部分,介紹過去膠面影像的獲取(簡要介紹)和數字影像的獲取,并對相機檢校簡要介紹;②由于將數字攝影測量部分內容獨立在專門的課程介紹,在攝影測量基礎部分重點介紹像片解析基礎、強化解析空中三角測量部分內容,特別是光束法平差、增加直接線性變換內容;③講授內容去掉了模擬測圖部分內容的介紹,這些內容只作為學生興趣閱讀的材料;④考慮到整個航測成圖的整體性,在內容中增加了航測外業部分介紹,包括坐標框架選取、像控點獲取,以及影像的調繪?,F有的一些攝影測量教材中模擬攝影測量的內容已經完全去掉,只在緒論的歷史回顧中出現。由于現在攝影測量中一些名詞、概念、處理方法中還留有模擬測圖的痕跡,將模擬部分完全去掉是否會影響學生對這些問題理解?一些攝影測量還留有不少模擬的痕跡,完全去掉對學生理解是否有利?從這一角度出發,在講授過程中仍然將模擬測圖內容作適當介紹,作為學生拓展了解的內容。而對于影像解析及解析空三的內容,因其是攝影測量的基礎,對進一步學習很重要,因此在授課中強化了這方面的內容。
4.加強與創新項目的結合、與實踐的結合
攝影測量是一門應用性很強的學科,為調動學生的學習興趣,在教學過程中,增加了一些攝影測量知識應用的小實驗。如利用規則格網板進行控制,利用普通相機(如手機自帶相機)進行面狀物體的攝影和基于影像的面狀物體形狀測量;結合網上大量的影像信息(特別是衛星影像信息,如百度地圖、GoogleEarth上的影像信息),與實地相對照,引導學生理解影像調繪、外業控制、像片控制點的概念,并結合學生自己的日常生活進行有針對性的調繪?,F在大學本科教育中,非常重視學生創新能力的培養,有各種學校和國家的創新項目。有些學生提出的一些項目申請想法就涉及影像的幾何處理、攝影測量的相關知識,因為是學生自己提出的想法,所以學生的興趣高、學習主動性強,并且很多想法更為新穎、有趣,為此在攝影測量基礎教學過程中加強了和創新項目的結合?,F在測繪工程三、四年級學生正在進行的創新項目中,有2~3個項目是與攝影測量學相關的。通過加強課程教學與實踐和創新項目的結合,原本抽象的概念內容變得具體、實在,與日常生活中應用相結合,調動了學生的學習興趣,同時為完成這些項目和實踐活動,還會涉及一些教學中未授內容,這樣可以進一步促進學生深入、主動地學習,能激發學生去思考該學科的更廣泛應用,而不是僅局限于測圖方面,這也與現在通識教育背景下進行通才培養的理念相一致。
三、結束語
如何學習計算機視覺范文5
關鍵詞:動態紋理;網格;三維模型;動態景物;基于圖像的繪制
0引言
近幾年,隨著虛擬場景建模技術的發展,客戶對虛擬場景的真實感和實時性要求越來越高。在大部分虛擬場景中,尤其是自然環境和戰場環境中,火焰、煙霧、硝煙以及干擾云等景物是必不可少的一部分。真實地模擬這些動態景物是影響場景繪制速度的一個重要因素,也是計算機圖形圖像研究的一個重點和難點。用更少的運算和內存空間,更加逼真地模擬它們的狀態一直是人們努力的目標。目前已經有很多關于這方面的研究。Lamorletter和Foster對火焰的各個不同部分分別建立模型[1],然后分別計算不同部分的狀態,從而體現整個火焰的運動狀態。首先建立火焰的外輪廓線模型,然后對火焰進行上下分段,對不同段的粒子采用不同函數描述,從而體現火焰不同部分的亮度,通過各個部分亮度的變化展現火焰的動態效果。Beaudoin則是建立三維的火焰骨架[2],并在三維骨架內建立速度場?;鹧娴牧W右援斍八幬恢玫乃俣冗\動,實現動態效果。同時,他把火焰由內及外分成不同的層,不同的層用不同的亮度計算函數,體現了火焰由內及外的亮度變化。Ngu-yen則是從燃料入手[3],考察固體燃料由固體變成氣體燃燒然后再慢慢冷卻的過程。在燃燒的過程中,燃料顆粒以氣態在空氣中運動并且相互作用,產生火焰的動態效果。同時,燃料顆粒經歷溫度由低到高的過程,亮度也相應由弱到強地變化,使火焰在不同的段,亮度也不同。Schodl提出一種由少量動態火焰產生無限動態火焰序列的算法[4]。Fedkiw通過跟蹤點的運動,利用渦流思路成功模擬了煙的運動[5]。Wijk就如何體現流體紋理隨機性和不確定性,并保持紋理一致性和連續性提出了很好的思路[6]。
1α-體建模思想
在以上提出的各種建模方法中,出于真實性、隨機性和實時性的考慮,在實際建模過程中常用的方法主要有基于粒子系統的建模和分形[7]建模以及依賴于已有的圖像序列的基于計算機視覺的建模。這類動態現象包含的共同特性是產生它們的物理機制十分復雜,一般很難通過物理分析的方法對它們建模。而現有的建模算法多數都是基于粒子系統[7~9],既要考慮其復雜的物理模型,又要利用流體力學的知識計算場景的運動狀態。其主要缺點是運算量大,很難達到實時繪制的要求。另一方面,可以很容易收集這類動態序列的樣本。于是,產生了圖像與幾何相結合的建模思想:首先從得到的原始圖像序列樣本恢復幾何信息,然后將紋理映射到幾何體表面。但是這種方法要用到計算機視覺理論,不可避免地要從圖像中精確地恢復對象的幾何模型。這是一個非常復雜的過程,尤其是對于這些沒有固定形狀的動態景物而言。大部分的火焰合成系統都是動態地展現紋理效果,使其在二維平面上展現出栩栩如生的逼真效果,目前在這方面已有很多研究成果[10,11]。在虛擬空間中,需要從各個視角對這種現象進行觀察,只靠紋理的方法是不行的;同時,還要求必須能實時地生成。由于景物在運動過程中,紋理狀態具有不確定性,用傳統的基于粒子的和分形的建模方法,不僅需要大量內存空間來保持它們的連續性和一致性,還要通過大量的運算來求得它們的下一個狀態。這會大大降低繪制的速度,不能滿足實時性要求。
基于這種狀況,本文提出了一種利用已有圖像序列的實時建模方法,即α-體建模思想。這種方法既避免了物理建模的復雜性,又省去了用計算機視覺恢復復雜幾何模型的過程。首先運用動態紋理合成思想從原始圖像集產生動態紋理序列;其次對動態紋理序列進行背景消隱,得到沒有噪聲的動態紋理序列;然后再對這個紋理序列中的每一張圖像進行邊界合成,找出不同的顏色區域邊界并計算邊界的α值;最后根據α值生成α-體集合。在算法中,主要解決了如何利用合成的區域邊界勾勒出紋理的輪廓線以及如何從輪廓線計算α值,并生成α體的問題。
2算法設計
2.1產生紋理的動態序列
動態紋理是一種基于圖像的繪制方法,通過對輸入圖像序列進行學習,生成新的圖像序列。它與原序列在視覺上十分相似,不但具有很強的真實感,還具有一定的可編輯性。下面首先定義一個動態紋理,然后分別對動態紋理進行學習、識別和合成。
2.2圖像的邊界合成
為了建立α-體集,必須找出不同區域的邊界。在火焰圖像中,不同顏色的區域之間的邊界都是曲線。這里用Alpha估計技術,通過以不同的比例混合兩種顏色產生邊界顏色,而且不需要知道邊界的詳細信息。
在實際圖片中,邊界的顏色往往受多個區域的影響,有多個區域的圖像可以被分解為只有兩個鄰接區域的圖像。因此,這里主要處理有兩個區域的圖像。本文用分割兩個區域的像素鏈形成區域邊界。像素鏈用邊緣監測器發現的邊緣創建,而邊界使用區域分割算法或邊界尋找工具(如智能截取器IntelligentScissors[13])發現。事實上的困難在于紋理可能有噪聲和其他數據源。本文采用如下的方法:
(2)計算Alpha和非混合顏色
兩個信號集X和Y是每個對象區域顏色的離散表達。現在必須在兩個分布之間建立關系和確定顏色空間的任意一個像素Q,只要將顏色信號轉換為連續的分布,這種關系可以很容易建立。這里使用一個均勻的高斯混合來確保在顏色空間所有的點有一個非空對應和簡化方程。在Q點比較這兩個方程是一個估計Q點Alpha值αQ的方式。當假設Q是X和Y的顏色混合時,Q就不可能是這兩個分布中的任何一個。因為要估計混合量,傳統的決策理論方法是沒有用的。這時要真正地從X分布的顏色穿過邊界變形到Y分布的顏色繪制Q點。這種變形通過在兩個分布之間線性插值實現。這樣估計Alpha就變成一個最大化可能的估計問題,即發現最大化Q點值可能值的密度。
3實驗結果和算法復雜度分析
摘要:提出了一種α-體建模方法:對實拍圖像的學習生成動態紋理之后,再對紋理進行邊界合成得到劃分了顏色區域的圖像;通過對圖像區域邊界的掃描勾勒出圖像的輪廓線網格,并根據其到中心的距離為每個網格邊界賦予標準的顏色值;最后根據網格的顏色值生成三維模型。實驗證明這種動態景物的建模方法能夠滿足虛擬場景實時繪制的要求,而且具有很好的魯棒性和連續性。
關鍵詞:動態紋理;網格;三維模型;動態景物;基于圖像的繪制
0引言
近幾年,隨著虛擬場景建模技術的發展,客戶對虛擬場景的真實感和實時性要求越來越高。在大部分虛擬場景中,尤其是自然環境和戰場環境中,火焰、煙霧、硝煙以及干擾云等景物是必不可少的一部分。真實地模擬這些動態景物是影響場景繪制速度的一個重要因素,也是計算機圖形圖像研究的一個重點和難點。用更少的運算和內存空間,更加逼真地模擬它們的狀態一直是人們努力的目標。目前已經有很多關于這方面的研究。Lamorletter和Foster對火焰的各個不同部分分別建立模型[1],然后分別計算不同部分的狀態,從而體現整個火焰的運動狀態。首先建立火焰的外輪廓線模型,然后對火焰進行上下分段,對不同段的粒子采用不同函數描述,從而體現火焰不同部分的亮度,通過各個部分亮度的變化展現火焰的動態效果。Beaudoin則是建立三維的火焰骨架[2],并在三維骨架內建立速度場?;鹧娴牧W右援斍八幬恢玫乃俣冗\動,實現動態效果。同時,他把火焰由內及外分成不同的層,不同的層用不同的亮度計算函數,體現了火焰由內及外的亮度變化。Ngu-yen則是從燃料入手[3],考察固體燃料由固體變成氣體燃燒然后再慢慢冷卻的過程。在燃燒的過程中,燃料顆粒以氣態在空氣中運動并且相互作用,產生火焰的動態效果。同時,燃料顆粒經歷溫度由低到高的過程,亮度也相應由弱到強地變化,使火焰在不同的段,亮度也不同。Schodl提出一種由少量動態火焰產生無限動態火焰序列的算法[4]。Fedkiw通過跟蹤點的運動,利用渦流思路成功模擬了煙的運動[5]。Wijk就如何體現流體紋理隨機性和不確定性,并保持紋理一致性和連續性提出了很好的思路[6]。
1α-體建模思想
在以上提出的各種建模方法中,出于真實性、隨機性和實時性的考慮,在實際建模過程中常用的方法主要有基于粒子系統的建模和分形[7]建模以及依賴于已有的圖像序列的基于計算機視覺的建模。這類動態現象包含的共同特性是產生它們的物理機制十分復雜,一般很難通過物理分析的方法對它們建模。而現有的建模算法多數都是基于粒子系統[7~9],既要考慮其復雜的物理模型,又要利用流體力學的知識計算場景的運動狀態。其主要缺點是運算量大,很難達到實時繪制的要求。另一方面,可以很容易收集這類動態序列的樣本。于是,產生了圖像與幾何相結合的建模思想:首先從得到的原始圖像序列樣本恢復幾何信息,然后將紋理映射到幾何體表面。但是這種方法要用到計算機視覺理論,不可避免地要從圖像中精確地恢復對象的幾何模型。這是一個非常復雜的過程,尤其是對于這些沒有固定形狀的動態景物而言。大部分的火焰合成系統都是動態地展現紋理效果,使其在二維平面上展現出栩栩如生的逼真效果,目前在這方面已有很多研究成果[10,11]。在虛擬空間中,需要從各個視角對這種現象進行觀察,只靠紋理的方法是不行的;同時,還要求必須能實時地生成。由于景物在運動過程中,紋理狀態具有不確定性,用傳統的基于粒子的和分形的建模方法,不僅需要大量內存空間來保持它們的連續性和一致性,還要通過大量的運算來求得它們的下一個狀態。這會大大降低繪制的速度,不能滿足實時性要求。
基于這種狀況,本文提出了一種利用已有圖像序列的實時建模方法,即α-體建模思想。這種方法既避免了物理建模的復雜性,又省去了用計算機視覺恢復復雜幾何模型的過程。首先運用動態紋理合成思想從原始圖像集產生動態紋理序列;其次對動態紋理序列進行背景消隱,得到沒有噪聲的動態紋理序列;然后再對這個紋理序列中的每一張圖像進行邊界合成,找出不同的顏色區域邊界并計算邊界的α值;最后根據α值生成α-體集合。在算法中,主要解決了如何利用合成的區域邊界勾勒出紋理的輪廓線以及如何從輪廓線計算α值,并生成α體的問題。
2算法設計
2.1產生紋理的動態序列
動態紋理是一種基于圖像的繪制方法,通過對輸入圖像序列進行學習,生成新的圖像序列。它與原序列在視覺上十分相似,不但具有很強的真實感,還具有一定的可編輯性。下面首先定義一個動態紋理,然后分別對動態紋理進行學習、識別和合成。
2.2圖像的邊界合成
為了建立α-體集,必須找出不同區域的邊界。在火焰圖像中,不同顏色的區域之間的邊界都是曲線。這里用Alpha估計技術,通過以不同的比例混合兩種顏色產生邊界顏色,而且不需要知道邊界的詳細信息。
在實際圖片中,邊界的顏色往往受多個區域的影響,有多個區域的圖像可以被分解為只有兩個鄰接區域的圖像。因此,這里主要處理有兩個區域的圖像。本文用分割兩個區域的像素鏈形成區域邊界。像素鏈用邊緣監測器發現的邊緣創建,而邊界使用區域分割算法或邊界尋找工具(如智能截取器IntelligentScissors[13])發現。事實上的困難在于紋理可能有噪聲和其他數據源。本文采用如下的方法:
(2)計算Alpha和非混合顏色
兩個信號集X和Y是每個對象區域顏色的離散表達?,F在必須在兩個分布之間建立關系和確定顏色空間的任意一個像素Q,只要將顏色信號轉換為連續的分布,這種關系可以很容易建立。這里使用一個均勻的高斯混合來確保在顏色空間所有的點有一個非空對應和簡化方程。在Q點比較這兩個方程是一個估計Q點Alpha值αQ的方式。當假設Q是X和Y的顏色混合時,Q就不可能是這兩個分布中的任何一個。因為要估計混合量,傳統的決策理論方法是沒有用的。這時要真正地從X分布的顏色穿過邊界變形到Y分布的顏色繪制Q點。這種變形通過在兩個分布之間線性插值實現。這樣估計Alpha就變成一個最大化可能的估計問題,即發現最大化Q點值可能值的密度。
3實驗結果和算法復雜度分析
3.1復雜性分析
對于一個基于粒子的繪制系統而言,其算法的復雜度與粒子的屬性和實現過程有關。在任何系統中,粒子都有以下的屬性:粒子的數量、大小、顏色、亮度、透明度、形狀、運動速度和方向、生存期;它都要經歷粒子狀態初始化、依照運動規則運動和屬性變化三個實現過程。粒子系統的具體實現過程如下:①在燃點處產生初始火焰粒子集;②賦予火焰粒子屬性;③繪制初始火焰;④重新選擇火焰粒子集;⑤粒子場中粒子運動、變換;⑥粒子生存期減1;⑦部分火焰粒子消亡;⑧產生新的火焰粒子;⑨繪制火焰粒子集。其中對于每一幀都要重復執行④~⑨。而在本章提出的α-體建模方法中,第一步是初始化過程,是在程序運行之前就必須準備好的動態紋理,這個過程遠比粒子系統中①~③要簡單得多;其次,在執行過程中對每一幀都要劃分邊界和計算α值并生成α-體,這個過程也遠比粒子系統的④~⑨計算量要小很多,因此該算法的復雜性與基于粒子系統相比要小很多。用粒子系統在SGI圖形工作站生成100fps這樣的火焰序列,而用本文的建模方法在下面普通的試驗環境中也能生成約100fps的序列,性能有明顯改善。
3.2效果圖
試驗環境:PentiumⅢ600MHz的PC機,GeForce2MX顯示卡,256MB內存,編程環境為VC++6.0,運行在WindowsXP下,底層圖形繪制采用三維圖形標準軟件Direct3D,每個項目包含120幅圖像。
在該環境中,用上面的算法對圖1(a)的火焰進行處理。圖2分別為三維模型繞軸旋轉90°的四個不同視角觀察的結果。由圖2結果可以看出,本文方法生成的視圖沒有人工痕跡,幾乎達到了與圖1(a)的真實圖片相媲美的效果。
4結束語
本文以火焰為例,介紹了一種在三維空間重建場景特效的方法。與傳統基于粒子系統的方法相比,該算法復雜度低、真實感強;與動態紋理方法相比,該算法能夠滿足自由變換視點的需要。通過對實時生成的紋理分割,提取了紋理的邊界,并利用其邊界屬性生成幾何體,使得用戶在場景中,能從不同的視角和視點進行觀察。實驗證明這種方法不但滿足了特效在三維空間視點變換的需要,而且克服了傳統建模方法占用存儲空間大和運算復雜的缺點,實現了動態景物的實時繪制,提高了繪制速度。
在本文對虛擬火焰的模擬中,不同層的火焰亮度是用顏色和Alpha值確定的,Alpha值用來確定該層火焰的透明程度。在這里Alpha值的計算只是依據邊界到中心線的距離,而每一層的實際亮度并不是完全按照這種模式分布的,這將可能導致圖形因亮度因素而部分失真。如何準確地再現特效的實際亮度是今后的努力方向。
參考文獻:
[1]LAMORLETTEA,FOSTERN.Structuralmodelingofflamesforaproductionenvironment:proceedingsofthe29thAnnualConferenceonComputerGraphicsandInteractiveTechniques[C].NewYork:ACMPress,2002:729-735.
[2]BEAUDOINP,PAQUETS,POULINP.Realisticandcontrollablefiresimulation:proceedingsofGraphicsInterface[C].Ottawa:[s.n.],2001:159-166.
[3]NGUYENDQ,FEDKIWR,JENSENHW.Physicallybasedmode-lingandanimationoffire[J].ACMTransactionsonGraphics,2002,21(3):721-728.
[4]SCHODLA,SZELISKIR,SALESINDH,etal.Videotexture:proceedingsofACMSIGGRAPHConference[C].NewOrleans:ACMPress,2000:489-498.
[5]FEDKIWR,STAMJ,JENSENHW.Visualsimulationofsmoke:proceedingsofACMSIGGRAPHConference[C].NewYork:ACMPress,2001:15-22.
[6]WIJKJJV.Imagebasedflowvisualization:proceedingsofthe29thAnnualConferenceonComputerGraphicsandInteractiveTechniques[C].NewYork:ACMPress,2002.
[7]周麗琨.虛擬現實系統中不規則形體的幾何表現[D].武漢:武漢理工大學,2003.
[8]彭艷瑩.基于粒子系統的內燃機燃燒可視化研究[D].杭州:浙江大學,2003.
[9]孫麗娟.虛擬戰場環境建模及兵力的運動控制研究[D].哈爾濱:哈爾濱工業大學,2002.
[10]林夕偉,于金輝.基于粒子和紋理繪制的火焰合成[J].計算機應用,2004,24(4):77-79.
[11]HASINOFFSW.3DReconstructionoffirefromimage[D].Toronto:GraduateDepartmentofComputerScience,UniversityofToronto,2002.
[12]SOATTOS,DORETTOG,WUYN.Dynamictextures:proceedingsofIEEEICCV[C].Vancouver:[s.n.],2001:439-446.
如何學習計算機視覺范文6
關鍵詞:視覺導航;移動機器人;圖像處理
中圖分類號:TP242文獻標識碼:A文章編號:1009-3044(2008)09-11705-01
Robot Vision Navigation's Summarize
WU Lin
(Liaoning Finace Vocational College Information Technology Department, Shenyang 110122, China)
Abstract: Navigation's technique is the core of mobile robot. Mobile robot has many navigation methods. This thesis make a analysis and contrast among all kinds of navigation methods, it gives that because of the development of vision theory and method,and compare to laser, radar and ultrasonic, vision navigation has many advantages,so vision navigation are adopted in many fields. Mobile robot processes the picture in the process of navigation, the bad of real-time always is a very tough problem. The key of solving this problem based on designing a kind of fast picture treatment method.
Key words: vision navigation; mobile robot; picture treatment
移動機器人是一種在復雜的環境下工作的具有自規劃、自組織、自適應能力的機器人。移動機器人集人工智能、智能控制、信息處理、圖像處理、模式識別、檢測與轉換等專業技術為一體,跨計算機、自動控制、模式識別、智能控制等多學科,成為當前智能機器人研究的熱點之一。
在移動機器人的運動過程中始終要解決的是自身的導航與定位問題,相關技術研究中,導航技術可以說是其核心技術,也是其實現真正的智能化和完全的自主移動的關鍵技術。也就是DurrantWhyte提出的三個問題:(1)“我現在何處?”;(2)“我要往何處去?”;(3)“要如何到該處去?”[1] 其中問題(1)是移動機器人導航系統中的定位及跟蹤問題,問題(2)、(3)是移動機器人導航系統中路徑規劃問題。導航研究的目標就是沒有人的干預下使機器人有目的地移動并完成特定任務,進行特定操作。機器人通過裝配的信息獲取手段,獲得外部環境信息,實現自我定位,判定自身狀態,規劃并執行下一步的動作。
移動機器人的導航方式分為:基于環境信息的地圖模型匹配導航;基于各種導航信號的路標導航、視覺導航和味覺導航等[2]。
環境地圖模型匹配導航是機器人通過自身的各種傳感器,探測周圍環境,利用感知到的局部環境信息進行局部地圖構造,并與其內部事先存儲的完整地圖進行匹配。如兩模型相互匹配,機器人可確定自身的位置,并根據預先規劃的一條全局路線,采用路徑跟蹤和避障技術,實現導航。它涉及環境地圖模型建造和模型匹配兩大問題。
路標導航是事先將環境中的一些特殊景物作為路標,機器人在知道這些路標在環境中的坐標、形狀等特征的前提下,通過對路標的探測來確定自身的位置。同時將全局路線分解成為路標與路標間的片段,不斷地對路標探測來完成導航。根據路標的不同,可分為人工路標導航和自然路標導航。人工路標導航是機器人通過對人為放置的特殊標志的識別實現導航,雖然比較容易實現,但它人為地改變了機器人工作的環境。自然路標導航不改變工作環境,是機器人通過對工作環境中的自然特征的識別完成導航,但路標探測的穩定性和魯棒性是研究的主要問題[3]。
視覺導航,計算機視覺具有信息量豐富,智能化水平高等優點,近年來廣泛應用于移動機器人的自主導航。視覺導航方式具有信號探測范圍廣,獲取信息完整等優點,是移動機器人導航的一個主要發展方向[4]。目前國內外主要采用在移動機器人上安裝車載攝像機的基于局部視覺的導航方式,如文獻[4]中所提及的:D.L.Boley等研制的移動機器人利用車載攝像機和較少的傳感器通過識別路標進行導航;A.Ohya等利用車載攝像機和超聲波傳感器研究了基于視覺導航系統中的避碰問題等。視覺導航中邊緣銳化、特征提取等圖像處理方法計算量大且實時性較差,解決該問題的關鍵在于設計一種快速的圖像處理方法或采取組合導航方式[4-5]。
味覺導航是通過機器人配備的化學傳感器感知氣味的濃度,根據氣味的濃度和氣流的方向來控制機器人的運動。由于氣味傳感器具有靈敏度高、響應速度快以及魯棒性好等優點,近年來許多研究人員在氣味導航技術上做了許多研究工作。但該項技術能夠真正應用到實際環境中的卻很少,仍處于試驗研究階段。Figaro Engineering Inc.公司研制的氧化錫氣味傳感器,被廣泛用于氣味導航試驗。石英晶體微平衡氣味傳感器、導電聚合物氣味傳感器和一種模仿哺乳動物鼻子功能的電子鼻等用于移動機器人味覺導航的傳感器都處于試驗階段。目前的味覺導航試驗多采用將機器人起始點和目標點之間用特殊的化學藥品,如酒精和樟腦丸等,引導出一條無碰氣味路徑,機器人根據不同的道路跟蹤算法,用氣味傳感器感知氣味的濃淡和氣味源的方向進行機器人導航試驗。味覺導航的研究具有很好的研究價值,該種移動機器人可用來尋找化學藥品泄露源。
由于計算機視覺理論及算法的發展,又由于和激光、雷達和超聲在導航方面相比,視覺導航具有以下幾個優點:首先,即使在丟棄了絕大部分的視覺信息后,所剩下的關于周圍環境的信息仍然比激光雷達和超聲更多更精確;其次,激光雷達和超聲的原理都是通過主動發射脈沖和接受反射脈沖來測距的,因此當多個機器人同時工作時,相互之間可能產生干擾,而視覺由于是被動測量,因此多個機器人相互之間的干擾可以減少到最?。蛔詈?,激光雷達和超聲數據的采樣周期一般比攝像機長,不能及時對高速運動的機器人提供信息并作出規劃,因此視覺傳感器被大量地采用。目前移動機器人的導航大都采用基于視覺或有視覺參與的導航技術。最近二十年來,在未知或部分未知環境中,基于自然路標導航與定位技術的研究;視覺導航中路標的識別以及圖像處理的新型快速算法的研究成為了計算機視覺的主要研究方向。
視覺導航主要完成障礙物和路標的探測及識別。國內外應用最多的是在機器人上安裝車載攝像機的基于局部視覺的導航方式。P.I.Corke等對有車載攝像機的移動機器人視覺閉環系統的研究表明,這種控制方法可以提高路徑跟蹤精度。從視覺圖像中識別道路是影響移動機器人導航性能的一個最重要因素。對于一般的圖像邊沿抽取而言,已有了許多方法,例如,局部數據的梯度法和二階微分法。Trahanias利用視覺探測路標來完成機器人的導航。其中路標不是預先定義的人工路標,而是在學習階段自動提取的自然路標。在視覺導航中邊緣銳化、特征提取等圖像處理方法的計算量大,移動機器人是在運動中對圖像進行處理,實時性差始終是一個非常棘手的問題。解決該問題的關鍵在于設計一種快速圖像處理方法。為了滿足速度的要求,基于統計計算的預值法被應用于機器人的導航,但在實際應用中發現,它抑制噪聲的能力差,特別是預值的選取極大地依賴于環境,要想獲得理想的結果,僅在一幅圖像中的不同區域就要設置不同的預值。近些年,由于人工智能的發展,有很多好的算法被應用到移動機器人的視覺導航中去。比如,根據導航圖像的特點采用邊緣提取結合HOUGH變換的方法和帶濾波窗的區域掃描的方法,經過檢驗,這兩種算法都具有較好的實時性,對于直線形態的各類導航線以及對于已知半徑的弧形導航線具有較高的可靠性,以上算法目前對于分支較多的直線形態的導航線以及未知半徑的弧形導航線的效果不佳,這是今后努力的方向。
Stanley還提出了基于神經網絡的機器人視覺導航技術。該技術中估算逆雅可比矩陣,并將圖像特征的變化與機器人的位置變化對應起來,通過神經網絡訓練來近似特征雅可比矩陣的逆陣。該技術,通過提取幾何特征、平均壓縮、向量量化和主成分提取來簡化圖像處理,實現實時視覺導航。
綜上所述,移動機器人是在運動中對圖像進行處理,實時性差始終是一個非常棘手的問題。解決該問題的關鍵在于設計一種快速圖像處理方法。將室內地面作為機器人視覺導航的路標。依據地面的顏色信息,將地面上沒有障礙物的區域識別并分割出來,機器人在可行走區域內行走,這樣就可以實現機器人的自主導航。利用環境中地面的顏色特征,采用比較簡單的圖像處理算法分割彩色圖像,經實驗證明可提高機器人導航的實時性、準確性和魯棒性。
參考文獻:
[1] 郭戈,胡征峰,董江輝.移動機器人導航與定位技術[J].微計算機信息,2003,19(8):10-11.
[2] 呂永剛,謝存禧.移動機器人的導航與路徑規劃的研究[J].機電工程技術,2004,33(1):19-21.
[3] Kenneth D Harrisa.Absolute localization for a mobile robot using place cells[J].Robotics and Autonomous System,1997,(22):393-406.