模式識別技術范例6篇

前言:中文期刊網精心挑選了模式識別技術范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。

模式識別技術

模式識別技術范文1

[關鍵詞] 模式識別 風險分類 適用性

一、引言

貸款風險分類,就是根據借款人的當前經營情況和違約跡象來判斷其按時還款的可能性并給予風險等級評價,是銀行綜合了借款人財務、非財務因素,對貸款未來安全收回可能性的評價。如何判斷借款人的每個因素對貸款償還的影響程度,以及如何將上述各種因素定性和定量分析歸納匯總,作出全面科學的風險評定是貸款風險分類操作的難點和關鍵。

在現代信用風險度量模型出現以前,測度信貸信用風險的方法主要有:專家制度法、評級法和信用評分法。近年來,一些大的金融機構相繼構建了比較規范的、有重大影響的四大信用風險度量模型:JP 摩根的Credit Metrics 方法;KMV公司的KMV 模型;CSFP(Credit Suisse Financial Products) 的Credit Risk + 方法;麥肯錫公司的信用組合觀點模型(Credit portfolio View)。這四大信用風險度量模型對中國銀行業都有一定的借鑒意義。模型最大的問題是任何一個模型都沒有全面考慮到借款人的道德風險,還有借款人的具體情況,如銀行合同、貸款合同、擔保能力、借款期限等,而且由于經濟制度、金融發展水平等方面的差異,因此,借用西方信用風險模型應慎重,我國應用這些大型量化模型的條件還不成熟。

本文把貸款風險分類看作是一個模式識別問題,在此框架下,就統計模式識別領域中最新使用的神經網絡方法、分類樹法、以及支持向量機三種方法的建模思想、適用性進行比較,并給出有關結論。

二、貸款風險分類是一個模式識別問題

所謂模式識別,就是用計算機的方法來實現人對各種事物或現象的分析、描述、判斷和識別。目前我國實行的貸款風險五級分類法(簡稱風險分類),它是根據貸款對象的第一還款來源與第二還款來源共同特征(財務指標)或屬性(非財務指標)進行識別判斷而進行分類的,其核心在于它以借款人的償還能力作為分類標志。

貸款風險分類的模式識別系統的精度及其正確性,主要取決于(1.3)式中的一些參數的估計的精度。訓練時如果輸入模式樣本的類別信息是已知的,這時可以用“有監督”的模式識別技術,讓識別系統執行一個合適的學習訓練過程,把系統“教”成可使用各種適應修改技術再去識別模式。如果采集到樣本模式是未知類別的,這時可用“無監督的模式識別技術,即必須通過系統的學習過程去得到其所屬的范疇。

三、模式識別技術的建模思路及其適用性分析

目前用于統計模式識別的方法很多,主要有判別分析法、回歸分析法、人工智能(專家系統)、神經網絡、決策樹法、K近鄰法、支持向量機等。本文僅就目前最為流行的人工神經網絡、決策樹法、支持向量機三種非參數模式識別方法建模思路、適用性進行比較分析。

1.神經網絡模型(ANN)

(1)建模思路

人工神經網絡(Artficial Neural Networks ANN )是一種具有模式識別能力,自組織、自適應,自學習特點的計算方法。神經網絡模型建模思路是,首先找出影響分類的一組因素,作為ANN的輸入,然后通過有導師或無導師的訓練擬合形成ANN風險分析模型。對于新的樣本輸入(即一組影響因素值),該模型可產生貸款風險的判別。

(2)適用性分析

神經網絡的適用性首先表現為分類的準確性比較高。特別是在測試數據為非線性關系的情況下,尤其如此;其次是神經網絡有較強的適應訓練樣本變化的能力,當訓練樣本增加新的數據時,能夠記憶原有的知識,根據新增的數據作恰當的調整,使之表示的映射關系能夠更好的刻畫新樣本所含的信息。這一點不僅使得神經網絡具有較強的適應樣本變化的能力,還使它具有動態刻畫映射關系能力,也克服了線性判別分析方法的靜態特點;再次是其具有魯棒性。神經網絡對于樣本的分布、協方差等沒有要求,對樣本中存在的噪音數據、偏差數據不敏感。監管部門在面對眾多監管對象銀行時, 可以根據其報表中的監管指標與監控指標的輸出結果,迅速、準確地判斷商業銀行的經營狀況,就可以輔助以現場檢查的手段,對商業銀行進行適當、適時的干預。

神經網絡方法的主要缺點一是對樣本的依賴性過強,對樣本提出了很高的要求。因為它很少有人的主觀判斷因素的介入;二是解釋功能差。它僅能給出一個判斷結果,而不能告訴你為什么;三是在神經網絡方法中輸入特征變量的確定出關鍵指標問題時,需要依賴于其他的統計分析方法;四是是樣本分成多少個種類,這些問題都是神經網絡方法無法獨自解決的,要依賴于其他方法;五是神經網絡的訓練速度慢且極易收斂于局部極小點,推廣能力差,以及容易出現“過學習”現象。

2.分類樹方法(CART)

(1)建模思路

分類樹方法(CART)是一種由計算機實現,基于統計理論的非參數識別方法。其建模思路是:在整體樣本數據的基礎上,生成一個多層次、多節點的樹,按廣度優先建立直到每個葉節點包含相同的類為止,以充分反映數據間的聯系。然后對其進行刪減,參照一定規則從中進行選擇適當大小的樹,用于對新數據進行分類即建造最大樹,對樹刪減,選擇適當的樹用于新樣本分類。

(2)適用性分析

分類樹方法在銀行貸款風險分類中的適用性首先在于通過借款人經營狀況的變化及其破產的可能性的判斷,來估計其違約的可能性,進而來推測該借款人持有的貸款風險程度。它不但具有哲學上的二分法的優點,而且其分類標準的選擇也包含著經濟理論上的合理性。反映申請者信用關系中各項指標之間的相關性是應用分類樹于信貸信用分類的有利條件,它可以有效地利用定性變量進行分類。

分類樹的缺陷表現在:一是計算量大;二是在一些連續型定量變量的處理上,分類樹就顯得有些力不從心;三是對結點屬性的判定上,往往以葉結點中所含多數樣本的屬性來決定該葉結點的屬性。但如果碰到訓練樣本中某種樣本(譬如好樣本,占大多數)。此時分類的結果很可能是幾乎每個葉結點都是好樣本占多數,或出現一些好壞樣本的個數相當的葉結點。于是就可能出現幾乎所有的葉結點都是好樣本集合,或其中一些結點無法判斷。無論哪種情況出現,都將導致對壞樣本的辨別率降低,進而導致分類樹的效率降低。

3.支持向量機模型(SVM)

(1)建模思路

(2)適用性分析

由于支持向量機出色的學習性能、泛化性能、良好表現和所估計的參數少等特點,能夠較好地解決小樣本、高維數、非線性、局部極小等問題。鑒于支持向量機的諸多優點,國外學者 Van.Gestel(2003)將支持向量機應用到信貸風險分類與評估領域,并與神經網絡及Logistic回歸相比較,得到了較好的結果。同時利用支持向量機,能提高學習機的泛化能力,能成功地解決風險分類、函數逼近和時間序列預測等方面,對構建貸款分類模型也具有重要的實踐意義。

但SVM是解決一個二分類問題,現實中遇到的大都是多分類問題,如支持向量機無法解決信貸風險的五級分類問題。另外,影響支持向量機模型分類能力的參數選擇存在人為確定的主觀性等。

四、結論

從信貸風險管理角度看,信貸風險分類與量化管理是一個必然趨勢。為了提高貸款分類的準確性,必須將上述兩種或兩種以上的方法結合起來使用,取長補短。同時,中國銀行業在運用這些相對復雜的預測技術時,不僅要根據國內的實際情況和銀行業自身發展階段,科學地制定信貸風險管理流程,還要加強人才培養和數據庫建設,盡可能地運用信貸風險管理先進技術將信貸風險損失降到最低限度,實現可持續發展。

參考文獻:

[1]J.P. Morgan.Credit Metrics―Technical Document.1997, 4:2

[2]KMV.Global Correlation Factor Structure. San Francisco:KMV Corporation.1996,8 :16~17

[3]Credit Suisse First Boston. Credit Risk+, A Credit Risk management Framework. Credit Suisse First Boston Internation, 1997

[4]McKinsey and Co, Credit Portfolio View. New York, Mckinsey and Co.1997

[5]曹道勝等:商業銀行信用風險模型的比較及其應用[J].金融研究,2006年第10期

[6]王振民,中國商業銀行貸款風險分析[D].天津大學博士論文,2005年5月,P33

模式識別技術范文2

關鍵詞:生物特征識別;虹膜識別;指紋識別

中圖分類號:TP391文獻標識碼:A文章編號:1009-3044(2010)09-2211-01

ThePotential of the Iris Identification Technology

LIU Jin, LI Dong-xu, FU Xiao

(Department of Computer, Aviation University of Air Force, Changchun 130022, China)

Abstract: Iris identification technique characteristics, and the difference and the development of the fingerprint identification.

Key words: the biometrics; iris identification; fingerprint identification

隨著信息時代的到來和計算機科學技術日新月異的發展,生物識別技術作為模式識別的一個重要分支已經被越來越多的應用到人們的日常工作和生活中,虹膜、指紋、DNA這些人體本身的特點,將逐步取代現有的密碼、鑰匙、成為人們習慣的生活方式,同時,最大限度的保證個人資料的安全,最大限度的防止各種類型的刑事、經濟犯罪活動。

1 生物識別技術的涵義

生物特征識別技術是利用人體生物特征進行身份認證的一種技術手段。從宏觀上說,人體生物特征可以分為兩種方式――生理特征和行為特征。生理特征與生俱來,多為先天性的;行為特征則是習慣使然,多為后天性的。我們將生理和行為特征統稱為生物特征。

生物識別系統首先通過對人體生物特征進行取樣,提取出代表其特征的生物信息,并通過特定的技術手段轉化成數字信息,存儲在數據庫中,形成特征模板。人們通過識別系統進行身份認證時,識別系統將采集到的特征信息與數據庫中的特征模板進行比對,從而對此人的認證請求做出接受與拒絕的判斷。目前用于身份識別系統的生物特征很多,包括虹膜識別、指紋識別、人臉識別等等。

虹膜識別技術,由于其在采集、精確度等方面獨特的優勢,必然會成為未來社會的主流生物認證技術。

2 虹膜的結構和特點

眼睛的外觀圖由鞏膜、虹膜、瞳孔三部分構成,見圖1。鞏膜即眼球的白色部分,約占總面積的30%;眼睛中心為瞳孔部分,約占5%;虹膜位于鞏膜和瞳孔之間,包含了最豐富的紋理信息,占據65%。外觀上看,由許多腺窩、皺褶、色素斑等構成,是人體中最獨特的結構之一。虹膜的形成由遺傳基因決定,人體基因表達決定了虹膜的形態、生理、顏色和總的外觀。虹膜識別技術與相應的算法結合后,可以到達十分優異的準確度,即使全人類的虹膜信息都錄入到一個數據中,出現認假和拒假的可能性也相當小,兩個不同的虹膜信息有75%匹配信息的可能性是1:1 000 000,兩個不同的虹膜產生相同Iris Code(虹膜代碼)的可能性是1:1052。比其他任何生物認證技術的精確度高幾個到幾十個數量級。

3 虹膜識別技術的發展

和常用的指紋識別相比,虹膜識別技術操作更簡便,檢驗的精確度更高。除了白內障等原因外,即使是接受了角膜移植手術,虹膜也不會改變。虹膜識別技術的這些優點,使其具備了廣泛的應用前景。從普通家庭門衛、單位考勤到銀行保險柜、金融交易確認,應用后都可有效簡化通行驗證手續、確保安全。如果手機加載“虹膜識別”,即使丟失也不用擔心信息泄露。未來,虹膜識別系統必將成為各大航空公司、各大金融機構以及其他保密機構(如航天局)等國家重點安全機構的熱點關注對象,在中國掀起應用的。

參考文獻:

[1] J.Daugman, High Confidence Visual Recognition of Persons by A Test of Statistical Independence, IEEE Trans. Pattern Anal. Machine Intelligence.1993,15(11):1148-1161.

[2] J.Daugman, Biometric Personal Identification System Based on Iris Analysis, U.S. patent 5291560. 1994(3):265-302.

模式識別技術范文3

關鍵詞:虹膜識別;噪聲;收斂算法;生物識別;效率

中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2015)22-0117-02

Abstract: This paper introduces the history, development and present situation of iris recognition technology, and expounds the innovation points and work progress of the latest iris recognition technology. Finally, the conclusion is drawn that the appropriate method can find more accurate iris inner and outer edge, which can improve the efficiency of iris recognition.

Key words: iris recognition; noise; convergence algorithm; biometric; efficiency

生物識別技術是一種根據人的身體特征來進行身份識別的技術。一般來說,人體特征包括掌紋、聲音、指紋、人臉、虹膜等,且這些特征具有唯一性、不可復制等特點。生物識別的過程就是指將所采集到的人體特征轉變為數字信號,并利用有效的匹配機制來實現個人身份的識別。而且,生物識別技術是通過人體的固有特征來進行驗證,不需要去死記硬背一些諸如賬戶、密碼等難記的數字信息。因此,該技術為個人、企業及政府等在網上交易、隱私保護、反恐等諸多方面提供了方便和安全保障。在許多國家,生物識別技術已經處于安全議程討論的最前沿[1],因為該技術是一種高度準確的身份確認手段,這為許多安全性和身份管理問題提供了一個非常有效的解決方案。近十年,生物識別行業的市場份額在不斷增加,主要原因包括:

1)技術上的進步;

2)成本的顯著降低;

3)針對身份識別的立法要求的推動作用。

作為一種可行的替代方案,生物識別技術提升了地方、區域和國家的安全檢查站的安全級別,它必將在未來的身份識別領域發揮越來越重要的作用。

在人體的許多生物特征中,虹膜是最持久、最具抗干擾性的特征之一。作為身份識別的特征,虹膜具有很多優點,如唯一性、穩定性、非侵犯性等。與人臉、聲音等其他身份識別方法相比,虹膜識別具有更低的錯誤率[2]。虹膜識別技術被普遍認為是二十一世紀最具有發展潛力的生物識別技術,未來的安防、國防、電子商務等多種領域的應用,將會更多地依賴虹膜識別技術。這種趨勢已經在世界各地的許多應用中逐漸顯現出來,市場應用前景非常廣闊。

1 虹膜分割的研究現狀

虹膜識別技術根據對目標人物的約束程度可分為兩種:有條件虹膜識別[3,4]和隱蔽式虹膜生物識別(Covert iris biometric recognition, CIBR)[5]。前者需要目標人物的積極配合,如目標人物需站在成像設備前,并保持大約三秒鐘的注視時間。雖然通過這種方式獲得的圖像質量較高,但它卻限制了虹膜識別技術的應用范圍(如犯罪、恐怖活動等)。后者不能期望目標人物的合作,雖然以該方式獲取的圖像質量不高,但它卻具有很強的應用性。因此,研究者已經把更多的興趣和注意力放到了CIBR上。因為CIBR是在不可控的數據獲取環境中進行的,所以它采集的虹膜圖像具有以下的部分特征:

1)遠距離拍攝、目標人物運動都會引起圖像模糊。

2)當目標人物的頭或身體沒有位于垂直的位置時,會得到旋轉的虹膜圖像數據。

3)眼瞼、眼睫毛、陰影的遮擋。

4)帶有鏡面反射的虹膜。

5)帶有漫反射的虹膜。

6)目標人物戴眼鏡時,眼鏡經常會遮擋住人眼的一部分。

7)目標人物戴隱形眼鏡時,隱形眼鏡會遮擋虹膜紋理,并使之變形。

8)采集的圖像只含有部分的虹膜信息或不含有虹膜信息。

與有條件虹膜識別相比,CIBR中的干擾因素更多,因此,適用于有條件虹膜識別的方法(虹膜分割、特征提取和匹配)不一定適用于CIBR。為了克服這些干擾因素的影響,研究者已經加大了對CIBR的研究力度。

虹膜分割是虹膜識別的一個關鍵環節,定位質量的高低將直接影響后續的特征提取和匹配。目前,研究者們已經針對CIBR提出了一些高性能的虹膜分割方法。這些方法將在以下作詳細敘述。

文獻[6]提出了一種有效的虹膜分割算法,該算法主要包括以下幾個步驟:圖像中反射的檢測與消除、基于聚類和語義細化的虹膜位置粗定位、基于微積分星座法的虹膜邊界精定位、眼瞼定位、眼睫毛和陰影檢測。其中,微積分星座法是對微積分算子[7,8]的一個改進,它首次引入了微積分環的概念,并選擇三個不同的微積分環來構建微積分星座,該結構既增強了算法收斂到全局最優點的能力,又極大地提高了計算速度。另外,文獻[6]進行眼瞼定位、眼睫毛和陰影檢測的目的是最大限度地找到虹膜的有用信息,減少噪聲對特征提取和匹配的干擾。文獻[9]提出了一種可靠的虹膜分割算法,該算法主要包括反射定位、反射填充、虹膜邊界定位和眼瞼邊界定位等步驟。對于反射定位,首先采取了門限操作來獲得反射區域,然后,再結合形態學的膨脹和閉包運算來增強該區域。在此基礎上,通過四鄰域插值法即可實現反射填充。在虹膜外邊界定位中,文獻[4]輕微地增加了微積分算子[7]的搜索范圍,并將其應用于灰度圖像以獲得虹膜外邊界。前者可以更充分、更準確地利用外邊緣信息,后者進一步縮小了內邊界定位的范圍。與外邊界定位不同,內邊界定位是在紅色分量圖像中進行,因為紅色分量圖像特別有助于定位虹膜內邊界[10]。最后,“二準則方法”和“三準則方法”被分別用于定位下眼瞼和上眼瞼建模。

文獻[11]提出了一種基于知識的虹膜分割算法,該算法主要包括如下的步驟:圖像預處理、瞳孔邊界定位、虹膜邊界定位、瞳孔和虹膜的組合、眼瞼的檢測以及反射的過濾。在實際的虹膜分割中,該基于知識的方法在兩方面的改進是非常節約成本的。第一,對眼瞼檢測步驟的改進,主要是結合皮膚區域的檢測、虹膜邊界的檢測來改進和提煉目前的方法。第二,減少算法的運行時間,主要對代碼的全局性修復和對算法解決方案的優化。

文獻[12]提出了一種抗干擾性強的、準確的虹膜分割方法,其主要貢獻如下:第一,提出了一種邊緣定位算法,該算法結合了基于灰度共生直方圖的聚類法和一種改進的Hough變換。第二,引入了一種上眼瞼檢測方法,該方法結合了拋物線型微積分算子和一種隨機采樣一致性技術。第三,陳述了一種使用各種技術和不同圖像信息的分割方法。

文獻[13]提出了一種新的虹膜分割方法。文中主要有三個方面不同于先前的工作:第一,使用了一種AdaBoost眼睛檢測法[14]以補償由兩個圓形邊緣檢測操作所引起的誤差;第二,使用了一種顏色分割技術來檢測由可見光的重影效應所引起的干擾;第三,根據角膜反射來判斷一個圖像是否是“閉眼”圖像。

2 結束語

本文主要闡述了虹膜識別技術的相關內容,對不同的虹膜識別技術的優劣進行了分析。綜述表明:采取適當的方法會在較短時間內找到較為準確的虹膜內、外邊緣,這對提高虹膜識別的效率有較為明顯的影響。在此基礎上,將來的工作會重點研究虹膜識別的另外兩個重要環節,它們分別是特征提取和模式匹配。這為進一步提高CIBR的精度和速度打下了堅實的基礎。

參考文獻:

[1] Al-Raisi A N, Al-Khouri A M. Iris recognition and the challenge of homeland and border control security in UAE[J]. Telematics and Informatics, 2008, 25(2): 117-132.

[2] Zhu Y, Tan T N, Wang Y H. Biometric personal identification based on iris patterns[C]. 15th International Conference on Pattern Recognition, 2000, vol. 2, pp. 801-804,

[3] Phillips P J, Scruggs T, O’Toole A, Flynn P J, Bowyer K W, Schott C, Sharpe M. FRVT 2006 and ICE 2006 large-scale experimental results[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(5): 831-846.

[4] Proenc H, Alexandre L A. NICE.I: Noisy iris challenge evaluation - Part I[C]. First IEEE International Conference on Biometrics: Theory, Applications, and Systems, 2007: 1-4.

[5] Proenca H, Alexandre L A. Toward covert iris biometric recognition: experimental results from the NICE contests[J]. IEEE Transactions on Information Forensics and Security, 2012, 7(2): 798-808.

[6] Tan T, He Z F, Sun Z N. Efficient and robust segmentation of noisy iris images for non-cooperative iris recognition[J]. Image Vision Computing, 2010, 28(2): 223-230.

[7] Daugman J. High confidence visual recognition of persons by a test of statistical independence[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1993, 15(11): 1148-1161.

[8] Daugman J. How iris recognition works[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2004, 14(1): 21-30.

[9] Sankowski W, Grabowski K, Napieralska M, Zubert M, Napieralski A. Reliable algorithm for iris segmentation in eye image[J]. Image Vision Computing, 2010, 28(2): 231-237.

[10] Sankowski W, Grabowski K, Zubert M, Napieralska M. Iris finder-program for reliable iris localization in images taken under visible light[C]. XI Conference on Medical Informatics & Technologies, Poland, 2006.

[11] Almeida P. A knowledge-based approach to the iris segmentation problem[J]. Image Vision Computing, 2010, 28(2): 238-245.

[12] Li P H, Liu X M, Xiao L J, Song Q. Robust and accurate iris segmentation in very noisy iris images[J]. Image Vision Computing, 2010, 28(2): 246-253.

模式識別技術范文4

(1.中北大學機械與動力工程學院,山西 太原 030051;2.晉西集團技術中心,山西 太原 030051)

【摘 要】本文分別闡述了獨立分量分析和基于ICA的工作模態分析原理,發現了ICA分離模型與結構振動模態分析模型的一致性。應用ICA算法和比利時LMS公司的OMA分析軟件分別對齒輪箱正常和斷齒工況進行模態參數識別,對比發現,ICA算法與目前最常用的Op.PolyMAX算法相比抗噪性強,識別簡便精準, 為工作模態參數識別提供新的識別依據。

關鍵詞 ICA;工作模態分析;模態參數識別;齒輪箱

Operational Modal Parameter Identification Based on ICA

ZHANG Rui1 HUANG Jin-ying1 LANG Zhong-bao2

(1.School of Mechanical and Power Engineering of the North University of China, Taiyuan Shanxi 030051, China;

2.Jinxi Industries Group Technology Center, Taiyuan Shanxi 030051, China)

【Abstract】The paper expounds the principle of independent component analysis and the operational modal analysis based on the principle of ICA. The analysis demonstrates the consistency between ICA separation model and structural vibration modal analysis model. The ICA algorithm and the software OMA developed by Belgian LMS are applied to identify the condition of gear box and broken tooth through modal parameters respectively. This paper finds that the algorithm of ICA, comparing with Op.PolyMAX which is the most commonly used, has strong anti-noise performance. Besides, it is easy to operate and the identification is accurate, this kind of algorithm provides a new basis of work modal parameters identification.

【Key words】ICA; Operational modal analysis; Modal parameter identification; Gearbox

0 概述

模態參數識別是系統識別的一個大類。系統的模態參數包括模態頻率、模態阻尼比和模態振型等參數。準確的識別和獲得模態參數在結構損傷的精確識別和健康監測中具有重要的意義[1]。

獨立分量分析是20世紀末發展起來的一項基于輸出的信號處理方法[2]。它可以不受信號間頻帶混淆和外界噪聲的干擾[3],從復雜的由若干信源線性組合成的觀察信號中,將這些獨立成分分離開來。

1 獨立分量分析原理

ICA可簡單描述為:假設有m個傳感器測得m個觀測信號xi(i=1,2,…,m),每個觀測信號是n個獨立源信號sj(j=1,2,…,n)的線性混合,

X=A·S(1)

其中,X=[x1,x2,…,xm]T和S=[s1,s2,…,sm]T是混合信號矢量和源信號矢量,A是n×m的混合矩陣。上式描述了觀測信號是如何由獨立分量sj的混合過程得到的。A為未知的混合矩陣,因此ICA的問題就是要在僅知道觀測矢量的xi(1,2,3,…,m)的情況下,估計出混合矩陣A和獨立分量sj。由于混合矩陣A未知,所以無法從觀測信號直接得到各獨立分量,即要找到一個分離矩陣W,通過一個線性變換Y=WX,使得Y是源信號的最優估計。如果矩陣W能估計出來,對其求逆就得到了矩陣A。

由于盲源分離僅依靠觀測信號來估計源信號及混合矩陣,在沒有任何先驗知識的情況下,盲源分離問題通常是無解的。為了ICA模型能被估計,通常需滿足以下假設:

(1)各源信號為均值為零、實隨機變量,各源信號之間相互統計獨立。

(2)源信號個數小于或等于觀測信號個數。

(3)混合矩陣A列滿秩,即A-1存在。

(4)源信號的各分量中最多只允許一個具有高斯分布。[4]

通過上述對ICA原理與算法的分析發現,ICA的本質是將混合信號中是獨立分量分離開來。為了定量地衡量ICA分離分量的獨立性引入IPI值[5],

Ymax和Ym max分別是ICA分離信號功率譜中的最大峰值和次大峰值。IPI的變化范圍是0~1之間,其大小揭示了ICA分離分量的獨立性。當IPI值越接近于1時,表明ICA分離信號的獨立性越好;反之,當IPI值越接近于0時,表明ICA分離信號的獨立性越差。

2 齒輪箱實驗

本次實驗在實驗室的齒輪箱故障診斷實驗臺上對某二級齒輪箱進行布點測試,并且選用LMS公司的LMS Test.Lab測試系統對齒輪箱的振動信號進行采集和簡單后處理。實驗設備包括三向加速度傳感器及LMS信號采集分析儀等。本次實驗選擇在齒輪箱的敏感振動部位布設8個傳感器,分別布置在靠近輸入軸一側的軸承座處的箱體上,測試方向為垂直向上。傳感器在箱體表面的布測編號按從左到右從上到下的順序。該齒輪箱為二級傳動裝置,實驗設定采樣頻率為8192Hz,輸入軸的轉速為1200r/min,在該轉速下兩對齒輪的嚙合頻率分別為600Hz和157Hz。

用LMS Test.Lab軟件對齒輪箱實驗數據進行分析,計算各個測點之間的互功率譜函數,并對所有互功率譜函數進行集總平均,再進行曲線擬合,得到SUM互功率譜函數,用Op.PolyMAX法分析SUM互功率譜函數得到穩態極點圖和模態參數。通過對齒輪箱敏感測點和振動響應較大測點的優化分析后,選取測點5作為參考點。齒輪箱正常工況與故障工況下模態參量如表1所示。

對正常工況和故障工況采集到的信號分別運用FASTICA算法進行處理,同樣選擇測點5作為參考點。由于篇幅問題,此處只選取了部分經FASTICA分離前后的功率譜密度曲線,如圖1所示。

圖1 部分經FASTICA分離前后的功率譜密度曲線圖

測試曲線表明3個振動加速度測試信號的功率譜密度曲線基本相同,是由多種源信號的混合造成的。實際上齒輪箱各測點的振動信號主要體現的是它的固有特征,故障特征信號非常微弱,幾乎淹沒在結構的特征信號中。經ICA分離的源信號的功率譜密度曲線出現了明顯的不同,雖然頻率成分上與源信號出現了一定的相似性。

表1 Op.PolyMAX法與ICA法識別模態參量結果對比

Op.PolyMAX法與ICA法識別模態頻率對比如表(1)所示,“—”為未識別出結果,由表(1)可知,與Op.PolyMAX法識別的模態頻率相對比,ICA方法同樣識別出了故障頻率,而且方法簡便,特別是引入IPI評價準則,簡化了MAC驗證的繁瑣計算,有效地剔除了虛假模態的影響,為提高模態參數的可信度提供了有力依據。

3 結論

通過分析ICA原理與工作模態分析原理的一致性,揭示了將ICA技術應用于工作模態分析中的可行性,并通過齒輪箱實驗驗證了ICA方法識別工作模態參數是可行的,而且方法簡便,為工作模態參數識別提供新的識別依據。

參考文獻

[1]傅志方,華宏星.模態分析理論與應用[M].上海:上海交通大學出版社,2002: 25-26.

[2]梁君.趙登峰. 工作模態分析理論研究現狀與發展[J].電子機械工程,2006,22(6):7-32.

[3]張睿,鄭文帥,黃彬城,等.基于FASTICA與PNN的齒輪箱故障診斷研究[J].煤礦機械,2013,349(6):278-280.

[4]楊福生,洪波.獨立分量分析的原理與應用[M].北京:清華大學出版社,2006:152-164.

模式識別技術范文5

關鍵詞:顫振;標準kε模型;sst kω模型;大跨度橋梁;cfd

中圖分類號:tu311.3 文獻標識碼:a

comparative study of two turbulence models based

on the identification of flutter derivatives of bridges

zhu zhiwen, xiachang

(research center of wind engineering, hunan univ, changsha, hunan 410082, china)

abstract:

the characteristics and computational requirements of both the standardkεturbulence model and the sstkεturbulence modelwere presented. the two models were applied to the identification of flutter derivatives of a real bridge deck. it has been found that, based on suitable computational domain and grids arrangement, these models can identify most flutter derivatives of bridge decks with reasonable agreement. the difference between specific flutter derivatives indicates that the sstkεturbulence model is superior to the standardkεmodel on flow field prediction around bridge decks, and is more suitable to be employed to identify flutter derivatives of bridges.

key words: flutter;standardkεmodel; sstkεmodel; longspan bridges;cfd

風洞試驗是研究大跨度橋梁顫振穩定性的主要手段.風洞試驗簡單直觀,但風洞試驗涉及模型制作、復雜的儀器設備,并且其試驗周期長,費用高,紊流風場的有效模擬比較困難.隨著計算機技術的快速發展,采用數值計算的方法來識別顫振導數成為可能,larsen的離散渦法[1],zhu等開發的有限體積法[2],曹豐產等開發的有限元方法[3],都取得了重要的成果.其中部分方法還是在均勻流場中開展的,并沒有實現對湍流的模擬,雖然計算工作量減小,但網格等可能并沒有達到要求.大型cfd商業軟件fluent和cfx等以其通用性和便利的后處理功能受到數值風洞研究者的肯定,同時提供了多種湍流模型,因此它們在結構風工程領域的研究中越來越受到重視.

標準kε湍流模型是由launder和spalding[4]于1972年首先提出的,該湍流模型屬于高re數模型,在近壁區并不直接求解,而是通過壁面函數將近壁區的變量與湍流核心區變量聯系起來求解,因此存在固有近邊界模擬的缺陷,同時在此模型中假設湍流黏性系數μt是相同的,而在流線彎曲和應變率大的情況下,湍流是各向異性的,因此,此模型用于強旋流、彎曲壁面流動或彎曲流線流動時,會產生一定的失真[5].menter在1993年對wilcox提出的標準兩方程kω湍流模型進行修正后提出分區剪應力輸送(shear stress transport)模型[6],即sst湍流模型.該模型實際上是從邊界層內部的標準kω模型逐漸轉變到邊界層外部的高re數的標準kε模型,在近壁區,它不再引入如壁面函數這樣的經驗公式,而是采用標準kω模型直接求解,能有效地使模型流線分離;在湍流核心區采用標準kε模型計算,同時,對湍流黏性系數μt進行修正,這樣既提高了數值模擬的精度,又有效減小了計算工作量.

過去由于受到計算條件的限制,標準kε湍流模型得到廣泛應用,同時人們根據需要提出了多種相關的修正模型,有力地推動了數值風洞的發展.近幾年來,隨著計算速度的大幅提高,研究者們才開始重視sst模型的使用,基于此模型利用數值計算的方法,成功地計算了橋梁斷面的三分力系數,數值計算值與試驗值吻合較好,體現了sst湍流模型的計算優勢.采用數值方法識別顫振導數時,研究者[7]常用標準kε湍流模型,采用sst湍流模型的相關報道卻很少見.

采用數值模擬橋梁斷面強迫振動,需要采用動網格技術.研究者[7]提出采用斷面外包矩形剛性網格的方法,以此提高數值模擬精度.但在矩形直角周圍的動網格質量卻不理想(疏密不均),由此可能引起在氣動力時程曲線中,出現大量“毛刺”.本文采用外包橢圓形剛性網格的形式,既能保證剛性網格區的質量,又能兼顧動網格的質量.

本文cfd計算基于大型商業軟件fluent平臺開展,湍流模型分別采用fluent提供的基于雷諾平均(rans)的標準kε模型和sst模型,分析兩種湍流模型的使用條件,嘗試采用sst湍流模型識別橋梁斷面顫振導數,同時比較兩湍流模型在識別顫振導數上的計算精度.

1 控制方程及湍流模型分析

基本控制方程為連續方程與雷諾平均ns方程(rans):

ρuixi=0,(1a)

ρuit+ρxjuiuj=-pxi+

xjμuixj-ρu'iu'j.(1b)

式中:ρ,μ分別表示流體的密度和動力粘度;ui,uj代表某個方向上的平均流速,u'i為速度分量的脈動量,對于二維問題,i與j的取值范圍為1,2;-ρu'iu'j項定義為reynold應力[8],這屬于新的未知量,為了使方程組可以封閉,故引入湍流模型(雷諾平均ns方程),以便求解.

標準kε模型是高re數的湍流模型,它只能求解湍流核心區的流動,直接來求解橋梁斷面近壁區的流動是不正確的.因此,使用此湍流模型時需要引入壁面函數,對湍流核心區的流動使用kε模型求解,對近壁區不進行求解,而是直接采用一組經驗公式,將近壁區的變量與湍流核心區的求解變量聯系起來求解.采用標準kε模型時,只要把第一層網格節點布置在湍流充分發展的區域就可以了,并不需要在橋梁斷面近壁區加密網格,因此減少了網格數量,節省了數值計算的時間.當計算機計算速度有限時,此模型顯示出明顯的優勢.為了合理地使用壁面函數,需要對斷面的yplus值進行控制,一般要求滿足yplus≥11.63[5].

sst湍流模型是在kω模型基礎上發展而來的,且融合了kε模型的優點.kω湍流模型的優勢是在低re數下的近壁計算,kε模型適合湍流核心區的計算.sst模型克服了標準kω湍流模型對自由流參數變化比較敏感的缺點,在近壁區采用kω湍流模型,在遠離壁面的流場中采用kε湍流模型.這樣充分利用了kε湍流模型對逆壓梯度流動具有較高的模擬精度和kε湍流模型對湍流自由流參數不敏感的優點.采用sst模型時,需要對近壁區進行數值計算,而不是采用類似的壁面函數,因此需要加密近壁區的網格,同時要合理控制第一層網格高度,大體上使得yplus≤6[8].

2氣動自激力描述

氣動自激力的scanlan表達式為:

l=12ρu2(2b)kh*1u+kh*2bu+

k2h*3α+k2h*4hb,(2a)

m=12ρu2(2b2)ka*1u+ka*2bu+

k2a*3α+k2a*4hb.(2b)

式中:h(t),α(t)分別為豎彎與扭轉位移;κ=ωb/u為無量綱頻率;(t),(t)分別為豎彎速度與扭轉速度;h*i和a*i(i=1,2,3,4)即為橋梁斷面顫振導數,是橋梁斷面外形和折算風速ur的函數(ur=u/fb).

本文通過數值模擬的方法分別提取每個折算風速下的氣動自激力,然后采用最小二乘法識別相應折算風速下的8個顫振導數.

3 算 例

3.1 研究對象及計算域網格劃分

本文選取丹麥大帶東橋為研究對象,該橋為主跨1 624 m的三跨連續鋼箱梁懸索橋,其主梁是上下游側帶風嘴的扁平箱梁斷面(如圖1所示).箱梁截面全寬b=31 m,高寬比為7.05∶1.cfd計算的模型采用與風洞試驗相同的幾何縮尺比1∶80,數值模擬時不考慮欄桿和防撞墻等附屬物.計算域采用二維圓形區域,左側半圓弧為來流進口,到模型中心的距離為30b,右側半圓弧為來流出口,到模型中心的距離為30b. 

圖1 大帶東橋主梁斷面 (單位:m)

fig. 1girder section of the great belt bridge(unit:m)

由于cfd模擬時剛性橋梁斷面在每一時間步上運動,因而在每一時間步上需要重新對計算域網格進行劃分.為確保橋梁最大運動位移處有較好的網格質量,不至出現畸變網格甚至負體積網格,本文將計算域進行分區劃分,分成3個大小近似合理的區,如圖2所示,并采用不同的網格進行剖分.圍繞橋梁的稱為剛性網格區.橋梁斷面運動時,該區域網格與橋梁斷面剛性固定,并在每一時間步上與橋梁斷面同步運動.該區域外邊界為橢圓,通過對該橢圓適當分段,便于對該域進行四邊形結構網格劃分,以便能獲得較好的正交網格.計算域絕大部分區域稱靜止網格區,該區域外邊界是計算域外邊界,內邊界為離開剛性網格區外橢圓一定距離,且包圍剛性網格區的圓形.靜止網格區采用四邊形單元剖分,從內到外采用合適的網格放大比例.靜止網格區和剛性網格區在整個cfd模擬過程中一直使用計算開始時的網格系統,不再重新劃分網格.在靜止網格區和剛性網格區之間為動網格區,動網格區采用三角形單元剖分.在每一時間步上,該區域根據橋梁斷面的運動位置并由設定的網格系統質量要求重新進行網格劃分.緊靠橋梁斷面的區域流場變量變化劇烈,特別是斷面迎風側和斷面法向,因此網格劃分需要能適應流場變量的變化程度,并沿各個方向采用適度的網格放大率,實現與動網格區域網格的平順過渡,如圖3所示.

值得注意的是,為了分別滿足本文所采用兩湍流模型的使用要求,需要劃分兩套網格,如圖3所示.這兩套網格計算域劃分形式完全一樣,只有剛性網格區的第一層網格高度和網格數量不一樣.因為需要通過控制第一層網格的高度來調節斷面的yplus值,本文中圖3(a)第一層網格高度取為2 mm(約為0.005b),而圖3(b)第一層網格高度取為0.25 mm(約為0.000 6b);兩套網格的網格數量分布見表1.兩套網格在數量上比較,只有剛性網格區的網格數量不同,這是由于使用sst模型時需要在近壁區加密網格.兩套網格中,網格數量都集中在動網格區,這是因為經過反復試算表明:適當增加動網格區的網格數量,可以有效消除氣動力系數時程曲線中的“毛刺”.

計算區域的網格劃分在gambit中實現,然后分別導入到fluent中進行數值計算.根據上面對兩湍流模型使用要求的分析,分別控制yplus值.由圖4可知,斷面yplus值符合兩湍流模型的使用要求(見第1部分分析).

3.2計算條件

3.2.1 橋梁斷面運動模式

采用單自由度單頻等幅正弦位移激勵橋梁斷面運動.對純豎彎運動,有扭轉自由度α(t)=0,橋梁斷面豎彎運動位移是:

h(t)=h0sin (2πfht). (3a)

對于純扭轉運動,豎彎運動位移h(t)=0,橋梁斷面扭轉運動位移是:

α(t)=α0sin (2πfαt). (3b)

式中:fh,fα分別表示豎彎運動頻率和扭轉運動頻率; h0,α0分別表示豎彎運動和扭轉運動幅值,本文統一h0和α0的取值,h0取為0.025b, α0取為3°,小幅振動以滿足線性小擾動假設.

3.2.2 邊界條件和其他相關參數

計算域左側進口為模擬大氣邊界層速度和紊流度的速度入口,紊流度為5%;計算域右側為出流邊界條件,對應沿出口邊界法向速度梯度為零.識別不同折算風速下的顫振導數,本文通過改變強迫振動頻率fh和fα來實現無量風速vr=u/fb的改變,這樣保證了不同折算風速下的re數相同,采用的非穩態計算時間步長為0.005 s.

本文采用了fluent軟件中的動網格技術,主要參數設置有:采用smoothing和remeshing兩種動網格更新方法;網格光滑更新迭代次數設為200,彈性常數因子和邊界節點松弛都設為0.6;局部網格重劃分中網格最大畸變控制為0.4,網格尺寸重劃分迭代次數設為100.

4速度場比較

為了更直觀地說明兩湍流模型的計算特點和比較兩湍流模型的計算精度,本文給出橋梁斷面近壁區在nt時刻處的速度矢量圖,t為模型強迫振動周期,nt時刻表示模型回到平衡位置的時刻.在模型強迫振動過程中,沒有看到明顯的漩渦脫落;同時對氣動升力進行頻譜分析,可以看到在主頻率中,只有模型進行周期運動的頻率.

如圖5(b)所示,使用sst湍流模型時,在橋梁斷面上下緣流線分離處成功地捕捉了渦,且在近壁區處,速度大小沿斷面法線方向呈現梯度變化,圖5(a)卻無法看到這些現象.這可以解釋為:標準kε模型在近壁區采用了壁面函數,在模擬近壁區繞流、流線分離和渦的形成時,出現了一定程度的失真.sst湍流模型在計算近壁區流動時,采用了標準kω模型,由于它屬于一種低re模型,因此有效地提高了近壁區的計算精度.可見,在模擬橋梁斷面繞流和流線分離時,sst湍流模型的計算優勢明顯.

5 氣動導數識別結果

本文采用最小二乘法識別了基于兩湍流模型下不同折算風速的顫振導數,并將poulsen[9]的試驗值同時列入以作參考,如圖6和圖7所示.由于該試驗值是在均勻流中通過橋梁模型自由振動實現識別獲得,而本文則考慮了紊流場,因而與本文結果沒有嚴格數量上的可比性,但可作為定性參考.采用數值模擬的識別結果與試驗值趨勢大體一致(h*2除外),氣動導數h*1,h*3, a*1,a*2和a*3的數值模擬值與試驗值相差不大,符合實際工程要求,因此,基于cfd商業軟件fluent,采用標準kε湍流模型和sst湍流模型來識別大帶東橋的氣動導數,都能取得較好的效果;本文采用sst湍流模型成功地預測了h*2和h*4曲線的趨勢,相關文獻中對這些顫振導數的識別卻不理想,因此相比而言,sst湍流模型的數值模擬精度優于標準kε湍流模型.

6 結 論

本文針對基于標準kε湍流模型和sst湍流模

型的大跨橋梁顫振導數數值識別及比較研究,得到下述結論:

1)本文提出的計算域分區網格劃分方法,以及為保證內部剛性網格區網格正交性的橢圓外形邊界,提供了橋梁斷面繞流近流場模擬的較好計算網格,為標準kε湍流模型和sst湍流模型較準確地識別橋梁斷面的大部分顫振導數提供了保障.

2)雖然標準kε湍流模型和sst湍流模型均能較準確地識別橋梁斷面的大部分顫振導數,但在個別顫振導數識別上,標準kε湍流模型無法給出趨勢性的結果,表明sst湍流模型比標準kε湍流模型具有明顯的優勢.

3) 不同的湍流模型有不同yplus要求,網格尺度和布置必須滿足各個湍流模型的相應要求.

4) 本文考慮了紊流場對顫振導數的影響,大部分導數數值模擬結果略大于試驗值,但紊流場中的各個參數(包括紊流強度、積分尺度等)對各個顫振導數的具體影響,還必須結合相關的風洞試驗和數值模擬進行精細化研究. 整理

參考文獻

[1] larsena, walther j h. aeroelastic analysis of bridge girder sections based on discrete vortex simulations[j]. journal of wind engineering and industrial aerodynamics, 1997(67/68): 253-265.

[2] zhu zhiwen, gu ming, chen zhengqing. wind tunnel and cfd study on identification of flutter derivatives of a longspan selfanchored suspension bridge[j]. computeraided civil and infrastructure engineering, 2007,22:541-554.

[3] 曹豐產, 項海帆, 陳艾榮. 橋梁斷面顫振導數和顫振臨界風速的數值計算[j]. 空氣動力學學報,2000,18(1): 26-33.

cao fengchan, xiang haifan, chen airong. numerical assessment of aerodynamic derivatives and critical wind speed of flutter of bridge decks[j]. acta aerodynamic sinica, 2000, 18(1) :26-33.(in chinese)

[4] launderb e, spalding d b. lectures in mathematical models of turbulence[m]. london: academic press, 1972.

[5] versteeg h k, malalasekeraw. an introduction to computational fluid dynamics:the finite volume method[m]. new york: wiley, 1995.

[6] menter f r.twoequation eddyviscosity turbulence models for engineering applications[r].new york:aiaa, 1993.

[7] huang lin, liao haili. numerical simulation for aerodynamic derivatives of bridge deck [j]. journal of wind engineering and industrial aerodynamics, 2009, 17(4):719-729.

模式識別技術范文6

關鍵詞:流量識別;機器學習;早期特征;柔性神經樹

中圖分類號:TP391.41 文獻標識號:A 文章編號:2095-2163(2015-)02-

Early Stage Internet Traffic Identification Model based on Flexible Neural Trees

PENG Lizhi, ZHANG Hongli

(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)

Abstract: Identifying Internet traffic at their early stages accurately is very important for network management and security. Recent years, more and more studies have devoted to find effective machine learning models to identify traffics with the few packets at the early stage. This paper tries to build an effective early stage traffic identification model by applying flexible neural trees. Three network traffic data sets including two open data sets are used for the study. Eight classical classifiers are employed as the comparing methods in the identification experiments. FNT outperforms the other methods for most cases in the identification experiments, and it behaves very well for both of TPR and FPR. Thus, FNT is effective for early stage traffic identification.

Keywords:Traffic Identification; Machine Learning; Early Stage Features; Flexible Neural Trees

0 引 言

近年來,Internet流量早期識別越來越受到關注,因為在流量發生的早期階段對其進行快速識別切合實際應用的真實需求。傳統的基于機器學習的流量識別技術都是針對完整的流量樣本提取特征,進而對其進行識別。這種基于完整流的特征集用于離線研究非常有效,但在實際情況下,當流已經結束后對其進行特征提取,然后再進行識別是沒有實際意義的。因為無論從網絡管理還是安全的角度講,流結束后,已經無法對其進行有效管理與控制。因而實際應用的Internet流量識別技術必須具備在流量發生的早期對其快速準確識別的能力,只有這樣,針對流量的后續管理與安全策略才能正常實施。所以,近年來,越來越多的研究者開始致力于構建有效的識別模型,用于Internet流量的早期識別。

1 相關工作

L. Bernaille等于2006年提出了一個著名的早期流量識別的方法[1],其中直接使用TCP流的前屬多個數據包的包大小作為特征,然后使用K均值聚類方法對10種典型的Internet應用流量進行識別,獲得了比較理想的識別結果。A. Este等在2009年針對流量早期特征提取問題做了一項重要的研究[2],研究使用早期數據包的RTT、包大小、包到達時間間隔和包方向等作為早期特征,應用信息理論進行分析,并用多種分類器進行驗證試驗。研究結果表明,早期數據包能攜帶足夠用于流量識別的信息,而且這些原始特征中,數據包大小是最有效的特征。N. Huang等2008年研究了Internet應用在發生早期的行為特征,并將這些行為特征用于流量的識別[3]。最近,又進一步通過對應用開始的早期階段的協商過程的行為進行分析,抽取流量的早期特征,然后將這些特征應用到基于機器學習的識別模型中,取得了很高的識別性能[4]?;诖?,B. Hullár等則提出一種計算資源與內存資源消耗代價很小的早期P2P流量識別模型[5]。此外,A. Dainotti也提出一種高效的混合分類器用于早期流量識別[6]。

柔性神經樹(Flexible neural trees,FNT)是一種采用樹形結構的特殊神經網絡[7-9],可廣泛應用于各種分類與預測問題中[10-12]。FNT模型與普通神經網絡相比,有著靈活的柔性結構,使得這種模型能通過樹結構優化算法如免疫編程(IP)[13]和PIPE[14]等對網絡結構進行自動優化調整,克服了普通神經網絡的結構優化困難的問題。通過網絡結構的自動優化,FNT 對各種分類與預測問題有著強大的自適應能力,并獲得很高的分類與預測精度。另外FNT還具有自動特征選擇的天然特性:在網絡結構自動優化過程中,FNT通過對運算算子與輸入特征的隨機組合構建備選結構,這一過程自然地選擇出有效的輸入(即有效特征)。本文在前期對互聯網流量早期特征有效性研究工作的基礎上[15, 16],應用FNT進行互聯網流量的早期識別研究,力圖通過FNT良好的識別性能與泛化能力,以及自動特征選擇能力,構建一種新的高效互聯網流量早期識別模型。

2柔性神經樹

在FNT的樹形網絡結構中,主要有葉節點和非葉節點兩種。其中,葉節點是輸入節點,對應著目標問題中的一個具體特征;非葉節點則是神經元,對應著一個具體的運算算子。因而FNT模型中包含兩種類型的指令:柔性神經元指令(函數指令)和終端指令。具體地,柔性神經元指令用于樹結構的非葉節點連接其子樹,終端指令則是各輸入特征。函數指令集合F和終端指令集合T可以表示為:

S = F∪T = {+2, +3, …, +N}∪ {x1, x2, … , xn},……………………………(1)

其中,+i (i = 2, 3, … , N)表示非葉節點指令有i個參數。x1, x2, … , xn則是葉節點指令,沒有參數,實際上就是輸入變量。非葉節點的輸出按圖1(a)左部分所示的柔性神經元計算模型計算。

(a) 一柔性神經元 (b) 神經樹結構

(a) A flexible neuron operator (b) A representation of FNT

圖1 柔性神經樹

Fig.1 Flexible neural tree

在神經樹的創建過程中,如果一個非葉節點指令,即+i (i = 2, 3, … , N)被選擇,則產生i個隨機實數作為該節點與其下屬的i個子節點之間的連接強度。另外,還產生兩個可調節的參數ai和bi作為柔性激活函數的參數。在本文的研究中,使用如下所示激活函數。

…………………………………………………(2)

柔性神經元+n的輸出則按式(3)計算。

…………………………………………………(3)

其中,xj(j = 1, 2, … , n)是該柔性神經元的各輸入,則該節點的總激勵為:

…………………………………(4)

圖1(b)是一個典型的柔性神經樹模型,神經樹的總輸出可以用遞歸的方法從左至右深度優先計算得出。

3 實驗設置

3.1 數據集

本文采用兩個開放數據集和一個在校園網實驗室采得的流量數據集,對應地可分別稱為Auckland II數據集、UNIBS數據集和UJN數據集。所選數據集的應用類型、樣本數以及字節數等特征如表1所示。

表1 各數據集特征

Tab.1 Characteristics of the selected data sets

Auckland II數據集

UNIBS數據集

UJN數據集

應用類型

樣本數

總字節數

應用類型

樣本數

總字節數

應用類型

樣本數

總字節數

ftp

251

136 241

bittorrent

3 571

6 393 487

Web Browser

11 890

58 025 350

ftp-data

463

5 260 804

edonkey

379

241 587

Chat

11 478

60 212 804

http

23 721

1.39E+08

http

25 729

1.07E+08

Cloud Disk

1 563

1.1E+08

imap

193

86 455

imap

327

860 226

Live Update

2 169

28 759 962

pop3

498

98 699

pop3

2 473

4 292 419

Stream Media

810

785 556

smtp

2 602

1 230 528

skype

801

805 453

Mail

803

2 092 862

ssh

237

149 502

smtp

120

43 566

P2P

326

2 521 089

telnet

37

21 171

ssh

23

39 456

Other

1 408

3 635 558

3.2 對比算法

本文采用8種廣泛使用的機器學習分類器用于識別實驗,這些分類器都在著名的數據挖掘軟件Weka上實現,所有的實驗也是在Weka環境下執行。前面部分所述生成的特征數據集都采用Weka數據格式進行格式化,生成“arff”數據文件用于識別實驗。依據Weka的分類,這8種分類器可區分為五類,如表2所示。

表2 對比算法

Tab.2 Compared algorithms

算法

類型

算法

類型

BayesNet

貝葉斯分類器

NBTree

樹分類器

Bagging

元分類器

RandomForest

樹分類器

OneR

規則分類器

SVM

函數分類器

PART

規則分類器

RBFNetwork

函數分類器

3.3 性能評估指標

一般來說,對識別模型的性能評估方法有很多種,簡單地可以采用正確率(Acc)對模型性能評估,Acc只是從總體上反映模型對數據的一個識別正確率,并不考量各類樣本之間錯誤分類的樣本數對模型性能的影響,因而對模型的性能評估不夠全面。本文采用真陽性率(True Positive Rate, TPR)和假陽性率(False Positive Rate)兩個指標對模型性能進行評估。TPR又稱為識別率,FPR也稱為誤報率。對于一個只包含正樣本(陽性樣本)和負樣本(陰性樣本)的二分類問題,模型的分類結果包含四個基本量:正確分類的正樣本數TP,正確分類的負樣本數TN,錯誤分類的正樣本數FP,以及錯誤分類的負樣本數FN。則TPR 定義為:

…………………………………………………(5)

而FPR定義為:

…………………………………………………(6)

4 實驗結果與分析

本文將九種對比算法在三個數據集上進行識別實驗,由于每個數據集有多個流量類別,每一種流量類別在實驗中都有相應的TPR和FPR,因而本文對每個數據集的實驗結果中所有流量類別的TPR和FPR計算平均值,用平均值作為最終結果,并以柱狀圖的方式直觀地顯示各種算法在該數據集上的識別率和誤報率。

4.1 實驗結果

圖2顯示了各種對比算法在Auckland II數據集上的實驗結果。在所有對比算法的識別率(TPR)結果中,Bagging、PART、NBTree、RandomForest 和FNT都獲得了超過99% 的識別率,其中FNT的TPR最高,并明顯高于其他算法。其他四種算法的識別率均小于98%,與前五種差別較為明顯。從TPR 上看,FNT獲得了最好的識別性能。再觀察漏報率(FPR)指標,除SVM和OneR之外,其他算法的FPR均在3%的較低水平以下。FNT的FPR同樣是最低的,FNT 在獲得最高的識別率的情況下,同時能保持最低的漏報率,說明其在Auckland II數據集上的識別效果比較理想。

圖2 Auckland II數據集識別實驗結果

Fig.2 Identification results of Auckland II data set

圖3給出了在UNIBS數據集上的實驗結果。與Auckland II數據集的實驗結果一樣,FNT在UNIBS數據集上同樣獲得了最高的識別率,并明顯高于其他算法,Bagging、PART、NBTree 和RandomForest四個算法也獲得了比較高的TPR。從誤報率的角度看,FNT未獲得最小的誤報率,但其FPR與BayesNet、PART、NBTree和RandomForest 等其他幾個算法的FPR 區別很小,均在1%以下。

圖3 UNIBS數據集識別實驗結果

Fig.3 Identification results of UNIBS data set

從圖4顯示的UJN數據集的實驗結果看,各算法的行為模式大體與其在UNIBS數據集上的行為模式類似,但總體的識別精度有所下降。Bagging、PART、NBTree、RandomForest和FNT五個算法的識別性能明顯高于其他幾個算法。FNT再次獲得了最高的識別率,同時也獲得了最低的誤報率。這一實驗結果也進一步說明FNT 的識別性能要好于其他算法。

圖4 UJN數據集識別實驗結果

Fig.4 Identification results of UJN data set

4.2分析與討論

從三個數據集的結果總體上分析,不難看出:

(1)首先實驗中大部分算法利用僅僅6個早期數據包大小就能獲得較為理想的識別性能,說明利用數據包大小進行早期識別是完全可以適應實際識別要求的。

(2)FNT在三個數據集上均能獲取最高的識別率(TPR),這就意味著FNT在早期識別中有效地將目標流量類型樣本識別出來;另外FNT在獲得高TPR的同時能保持低水平的FPR,說明FNT 在準確識別目標流量類型的同時,不容易產生誤報,確保識別結果的有效性。

(3)作為經典的函數分類器,SVM和RBFNetwork在識別實驗中的表現明顯略遜于其他幾個性能較好的分類器。這與這兩個模型的復雜性有關,參數的調節對模型的性能影響比較大,如果針對具體數據集對SVM 和RBFNetwork進行進一步的參數調節可能會獲得更好的識別性能。

5 結束語

本文研究柔性神經樹FNT在流量早期識別中的應用,采用進化算法對柔性神經樹進行結構優化,進一步應用PSO算法對選擇的樹結構進行參數優化,這一求解過程反映了FNT的靈活性及其對解空間搜索的全面性。本文實驗中采用6個早期數據包大小作為特征進行識別,從實驗結果的分析可以得出以下結論:FNT能對各類流量數據獲得比較理想的識別率,并在高識別率下保證較低的誤報率,是一種高性能的早期流量識別模型。

參考文獻:

[1] BERNAILLE L, TEIXEIRA R, AKODKENOU I, et al. Traffic classification on the fly[C]//Procedings of ACM SIGCOMM'06, Pisa, Italy: ACM, 2006:23-26.

[2] ESTE A, GRINGOLI F, SALGARELLI L. On the stability of the information carried by traffic flow features at the packet level[C]//Procedings of ACM SIGCOMM'09, BARCELONA, Spain: ACM, 2009:13-18.

[3] HUANG N, JAI G, CHAO H. Early identifying application traffic with application characteristics[C]// Proceedings of IEEE Int. Conference on Communications (ICC'08), Beijing, China: IEEE, 2008:5788-5792.

[4] HUANG N, JAI G, CHAO H, et al. Application traffic classification at the early stage by characterizing application rounds[J]. Information Sciences, 2013,232(20):130-142.

[5] HULLAR B, LAKI S, GYORGY A. Early identification of peer-to-peer traffic[C]//2011 IEEE International Conference on Communications (ICC). Kyoto, Japan: IEEE,2011:1-6.

[6] DAINOTTI A, PESCAPE A, SANSONE C. Early classification of network traffic through multi-classification[J]. Lecture Notes on Computer Science, 2011,6613:122-135.

[7] CHEN Y, YANG B, DONG J, Nonlinear systems modeling via optimal design of neural trees[J]. International J. Neural Syst, 2004,14:125-138.

[8] CHEN Y, YANG B, DONG J, et al. Time Series Forecasting Using Flexible Neural Tree Model[J]. Information Sciences, 2005,174:219-235.

[9] CHEN Y, CHEN F, YANG J Y. Evolving MIMO flexible neural trees for nonlinear system identification[C]// IC-AI 2007, Hyderabad, India: IEEE, 2007:373-377.

[10] CHEN Y, YANG B, ABRAHAM A. Flexible neural trees ensemble for stock index modeling[J]. Neurocomputing, 2007,70: 697-703.

[11] QU S, LIU Z, CUI G, et al. Modeling of cement decomposing furnace production process based on flexible neural tree[C]//Proc. of the 2008 International Conference on Information Management, Innovation Management and Industrial Engineering, Taipei, China: IEEE, 2008:128-133.

[12] ZHOU J, LIU Y, CHEN Y. ICA based on KPCA and hybrid flexible neural tree to face recognition[C]//Proc. of the 6th International Conference on Computer Information Systems and Industrial Management Applications, MN, USA: IEEE, 2007:245-250.

[13] PETR M, ADRIEL L, MAREKT R, et al. Immune Programming[J]. Information Sciences, 2006,176: 972-1002.

[14] SALUSTOWICZ R P, SCHMIDHUBER J. Probabilistic incremental program evolution[J]. Evol. Comput, 1997,2(5):123-141.

[15] PENG L, ZHANG H, YANG B, et al. Feature evaluation for early stage Internet traffic identification[C]//The 14th International Conference on Algorithms and Architectures for Parallel Processing (ICA3PP2014), Dalian, China: IEEE, 2014:511-525.

[16] PENG L, ZHANG H, YANG B, et al. How many packets are most effective for early stage traffic identification: An experimental study[J]. China Communications, 2014,11(9):206-216.

1 基金項目:國家973重點基礎研究發展計劃( 2011CB302605); 國家863高技術研究發展計劃(2011AA010705, 2012AA012502, 2012AA012506); “十一五”國家科技支撐計劃(2012BAH37B01); 國家自然科學基金 (11226239, 6110018, 61173144, 61472164)。

亚洲精品一二三区-久久