數學建模聚類算法范例6篇

前言:中文期刊網精心挑選了數學建模聚類算法范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。

數學建模聚類算法

數學建模聚類算法范文1

doi:10.11772/j.issn.10019081.2013.07.1942

摘 要:

針對極限學習機(ELM)算法隨機選擇輸入層權值的問題,借鑒第2類型可拓神經網絡(ENN2)聚類的思想,提出了一種基于可拓聚類的ELM(ECELM)神經網絡。該神經網絡是以隱含層神經元的徑向基中心向量作為輸入層權值,采用可拓聚類算法動態調整隱含層節點數目和徑向基中心,并根據所確定的輸入層權值,利用MoorePenrose廣義逆快速完成輸出層權值的求解。同時,對標準的Friedman#1回歸數據集和Wine分類數據集進行測試,結果表明,ECELM提供了一種簡便的神經網絡結構和參數學習方法,并且比基于可拓理論的徑向基函數(ERBF)、ELM神經網絡具有更高的建模精度和更快的學習速度,為復雜過程的建模提供了新思路。

關鍵詞:可拓聚類;極限學習機;徑向基函數;回歸;分類

中圖分類號: TP18文獻標志碼:A

英文標題

Extension clusteringbased extreme learning machine neural network 

英文作者名

LUO Genghe*

英文地址(

Department of Mechanical Engineering, Xian Aeronautical University, Xian Shaanxi 710077, China英文摘要)

Abstract:

During the construction process of Extreme Learning Machine (ELM), its input weights are randomly generated, and these parameters are nonoptimized and contain no prior knowledge of the inputs. To solve these problems, combining the clustering method of Extension Neural Network type 2 (ENN2), an extension clustering based extreme learning machine (ECELM) neural network was proposed. In ECELM neural network, the radial basis function centers of hidden neurons were firstly taken as the input weights, then extension clustering method was used to adaptively adjust the hidden neurons number and center vectors, and this welladjusted information was trained by MoorePenrose generalized inverse to obtain the output weights. Meanwhile, the effectiveness of this network was tested by the Friedman#1 dataset and the Wine dataset. The results indicate that ECELM provides a simple and convenient way to train the structure and parameters of neural network, and it is of higher modeling accuracy and faster learning speed than Extension theory based Radial Basis Function (ERBF) or ELM, which will provide a new way to apply the ECELM to complex process modeling.

數學建模聚類算法范文2

關鍵詞:制造過程;在線質量預測;數據流;k-means

DOI:10.16640/ki.37-1222/t.2017.09.179

0 引言

隨著人們對質量水平要求的不斷提高,使得企業對于產品質量的控制紛紛轉向對制造過程的監控和分析,使得生產成本得以減少。制造過程作為一種復雜生產過程,具有工藝參數眾多、非線性顯著和動態變化等特點,難以建立其精確的數學模型。近年來,隨著數據采集技術和計算機技術的快速發展,制造過程質量特征參數的獲取變得容易[1]?,F有的預測方法如:人工神經網絡[2],貝葉斯方法[3]等方法可以對產品質量進行分析預測。但是,上述方法并不能實時的預測當前的質量。本文針對制造過程中的質量數據以數據流的形式存在的特c,提出了一種在線質量預測方法,即通過離線部分對海量的數據構建ELM模型,并且對模型的相關參數進行了PSO優化;在線部分應用基于數據流計算框架的改進k-means方法對工況進行聚類;最后,將離線部分優化的預測模型傳輸至在線部分完成質量的在線預測。

1 離線部分產品質量預測模型的構建

極端學習機[4](ELM)是一種基于單隱層前饋神經網絡的學習方法,有著學習時間短、算法運行快、結構確定簡便等等。

在ELM中,輸入權值是隨機產生的,這種方式確定的輸出權值準確率不高。粒子群算法(PSO)[5]是通過模擬鳥群覓食行為而發展起來的一種基于群體協作的隨機搜索優化算法。將PSO優化算法應用于ELM建模中可以極大地優化ELM的三個參數,得到更高的預測精度與效率。PSO算法優化ELM的建模過程如下所示:

(1)將離線部分歷史的過程數據作為建模數據,隨機產生輸入權值ω、隱含層閾值t,并通過實驗初始化ELM的網絡結構;

(2)應用計算出來的輸出層權值、根據式(2)對預測集進行預測和驗證,計算出其標準均方根誤差E。

(3)通過PSO算法優化輸入權值ω、隱含層閾值t和輸出層權值,并通過最優的粒子建立ELM模型。

2 在線部分數據流的處理

聚類分析[6]是數據挖掘研究的一項重要技術,屬于無監督機器學習方法。k-means方法將一個含有n個樣本的集合劃分為K個子集合,其中每個子集合代表一個類簇。近幾年,隨著數據規模的無限擴大,分布式并行的k-means算法越來越受到人們的青睞。而MapReduce云計算框架[7]作為當下管理大型計算機集群能力的一種流行方式得到重視。本文基于數據流的計算框架提出了一種處理在線數據流的方法。

基于數據流的改進K-means算法執行過程如下:

(1)計算每個數據對象到k個初始聚類中心的距離,根據最近鄰原則分配到簇,定義一個結構體{cluster[i],distance[i]},其中,cluster[i]表示第i個數據對象的類簇標簽;distance[i]表示第i個數據對象到最近中心點的距離。

令,j為對象i最近的簇標簽;

令,其中,center[j]為第j個類的聚類中心,為到最近中心點的距離。

(2)按照平均法計算各個簇的質心,得到新的簇中心。

(3)利用式(1)計算誤差平方和,判斷是否收斂,若收斂,算法結束,輸出最終聚類結果。

(1)

3 仿真實驗分析

本文以車身點焊過程為例,根據實際生產經驗,點焊接頭強度是點焊質量的重要指標,而點焊接頭的強度主要取決于點焊熔核直徑[8]。ELM模型以焊接電流(I)、電極間電壓(V)、動態電阻(R)、焊接時間(T)為輸入,以點焊熔核直徑L做為輸出,對點焊過程中的工序質量進行預測。通過生產過程中的200組過程參數數據,在PC上進行實驗。用本文方法和BP神經網絡和貝葉斯方法可以得到預測的熔核直徑如圖1所示。

由圖1可知,本文方法的預測平均相對誤差在5%以內,因為本文在離線部分采用了PSO-ELM方法構建預測模型,并且在線部分基于數據流的計算框架,改進k-means方法極大限度的提高了算法的效率。反觀神經網絡,為了保持高精度必須經過大幅度的訓練和測試,時間復雜度高。與貝葉斯方法相比,本文應用PSO算法優化了輸入權值和隱含層閾值,縮短了建模時間和提升了預測精度。

4 結束語

鑒于制造產品的在線質量預測是一個非常重要的研究領域,并且具有廣闊的前景,而現有的方法不能滿足日益提升的數據量和預測的實時性要求,本文提出了一種制造產品的在線質量預測方法。實驗結果表明,相對其他兩種方法,本文方法具有良好的預測精度和較高的效率,能適應當前制造過程中產品質量的在線預測。

參考文獻:

[1]姜興宇,干世杰,趙凱等.面向網絡化制造的智能工序質量控制系統[J].機械工程學報,2010,46(04):186-194.

[2]徐蘭,方志耕,劉思峰.基于粒子群BP神經網絡的質量預測模型[J].工業工程,2012,15(04):17-20.

[3]丁鋼堅,張小剛.貝葉斯分類算法應用于回轉窯燒結溫度預測模型[J].計算機系統應用,2011,20(09):200-203.

數學建模聚類算法范文3

關鍵詞:手勢檢測;人機交互;膚色分割;混合高斯模型

中圖分類號:TP391 文獻標識碼:A 文章編號:1674-7712 (2013) 02-0045-02

一、引言

人際交互技術最近幾年得到人們越來越廣泛的關注。手勢,作為一種自然直觀的人際交流方式,現已成為一種熱門的人機交互方式。一個基于視覺的手勢識別系統主要包括手勢采集、檢測、識別等部分。要檢測到手,首先需要進行有效的手勢分割。手勢分割是指將手勢圖像從復雜背景中分割出來,僅保留手勢部分。手勢分割的好壞也將直接影響整個手勢識別系統的效率。

目前有許多圖像分割的方法,有基于簡單的膚色閾值分割法[1],有的用k-means聚類分割圖像[2],有的采用混合高斯進行圖像分割的[3],但至今任何一種分割算法都有它的局限性和針對性。實踐表明,要提高圖像分割效果的途徑是將一些分割算法組合起來形成一個系統,根據圖像的特點,分層次有針對性地使用不同的分割算法。

本文中,作者采用了普通攝像頭作為輸入來采集圖像,設計了一個基于人臉先驗知識和混合高斯模型的方法來進行手勢檢測。本文說明了該方法的系統結構,并在Linux下運行了該檢測系統,并成功進行手勢檢測,檢測率高。

二、系統結構

(一)系統方案

圖1為本文的系統流程圖,采集到圖像以后,利用人臉檢測提取膚色信息,對圖像進行膚色檢測判斷是否為膚色區域,并用圖像平滑和圖像形態學的方法對手勢圖像進行圖像預處理,實現圖像的膚色二值分割;同時,對圖像進行混合高斯建模去除背景,提取出前景區域,若同時為前景區域且是膚色區域則可以判定為人手或人臉區域,又因為前面已檢測到人臉區域,因此可排除干擾,定位出手勢區域。

(二)基于人臉先驗知識的膚色檢測

膚色是人體表面最為顯著的特征,利用膚色特征信息來實現手勢和背景的分離是目前最常用的手勢分割方法。臉是人體面積較大的膚色區域,臉部的信息較為豐富,相對于手來說較容易檢測,手和臉的膚色差異較小,當前人臉檢測技術的已經比較成熟,所以近幾年許多研究人員先檢測臉,利用臉部膚色信息來建立膚色模型進行膚色分割。另外檢測到的人臉信息也可以作為臉部區域,來排除出候選的手勢膚色區域。

2001年,PaulViola和MichaelJones[4]提出了基于Adaboost算法的人臉檢測方法。該方法中引入了積分圖像的概念,用于快速計算圖像特征;同時采用了級聯的分類器組合方式,使得圖片中的背景圖像得以快速排除,將更多的計算集中在可能存在人臉的區域,在保證檢測精度的同時,極大的提高了人臉檢測速度,使人臉檢測真正走向了實時應用階段。所以本文選取AdaBoost作為人臉檢測的算法。

數學建模聚類算法范文4

關鍵詞:基因調控網絡;自組織圖聚類;機器學習

中圖分類號:TP274文獻標識碼:A文章編號:1009-3044(2008)15-20ppp-

The Research Content And Data Analysis Methods On the Gene Regulatory Networks

GUO Zhi-long1,2,JI Zhao-hua1,3,TU Hua-wei1,LIANG Yan-chun1

(1.College of Computer Science and Technology,Jilin University,Changchun 130012,China;2.Dalian Huaxin Software Corporation,DaLian 116000,China; 3.Inner Mongolia Xing'an Vocational and Technical College,Wulanhaote 137400,China)

Abstract:Gene regulatory networks,which reveals the complex phenomena of life from the view of the complex interactions of genes,is very important to understand the functional genomics for researchers.The article focuses on the research content and data analysis methods about gene regulatory networks.

Key words:gene regulatory networks;Self-organizing Map;machine learning

基因調控網絡是計算機科學、數學、信息學向分子生物學滲透形成的交叉點,是運用生物信息學的方法和技術通過數據采集、分析、建模、模擬和推斷等手段研究復雜的基因網絡關系。作為一種系統的、定量的研究方法建立在包括分子生物學,非線性數學和程序算法設計等知識等基礎上,運用生物信息學的方法和技術通過數據采集、分析、建模、模擬和推斷等手段,整合已有的實驗數據和知識,構建生物基因調控網絡,從整體的層次,了解細胞的功能;從整體的角度,闡述基因參與的生物調控過程,在全基因組水平上以系統的、全局的觀點研究生命現象及其本質,是后基因組時代研究的重要內容。

1 基因調控網絡概念

基因調控網絡本質上是一個連續而復雜的動態系統,即復雜的動力系統網絡。

1.1 基因調控網絡的定義

生物體任何細胞的遺傳信息、基因都是同樣的,但同一個基因在不同組織、不同細胞中的表現并不一樣。一個基因的表達既影響其它的基因,又受其它基因的影響,基因之間相互促進、相互抑制,在特定的細胞內和時間下綜合環境等因素這樣的大環境中呈現活化狀態,構成一個復雜的基因調控網絡。

1.2 基因調控網絡的特性:

基因調控網絡是連續的多層次動力系統模型,具有穩定姓、層次性、復雜性、動態性等。

1.2.1 復雜性

生物具有大量的基因,諸多基因組成各個模塊,不同的基因網絡模塊可以在不同層次上發生相互作用,同一個基因可能參與各種不同的分子機理,使得基因網絡有著高度的復雜性。

1.2.2 層次性

基因調控網絡具有一定層次結構,按照調控元件、motif、模塊和整個網絡的四層結構,將各個節點有規律的來接在一起。調控元件分為順式(cis-)和反式(trans-)兩種類型, 分別表示受調控基因的結合位點DNA 序列和結合在該序列上對基因起激活或者抑制作用的轉錄因子。Motif 和模塊都是由基因集合構成的調控模式, 是分析網絡局部特征和網絡構成以及研究調控機理的重要結構。

1.2.3 動態性

生物過程是動態的,用來理解生物過程意義的基因調控網絡自然就動態存在。基因調控網絡是隨著生物過程的動態發生而具有動態的特性,不同條件、不同時間的基因調控網絡是不同的。

1.2.4 穩定性

基因調控網絡的穩定性體現在生物體緩解突變的影響方面,功能上無關基因之間的相互作用可以抵抗系統突變;一個基因在突變中喪失的功能,有另外一個或更多具有相似功能的基因所補償,以減弱該突變對表型造成的影響,保持生物進化中的穩定性。

1.2.5 功能模塊性

基因調控相關的生物功能主要是通過網絡模塊來實現的,有適當尺度下的動力學特征和生物學功能解釋的模塊是由多個motif 構成的,實現相同功能的基因或蛋白質存在拓撲結構上是相關的。

1.3 基因調控網絡研究的目的

通過對基因調控網絡的研究,識別和推斷基因網絡的結構、特性和調控關系,認識復雜的分子調控過程,理解支配基因表達和功能的基本規則,揭示基因表達過程中的信息傳輸規律,清楚整體的框架下研究基因的功能。

2 基因調控網絡研究內容

基因調控網絡的研究是假設兩個基因列譜相似,則這兩個基因協作調控,并可能功能相近,有同樣表達模式的基因可能有同樣的表達過程?;蛘{控網絡主要在三個水平上進行:DNA水平、轉錄水平、翻譯水平。DNA水平主要是研究基因在空間上的關系影響基因的表達;轉錄水平主要研究代謝或者是信號轉導過程決定轉錄因子濃度的調控過程;翻譯水平主要研究蛋白質翻譯后修飾,從而影響基因產物的活性和種類的過程。基因轉錄調控信息隱藏在基因組序列中,基因表達數據代表基因轉錄調控的結果,是轉錄調控信息的實際體現。

基因調控網絡試圖從DNA微陣列等海量數據中推斷基因之間的調控關系,對某一物種或組織中全部基因的表達關系進行整體性研究。采用帶有反饋回路的基因網絡,首先是按照同步或反同步表達,以及表達強度的變化,系統地識別各基因的特點,再用聚類的方法將各基因歸類,在此基礎上構建基因調控網絡,分析相關控制參數.利用其本身或調節位點或拓撲結構進行不同的研究。

3 基因調控網絡研究數據分析方法

數學建模聚類算法范文5

關鍵詞:汽輪機 故障診斷 小波 神經網絡

1、引言

二十世紀以來,隨著工業生產和科學技術的發展,機械故障的可靠性、可用性、可維護性與安全性問題日益突出,從而促進了人們對機械設備故障機理及診斷技術的研究汽輪機是電力生產的重要設備,由于其結構的復雜性和運行環的特殊性,汽輪機的故障率較高,而卻故障危害也很大。汽輪發電機組常見的機械振動故障有:轉子不平衡、轉子彎曲、轉子不對中、油膜振蕩、碰摩、轉子橫向裂紋和轉子支承系統松動等。汽輪機振動故障的汽輪機最常見的故障,因此,汽輪機的振動故障診斷一直是故障診斷技術應用中非常重要的部分。

2、基于信號處理的振動故障診斷方法

信息的采集和處理是實現機組振動檢測與故障診斷中的一個基本環節、也是振動檢測軟件的核心技術。現代信息分析主要包括兩種形式:一種是以計算機為核心的專用數字式信號處理儀器,另一種是采用通用計算軟件來進行信號分析的方式。

2.1小波變換方法

這是一種新的信號處理方法,是一種時間―尺度分析方法,具有多分辨率分析的特點。利用小波變換可以檢測信號的奇異性。因噪聲的小波變換的模的極大值隨著尺度的增大而迅速衰減,而小波變換在突變點的模的極大值隨著尺度的增大而增大(或由于噪聲的影響而緩慢衰減),即噪聲的Lipschitz指數處處小于零,而在信號突變點的Lipschitz指數大于零(或由于噪聲的影響而等于模很小的負數),所以可以用連續小波變換區分信號突變和噪聲。同樣,離散小波變換可以檢測隨機信號頻率的突變。孫燕平等應用了小波分析理論,采用多分辨分析和小波分解等基本思想對汽輪機轉子振動信號進行了分析,針對振動信號的弱信號特征,提出了基于離散小波細化頻率區間,小波分解后進行能量譜分析和小波變換結合傅立業變換分析法,并將其應用于模擬轉子試驗臺上。閆亮以小波分析為基礎,針對汽輪機早期振動故障信號具有背景噪聲強,特征信號弱的特點改進傳統的Donoho硬閾值降噪算法,提出了基于shannon熵的最優小波包基降噪算法,能明顯地提高信號的信噪比。采用小波神經網絡松散結合的診斷方法,利用小波包的分解重構系數得到信號的頻帶能量,再將頻帶能量作為神經網絡輸入向量進行模式識別。利用BP神經網絡在故障診斷方面具有診斷精度高,學習速度快的特點與小波分析相結合。

小波神經網絡是一種非模型的診斷方法,回避了抽取對象數學模型的難點,避免了復雜的關于建模的傳遞函數的運算,以及建模不完全或不精確導致的診斷誤差。小波變換不需要系統的數學模型,對噪聲有很強的抑制能力,有較高的靈敏度,運算量也不大,是一種很有前途的方法。

2.2信息融合的方法

信息融合是利用計算機技術對按時序獲得的多源的觀測信息在一定準則下加以自動分析、綜合以完成所需的決策和估計任務而進行的信息處理過程。

張燕平設計了汽輪機轉子軸系故障模擬試驗方案,并對各種故障進行了多組升速試驗,對故障信號進行了傅立葉分析,以三維幅值譜和升速過程波德圖為工具,對故障信號的頻域信息進行了融合研究。研究表明,一階矩向量三維圖不僅融合了信號的時頻特征,還融合了信號的空間特征,因而可用來對故障的產生過程進行全面分析,是進行軸系典型故障診斷的又一有效工具。

2.3其他信息處理法

N.E.Huang等提出了一種經驗模態分解方法(EMD),其主旨為把一個時間序列的信號分解成不同尺度的本征模態函數(IMF),每個本征模態函數序列都是單組分的,相當于序列的每一點只有一個瞬時頻率,無其他頻率組分的疊加。瞬時頻率是通過對IMF進行希爾伯特變換得到,同時求得振幅,最后求得振幅頻率時間的三維譜分布。唐貴基等利用EMD分析方法以及其對應的Hilbert變換在大型汽輪機故障診斷中進行非平穩信號的算法和應用,并描繪出仿真故障信號的時頻圖、時頻譜和幅值譜。姚志宏嘲利用Kohonen網絡聚類的特點,把汽輪機振動故障信號頻譜中的相關頻段上不同頻率譜的譜峰能量值作為故障信號的訓練樣本輸入到Kohonen網絡,并由網絡進行聚類,產生聚類中心點。根據此聚類中心點的位置來確認和診斷汽輪機振動故障的原因以及目前的嚴重程度。

3、基于知識的故障診斷方法

基于知識的方法不需要精確的數學模型就能準確預測故障,當前這一領域的研究較為活躍。

3.1基于專家系統的故障診斷方法

專家系統(Expert System――ES)是人工智能領域較為活躍的一支,它已廣泛應用于過程監測系統,并取得了相當可觀的經濟效益。專家系統是一種基于知識的智能計算機程序系統,其運用領域專多年積累的經驗與專門知識,模擬人類專家的思維過程來處理該領域的問題。張曉等提出了一種新的基于模糊與綜合的離線式汽輪機故障診斷專家系統,并且提出了相關基于模糊診斷的推理和專家系統知識的漏診斷和無診斷的自學習方法。

3.2基于人工神經網絡的故障診斷方法

人工神經網絡技術以分布的方式存儲信息,利用網絡的拓撲結構和權值分布實現非線性的映射,并利用全局并行處理實現從輸入空間到輸出空間的非線性信息變換。對于某一特定對象建立特定的神經網絡故障診斷系統,將故障征兆作為輸入信號可以直接得到故障,方便地實現了故障檢測與診斷。

張建華等提出了采用概率神經網絡(PNN)的汽輪發電機組故障診斷方法。利用PNN算法簡單、訓練和泛化速度快的優點,把新的訓練樣本添加到以前訓練好的分類器中,便于提高故障診斷結果的準確性。而且具有很高的運算速度,抗干擾能力強,對傳感器測量噪聲具有較強的診斷魯棒性。新的訓練樣本也很容易加入以前訓練好的分類器中,更適用于在線檢測。程衛國翻通過對振動信號的分析,并對BP算法進行了研究和改進。劉正亮建立了人工魚群神經網絡模型,利用人工魚的聚群、追尾和覓食行為訓練RBF神經網絡的權系數,提高了神經網絡的收斂速度和精度。依據此模型提出一種故障診斷方法,并應用于汽輪機振動故障分析,提高了神經網絡的泛化能力和故障診斷的準確率。

4、基于解析模型的故障診斷方法

基于解析模型的故障檢測和診斷方法在故障診斷的研究中占有重要地位,它充分利用了系統模型的深層知識進行故障診斷,具體是指使用系統的結構、行為和功能等方面的知識對系統進行診斷推理,這就需要建立系統結構、行為和功能模型。

荊建平等針對轉子裂紋故障的早期診斷與預示這一問題,提出了基于多模型估計(MMAE)的轉子裂紋故障診斷方法。并對Jeffcott轉子建立了正常、裂紋轉子模型和基于卡爾曼濾波器的多模

型自適應估計器,通過裂紋故障的仿真分析和故障多模型估計表明,該方法對早期診斷和預示轉子裂紋故障有良好的效果。張國平針對汽輪機啟動和停止過程信號比平穩過程復雜這一特點用短時傅里葉變換提取狀態特征信息,引入基于連續HMM建立在在線狀態監測系統的應用。HMM是一種時間序列的統計模型,能用參數描述隨機過程統計特性的概率模型,是一種用針對性的信號的建模和識別工具。韓璞等㈣利用了貝葉斯網絡模型進行汽輪機故障診斷,通過對主成分分析方法提取故障特征的討論,提出了基于主成分分析方法和貝葉斯網絡的汽輪機故障診斷模型建立方法,應用特征提取后的樣本建立了汽輪機故障貝葉斯網絡模型,該汽輪機故障診斷模型簡潔,易于推理,提高了汽輪機故障診斷的效率。

基于解析模型的故障診斷方法主要用于控制系統的故障診斷。因為其它診斷方法多以直接檢測信號的分析為診斷依據,而控制系統的輸出信號常常隨著控制輸入信號的變化而變化。這樣,用直接信號檢測分析方法往往難以甄別一個異常的信號是由于系統故障所致,還是由于控制輸入信號使然。而基于解析模型的故障診斷方法將系統的模型和實際系統冗余運行,通過對比產生的殘差信號,就有效地剔除了控制信號對系統的影響因素。通過對殘差信號的分析,就可以診斷系統運行過程中出現的故障。

5、基于離散事件的故障診斷方法

離散事件模型的狀態既反映正常狀態,又反映系統的故障狀態。系統的故障事件構成整個事件集合的一個子集。故障診斷就是確定系統是否處于故障狀態和是否發生了故障事件。

彭希等針對常規頻譜診斷方法的不足,論述了離散的BAM(雙向聯想記憶)網絡及其特性。討論了汽輪發電機組常見典型振動故障的變化特征及其數字化描述方法,構建了離散BAM網絡能夠實現汽輪機振動故障特征空間到故障標示空間的聯想和追憶映射,用BAM網絡建立模型診斷汽輪機組振動故障。離散BAM神經網絡是繼Hopfield網絡之后另一類典型的反饋形網絡,是一種能進行尋址記憶的二層相關網絡,使用前向和后向信息對存儲內容激發聯想和回憶,其具有良好的動力學行為而用于聯想記憶。

陳等在分析了汽輪機振動故障特點的基礎上,提出了用遺傳算法進行汽輪機故障診斷問題,定義了遺傳算法求解故障診斷問題的概率因果網絡,建立了汽輪機故障診斷模型,該模型能有效地識別出汽輪機的多故障。

數學建模聚類算法范文6

關鍵詞 文本分類 降維技術 文本表示 分類算法

中圖分類號:TP393 文獻標識碼:A

文本分類是指在給定分類體系下,根據文本內容自動確定文本類別的過程,將大量的文本歸到一個或多個類別中。從數學角度來看,文本分類是一個映射的過程,將未標明類別的文本映射到己有的類別中來,數學表示如下:f:A->B 其中A為待分類的文本集合,B為分類體系下的類別集合。

文本分類技術是網絡信息挖掘中內容挖掘的重要手段之一,通過文本的分類技術可以將網絡中紛繁復雜的信息分門別類的組織在一起,從更深的層次來尋找文檔之間的聯系,不只停留在字面的匹配上。文本分類技術應用于信息檢索中有利于提高檢索的正確率和準確率。

1網頁的解析

按照W3C組織所制定的標準,每一個HTML頁的結構都可以對應地描述成DOM樹的形式。DOM定義了HTML文檔的邏輯結構,提供了一種對網頁中的數據及內容進行管理和操作的途徑。DOM將整個文檔的內容分別抽象為不同的對象,用結點的形式予以表示,如標簽結點、文檔類型結點、文本結點、注釋結點、屬性結點等。再用類似于父子的關系將各結點按照不同層次有順序地組織起來,形成樹型結構。

2文本表示

向量空間模型(Vector Space Model,簡記為VSM)是一種較著名的用于文檔表示的統計模型,該模型以特征項做為文檔表示的基本單位,特征項可以由字詞或短語組成。每一個文檔可以看成是由特征項組成的n維特征向量空間的一個向量:D=(T1,W1;T2,W2;T3,W3……;Tn,wn),其中Wi為第i個向量Ti在文檔中的權重,一般選詞做特征項比選字做為特征項要好一些。一般使用TF-IDF公式計算特征項權重,其中TF(Term Frequency)表示詞頻,IDF(Inverse Document Frequency)表示逆文檔頻率,反映文檔集合中出現該特征項的文檔數目的頻率,TF-IDF權重公式如公式(1)所示:

3降維技術

3.1信息增益

信息增益在機器學習中經常被用做特征詞評判的標準,它是一個基于熵的評估方法,定義為某特征項在文檔中出現前后的信息熵之差。根據訓練數據計算出各特征詞的信息增益。刪除信息增益很小的詞,其余的按信息增益從大到小排列。如果以信息增益最大者為要根結點,建立一個決策樹就可以進行決策樹的分類挖掘。如公式(2)所示。

其中i=1,2…M。p(ci)表示類文本在語料中出現的概率,p(ci|w)表示文本包含特征項W時屬于ci類的條件概率,p(w)表示語料中不包含特征項W的文本的概率,p(ci|w)表示文本不包含特征項W時屬于ci類的條件概率,M為類別數。

3.2互信息(MI)

應用在相關詞統計建模中,在統計學中用于表示兩個變量間的關系,其計算如下公式(3)所示:

顯然當特征項W獨立于ci時它同該類的相關度為0 ,p(w)越小而同時p(w|ci)越大時特征項W提供類別ci的信息量越大,則這個特征項越能代表這一類,反之,p(w)越大的同時p(w|ci)越小,則可能得到負的互信息值,這種情況下,該特征項對分類的意義同樣很大。

3.3交叉熵(expected cross entropy)

與信息增益類似也是一種基于概率的方法,但只計算出現在文本中的特征項,其計算如公式(4)所示:

4分類算法

K-means算法是應用最廣泛的聚類算法之一,是一種已知聚類類別的聚類算法。指定類別數k,對樣本集合進行聚類,聚類的結果由k個聚類中心來表達。相似度的計算根據一個簇中樣本的平均值(被看作簇的中心)來進行。

首先,隨機選擇k個對象,每個對象初始的代表了一個簇的平均值或中心。對剩余的每個對象,根據其與各個簇中心的距離,將它賦給最近的簇。然后重新計算每個簇的平均值。這個過程不斷重復,直到準則函數收斂。通常,采用平方誤差準則,其定義如下:

這里的E是數據庫中所有對象的平方誤差的總和,p是空間中的點,表示給定的數據對象,mi是簇Ci的平均值(p和mi都是多維的)。這個準則試圖使生成的結果簇盡可能的緊湊和獨立。下面是K-means過程的概述。

輸入:聚類的數目k和包含n個對象的數據庫。

輸出:k個聚類簇,使平方誤差準則最小。

(1)任意選擇k個對象作為初始的聚類簇中心;

(2)重復;

(3)根據聚類簇中對象的平均值,將每個對象(重新)賦給最相似的聚類簇;

(4)更新聚類簇的平均值,即計算每個簇中對象的平均值;

(5)直到不再發生變化。

這個算法嘗試找出使平方誤差函數至最小的k個劃分。當結果簇是密集的,而簇與簇之間區別明顯時,它的效果較好。對處理大數據集,該算法是相對可伸縮的和高效率的,因為它的復雜度是O(nkt),其中,n是所有樣本的數目,k是聚類簇的數目,t是迭代的次數。通常的k

但是,K-means只有在簇的平均值被定義的情況下才能使用。這使得它不適用某些應用,例如涉及到分類屬性的數據。要求用戶必須事先給出k,可以算是該方法的另一個缺點。同時K-means不適合發現非凸面形狀的簇,或者大小差別很大的簇。而且,它對于“噪聲”和孤立點數據是敏感的,少量的該類數據能夠對平均值產生極大的影響。

參考文獻

亚洲精品一二三区-久久