前言:中文期刊網精心挑選了數學建模聚類分析范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
數學建模聚類分析范文1
關鍵詞 上市公司;經營業績;主成分分析;聚類分析
一、引言
上市公司業績評價過程中,人們往往是人為地比較上市公司某個或某幾個指標的高低,主觀地賦予某個指標一定的權重。這種做法雖簡便易操作,但卻在很大程度上有賴于評價者的主觀判斷能力和經驗,而缺乏實證依據的支持。本文選取具有綜合評價能力的指標,用主成分分析法和聚類分析法建立一個業績綜合評價模型。最后對天津若干家上市公司進行了實證分析,結果表明該模型是有效的。
二、建模
1.初始指標的選取
結合國外研究成果[1][2],以及我國財務管理實際,并根據可量化性,統計資料的可獲得性和完整性,以上市公司基本財務報表為基礎。我們確定15個指標作為研究中使用的初始變量。分別是: X1:每股收益; X2 :每股凈資產; X3:流動比率; X4 :速動比率;X5:主營收入增長率; X6:總資產周轉率; X7:固定資產增長率;X8:每股公積金; X9:每股未分配利潤; X10 :資產負債率;X11 :存貨周轉率;X12 : 總資產周轉率;X13 :主營業務利潤率; X14:凈資產報酬率; X15:現金流量比率。
這些指標能夠反映上市公司的經營業績,與我們的研究目的直接相關,但這些指標之間有的具有較高的相關性,比如每股收益和凈資產收益率之間。為此,先對它們進行主成分分析,進行降維。因為主成分之間是不相關的,符合聚類分析的要求。
2.主成分分析
主成分(Principal Component Analysis,簡稱PCA)是利用了降維的思想,將多指標問題重新組合成一組新的相互無關的幾個綜合指標來替原來的指標,同時根據實際需要從中提取幾個較少的綜合指標(主成分),盡可能多地反映原來指標的信息,雖然這樣做會損失部分信息,但由于我們抓住了主要矛盾,并從原始數據中進一步提取了某些新的信息。因而在某些實際問題的研究中收益大于損失。具體步驟如下 [3]:
(1)數據的無量綱處理;
(2)計算相關矩陣 R;
(3)求相關矩陣R 的特征值和特征向量;
(4)計算各主成分的貢獻率
(5)確定主成分個數。
3.聚類分析
為了更進一步的分析上市公司在經營活動中存在的差別和共性,本文采用在實際應用中使用比較廣泛的系統聚類法分析的方法,依據各個上市公司財務狀況指標的主成分得分矩陣,把每個樣本各看成一類,然后根據樣本間距離及類間距離的定義,逐步合并類,減小類的數目,達到聚類分析的目標。
三、 實例
考慮到數據的可獲得性,本文隨機選取了天津9家上市公司2005年度公開披露的財務數據為樣本(原始數據來源于華泰證券網),主成分及聚類分析的計算過程通過SAS軟件來完成。
主成分分析結果:
四、結束語
我們對天津上市公司2005年度的財務狀況數據分別運用主成分及聚類分析方法,對企業經營狀況進行了分析和評價,借助聚類圖將公司按經營的不同側面進行分類。其結論不僅為企業的經營管理提供參考,也可以給股市投資者評判上市公司的質量提供依據。
參考文獻
[1] 朱杰等. 上市公司聚類判別分析研究 [J],決策參考,2005.09-0041-03
[2] 劉衛紅等.數學建模與聚類分析方法在企業經營效績評價中的綜合運用[J],數學的實踐與認識,2005年5月,第35卷第5期pp.12-17
數學建模聚類分析范文2
關鍵詞:R軟件;系統聚類分析;多元統計
引言
多元統計分析是統計學的一個重要分支,也稱多變量統計分析;在現實生活中,受多種指標共同作用和影響的現象大量存在,多元統計分析就是研究多個隨機變量之間相互依賴關系及其內在統計規律的重要學科,其中最常用聚類分析方法,由于多元統計聚類分析方法一般涉及復雜的數學理論,一般無法用手工計算,必須有計算機和統計軟件的支持。
在統計軟件方面,常用的統計軟件有SPSS、SAS、STAT、R、S-PLUS,等等。R軟件是一個自由、免費、開源的軟件,是一個具有強大統計分析功能和優秀統計制圖功能的統計軟件,現已是國內外眾多統計學者喜愛的數據分析工具。本文結合實例介紹R軟件在多元統計聚類分析中的應用。
一、系統聚類分析
聚類分析又稱群分析,它是研究(樣品或指標)分類問題的一種多元統計方法,所謂類,通俗地說,就是指相似元素的集合。在社會經濟領域中存在著大量分類問題,比如若對某些大城市的物價指數進行考察,而物價指數很多,有農用生產物價指數、服務項目價指數、食品消費物價指數、建材零售價格指數等等。由于要考察的物價指數很多,通常先對這些物價指數進行分類??傊?,需要分類的問題很多,因此聚類分析這個有用的工具越來越受到人們的重視,它在許多領域中都得到了廣泛的應用。
聚類分析內容非常豐富,有系統聚類法、有序樣品聚類法、動態聚類法、模糊聚類法、圖論聚類法、聚類預報法等;最常用最成功的聚類分析為系統聚類法,系統聚類法的基本思想為先將n個樣品各自看成一類,然后規定樣品之間的“距離”和類與類之間的距離。選擇距離最近的兩類合并成一個新類,計算新類和其他類(各當前類)的距離,再將距離最近的兩類合并。這樣,每次合并減少一類,直至所有的樣品都歸成一類為止。
系統聚類法的基本步驟:
1、計算n個樣品兩兩間的距離。
2、構造n個類,每個類只包含一個樣品。
3、合并距離最近的兩類為一新類。
4、計算新類與各當前類的距離。
5、重復步驟3、4,合并距離最近的兩類為新類,直到所有的類并為一類為止。
6、畫聚類譜系圖。
7、決定類的個數和類。
系統聚類方法:1、最短距離法;2、最長距離法;3、中間距離法;4、重心法;5、類平均法;6、離差平方和法(Ward法)。
二、基于R語言的系統聚類分析程序
R軟件及其相關包提供了各種聚類方法,主要是系統聚類方法、快速聚類方法、模糊聚類方法,常用的是系統聚類方法。
R軟件實現系統聚類的程序如下:
hclust(d,method="complete",members=NULL)
其中,d是由“dist”構成的距離結構,具體包括絕對值距離、歐氏距離、切比雪夫距離、馬氏距離、蘭氏距離等,默認為歐氏距離;method包括類平均法average、重心法centroid、中間距離法median、最長距離法complete、最短距離法single、離差平方和法ward等,默認是最長距離法complete。
三、應用舉例
表1是山東省2008年各市居民家庭平均每人全年消費性支出,利用所給數據對各市進行系統聚類。(表1)
R語言程序如下:
>X
>row.names(X)
>d
>hc1
>hc2
>hc3
>hc4
>opar
>plot(hc1,hang=-1);plot(hc2,hang=-1)
>plot(hc3,hang=-1);plot(hc4,hang=-1)
輸出結果(圖1)
結果分析
由圖1可以看出,不同方法的分類大體一樣,結合山東省具體實際情況,最長距離法分類效果較好。
在系統聚類分析中,利用R軟件是最方便、最簡單、最易學的,而且根據不同的情況,可以自己修改別人的程序,比較方便;可以在處理多元數據聚類分析中,利用R軟件具有很大的優勢。
主要參考文獻
[1]王斌會.多元統計分析及R語言建模[M].廣州:暨南大學出版社,2010.
[2]湯銀才.R語言與統計分析[M].北京:高等教育出版社,2005.
數學建模聚類分析范文3
安徽財經大學經濟學院 安徽蚌埠 233030
[摘要]適宜的銷售策略對于分銷商來說至關重要。本文通過建立系統聚類模型,得到對每一銷售途徑和銷售區域所對應的銷售額影響最大的商品類型,從而得知特定商品在特定銷售途徑或銷售區域的暢滯銷情況,并據此制定適宜的銷售策略。
[
關鍵詞 ]系統聚類;銷售策略;分銷商
一、前言
分銷商用自己的資金買進產品,并承擔能否從銷售中得到足夠盈利的全部風險。分銷商的利潤來源主要是靠銷售產品,在享受全部利潤的同時也承擔著全部的風險。因此,對于分銷商來說,挖掘出影響各個銷售途徑、各個銷售區域的銷售額的主要商品類別,并據此制定適宜的經營銷售策略,是至關重要的。
二、研究思路
為了挖掘出影響各個銷售途徑、各個銷售區域的銷售額的主要商品類別,最終為批發銷售商提供智慧的經營銷售策略,我們在獲取了兩種不同銷售途徑和三種不同銷售區域下的六類商品的銷售額數據的基礎上做了三步研究。
第一步,通過數據預處理判定某一商品對某一銷售途徑或區域的影響。為了量化影響,需要從該商品在此途徑或區域的銷售額均值進行分析,單個商品均值高的,對整個銷售途徑或區域的銷售總額影響較大;其次,方差代表銷售額的不確定性,也造成了一定影響。故,我們使用標準差系數來表示某個商品的影響,標準差系數越大,其均值的代表性越小,對整個銷售途徑或區域的銷售總額影響也越小。
第二步,通過建立系統聚類分析模型,區分出主要影響商品這一類。由于需要分類,且分類情況未知,所以可以進行聚類分析。利用各個銷售途徑或區域六類商品的銷售額標準差系數進行系統聚類,聚成3類,聚類中心最小的那一類為均值影響代表性最好的那一類。
第三步,為批發銷售商提供智慧的經營銷售策略。這個策略主要是,指出在某一銷售途徑和銷售區域組合中,影響銷售額最大的商品類別。
三、研究過程
(一)數據預處理
標準差系數越大,說明數據的離散程度大,其平均數的代表性就差;反之,標準差系數小,說明其均值代表性強。
通過運用統計軟件對原始數據進行統計描述,并加工整理,得表1:
(二)系統聚類模型
1.建模思路
此模型用于區分出,對整個銷售途徑或區域的銷售總額有較大影響的那一類商品。首先,對各個銷售途徑或區域的銷售數據進行統計描述,得出各個商品的銷售額均值和方差;其次,對所得數據進行處理,得到各個商品在各個銷售途徑或區域的銷售額標準差系數;最后,利用系統聚類得到對整個銷售途徑或區域的銷售總額有較大影響的那一類商品,并提出智慧的經營銷售策略。
2.模型結果
(1)對途徑一的六類商品進行系統聚類的結果
分別利用途徑一各類商品的標準差系數進行聚類,采用組間連接聚類方法,并采用平方Euclidean距離的度量標準,得到最優聚類分3類,系統聚類結果如下:
(2)六類商品進行系統聚類的結果
采用與途徑一相同的聚類方法,分別對途徑二、區域一、區域二和區域三中各類商品的標準差系數進行聚類,其聚類結果如表3-6:
(三)結果分析
由聚類結果可以得到對整個銷售途徑或區域的銷售總額有較大影響的那一類商品,結果匯總表如表7-8:
由上表可知,分銷商來說,影響途徑一的主要商品類別為:保鮮品、雜貨商品,其中;影響途徑二的主要商品類別為:雜貨商品;影響區域一的主要商品類別有四個,分別為:保鮮品、乳制品、冷凍開支、熟食產品;影響區域二的主要商品類別也是四個:保鮮品、乳制品、雜貨商品、熟食商品;影響區域三的主要商品類別為:保鮮品、雜貨商品。
四、研究結論
對銷售商來說,銷售商品的方法就是途徑與區域相結合的。因此,在制定經營銷售策略時,主要定向分析某一區域某一商品的銷售,根據表8來定性確定。具體為:在區域一中,采用途徑一時,主要銷售保鮮品,采用途徑二時,這六種商品則沒有什么差別,可以酌情均勻銷售;在區域二中,采用途徑一銷售商品時,主要銷售保鮮品、雜貨商品,采用途徑二銷售商品時,主要銷售雜貨商品;在區域三中,采用途徑一銷售商品時,主要銷售的是保鮮品,雜貨商品,而采用途徑二銷售商品時,主要考慮雜貨商品。綜合以上各區域采用不同的銷售途徑銷售商品時,銷售的側重點不同,企業酌情搭配其他產品便是相對優秀的經營銷售策略。
參考文獻
[1]何曉群.多元統計分析[M].北京:中國人民大學出版社,2008.
[2]楊桂元,黃己立.數學建模[M].安徽:中國科學技術大學出版社,2008.
[3]李柏年,吳禮斌等.MATLAB數據分析方法[M].北京:機械工業出版社,2001.
數學建模聚類分析范文4
關鍵詞:礦用呼吸防護用具;設計分析;造型
研究礦用呼吸防護用具造型相關的設計,需要從用戶的描述性語言中得出數據化的造型設計依據。借助感性工學的方法,建立感性意象詞匯對與形態設計。
1礦用呼吸防護用具造型設計分析
防護用具主要研究礦用呼吸防護用具造型與影響消費者的感性意象之間的關系。通過構建數學模型,建立清晰的對應關系,為造型設計的選擇提供詳實的參考依據。
2礦用呼吸防護用具感性意象空間的建立
2.1典型感性意象詞匯對的選取
2.1.1感性意象詞匯對的收集感性意象詞匯對具有主觀特征,是指被試者在觀察實驗對象時,結合自身認知經驗,經由大腦進行信息加工處理后所形成的感受。感性意象詞匯對的收集應該盡力涵蓋不同用戶對于礦用呼吸防護用具的主觀感受。為了提高感性意象詞匯對的用戶感受的描述維度,在收集之初,采用收集語義相反的感性意象詞匯對的形式(如小巧的、笨重的)。本研究主要通過文獻資料查閱和專家訪談的形式進行感性意象詞匯對的收集,相關文獻資料的來源主要有:①電商網站平臺評論數據:京東、天貓官網對于工業口罩的用戶評價信息。②3M重松等呼吸防護用具廠商相關產品設計書及感性工學相關文獻資料。③蓋得排行、百度排行等產品測評機構,網絡測評平臺推文??偣彩占c礦用呼吸防護用具相關感性意象詞匯對50對,由于詞匯對數量較大,需要對相關詞匯對進行進一步篩選與聚類,得到數量上盡可能少,描述涵蓋盡可能廣的代表詞匯對來進行后續的用戶測試和統計學分析。2.1.2感性意象詞匯對的卡片分類釋義篩選初步收集的詞匯對可能存在詞義和語義重復等問題,需要相關專家對所收集的詞匯對進行卡片分類釋義篩選,刪去不合理的詞匯對,合并意義相同的詞匯對等。同時,通過卡片分類得到親和圖,顯示詞匯對之間的親近性關系分組,也可為后續聚類實驗的實驗結果進行合理性驗證。2.1.3感性意象詞匯對的多維尺度相似性分析多維尺度分析法(MDS,MultidimensionalScaling)是一種對大量數據或變量進行降維處理的探索性分析技術,通過推斷變量之間的多維空間結構來幫助設計者尋找被試用戶的行為以及心理活動的潛在分類結構[1]。2.1.4感性意象詞匯對的聚類分析聚類的實質就是將性質相似的變量聚集在一起,聚類分析進行分類的唯一依據是對象間的“相似性”。計算時采用數學上的“距離”來衡量,對象間距離越小,對象越相似,將距離相似的歸為一類;同時使不同類的距離最遠,就是聚類分析方法的原理。聚類分析最常用的方法有系統聚類法和K-均值聚類法;系統聚類法采用自上而下的分解法,將所有對象視作一個大類逐步剝離;或者采用自下而上的凝聚法,將每個對象視作單獨個體逐步融合;K-均值聚類法需要先指定K個中心點,計算所有點和K個中心點的距離,按照距離最近的原則確定每個點的歸屬,再重新計算每類的中心,不斷重復計算調整中心點位置,直到達到臨界值為止。采用系統聚類法,一旦變量被分入一類后,就不會再被取出,因此通過系統聚類法得到的聚類結果是不可靠的。而K-均值聚類法雖可不斷重復迭代計算聚類中心,但需要事先給出合適的聚類數量。因此,采取先進行系統聚類觀測合適聚類個數,再通過K-均值聚類得到聚類中心的方法。依據系統聚類的結果,最終選取7類作為聚類中心。運用SPSS軟件中的K-means聚類,最大迭代次數設置為10,收斂性標準設置為0,最終得到7個中心點。通過SPSS可以自動生成每個感性意象詞匯對與其所屬類型中心點的距離,選取每類中距離中心最近的詞語作為該類型的代表,最終得到典型的7對感性詞匯對。為了論證K-均值聚類分析結果的可靠性,選用方差分析和顯著性檢驗進行結果驗證。F值表征顯示變量對聚類結果的貢獻情況,值越大,表明其再聚類時的分辨作用越大,Sig值表征顯著性;Sig小于0.05表征具有顯著差異,說明聚類分析結果劃分是合理的。
2.2典型礦用呼吸防護用具樣本的選取
為了建立礦用呼吸防護用具的感性意象空間,需要對相應樣本進行收集。借助文獻研究以及網絡調查等相關渠道,共搜集了近70款不同造型樣式品牌的工業級呼吸防護面罩圖片。礦用工業呼吸防護樣本需要被進一步篩選,來去除外觀形態相似以及重復的樣本。同時需要對所收集到的圖片進行灰度處理,消除產品顏色與材質對后續實驗的影響,需借助PS軟件對樣本圖片進行進一步處理。礦用呼吸防護用具樣本的聚類實驗通常采用專家評價法,將觀察到的37例灰度處理樣本進行一次不限定組合個數的分類,并對兩兩組合之間進行相似性打分。根據被試者對37例灰度處理圖片的相似性打分形成的6個37×37的相似性矩陣,對其求取平均值后獲得平均相似性矩陣,轉換為距離矩陣后運用交替最小方差法求取不同樣本的維度坐標值。
2.3礦用呼吸防護用具語義差異量表的建立
感性工學心理學測量方法是通過測量被試者的心理反應,從而測量感性。語義差異法,也稱SD法,是著名心理學家查爾斯·埃杰頓·奧斯古德(CharlesEgertonOsgood)所創造出的方法。當受測者接受不同程度的外在刺激后,用問卷的方式去陳述自己的感受。問卷的信息視為感受量,利用多次元尺度法或圖形理論法將其構造化,從而將人的感性信息轉變為定量的數據。被試驗者對研究者給出的實驗樣本進行評價等級選擇,得到“感性”的實驗數據[2]。將經過多維尺度分析和聚類分析獲得的7組感性意象詞匯對分列兩端,使被試者對十二例典型礦用呼吸防護用具樣本進行偏向打分。選用等級量表,分發給煤礦相應工作人員,共收集問卷59份。排除可疑問卷(填答時間過短、問卷答案高度重復等)后,統計量共計47份。為了驗證問卷數據的可靠性,選用皮爾遜相關系數分析,將被試者對每個礦用呼吸防護用具樣本的每對感性意象詞匯對下的打分平均值分別與該樣本下所有形容詞打分的平均值作相關分析。計算相關系數以及對應的雙尾顯著性檢驗,7對感性意象詞匯對的雙尾顯著性均小于0.05,且相關性都較強認為這些詞匯對對整體打分結果均具有顯著影響,可以保留。
3礦用呼吸防護用具造型形態設計要素的分析
礦用呼吸防護用具的主要工作原理是使空氣通過具有特殊過濾顆粒物的防護濾網/濾盒,將過濾后的可吸入空氣輸送進入人體,同時將人體呼吸排出的氣體通過單向氣閥排出具有密閉效果的面罩腔體。濾盒過濾面積大小、面罩腔體大小、面罩密閉性等問題都是礦用呼吸防護用具的重要設計問題。礦用呼吸防護用具的產品模塊可解構為主體、濾盒、進氣閥、排氣閥、貼面、頭帶、標識、裝飾物模塊,按照不同模塊的形狀、大小、位置關系等相關因素分類可被分為29小類。
3.1連續性項目差異性檢驗
涉及大小的數據,其類目小、適中、大是存在連續性漸進關系的,故可以通過連續的體塊圖案進行表示。涉及大小類數據的項目有主體正面面積大小、主體側面厚度、主體重量、濾盒正面面積大小、貼面正面面積大小和貼面側面厚度。
3.2非連續性項目差異性檢驗
非連續性項目是指項目類目間并不存在連續性關系,如形狀的類目(水滴式、五星式、圓式、類方式、頭盔式)、涉及位置關系的類目(正前式、兩側式、頭頂式)。
4礦用呼吸防護用具造型特征與感性詞對之間數學模型的建立
4.1為了挖掘典型礦用呼吸防護用具樣本與典型感
性意象詞匯對之間的內在聯系,將抽象的描述性意象通過具象的數據表征表達,需要建立二者之間的數學模型。數量化理論作為多元統計分析方法,將定性與定量變量一體化,納入說明變量的范疇。將未用數值表示的數據資料,改由從量上探索與處理。由林知己夫于1950年提出Ⅰ、Ⅱ、Ⅲ和Ⅳ型數量化理論,其中數量化理論Ⅰ類主要是進行預測與觀察自變量對因變量的作用??蓪⒌V用呼吸防護用具解構的項目及其對應類目作為自變量,將感性意象的評價值作為因變量,利用數量化理論Ⅰ類可以很好地構建預測數學模型。4.2以礦用呼吸防護用具形態特征解構項目及其對應類目作為評價對象,其典型感性意象作為評價目標,完成感性評價實驗后,可得到用戶對于不同設計項目類目的意象性感受。實現了將描述性、通俗化數據向準確性、標準化的建模過程,為后續的設計可以提供可靠的設計依據。
5小結
首先,本文通過文獻分析、專家訪談等方法收集礦用呼吸防護用具相關感性詞匯對及樣本圖例。借助多維尺度分析、系統聚類及K-均值聚類,對詞匯對及樣本圖例進行聚類歸納,獲得典型感性意象詞匯對及典型礦用呼吸防護用具樣本。隨后,通過語義差異問卷,獲取用戶對于不用樣本的感性意象偏好,建立感性意象空間,將其作為數學模型建構的因變量。接著,對礦用工業呼吸防護樣本進行形態特征解構,對解構的形態特征類目項目進行篩選以及內部相關性分析,排除干擾后,將其作為數學模型建構的定性自變量。最后,借助數量化理論Ⅰ類,實現數學模型未知系數的求解,獲得礦用呼吸防護用具感性意象與形態設計項目類目之間的關系方程,為造型設計的選取提供基于用戶的設計參照,并以“溫暖、環保、輕便、素凈”感性意向為例進行數據分析。
參考文獻:
[1]孔鵬.礦井粉塵現狀及綜合防治技術[J].西部探礦工程,2020,32(08):105-106.
數學建模聚類分析范文5
關鍵詞:數據挖掘;聚類劃分;聚類
中圖分類號:TP393 文獻標識碼:A 文章編號:1007-9416(2017)04-0151-02
隨著網絡應用于各個領域,隨之也產生了海量的網絡數據,并且這些數據是雜亂的,無規則的。對于信息數據的爆炸式的增長,而如何分析處理這些收集到的海量數據,是數據挖掘面臨的首要問題。數據挖掘(Data Mining),即是從大量的、不規則的、有噪聲的、模糊的數據中,提取隱藏在其中的、人們事先不知道的、但又潛在有用的信息和知識的過程[1]。聚類分析是數據挖掘領域中研究的一項重要課題,對于收集到的海量數據,通過聚類分析,發現相似數據間的知識特征,不相似數據間的數據屬性之前存在較大差異,并以此規則進行數據分類,分類后的同類的數據對象之間的有一定的相似度,不同類的數據對象之間的相似度較小,每一組數據都是相似對象的集合,通過分析可以獲得同類數據對象的數學模型和數據特征。
1 聚類
聚類是一個將數據劃分為若干簇或類的過程,它將物理的或抽象的數據的集合分組成多個簇或類,每個簇或類中的數據特征有較高的相似性,不同的類或簇中的數據特征則不相似,這一分類過程就是聚類的過程。聚類分析就是從給定的數據集中找出同類數據對象之間的聯系,被分為同一類的數據對象,由于數據特征相同,常常被當作一個對象來進行分析處理,通過對不同數據集之間的分析,挖掘出潛在的,有用的數據知識模型,為用戶提供決策。對于聚類算法,很難有明確的分類標準,這些聚類方法一般具有某些類別特征。
2 聚類算法的分類
2.1 基于劃分的聚類算法
假定數據集包含n個數據對象或數據元組,要將數據集通過聚類劃分成K(K≤n)個簇或類,劃分的簇或類要滿足下列三個條件:(1)每個簇或類中包含r(r≥1)個數據對象或元組;(2)任意一個數據對象或元組只能屬于一個簇或類;(3)簇或類的劃分準則是:在同一個簇或類中的數據元組特征是相似的,不同簇或類中的數據元組特征是不相似的。
基于劃分的聚類算法,依據初始數據集劃分數目K,構建一個初始聚類劃分,然后利用迭代重定位技術,將每個數據元組在各個聚類簇中進行劃分,原則是:同一個劃分簇中的對象或元組數據特征相似,不同劃分簇中的對象或元組數據特征有較大的差異,通過迭代重定位,把數據集N最終劃分成了K個簇[2]。典型的基于劃分的算法有:K均值聚類和K中心點聚類。
2.2 層次方法
層次聚類算法是將數據對象組成一棵聚類樹,根據層次分解的方法,對數據集進行層次分解,直到滿足某種條件為止[3]。層次聚類方法有兩種,一種是自底向上的合并方法,一種是自頂向下的分裂方法。層次聚類的方法的劣勢在于:一旦Q定采用具體的分裂法或合并方法后,如果中途發現此種方法并不合適,則無法返回更正。常見的層次聚類方法有:BIRCH(利用層次方法的平衡迭代歸約聚類算法)、CHAMELEON(動態建模的層次聚類算法)。
2.3 基于密度的方法
基于密度的聚類劃分:給定密度閾值,如果某個區域中數據點的密度大于密度閾值,則數據點屬于相近的劃分聚類,這種劃分方法將數據集看作是數據空間中被低密度區域分割開的大密度區域?;诿芏葎澐值姆椒ù硇缘乃惴ㄓ校篋BSCAN(基于高密度連通區域的聚類算法)、DENCLUE(基于密度分布函數的聚類算法)。
2.4 基于網格的方法
基于網格的聚類劃分方法是將數據對象空間分為若干個網格單元,聚類的過程就是對這些網格處理的過程,基于網格的聚類劃分的優點是處理速度快,處理速度受限于量化空間中每一維的單元數目,而于網格單元數目無關?;诰W格劃分方法的典型算法有STING(統計信息網格聚類算法)和WaveCluster(小波變換聚類算法)。
2.5 基于模型的方法
基于模型的聚類方法有個假定前提:每個聚類劃分都可以構建一個數學模型,聚類就是找到每個聚類簇相對應的數據模型的過程。數據集潛在的假定符合一系列的概率分布,數學模型算法可能數據點在空間中的分布密度函數或其它。常用的有EM(期望最大化聚類算法)。
3 幾種常用的聚類算法
3.1 K-means劃分聚類算法
通常給定包含N個數據對象的數據集D,將數據集按目標度量函數劃分成K個簇。K-means聚類算法,是采用距離作為聚類的標準,距離越近,認為其相似度越高,聚類過程如下:
(1)隨機從數據集D中選取K個數據對象作為初始點,初始化K個聚類;
(2)對于余下的每個數據元組,計算它與K個劃分類中心的距離,將其歸入距離最近的劃分類中;
(3)更新類并重新計算K個類的中心點;
(4)repeat②,until所有聚類中心點不發生變化,此時對于每一個數據對象,都被分為唯一的一個聚類中。
K-means聚類算法需要用戶給定K個聚類數,并選取K個數據點作為初始聚類中心,如若初始聚類中心選擇不當,就會造成聚類結果有較大偏差;K-means聚類算法迭代的目標函數,隨機選擇的初始中心點,可能會導致聚類結果穩定性不夠,與最優聚類有偏差。
3.2 最近鄰層次聚類算法
層次聚類算法有凝聚層次聚類算法和分裂層次聚類算法;凝聚層次聚類算法,是把數據集合S(包含n個數據對象)劃分成K個子集C1,C2,,…,Ck,每個子集中包含中的數據具有一定的相似性,兩個子集間通常用歐幾里德最小距離度量,如子集ci與子集cj距離為d(ci,cj),其中
其中是把n個數據記錄看成m維空間中的n個對象向量,一般要求:
(1),對一切i,j;當=0時;
(2),對一切i,j;
(3),對一切i,j,k三角不等式成立。
最近鄰層次聚類算法過程:
Step 1:將n個數據對象各自為一個類,即c1,c2,…,cn,其中ci,cj,(i,j≤n)的距離為d(ci,cj);
Step 2:找出dmin(ci,cj),合并ci,cj為同一個類,n=n-1;
Step 3:重新計算各類間的距離d(ci,cj);
Step 4:repeat step2,step3,Until n=1聚類結束。
層次聚類的方法簡單,但是對處理離散點和噪聲數據敏感,如果處理過程選擇不當可能導致低質量的聚類結果,而且層次聚類算法的可伸縮性比較差。
3.3 DBSCAN一種基于高密度連通區域的聚類算法
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)
也是一種基于密度的聚類算法,該算法將高于一定密度的區域數據劃分為一類,且在有噪聲的數據集中發現任意形狀的劃分,一個聚類定義為密度相連的數據的最大集合。DBSCAN算法有以下定義:
(1)對象R的鄰域為給定對象半徑R內的鄰域;
(2)S對象的R鄰域至少有最小數目MinPts個對象,則稱S對象為核心對象;
(3)對于數據對象集合D,如果Q是一個核心對象,且P在Q的R鄰域內,則對象P從對象Q密度可達;
(4)密度可達:對于樣本集合D,給定一串樣本點p1,p2,…,pn,p=p1,q= pn,假如對象pi從pi-1直接密度可達,那么對象q從對象p密度可達。
(5)數據集D中存在對象S,且關于r和MinPts,對象p從對象S密度可達,對象Q從對象S也密度可達,那么對象p到對象q是關于r和MinPts密度相連。
與K-means算法相比,DBSCAN可以發現任意形狀的簇類,也無需事先知道數據形成簇類的數量,并且可以識別出數據噪聲點;但是對于邊界樣本數據的歸類會有所不同,不能很好地反映數據集變化的密度;由于DBSCAN算法不對聚類數據進行預處理,所以當要處理的數據量比較大時,所耗費資源也非常大。
4 結語
本文介紹了數據挖掘中聚類算法的幾種分類,然后詳細分析了目前常用的3個聚類算法,并比較了各自的優缺點。聚類分析是數據挖掘中一種重要的分析數據的方法,通過分析可以看出不同分類的聚類算法各有各的優劣勢,實際使用過程中可以根據實際數據情況來選擇合適的聚類分析算法。由于聚類分析在電子商務、市場分析、生物學等越來越多的領域中得到了廣泛應用,并且數據挖掘在實際應用中取得了巨大的商業價值,可對其進行深入研究。
⒖嘉南
[1]丁金鳳.基于網格與密度的數據流聚類算法研究[D].哈爾濱:哈爾濱工程大學,2010.
數學建模聚類分析范文6
[關鍵詞]大壩安全神經網絡統計模型
中圖分類號:TU19文獻標識碼:A文章編號:1671-7597(2009)1120116-02
建國以來,我國共修建8.4萬余座水壩,這些工程在國民經濟中發揮了巨大的作用。然而,相當一部分大壩存在著某些不安全因素,不同程度地影響工程效益的發揮,甚至威脅著下游千百萬人民的生命財產安全。為此,各級政府對大壩安全監測都十分重視。使用數值模型對大壩進行安全監控是近代大壩安全監測工作中應用的一項新技術[1]。
大壩安全監控模型是根據大壩安全監測資料建立起來的、定量描述大壩效應量(如變形、滲流、應力等)與環境變量(如水位、溫度、降雨等)之間統計關系或確定性關系的數學表達式,應用這些模型可以監控大壩等水工建筑物的今后運行。
一、傳統模型
(一)研究現狀
1955年意大利的法那林(Faneli)和葡萄牙的羅卡(Rocha)等開始應用統計回歸方法來定量分析大壩的變形觀測資料。1977年法那林等又提出了混凝土大壩變形的確定性模型和混合模型[4]。日本的中村慶一等采用回歸分析法分析大壩實測資料,并篩選出顯著因子,以建立最優的回歸方程。Kalkani等采用多項式回歸模型來分析Kremasta拱壩滲壓計測的數據。隨著計算機技術的發展,大壩監測資料的正分析研究也取得了很大的進步,統計模型、確定性模型及其混合模型在生產實踐中得到了廣泛的應用。目前,葡萄牙、法國、意大利、西班牙和奧地利等國家在大壩安全監測以及相關的各項研究方面不同程度處于國際領先水平[3]。
我國在大壩安全監測的資料分析方面的工作起步相對較晚,最初只以定性分析為主,即通過繪制過程線和最大、最小等簡單特征值的統計來分析大壩的運行性態。上世紀70年代陳久宇等開始應用統計回歸分析大壩安全監測資料;80年代中期,開始了對確定性模型及混合模型的深入研究。吳中如等從徐變理論出發推導了壩體頂部時效位移的表達式[8],用周期函數模擬溫度、水壓等周期荷載,并用非線性二乘法進行參數估計,還提出了裂縫開合度統計模型的建立和分析方法、壩頂水平位移的時間序列分析法以及連拱壩位移確定性模型的原理和方法,并在實際工程中得到了成功應用。河海大學于1985年首先將確定性模型的理論用于佛子嶺連拱壩結構性態分析,取得較好的效果。徐洪鐘等針對統計回歸計算中出現的水壓因子難以入選和入選以后計算結果不合理的困難,應用偏最小二乘回歸建立壩頂水平位移的統計模型,消除了多重共線性的問題,取得較合理的結果[6]。
(二)統計模型
統計學模型是憑樞紐本身積累的運行經驗,按過去實測的原因量與效應量的相關關系,來預測在現今相應關系下的效應量。統計模型是大壩安全監測資料分析中最常用的模型,是建立混合模型的基礎。大壩安全監測領域常用統計模型采用的分析方法有:多元線性回歸、逐步回歸以及近年來興起的偏最小二乘回歸[7],這方面國內各單位已積累了比較豐富的經驗。建立統計學模型關鍵是如何正確選擇回歸因子。
混凝土大壩的變形δ主要受水壓H、溫度T以及時效θ的影響,大壩的統計模型可以表示為:
(三)確定性模型
確定性模型以演繹法為建立模型的法則,結合大壩和地基的實際工作性態,按照設計要求用有限元方法,計算建筑物重要部位的效應量,然后與實測值進行優化擬合,以求得調整參數,從而建立確定性模型。確定性模型是施工期、蓄水期以及運行期進行數據解釋唯一可行的理論模型。然而由于建立確定性模型要對壩體和基巖的結構、力學性能、變形規律進行正確模擬,其難度比建立統計模型要大,工作量也多的多。
混凝土大壩任一觀測點的位移確定性模型的一般表達式為:
(四)混合模型
混合模型是確定性模型和統計模型的一種混合形式。對于一些缺少足夠的壩內溫度資料的大壩,在建立模型時,溫度因子同統計模型的溫度因子,水壓因子與確定性模型相同,用有限元計算求得,時效因子與統計模型相同,這樣建立的模型即為混合模型。
混合模型的表達式為:
二、新模型
(一)研究現狀
20世紀80年代以來,國內外對數學監控模型的研究逐漸向縱深方向發展,模糊數學、灰色理論、神經網絡、小波分析、混沌動力學等各種理論和方法也紛紛被引入到大壩安全監測資料分析中來,并取得了一定的成果。
1982年,我國學者鄧聚龍在國際會議上首先提出灰色系統(GreySyst
em,GS)理論。隨后,許多學者將其應用于實踐。吳中如等從灰色系統的基本原理和方法著手,將水壓、溫度等因素白化,建立了壩體應力灰色預測模型。徐洪鐘等將模糊數學與神經網絡相結合,把構成組合模型的各個子模型作為網絡學習矩陣的輸入,建立了土石壩的沉降組合模型,采用自適應模糊神經網絡進行組合預報。楊杰等應用灰色系統理論建立了土石壩變形的灰色非線性模型GM(1,1;a),并對其適用性進行了探討。何鮮峰、顧沖時等利用分形插值算法建立效應量確定性分量預測模型,然后對實測數據和確定性分量預測結果間的誤差序列通過相空間重構建立混沌分量預報模型,再以二者疊加組成最終混合預測模型。該模型解決了常規統計模型由于模型因子選擇不當和環境量觀測誤差引起的模型失真問題。
(二)灰模型
灰理論是鄧聚龍教授1982年在國際上首先提出的,近年來主要用于對力學系統的分析描述,建立數學模型及預測等。我們知道在大壩的位移中存在兩部分位移:彈性位移和隨時間及荷載而變的非線性位移(俗稱時效位移)。其中,彈性位移利用有限元等計算方法較易獲得。但是,影響大壩失效變形的因素極為復雜,既有已知因素又有未知因素,因此,大壩的位移是灰色的,大壩是一個極其復雜的灰色系統。相應的,這種系統的逆過程稱之為灰色的逆過程。通過這種逆過程所獲得的模型稱為灰色模型。
灰關聯模型建模的基本原理是按照被影響因素與影響因素之間的關聯度,逐步選取顯著變量來建立灰色模型,通過擬合效果的檢驗即可建立較優GM(1,N)模型。
(三)神經網絡模型
由于大壩在氣候和荷載作用下的動態響應是極其復雜的,受諸多因素的影響。內在因素主要有地質條件及構造的高度非線性、筑壩材料及介質的各向異性,外在因素主要有水荷載、降雨量、溫度等因素以及人類活動的影響。這些內、外因素相互耦合使得效應量與因子之間的關系表現出很強的非線性特征。我們可以利用神經網絡的自組織、自適應、自學習的非線性映射能力,建立大壩安全監控的神經網絡模型。
(四)模糊聚類分析模型
盡管原型觀測資料真實地反映了大壩各觀測物理量的實際情況,但是它們之間是一種模糊關系。因此可以用聚類分析法對大壩觀測數據進行分析。
把大壩看成一個模糊綜合體,首先以數據迭代法為基礎,求出各種因子對應于不同分級的“聚類中心”,結合預報日的各因子觀測值進行二次聚類分析,以實現對位移的逐日預報。這種方法的優點是只需一次性大量的數據迭代運算,求出“模糊聚類中心”,即可在計算機上進行位移的逐日預報。此法運算量很少,而且精度較高。
三、其他模型
近年來,大壩原型觀測資料分析工作逐漸向縱深方向發展,除了以上敘述的模型之外,時間序列、波譜分析等多種方法也被引入大壩安全監測資料和大壩結構性態的正反分析。吳中如、顧沖時等人通過引入空間三維坐標,提出了混凝土壩空間位移場的時空分布模型,將單測點模型拓寬至空間三維;賴道平等應用Hurst重標度和分形學理論分析時間序列數據,研究了混凝土重力拱壩變形的分形特性,評價裂縫對大壩結構性態的影響,并且由此對大壩的安全狀況作了評價。還有學者提出大壩安全監控的位移分布模型、數字濾波模型等,大大豐富了大壩安全監控數值模型。
四、展望
綜上所述,在國內外大壩及邊坡安全監控分析模型中,統計模型、確定性模型和混合模型得到普遍的應用,模糊數學、灰色系統、神經網絡等方法也得到初步應用,對大壩的性態分析方法有了長足的進展。但大壩是一個復雜的非線性系統,如何研究開拓和利用新理論和新方法,有效克服傳統建模方法的不足,解決建模技術的關鍵問題將是今后大壩安全監測資料分析工作的發展方向。隨著傳統模型的不斷改進和新方法、新模型的涌現,資料分析處理工作會不斷得到改進,這將有力的促進大壩安全監控的發展,更好的為消除大壩安全隱患和水庫安全運行服務。
參考文獻:
[1]王德厚,大壩安全監測與監控[M].北京:中國水利水電出版社,2004.
[2]吳中如,水工建筑物安全監控理論及其應用[M].北京:高等教育出版社,2003.
[3]黃紅女、周瓊、華錫生,大壩安全監控理論與技術研究現狀綜述[J].大壩與安全,2005(2):54~57.
[4]陳維江、馬震岳、董毓新,建立大壩安全監控數學模型的一種新方法[J].水利學報,2002,(8):91~95.
[5]包騰飛、吳中如、顧沖時,基于統計模型與混沌理論的大壩安全監測混合預測模型[J].河海大學學報,2003,31(5):534~538.
[6]徐洪鐘、吳中如,偏最小二乘回歸在大壩安全監控中應用[J].大壩觀測與土工測試,2001(6).
[7]周光文、袁曉峰,大壩安全監測統計模型的比較與選擇[J].南昌大學學報(理科版),2007,31(6):590~593,609.
[8]吳中如,混凝土壩觀測物理量的數學模型及其應用[J].華東水利學院學報,1984(3):20~25.
[9]鄧念武、邱福清、徐暉,BP模型在土石壩資料分析中的應用[J].武漢大學學報(工學版),2001,34(4):17~20.