前言:中文期刊網精心挑選了數據分析的方法范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
數據分析的方法范文1
關鍵詞:粗糙集理論;數據分析方法;信息系統;決策表;屬性約簡
中圖分類號:TP18 文獻標識碼:A文章編號:1009-3044(2007)06-11651-01
1 引言
粗糙集(Rough Set)理論[1]是波蘭數學家Z.Pawlak于1982年提出的,它建立在完善的數學基礎之上,是一種新的處理含糊性和不確定性問題的數學工具。其主要思想是在保持分類能力不變的前提下,通過知識約簡,導出問題的決策或分類規則[2]。由于粗糙集理論不需要任何預備或額外的有關數據信息,使得粗糙集理論成為研究熱點之一,被廣泛應用與知識發現、機器學習、決策分析、模式識別、專家系統和數據挖掘等領域。
屬性約簡是粗糙集理論中核心研究內容之一[3]。在眾多的屬性約簡算法中,大致可以分為兩類:一類是基于信息熵的啟發式算法[4],這類算法往往不能得到系統的所有約簡.另一類是基于區分矩陣和區分函數構造的算法[5],這種算法直觀,易于理解,能夠計算出所有約簡。但在區分矩陣中會出現大量的重復元素,造成時間和空間的浪費,從而降低了屬性約簡算法的效率。
本文基于數據分析方法[6]的屬性簡約算法是在保持分類能力不變的前提下,逐個約去冗余的屬性,直到不再有冗余的屬性,此時得到的屬性集是最小屬性集,即為約簡。該算法簡單,能夠求出所有約簡,不會出現區分矩陣中大
量的重復元素,從而提高了屬性約簡的效率。
2 粗糙集概念
定義2.1設U為所討論對象的非空有限集合,稱為論域;R為建立在U上的一個等價關系族,稱二元有序組S=(U,R)為近似空間。
定義2.2令R為等價關系族,設P?哿R,且P≠?I,則P中所有等價關系的交集稱為P上的不可分辨關系,記作IND(P),即有:[x] IND(P)= ∩ [x]R,顯然IND(P)也是等價關系。
定義2.3稱4元有序組K=(U,A,V,f)為信息系統,其中U為所考慮對象的非空有限集合,稱為論域;A為屬性的非空有限集合;V=∪Va,Va為屬性a的值域;f:U×AV是一個信息函數,?坌x∈U,a∈A,f(x,a)∈Va。對于給定對象x,f(x,a)賦予對象x在屬性a下的屬性值。信息系統也可簡記為K=(U,A)。若A=C∪D且C∩D=?I,則S稱,為決策表,其中C為條件屬性集,D為決策屬性集。
顯然,信息系統中的屬性與近似空間中的等價關系相對應。
定義2.4設K=(U,A,V,f)為信息系統,P?哿A且P≠?I,定義由屬性子集P導出的二元關系如下:
IND(P)={(x,y)|(x,y)∈U×U且?坌a∈P有f(x,a)=f(y,a)}
則IND(P)也是等價關系,稱其為由屬性集P導出的不可分辨關系。
定義2.5稱決策表是一致的當且僅當D依賴于C,即IND(C)?哿IND(D),否則決策表是不一致的。一致決策表說明:在不同個體的條件屬性值相同時,他們的決策屬性值也相同。
定義2.6設K=(U,A)為一個信息系統。若P?哿A是滿足IND(P)=IND(A)的極小屬性子集,則稱P為A的一個約簡,或稱為信息系統的一個約簡。
定義2.7設K=(U,CUD)為一個決策表,其中C為條件屬性集,D為決策屬性,若P?哿C為滿足POSC(D)=POSP(D)的極小屬性子集,則稱P為決策表K的一個約簡。其中POSC(D)表示決策D關于屬性集C的正域。
定義2.8數據分析方法對于信息系統K=(U,A),逐個移去A中的屬性,每移去一個屬性即刻檢查新得到的屬性子集的不可分辨關系,如果等于IND(A),則該屬性可被約去,否則該屬性不可被約去;對于決策表K=(U,CUD),逐個移去C中的屬性,每移去一個屬性即刻檢其決策表,如果不出現新的不一致,則該屬性可被約去,否則該屬性不可被約去。
3 基于數據分析方法的屬性簡約算法
3.1 算法思路
利用函數的遞歸調用,逐個判定信息系K=(U,A)中屬性a(a∈A),若IND(A)=ND(A-{a}),則a可以約去,A‘=A-{a},否則a不可以約去,繼續檢查A‘中的每個屬性是否能被約去,此過程一直進行下去,直到出現某一屬性子集中的每個屬性都不可約去為止,此時該屬性子集即為所求的屬性簡約。對于決策表,每次檢查是否增加了不一致的決策規則,作為是否約去屬性的依據。
算法如下:
輸入:信息系統K=(U,A)。
輸出:K的屬性約簡。
Match(A') // A’=A-{a}//
begin
for i=1to|U|-1 //|U|表示U的基數//
for j=i+1to|U|
begin
r=|R|//|R|表示屬性個數//
if((f(ui,a1)= f(uj,a1))∧(f(ui,a2)= f(uj,a2))∧….∧(f(ui,ar)= f(uj,ar)))
then a不可被約去,return0
end
a可以被約去return1
end
Reduce (A)
begin
flag=1
for i=1 to |R|//|R|表示屬性個數//
begin
a=ai
A'=A-{ai}
if match(A')thenflag =0 , reduce (A’)
if (flag且A未被輸出)then
輸出A中所有元素//flag≠0,說明A中所有元素不可移去,且不會被重復輸出//
End
end
以上給出的函數是求解信息系統的屬性約簡算法;對于決策表,只要將Match(A’)函數中的if語句的條件換成(f(ui,a1)= f(uj,a1))∧(f(ui,a2)= f(uj,a2))∧….∧(f(ui,ar)= f(uj,ar))∧(f(ui,ag)≠f(uj,ag)),r=|C|是條件屬性個數,ag是決策屬性。Reduce (A)函數中|R|換成|C|即可。該算法適用于一致決策表,對非一致決策表,算法類似,也就是逐個移去屬性并檢查決策表是否出現新的不一致,作為約去此屬性的依據。
4 舉例
文獻[7]中決策表1,a,b,c,d,e是條件屬性,g是決策屬性,求出的約簡是{a,b,d}
應用本算法,求得的屬性約簡為{a,e}和{a,b,d},得到決策簡化表2和表3。
表1 決策表表2簡化表表3簡化表
如果將決策表表1看作一信息系統,運用本算法,求得的屬性約簡有{c,d,e,g}, {b,e,g}, {a,c,d,g}, {a,c,d,e}, {a,b,g}, {a,b,e}h和{a,b,d}
5 結束語
本文通過數據分析方法討論了屬性約簡問題。該算法是基于不可分辨關系的,具有直觀、易于理解和完備性的特點。當屬性和對象都較少時,效率較高,但當屬性和對象較多時,計算的復雜度較高。實例表明,該算法是有效的。
參考文獻:
[1]PAWLAK z.Rough set[J].International jom:ua ofcomputer and information science,1982,(11):341―356.
[2]張文修,吳偉志,梁吉業等.粗糙集理論與方法[M].北京:科學出版社,2001.
[3]Pawlak Z.Slowinski R.Rough set approach to muhiattribute decision analysis.Ivited Review[J].European Journal of Operational Research.1994,72:443-459
[4]王國胤,于洪,楊大春.基于條件信息熵的決策表約簡[J].計算機學報,2002(7):760―765.
[5]Skowron A,Rauszer C.The Discernibility Matrices and Functions in Information Systems[A].I Slowinsk R.ntelligent Decision Support― Handbook of Applications and Advances of the Rough Sets Theory[c].1991,331-362.
[6]劉請.Rough集及Rough推理[M].北京:科學出版社,2001.
數據分析的方法范文2
關鍵詞 自組織映射 組織特異性基因 管家基因 基因表達譜
一、SOM算法介紹
由Kohonen提出的自組織映射(SOM)的神經網絡是神經網絡中適合用于對數據進行分類的有效方法。SOM神經網絡包含一個輸入層和一個輸出層,組織成一個二維的網格結構(圖1.1)。該網絡能夠從任意一個隨機選擇輸入的結點開始最終形成一個拓撲結構的映射,這個映射反映了輸入模式的內在的關系。但是運用SOM有一些參數的限制,首先需要指定類別數目,對映射空間結點進行權值的初始化等。如(圖1.1)所示,SOM網絡是一個的映射,如果這個神經元被安排在一個平面網格上面的話,這個神經網絡就稱為二維神經網絡,因為這個網絡將一個高維的輸入向量映射到一個二維的平面上面。給定一個網絡,輸入向量是一個維的向量,相應的第個突觸向量的第個元素與輸入向量的第個元素相連,這樣,一個維的突觸向量就和第個神經元實行連接。
圖1.1 SOM網絡的基本結構
SOM算法描述如下:
(1)令網絡學習次數,賦予初始化權值向量一個小的隨機向量值,對拓撲鄰域()、學習率()進行初始化,設置網絡總的學習次數()。
(2)當學習次數()小于總的學習次數()時,重復步驟3至步驟6。
(3)隨機選一個輸入向量進入網絡進行訓練。
(4)確定獲勝神經元,相應的權值向量為與輸入向量距離最短的向量,成為獲勝神經元,輸入向量與獲勝神經元的最短距離為,定義如下:
(1.1)
(5)按照下式更新獲勝神經元及其鄰域內神經元權值向量:
(1.2)
與函數定義如下:(1.3)
(6)令,如果,回到第(3)步繼續訓練,否則結束訓練。
二、數值模擬計算
本文以HUGEindex數據庫中人7000多條基因在19個正常組織中的表達情況這19個組織中表達的基因為樣本對其進行分析。不同組織下的全基因表達數據構成了一個7070x59的數據矩陣,其中每一個元素表示第個基因在第個組織中的表達水平值,行向量代表基因在19個人組織中的表達水平,成為基因的表達譜,列向量代表某一組織的各基因的表達水平。
(1.4)
本文運用SOM方法對人基因19個組織的59個樣本進行聚類,SOM網絡的拓撲結構見(圖1.2)及參數選擇見表(表1.1)。
圖1.2 樣本聚類SOM網絡結構圖
上圖中,根據Genechip得到的人體19個組織的59個微陣列數據所得到的信息,我們采用4x5的二維拓撲結構的SOM網絡對人體組織樣本進行分類(其中第(4,5)個結點為空),圖中每個結點的位置(結點位置用與輸入模式維數相同的向權值向量表示,初始權值由系統自動產生)為各個結點權值尺度化之后所得到的位置。
三、結論
通過分類可以將芯片實驗的59個樣本按照人體組織類別分為19個類別,并且與采用層次聚類法所得結果進行比較,可以看出自組織映射的聚類方法與層次聚類方法比較,可以看出采用SOM網絡聚類方法比層次聚類得到的結果更為明確,其分類正確率達到了92.2%,證明了SOM方法是有效的。
參考文獻:
[1]孫嘯,陸祖宏,謝建明.生物信息學基礎[M].北京:清華大學出版社,2005:282-285.
[2]許東,吳錚.基于matlab6.x的神經網絡系統分析與設計[M].西安電了科技大學出版社,2002.
[3]閻凡平,張長水.人工神經網絡與模擬進化計算[M].北京:清華大學出版社,2005.:11-34,360-395.
作者簡介:
數據分析的方法范文3
【關鍵詞】大數據分析;電網調度能力;方法;應用
0.引言
為了評測區域內電網調度能力,根據調度能力評測結果,調整輸變電調度方案,提高變壓器等主要設備的可靠運行,合理利用電網中各項資源和設備。本發明的目的是提供一種基于計算機實現的評測電網調度能力的方法,該方法通過對電壓、有功功率、無功功率的分析,保持各個變壓器都處于最佳工作狀態,提高設備使用壽命,降低設備故障率,降低設備運行的電能損耗,提高電網運行的可靠性,提升電網調度水平。
1.大數據分析評測電網的現狀
隨著我國城市化的發展逐漸加快,我國對電力的需求也在逐漸的增多,未來十幾甚至幾十年,電力需求的增長主要集中在城市地區。這也就對我國的電網帶來很大的挑戰,城市電網是城市的重要基礎設施,也是電力網的重要組成部分。建設好城市電網對滿足城市經濟發展、人民生活水平提高具有重大意義。但是,由于我國長期以來收著“重主網、輕配網”的思想,導致我國很長一段時間內,對電網的投資非常的少,城市的電網發展普遍落后于高壓電網[1]。導致我國在很長一段時間內,處于用電不平衡的情況,很多的地方在年前或者重大節日之前就會出現的停電的現象。
2.大數據分析評測電網調度能力的具體方法
2.1獲取兩卷變或三卷變高低壓側的監控數據
該方法主要是用根據變壓器端的終端設備,來獲取的,首先通過各地市部署的調度EMS系統,將變電站中各變壓器的運行情況準確的監控,通過變壓器內的監控元件,對變壓器的的運行情況、采集電壓、有功負荷、無功負荷等檢測數據,按指定頻率采集。然后將采集的數據通過生產區的專用網絡進行傳輸,通過生產區的安全交換機制放置到電力系統信息內網,開始清洗、篩選,去除設備檢測的異常數據,保留有效數據用于負載率分析該評測電網調度能力工具通過在信息內網中載入電網運行的監控數據[2]。
2.2得到變壓器實際功率與額定功率的比值
通過對變壓器內高低壓側的檢測數據,計算變壓器實際功率與額定功率的比值,負責率分析,接下來對采集的調度EMS系統的電網運行數據進行計算,負載率有兩種計算方法,一是根據選定的地區、時間段,使用公式二“有功負荷與無功負荷平方根/容量”計算每個時點該地區各個變壓器的負載率;二是根據選定的地區、時間段,使用公式“有功負荷/(容量*0.95)”計算每個時點該地區各個變壓器的負載率[3]。
2.3計算各個變壓器的平均負載率以及平均負載率的平均值
首先要通過選定的地區、時間段,得到該地區在本時間段內各個變壓器的平均負載率以及平均負載率的平均值。然后再計算各個變壓器平均負載率的均方差,由變壓器的均方差,判斷選定區域在該時間段的調度運行能力。主變不均衡度分析,根據選定地區和時間段,統計負載率分析結果,得出平均負載率[4]。根據平均負載率計算各個變壓器平均負載率的均方差,作為變壓器的不均衡度,將結果逐級放大,能夠得出變壓器、變電站、縣公司、市公司乃至網省公司在該時間段的調度健康情況,從而有效的調整調度策略和計劃,改善電網運行情況。
3.大數據分析評測電網調度能力的應用
3.1調度EMS數據采集
要對EMS數據采集,首先要制定EMS系統監控數據的格式,然后加載指定格式的調度數據,其中指定數據額格式要求主要為:(1)按“變電站+地區+變電站電壓等級+主變名稱+時間”的順序排序,每小時記錄一次,主要記錄每個整點、時點的有功、無功負荷該數據容量的單位是MVA,負荷的單位是MW。(2)時間,變電站,地區,變電站電壓等級,主變名稱,繞組電壓,容量,有功負荷值,無功負荷值。(3)變電站的數據采集按照一定的順序進行,不可以同時多個變電站的數據進行采集。
在這個過程中還要對數據進行“清洗”。清洗的流程為:(1)使用8個逗號作為數據的分隔符,分別隔開不同字段的數據。如果有多余逗號或缺逗號或兩個逗號中間為空的行,則該行數據無效。(2)在計算的過程中除了容量、有功負荷值及無功負荷值外,其他各字段如數據超長,則頁面拋出提示錯誤,結束導入。(3)廠站電壓等級為110kV的變壓器容量小于等于100MVA(系統用戶可以在管理端修改此值大?。?,否則該行數據無效。
3.2負載率計算
負載率計算有兩種情況,分別是近似計算和精確計算,其中近似計算效率高,能夠很快得到近似結果。但是在常規檢查時可使用本公式計算;精確計算算法相對復雜、比較耗時,但是計算準確,通常用于分析調度情況時使用。
簡便公式為:
計算要求:
1、選定地區、場站或主變和時間段;
2、根據選定的地區、時間段,使用公式計算每個時點該地區各個變壓器的負載率;
3、使用意義在于根據負載率大小得出各變壓器負載率的最高或最低時點,從而判斷當前電網的負荷情況。
精確公式:
計算方法:
1、選定地區、場站或主變和時間段;
2、根據選定的地區、時間段,使用公式二計算每個時點該地區各個變壓器的負載率;
3、使用意義在于根據負載率大小得出各變壓器負載率的最高或最低時點,從而判斷當前電網的負荷情況。
4.結語
該發明可及時調整調度方案,從而均衡電網的運行負荷,保持各個變壓器都處于最佳工作狀態,提高設備使用壽命,降低設備故障率,降低設備運行的電能損耗,提高電網運行的可靠性,提升電網調度水平,對提高大數據分析電網調度能力具有顯著的作用。
參考文獻
[1]李庚銀,羅艷,周明,等.基于數學形態學和網格分形的電能質量擾動檢測及定位[J].中國電機工程學報,2012,26(03):25-30.
[2]賀仁睦,王衛國,蔣德斌,等.廣東電網動態負荷實測建模及模型有效性研究[J].中國電機工程學報,2015,22(03):78-82.
數據分析的方法范文4
1 傳媒行業進入大數據時代
大數據是一種時代現象,目前主要是商業概念。還未形成嚴謹的學術定義。過去,大數據通常用來形容一個公司創造或手機的大量非機構化和半結構化的數據,如網絡日志、社會關系網絡上的用戶活動數據、互聯網搜索引擎上的詳細搜索記錄等等。對于傳媒行業,大數據指跨媒體或全媒體數據,如電視機頂盒的回路數據、電腦或移動終端收看視頻的數據、社交媒體上對于收看節目的相關評論等。
當下我們提及大數據,還指一種解決問題的方法,即通過手機、整理生活中的方方面面的海量數據,并對其進行分析挖掘,從中獲得有價值的信息,這種對大數據的應用與實踐已經演化出一種新的商業模式,即公司的核心競爭力在于其擁有的數據規模以及它運用這些數據解決問題的能力。這種解決問題的方法在于對各領域情況進行量化分析:信息準確描述,使我們認知不清晰的方面變得清晰,幫助我們去判斷現狀和趨勢、確定未來戰略,在記錄、表述、分析、重組后讓它帶來效益。
傳媒業本身就是生產和傳播信息的產業,大數據時代,傳媒業大有可為:信息源更加豐富,傳媒機構可利用數據資源,量化分析,更好地把握信息;對受眾需求的把握更加準確,傳媒機構可根據受眾需求確定傳播內容和傳播策略,實現精準傳播;傳播效果的反饋對于不斷調整內容和策略,贏得受眾,提示品牌形象有很大幫助。首先數字化,讓電腦處理這些數據即建立數據庫;在數字化基礎上進行數據化,變成軟件可以識別的數據化文本:智慧地使用已有的理論和方法,讓這些數據發揮價值——內容提取、分享、互動,讓它們更好地服務于使用者,挖掘其中的商業性創新價值。然而大數據在中國傳統媒體中的影響目前并未實現,雖然中國少數傳統媒體已經實踐或正在實踐中,對于互聯網媒體,這個領域的實踐已經走在了傳統媒體的前面。
2 借力大數據進行電視受眾分析
2.1 過去的受眾分析方法
其一,過去的人員測量儀,一種可以記錄受眾收看或收聽時間的專門儀器,可以定時反饋給數據中心。其二,日記卡,由受訪者填寫特定格式的表格,記錄自己的收視行為。其三,面訪,通過上門或攔問了解受眾的收視行為。其四,電話訪問,由訪員向目標受眾打電話了解受眾的收視行為。首先,記錄受眾觀看行為的儀器是抽樣的形式安裝到用戶家中的,這種儀器的安裝行為本身對受眾觀看心理有一定影響,從而導致記錄儀器的不準確。其次,觀眾觀看行為的復雜性,這些信息資料龐大,不是簡單的受眾回訪、記錄就能得到準備的數據,需要更高的技術來測量。由此可見,這種簡單的受眾行為分析顯然不能適應當下受眾復雜的行為變化趨勢,也不能夠為電視媒體提供精準可靠的分析數據,我們需要借助大數據進行信息分析。
2.2 利用大數據分析電視受眾行為
首先,海量電視收視樣本監測。利用海量數據收集技術,獲得傳統的電視收視信息、數字電視、智能電視受眾收視行為。目前大部分用戶使用數字機頂盒,通過數字機頂盒可以實現信息的傳送和反饋,而且這些數據包括內容豐富,有電視直播頻道、網絡視頻資源庫、付費點播頻道、特色頻道等等。數字電視的推廣使受眾點播回看、增值業務等行為納入受眾觀看行為內,這是傳統的收視監測難以監測到的。例如在北京市場,北京衛視(高清)、CHC動作頻道等都是傳統收視率監測很難監測到的頻道,而在海量樣本監測中均屬于常規可監測頻道。其次,整合網絡視頻、移動終端視頻觀看行為,量化分析受眾觀看行為。雖然新媒體時代下,互聯網聲稱取代傳統的電視媒體,但調查分析,互聯網視頻觀看內容大部分還是傳統的電視媒體提供的。媒體受眾的行為變遷、跨媒體使用行為的增長,也要求對媒介受眾行為監測更加精細化和綜合化——如何在新媒體環境下更好地把握受眾行為偏好,拓展電視媒體的經營空間,成功實現節目創新和經營創新?成為新時期電視媒體發展的關鍵議題。這就需要借助網絡視頻網站、移動終端視頻觀看數據,精準分析受眾的觀看行為。具體實施方面,需要電視媒體與網絡視頻網站合作,在為其提供視頻資源的同時,電視媒體需要借助網絡視頻網站受眾觀看數據,加上從數字機頂盒獲取的量化信息,進行深入分析,精準把握受眾對節目內容的關注焦點、對節目發展的心理期待、對節目環節的個性意見、對節目品牌的情感歸屬等一系列重要問題,對電視節目的生產編排以及成長發展提供有力支持。再者,利用數據收集加工處理平臺,挖掘受眾喜好,為電視生產制作提供量化信息。大數據之大,重點并不是它的容量大,而在與其強大的數據收集加工處理能力,深入數據分析提取有效信息的能力,這才是大數據的真正價值,誰做到了這一點,就能在市場中獲勝。
目前做電視媒體受眾詳細數據收集與分析的公司是基本上由尼爾森壟斷的,中國并沒有監管收視率調查的行政機構,做電視媒體受眾分析的都是市場調查公司。目前尼爾森、央視索福瑞等調查數據較為權威,雖然價格不菲,但是大多數電視行業數據分析都是這幾家做的。尼爾森根據客戶的具體需求來定制調查方案,對于一般性的調查需求,尼爾森擁有一套在全球范圍內得到認可的專有調查產品和方法,為客戶提供最有力的可比性標準化數據。有少量傳媒集團著手于專業調查機構合作,深入開發大數據的潛在功能,如2012年2月廣東佛山傳媒集團與尼爾森公司合作,寄希望于記住尼爾森大數據分析的平臺,通過對數據的整合、分析、管理,為他們的轉型發展提供戰略性的策略依據。
對于電視媒體的受眾調查分析,尼爾森采用第四代收視測量海量樣本回路數據收視研究,這是全球最新的收視率測量解決方案:受眾觀看行為通過機頂盒的升級,使得機頂盒能夠對觀眾開關機頂盒時間、轉換頻道、使用增值業務等具體操作行為進行精確到秒的準確記錄,被機頂盒記錄的數據通過有線數字電視網絡,在一個高度安全的封閉通路中,傳輸至監測服務器進行多層加密,再通過互聯網回傳至數據處理中心,整個過程遮蔽了認為干擾的可能性,最大限度報紙了數據采集和傳輸的安全性,在理論上達到全樣本測量。因為這些數據量大幾乎達到全樣本測量,需要進行量化分析,這就是大數據的應用。
廣電行業目前處于三網融合的大環境 中,在這個過程中不可避免地相互滲透和交叉,經營上互相合作、互相競爭,內容上出現了融合,內容的融合意味著數據的融合。目前電視媒體對受眾調查分析的意識開始增強,但在實踐中電視媒體并沒有全面應用數據融合帶來的海量受眾數據信息。而IT、家電等外行將利用技術進入廣電領域對電視媒體有一定的警示意義,但是對于擁有優質精心制作的媒資的電視媒體,若能抓住受眾行為在大數據時代下的變化,將是大贏家。
參考文獻:
[1] 王建磊.互聯網電視機頂盒發展現狀及趨勢[J].
數據分析的方法范文5
[關鍵詞] 單核苷酸多態性;聚類分析;基因;數據挖掘
[中圖分類號] R181.2+3 [文獻標識碼] A [文章編號] 1673-7210(2015)09(a)-0036-06
[Abstract] Statistical methods currently used for single nucleotide polymorphisms (SNPs) data cluster analysis are explained, and select five kinds of representative statistical methods, make specific analysis to each method separately. In the discussion process for each method, all divided into 5 parts: principle of the method, calculation methods, formulas, advantages and defects. In the discussion section of the article, all the methods are summarized, and propose future development direction of the cluster method for SNPs data.
[Key words] Single nucleotide polymorphisms; Cluster analysis; Gene; Data mining
在人類的基因組中存在各種形式的變異,其中,單核苷酸多態性(single-nucleotide polymorphisms,SNPs),即單個的核苷酸變異所引發的DNA鏈序列的多態性,是這些變異中最普遍的形式。根據數據統計,在人類含有不低于30億個含氮堿基對數量的基因組中,SNP出現的概率在1/1000左右[1]。如何利用這些信息,建立數字模型,探索這些基因與位點和疾病的關聯,成為了擺在科學家面前的一個富有挑戰意義的課題[2]。
科學家們在長期的研究中,根據“物以類聚”的原始思想,衍生出了對復雜數據或者試驗對象等進行歸類的一種多元統計學分析方法,即現在歸屬于統計學分支的聚類分析(cluster analysis),又稱其群分析。這種統計方法的核心思想從誕生之日起就未更改,即在沒有任何可用來參考的或者依從的規范下(即先驗知識準備程度為零),按照被研究對象或者樣品本身的特點或者性狀,進行最大程度合理的分類。通過聚類分析的計算過程,不僅可以保證在最終所分的類別情況下,同一類別中的對象或者樣品,能夠具有最大程度的相似性,而且使不同類別中的對象或者樣品,擁有最大程度的相異性。以大量相似為基礎,對收集數據來分類,成為了聚類分析計算本身的最終目標[3]。從統計學的觀點看,聚類分析計算是通過數據建模簡化原有數據復雜程度的一種方法,而從實際應用的角度看,聚類分析計算亦是數據挖掘的主要任務之一。高維度高通量SNPs數據聚類分析,是近現代聚類分析中一個非?;钴S的領域,同時也是一個非常具有挑戰性的工作。
目前用于高維度SNPs數據聚類分析的方法有很多種,常用的幾大類有Logistic回歸、潛在類別分析(latent class analysis,LCA)模型、結構方程模型分析(structural equation modeling,SEM)、以決策樹為基礎的分類回歸樹(classification and regression trees,CART)和隨機森林(random forest,RF)算法的分析[4]、基于貝葉斯網絡(Bayesian networks,BNs)模型的分析、基于神經網絡(neural networks,NNs)模型的分析和支持向量機(support vector machine,SVM)的方法等,上述種類的方法各有其適用性,在聚類計算的效能方面也廣泛存在爭議。本文從以上幾類方法中,遴選出應用較廣泛、理論相對成熟的潛在類別分析、分類回歸樹模型、貝葉斯網絡潛變量模型、BP神經網絡模型和支持向量機5種具體方法進行比較,闡述其在SNPs數據聚類分析中的意義。
1 潛在類別分析
誕生于20世紀50年代的LCA方法,其基本原理是通過引入潛變量概念,建立潛在類別模型(latent class model,LCM),在保證維持各個顯變量的數據局部獨立性的基礎上,力圖用少數的潛變量與各個顯變量建立關系,然后以數量相對較小的潛變量進行對象關系解釋。而爭取利用最少數量的且關系上互相排斥的潛變量對各個顯變量的概率分布進行最大程度的解釋,就是潛在類別分析的基本假設,這種假設的思想傾向于各種顯變量對其類別進行解釋的潛變量都有反應的選擇性[5]。潛在類別分析的統計原理建立在概率分析的基礎之上。一個潛在類別模型是由一個(或多個)潛在變量和多個外顯變量組成的Bayes網[6]。
完整的LCM分析過程包括數據概率變換參數化、模型參數估計與識別、模型評價指標選擇、分類結果解釋等[7-10]。
1.1 概率參數化
潛在類別概率和條件概率構成了潛在類別模型概率參數化過程中的兩種參數。假設某數據集含有三個彼此之間不相互獨立的外顯變量,以A、B、C表示,而且每一個顯變量分別具有的水平數為I、J、K。按照假設,若尋找到合適的潛變量X,則X需滿足一下條件:首先,要求合理解釋A、B、C的關系;第二,在潛變量的各個類別之中所有顯變量維持最大的局部獨立性,則為潛在類別分析,如果潛變量X中含有T個潛在類別的話,用數學模型表達就為:
在上式中,LCM的組合概率,用πijkABC表示,相應的,潛在類別概率,以πtX表示,其意義可以解釋為:在觀察變量處于局部獨立的條件下,潛變量X在第t個水平的概率,即從樣本中隨機選取的觀察對象屬于潛在類別t的概率。容易證明,各個潛在類別的概率總和永遠為100%即1,用公式表達為:
條件概率,用πitAX表示,其意義可以解釋成:外顯變量A的第i個水平更傾向于劃歸到第t個潛在類別的個體的概率。由于各個潛變量的各個水平處于相互獨立的狀態,所以各外顯變量的條件概率總和為1,即:
1.2 參數估計與模型擬合
在潛在類別模型的參數估計過程中,最大似然法(maximum likelihood,ML)是被最廣泛使用且計算軟件中默認的方法。EM(expectation-maximization)、NR(Newton Rapson)算法在計算迭代過程中為最常用的方法,而其中前者更為常用。在潛在類別模型評價方面,AIC評分(akaike informationcriterion)和BIC評分(bayesian information criterion)成為使用最為廣泛的擬合評價指標。兩者共同點為:其計算理論基礎都為似然比χ2檢驗,對于模型對應的參數限制不一致的情況下,也可以用來橫向比較,且結果簡單直觀,都是數值越小表示模型擬合越好。Lin與Dayton曾經指出,當研究的樣本數量級達到或者超過千位級時,BIC指標更可靠,否則AIC更佳[11]。
1.3 潛在分類
完成最優化模型的確定之后,就可以利用模型進行計算,將每個外顯變量的數據值分配到判定的潛在類別之中,通過這個過程,完成數據的后驗類別分析,即潛在聚類分析。上述分類的理論依據是著名的貝葉斯理論,分類的計算公式為:
潛在類別分析雖然理論建立時間較早,但是一直依靠著自身的優勢在聚類分析領域有一席之地,其計算思想中融合了結構方程模型與對數線性模型的構思。該算法的目的明確,即數量眾多的顯變量之間的關系,可以用最優化的組合模式,使用最少的潛變量來解釋。結構方程模型只能夠對連續型潛變量處理的缺陷,在潛在類別模型問世后得到了相當程度的彌補,特別在設計思想范圍中,使得研究者以概率論為基礎,能夠通過數據對分類結果之后所隱藏的因素做更為深刻的了解,這些都要歸功于分類潛變量的引入這一有效提高分類效果的方法[12]。
但是,由于該方法的分析原理比較簡單,只是脫胎于貝葉斯概率理論的概率參數化,所以使得該方法在聚類分析過程中,如果SNPS數量較少,則表現出不錯的聚類效果,但如果SNPS數據維度過高,則有失水準。具體表現在高維度高通量的SNPS數據聚類分析過程異常復雜,時間消耗過長,而最終得到的聚類結果也容易在解釋時發生阻礙。
2 分類回歸樹模型
CART[13]不僅可以在已經獲得的數據庫中通過一定的規則提煉出關聯,而且是對隱藏在各種指標中的分類屬性進行量化計算成為可能,其作為數據挖掘技術中的經典聚類分析方法,為高通量SNPs數據的聚類分析制造了一個科學而準確的平臺。分類回歸樹的基本原理為:如果對于已經給定的待分類對象X,已知其可以進行Y個不同屬性的分類,那么該模型將模擬把X逐級遞歸的分解為多個數據子集,并且認為Y在子集上的分布狀態,是均勻并且連續的,而分解的方法為二叉樹分類法。該方法如同自然界中的樹木一樣,數據集X由根部向葉部逐步分解移動,每一個劃分點即樹木分叉點的原因,由分支規則(splitting rules)確定,最終端的葉子表示劃分出的最終區域,而且每一個預測樣本,只能被分類到唯一的一個葉子,同時Y在該點的分布概率也被確定下來。CART的學習樣本集結構如下:
L={X1,X2,…,Xm,Y}
其中,X1~Xm可以稱之為屬性變量,Y可以稱之為標簽變量。但在樣本集中無論是X或是Y,其變量屬性可以容許多種形式,有序變量和離散型變量都可以存在。若Y處于有序變量的數值情況時,模型被稱為回歸樹;若情況相反,稱之為分類樹。
2.1 分類回歸樹的構建
將給定的數據集L轉化成與其對應的最大二叉樹,這個過程稱之為構建樹Tmax[14]。為了尋找到對應數據集的最優分支方法,最大雜度削減算法被運用到構建過程之中。在進行分支時,數據中每個值都要納入計算范圍,只有這樣才能計算出最佳的分支點進行分叉。CART的構建離不開Gini系數的使用。若數據集L中,含有記錄的類別數量為N,Gini系數的表達式就為:
其中,Pj表示T中第N個分類數據的劃分頻率。對于任意的劃分點T,如果該點中所包含的樣本量非常集中,那么該點的Gini(T)值越小,從分類圖上顯示為該節點分叉角度越鈍。欲構建最終的Tmax,就要重復操作,將根節點分支為子節點,而這種遞歸分類的計算,最好利用統籌學中的貪心算法。
2.2 樹的修剪
當Tmax建造好之后,下一步需要對其進行所謂的修剪操作,就是去掉那些可能對未知的樣本分類計算精度上,沒有任何幫助的部分,其目標是處理掉對給定數據集中的噪音干擾的問題,以便形成最簡單最容易理解的樹。通常對樹進行修剪的方法是以下兩種,先剪枝方法(prepruning)與后剪枝(postpruning)方法,兩者都有助于提高已經建成的樹,脫離開訓練數據集后,能夠正確地對未知數據進行分類的能力,而修剪方法都是通過統計計算,將理論上最不可信的分枝去掉。
2.3 決策樹評估
測試樣本評估法(test sample estimates)與交叉驗證評估法(cross-validation estimates)[15]是通常被用來對CART模型進行評估的方法,而前者的使用率更高。該評估方法的原理與多因子降維法有些類似,而且即時效率比較高,在學習數據集囊括的樣本量比較大的情況下,該方法的優越性就更加突出,其原理可以解釋為:將原始的數據集L隨機分成兩部分,分別為測試集L2與樣本集L1,利用L1生成一系列的Tmax,而且按照序列T1>T2>T3>…>Tn,將測試集L2放到序列中的樹模型之中,TK為L2中的每個樣本逐個分配類別,因為L2中每個樣本的原始分類是事先已經知道的,則樹TK在L2上的誤分情況可以利用公式(6)計算:
式中,Nij(2)代表L2中j類樣本劃歸至i類的數量,c(i|j)為把j類誤分到i類的代價,Rts(TK)表示TK針對L2的誤分代價,則最優化樹的條件為:Rts(TK0)=minK(Rts (TK)。
作為一種經典的通過數據集進行訓練并有監督學習的多元分類統計模型,CART以二元分叉樹的形式給出所構建出的分類的形式,這種方式非常容易解釋,也非常容易被研究者理解和運用,并且這種方法與傳統意義上的統計學聚類分析的方法構建完全不一樣[16]。
但是CART方法對主效應的依賴程度很高,無論是每個分支的根節點還是后續內部的子節點,其預測因子都是在主效應的驅動下進行,并且每個節點都依賴于上一級的母節點分支的情況。而且CART方法對結果預測的穩定性上也有缺陷,具體表現在,如果所給數據集中的樣本有小范圍的更改,那么所產生的蝴蝶效應就會導致最終所構建的模型與原始模型的差別很大,當然分類結果也就難以一致。
3 貝葉斯網絡潛變量模型
BNs是一種概率網絡,它用圖形的形式來對各種變量間的依賴概率聯系做描述,經典的圖形中,每一個隨機變量利用節點的方式表達,而變量之間的概率依存關系則利用直線表達,直線的粗細表示依賴的強度。在BNs中,任何數據,當然也可以是高通量SNPs數據,都能夠成為被分析的變量。BNs這種分析工具的提出,其原始動力是為了分析不完整性和概率性的事件,它可以從表達不是很精準的數據或信息中推理出概率結果。
網絡的拓撲結構和條件概率分布作為構成BNs的兩大核心組件,如果再將潛變量概念引入BNs,則成為了BNs潛變量模型。被包含在BNs中的潛變量數量,決定著這個模型的復雜程度,因為一般來講,在實際工作中,研究者常常利用潛變量來進行聚類計算,所以BNs潛變量模型也成為了一個經典的潛結構模型(latent structure model)或潛類模型(latent class model)。
3.1 模型參數
在滿足一定的假定條件下,才能對BNs模型進行參數學習的過程。根據文獻記載,這些條件分別為:所有的樣本處于獨立狀態;無論全局和局部,均處于獨立狀態;變量不能為連續變量,只能是分類變量。在上述條件得到滿足的情況下,該模型可以利用數據,計算出網絡拓撲結構中各個節點的條件概率θ,且服務于制訂的BNs模型結構η和數據集D。計算的方法有最大似然估計法等[17]。
3.2 模型選擇
與LCA方法類似,BNs模型也利用函數來對模型的擬合優劣程度進行評價,衡量標準也是BIC、AIC、BICe等的評分,一般來說,分數低的模型更加優化。
3.3 模型優化
在通過評分的方法來確定BNs潛變量模型后(需綜合考量BIC、AIC、BICe三者的得分),該模型下一步就轉化成了如何去搜索符合所給數據集的最優模型的過程。由于該網絡的拓撲結構,使得該模型結構的數目的增長速度非??欤c納入模型的變量數的增長呈指數級別比例,能夠適應這種數量級的搜索算法是啟發式的,其過程是比較不同的模型的評分,其中最常被使用的是爬山算法(hill climbing)[18]。
利用BNs模型進行高通量SNPs數據聚類,其優點之一就是在該模型中,所有遺傳的模式都可以被忽略,無論是對SNPs的二分類變異賦值,還是三分類變異賦值,只要納入模型中,就轉變成純粹的數學問題。正是由于這種優勢的存在,使得該方法對原始數據的類型容許程度很高,由此擴展了此種模型的使用范圍。BNs模型計算的過程雖然復雜,但是結果解讀起來卻是十分的簡單直觀。只要將各個類別的概率直方圖呈現出來,那所有重要的且有意義的高維度SNPs的整體效應,就能直觀的展現出來。BNs模型一旦被建立起來,就可以被用來對新納入的患者進行分類,其過程如下:輸入新加入樣本的SNPs的狀況,并且將這些狀況進行數學化處理即賦予其數據值,并帶入模型開始運行。模型會通過新加入樣本的SNPs的狀況,根據概率理論,將其歸入相應類別。
但是BNs模型的理論比較抽象,公式比較復雜,如果讓醫學工作者去理解其中的數學機制,可能不太現實,若再要求對模型進行深刻解釋,則更困難。該模型在優化過程中的搜索算法也有硬傷,爬山算法從出現開始,就一直受到一定程度的詬病,因為其有使模型偏離到局部最優的傾向。
4 BP神經網絡模型
BP(back propagation)神經網絡在所有的神經網絡模型系列中,是被使用最多的模型之一,其核心原理為按照誤差逆傳播算法,對所給數據集進行多層的正向的反饋擬合,而這些層則包括輸入層(input layer)、隱層(hide layer) 和輸出層(output layer)。
BP神經網絡模型對于已經給定的數據集的訓練過程可以解釋為:各種數據由輸入層負責接收,并且向內層進行傳遞,傳遞過程中需經過一定的中間層級,信息在隱層部分進行計算處理,處理完畢后向輸出層傳遞,輸出層的神經元接收到后,即完成了一次完整的訓練信息的傳播,其結果由輸出層向外面釋放。如果輸出的結果與期望值差距沒有達到要求,則進入信息的反方向運動過程,將誤差信息通過輸出層、隱層、輸入層的順序反向傳遞。在上述正向和反向的兩種信息傳遞過程中,為了使整個BP神經網絡模型的誤差的平方和達到最小,就需要對各個層級的權重和反應閾進行相應調整,在一定次數的迭代過程中達到符合設定的要求范圍內[19]。
BP神經網絡模型建立流程:①建立高通量SNPs足夠而可靠的數據信息樣本數據庫。②把SNPs樣本數據進行處理,變成BP神經網絡模型可以納入的形式。③建造BP神經網絡初級雛形,進行數據訓練。首先確定神經網絡所需層的數量,還有隱藏節點的數量,接下來完成各連接權值的初始化過程,將樣本數據代入。④開始BP神經網絡的迭代過程,按照誤差逆傳播算法,對所給數據集進行多層的正向的反饋擬合,最終確定各個層的權重。⑤利用訓練好的BP神經網絡測試樣本。將樣本輸入訓練好的BP神經網絡,并輸出結果[20]。
非線性問題的解決能力是BP神經網絡模型區別于其他的能夠自我學習、自我訓練的模型的特點之一,該模型以簡單的結構模仿神經組織的構成和信號傳導通路,根據提供的數據進行學習和自適應,最后可以對復雜的問題求解[21]。該模型的運行模式也很簡單,一旦模型建立,則直接將數據帶入,BP神經網絡就可以對諸多影響因素和結果之間的復雜關系進行統計,超越傳統聚類模型,也有能力提供更多的信息量[22]。
但是BP神經網絡模型的缺陷也十分明顯,首先該種聚類方法迭代次數比較多,計算收斂的速度比較慢;標準的BP神經網絡算法各個層的權重值的確定是完全隨機性的,容易形成局部最優化;在模型建立的初始階段,各個節點的確定也沒有確鑿的理論支持[23]。
5 支持向量機
1995年Comes等[24]提出了一種新型機器學習方法,該方法的數學理論基礎雄厚,被稱之為SVM。這種方法問世之后,就以其在小樣本、高維度數據方面處理的獨特優勢,被迅速推廣到數據聚類分析領域的各個方面[25]。SVM的基本原理如下:利用非線性映射的方法φ(x):RnH,將待聚類數據集首先映射到高維空間H中,試圖在高維空間中尋找最優化的一個超平面,此超平面的作用為對數據進行分類。達到最優超平面的要求為:對于數據來說,要求分類的間隔最大而且置信區間最窄;達到最少的數據樣本錯分數量,以上兩條的原則為分類風險最低。
SVM的計算流程為:
在高維空間中,如果被映射數據具有二維線性且可分時,則一定存在一個分類超平面:
其中αi≥0稱為拉格朗日系數,該函數對?X和b最小化,對αi最大化。將該問題轉化為其對偶形式,求得最優分類函數為:
其中,K(x,xi) =φ(xi)?φ(xj)被稱之為核函數,其作用是將原始數據集映射到高維H空間。而核函數有很多種形式,多項式形式、徑向基形式等等。但是如果原始數據集經過轉換后,確實為線性不可分時,方法會不可避免的產生錯分點,此時非負松弛變量ξi≤1,i=1,…,l被引入,而式(8)、(9)合并為:
在上述條件下,求下式目標函數的最小值:
在式(13)中,用C來作為懲罰因子,對錯分點來進行一定程度的懲罰,當然是人工定義的,其主要作用是在限制數據集偏差和該方法的推廣范圍兩者間,維持一個平衡。
SVM模型作為一種經典的處理小樣本的自我學習、自我組織的分類方法,雖然其基礎理論依然與神經網絡模型類似,均為通過對給定樣本的統計學習,建造模型,而且對非線性數據的處理能力很強,但是很大程度上避免了陷入局部最優化,維度過高限制,擬合過度等缺陷,擁有更廣闊的發展空間[26]。雖然該方法出現時間比較晚,但是研究者已經在包括預測人口狀況[27]、嬰兒死亡率前瞻[28]、金融產業[29]和工業產業[30]前景推斷等方面進行了有效使用,當然也包括在高通量SNPs數據聚類,均取得了不錯的效果。
但是SVM一樣存在短處,由于其分類過程是基于對原始數據集的再次規劃來尋找超平面,而再次規劃的計算就有n階矩陣(n為樣本個數),如果n的數量很大,則電腦的內存將難以承受巨大的矩陣信息。而且原始的SVM模型只能對數據集進行二分類計算,有一定的局限性,由于在實際工作中,很多情況下分類數量要大于二,為了解決這個問題,只能去在其他方面想相應的解決方法。
6 討論
不僅上述5種具體方法,而且在前文中所提出的幾大種類中的具體聚類分析方法都各有其優缺點,研究者們已經針對上述幾類聚類方法的缺陷進行了深入的研究,并提出了許多改進方法,提高了在高通量SNPs數據聚類分析時的計算效能。董國君等[31]提出了將仿生學算法中的退火算法引入到神經網絡模型中,能夠有效地避免該模型收斂到局部最優的狀態。胡潔等[32]更是經過改進,建造了一種能夠快速收斂而且全局最優的神經網絡模型算法,將BP神經網絡的計算效率大為提高。而Leo Breiman在2001年提出的隨機森林(random forest)算法,本質上就是對分類回歸樹算法的一種組合改進,其計算原理為:利用多個樹的模型對數據進行判別與分類,其在對數據進行處理的同時,還可以給出各個變量的重要性得分,評估變量在分類中所起的作用[33]。2012年提出了混合潛變量模型(structural equation mixture modeling,SEMM),本質上是一種結構方程模型衍生出的改進版,其設計思想中匯合了潛在類別分析、潛在剖面分析以及因子分析的因素,將潛變量分析與結構方程進行協調組合,創造出的一種新型SNPs分析方法。這種新的方法,將結構方程的缺點――只能分析連續潛變量和潛在類別分析的缺點――只能分析分類潛變量,進行有效的補充,而且把一種全新的探索式的思路引入了高維數據分析的領域。在實際進行聚類分析時,也可以將幾種方法結合使用,分別在計算的不同階段利用效能最高的方法,做到優勢互補。現已經出現基于神經網絡算法和蟻群算法進行結合使用的報道。
盡管用于高通量SNPs數據聚類分析的方法有多種,但目前沒有任何一種方法可以適用于所有的情況。因此,研究者們依舊沒有停下尋找更為合適的方法的腳步。不可否認,在基因組相關研究中,SNPs數據的分析對于研究復雜性疾病和遺傳因素的聯系是一項挑戰,但也是機遇。如果能正確合理地運用各種復雜的統計學方法,就可以提高聚類分析的效能,提示研究者們未來應在尋找更適用的高通量SNPs數據聚類分析方法方面付出更多努力。
[參考文獻]
[1] Jakobsson M,Scholz SW,Scheet P,et al. Genotype,haplotype and copy-number variation in worldwide human population [J]. Nature,2012,451: 998-1003.
[2] 馬靖,張韶凱,張巖波.基于貝葉斯網潛類模型的高維SNPs分析[J].生物信息學,2012,10(2):120-124.
[3] 張家寶.聚類分析在醫院設備管理中應用研究[J].中國農村衛生事業管理,2014,34(5):510-513.
[4] 袁芳,劉盼盼,徐進,等.基因-基因(環境)交互作用分析方法的比較[J].寧波大學學報:理工版,2012,25(4):115-119.
[5] 張潔婷,焦璨,張敏強.潛在類別分析技術在心理學研究中的應用[J].心理科學進展,2011,18(12):1991-1998.
[6] 曾憲華,肖琳,張巖波.潛在類別分析原理及實例分析[J].中國衛生統計,2013,30(6):815-817.
[7] Kaufman L,Rousseeuw PJ. Finding groups in data: an introduction to cluster analysis [M]. New York:Wiley,2015.
[8] Hagenaars JA. McCutcheon AL. Applied latent class analysis [M]. New York:Cambridge University Press,2012.
[9] 邱皓政.潛在類別模型的原理與技術[M].北京:教育科學出版社,2011.
[10] 張巖波.潛變量分析[M].北京:高等教育出版社,2011.
[11] Lin TH,Dayton CM. Model selection information criteria for non-nested latent class models [J]. J Educ Behav Stat,2012,22(3):249-264.
[12] 裴磊磊,郭小玲,張巖波,等.抑郁癥患者單核苷酸多態性(SNPs)分布特征的潛在類別分析[J].中國衛生統計,2010,27(1):7-10.
[13] 邵峰晶,于忠清.數據挖掘原理與算法[M].北京:中國水利水電出版社,2013.
[14] 王立柱,趙大宇.用分類與回歸樹算法進行人才識別[J].沈陽師范大學學報:自然科學版,2014,23(1):44-47.
[15] 溫小霓, 蔡汝駿.分類與回歸樹及其應用研究[J].統計與決策,2010,(23):14-16
[16] 符保龍,陳如云.分類回歸樹在高校計算機聯考數據分析中的應用[J].計算機時代,2011,(1):33-34.
[17] Dempster AP,Laird NM,Rubin DB. Maximum likelihood from incomplete data via the Em algorithm(with discussion)[J]. J Royal Stat,2012,39(1):1-38.
[18] José A,Gámez,Juan L,et al. Learning Bayesian networks by hill climbing: efficient methods based on progressive restriction of the neighborhood [J]. Data Min Knowl Disc,2012,22:106-148.
[19] 張凡,齊平,倪春梅.基于POS的BP神經網絡在腮腺炎發病率預測中的應用[J].現代預防醫學,2014,41(11):1924-1927.
[20] 張晶.BP神經網絡在圖書館信息處理中的應用研究[J].圖書情報,2014,(9):132-133.
[21] 徐學琴,孫寧,徐玉芳.基于BP神經網絡的河南省甲乙類法定報告傳染病預測研究[J].中華疾病控制雜志,2014,18(6) :561-563.
[22] 馬曉梅,隋美麗,段廣才,等.手足口病重癥化危險因素BP神經網絡模型預測分析[J].中國公共衛生,2014,30(6):758-761.
[23] 任方,馬尚才.基于條件對數似然的BP神經網絡多類分類器[J].計算機系統應用,2014,23(6):183-186.
[24] Comes C,Vapnik V. Support vector networks [J]. Mach Learn,1995,20:273-297.
[25] 張學工.關于統計學習理論與支持向量機[J].自動化學報,2011,26(1):32-42.
[26] 解合川,任欽,曾海燕,等.支持向量機在傳染病發病率預測中的應用[J].現代預防醫學,2012,40(22):4105-4112.
[27] 劉崇林.人口時間序列的支持向量機預測模型[J].寧夏大學學報:自然科學版,2013,27(4):308-310.
[28] 張俊輝,潘曉平,潘驚萍,等.基于支持向量回歸的5歲以下兒童死亡率預測模型[J].現代預防醫學,2014,36(24):4601-4603,4605.
[29] 陳詩一.非參數支持向量回歸和分類理論及其在金融市場預測中的應用[M].北京:北京大學出版社,2014:104-106.
[30] Li P,Tan ZX,Yan LL,et al. Time series prediction of mining subsidence based on a SVM [J]. Min Science Technol,2014,21(4):557-562.
[31] 董國君,哈力木拉提.基于隨機退火的神經網絡算法及其應用[J].計算機工程與應用,2013,46(19):39-42.
[32] 胡潔,曾祥金.一種快速且全局收斂的BP神經網絡學習算法[J].系統科學與數學,2014,30(5):604-610.
數據分析的方法范文6
關鍵詞:牛頓環; 逐差法; 線性回歸法; 加權平均法
中圖分類號:Q4361;TP274文獻標識碼:A
文章編號:1004-373X(2010)08-0141-04
Analysis of Data Processing in Lens Curvature Radius Measured by Newton′s Ring
LI Xiao-li
(School of Science, Xi’an Shiyou University, Xi’an 710065, China)
Abstract: The methods and procedures of using interative differential method, linear recursive analysis, and weighted average method to process the data of lens curvature of Newton′s Rings are introduced in detail, three experimental dada processing methods are compared. The weighted average method can overcome the experimental systematic distortions, and make a nonprecision measurement according to processing priuciple, and build on the basis of mathematical statistical theory. This method mainly compared the corresponding rights, and then found out the weighted average, used Matlab software processing. It is proved that the weighted average method is optimal for this experiment by theoretic analysis.
Keywords: Newton′s rings; interative differential method; linear recursive analysis; weighted average method
0 引 言
“牛頓環”是牛頓在1675年制作天文望遠鏡時,偶然把一個望遠鏡的物鏡放在平板玻璃上發現的。牛頓環屬于用分振幅法產生干涉現象,亦是典型的等厚干涉條紋。它為光的波動提供了重要的實驗證據。光的干涉現象廣泛地應用于科學研究、工業生產和檢驗技術中,如利用光的干涉法進行薄膜等厚、微小角度、曲面的曲率半徑等幾何量的精密測量,也普遍應用檢測加工工件表面的光潔度和平整度及機械零件的內力分布等。
為了獲得真實可靠的數據,需要對實驗的全過程進行誤差控制。如果實驗原理、方法和采用的實驗裝置不同,實驗結果的精度也不同,這是因為采用了不同的物理模型和實驗條件[1]。即使當實驗原理、方法和采用的實驗裝置相同,如果采用不同的數據處理方法(如最小二乘法、逐差法等),也會帶來精度不同的結果,這是因為采用了不同的數學模型。甚至對同一組實驗數據采用同一種數據處理方法,如果處理方式不同,其精度也會有很大的不同,這是因為采用了不同的算法。因此,如何利用有限的測量數據,發揮其最大效用,選擇適當的數據處理方法和算法,有效地減少誤差,在實驗結果的分析中就顯得非常重要。
牛頓環屬于用分振幅法產生干涉現象,它是典型的等厚干涉條紋。下面以牛頓環干涉實驗為例,對實驗數據分別用逐差法、線性回歸法、加權平均法三種方法進行分析,然后比較三種方法的優劣,并對結果進行討論。
1 實驗部分
1.1 實驗原理
最常見的牛頓環干涉結構如圖1所示\,把一塊曲率半徑相當大的平凸鏡放在一塊平板玻璃片上,在單色光的垂直照射下,用讀數顯微鏡可觀察到以接觸點為中心的一系列干涉圓環。其中亮暗環紋交替出現,隨著半徑增大而由稀變密,直至模糊一片。
設入射單色光的波長為λ,第k級干涉條紋的半徑為rk,該處空氣膜的厚度為e,通過數學推導,產生明暗環的干涉條件為[3]:
明條紋:
И
δk=2ek+λ/2=kλ, k=1,2,3,…(1)
暗條紋:
И
δk=2ek+λ/2=(2k+1)λ, k=1,2,3,…(2)
根據圖1的幾何關系可知,R2=r2k+(R-ek)2,則r2k=2ekR-e2k,R為透鏡的曲率半徑。由于Rek,上式近似表示為:
И
ek=r2k/(2R)(3)
將式(3)代入式(1)、式(2)中,則:
明環半徑:
И
r2k=(2k-1)R(λ/2), k=1,2,3,…(4)
暗環半徑:
И
r2k=kλR, k=1,2,3,…(5)
若用兩個暗環或明環半徑和的平方差進行計算,可以消除因附加光程差產生的誤差,д饈鋇m環暗環半徑為r2m=mλR,第n環明環半徑為r2n=nλR,Я絞較嗉醯們率半徑為:
И
R=r2m-r2n(m-n)λ=D2m-D2n4(m-n)λ(6)
И
式中:D為牛頓環直徑。所以實驗中只要測量出第m環和第n環的直徑,根據上式就可以算出透鏡的曲率半徑R。
圖1 牛頓環裝置
1.2 實驗數據分析
實驗中測量牛頓環干涉條紋的數據記錄如表1所示。
表1 牛頓環干涉條紋的原始測量數據
k
51015202530
D左 /mm30.52231.27831.88032.38532.83233.240
D右 /mm26.32125.55724.96224.46924.01923.612
下面分別用逐差法、線性回歸法和加權平均法對實驗中測量牛頓環干涉條紋的數據進行分析。
1.2.1 逐差法
由于牛頓環裝置中玻璃接觸處的彈性形變會引起系統誤差,因而不能直接用牛頓環的直徑D(k)計算平凸透鏡的曲率半徑??梢约僭O干涉條紋為均勻分布,采用逐差法,在計算機上利用Matlab軟件中的數值插值法處理實驗數據,處理結果如表2所示。
表2 采用逐差法分析實驗數據
kD左/mmD右/mmkD左/mmD右/mmD2(k+15)-D2(k)/mm2
130.52226.3211432.19224.65945.015
230.68826.1521532.29024.56345.058
330.84725.9911632.38524.46945.056
430.99825.8391732.47824.37645.058
531.14125.6941832.56924.28545.056
631.27825.5571932.65924.19545.026
731.40925.4262032.74624.10644.984
831.53425.3022132.83224.01944.939
931.65425.1842232.91623.93444.899
1031.76925.0712332.99923.85044.869
1131.88024.9622433.08123.76944.850
1231.98724.8582533.16123.68944.843
1332.09124.7572633.24023.61244.840
注:光源為鈉光燈λ= 589.3 nm
算術平均值的標準偏差為:
И
σ[D2(k+15)-D2(k)]=0.019 mm2
И
則曲率半徑的平均值為:
И
R1=D2(k+15)-D2(k)4mλ=1 271.0 mm
相對標準偏差為:
И
σR1R1=σ[D2(k+m)-D2(m)]D2(k+m)-D2(m)=0.04%,
平凸透鏡的曲率半徑的標準偏差為:
И
σR1 = 0.5 mm
所以實驗結果為:
И
R1=R1±σR1=(1 271.0±0.5) mm
И
1.2.2 線性回歸法
根據牛頓環實驗的基本原理,設第m條暗紋的干涉級次為(m+j),則D2k = 4Rλ(m+j),可以看出D2k與m成線性關系,只要測量得到各m級(自變量x)所對應的D2k(應變量y),用最小二乘法擬合線性函數(直線)可以得到[4]:y=A+Bx。
所以要確定R,只需要確定系數B即可,依據最小二乘法處理實驗數據,數據整理后用Matlab軟件計算線性擬合系數B為[5]:
И
B=n∑i(xiyi)-∑ixi∑iyin∑ix2i-(∑ixi)2=2.999 0 mm
И
式中:xi=m,yi=D2m。
為了檢驗直線擬合的好壞,并確定測量的不確定度,求出相關系數[6]:
И
r=xy-xy(x2-x2)(y2-y2)=0.999 984 57
平凸透鏡的曲率半徑為:
И
R2=B/(4mλ)=1 272.7 mm
相對不確定度為:
И
ur(R2)=u(R2)R2=u(B)B=1/r2-1n-2=0.000 8
平凸透鏡的曲率半徑的不確定度為:
И
u(R2)=0.000 8×1 272.7=1.0 mm
所以實驗結果為:
И
R2 =R2 ±u(R2 )=(1 272.7±1.0) mm
И
1.2.3 加權平均法
實驗中,牛頓環的直徑為D(k)=D左(k)-D右(k),其中D左(k),D右(k)是第k級牛頓環左、右兩端位置坐標。由于D左(k),D右(k)只做單次測量,其精度為儀器精度,而讀數裝置最小刻度為0.01 mm,則有σ=0.01 mm=D左(k)=D右(k),в晌蟛畬遞知牛頓環直徑的測量精度為[7]:
И
σ2D(k)=σD2左(k)+D2右(k)=2σ2(7)
從而m個相鄰牛頓環直徑平方差的測量精度為:
σ2[D2(k+m) -D2(k) ]=[σD2(k+m) ]2+[σD2(k)]
=σ2D2(k+m)+σ2D2(k)
= 4D2(k+m)σ2D(k+11)+4D2(k)σ2D(k)
=8σ2\(8)
所以:
И
σ2[D2(k+m) -D2(k)]=0.000 8[D2(k+m)+D2(k)](9)
令yk=D2(k+m)-D2(k),相應的權\為ωk=1σ2(yk),Р捎眉尤ㄆ驕法分析測量數據如表3所示。
表3 加權平均法分析實驗數據
kyk/mm2精度/mm2權ωk/mm-2ωkyky-yk/mm2ωk(y-yk)2/ mm2
145.0150.064 215.56700.62-0.071 20.078 9
245.0580.069 014.50653.21-0.114 80.190 9
345.0560.073 813.56610.75-0.112 30.171 1
445.0260.078 612.72572.84-0.082 60.086 8
544.9840.083 511.98539.01-0.040 90.020 0
644.9390.088 311.32508.830.004 30.000 2
744.8990.093 210.73481.860.044 90.021 6
844.8690.098 010.20457.730.074 50.056 6
944.8500.102 99.72436.050.093 40.084 9
1044.8430.107 79.29416.510.100 80.094 4
1144.8400.112 48.89398.770.103 80.095 8
計算可得加權平均值為:
И
y=∑11i=1ωiyi/∑11i=1ωi=44.957 mm2
標準偏差為:
И
σy=∑11i=1(y-yi)2〗/(n-1)∑11i=1ωi=0.078 mm2
И
從而得曲率半徑的平均值為:
И
R3=y/(4mλ)=1 271.1 mm
相對標準偏差為:
И
σR3R3=σyy=0.02%
И
則實驗結果的測量精度為:
И
σR3=0.2 mm
所以實驗結果為:
И
R3=R3±σR3=(1 271.1±0.2) mm
И
1.3 實驗結果與討論
對于實驗數據分別用逐差法、線性回歸法和加權平均法進行處理后,實驗結果可分別表示為:
逐差法:
И
R1 = R1 ±σR1 =(1 271.0±0.5) mm
線性回歸法:
И
R2 =R2 ±σR2 =(1 272.7±1.0) mm
加權平均法:
И
R3=R3±σR3=(1 271.1±0.2) mm
下面對這三種數據處理方法進行檢驗,選擇最優的數據處理方法,檢驗方法較多,現選擇采用t分布檢驗[9]:
t=x1-x2(n1-1)σ21+(n2-1)σ22ν(1/n1+1/n2)(10)
式中:n1和n2分別為凸透鏡球面的上、下兩面的折射率,由于凸透鏡球面周圍都為空氣薄膜,故n1=n2,則令ν=n1+n2-2=2(n-1),Т傭有:
И
t=\-R2)\〗/(σ2R1+σ2R2)(11)
方法1與方法2比較計算,可得:t1=0.350;方法2與方法3比較計算,可得:t2=0.340。
若取顯著水平σ=10%,則置信率p=90%,ν=18,查t分布表可得[10]tζ=1.734,則|t1|=0.354
若取σ= 50 %,則p=50%,ν=18,查表得tζ=0.688,則|t1|=0.354
通過上面分析可以看出三種數據處理方法有如下特點:
(1) 逐差法主要是圍繞如何克服實驗的系統誤差來進行的,是建立在算術計算的基礎上,但并不滿足非等精度測量實驗數據處理的條件,而牛頓環干涉實驗是非等精度測量,故逐差法對于牛頓環實驗來說并不是一種理想的數據處理方法。
(2) 線性回歸法主要是為了避免非等精度測量的困難,但未考慮該次實驗中的系統誤差,所以線性回歸法對于牛頓環實驗來說也不是理想的數據處理方法。
(3) 加權平均法既考慮了如何克服實驗的系統誤差,又能按照處理原則去對待非等精度測量,且建立在數理統計理論基礎上,所以加權平均法是處理牛頓環實驗數據的最佳方法。
2 結 語
本文對牛頓環實驗數據分別采用逐差法、線性回歸法和加權平均法進行分析。逐差法在牛頓環干涉實驗中是一種常用的實驗處理方法,其原理簡單且便于理解,對它的實驗原理不用再做過多的敘述,但由于逐差法不滿足非等精度測量實驗數據的條件,而牛頓環干涉實驗就是一種非等精度測量,故該方法對于牛頓環干涉實驗并不是一種理想的實驗處理方法;線性回歸法先利用數值插值法對實驗數據進行處理,再利用最小二乘法將實驗數據擬合成一條直線函數,最后用Matlab軟件計算出線性擬合系數B及相關系數r,進而算出凸透鏡的曲率半徑R和測量的相對不確定度;加權平均值法主要是比較相應的權,進而求出加權平均值,利用Matlab軟件處理較為方便,在優化模型中應用較廣。經過分析與討論可知應用加權平均值法為牛頓環實驗數據處理的最佳方法。
參考文獻
[1]劉才明, 許毓敏. 對牛頓環干涉實驗中若干問題的研究[J]. 實驗室研究與探索, 2003(6): 1314.
[2]王德新. 牛頓環實驗非等精度分析之我見\. 物理實驗, 1993, 13(4): 184-185.
[3]王紀龍. 大學物理[M]. 北京: 科學出版社, 2002.
[4]沈元華, 陸申龍. 基礎物理實驗[M]. 北京: 高等教育出版社, 2001.
[5]張德啟, 李新鄉. 物理實驗教學研究[M]. 北京: 科學出版社, 2005.
[6]鄒進和. 應用“逐差法”處理實驗數據[J]. 大學物理實驗, 2003(3): 51-52.
[7]滕堅. 牛頓環實驗數據處理方法分析[J]. 物理通報, 2006(6): 3436.
[8]虞仲博, 屠全良. 牛頓環實驗等精度測量及其不確定度的評定與表示[J]. 物理實驗, 2000, 20(5): 1719.
[9]劉智敏. 不確定度與分布合成[J]. 物理實驗, 1999, 19(5): 5860.