多元統計分析范例6篇

前言:中文期刊網精心挑選了多元統計分析范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。

多元統計分析

多元統計分析范文1

摘要:我國中藥發展已有悠久歷史,中藥大多采用復方制劑,以其復方療效顯著而越來越受到重視,在其成分分析中,多元統計分析方法的運用,本質上是一種多變量協同考量的思路。本文通過對以往多元統計分析方法在中藥成分分析數據中的應用作整理總結,對今后相關研究提供理論依據。

關鍵詞:多元統計分析 中藥成分分析

中藥物質基礎的闡明和科學質量控制方法的建立是中藥現代化和國際化的關鍵,在化學計量學中,多元統計分析方法得到了很好的應用,通過優化了化學量測過程,提高分析效果,應用統計分析方法及其他數學方法和計算機軟件的應用對其數據進行整理,已較好的闡明了中藥物質成分,結構與其性能之間的復雜關系。

一、應用現狀

1.1方法

在中藥成分分析中,多元統計分析方法如多元回歸,多元相關分析,逐步回歸分析,最大似然法,判別分析,聚類分析和主成分分析,利用電子計算機能迅速而大量地處理實驗數據,還廣泛采用了蒙特卡洛(Monte Carlo)統計模擬法,都能在某一特定方面很好的說明其成分,但尚未有統一理論支撐整個體系,也是國內著力于建立中成藥數據庫的緣由之一。要進一步定性定量的確定中藥成分,并很好的分析中藥成分還需不斷努力。

在應用中,應用最多的為多元線性回歸和Logistic回歸方法,其次是通徑分析,因子分析和聚類分析的運用較少,比如風險模型,典型相關,MCA分析和Probit分析。

1.1.1成分提取

在對中藥復方有效成分的整體提取方法,指紋圖譜條件優化及定量評價指標,以及基于藥理活性的組方條件優化的基礎上,化學模式識別方法引入中藥分析體系,模式識別,指通過相關軟件等用數學方法來實現模式的自動處理和判別,模式識別可大致分為用監督模式識別(判別分析方法),是實現規定分類的標準和種類的數模,并且通過大批已知樣本的信息處理找出規律,再預報未知樣本的類型,如貝葉斯法(Bayes)逐步判別分析方法,人工神經網絡判別法等,無監督模式識別(聚類分析方法),是對一組尚無明確分類的樣本,根據它們所變現的變量特征,按相似程度的大小加以歸類,最終通過信息處理找出合適的分類方法并實現樣本的分類,如系統聚類分析,模糊聚類分析等以及基于特征投影的降維顯示方法,另外還有一類基于特征投影的降維顯示方法,如主成分分析方法,基于偏最小二乘法的降維方法等,中藥的化學模式識別方法可以從復雜的化學測量數據出發,進一步揭示復雜化合物之間的隱藏規律,為中藥整體研究提供十分有用的信息。

1.1.2質量控制

在中藥復方質量控制方面,近年來,有監督的模式識別和無監督的模式識別往往聯合起來使用,即當某中藥方劑的總體質量分類不清楚時,可先用聚類分析對原來的樣品進行分類,然后再用判別分析建立判別式以對新樣品進行判別。

1.1.3藥效檢驗

在化學計量中運用多變量統計過程控制(multivariate statistical process control,MSPC) 方法來處理中藥成分組成,在中藥分析中,結合對無知復雜多組分進行同時定性定量分析的方法,連用色譜儀器等,包括HPLC-DAD.CE-DAD(毛細管電泳二極管陣列聯用儀),HPLC-MS,HPLC-IR,GC-MS.GC-IR等因其將分離與分析技術集于一體,已有很大突破,目前國內在中藥成分分析中,運用了在中藥化學成分研究的手段方面,如薄層色譜,氣相色譜,高效液相色譜,紫外光譜,紅外光譜等已得到普遍使用,還包括超臨界色譜,高效逆流色譜,色譜質譜連用技術(GC/MS、HPLC/MS),核磁共振(NMR)指紋圖譜,x-射線衍射指紋圖譜等。其中產生大量的數據,有關研究人員運用數學中多元統計分析方法對其分析,得到相關結論,進而對藥效進行更有效的分析。

1.1.4組分分析

借助各類分析儀器以及光譜色譜聯用手段,可以再較短的時間內得到大量的多元性化合物信息,該過程所用到的具體方法有聚類分析,主成分分析以及偏最小二乘法,判別式分析法等,中藥藥效,由定量構效關系到定量組效關系研究

1.2數據處理的應用實例

在對藥材產地區分和鑒別研究方面,徐永群等在黃苓的紅外光譜的指紋圖譜基礎上,采用主成分分析法,對多個產地進行了聚類分析。

王繼國等分析中藥血竭樣品的高效液相色譜中,把指紋圖譜信息進行數據處理時,用重疊率與相關系數兩個參數,從兩個方面定量地對圖譜進行了相似性評價,在此基礎上用系統聚類分析法定性地對樣品進行了分類和鑒別,建立了一種相對完善的中藥血竭的化學模式識別技術。

楊紅娟等對金銀花的種類進行了模式識別研究,利用高效液相色譜分析獲得金銀花的化學信息,并進行了系統聚類分析,同時用微生物法進行抑菌活性測定,用多重線性回歸揭示化學信息與藥理指標之間的關系。

孫麗新等用典型相關分析對獲得反映樣品整體化學特征的數據做了處理,并運用聚類的方法將樣品分類,得到效果良好的質量控制方法。

周立東等提出在天然藥物演技中建立定量組效關系,用以解決中藥復雜成分的化學組成與生物活性之間的關系問題,在中藥的多變量的化學祖墳空間和中藥的多變量空間之間建立起定量的關系,在多元統計分析中,如回歸分析,聚類分析以及因子分析西歐提供了操作方法,

二、存在的主要問題

統計方法的選擇在一定程度上取決于變量的測度水平,多元統計分析,自變量中包括名義變量的最多,自變量全部為間距測度的很少,多元統計分析方法中序次測度變量和名義測度變量的處理方法一樣,所以一般并不加以區分,序次測度變量作為名義測度變量來用,把二者合成為分類變量,本次研究的論文數據中應用多元統計方法時大多數的分析中是分類變量。

2.1方法使用錯誤

在多元統計分析方法的應用中,如通經分析等存在一些錯誤,通徑分析是建立一組線性回歸方程,因此對變量的要求和多元線性回歸一樣,多元線性回歸要求因變量必須為間距測度或以上的變量,自變量可以使分類變量,但當自變量中有分類變量時,必須做虛擬變量回歸,而不是普通的線性回歸。

2.2數據的評價和檢驗

對實驗數據處理的最終評價是要反映該藥效的最好方式,即數據在多大程度上能很好解釋了因變量的間的關系,每一種統計分析方法都有自己的數據評價指標和方法。

三、總結

化學計量學提供了一整套區別于傳統復方研究的思路,在中藥化學,質量控制,藥效檢驗,組方分析,代謝組學以及建立中藥數據等各個領域都已有了初步的應用和發展。多元統計分析方法作為數學數據分析中的主要分析方法,雖在中藥分析方法中應用存在少數問題,但其應用前景及意義極其樂觀。(作者單位:沈陽師范大學)

參考文獻:

[1]梁逸曾.化學計量學用于中醫藥研究.長沙:化學計量學與傳感技術研究所,1998.

[2]羅國安.中藥中成藥現代化進程[M].北京:中成藥出版社,2000.

[3]甘師俊,李振吉.中藥現代化發展戰略[M].北京:科學技術文獻出版社,1998.

[4]張敏,呂華瑛.中藥成分分離新技術及應用[M].山東:山東中醫雜志,2005.

[5]鄧書鴻,聶磊.中藥譜效關系的分析方法及數據處理技術研究進展.山東:中藥材 Joumal of Chinese Medicinal Materials,1819.

多元統計分析范文2

關鍵詞:多元統計;人口研究;統計模型

中圖分類號:G30-03 文獻標識碼:A 文章編號:1001-828X(2015)005-0000-01

隨著統計學和統計軟件的發展,統計分析技術被越來越多地應用于實際生活。我國作為一個人口大國,了解我國的人口狀況是關系國計民生的一項重大工作。所以,研究多元統計分析技術在人口研究中的應用有著深遠的意義。

一、應用于人口研究的多元統計方法

作為一門專業課程,多元統計分析提出了大量的統計方法。如多元線性回歸分析、logistic回歸分析以及因子分析和聚類分析等。

1.多元線性回歸分析在人口研究中的應用

多元線性回歸模型主要用于研究一種變量受多種因素影響時的狀況。而在人口研究中,多元線性回歸模型主要用于人口老齡化以及城鄉收入水平的影響因素等問題。例如利用多元線性回歸模型研究人口老齡化問題的分析步驟如下:

(1)通過分析與人口老齡化有關的變量,我們確定人均國內生產總值、養老保險人數,失業人口人數、人口密度和政府醫療支出作為老齡化問題的影響因素(依次用X1、X2、X3、X4、X5來表示),并通過抽樣調查或查閱年鑒的方法獲得回歸分析所需的數據,采用多元線性回歸的方法進行定量分析。

(2)建立多元線性回歸模型:Y=A+b1X1+b2X2+b3X3+b4X4+b5X5+e.其中b1、b2、b3、b4、b5為回歸系數,A為常數項,e為殘差。利用SPSS進行逐步法分析確定系數及常數項。

(3)對各變量進行顯著性檢驗,確定模型并結合實際意義進行分析。

2.logistic回歸分析在人口研究中的應用

logistic回歸分析的用途主要包括三個:一是尋找特殊因素因素;二是預測;三是判別,例如預測某一個體屬于某一情形的概率。logistic回歸分析在人口研究中主要用于人口預測。

3.因子分析和聚類分析在人口研究中的應用

因子分析是指從影響研究變量的眾多影響因子中提取出公共因子的統計方法。因子分析能夠將具有相同本質的影響因子歸入同一個公共因子,從而減少研究變量的數目。聚類分析則根據研究對象的特征,對研究對象進行分類,從而達到減少研究對象的目的。因子分析和聚類分析主要用于研究人口遷移影響因素、人口發展水平等問題。

二、多元統計分析技術在人口研究中的應用現狀

在20世紀80年代,我國的人口研究中很少使用多元統計分析技術。進入90年代后,隨著各種多元統計分析方法的引入和統計分析軟件的使用,統計分析技術在人口研究中得到了廣泛的應用。多元統計分析技術能夠定量分析經濟因素、社會因素和人口因素之間的關系,從而更好地解釋人口現象。

1.我國人口研究中多元統計分析的特點

我國人口研究問題中多元統計分析技術的應用呈現出多樣化的特點,主要表現在統計方法的多樣性和統計分析內容的多樣性。前面提到的多元線性回歸方法、logistic回歸分析方法以及聚類分析等多元統計分析方法在我國人口研究中都有應用。統計分析內容更是涉及生殖健康、居住類型以及人均收入水平等生活的各個方面。

2.我國人口研究中多元統計分析數據特點

我國在人口研究中的多元統計分析數據主要來源于抽樣調查和典型調查等,統計分析的單位主要是以個人和家庭等個體單位為主。在數據類型方面,我國人口問題研究中的多元分析數據以橫截面數據為主,時間序列數據極少用到。

三、我國人口研究中多元統計分析技術存在的主要問題

由于多元統計分析技術在我國人口研究中的應用時間比較短,很多人口研究人員對多元統計分析技術也沒有經過系統的學習,在實際應用中難免會出現一些問題。

1.人口研究中多元統計分析方法使用錯誤

統計方法主要由研究目的和研究數據決定。但在實際應用中,由于研究人員難以正確區分各個統計方法,從而出現隨意選擇的現象。通過查閱用多元統計方法研究人口問題的相關文獻我們發現,在進行人口問題研究時使用最多的就是多元線性回歸模型。雖然多元線性回歸模型具有易于理解和分析簡便的特點,但它主要是研究一個目標受多個因素影響時的情形。很多文獻沒有注意到這個問題,從而錯誤地使用了該方法。

2.多元統計分析中缺乏評價和檢驗

評價和檢驗是多元統計分析的一個重要內容,因為很多統計方法只有結合實際,才能更好地確定自己的模型建立是否恰當,才能更好地解釋模型中各個變量的實際意義。但在人口研究的實際應用中,很多研究人員只是注重對統計結果的分析,而忽略了模型的檢驗和評價。

對模型的評價主要是指模型對觀測數據的擬合程度,每一種多元統計方法都有相應的模型評價方法和指標。對模型的檢驗主要是指顯著性檢驗,從而判斷該模型中各變量之間的關系是否存在。因此,模型評價和檢驗是多元統計分析不可分割的一部分,讀者也只有通過這些內容才能更好地理解人口研究報告中所描述的現象。然而通過統計可以發現,很多有關人口研究的統計報告都缺乏模型評價和檢驗者方面的內容。

四、結束語

多元統計分析中的很多方法都適用于人口研究。近年來,隨著統計學科和計算機技術的發展,多元統計分析技術在人口研究中也得到了廣泛的應用。我國人口研究對多元統計分析技術的應用呈現出多樣化的特點,多元統計分析的數據來源以抽樣調查和橫截面數據為主。但由于我國人口研究中多元統計分析技術的引入比較晚,在實際應用中仍存在較多的問題需要改善。

參考文獻:

[1]劉金塘,伍小蘭.多元統計分析技術在人口研究中的應用[J].人口研究,2005,26(2):1-6.

多元統計分析范文3

關鍵詞:spss 環境檢測 多元統計分析 因子分析

中圖分類號:X824 文獻標識碼:A 文章編號:1007—3973(2012)009—120—02

1 多元統計分析

多指標綜合評價中比較難以解決的是各指標間信息的重復問題,因此因子分析法解決了這個問題,其主要是對協方差陣或相關陣的內部依賴關系的研究,并且可以使一些具有一定關系的樣本或變量歸結為較少的綜合因子的多元統計分析方法。

2 淋溶試驗常規有機指標綜合評價模型

2.1 建立因子模型

根據淋溶試驗結果建立因子模型,設x1代表pH值,x2代表DO,x3代表BOD,x4代表水樣的COD,x5代表高錳酸鹽指數,x6代表氨氮,x7代表總氮,x8代表硝酸鹽氮,x9代表總磷。據此建立數據文件,相應的代表含義為它們的變量標簽,對原始數據作標準化處理,得到變量間的相關矩陣如表1。

由相關系數可知:其中大部分絕對值大于0.5,說明每個變量至少與其它一個變量有較大的相關系數;pH值與氨氮、硝酸鹽氮、總磷呈現負相關;高錳酸鹽指數與DO、COD、BOD呈現較高的正相關;總磷與氨氮、硝酸鹽氮也有較高正相關。對于一個因子模型,變量之間必須相關,如果相關很小,說明變量之間不享有共同因子。由此也可以看出,可用適當的因子模型來解釋描述多個變量之間的相關關系。從相關矩陣出發,用主成分分析法求解特征向量和相應的特征值。

由于前面四個主因子提供了原始資料88.769%的信息,通過觀察特征值、方差分布情況可以得知這些主因子和變量之間的相關程度較高。據主因子數確定準則,說明九項指標提供的全部信息可以用四個主因子來代表;并且為使因子模型有一個簡單結構,四個主因子更能全面系統地說明變量情況,我們必須對因子載荷矩陣進行旋轉,從而便于對實際背景的合理解釋。

2.2 進行因子旋轉

與不考慮因子旋轉時得到主成分模型的初始因子載荷矩陣相比較,旋轉前的公共因子對變量的解釋意義不是很明確。初始因子載荷矩陣中,四個公因子對變量總氮、硝酸鹽氮的說明比較模糊,有必要對其作因子旋轉。

第一主因子主要由變量高錳酸鹽指數、BOD、COD、DO共同表征,也即是有機綜合指標,其反映有機污染指標的重要性;水體中有機陰陽離子等物質的量主要由變量氨氮、總磷、硝酸鹽氮共同表征。其中硝酸鹽氮是填充對地下水影響的重要因子主要是由于硝酸鹽氮的載荷比較高;第三主因子由變量總氮表征,由于檢測中總氮的超標比較嚴重,因此更加印證了對總氮的監控的重要性;第四主因子則由變量pH值表征,說明了水質的酸堿程度的影響方面。由此我們也可以知道,四個公因子充分反映了矸石淋出水樣中,有機綜合指標、硝酸鹽氮、總氮、pH值是重要的檢測因子。

2.3 求因子得分

通過比較分析,確定使用最大方差正交旋轉獲得合理的因子載荷,并由此計算得出公因子方差和方差貢獻,最后計算得到因子得分系數(如表2)。

根據因子分析基礎知識,我們知道通過系數矩陣就可以將所有的公因子表示為各個變量的線性組合,也就是所求的因子得分。如本文中第一個公因子得分就可以表示為:

其中,z1—z9 表示九個指標變量標準化后的值,其它三個公因子得分同樣可以計算得到。在對所有水樣進行綜合評價時,就可以用因子得分來代替原來的試驗數據結果,從而大大減少綜合評價計算量。

3 綜合評價結果

根據因子分析基礎知識,我們知道通過系數矩陣就可以將所有的公因子表示為各個變量的線性組合,也就是所求的因子得分。

從綜合得分結果來看:

(1)所有水樣的得分都小于標準水樣的得分,表明煤矸石井下填充過程中對地下水環境的有機污染程度較輕,綜合評價上看基本上可以達到國家水質指標地下水Ⅲ類水質標準;

(2)粒徑小的矸石對地下水的污染影響比較大,由于其粒徑小,表面積就大,元素的溶出率也越大,由此引起超標現象;

(3)得到結果顯示中等粒徑的得分較低,影響較??;

(4)從因子分析計算過程中,我們可以明確有機綜合指標、硝酸鹽氮、總氮、pH值都是淋出水樣的重要污染因子,這也是在實際應用時需要特別監測的主要因子。

參考文獻:

[1] 趙選民,徐偉,師義民,等.數理統計[M].北京:科學出版社,2002:167—181.

[2] 梅長林,周家良.實用統計方法[M].北京:科學出版社,2002:1—145.

[3] 吳聿明.環境統計學[M].北京:中國環境科學出版社,1991:109—113,427—472.

多元統計分析范文4

[關鍵詞] 多元統計分析;中藥;質量控制

中藥是指在中醫理論指導下,用于預防、治療、診斷疾病并具有康復與保健作用的物質,包括中藥材、中藥飲片和中成藥等。中藥是我國中醫藥文化的瑰寶,并以資源豐富、療效獨特和副作用少等優勢成為國內外關注的焦點。但長久以來,原始、單一的中藥質量控制方法,一直制約著中藥質量的提高,隨著科學技術的發展以及各種新儀器的問世,應用于中藥質量控制的方法和手段也不斷增加,從原來單一的質控指標發展到現在的多質控指標,這使得中藥質量控制標準全面提高[1]。但這些構成指標體系的多個指標又各有側重地解釋著該中藥的質量,其間必然存在著多重共線性。比如,指紋圖譜在改變單一指標性成分評價中藥質量所明顯存在片面局限性的同時,也暴露出它自身的問題,即在表現眾多成分的指紋峰中,什么是重點?哪些峰是可以放棄的?現實的要求是既不能“片面”,但也不能“一把抓”[2]。如果用一元統計方法一次只能分析一個指標,分析多個指標時就會忽視了各指標之間存在的相關性,分析的結果不能客觀全面地反映情況。多元統計分析[3-7]能在不損失信息的情況下,通過變換和構造模型,剔除指標間相互制約的成分,尋找一個簡單綜合指標,將這些指標反映的內容綜合起來,使復雜數據簡單化。且有文獻報道,多元統計分析能在一定程度上達到數據挖掘的目的,同時它的一些思想和功能也能在數據挖掘的數據收集、數據清理環節發揮作用[8]。因此運用多元統計分析對中藥質控研究中出現的多指標、高維和大量統計數據且彼此之間相關的數據進行分析,可發現數據間的內在規律,以實現中藥質量的有效控制。

1 多元統計分析的涵義

多元統計分析是同時分析和處理多組變量,從整體把握事件的特征和發生規律統計分析方法,其核心內容是總體參數估計的修正和統計推斷,具體表現出來就是各類統計方法,如主成分分析、因子分析、聚類分析、判別分析和典型相關分析等[5]。多元統計分析應用于中藥質量控制的研究有以下幾種優勢:①多指標性只有用相互關聯的多個指標(即描述現象的多個方面)才能夠對事物或現象的全貌有所了解,這是多元統計分析在中藥質控研究多個指標的最大優點;②定量性多元統計分析就是用數學的方法來研究影響中藥質量的多個指標之間相互依賴關系以及內在統計規律性的分析方法;③復雜性和數據計算量大等特點這是多元統計分析適宜于分析研究中藥質控中出現的繁瑣復雜數據的基礎[9]。

2 多元統計方法在中藥質量控制中的應用現狀

多元統計分析廣泛應用于經濟管理、醫學、教育、生物等諸多領域,其中以中醫藥為檢索范圍,在已檢索到的運用各類統計方法的51 792篇文獻中,包括多元統計方法的文獻已達25 279篇,說明多元統計方法已在中醫藥研究中得到了廣泛應用。而統計學理論和中醫藥理論客觀存在的相合性,也說明了多元統計方法在中醫藥研究中的應用不僅是可行的,也是科學的[10]。運用多元統計分析對影響中藥質量的多方面因素進行綜合分析和評價,以實現對中藥質量更準確,更全面地控制。下面分別介紹幾種主要的多元統計分析方法近年來在中藥質控中的應用。

2.1 主成分分析 主成分分析的定義為利用數學降維方法,尋找新變量替代舊變量群,新變量之間互不干涉,可獨立進行分布統計,是一種將多數相關變量群替換成少數無關變量的方法[5]。主成分分析法能過濾虛假信息,減少無關指標的影響,已普遍應用于中藥質量標準研究數據的統計分析中,以確定中藥資源的分類和聚類,并從中獲取能用于中藥分析鑒別的有用信息,然后進行分析、鑒別、判斷,進而進行分類和優選[11]。王劭華等[12]采用主成分分析對24批不同產地車前子樣品中的10個共有峰面積進行分析,以累計方差貢獻率達86.45%選取3個主成分,由主成分綜合得分排序可知,綜合品質較好的車前子品種為大車前子和平車前子,其中綜合品質最好的為江西吉水婆婆廟產的大車前子;根據車前子主成分投影圖可以將車前和平車前種子與其他品種車前種子區分開來。王琴等[13]應用主成分分析對不同地區枸杞中多糖和金屬元素之間的相關性進行分析,以累積方差貢獻率達88.181%篩選出3個主成分,結果表明多糖和常量金屬元素鈣(Ca),鎂(Mg),鈉(Na),鉀(K)是影響枸杞質量的重要因素,微量元素銅(Cu),鋅(Zn),鐵(Fe)也是不可忽視的因素;其主成分得分可用于不同產地枸杞子質量的綜合評價,為以后不同產地枸杞的開發利用奠定了基礎。

2.2 因子分析 因子分析又稱為探索性因素分析,是根據相關性大小把原始變量進行分組,使同組內變量之間的相關性較高,而不同組變量間的相關性較低[3-4]。因子分析也是利用主成分分析的降維思想,可看作是對主成分分析的推廣和發展,但是其因子分析對于所研究的問題是根據原始變量的信息進行重新組合,以試圖用最少個數的不可測的所謂公共因子的線性函數和通過旋轉使得來的新變量對每個原始變量更具有可解釋性。朵興紅[14]采用因子分析對黨參、細辛等7種道地藥材中Ca,Mg,錳(Mn),Cu,Fe,Zn 6種微量元素進行分析,以方差的貢獻率大于99.75%提取2個主因子,分析結果表明這6種微量元素均對防治心腦血管疾病有一定的療效,為微量元素與中藥功效關系的研究提供了科學依據。多杰扎西等[15]采用因子分析對11個不同產地枸杞子中Zn,Cu,Fe,Mn等微量元素之間的關系進行研究,以累計方差達92.236%提取3個主因子,結果表明第一主因子與變量Zn和Mn有高的相關性,是枸杞子中起絡合作用的微量元素,也是決定枸杞子質量的基本微量元素;第二主因子在變量Cu元素上有最高的載荷系數,是通過影響生物體內的酶、激素、維生素等生物活性物質,而發揮藥效作用的微量元素;第三主因子在Fe元素上有最高的載荷系數,是在氧化還原等許多代謝中起到重要作用的微量元素,這3個主因子能夠反映枸杞子中微量元素的分布特征;不同產地枸杞子的綜合評價結果,與實際分類和質量的情況基本相符,如列于質量好的第一類、綜合因子得分分列第二的寧夏某枸杞研究所,其培植生產的枸杞子質量高,一直起到行業示范作用。

2.3 聚類分析 聚類分析又稱又稱集群分析,是根據研究對象特征對研究對象進行分類的一種多元分析技術,把性質相近的個體歸為一類,使得同一類中的個體都具有高度的同質性,不同類之間的個體具有高度的異質性[6]。聚類分析能夠充分利用原始數據信息,除常用于中藥系列品種的分類外,還可以廣泛地引用于真偽鑒別、成分淺析、質量評價、新舊工藝或不同炮制方法比較、尋找代用品及擴大藥用新資源等方面[16]。辛海量等[17]采用聚類分析,對不同來源的蔓荊子、黃荊子、牡荊子近紅外漫反射指紋圖譜進行分析,聚類分析結果與傳統植物分類結果一致。李寒冰等[18]對不同批次的板藍根抗病毒效價值進行聚類分析,聚類結果與常規質量等級分類一致,結果表明應用抗流感病毒效價檢測方法,可以實現對板藍根藥材的質量控制。鄢丹等[19]采用生物熱活性檢測方法,以黃連道地優級藥材為工作參照物、第一指數生長期生長速率常數(k1)為反應值,以量反應平行線(3?3)法設計試驗,對7批不同產地的黃連樣品的生物效應(效應譜和效應值)進行測定,并采用聚類分析對黃連的生物效價值進行分析,結果表明不同產地黃連的生物效應值存在差異,并以此劃分的典型道地產區、一般道地產區和一般主產區,與傳統對黃連的道地產區和主產區劃分基本一致,生物效應值具有較強的產地專屬性和指紋鑒定意義,生物熱活性檢測方法可作為傳統生物效價檢測方法的補充和提高。

2.4 判別分析 判別分析是根據一定量案例的1個分組變量和相應的其他多元變量的已知信息,確定分組與其他多元變量之間的數量關系,建立判別函數,然后便可以利用這一數量關系對其他未知分組類型所屬的案例進行判別分組,主要包括距離判別、Fisher判別和Bayes判別分析等[6]。在實際應用中,當已知了類別的判別問題時,應選擇判別分析;而當面對大量的數據,雜亂無章,而又需要分類時,應考慮聚類分析;二者有銜接之時,聚類分析可作為判別分析的預處理。白雁等[20]采用距離判別分析對來源于山東、山西和焦作的生地黃近紅外漫反射指紋圖譜進行分析,結果表明歐氏距離在0.6以上時生地黃被分為5類,其中山東因樣品差異比較大,分成了3個區域,其他2個區域為山西和焦作樣品,分類結果與實際基本一致,且15批驗證集樣品的預測集正確率為85%以上,為地黃產地鑒別方法提供1種新技術。吳文莉等[21]采用Fisher判別分析對105種中藥中42種元素含量進行分析,以42種元素含量的百分位值,對依據全國大中專院校教材《中藥學》查詢的105味藥物的寒、熱、溫、涼四性,建立4類Fisher判別方程,整體回判復合率為80.9%,研究表明通過分析測定中藥中所含微量元素的量,能在一定程度上反映中藥的性能,為進一步研究中藥的物質基礎提供指導。

2.5 典型相關分析 典型相關分析是對每組變量做1個線性組合,即為這組變量的綜合變量,然后研究2組綜合變量的相關,通過少數幾個綜合變量來反映2組變量的相關性質[7]。典型相關分析也是利用降維思想,主要對質量評價、成分淺析、新舊工藝或不同炮制方法比較、尋找代用品及擴大藥用新資源等方面進行研究。王伽伯等[22]采用典型相關分析,對大黃炮制減毒機制和化學成分改變間的相關性進行探討,結果表明炮制可降低大黃肝腎毒性,其機制與結合蒽醌和鞣質類成分的下降有關,其中與游離和結合態的蘆薈大黃素及大黃素甲醚相關性最強;在肝腎生化功能指標中,血清谷丙轉氨酶(ALT)和肌苷(CREA)對肝腎毒性較敏感,可作為臨床監測指標,為大黃炮制工藝的優化及肝腎毒性臨床監測指標的篩選提供了方法參考。盧林耿等[23]對利用典型相關分析,對中藥復方制劑工藝因素和藥物成分間的關系進行了分析,結果表明大黃素和羊藿苷受制劑工藝影響較大,而芍藥苷幾乎不受影響;煎煮時間越長,大黃素和羊藿苷含量越低;加水量越多,大黃素含量越低,而羊藿苷含量越高;浸泡時間與這3種成分的含量成反比,但其影響作用較小,典型相關分析在中藥復方制劑工藝研究中的應用有其重要的價值。

2.6 多元統計的聯合應用 近年來,不僅單一多元統計分析得到廣泛應用,多種統計方法的聯合運用也得到快速發展,它能夠更客觀地實現中藥質量的全面控制。王海波等[24]利用因子分析、聚類分析對黃芪中的無機元素含量進行分析,因子分析和聚類分析法的研究都表明黃芪主要判別元素確定為K,Mg,Na,為從不同分析角度實現黃芪飲片的質量控制提供了依據。王曉燕[25]將寒性、熱性各10味植物藥所含的多糖成分水解成單糖,并測定單糖的HPLC圖譜,利用主成分―線性判別對該HPLC圖譜進行分析,20味中藥判別結果與已知藥性完全一致,表明中藥寒熱藥性與所含的多糖成分存在明顯相關性;主成分―線性判別可對中藥藥性進行判別,且判別準確率高。尹海波等[26]利用主成分分析和聚類分析,對10個不同產地的牛兒苗樣品中24種無機元素的指紋圖譜進行分析,以總方差貢獻率為91.5%選取前5個因子,主成分分析得出其特征元素為鋁(Al)、鉈(Tl)、鋇(Ba)、鐵(Fe)、鑭(La)、鈰(Ce)、鋰(Li)、鎵(Ga)和鈀(Pd),聚類分析將路邊生長和山坡生長的牛兒苗樣品聚為一類,結果表明元素的分布特征與牛兒苗的生態和產地呈一定的相關性。鄢丹等[27]利用相關分析對鹽酸小檗堿和不同產地黃連樣品的生物熱動力學參數(包括生長速率常數、產熱量、生長期最大產熱功率和達峰時間),和常規抑菌活性評價指標抑菌圈直徑進行分析,結果表明生物熱動力學法可用于黃連抑菌活性的測定;對不同產地黃連藥材的抑菌效價進行聚類分析,結果將不同產地的黃連聚為一類,為利用生物熱動力學法和抑菌效價測定法共同實現黃連抑菌活性評價提供依據。

3 小結和思考

綜上所述,多元統計分析能夠用來進行中藥資源的分類、優選、真偽鑒別、質量評價、成分淺析、新舊工藝或不同炮制方法比較、尋找代用品及擴大藥用新資源等方面。雖然多元統計分析得到了廣泛應用,但仍存在一定的不足,比如主成分分析在簡化數據降低維數的過程中又有可能丟失信息;因子分析在采用的是最小二乘法計算因子得分時,此法有時可能會無效;典型相關分析是在原始變量服從多元正態分布,樣本容量至少要大于原始變量個數,且原始變量組內要有一定的相關性等前提下進行的,在實際應用時要根據各種分析方法的優缺點和它們之間存在的內在聯系及區別,選擇合適的分析方法,以實現中藥質量更客觀有效的全面控制。

多元統計分析在鑒定中藥的真偽和質量優劣方面的研究工作已取得了可喜的進展[28],但其研究尚未成體系。我們能否以常用的中藥道地優級藥材和其他產區的藥材為模型進行研究,建立一個常用中藥材真偽鑒別和質量優劣評估體系。即首先選取合適的分析方法如色譜、質譜或生物測定方法等,提取藥材的特征數據如化學指紋圖譜、生物效價或生物效應譜等;然后對其中一種或多種特征數據進行主成分分析、聚類分析或判別分析等,在分析結果與常規質量等級分類一致的基礎上,利用該特征數據建立一個常用中藥材真偽鑒別和質量優劣評估體系,再運用相應的分析方法對未知類別的樣品進行歸屬判別,對中藥的質量進行有效控制,以期早日實現中藥的現代化和國際化。

[參考文獻]

[1] 黃玉慧,郭力.中藥質量控制方法研究進展[J]. 中藥與臨床,2012,3(4):54.

[2] 陶燕蓉,陳曦.中藥質量評價技術的國內外研究現狀及分析[J].中藥與臨床,2011,2(2):59.

[3] 何曉群.多元統計分析[M].北京:中國人民大學出版社,2000:168.

[4] 張潤楚.多元統計分析[M].北京:科學出版社,2003:190.

[5] 朱小梅.多元統計分析方法在宏觀經濟分析中的應用[J].赤峰學院學報:自然科版,2013,29(20):5.

[6] 鄧海燕.聚類分析與判別分析的區別[J].武漢學刊,2006,118(1):29.

[7] 趙峰.典型相關分析算法理論及其在模式分類中的應用[D]. 西安:西安電子科技大學,2005.

[8] 陳偉志,魏振軍,王春迎.多元統計分析在數據挖掘中的作用[J].信息工程大學學報,2003,4(4):22.

[9] 薛偉,劉永久.淺談《多元統計分析》課程教學[J].科技信息,2009(7):119.

[10] 馬利,沈紹武,蔡曉紅.多元統計方法在中醫藥研究中的應用[J].中醫藥信息,2009,26(1):46.

[11] 孔浩,郭慶梅,王慧慧,等.主成分分析法在中藥質量評價中的應用[J].遼寧中醫雜志,2014,41(5):890.

[12] 王劭華,曾金祥,朱玉野,等.車前子主成分分析研究[J].江西中醫學院學報,2011,23(1):48.

[13] 王琴,龍啟萍.枸杞多糖和金屬元素的主成分分析[J].微量元素與健康研究,2013,30 (1):23.

[14] 朵興紅.主因子分析法用于中草藥中微量元素含量的研究[J]. 微量元素與健康研究,2010,27(4):24.

[15] 多杰扎西,吳啟勛.不同產地枸杞子中微量元素的因子分析[J]. 西南民族大學學報:自然科學版,2008,34(3):514.

[16] 李水福,胡清宇.試述聚類分析法在中藥研究中的應用[J].基層中藥雜志,1997,11(3):45.

[17] 辛海量,胡園,張巧艷,等.4種牡荊屬植物來源生藥的近紅外漫反射指紋圖譜聚類分析[J]. 時珍國醫國藥,2008,19(12):3037.

[18] 李寒冰,肖小河,鄢丹,等.中藥質量生物控制模式和方法的研究――板藍根抗病毒效價檢測方法的建立[C].石家莊:2008年中國藥學會學術年會暨第八屆中國藥師周,2008.

[19] 鄢丹,方藝霖,肖小河,等.基于生物熱活性檢測的不同產地黃連的生物效應評價研究[C].南昌:第九屆全國中藥和天然藥物學術研討會,2007.

[20] 白雁,李雯霞,謝彩霞,等.3種不同產地生地黃近紅外圖譜的判別分析[J].計算機與應用化學,2011,28(3):311.

[21] 吳文莉,馬威,管競環.中藥寒涼溫熱四性的Fisher判別分析[J].中國中醫藥科技,2012,19(1):43.

[22] 王伽伯,馬永剛,張萍,等.炮制對大黃化學成分和肝腎毒性的影響及其典型相關分析[J].藥學學報,2009,44(8):885.

[23] 盧林耿,張寧,王中民,等.典型相關分析在中藥復方制劑工藝研究中的應用[J].數理醫藥學雜志,1998,11(3):85.

[24] 王海波,邸學,楊欣欣,等.ICP-MS測定黃芪飲片無機元素因子分析和聚類分析[J].光譜實驗室,2012,29(3):1523.

[25] 王曉燕.基于主成分-線性判別分析的植物藥多糖HPLC圖譜與寒熱藥性關系研究[J].山東中醫藥大學學報,2013,37(2):156.

[26] 尹海波,張囡,羅宏,等.不同產地兒苗無機元素的主成分分析和聚類分析[J].中國中藥雜志,2010,35(15):1935.

[27] 鄢丹,肖小河.基于道地藥材和生物測定的中藥質量控制模式與方法研究――黃連質量生物測定[J].藥學學報,2011(5):568.

[28] 于鶴丹.多元統計分析方法在中藥質量評價中的應用[J].數理醫藥學雜志,2006,19(1):85.

Application of multivariate statistical analysis and thinking

in quality control of Chinese medicine

LIU Na, LI Jun, LI Bao-guo*

(Shandong University of Traditional Chinese Medicine, Ji′nan 250355, China)

[Abstract] The study of quality control of Chinese medicine has always been the hot and the difficulty spot of the development of traditional Chinese medicine (TCM), which is also one of the key problems restricting the modernization and internationalization of Chinese medicine. Multivariate statistical analysis is an analytical method which is suitable for the analysis of characteristics of TCM. It has been used widely in the study of quality control of TCM. Multivariate Statistical analysis was used for multivariate indicators and variables that appeared in the study of quality control and had certain correlation between each other, to find out the hidden law or the relationship between the data can be found, which could apply to serve the decision-making and realize the effective quality evaluation of TCM. In this paper, the application of multivariate statistical analysis in the quality control of Chinese medicine was summarized, which could provided the basis for its further study.

多元統計分析范文5

摘要:介紹了各種多元統計分析方法的基本原理及其在中藥質量評價中的應用進展。

關鍵詞:中藥;質量評價;多元統計分析

我國中藥材資源豐富,種類繁多,來源復雜,品種混亂,同物異名,同名異物現象多見。商品市場上除正品外,尚有代用品、偽品和混淆品,來源不同的藥材,質量差異很大,勢必影響臨床的療效,所以對中藥質量的評價尤為重要。過去基本上是以傳統的性狀鑒定和顯微鑒定確定真偽,以理化鑒定評價優劣。近年來發展起來一種新的技術――模式識別,它是根據物質所含的化學成分,利用TLC、UV、IR、HPLC、GC、MS等方法獲得其化學數據,然后利用數學思想和方法對該類數據進行特征提取,對藥材進行分析、決策和判斷。此種方法迅速發展,逐漸取代了傳統的中藥材鑒定法。模式識別所用的方法較多,但最常用的為統計學方法,它是以數學上決策理論為基礎,建立統計學識別模型,找出規律性認識。

1 多元統計分析方法在中藥質量評價中的應用

11 聚類分析(Clustering analysis,簡稱CA)在中藥質量評價中的應用

聚類分析法是數值分類學的新的分支,它是對一組尚無明確分類的樣本,根據它們所表現的變量特征,按相似程度的大小加以歸類,其目標是在模式空間中找到客觀存在的類別。按聚類目的不同,可將聚類分析法分為R型聚類法和Q型聚類法。

其原理為:對任一含m個指標的樣本,可定義為m維空間的點,在m維空間中的任意兩點其相似性可用“距離”度量,定義為“dij”,若將任一樣本看作一類,其類間相似性可用歐氏距離DE表示: DE=dij=[∑m

i=1(xil-xjl)2]1/2,式中:l=1,2,… m,表示樣本的指標數;i,j表示樣本序號;xil,xjl表示樣本各指標。系統聚類法即對n個樣本計算出兩兩間的距離dij,并從中找出距離最小的兩類Gp與Gq,合并成一個新類Gr,重新計算新類與其他各類間的距離,再將距離最小的兩類合并,重復以上過程至所有樣本聚為一類為止。定義類Gk與Gr的距離Drk有以下遞推公式:D2rk =αpD2pk+αqD2qk+βD2pq+γ|D2pk-D2qk|,式中參數αp,αq,β,γ取值不同對應不同的系統聚類方法。

該法除常用于中藥系列品種的分類外,還可以廣泛的引用于真偽鑒別、成分淺析、質量評價、新舊工藝或不同炮制方法比較、尋找代用品及擴大藥用新資源等方面[1~7],使中藥研究跨進現代電腦量化分析的新階段。

馬英麗等[8]用甲醇回流提取黃芪中的皂苷類成分,以氯仿甲醇水(65:30:10)為展開劑,采用雙波長薄層掃描法,在λs=390nm,λr=590nm下,對18個產地的黃芪樣品進行了定量分析,以黃芪甲苷為指標成分,選用中位數法進行聚類,用余弦法計算樣品間的相似性程度。結果系統聚類分析將樣品分為3類,大多數產地的黃芪被聚為1類或2類,即質量較好或一般。表明,蒙古黃芪和膜莢黃芪被列為優質品,該結果與《中華人民共和國藥典》2000年版將蒙古黃芪和膜莢黃芪列入正品相一致。王繼國等[9]建立了10種中藥血竭樣品的HPLC指紋圖譜,并把HPLC指紋圖譜信息進行數據化及數據標準化處理,用重疊率與相關系數兩個參數,從兩個方面定量的對這10種樣品的HPLC指紋圖譜進行了相似性評價;在此基礎上用系統聚類分析法定性的對這10種樣品進行了分類和鑒別,從而建立了一種相對完善的中藥血竭的化學模式識別技術,為中藥血竭的質量評價和分類鑒別提供了一個很好的方法和思路。田蘭等[10]采用HPLC對32個白術樣品進行測定,將樣品分析中所獲得的32個樣品的45個特征,采用系統聚類分析和逐步判別分析,進行白術的化學模式識別的研究。將32個樣品分為優等品、一般品和偽品3個等級,優質品集中于浙江、湖南、四川一帶,而北方的白術質量一般。這樣就建立了評價白術真偽優劣的新方法。徐永群等[11]以赤芍的紅外指紋圖譜為依據,采用主成分分析法對來自18個產地的赤芍進行了聚類分析。可將18個產地大致分為6類,這一分類與地理位置有較明顯的對應關系,同一區域內赤芍的性能較為相似,可作為傳統中醫界對赤芍藥材質量評價的依據。劉謙光等[12] 運用模糊動態聚類分析法對來源于美國、加拿大及我國的共14種不同產地的西洋參樣品質量進行了模糊識別研究。結果與權威部門認定的具有法定地位的西洋參產地進行驗證、核對,取得了較為一致的結果。

12 判別分析(Discriminant analysis,簡稱DA)在中藥質量評價中的應用

判別分析是在已知研究對象分成若干類型(或組別)并已取得各種類型的一批已知樣品的觀測數據,在此基礎上根據某些準則建立判別式,然后對未知類型的樣品進行判別分類,而聚類分析是在一批給定樣品要劃分的類型事先并不知道,正需要通過聚類分析來給以確定類型。正因為如此,判別分折和聚類分析往往聯合起來使用,所以判別分析是要求先知道各類總體情況才能判斷新樣品的歸類,當總體分類不清楚時,可先用聚類分析對原來的一批樣品進行分類,然后再用判別分析建立判別式以對新樣品進行判別。

于承浩等[13]對六味地黃丸及其模擬樣品在290nm下進行薄層掃描分析,將所得特征數據利用聚類分析方法進行分類,用逐步判別分析方法優選特征數據、建立判別函數,并對分類結果進行檢驗。結果表明,樣品及模擬品被分為4類,分類合理,判別函數回判準確率為100%。從而說明了聚類判別分析方法可較好地評價六味地黃丸的質量。張亮等[14]采用反相HPLC法對六味地黃丸缺味藥模擬方的浸出物進行分析,選取9個色譜峰的峰面積與內標峰面積之比值作為樣本特征變量,通過169個訓練集樣本建立了其中3種缺味藥的Bayes法和PRIMA法判別分析數學模型。結果3種缺味藥4種模式的平均正確識別率Bayes法和PRIMA法均為100%,對169個預示集樣本的平均預示率Bayes法為100%,PRIMA法為99.6%。表明Bayes法和PRIMA法能對六味地黃丸3種缺味藥進行準確識別。

13 主成分分析法(Principal components analysis,簡稱PCA)在中藥質量評價中的應用

根據在初選的特征量間可能存在的相關性,找到一種空間變換方式,通過對原始特征(經標準化后的)變量進行線性組合,形成若干個新的特征矢量,要求它們之間相互正交,它既保留了原始指標的主要信息,且又互不相關。這樣一種從眾多原始指標之間相互關系入手,尋找少數綜合指標以概括原始指標信息的多元統計方法成為主成分分析。其數學模型為:設有m個指標X1,X2,…,Xm,欲尋找可以概括這m個指標主要信息的綜合指標Z1,Z2,…,Zm。從數學上講,就是尋找一組常數ai1,ai2,…,aim(i=1,2,…,m),使這m個指標的線性組合:Z1=a11 X1+a12 X2+…+a1m XmZ2=a21 X1+a22 X2+…+a2m Xm Zm=am1 X1+am2 X2+…+amm Xm能夠概括m個原始指標X1,X2,…,Xm的主要信息(其中,各Zi(i=1,2,…,m)互不相關)。這些矢量即稱為主成分。該方法就是根據樣本特點,選取與問題最相關的特征來參與分類的。近年來主成分分析法在中藥質量鑒別分析中應用比較廣泛[15-17]。

張耀奇等[18]運用氣相色譜法結合主成分分析對16種蒼術及類似品、30種相關成藥(二妙丸、三妙丸、四妙丸等)進行了研究。該方法是將氣相色譜分離得到去除雜質峰的整個色譜圖化分成237個時間通道,凡在時間通道內不出峰就以“0”表示,出峰的以實際峰面積表征。由此,每一樣本均可用一個237維的向量表示,采用shannon信息量方程計算每一時間通道的信息量,最后選取信息量最大的十幾個通道作為分類特征。結果顯示,蒼術和白術有明顯區別;茅蒼術和北蒼術雖為藥典規定的正品蒼術,但就揮發性化學成分來看,兩者有明顯區別;北蒼術和關蒼術區別不大。三種相關成藥,以三妙丸較有特征,有別于其它兩種。孫紅祥等[19]從常用的10種天南星藥材中選取與抗腫瘤、鎮咳祛痰作用相關的13種成分作為評價指標,并運用主成分分析方法從這13個指標中提取了4個主因子,其累積貢獻率達91.4%,能較近似的代表原始數據所反映的信息,得到權重系數較大的X1、X2、X4、X7、X8、X11和X12等7個指標,然后再采用模糊數學的方法對這些藥材的質量進行綜合評價。結果表明,一把傘南星最佳,其次為象頭花和掌葉半夏,粗序南星質最劣。因此,應用主成分分析和模糊數學方法建立的數學模型進行中藥材的質量評價是可行的。馬齡等[20]采用氣相色譜法對中藥吳茱萸脂肪酸進行了分析測定,根據測定的數據用主成分分析法進行特征壓縮、提取,將代表諸樣品特征的點即“星”顯示在半圓形極坐標上構成星座圖,根據“星”所屬的星座和所走的路徑,對18種不同品種、不同產地的吳茱萸進行自然分類,為中藥吳茱萸的品種鑒別和質量優選提供了依據。張亮等[21]利用主成分分析法對32個不同品種來源的中藥石斛樣品質量進行了研究,該法直接用藥材粉末的氯仿浸出液的紫外光譜數據進行分析,以每一波長與特定波長的吸光度比值作為分類指標,用Shannon信息理論對全部樣品計算每一波長通道的信息量,選取信息量最大的10個通道用作分類特征,取得了滿意的分類結果,為從化學角度研究中藥質量提供了一種新的方法。曾明等[22]應用主成分分析法對來源于不同產地的野葛及葛屬的其它8種植物進行了化學模式識別研究,為葛屬植物的藥材質量評價及分類提供了依據。王秀坤等[23]運用主成分分析法及非線性映射技術,對來源于全國各地的40份苦參藥材質量進行了化學模式識別研究,取得了與傳統鑒定較為一致的結果。

14 逐步回歸分析(Stepwise regression,簡稱SR)在中藥質量評價中的應用

逐步回歸分析[24]是進行雙向篩選的一種方法,當引入一個自變量進入方程后,要對方程中的每一個自變量作基于偏回歸平方和的F檢驗,看是否需要剔除一些退化為“不顯著”的自變量,以確保每次引入新變量之前方程中只包含有“顯著”作用的自變量。這一雙向篩選過程反復進行,直到既沒有自變量需要引入方程,也沒有自變量從方程中剔除為止,從而得到一個局部最優的回歸方程。

到目前為止,此種方法在中藥質量評價中應用的比較少。張漢明等[25]為了考察化學成分與藥理活性之間的內在聯系,建立合理的化學模式識別方程,因此選擇了葛根的有效成分總黃酮、葛根素、大豆苷元、大豆苷、3′甲氧基葛根素及多糖的含量和葛根清熱解表功效有關的抗內毒素活性強度為化學和藥理指標,運用逐步回歸法建立了回歸方程,同時采用Bayers判別分析法對來自全國不同產地的葛根及同屬的其它植物進行了模式識別研究。結果黃酮類成分未進入方程,而多糖與抗內毒素活性呈顯著的負相關;6因素和單因素的判別正確率分別為94.12%、88.24%。本研究也為中藥材質量評價提供了一個新的依據。

15 典型相關分析(Canonical correlation analysis,簡稱CCOR)在中藥質量評價中的應用

典型相關分析是研究變量之間相關關系的一種統計分析方法,它揭示兩組隨機變量之間的線性相關情況。是從整體上把握兩組指標之間的相互關系,分別在兩組變量中提取有代表性的兩個綜合變量U1、V1(U1、V1分別是兩個變量組中各變量的線性組合),利用這兩個綜合變量之間的相關性在一定程度上反映了原來兩組指標之間的整體相關性。

孫立新等[26]收集不同科屬、不同產地的板藍根樣品27個、大青葉樣品5個。對樣品的化學成分進行高效液相色譜分析,獲得反映樣品整體化學特征的數據,同時選擇體外抑菌藥理指標進行藥理活性測定。用典型相關分析揭示了化學信息和藥理指標之間的相關關系,尋找與藥理指標密切相關的化學成分,用ISODATA聚類分析技術將32個樣品劃分為5類。結果用此方法評價板藍根、大青葉的質量,結果良好,正確率為90.6%。

2 小結

多元統計分析方法運用在中藥質量評價中,具有較強的科學性,在鑒定中藥的真偽和質量優劣方面的研究工作已取得了可喜的進展,但現在多以單一方法為主,這樣不容易把樣品的特征信息完全表現出來。所以應該使多種統計方法聯合運用,從而更可觀的反映中藥的質量,以達到中藥質量全面控制的目的。相信多元統計方法會成為中藥質量評價的一種科學的、全面地、準確的方法。

參考文獻

1 馬英麗, 趙懷清, 王學婭, 等. 不同產地黃芪的系統聚類分析. 中醫藥學報, 2003,31(2):20~21.

2 崔淑芬, 蔣軼倫, 王小如. 甘草藥材薄層掃描指紋圖譜研究. 沈陽藥科大學學報, 2004,21(5):367~370.

3 王璽, 周密. 氣相色譜數據的聚類分析法評價中藥厚樸的質量. 沈陽藥學院學報, 1990,7(1):5~7.

4 戴榮華, 馬英. 牛膝質量評價方法研究中的化學模式識別. 計算機與應用化學, 2002,19(3):255~256.

5 徐永群, 孫素琴, 馮學峰, 等. 黃芩產區紅外指紋圖譜和聚類分析法的快速鑒別研究. 光譜學與光譜分 析, 2003,23(3): 502~505.

6 劉榮霞, 周婷婷, 董婷霞, 等. 建立評價當歸質量的HPLC指紋圖譜分析方法. 中國藥學雜志, 2003,38(10):757~760.

7 王艷華, 李莉. 中藥半夏的化學模式識別研究. 黑龍江醫藥, 2004,17(5):342~343.

8 馬英麗, 趙懷清, 田振坤, 等. 黃芪質量的化學模式識別研究. 中草藥, 2003, 34(5):460~462.

9 王繼國, 雍克嵐, 陳旭, 等. 中藥血竭的化學模式識別研究. 上海大學學報(自然科學版), 2004,10(1):75~78.

10 田蘭, 畢開順, 孫穩健, 等. 白術的化學模式識別. 中國中藥雜志, 2003,28(2):143~146.

11 徐永群, 黃昊, 周群. 紅外指紋圖譜和聚類分析法在赤芍產域分類鑒別中的應用. 分析化學. 2003,31(1):5~9.

12 劉謙光, 陳戰國, 張尊聽, 等. 西洋參質量的化學模式識別. 中草藥, 1999,30(11):852~853.

13 于承浩, 呂青濤, 王晶. 聚類判別分析方法評價六味地黃丸質量的研究. 山東中醫藥大學學報, 2002,26(5):375~378.

14 張亮, 劉展鵬, 楊春. 六味地黃丸缺味藥的Bayes法和PRIMA法定性識別研究. 中國中藥雜志, 2000,25(1):29~32.

15 周永治, 郭戎. 主成分分析法在中藥鑒別中的應用. 生物數學學報, 1995, 10(3):200~204.

16 蘇薇薇, 梁仁, 黃韜. 黃芩中微量元素的模糊數學處理及正品黃芩的識別. 廣東微量元素科學, 1997, 4(2):60~63.

17 蘇薇薇. 主成分分析法評價中藥材黃芩的質量. 現代應用藥學. 1990, 7(4):9~11.

18 張耀奇, 潘揚, 王天山, 等. 術類中藥及其相關成藥質量的主成分分析. 南京中醫藥大學學報, 1997, 13(3): 149~150.

19 孫紅祥, 葉益萍. 天南星類藥材的綜合質量評價. 生物數學學報, 2003, 18(2): 243~248.

20 馬齡, 王璽. 中藥吳茱萸中脂肪酸氣相色譜數據的化學模式識別. 計算機與應用化學, 2000, 17(1):123.

21 張亮, 馬國祥, 張正行, 等. 中藥石斛質量的化學模式識別. 藥學學報, 1994, 29(4):290~295.

22 曾明, 張漢明, 鄭水慶, 等. 中藥葛根及同屬植物的化學模式識別. 中草藥, 1998, 29(10):652~654.

23 王秀坤, 李家實, 魏璐雪, 等. 苦參質量的化學模式識別. 中國中藥雜志, 1996, 21(4):198~200.

24 孫振球. 醫學統計學. 第1版. 北京: 人民衛生出版社, 2002, 249~251.

25 張漢明, 曾明, 鄭水慶, 等. 中藥葛根及同屬植物的模式識別研究(Ⅱ). 中草藥, 2001,32(3):253~254.

多元統計分析范文6

論文關鍵詞:R軟件,聚類分析,主成分分析,典型相關分析

 

引言:多元統計分析是統計學的一個重要分支,也稱多變量統計分析;在現實生活中,受多種指標共同作用和影響的現象大量存在,多元統計分析就是研究多個隨機變量之間相互依賴關系及其內在統計規律的重要學科,由于多元統計分析方法一般涉及復雜的數學理論,一般無法用手工計算,必須有計算機和統計軟件的支持。

在統計軟件方面,常用的統計軟件有SPSS、SAS、STAT、R、S-PLUS等。R軟件是一個自由、免費、開源的軟件,是一個具有強大統計分析功能和優秀統計制圖功能的統計軟件,現已是國內外眾多統計學者喜愛的數據分析工具。本文結合實例介紹了R軟件在多元統計分析中的應用,具體內容包括R軟件在聚類分析、主成分分析、對應分析等方面的應用。

一 在聚類分析教學中的應用

聚類分析又稱群分析,它是研究(樣品或指標)分類問題的一種多元統計方法,所謂類,通俗地說,就是指相似元素的集合。在社會經濟領域中存在著大量分類問題,比如若對某些大城市的物價指數進行考察聚類分析,而物價指數很多,有農用生產物價指數、服務項目價指數、食品消費物價指數、建材零售價格指數等等。由于要考察的物價指數很多,通常先對這些物價指數進行分類??傊?,需要分類的問題很多,因此聚類分析這個有用的工具越來越受到人們的重視,它在許多領域中都得到了廣泛的應用。

聚類分析內容非常豐富,有系統聚類法、有序樣品聚類法、動態聚類法、模糊聚類法、圖論聚類法、聚類預報法等,具體詳見參考文獻[3]。

R軟件及其相關包提供了各種聚類方法,主要是系統聚類方法、快速聚類方法、模糊聚類方法,常用的是系統聚類方法。

R軟件實現系統聚類的程序如下:

Hclust(d,method=“complete”)

其中d是由“dist”構成的距離結構,具體包括絕對值距離、歐氏距離、切比雪夫距離、馬氏距離、蘭氏距離等,默認為歐氏距離;method包括類平均法、重心法、中間距離法最長距離法最短距離法、離差平方和法等,默認是最長距離法。

例1 下表是山東省2008年各市居民家庭平均每人全年消費性支出,利用所給數據對各市進行系統聚類。

 

山東各市居民家庭平均每人全年消費性支出 元/人

地區

食品

衣著

居住

設備用品

交通通訊

文化教育

醫療保健

其它

濟南

1628.16

252.86

790.11

285.64

634.83

355.54

394.37

43.9

青島

1999.61

523.76

901.56

297.76

595.34

618.12

260.17

106.42

淄博

1691.6

372.21

844.44

300.46

494.67

580.6

370.84

102.16

棗莊

1370.59

272.95

614.3

227.52

454.73

245.93

220.88

84.2

東營

1580.86

234.17

813.58

253.12

532.19

432.05

275.3

39.1

煙臺

1673.19

337.92

719.28

201.3

414.08

497.57

286.03

77.11

濰坊

1516.36

299.67

1327.72

243.72

583.04

494.65

269.82

92.95

濟寧

1375.4

287.17

722.05

282.16

380.68

412.42

218.11

56.94

泰安

1412.44

225.66

567.66

257.96

411.98

450.57

177.02

70.07

威海

1684.64

517.59

759.36

227.12

424.41

565.75

444.31

77.48

日照

1451.12

351.21

562.91

208.81

457.2

332.16

182.2

37.69

萊蕪

1516.22

198.94

624.72

207.03

464.06

469.35

256.53

36.33

臨沂

1339.69

212.36

625.26

191.34

409.39

314.9

156.01

63.31

德州

1114.47

173.88

553.14

169.23

319.41

220.45

137.97

42.2

聊城

1146.53

182.53

566.92

186.05

317.48

332.64

155.94

54.31

濱州

1177.49

179.96

979.01

206.88

451.85

407.49

298.7

47.51

菏澤

1265.03

170.85

550.68

143.11

329.99

349.41

亚洲精品一二三区-久久