統計學變量的定義范例6篇

前言:中文期刊網精心挑選了統計學變量的定義范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。

統計學變量的定義

統計學變量的定義范文1

關鍵詞:統計學;地質工程;應用分析

地質統計學是20世紀六七十年展起來的一門新興的數學地質學科的分支,是隨著采礦業的發展而興起的一門交叉學科。地質統計學是以區域化變量理論為基礎,以變異函數為主要工具,研究那些在空間分布上既有隨機性又有結構性,或空間相關和依賴性的自然現象的科學。國內外地質統計學的理論、方法及應用均達到了成熟的階段,并形成了具有較好應用價值的軟件。具有代表性的有:法國巴黎高等礦院地質統計學研究中心研制的ISATIS;美國斯坦福大學應用地球科學系C.v.Deutsch和A.G.Journel共同編寫的GSIJB程序包,等等;北京科技大學地質系也編寫出地質統計學方法研究程序集。

近年來,克里金技術在石油勘探開發中的應用日益廣泛深入,效果也越來越明顯。主要應用包括:儲層預測,即估計地層的埋深、層厚、孔隙度、滲透率和含油飽和度等地質和地球物理參數的空間分布,這些變量在空間既存在一定的空間分布規律(結構性),又存在局部的變異性(隨機性),這些變量都屬于區域化變量,因此可以用地質統計學方法對這些變量進行研究繪制各種地質圖件;利用地質統計學的變差函數研究儲層的非均質性及各向異性;數據整合,即整合地震、測井、鉆井和露頭等各種信息并進行建模。除此以外,隨機模擬方法和油藏數值模擬相結合,可以預測油藏的動態特征,為制定和調整開發方案并提高采收率提供依據。

一、地質統計學研究方法的基本理論

(一)基本原理

當一個變量呈現為空間分布時,就稱之為區域化變量。這種變量常常反映某種空間現象的特征,用區域化變量來描述的現象稱之為區域化現象。區域化變量,亦稱區域化隨機變量,G.Matheron(1963)將它定義為以空間點x的三個直角坐標為自變量的隨機場。區域化變量具有兩個最顯著,而且也是最重要的特征,即隨機性和結構性。區域化隨機變量之間的差異,可以用空間協方差來表示(見圖1)。

(二)變差函數

一維變差函數的定義:假設空間點x只在一維x軸上變化,把區域化變量Z(x)在x,x+h兩點處的數值之差的方差之半定義為區域化變量Z(x)在x方向上的變差函數,記為:

r表示變差函數;E表示數學期望;Var表示方差。也就是說變差函數依賴于x和h兩個自變量。在本征假設條件下,變差函數僅依賴于分割它們的距離h和方向a。而與所考慮的點x在待估域內的位置無關,因此變差函數更明確定義為:變差函數是在任一方向a,相距h的兩個區域化變量Z(x)和Z(x+h)的增量的方差之半。

變差函數是一個距離的函數,描述不同位置變量的相似性,r值越大,相關越差。通常情況下,r值隨著距離矢量h的增大而增大,直到h到達一定值時,r達到極大值,而后保持這個常數值不變。

(三)克里金方法

當隨機變量X的數學期望對整個區域都為已知時,采用的克里金方法就是簡單克里金方法。在進行簡單克里金估計時,我們假設整個區域的均值是已知的。然而儲層物性的均值是隨著局部區域的不同而變化的,上述假設在絕大部分的情況下是不成立的,普通克里金解決了這一問題。當隨機變量X(u)的數學期望是一個和u無關的常數,但這個常數未知時,導出的克里金方法就是普通克里金方法。

(四)協克里金

1.協克里金方法的原理及其公式。協克里金方法要求主變量與二級變量之間具有良好的相關性。以整合兩個變量為例,協克里金估計的主變量和二級變量的線性組合形式如下:

公式中,是位置的估計值,是在位置上的主變量采樣值;是對應于該采樣點的加權系數。

協克里金有其不足之處,需要建立兩個變差函數(主變量、二級變量的變差函數)和一個互變差函數(主變量與二級變量之間的互變差函數)。不僅運算的數據量顯著增大了,而且擬合這些變差函數比較困難。在協克里金的計算過程中,相關性較好的數據對相關性較差的數據存在屏蔽效應。由于這些原因,這種完全協克里金在實際應用方面受到限制。于是,人們發展了配置協克里金,這種方法保留了協克里金的優點,又不用同時建立三個變差函數。

2.協克里金算法中幾個關鍵的步驟。在使用協克里金方法時,要求兩組數據之間具有良好的相關性。圖1是工區井點處單位厚度旅行時差與孔隙度的交匯圖,計算單位厚度旅行時差與孔隙度的相關系數為0.880655,具有良好的相關系數。

相關函數的計算與擬合。由于實際數據測量點個數的不足,我們需要對相關函數進行計算并擬合,繪制出完整的相關函數圖形,通過變差函數計算方法和線性規劃擬合方法,計算擬合相關函數。

選擇合適的搜索半徑。協克里金方法至少使用兩種數據,一般叫做硬數據和軟數據,通過實際資料處理,認為這兩種數據不宜用相同的搜索半徑。對于硬數據,應采用與硬數據的變程相當的搜索半徑,原則是盡可能地應用精確的硬數據;對于軟數據,搜索半徑不宜過大,因為軟數據本身不夠精確,會把自身的偏差帶到估計值中。

處理加權系數。最后一步是處理加權系數,由于負的加權系數會導致奇異的估計值,因此需要采用線性規劃方法處理加權系數。

二、地質統計學方法的應用

(一)儲層預測

對儲層參數進行科學有效的預測,一直是石油地質學的熱點和難點。最初采用傳統的數理統計方法,但這種純數學的方法不考慮儲層參數之間的空間連續性和相關性,不帶任何地質意義,對儲層參數預測具有很大的局限性。而地質統計學方法以區域化變量理論為基礎,充分考慮了地質參數空間變化的趨勢、方向性及2樣點參數的相互依賴性,利用克里金方法的插值和外推功能,求出比較符合地質規律的地質統計模型和方法,來表征各種儲層參數的變化規律,然后用這種規律,對參數(如孔隙度和滲透率等)的空間展布進行比較合理而有效的預測。

(二)儲層的非均質性及各向異性研究

儲層非均質性研究是油藏描述的重要內容,其參數的空間分布不僅具有隨機性,而且具有結構性。從地質統計學關于變差函數的基本理論出發,在綜合分析的基礎上,構造了一種定量表征儲層平面非均質性的數學模型,計算結果所反映的各類儲層的平面非均質特征符合沉積的基本規律,說明這一表征模型用于儲層平面非均質性定量評價中是可行的。

(三)不確定性描述

靜態、動態的確定性模型,很難反映油藏的復雜變化,只有通過不確定性描述,從地質統計觀點概括和綜合地質模型,才能真實地反映復雜的油藏模型。近幾年來,地質統計學越來越廣泛地用于儲層表征,諸如估計孔隙度的空間分布,模擬滲透率的數值連續性,定量估計油藏模型的不確定性,取樣設計,流動模擬過程中的敏感性分析和風險分析,等等。它的最大優點就在于能夠方便地綜合應用各種資料,如地質、地震、測井、生產等各方面的信息,這對巖心取樣十分稀疏的油藏的準確描述是關鍵的。而且不確定性描述能為油藏工程師提供多個可選擇的開發方案,有利于綜合分析,獲得合理的開發決策。

參考文獻:

[1]何琰,殷軍.儲層非均質性描述的地質統計學方法[J].西南石油學院學報,2001,23(3).

[2]李黎,王永剛.地質統計學應用綜述[J].勘探地球物理進展,2006,(6).

[3]王自高,何偉,高才坤,盧杰.工程勘察新技術應用與發展思路[J].水力發電,2006,(11).

[4]GUNTER,HOLDER.StatisticsinPreclinicalPharmaceuticalResearchandDevelopment[J].JournaloftheAmericanStatisticalAssociation,2000,95(449).

統計學變量的定義范文2

0引言

妊娠高血壓綜合征(簡稱妊高征)是發生于妊娠中晚期的特有疾病,可導致胎兒發育遲緩、胎盤早剝、早產、產后出血等嚴重后果,是孕產婦和圍產兒死亡的重要原因之一. 盡管國內外學者[1-2]對該病的發病原因進行了許多有益的探索,但迄今為止,其病因仍不是很明確. 我們采用病例對照研究方法,探討妊高征的影響因素,為有針對性地做好孕前及孕期保健、提高監測和干預效果、減少妊高征的發生風險提供科學依據.

1對象和方法

1.1對象取吉安市多家市級和縣級醫院200401/200506 2121名孕婦的病歷資料,年齡18~46(平均26.4±3.9)歲. 其中妊高征患者147例,總患病率為6.9%. 在所有妊高征患者中,輕度妊高征82例,占55.8%,中度38例,占25.8%,重度27例,占18.4%. 按是否有妊高征分成病例組和對照組,妊高征的診斷均須符合200012樂杰主編的《婦產科學》第5版所制定標準[3].

1.2方法采用成組設計的病例對照研究方法,采集病例組和對照組研究因素的暴露情況. 資料收集完成后,對所有變量進行編碼定義,若為多分類變量則在分析時預處理為啞變量. 利用電腦統計軟件SPSS10.0作單因素Logistic回歸分析,篩出具有統計學意義(P

2結果

2.1單因素分析以是否有妊高征為因變量(有定義為1,無定義為0),各研究因素為自變量分別引入單因素Logisitc回歸方程. 由于季節為無序多分類變量,分析時以冬季為參照,形成4個啞變量. 結果顯示,孕婦為國家干部、子女數、孕婦體質量、Hb,多胎妊娠、死胎死產史以及季節與妊高征之間存在關聯,具有統計學意義(P<0.05,表1).

表1妊高征影響因素的單因素Logistic回歸分析結果(略)

2.2多因素分析為排除混雜因素的影響,將單因素分析中具有顯著意義的變量同時引入多因素非條件Logistic回歸模型,采用前進法的最大似然比檢驗,選入變量的概率標準為0.05,剔除標準為0.10. 最終進入主效應模型的變量為死胎死產史和季節(表2). 隨后對這兩個變量的交互作用進行分析,未引出交互作用項(P>0.05),即這兩個變量為妊高征的獨立影響因素,其中死胎死產史為危險因素,而秋季為保護因素.

表2妊高征影響因素的多因素Logistic回歸分析結果(略)

3討論

從單因素分析可以看出,孕婦為國家干部、孕婦體質量較大、多胎妊娠、有死胎死產史者較易發生妊高征,而子女數較多、Hb大以及秋季為妊高征的保護性因素. 隨后的多因素分析顯示,最終進入多因素主效應模型的變量為死胎死產史和季節,是妊高征主要獨立影響因素.

死胎死產史與妊高征的發生正相關,其發生風險遠高于其他孕婦. 多因素分析顯示其A值達21.903,可見要有效防止妊高征,有死胎死產史的孕婦應是重點監測對象之一,須注意加強產前檢查. 但該A值95%可信區間有些偏寬,因此該值尚不夠穩定,其原因可能是有死胎死產史的孕婦例數偏少所致,這有待于今后擴大樣本作進一步的研究. 本研究表明,季節對于妊高征的發生有明顯影響. 本研究的結果是以冬季為參照的,顯然在秋季妊高征的發生率較低,與冬季有顯著差異(P<0.05). 為進一步了解其它三季之間的關系,再以春季為參照,分析結果顯示春、夏、冬三季之間差別不明顯(P>0.05). 一般認為[3],全身小動脈痙攣是妊高征的病變基礎,冬春季節天氣寒冷,小血管容易出現痙攣緊張,血壓升高,從而誘發妊高征. 而夏季氣溫高,出汗多,血液及尿液濃縮,尤其中暑時,腎血流量減少,腎小球濾過率下降,出現蛋白尿,因此也是妊高征的誘發因素之一. 相對而言,秋季氣候涼爽,既不特別寒冷,也不特別炎熱,,血管較少出現劇烈應激,從而有利于降低妊高征的發生風險.

【參考文獻】

[1] 趙偉,王建華. 妊娠高血壓綜合征的篩檢及相關危險因素的研究[J]. 中華流行病學雜志,2004,25(10):845-847.

[2] Chappell LC, Seed PT, Briley AL, et al. Effect of antioxidants on the occurrence of preeclampsia in women at increased risk: A randomized trial[J]. Lancet, 1999,354:810-816.

統計學變量的定義范文3

關鍵詞:二分類變量;logistic回歸模型;職業農民;培育意愿;分析

中圖分類號:G725 文獻標志碼:A 文章編號:1673-9094-C-(2013)12-0048-03

隨著中國農業現代化進程的不斷推進,職業農民在農業生產和經營過程中必將發揮更大的作用,將更多的農民培育成為職業農民是促進農業持續健康發展的必由之路。[1]課題組對658位江蘇農民進行了抽樣調查,討論其接受職業農民培育的意愿,旨在為職業農民的培育提供參考依據。

一、樣本選擇與變量定義

課題組共發放調查問卷658份,涉及江蘇省姜堰市、沭陽縣、濱??h、興化市、鹽城亭湖區、盱眙縣等6個縣(區、市),收回有效樣本問卷600份,形成600份基本樣本資料,在此基礎上進行統計分析。

根據調查問卷中涉及的相關內容,定義自變量和因變量含義與標示,確定其取值區間。由于統計的趨向目標是農民接受職業農民培育意愿,因變量y為二分類變量,即無意愿和有意愿,分別定義為y=0和y=1,設定因變量區間范圍(0,1),根據其概率預測培育價值。[2]自變量的定義與標識見表1。

二、模型選擇

二分類變量回歸模型應用Binary logistic過程實現,logistic回歸函數為:

P:意愿概率,是關于參數β0、β1…βn的非線性函數,符合一個標準的logistic分布;

Xi:影響因素。[3]

與最小二乘法不同的是,這里參數估計不存在精確解,只能通過迭代法獲得估計的數值解。

三、自變量對因變量影響趨向預測

據實踐經驗,在自變量Xi正向取值條件下,預測因變量y變化趨向,具體見表3。

四、結果與分析

應用SPSS13.0,順次執行Analyze/Regression/BinaryLogistic命令,生成表4-6。

表6為logistic回歸模型的擬合結果,表格從左至右含義依次是,系數值(B)、標準誤(S.E.)、卡方值(Wald)、自由度(df)、相伴概率值(Sig.)、系數(B)返回e的n次方值Exp(B)。在Step 3后進入模型的自變量包含6個,分別是:受教水平(X2 sjsp)、培訓期望(X4 pxqw)、培訓主體(X6 pxzt)、培訓時間(X7 pxsj)、培訓地點(X8 pxdd)、培訓費用(X9 pxfy)、常數項(Constant),其p(Sig.)﹤0.05,說明各自變量及常數項的系數都具有統計學意義。另外4個自變量未進入模型,說明對培訓意愿模型的貢獻率不顯著。6個自變量對因變量的影響趨向符合經驗預期,其中培訓費用(pxfy)的系數值為0.591,比其他各項系數絕對值都高,說明其對培訓意愿的影響最為明顯。

五、模型確定與意義解釋

根據表6的統計結果,確定二分類變量logistic回歸模型下農民接受職業農民培育意愿概率模型為:

選取20個樣本的6個自變量對上模型進行檢驗,結論符合經驗理論,可以利用該模型估計農民的意愿概率。對于培訓過程中農民培訓價值的群體性衡量,可根據培訓總量擇概率相對較高的群體作為培訓對象,也就是說模型只給出了概率相對值。若以概率水平為基礎確定培訓標準,可隨機確定一個樣本的自變量取值,以此作為衡量標準。如取一樣本,其X2=4(初中),X4=4(提高技能),X6=4(政府培訓),X7=2(培訓7天),X8=1(在村培訓),X9=3(政府負擔費用),其p=0.7943,群體中p≥0.7943的樣本認為具有培育意愿,可作為培育對象。

參考文獻:

[1]吉文林.傾力培植江蘇職業農民[N].新華日報(思想版),2011-09-06(B07).

統計學變量的定義范文4

關鍵詞:計量經濟學;定義;科學性;不精確性;局限性

一、計量經濟學的含義

1.計量經濟學的早期含義

在17世紀時期,計量經濟學第一次在戴夫南特和金的研究中出現,但當時,計量經濟學這個專業術語并未出現,直到挪威的一位名叫弗里希的經濟學家在其發表的論文中提出了計量經濟學的概念。計量經濟學表示經濟學和數學以及統計學的有機統一。在研究中發現在統計學和數學以及經濟學的相互關系中存在著一種規律,發現這個發現的發現者將其命名為計量經濟學。計量經濟學是對理論政治以及純經濟學的主觀抽象法則進行試驗和數據檢驗并由此來將純經濟學最大化的成為嚴格意義上的科學。1933年,計量經濟學會將計量經濟學定義為:通過經濟學與數學以及統計學的有機統一,以實現經濟問題理論定量與經驗定量相統一的目標。這個定義表現了計量經濟學是由統計學數學以及經濟學共同組成的,缺一不可。我們不能簡單地理解為是數學在經濟理論領域的應用,也不能籠統得以為是經濟理論問題的簡單統計,只有將三者構建在一起才能發揮出特定的效力。

2.計量經濟學的現代含義

由于計量經濟學的早期目的在于科學化經濟理論研究,因此在隨后的經濟理論研究方法的不斷拓展完善中,計量經濟學的含義也隨之發生了改變。其定義變的更加具體也更加具有內涵。第一種定義認為:“計量經濟學是利用統計學和數學的方法來分析經濟學理論數據,將經濟學的經驗理論包含在內一起分析,通過分析來證明經濟理論的正確與否?!钡诙N定義認為:“計量經濟學的目標是建立經濟模型來分析經濟學中的變量之間的相互關系。通過模型來確定當一個變量發生變化時對其他變量會造成多大影響。使用數學和統計學的方法工具來解決發生在經濟和社會中的變量變化問題,并引導人們對此類問題分析和了解并解決。小結:發展至今,計量經濟學已經成為經濟學的重要分支學科,但其基礎和目標并未有多大改變。還是將經濟學和數學以及統計學三者合一共同解決和推斷經濟理論假設的實證研究。不管是哪一門學科都可分為理論和應用兩個方面。因此,計量經濟學也可分為理論計量經濟學和應用計量經濟學。自2008年爆發的經濟危機,其后果影響至今。作者認為這不一定是計量經濟學的理論研究問題,其可歸結于應用計量經濟學的問題。由于人們對計量經濟學的濫用和理解的不透徹所以才無法從理論計量經濟學中找到問題的解決辦法。

二、計量經濟學的特性

計量經濟學是經濟學的重要分支學科??梢哉f計量經濟學是經濟學的獨特一面。計量經濟學科學性的標志在于其嚴謹的數學方法邏輯性和正確指向性的統計推斷。當然,對于計量經濟學科學性的質疑也從未間斷過。凱恩斯認為計量經濟學是“統計的煉金術”,“蹩腳的魔術”。他認為計量經濟學到目前為止還算不上科學的研究方法。為此作者統計出了科學標準并表現了計量經濟學的科學性。

1.計量經濟學的科學性

首先,科學哲學標準為:邏輯實證主義科學標準:其核心是事物的可證實性。包括維也納學派的邏輯實證主義和柏林學派的邏輯實證主義以及“亨善爾”邏輯主義。證偽主義科學標準。這種證偽主義的基本出發點是證實和證偽之間的邏輯不對稱。凡是可以被證偽的那就不是科學的。其次,我們可以在計量經濟學中發現邏輯實證主義的特性:重視證實,觀測,反對因果關系的存在,反對理論實體。從計量經濟學中我們更能找到證偽主義科學標準的影子,計量經濟學的作用就在于對原有的經濟理論或問題進行模式分析,不斷假設推斷,通過證實和證偽發掘出解決實際問題的方法。在這一方面充分體現了在計量經濟學中證偽主義科學標準的存在。

2.計量經濟學的不確定性和局限性

首先,計量經濟學具有不精確性。其實這是一件無可厚非的事。從基礎來源上來看,龐大的經濟數據本身就具有不精確性,通過計量經濟學的研究也只能得到一個近似的結果。通過計量經濟學的方法研究,我們能得到一個理想的世界,但未來是否真是如此還有待商榷。統計學也是計量經濟學的構建者之一,這決定了計量經濟學的研究結果是一個隨機事件,是否得到想要的結果還需要共同的努力,這與計量經濟學的科學性并未沖突。其次,與其它學科一樣,在計量經濟學的科學性和不精確性之外還有其局限性。從研究方法上而言,計量經濟學的研究方法是經驗實證的模型方法。這既是計量經濟學的科學性和不精確性所在也是其局限性所在。從經濟學的語言層面而言,以統計學和數學為基礎的計量經濟學的經驗實證的模型語言有著其自帶的局限性。計量經濟學中證偽主義科學標準的存在的氣息太重,這種以不平衡的邏輯為出發點的方法論決定了計量經濟學的局限性。

三、結論與展望

時代在進步,人民富有了,消費提高了,伴隨的經濟危機也爆發了。經濟危機的爆發更加重對計量經濟學的質疑。無法準確預測經濟危機的到來,在解決經濟危機上的能力不足都存在于人們疑惑中。從上文的分析中我們可以得到這樣的結論:“計量經濟學的研究方法為解決經濟問題提供了模型,在此模型中我么能夠看到理想的世界,能夠正確預測經濟的走向,但是計量經濟學中的統計學成分決定了其理想結果之外還存在其他結果。我們應當做的事理解透徹計量經濟學并不濫用。計量經濟學的科學性證明其是科學的方法。如果我們能夠理解經濟領域中變量的變化以及影響的大小并知道如何避免這種情況的發生或有制定對策,那么應該會有效的應用計量經濟學。

參考文獻:

[1]洪永激.計量經濟學的地位、作用和局限.經濟研究,2007(5):139-156.

[2]Frisch,1993,editorialEconometrica,pl.

統計學變量的定義范文5

一、基于SPSS的統計學課程框架

傳統統計學課程框架是典型的學科中心課程,其特征是將課程內容按知識的邏輯結構關系組織在一起,追求知識的完整性、系統性,強調知識的傳授、信息獲得和記憶,忽視對學生的技能訓練,難以達到將理論用于實踐的目的。SPSS在教學上的應用,給我們改革統計學課程提供了契機。新課程教學模式可概括為:以統計軟件SPSS作為教學平臺,以數據收集+統計學基本原理和思路+數據處理軟件為核心。課程理念凝煉為“略去證明、講清原理、依托軟件、突出實用”十六字方針。具體表現在:(1)理論講授著重“講清基本原理,略去繁難的證明”,可分為數據搜集、數據整理、描述統計、統計指數、相關與回歸等模塊。統計學理論的講授以“必需夠用”為原則。(2)上機實踐環節強調“依托SPSS,突出實用”,要求學生熟悉SPSS的操作基本流程:打開數據文件、確定統計程序、指定統計變量、解釋統計結果。采用多媒體教學手段,以計算機軟件為主要教學工具。著重培養學生的實踐操作技能,突出體現職業教育的技能性、應用性。課程改革目標是培養學生在專業領域中的數據分析能力,具體包括兩個方面的內容:在掌握統計基本原理的基礎上,培養學生的理性;以統計軟件為依托,以專業典型數據分析任務為載體,培養學生的應用性。課程框架的特點不是介紹理論統計學的數學原理,而是側重闡述統計方法的思路與思想,并輔以大量經濟與管理的實例,通過SPSS統計軟件實現具體統計步驟。SPSS軟件是教學平臺,整合各方面因素以有利于學生數據分析能力的培養。

二、統計學課程載體的選擇和實現

有人認為課程載體是:“只要它能為你的教學目標服務,能承載你的教學內容,具體的存在物,載體是一個可望又可及的目標,在它被完成后,學生往往會有強烈的成就感?!边x擇課程載體有六個原則:承載課程教育目標;涵蓋完整工作過程;涵蓋后續崗位所需的職業素質要求;涵蓋技術文檔制作;涵蓋成本核算;涵蓋過程考核與綜合考核。我們認為統計學課程載體就是承載一定職業能力的任務或項目,學生通過完成任務或項目,養成數據分析能力。課程載體的選擇必須在專業典型工作任務或項目中尋覓。不同專業的統計學課程基本理論可以一樣,但其課程載體必須體現不同的專業性。以會計專業統計課程為例,學習描述性統計分析時,以上市銀行一些重要財務指標的會計信息與股票價值相關性研究為載體。

第一步,搜集數據。學生分小組搜集20~30家上市的金融銀行類股票一定時刻的股票價格、流動比率、凈資產負債比率、固定資產比率等財務指標。

第二步,數據錄入。打開SPSS軟件,進入“變量視圖”,定義好變量。切換到“數據視圖”中輸入變量的具體取值。

第三步,確定統計程序。點擊“分析”、“描述統計”、“描述”,打開“描述性”對話框。第四步,指定統計變量。將“流動比率”、“凈資產負債比率”等選入“變量”列表。單擊選項按鈕進入“描述:選項”對話框,如圖1所示。第五步,結果解釋。結合統計學知識和專業知識,學生可從平均股價、凈利潤等統計指標看我國銀行業經營狀況。會計專業學生通過SPSS完成上述任務,加深對描述統計理論知識的認識,也與未來工作中的典型任務相結合,體現了統計學課程的技能性、應用性。區別于傳統模式,改革后的統計學課程由不同的任務或項目組成,用SPSS加以實現。

三、SPSS對統計學課堂學習的影響

1.產生了新的教學要素

應用SPSS軟件以前,學生需要直接面對各種數據,至多借助計算器完成計算。SPSS為統計學課程提供前所未有的技術支持,在人和數據之間產生了一個“新界面”。SPSS的作用不僅僅是工具意義,它其實作為一個新的教學要素參與教學。SPSS引起了教學方式和教學價值觀的深層變革。SPSS與統計學課程的整合營造出信息化教學環境,在此環境里,形成“自主、探究、合作”為特征的教與學方式,極大激發了學生的主動性、積極性、創造性。

2.促進了學生自主學習

何克抗教授曾強調,“建構主義的教學設計主要有兩大部分:一是學習環境的設計,二是自主學習策略的設計”。SPSS極大改善了統計學的學習環境,也為學生自主學習策略的設計提供更廣闊的空間和可能性。采用SPSS平臺學習統計學,可有效簡化統計過程。數據輸入、整理、選擇統計功能、結果解釋、預測、圖形輸出等對學生都不是難事。而且,計算機特有的模擬和動態演示功能,使統計學的抽象理論變得直觀、具體、形象,從而增強學生對概念的理解。建構主義堅持“做中學”的學習觀,其實可區分為兩種類型:“學中做”的自主學習和“做中學”的自主學習。在統計學課程學習初期為“學中做”,教師“教”的比重要大一些,課程載體的選擇要有一定的廣度;學習后期為“做中學”,學生“學”的比重要大一些,課程載體的選擇要有一定的深度。

3.出現了新的問題

首先,提高統計學課程的師資水平。授課教師應該熟悉所教專業的典型工作任務,開發適合統計課程的合適載體,根據社會需求調整統計知識內容范圍。受課程標準的限制,當前講授的統計知識內容主要圍繞描述統計和推斷統計,一些多元統計方法(聚類分析、主成分分析、因子分析等)在課堂上很少涉及。

統計學變量的定義范文6

1變量聚類結果的統計學含義

在麻氏等[2]分析的膽病數據中,癥狀變量全部是二值的。分析所得的變量類之一如下。

類1:發熱寒戰、右上腹壓痛拒按、黃疸、惡心嘔吐、右上腹疼痛、大便秘結、小便色黃、苔黃、苔膩、脈滑、脈弦、口苦。

本節以這個類為例,剖析系統變量聚類結果的含義。要準確把握這個類的含義,需要考慮3個因素,即“變量”與“事件”這兩個概念的區別、變量間相似系數的定義以及變量類間相似系數的定義。下面逐一討論這3個因素。

1.1變量與事件

變量是刻畫事物某方面特征的指標,它的每一個取值對應一個事件。先拿概率論中常用的拋擲硬幣試驗為例來解釋這兩概念。拋擲硬幣試驗可以從多個方面來看:使用的硬幣是否質地均勻、拋擲方式如何、拋擲結果是什么等等?!皰仈S結果”這個指標刻畫試驗一個方面的特征,因此它是一個變量。這個變量有兩個可能的取值,即“正面朝上”和“反面朝上”。于是有兩個事件,即“拋擲結果正面朝上”和“拋擲結果反面朝上”。

接下來看一個中醫的例子?!坝袩o口苦”是反映患者身體一個方面特征的指標,因此它是一個變量,稱為癥狀變量。它有兩個可能的取值,即“有”和“無”。于是有兩個癥狀事件,即“(患者)有口苦”和“(患者)無口苦”。如果要考慮不同輕重程度,相應的變量是“口苦程度”。一般情況下,程度變量有4個可能的取值,即“無”、“輕”、“中”和“重”。于是有4個癥狀事件,即“無口苦”、“有輕度口苦”、“有中度口苦”和“有重度口苦”。為了統一二值和多值情況下癥狀變量的稱謂,可以用“口苦情況”來替代“有無口苦”和“口苦程度”。

“有口苦”這個詞通常被簡化為“口苦”。同時,“口苦情況”也被簡化為“口苦”。這樣,“口苦”時而指“口苦情況”這個變量,時而又指“有口苦”這個事件。在下一節讀者將會看到,這種歧義性造成了對變量聚類結果之含義的誤解。

顧名思義,變量聚類的對象是變量而不是事件,其結果是變量的類而不是事件的類。所以,類1的成員是“口苦情況”等癥狀變量,而不是“有口苦”等癥狀事件。為了避免誤解,我們把類1的定義改寫如下。

類1:發熱寒戰情況、右上腹壓痛拒按情況、黃疸情況、右上腹疼痛情況、惡心嘔吐情況、大便秘結情況、小便色黃情況、苔黃情況、苔膩情況、脈滑情況、脈弦情況、口苦情況。

1.2變量類相似系數

“口苦情況”等12個癥狀變量為什么會被聚成一類呢?它們被聚成一類這件事的含義是什么?一個粗略的回答是,這意味著“口苦情況”等12個癥狀變量之間的相似度高。如果要準確回答這個問題,則需要考慮如何基于變量之間的相似系數定義類之間的相似系數。

常用的方法有最大相似系數法、最小相似系數法和平均相似系數法。在計算兩個類A和B間的相似系數時,考慮A中變量與B中變量間的相似系數。最大相似系數法取其最大者,最小相似系數法取其最小者,而平均相似系數法取平均數[2]。

如果類1是用最大相似系數法獲得的,那么對類中任意一個變量V,類中有另外一個變量U使得V和U間的相似系數不低于某個閾值。如果類1是用最小相似系數法獲得的,那么類中任意兩個變量間的相似系數不低于某個閾值。如果類1是用平均相似系數法獲得的,那么類中變量間的相似系數的平均值不低于某個閾值[2]。

上面提到閾值是怎樣決定的呢?在獲得類1的過程中,需要合并多對變量類,而每對類之間都有一個相似系數。這些相似系數的最小者就是上面說的閾值。一般說,最大相似系數法的閾值最大,平均相似系數法的閾值次之,最小相似系數法的閾值最小。

1.3變量相似系數

變量間相似系數的高低的直觀含義是什么?這個問題的答案依賴所選用的相似系數是什么。相似系數有各種各樣的類型[2]。作為例子,這里只討論Jaccard相似度和相關系數。

Jaccard相似度只適用于二值變量。下面用一個例子來說明它的定義和直觀含義。用d記脈弦和口苦同時出現的樣本數,b記脈弦出現而口苦不出現的樣本數,c記脈弦不出現而口苦出現的樣本數?!懊}弦情況”和“口苦情況”這兩個變量的Jaccard相似度定義為d/(b+c+d)。Jaccard相似度的取值在0~1之間,可以視為是癥狀出現的“同步率”。它的值越高,脈弦和口苦出現時的“同步率”就越高,即脈弦和口苦的出現更接近如下情況:要么兩者都不出現,要么兩者都出現。

相關系數是統計學中用來度量數字變量間關聯程度的一個指標。如果把癥狀的出現表示為1,不出現表示為0,那么就可以定義“脈弦情況”和“口苦情況”間的相關系數。相關系數的取值在0~1之間。當兩個變量的可能取值相同時,它們之間的相關系數也可視為是一種“同步率”。“脈弦情況”和“口苦情況”間的相關系數越高,脈弦和口苦同時出現或同時不出現的次數也就越多,反之亦然。

1.4類1的含義

在分析數據時,麻氏等[1]用的是SAS軟件。由于他們未提及軟件設置,所使用的變量相似系數應該是SAS默認的Jaccard相似度,而所使用的變量類相似系數應該是SAS默認的平均相似系數。所以,類1是一個由口苦情況等12個癥狀變量組成的集合,其含義是這12變量兩兩之間的Jaccard相似度平均不低于某個閾值,即口苦等12個癥狀兩兩同步出現的頻率平均不低于某個閾值。

2證候的含義

證候是一個具爭議性的概念。但是,在詮釋變量聚類結果時人們所使用的證候其意義基本是統一的、清楚的。例如,在把類1詮釋為肝膽濕熱證時,“肝膽濕熱證”對應由口苦等12個癥狀(事件)組成的癥狀群,其意義如下:①如果這些癥狀全部(或其大多數)在某患者身上同時出現,那么該患者有肝膽濕熱證;②如果這些癥狀中許多不在一患者身上出現,那么該患者無肝膽濕熱證。

3變量聚類結果的詮釋

現在我們以類1為例來討論變量聚類的詮釋問題。在文獻[1]中,類1被詮釋為肝膽濕熱證。這是由于類1被認為是由“有口苦”等12個癥狀事件組成的集合,進而其意義被理解為口苦等12個癥狀同時出現。在把類1詮釋為肝膽濕熱之后,進一步得出結論:肝膽濕熱證是肝膽病中的中醫證候之一。這就是說,肝膽濕熱證存在于研究涉及的739個樣本中,即有一部分樣本同時包含口苦等12個癥狀或其大多數。為方便討論,我們將這一段文字涉及的幾件事按邏輯順序整理如下:①把類1認為是由“有口苦”等12個癥狀事件組成的集合;②把類1的意義理解為口苦等12個癥狀同時出現,從而把它詮釋為肝膽濕熱證。③在②的基礎上,得出肝膽病中有肝膽濕熱證的結論,即有一部分樣本同時包含“口苦”等12個癥狀或其大多數。

根據第2節的結論,類1是癥狀變量的集合而不是癥狀事件的集合。所以,上述第1步是不正確的。再根據第2節的結論,類1的意義不是口苦等12個癥狀同時出現。實際上,句子“口苦等12個癥狀同時出現”本身是一個病句。顯然,口苦等12癥狀不可能在每一個樣本中都同時出現。那么它們究竟在哪些樣本中出現呢?句子沒有指明,因此意義不清。所以,第2步也是錯誤的。最后,第3步從“口苦等12個癥狀同時出現”這個含義不清的命題推出“有一部分樣本同時包含口苦等12個癥狀或其大多數”。這是不合邏輯的。

上述三步都有問題。那么有沒有可能不通過它們,而直接從類1的含義出發得出“有一部分樣本同時包含口苦等12個癥狀或其大多數”這個結論呢?回答是否定。類1的含義只是說口苦等12個癥狀兩兩以一定頻率在樣本中同時出現。這并不意味12個癥狀同時出現在某些樣本中。在邏輯上,從兩兩雙邊關系是無法推出多邊關系的。打一個比方:青年A與一對好朋友B和C談三角戀愛,A和B常常一起出現,A和C常常一起出現,B和C常常一起出現,但這些并不意味著他們三人會同時出現。

上面的討論以文獻[1]為例。但是,所指出的問題是其它用變量聚類研究證候分布工作共有的。問題的根源在于研究目的與研究方法不匹配。這些工作是要通過分析一組關于西醫某病種的樣本,揭示該病種中中醫證候的分布規律,這其實是揭示該組樣本中中醫證候的分布情況。簡而言之,這就是要揭示樣本某方面的特征和性質。變量聚類方法只考慮變量間的關系,完全不分析樣本的特征和性質。既然如此,它又怎么能揭示樣本中中醫證候的分布規律呢?

4結束語

變量聚類所得到的不是癥狀事件的類,而是癥狀變量的類,其含義不是一些癥狀同時出現于一些患者,從而不能詮釋為證候。變量聚類不分析樣本的特征和性質,從而不可能揭示證候在樣本中的分布規律。

參考文獻:

亚洲精品一二三区-久久