前言:中文期刊網精心挑選了統計學變量的分類范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
統計學變量的分類范文1
本書共有10章:1.簡要介紹了本書的讀者對象、使用方法、組織架構等;2.統計基礎,對統計方面的基礎理論知識展開詳細描述,包括統計思維、數據格式、繪圖方式、概率分布等;3.統計推斷,講述了參數點估計、假設檢驗、總體樣本、人口分布的概率圖和測試及蒙特卡羅模擬等;4.統計模型,包括模型簡介、回歸模型和實驗設計分析等;5.多變量統計的基礎,主要包括多變量隨機抽樣、多變量數據可視化、樣品幾何形狀、廣義方差等;6.多變量統計推斷,包括平均向量推論、兩個總體的均值矢量比較、方差-協方差矩陣的推論等;7.主成分分析,主要講解其定義和性質、停止規則、殘差分析、統計推斷等;8.典型相關分析,描述數學公式、實際應用、典型相關回歸等理論;9.判別和分類,主要包括兩個或幾個總體分類和空間平滑的分類分析;10.聚類分析,包括相似和非相似方法、層次和非層次聚類算法等。
本書強調幾何直觀的概念理解,所有的例子都比較簡單,并提供背景解釋。貫穿全書的習題集和解決方案包含部分數值計算結果,讀者可以方便地確認自己方法的準確性。
本書是成像科學多變量統計學課程中一本非常優秀的圖書,適合本科和研究生閱讀。該書也可為從事成像、光學和光電子學領域每天需要進行數據處理分析的專業人士提供有價值的參考。
Peter Bajorski博士是羅切斯特理工學院統計學系的副教授,他在統計學研究領域包括回歸技術、多變量分析、實驗設計、非參數方法和可視化方法等,成像研究包括光譜圖像目標檢測等。
聶樹真,
助理研究員
(中國科學院光電研究院)
統計學變量的分類范文2
關鍵詞:生態消費;城市居民;識別
中圖分類號:F713.55文獻標識碼:A文章編號:1001-8409(2013)01-0074-06
“生態消費”作為可持續消費、綠色消費、適度消費等術語的同義語,其所倡導的理念及行動準則已成為包括我國在內的世界各國和地區的核心政策目標,而實現這一目標在實踐上的具體要求就是提高居民的生態消費水平。尋找一個真正有效的提高生態消費水平的辦法,首先要做的基礎工作是將消費者進行識別分類,研究哪些消費者更趨向于進行生態消費,并對各類消費者的社會人口統計學特征、心理學特征、社會價值觀和環境價值觀、家庭內部生活習慣等各方面特征加以對比分析,找出其差異性,才能有針對性地提出對策建議,有效地提高居民生態消費的整體水平。
一、文獻回顧
學術界對生態消費的關注源于對環境主義者消費模式的研究,這一領域的研究主要是從消費者的環境和社會價值觀、社會人口統計學特征及心理學變量等方面因素對消費模式的影響展開的[1,2]。長期以來,國內外許多學者從社會人口統計學特征對生態消費行為做過大量的研究,包括年齡、性別、收入、教育、職業等變量[3~5]。盡管研究所得出的結論不同,但社會人口統計學特征卻是研究并識別生態消費者的重要變量之一[6]。已有的研究多側重于對消費者生態消費行為的影響因素進行實證研究,而鮮有對生態消費者的識別及其特征進行系統研究。本文研究的主題是城市居民生態消費者的識別。利用對哈爾濱市居民的問卷調查獲得的數據,本文分3個步驟開展研究:第一步,通過因子分析確定生態消費行為識別的依據;第二步,通過聚類分析對消費者進行分類并識別生態消費者;第三步,分別從社會人口統計學特征、社會和環境價值觀、心理學特征3個方面分析不同類型消費者的特征。
二、數據來源
本文的數據來自于對哈爾濱市居民的問卷調查,調查時間是2009年5月。調查人員在哈爾濱中心城區(包括南崗區、道里區、香坊區和道外區)的百貨商店、超市、建材市場、居民小區等人流密集區對單個消費者隨機發放調查問卷,共發放調查問卷1000份,全部收回后獲得有效問卷952份,問卷有效率為95.2%。
統計學變量的分類范文3
關鍵詞:客戶流失 擴展RFM模型 人口統計變量 二元logistic模型
一、引言
隨著外資銀行的進入以及網上銀行和電子金融的發展,銀行面臨著來自國內外同行業以及非同行業更加激烈的競爭,客戶忠誠度越來越低,進而導致客戶流失率越來越高。客戶流失直接關系到銀行的發展前景和市場競爭力的強弱。因此,綜合相關因素來分析如何減少客戶流失對于銀行來說有著重大的意義,直接關系到商業銀行在本行業中競爭的優勢地位。當前,眾多學者對客戶流失進行了研究。徐草、李敏(2010)針對移動用戶的情況,在傳統的貝葉斯分類器的基礎上通過模糊算子法,將用戶滿意度轉換成模糊數,再通過相關計算化為精確數,提高了模型預測的正確性。翟順平、朱美林(2008)利用神經網絡錯誤率低對數據的噪音有很強的承受能力等特點建立起SOM客戶流失預測模型,為客戶保持提供決策支持。錢蘇麗、何建敏、王純麟(2007)在建立支持向量機模型的客戶流失預測模型的時候由于考慮到代價敏感學習理論,并對模型進行改進,改進之后的模型與原來的相比預測的正確性以及穩定性都得到了提高;蔣國瑞、司學峰(2009)通過與傳統的SVM和ANN對比分析,最終得出基于代價敏感SVM的電信客戶流失預測研究在精確度、命中率、覆蓋率上均有所改善,并且解決了數據集的非平衡性的問題,是有效的預測方法。Chih-Fong Tsai, Yu-Hsin Lu(2009)通過合并比較兩種不同的神經網絡混合模式,對所測試的數據集進行篩選并對模型驗證,得出人工神經網絡和人工神經網絡模型與其他混合模型相比表現出明顯的優勢。Cataldo Zuccaro(2010)通過人口統計學特征,比較二元logistic回歸分析、人工神經網絡、決策樹等方法,分析結構性特征對各種模型的分類以及正確率的影響。本文的目的在于通過分析現有的客戶的歷史數據,對客戶的交易特征和人口統計特征進行分析,并利用數據挖掘技術中logistic回歸分析的方法,通過相關軟件預測出流失的群體,從大量的客戶數據中找出內在規律性,預測出將來流失的客戶,從而根據分析得出的結論,采用針對性的措施針對目標客戶進行挽留。
二、研究設計
(一)變量選取 傳統的RFM指標體系主要是依據客戶的最近交易日、交易頻率、交易金額來判斷該客戶是企業的黃金客戶還是潛在客戶或是即將流失的客戶。RFM模型由于其思想比較簡單,又能刻畫客戶的交易行為,因此很早就在許多公司中獲得了應用。但是,理論界對此的關注卻大大晚于實務界,直到信息技術的發展使得數據庫營銷技術得到大力發展的時候,該模型才開始得到廣泛的研究和應用??紤]到RFM模型較為簡單,本文采用RFM模型并結合人口統計變量作為商業銀行客戶流失預測指標。樣本數據中的因素包括離上次購買的時間間隔、每月的消費金額、購買的次數、是否有小孩、性別、年齡。在模型建立前因變量與各個自變量之間的關系還不確定,所以首先將各個變量都看成是因變量的影響因素,通過軟件計算出各變量的偏回歸系數,以及顯著性檢驗水平檢驗剔除那些不符合模型的變量。剔除那些沒有統計學意義的變量之后再用逐步回歸的方法,得出自變量與因變量之間的關系。例如根據常識,客戶去某一銀行的頻率越多那么他流失的可能性較?。辉偃缈蛻羰欠裼行『蛻袅魇в泻斡绊懀僭O有小孩的客戶他們一般不會輕易地改變,選擇某一家銀行服務之后長時間內不會改變他們的選擇,那他們流失的可能性就比較小。假設的自變量和因變量之間的關系如圖(1)所示。其中"+"表示自變量和因變量之間是正相關的關系,“—”則表示因變量和自變量之間是負相關的關系。在上文中,只是各個自變量于因變量之間關系的一種假設,所以相互間的關系仍然存在疑問,其間的關系還有待模型的檢驗。
(二)預測模型構建 根據上述原理建立基于 ERFM和二元logistic客戶流失預警模型如下
根據上文建模的原理,P為客戶是否流失的概率的大小,?茁i是各自變量對因變量的回歸參數,可以用來判斷自變量和因變量之間是正相關還是負相關的關系。Recency:最近購買時間間隔;Amount:交易的金額總數;Frequency:交易頻率;Has_Child:是否有小孩,有幾個小孩;Gender:性別;Age:年齡。
(三)樣本選取和數據來源 模型建立以及檢驗中所涉及的數據來自《基于多元統計和DM的商業銀行客戶價值管理體系研究》(項目編號:09SJD630006),客戶數據主要包含如下信息:客戶身份證號、上次購買的時間間隔、購買的次數、消費總額、性別、年齡、客戶的反應。客戶的反應(流失)是一個二分類的變量,分別為0和1,1代表客戶未流失,0表示客戶流失。樣本數據中包括的其他因素用于構建模型,通過模型確定它們各自對客戶流失的影響。數據集中一共包括4500個樣本數據,刪除年齡有缺失的客戶數據。符合要求的共有3334個數據,用于模型的建立和檢驗。其中有2000份數據將用于構建logistic模型,其余的約1334份數據則會用來檢驗模型的正確率。
三、實證檢驗
(一)描述性統計 具體數據描述性統計如表(1)所示。樣本中包括3334個數據,其中包括最大值、均值、標準差、偏度等分析。以購買次數(頻率)為例:在觀察期間內,極差、最小值、最大值分別為99,2,101,均值為11.10,標準差為9.387,偏度系數和峰度系數分別為11.265,0.085,由此可以得到,所有客戶購買次數的平均值為11.10,購買的次數范圍在2次至101次之間變動,標準差為9.387。由于性別只分為男性和女性,它不同于其他的變量因為它不是連續的,在這里將它和客戶是否流失一樣視為二分類變量。表(2)為每個性別在總樣本中的數據所占的比例,觀察可得男性人數為2394人占總數比例的71.8%,女性占其余的940為女性。
(二)回歸分析 將數據輸入在SPSS軟件中,進行初步分析其結果如表(3)所示。可以發現:(1)檢驗各個自變量有無統計學意義。由表中可得到在0.05檢驗水準下,Recency、Frequency、Gender、Age具有統計學意義,而Amount(其偏回歸系數為0)、Has_Child(0.671>0.05)則無統計學意義。也就是說離上次購買的時間間隔、去銀行的頻率、性別、年齡具有統計學意義;每月的消費金額和是否有小孩則無統計學意義。(2)根據每個自變量對應的exp(z)以及OR的意義,可以計算各個自變量的變動對模型的結果的影響程度。例如,是否有小孩的OR估計值=exp(b)=0.997,也就是說,也就是在其他自變量值固定的情況下,客戶有小孩時,相應的客戶流失優勢比的自然對數值為0.998。但是經檢驗的P=0.671>0.05,說明這種統計趨勢無統計學意義。再如Frequency對應的OR估計值exp(b)=1.051,95%置信區(1.046,1.055),也就是說在其他因變量的值固定時,Frequency不頻繁的客戶流失率約是頻繁客戶優勢的1倍。通過以上的分析得到了每個變量和因變量之間的關系,前文假設離上次購買的時間間隔(Recency)、性別(男)(Gender(1))以及年齡(Age)與客戶流失呈負相關的關系,購買的頻率(Frequency)、是否有小孩(Has-Child)和購買的金額(Amount)與客戶流失呈正相關的關系。根據所建立的模型,由于每月的消費金額(Amount)的回歸系數為零,同時模型在0.05顯著性水平檢驗下是否有小孩(Has-Child)與客戶流失之間并不存在著對應的邏輯關聯,即無統計學意義。同時,結合exp(z)優勢比這一列可以粗略地觀察出每個自變量的變動對客戶流失的影響大小。最后,將購買金額(Amount)和是否有小孩(Has-Child)排除在模型之外,并且對回歸方法進行選擇,即采用逐步回歸方法進行分析,具體操作就是將原來的回歸方法由“進入”改為“向前:LR”,將Recency、Frequency、Gender、Age選入模型,從而簡化最終的模型。逐步二元logistic回歸分析分析結果如表(4)所示。
根據表(5)中分析可得,逐步回歸模型的擬合優度比較。在第四個模型中即將Recency、Frequency、Gender(1)(女性)、年齡考慮在內的模型檢驗的卡方值為234.510最小,說明模型的擬合優度比較好,實際的觀察值與預測值之間誤差較小,正確率較高。根據逐步回歸過程最終分析和模型檢驗的結果,將有統計學意義的變量納入模型,無統計學意義的變量排除在模型之外,最終得到的一次模型為:
在本文中,模型檢驗的具體原理為:將抽取的數據在excel進行轉化運算,其運算的公式就是在統計軟件中計算所得的logistic回歸模型。計算所得的概率P與0.6024相比較,若P>0.6024則為客戶為流失;反之則是客戶流失的。其檢驗的結果如表(6)所示。一共1334個數據被用于檢驗模型預測的正確率。預測未流失的客戶的總數是437個,其余的897個則為流失的客戶。按照P>0.6024為標準,則有315個預測的概率值大于目標值,而有100個預測值和實際的結果不同。在預測1019個流失的客戶中有222個預測的情況和實際情況相反。最終計算預測模型的概率為■×100%=95.11%。由此可見該模型預測正確率比較好,能夠用于未知的客戶資料分析客戶的行為特征。
四、結論與建議
(一)結論 本文主要是通過對客戶的歷史信息進行分析,對客戶流失數據進行挖掘,分析隱藏在這些數據后,各種因素與客戶行為之間的關系。根據logistic模型,輸入客戶的歷史資料就可以據此預測將來流失的客戶。本文的分析主要是針對人口統計特征的客戶資料對于客戶流失影響的研究與預測。性別、年齡、教育程度等都對客戶是否選擇轉換銀行起到不同程度的影響。根據建立的模型以及對模型驗證的結果來看,logistic流失預測模型能夠很好地利用客戶的歷史數據信息對客戶行為進行預測。從最后得到的模型總結出自變量和因變量的相互關系。前文的一些假設也得以成立,例如購買的時間間隔、男性以及年齡這些自變量的偏回歸系數均為負值,也就意味著它們與因變量之間呈負相關的關系。購買頻率的偏回歸系數為正值,與因變量之間呈現正相關的關系。其他的變量是否有小孩和每月消費的總額在模型顯著性水平的檢驗下,與因變量之間不存在統計學意義而被剔除在模型之外。同時,也可以計算出各個變量對因變量的影響程度的大小。由于回歸模型中的自變量是以不同的尺度測量的,比如:購買的次數單位是次,年齡的單位是歲。因此某個自變量中的一個單位的變化并不等于另一個自變量上一個單位的變化的影響程度,可以通過采用標準化系數比較各個自變量的影響程度。交易頻率、最近交易時間、年齡、性別標準化后的系數分別為:1.85,0.032,0.00088,0.00076。即頻率、購買的時間間隔、年齡、性別對客戶流失的影響程度呈現遞減的趨勢。本文所建立的logistic回歸模型,得出了自變量與因變量之間的相互關系,通過這種方法能夠預測出那些易流失的客戶,從而為客戶流失管理工作提供有參考價值的指導意見。
(二)建議 上文根據模型得到了最終各個變量之間的關系,對于更深一步地了解客戶流失提供了依據。從部門合作、部門更新措施以及從客戶本身考慮現在提出如下建議:(1)開通移動銀行,滿足客戶的需要。隨著網絡技術的發展,網上交易變得更加便利。因而人們增加對于信用卡功能的需求。除了傳統的存取款之外還需要開通移動銀行,能夠在手機進行實時支付功能。例如網上購物的興起,方便了人們購物的同時也給銀行提供了創造新的金融服務的機會(開通手機銀行)。在大學校園中也可以看到各大銀行針對大學生群體開通手機銀行這類服務,這從長遠來看獲得客戶資源,因為他們將來也會成為信貸的主體,房貸、車貸等理財計劃也將是他們未來關心的重點。(2)改善客服呼叫中心服務質量。銀行一般都會設置客服呼叫中心,方便與客戶進行直接的交談??蛻舸螂娫挼胶艚兄行臅r都是遇到了一些問題,這時能否及時地解決客戶的遇到的問題在很大程度上影響到銀行與客戶之間的關系。當這些問題出現時,要對投訴或者打過客服的客戶進行及時的回訪,讓他們感覺到銀行對于他們的問題是予以重視的,并給出確切的問題解決時間。同時還需要加強與客戶的主動交流,例如VIP客戶則會有自己的客戶經理,客戶經理定期訪問客戶他們遇到的問題,在客戶過生日的給予適當的祝福,比較實際例如鮮花、小禮品等等,并且向客戶征求他們對某些服務上的改進的意見或建議。(3)合理設置客戶退出的門檻??蛻袅魇У倪^程中不僅上述因素影響到客戶的行為。客戶在選擇另外的銀行服務的時候會考慮到自己的成本,除了在剛剛入行時所享受到的優惠外還有其他的獎勵計劃。例如開通網上銀行時郵局的年費為30元/年,工行的年費為2元/月。同時客戶在選擇其他銀行的服務時,還會考慮到新的選擇能否給他帶來比現在更多的收益等等,例如各家銀行推出的積分回報策略,以客戶消費的金額為基準,消費一元累計一個積分點。客戶的每月消費金額達到一定數額時客戶等級將會升級,辦理業務時可以享受到更加便捷的服務。這就提高了客戶退出的成本。
參考文獻:
[1]徐草、李敏:《模糊貝葉斯網在通信行業客戶流失預測中的應用研究》,《合肥工業大學學報》2010年第10期。
[2]翟順平、朱美林:《基于SOM的移動通訊客戶流失研究》,《現代管理科學》2008年第2期。
[3]錢蘇麗、何建敏、王純麟:《基于改進支持向量機的電信客戶流失預測模型》,《管理科學》2007年第1期。
[4]蔣國峰、司學峰:《基于代價敏感SVM的電信客戶流失預測模型》,《計算機應用研究》2009年第2期。
統計學變量的分類范文4
關鍵詞: 心理統計學 哲學 方法論
一、引言
哲學是關于世界觀和方法論的學說,研究自然、社會和思維的最一般的規律,在人們認識世界和改造世界的過程中發揮了重要的作用[1]。哲學在發展過程中,不僅在自身領域的研究中取得了重大進展,而且推動了其他的一些學科的誕生,如天文學、數學、教育學、美學等。統計學也當然可以歸于哲學的發展框架下。因此,可以從某種程度上來講,哲學可稱為“萬學之母”,抑或“元科學”。
統計學作為一門研究客體特征和規律的方法論學科,有很強的數學基礎做支撐。它不但可以作為一門基礎學科創造和發展理論,完善學科結構,而且可以作為一種應用型很強的學科,為人們認識世界和改造世界,進行量化研究提供強有力的工具手段。掌握好統計學,對進行科學研究,尤其是量化的科學研究必將大有裨益。然而正是由于其要求較強的數學基礎,因此對于缺乏數學訓練的人,尤其是文科學生來說,對統計學的掌握就可能成為一件比較讓人頭疼的事情,有的甚至是“談‘統計’色變”。即使不從理論研究的深度來學習,哪怕只是在統計學的應用層面上來掌握,強調實用性,也需要費些心思,再加上沒有適當的方法,就可能更加懊惱了。但是,由于哲學對統計學起指導作用,為統計科學研究和統計工作提供一般指導原則和思維方法,因此如果能將哲學中的一些方法論知識運用到統計學習中,可能會起到事半功倍的效果。
二、哲學思想的運用
哲學的眾多原理和方法論都可以作為統計學習的有力指導,本文選擇三方面加以闡釋。
1.“從一到多”的思想,也可以稱為“從簡單到復雜”的思想。事物的狀態有繁有簡,有的表現在量的層面上,有的則表現在質的層面上。單從量的層面上來講,就可以看到從1個、2個到3個乃至多個的變化。比如,線性回歸中,從最初的回歸模型中只包含一個自變量的最簡單模型到后來的回歸模型中包含2個甚至更多個自變量的情況,是一種從自變量的角度來觀察模型由簡單到繁瑣的過程[2]。再比如,從t檢驗到方差分析的變化。t檢驗可以有三種情況,即單樣本t檢驗,獨立樣本t檢驗和配對樣本t檢驗(后兩者均可以檢驗兩個總體的均值是否有差異,只是在具體的操作過程中有些差別)。但是對于三個及以上的均值是否存在顯著差異的檢驗,t檢驗則顯得力不從心了(多次兩兩比較可能增大一類錯誤的概率),而方差分析則會很好地解決這一問題,因為其不僅可以處理獨立樣本的問題,還可以處理重復測量的問題,在很大程度上彌補了t檢驗的不足[3]。不難看出,從t檢驗到方差分析,又是一個針對平均數個數從簡單到繁瑣的過程?;仡櫳厦娴睦?,可以對這一形式的統計方法有一個比較性的認識。首先,它們都是從一個向多個的變化過程?!岸唷眰€的發展是以“一”個的發展為前提的,換句話說,多個變量的模型要想發展,必須滿足一個變量的單個模型發展所需要的假設條件。比如,多元回歸要想進行就必須滿足一元回歸所要求的一系列條件(如正態性、連續性和方差齊性)。而方差分析若要進行也必須滿足獨立t檢驗所需要的條件(方差齊性)。如果不能滿足,那么即使統計方法再先進,其科學性差的結果也是不容置疑的。其次,還要看到“多”與“一”的不同。這表現在:一方面,從前提假設方面來講,“多”除了要滿足“一”所需要的基本前提條件外,還有自己的額外要求。比如,多元回歸中的多重共線性檢驗、多元正態分布及方差分析中的協方差分析。另一方面,從功能上講,“多”的功能與“一”的功能既存在一致性,又存在區別,比如一元回歸所能解決的問題運用多元回歸也能解決,但是一個含有兩個自變量的二元回歸的功能卻不能由分別以每個自變量作一次回歸的兩個簡單回歸的功能之和。對于方差分析,如前所述,亦不能分別進行多次兩兩比較的t檢驗來完成。了解這一思想后,在處理類似的情況時,便可以通過比較分清異同之處,查找前提條件,選用適當的方法。
2.“整體與部分的關系”的思想。整體是由部分組成的,整體是部分的整體,離開部分,整體即不會存在;部分是整體的部分,離開整體談部分,部分也會喪失其原來的意義。這一思想要求我們要正確處理好整體與部分之間的關系。由于統計研究中經常會涉及處理多個變量的數據的情況,多變量及多層關系的情況,或是為了更好地分析事物之間的關系,通過假設將多個數據變為一個(如利用平均數來代表整組數據的信息),將幾個變量合并為一個(如某一概念的結構分為了幾個維度),將多個相互復雜的關系合并為一個(如結構方程及利用多元線性模型處理嵌套關系)。這就會使某些變量為了滿足統計分析的需要而臨時組成一個小的整體。比如,多層線性模型中,就會出現一個由不同層次的回歸模型而組成的層次結構,每一層的回歸模型均可看做是這一多層模型中的一部分,而且是必不可少的一部分;而由多個層次的單個模型所組成的模型又很好地囊括了每一個層次的部分[4]。然而,各個部分所組成的整體可能有各個部分單獨所不具有的功能,亦即整體的功能并不是各個部分的簡單相加。比如,多層線性模型中就存在每個單層的回歸模型所不具有的擬合特性,能夠充分發揮其模型的整體擬合優度來實現對各個層次的信息的最大限度的完美組合,而作為部分的每個層次的單一回歸模型,則只能依據下一層的回歸結果來考慮本層次的信息,并在一定程度上為更上一層的分析提供一定的信息基礎。但就單一層次來講,雖然可能會與相鄰層次發生關系,但是絕對不可能夠表現出所有層次的整體效果,即使是在層級次數很少的情況下。此外,對于模型的好壞程度的檢驗也是如此[5]。對于整個模型的評價,既要有整個模型的擬合優度的指標,又要求其所組成的各個部分均達到顯著性水平;而對于各個部分的考察,則更多地只考察其自身的顯著性即可。這一點除了多層線性模型,在結構方程處理一般概念結構時也有所體現。一般認為,如果想要證明所建構的概念(如自尊)的結構效度比較好的話,除了要使整體的結構方程的各項指標(如NFI,GFI)符合要求外,還要保證模型(概念)的各個維度也都要符合要求,甚至于對于每一層的各個項目的各項測量學指標(四度)也要符合通行的標準,因為一旦一個不符合要求的題項進入模型之中,將直接影響到維度的各項指標的要求,進而影響整個模型。而當僅僅對某一個維度或題項進行考察時,一般只對于其自身的數據所包含的信息進行分析,很少涉及其他的部分。整體與部分的思想要求我們在處理涉及模型的統計分析時,一要分清整體界限,認清整體的模型到底是什么;二要通過理論分析和數據驗證,認清整體模型相對于各個部分模型的獨特之處,即整體的優越性,通過模型的擬合最大限度地利用數據所蘊含的統計信息。此外,還不應忽視的一點是,對模型的整體檢驗,既要有對模型的整體的檢驗,又要包含對局部的評估,將兩者綜合考慮,通過比較選擇出最適合的模型。
形式邏輯的研究表明[6],類屬關系和整體與部分的關系是不同的。類屬關系中的屬相具有類項所具有的全部功能,而各類的功能則沒有其屬的很多功能。而整體與部分關系中的部分則不可能具有整體的全部功能,但是部分所組成的整體則具有各個部分所不具有的功能。比如,在前面談到的回歸中,一元回歸與多元回歸都歸屬于“回歸分析”這一類,當然無論一元回歸還是多元回歸都具有探索自變量與因變量的因果關系的傾向性這一回歸分析的特性,但是如果因為一元回歸和多元回歸乃至于其他的回歸類型歸屬了回歸分析這一類從而就使回歸分析增加了很多的其他功能(如真正確定因果關系),這顯然是不合適的。另一方面,由各個維度所組成的結構方程會有比各個部分更加優越的功能,但各個部分卻不能夠擁有這些功能(因為其分析只是基于自身數據)。弄清楚了這一點,就能夠很好地區分開類屬關系和整體與部分的關系,也就不至于遇到多個變量的統計分析時不知道該以何種方法論來進行指導。這樣,無論是對于統計的技術分析,還是基于研究假設對技術理論的解說,都是使人受益匪淺的。
3.具體問題具體分析的方法論。統計學作為一門學科,其必有自己的知識體系。心理統計學也必然是如此。所謂的知識體系,通俗來講,就是知識組成的方式與結構,或稱“知識樹”。知識體系的把握對于學好一門課程來說至關重要。當前國內外有關統計方法的書目中對統計知識體系的呈現不盡相同。有按照“從事物屬性上的排他性”來安排的,比如,講到平均數的檢驗時,就把三種平均數(單樣本、兩樣本獨立和相關)的檢驗全部呈現出來,依次講完。也有按照東方思維方式的“功能性分類”來展現,比如當講到方差分析時,最先側重講一元(one way)方差分析,之后是更復雜的兩個自變量的方差分析,之后進入“析因設計”(factorial design)的方差分析,從此采用多變量方差分析(MANOVA),以考察交互作用為首要任務[7],而不是一氣呵成地把各種多變量的方差分析全部講完。誠然,每種體系具有各自的特點,不同書目有不一樣的體系,甚至于對于同一本書不同章節的知識可能適合于不同的知識體系。因此,要針對不同的內容采用不同的呈現方式來構建各具特色的知識體系。
三、結語
其實,從科學的整體結構來看,哲學是處在統計學之上層的,而統計學也可以追根于哲學這一母體。因此,哲學中所蘊含的方法論思想理論理應適合于統計學這一學科的發展的指導。正如哲學中的“對立統一”觀點、“質量互變理論”、“矛盾的偶然性與必然性”等理論在統計學中得到了廣泛的應用一樣[8],哲學的其他方法論思想也理應被吸納到統計學學習的方法中,并將其很好地運用到實際中去。這樣一來,統計學的學習就如同有了前進的探照燈,即使數學基礎不扎實,在統計學學習的道路上也會存在諸多的平坦。
參考文獻:
[1]王振龍.統計哲學研究.[博士學位論文].東北財經大學,2001,(5).
[2]何曉群,劉文卿.應用回歸分析(第二版).北京:中國人民大學出版社,2007,(7):18-63.
[3]Barry H.Cohen..Explaining Psychological Statistics(Third Edition).上海:華東師范大學出版,2008.
[4]張雷,雷厲,郭伯良.多層線性模型應用.北京:教育科學出版社,2002.
[5]侯杰泰,溫忠麟,成子娟.結構方程模型及其應用.北京:教育科學出版社,2002.
[6]金岳霖.形式邏輯.北京:人民出版社,2005,(1).
統計學變量的分類范文5
哲學是關于世界觀和方法論的學說,研究自然、社會和思維的最一般的規律,在人們認識世界和改造世界的過程中發揮了重要的作用[1]。哲學在發展過程中,不僅在自身領域的研究中取得了重大進展,而且推動了其他的一些學科的誕生,如天文學、數學、教育學、美學等。統計學也當然可以歸于哲學的發展框架下。因此,可以從某種程度上來講,哲學可稱為“萬學之母”,抑或“元科學”。
統計學作為一門研究客體特征和規律的方法論學科,有很強的數學基礎做支撐。它不但可以作為一門基礎學科創造和發展理論,完善學科結構,而且可以作為一種應用型很強的學科,為人們認識世界和改造世界,進行量化研究提供強有力的工具手段。掌握好統計學,對進行科學研究,尤其是量化的科學研究必將大有裨益。然而正是由于其要求較強的數學基礎,因此對于缺乏數學訓練的人,尤其是文科學生來說,對統計學的掌握就可能成為一件比較讓人頭疼的事情,有的甚至是“談‘統計’色變”。即使不從理論研究的深度來學習,哪怕只是在統計學的應用層面上來掌握,強調實用性,也需要費些心思,再加上沒有適當的方法,就可能更加懊惱了。但是,由于哲學對統計學起指導作用,為統計科學研究和統計工作提供一般指導原則和思維方法,因此如果能將哲學中的一些方法論知識運用到統計學習中,可能會起到事半功倍的效果。
二、哲學思想的運用
哲學的眾多原理和方法論都可以作為統計學習的有力指導,本文選擇三方面加以闡釋。
1.“從一到多”的思想,也可以稱為“從簡單到復雜”的思想。事物的狀態有繁有簡,有的表現在量的層面上,有的則表現在質的層面上。單從量的層面上來講,就可以看到從1個、2個到3個乃至多個的變化。比如,線性回歸中,從最初的回歸模型中只包含一個自變量的最簡單模型到后來的回歸模型中包含2個甚至更多個自變量的情況,是一種從自變量的角度來觀察模型由簡單到繁瑣的過程[2]。再比如,從t檢驗到方差分析的變化。t檢驗可以有三種情況,即單樣本t檢驗,獨立樣本t檢驗和配對樣本t檢驗(后兩者均可以檢驗兩個總體的均值是否有差異,只是在具體的操作過程中有些差別)。但是對于三個及以上的均值是否存在顯著差異的檢驗,t檢驗則顯得力不從心了(多次兩兩比較可能增大一類錯誤的概率),而方差分析則會很好地解決這一問題,因為其不僅可以處理獨立樣本的問題,還可以處理重復測量的問題,在很大程度上彌補了t檢驗的不足[3]。不難看出,從t檢驗到方差分析,又是一個針對平均數個數從簡單到繁瑣的過程?;仡櫳厦娴睦樱梢詫@一形式的統計方法有一個比較性的認識。首先,它們都是從一個向多個的變化過程?!岸唷眰€的發展是以“一”個的發展為前提的,換句話說,多個變量的模型要想發展,必須滿足一個變量的單個模型發展所需要的假設條件。比如,多元回歸要想進行就必須滿足一元回歸所要求的一系列條件(如正態性、連續性和方差齊性)。而方差分析若要進行也必須滿足獨立t檢驗所需要的條件(方差齊性)。如果不能滿足,那么即使統計方法再先進,其科學性差的結果也是不容置疑的。其次,還要看到“多”與“一”的不同。這表現在:一方面,從前提假設方面來講,“多”除了要滿足“一”所需要的基本前提條件外,還有自己的額外要求。比如,多元回歸中的多重共線性檢驗、多元正態分布及方差分析中的協方差分析。另一方面,從功能上講,“多”的功能與“一”的功能既存在一致性,又存在區別,比如一元回歸所能解決的問題運用多元回歸也能解決,但是一個含有兩個自變量的二元回歸的功能卻不能由分別以每個自變量作一次回歸的兩個簡單回歸的功能之和。對于方差分析,如前所述,亦不能分別進行多次兩兩比較的t檢驗來完成。了解這一思想后,在處理類似的情況時,便可以通過比較分清異同之處,查找前提條件,選用適當的方法。
2.“整體與部分的關系”的思想。整體是由部分組成的,整體是部分的整體,離開部分,整體即不會存在;部分是整體的部分,離開整體談部分,部分也會喪失其原來的意義。這一思想要求我們要正確處理好整體與部分之間的關系。由于統計研究中經常會涉及處理多個變量的數據的情況,多變量及多層關系的情況,或是為了更好地分析事物之間的關系,通過假設將多個數據變為一個(如利用平均數來代表整組數據的信息),將幾個變量合并為一個(如某一概念的結構分為了幾個維度),將多個相互復雜的關系合并為一個(如結構方程及利用多元線性模型處理嵌套關系)。這就會使某些變量為了滿足統計分析的需要而臨時組成一個小的整體。比如,多層線性模型中,就會出現一個由不同層次的回歸模型而組成的層次結構,每一層的回歸模型均可看做是這一多層模型中的一部分,而且是必不可少的一部分;而由多個層次的單個模型所組成的模型又很好地囊括了每一個層次的部分[4]。然而,各個部分所組成的整體可能有各個部分單獨所不具有的功能,亦即整體的功能并不是各個部分的簡單相加。比如,多層線性模型中就存在每個單層的回歸模型所不具有的擬合特性,能夠充分發揮其模型的整體擬合優度來實現對各個層次的信息的最大限度的完美組合,而作為部分的每個層次的單一回歸模型,則只能依據下一層的回歸結果來考慮本層次的信息,并在一定程度上為更上一層的分析提供一定的信息基礎。但就單一層次來講,雖然可能會與相鄰層次發生關系,但是絕對不可能夠表現出所有層次的整體效果,即使是在層級次數很少的情況下。此外,對于模型的好壞程度的檢驗也是如此[5]。對于整個模型的評價,既要有整個模型的擬合優度的指標,又要求其所組成的各個部分均達到顯著性水平;而對于各個部分的考察,則更多地只考察其自身的顯著性即可。這一點除了多層線性模型,在結構方程處理一般概念結構時也有所體現。一般認為,如果想要證明所建構的概念(如自尊)的結構效度比較好的話,除了要使整體的結構方程的各項指標(如NFI,GFI)符合要求外,還要保證模型(概念)的各個維度也都要符合要求,甚至于對于每一層的各個項目的各項測量學指標(四度)也要符合通行的標準,因為一旦一個不符合要求的題項進入模型之中,將直接影響到維度的各項指標的要求,進而影響整個模型。而當僅僅對某一個維度或題項進行考察時,一般只對于其自身的數據所包含的信息進行分析,很少涉及其他的部分。
整體與部分的思想要求我們在處理涉及模型的統計分析時,一要分清整體界限,認清整體的模型到底是什么;二要通過理論分析和數據驗證,認清整體模型相對于各個部分模型的獨特之處,即整體的優越性,通過模型的擬合最大限度地利用數據所蘊含的統計信息。此外,還不應忽視的一點是,對模型的整體檢驗,既要有對模型的整體的檢驗,又要包含對局部的評估,將兩者綜合考慮,通過比較選擇出最適合的模型。
形式邏輯的研究表明[6],類屬關系和整體與部分的關系是不同的。類屬關系中的屬相具有類項所具有的全部功能,而各類的功能則沒有其屬的很多功能。而整體與部分關系中的部分則不可能具有整體的全部功能,但是部分所組成的整體則具有各個部分所不具有的功能。比如,在前面談到的回歸中,一元回歸與多元回歸都歸屬于“回歸分析”這一類,當然無論一元回歸還是多元回歸都具有探索自變量與因變量的因果關系的傾向性這一回歸分析的特性,但是如果因為一元回歸和多元回歸乃至于其他的回歸類型歸屬了回歸分析這一類從而就使回歸分析增加了很多的其他功能(如真正確定因果關系),這顯然是不合適的。另一方面,由各個維度所組成的結構方程會有比各個部分更加優越的功能,但各個部分卻不能夠擁有這些功能(因為其分析只是基于自身數據)。弄清楚了這一點,就能夠很好地區分開類屬關系和整體與部分的關系,也就不至于遇到多個變量的統計分析時不知道該以何種方法論來進行指導。這樣,無論是對于統計的技術分析,還是基于研究假設對技術理論的解說,都是使人受益匪淺的。
3.具體問題具體分析的方法論。統計學作為一門學科,其必有自己的知識體系。心理統計學也必然是如此。所謂的知識體系,通俗來講,就是知識組成的方式與結構,或稱“知識樹”。知識體系的把握對于學好一門課程來說至關重要。當前國內外有關統計方法的書目中對統計知識體系的呈現不盡相同。
有按照“從事物屬性上的排他性”來安排的,比如,講到平均數的檢驗時,就把三種平均數(單樣本、兩樣本獨立和相關)的檢驗全部呈現出來,依次講完。也有按照東方思維方式的“功能性分類”來展現,比如當講到方差分析時,最先側重講一元(oneway)方差分析,之后是更復雜的兩個自變量的方差分析,之后進入“析因設計”(factorialdesign)的方差分析,從此采用多變量方差分析(MANOVA),以考察交互作用為首要任務[7],而不是一氣呵成地把各種多變量的方差分析全部講完。誠然,每種體系具有各自的特點,不同書目有不一樣的體系,甚至于對于同一本書不同章節的知識可能適合于不同的知識體系。因此,要針對不同的內容采用不同的呈現方式來構建各具特色的知識體系。
統計學變量的分類范文6
一、礦山地質統計學的原理
在相關礦山地質統計學原理的定義上,是以基礎為研究區域化變量的學科,研究工具為變異函數,是一項在在空間上具有隨機性、結構性的自然現象科學。
1.區域化變量
區域化變量是礦山地質統計學核心理論的基礎,在礦山地質工程中起著重要的作用。在實際礦山地質工程的實施中,其鉆孔位置(樣品的選擇)在大多數情況下是不隨機的,因此,兩個鉆空位置距離相近,從而造成樣品之間的相似性較強;反之,當兩個樣品之間距離較遠時,兩者之間的相似性就會有所降低,或不存在。樣品與樣品之間往往存在著某種聯系,而這種聯系的取決性因素正是受樣品之間得到相對位置所影響。并且該種聯系不僅僅在空間上具有隨機性,并且其在位置上同樣存在著某種聯系。
2.半變異函數
在區域化變量中,能夠將其變化規律的準確描述的實用性函數,我們將它稱之為半變異函數,在常規的半變異函數中,一般將其定義為以下函數:
在上述式中相應的代表意義如下:兩者樣品之間的距離用h表示;兩者樣品之間的相距對數用n(h)表示;X(Zi+h)是在與Zi相距h處的樣品值;X(Zi)則代表Zi處的樣品值。
3.半變異函數的數學模型
在一般的礦山地質工程中,其樣品容易受到取樣、實驗誤差或礦化等作用的影響,導致樣品結果不準確,影響礦山工程的實施。一般情況下,在短距離內,比最小取樣間距較小。發生變化時,大多半變異函數其處于原點時不等于零,此現象稱之為塊金效應。基于此,在實際礦山地質工程中具有塊金效應的球狀模型使用次數最多、應用較廣,其模型表達式具體如下:
二、數理方法在礦山地質工程中的具體應用
在實際的礦山地質變量中,其不僅僅具有單純的隨機變量,并且在地質變量的本身存在一定的隨機性以及結構性,在空間上還存在相關性,穩定性也不盡相同。較傳統統計理論,獨立樣本有所不同,因此造成統計方法在實際地質工程的的運用中存在一定的局限性。盡管如此,統計方法其作為數據分析的有效方式,在地質工程數據的處理上仍然具有一定的指導意義,數理統計法大致存在以下用途:
1.為事物提供其表示特征的?稻藎?如:平均值、極差、百分率、標準差等;
2.將事物與事物之間的差異準確比較,如:將兩者事物或產品之間,其質量、數據上顯著性差異是否存在;
3.將事物變化的影響因素進行分析,如:將產品與產品之間的質量差異程度以及造成差異的因素進行分析;
三、推動統計方法在礦山地質工程中應用的對策
1.普及統計教育,樹立統計觀念
在目前的礦山地質工程中,員工對統計方法的了解程度不夠,進而導致統計法的應用推廣較困難。對于員工統計方法知識的缺乏,礦山地質工程應當對其員工盡心系統性的教育知識普及,而從提高員工的統計觀念。在統計觀念的提高過程中,相關研究人員應當適當借鑒西方的經驗以及做法,例如:將統計教育系統性的納入到學校的教育中,使統計知識長期性的存在于每個人的思想觀念中,進而達到在思考問題時,能夠基于統計進行思考。基于此,對于目前的礦山地質工程人員,必須對其進行必要的知識普及,將統計技術在地質工程中進行廣泛推廣。
2.及時更新知識,創新管理方法
近年來,隨著科技的發展,社會的進步,高新產業也隨之應用廣泛,例如:計算技術。計算機技術的廣泛應用,同樣在統計學科中,不斷有新型學科出現,例如:地質統計學科,近年來,地質統計學科作為邊緣學科逐漸發展。據不完全統計,大多數礦山工程管理者,因事業繁忙等原因,缺乏對自身的知識儲備,進而造成地質統計學不能很好地在礦山企業中進行利用,導致礦企生產經營錯失科學管理的良機,更有礦山企業因經驗不善,導致虧損甚至破產?;诖耍瑹o論是礦山企業經營者,還是地質工程人員要想不被時代所淘汰,便要不斷地對自己的知識進行及時更新,以優勝劣汰的方式對現有管理方式進行及時更新,以確保在不斷發展的過程中得到進步。