統計學決策規則范例6篇

前言:中文期刊網精心挑選了統計學決策規則范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。

統計學決策規則范文1

目前,中國除了上海之外,其它城市還沒有專營消費信貸調查業務的報告機構。1999年下半年,建設銀行濟南分行出臺的《個人信用等級評定辦法》在信用評估方面進行了嘗試。該辦法對不同的指標賦予不同的分值,對借款申請人的還款能力、信用狀況等做出綜合評價以決定貸款決策。隨著信貸業務的需要,國內越來越多金融機構以業務對象的個人信用記錄直接作決策參考,或附以一些評分方法,但畢竟以主觀經驗為主。而國外在信用評估方面已經有人做了大量的工作,提出了有FICO評分模型、神經網絡模型、貝葉斯分析模型等等各種評估模型,并采用了各種數學的、統計學的、信息學的方法,取得了一定的效果,特別是FICO評分模型,更是成為西方發達國家信用評分事實上的標準。

二、常用評估方法

1.標準數理統計模型

基于標準數理統計理論的信用評分模型是對大量的個人消費貸款的歷史信用數據進行科學的歸納、總結、計算而得到的量化分析公式。在美國,不同的行業有不同的信用評分模型來幫助專業人士進行信用風險管理,如表1所示:

表1美國不同行業常用信用評分模型表

從概念上講,信用評分就是利用消費者過去的信用表現來預測其未來的信用行為,如圖1所示。

信用評分模型的關鍵是科學合理地選出信用變量,并產生一個公式。信用評分模型的統計方法有線性概率模型、logit模型、probit模型以及線性判別(Discriminant)分析方法。

(1)線性概率模型

線性概率模型假設違約概率Y與信用變量X之間的關系是線性的,用于解釋過去信用行為(違約或不違約)的信用變量及其重要性(系數)被用來預測未來的信用行為。線性概率模型數學表達如下:

根據歷史樣本數據進行優化計算,得出系數βj的估算值。

(2)Logit信用評分模型

Logit信用評分模型是采用數理統計的logit回歸方法建模分析。logit信用評分模型的分析方法如下:

這里,Y∈{0,1}是二元響應變量,表示信貸狀況;為logit概率累積分布函數。當Xj屬于度量變量時,Xj表示為第j個可度量變量;當Xj屬于范疇變量時,Xj表示為啞元變量向量。

(3)Probit信用評分模型

Probit模型同樣能夠把違約概率的預測值限制在0和1之間。它與logit模型的不同在于probit模型假設違約概率服從累積正態分布(cumulativenormaldistribution),即

(4)線性判別模型

判別模型根據過去觀察到的借貸者的信用特征,把他們劃分成高違約風險和低違約風險類別。線性判別模型(LinearDiscriminantModel)假定信用變量對這種劃分的影響是線性的。

2.數據挖掘技術

數據挖掘從大量數據中提取或“挖掘”知識,其任務可以分為描述和預測兩類,用于信用評估,可對客戶進行分類、聚類、關聯規則發現、預測、偏差檢測等。其中多數用分類、關聯規則發現和預測方法進行個人信用評估。

(1)分類

按分析對象的屬性、特征建立不同的組類描述事物。它基于對類標記已知的數據對象的分析,導出描述并區分數據類或概念的模型(或函數),用以預測類標記未知的對象類。導出模式可以用分類規則、判定樹、數學公式或神經網絡等形式表示。

(2)關聯規則發現

某種事物發生時其他事物會發生的一種聯系,這些規則展示屬性-值頻繁地在給定數據集中一起出現的條件,關聯規則形式:X=>Y,即“A1∧...∧Am=>B1∧...∧Bm”。

(3)預測

把握分析對象發展的規律,對未來的趨勢作出預見,其表示形式與分類同。

三、一種基于歷史記錄規則相似性的綜合評估方法

由于國內銀行業現有客戶記錄多數是不完整的,所以使用單一的方法進行評估未必能體現客戶真實的信用歷史狀況。為了將數據挖掘技術和數理統計完全基于記錄本身特征并與能夠體現專家判斷的評分很好地結合起來,本文提出一種基于關聯規則的相似推薦方法,實現如下:

1.應用粗糙集理論對歷史數據記錄進行屬性約簡及規則提取

粗糙集理論是數據表簡化和生成最小決策算法的有效方法,可以實現知識約簡,發現屬性表中的屬性依賴,從而在信息不完全環境下進行知識發現,其定義如下:

S=<U,A,F,V>

其中,S:信息系統(決策表)

U:論域

A:屬性集合

F:UXAV的映射

V:屬性值域集合

采用決策偏好信息的挖掘方法(參見文獻[3]),對S進行屬性約簡并提取規則,形成不同支持度S和信任度C決策規則集合DN{фΨ}(其中N代表提取的規則數量,可根據實際情況確定),且D是S不重復的子集,ф是條件屬性,Ψ是決策屬性,ф、Ψ∈A。

2.對測試記錄與步驟1提取的規則進行相似性計算

相似性是某種關系強度的度量,可以通過數值比較來衡量(參見文獻[4])。因為決策規則集合D不能完全覆蓋所有測試記錄屬性值組合,而且決策表對象結構相同。測試集合SD中的任一組合(規則)Dd對照D中Dn進行相似性計算,得出SIM1、SIM2...SIMn

其中,B:歸一化因子

(B=1/∑Wi)

Wi:屬性i貢獻因子

(體現數據特性或專家經驗,也可通過多種賦權綜合評價求得)

SD(Dd,Dn):已知Dd發生,Dn也在同一組發生的概率

3.多賦權綜合評價

對上述步驟求得參照各個規則的支持度S、信任度C及相似性SIM組成一個N個對象、3個指標的矩陣XN×3。

(1)運用變異系數法對X進行客觀賦權

此時,第j個指標的權重就是這種加權方法是為了突出各指標的相對變化幅度,即變異程度。

(2)對X使用線性插值法進行規范化處理,得到規范化矩形ZN×3,對其使用互補判斷矩陣排序法求屬性權重:

I=1運用綜合賦權法將(1)、(2)兩個權向量進行有機集成,得到綜合權向量W=(W1,W2,......,WN)。傳統的綜合賦權有乘法合成歸一化、線性加權組合法、基于spearman等級相關系數綜合賦權法等,也可采用基于灰色關聯度的客觀權重綜合集成法。

最終求出測試記錄對各個規則的評價值fi=∑wj×zij,(i=1,2,......,N),其中MAX(fi)就是與測試記錄最相似的規則,可將其決策偏好作為測試記錄的預期偏好。

統計學決策規則范文2

關鍵詞:生物統計學;實驗教學;改革探索;實踐

中圖分類號 G642.0 文獻標識碼 A 文章編號 1007-7731(2013)15-148-02

生物統計學是數理統計原理和方法在生物學中的應用,不僅在生命科學領域、而且也在其他學科領域中得到廣泛應用,是一門工具學科[1]。生物統計學的理論性和實踐性均較強,涉及的基本原理、公式和概念較多,需有一定的數學基礎和邏輯推理能力才能學好,相對于其他專業課程,師生普遍反映難教、難學、難記[2]?!渡锝y計學》不容易理解和掌握,導致學生缺乏學習興趣和動力,考試前通過死記硬背接受理論知識,形成短暫記憶,隨著時間的延長,所學內容逐漸忘記。這門課程講授完之后,學生不會靈活運用其中的方法,也不會設計一個簡單的試驗,更不會將生物統計學的基本理論、技術和常用統計方法應用到本科畢業論文設計中,導致理論教學與實踐應用脫節,顯然未達到教學目的。以往《生物統計學》教學以單純理論教學為主,不設或很少開設實驗課。因此,筆者結合《生物統計學》的基本原理,利用計算機和統計軟件,開設了《生物統計學》實驗課,并嘗試對該課程的實驗教學方法進行改革探索。

實踐教學環節非常有利于提高大學生的培養質量,而《生物統計學》課程教學的實踐環節亟待加強。在《生物統計學》實驗教學過程中,我們利用計算機輔助實驗教學,開設以下實驗課:(1)《生物統計學》某章節理論知識講授完之后,利用計算機和相關統計軟件,開設相應的實驗課。在實驗課上,教師通過統計軟件演示例題的計算和分析過程,并講授統計軟件的使用方法,學生根據所學理論知識,結合實例在計算機上借助統計軟件進行操作,這樣使學生獲得知識更加直接與快速。(2)學生參與試驗設計和科學試驗。學生要在生產實踐或實驗室中設計試驗,親自參與試驗數據的采集,并對試驗數據進行統計和分析,這樣有利于加深學生對所學內容的理解?!渡锝y計學》教學開設了如下實驗:

1 利用Excel繪制常用統計圖

Excel繪制圖形功能強大,各種版本的Excel軟件均提供了14種標準圖表類型,每種圖表類型中又含有2~7種子圖表類型;還有20種自定義圖表類型可以套用。講授完試驗資料的搜集和整理后,開設利用Excel繪制常用統計圖的實驗課。學生在實驗課上利用Excel繪圖時,可以對圖表區、繪圖區、數據系列、坐標軸、圖例、圖表標題的格式,例如文字的顏色、字體、大小,背景圖案、顏色等進行修改和調整,使修飾后的圖形更加美觀好看,爽心悅目。當圖和數據放在一張工作表上、學生改變繪制圖形的數據時,其圖形將發生相應變化;將鼠標放在圖中某數據點上,在鼠標下方將彈出一個文本框給出數據點的具體數值;用鼠標單擊繪圖區中的“數據系列”標志,其圖所屬數據單元格將被彩色框線圍住,便于用戶查看圖形的數據引用位置。在“數據系列”點擊右鍵可以向散點圖、線圖、條形圖等添加趨勢線,并可給出趨勢線的方程與決定系數。

2 利用Excel進行數據描述統計分析

講授完試驗資料特征數的計算后,開設利用Excel進行數據描述統計分析的實驗課。首先選用與生活聯系緊密的數據資料,讓學生利用Excel計算這些數據的平均數、中位數和眾數,測定和分析這些數據的集中趨勢,然后利用Excel測定樣本標準差、總體標準差和四分位數,讓學生分析這些數據的離散趨勢。另外,讓學生利用Excel分析總體次數的分布形態,計算總體平均值的置信區間,有助于識別總體的數量特征??傮w的分布形態可以從兩個角度考慮,一是分布的對稱程度,另一個是分布的高低。前者的測定參數稱為偏度或偏斜度,后者的測定參數稱為峰度。

3 利用Excel進行統計假設檢驗

講授完統計推斷之后,利用Excel進行統計假設檢驗的實驗課。統計假設檢驗是根據隨機樣本中的數據信息來判斷其與總體分布是否具有指定的特征[1]。我們選擇實際案例,讓學生提出假設,利用Excel中適當的統計方法計算檢驗的統計量及其分布,確定顯著性水平和決策規則,最后推斷是否接受假設,得出科學合理的結論,這個過程就稱為假設檢驗或統計假設檢驗。統計假設檢驗的方法多樣,通過比較就會發現它們的基本方法和步驟大同小異,例如t檢驗、u 檢驗、x2檢驗等,可以詳細講述其中1~3種假設檢驗方法,其它假設檢驗方法可以采用啟迪和推導方式讓學生利用統計軟件自行輕松地學習和操作。

4 利用Excel和SAS軟件進行方差分析

講授完方差分析之后,開設利用Excel和SAS軟件進行方差分析的實驗課。利用Excel只能進行單因素或雙因素(包括可重復雙因素和無重復雙因素)方差分析,而涉及雙因素隨機區組試驗、三因素試驗和裂區試驗等試驗數據的方差分析,即讓學生利用SAS軟件進行多重方差分析。另外,Excel中的單因素或雙因素方差分析只能給出方差分析表,不能進行平均數的多重比較,也無法用不同字母標記法表示差異顯著性的結果,這些也都需要利用SAS軟件。

5 利用多種統計軟件進行回歸分析

由一個或一組非隨機變量來估計或預測某一個隨機變量的觀測值時,所建立的數學模型及所進行的統計分析,稱為回歸分析[1]。按變量個數的多少,回歸分析有一元回歸分析與多元回歸分析之分,多元回歸分析的原理與一元回歸分析的原理基本相似。按變量之間的關系,回歸分析可以分為線性回歸分析和非線性回歸分析。利用統計軟件進行回歸分析時,首先讓學生如何確定因變量與自變量之間的回歸模型;如何根據樣本觀測數據,估計并檢驗回歸模型及未知參數;在眾多的自變量中,讓學生判斷哪些變量對因變量的影響是顯著的,哪些變量的影響是不顯著的。在方差分析實驗課上,先讓學生利用Excel進行簡單的線性回歸分析,然后利用SPSS軟件進行相關與回歸分析,最后利用SAS軟件進行多元線性回歸分析和逐步回歸分析,使學生了解不同統計軟件的特點、功能和作用。

6 利用基本原理設計試驗

試驗的精確度高低取決于試驗設計的各個方面,只有通過有效地控制試驗誤差才能提高試驗精確度。因此,教師有必要正確引導大學生在試驗過程中要做到操作仔細,這樣有利于提高學生的科研素質。在試驗工作中,從試驗資料中發現潛在的規律性是極其重要的,這需要科學合理地運用統計學的基本原理和方法。講授完試驗設計之后,要求學生根據試驗設計的基本原理,在生產實踐或實驗室內提出試驗設計的基本思路,制定試驗方案。然后,學生分組討論試驗設計的可行性,并進行糾正和修改。在試驗前期,學生應進行試驗前期準備工作。在試驗過程中,學生要考慮試驗條件的差異對試驗數據的影響,可根據試驗設計的原理和技巧分析試驗出現的問題,使學生獲得的理論知識與實際聯系起來,從而加深對理論知識的理解。試驗結束后,獲得大量的試驗數據,需要選擇正確的統計方法分析試驗資料,得出科學合理的結論,以達到研究目的。最后,教師根據學生設計的試驗思路、方案、步驟及作出的試驗報告給予評價。通過開設試驗設計實踐課,可以使學生明確試驗的目的、試驗設計方法、試驗因素及水平等內容,有利于提高學生設計試驗方案的能力。

實踐證明,開設《生物統計學》實驗教學后,學生能夠在計算機上借助相關統計軟件親自統計試驗數據,利用所學的統計學方法分析和檢驗試驗結果,最后得出可靠的結論。最后畢業時,學生能根據試驗設計的基本原理,可獨立完成畢業論文試驗設計,實施設計的試驗方案,獲得試驗數據資料。由于試驗數據統計分析耗時,而且繁瑣,因而過去畢業生害怕對試驗數據進行統計分析。自從我們結合《生物統計學》的基本原理,利用計算機和計軟件開設了該課程的實驗教學后,學生輕松地掌握了該課程的基本原理和統計分析方法,統計和分析數據的速度、精確度均大幅度提高?,F在部分學生還能幫助教師進行科研課題的數據處理和分析,畢業論文水平也大大提高。

《生物統計學》教學實驗課的開設,使學生從被動學習轉變為積極主動地學習,培養了學生進行科學試驗設計的能力,初步掌握開展科學試驗設計的方法;培養學生掌握正確收集、整理試驗資料的方法,能利用生物統計方法對試驗資料進行正確的統計分析;培養學生掌握常見統計軟件的使用方法和統計方法?!渡锝y計學》實驗課深受學生的歡迎,這也是對該課程實驗教學的嘗試和改革探索的肯定。在該課程實驗教學過程中,筆者深刻體會到要提高《生物統計學》課程的實驗教學效果和質量,教師需要投入時間與精力,鉆研實驗教學內容,提高教學水平,轉變實驗教學理念,不斷探索和優化多元化的實驗教學方法。

參考文獻

[1]李春喜,邵云,姜麗娜.生物統計學[M].4版.北京:科學出版社,2008:1-3.

統計學決策規則范文3

1 數據挖掘的概念、步驟及常用方法

1.1 數據挖掘概念、步驟 數據挖掘(Data mining,DM)即數據庫中的知識發現,是從大型數據庫的海量數據中提取人們感興趣的知識,這些知識是隱藏的、事先未知的、潛在有用的信息,挖掘的知識表現為概念、規則、規律、模式等形式[1]。數據挖掘的目的在于使用所發現的模式幫助解釋當前的行為或預測未來的結果[2]。挖掘步驟大致有:問題定義、數據提取、數據預處理、數據挖掘、知識評估、結果應用這六步。

1.2 數據挖掘常用方法

1.2.1 描述統計 數據總結的目的是對數據進行從低層次抽象、濃縮到高層次,得出它的緊湊描述。最簡單的數據總結方法是描述統計,它包括平均數、中位數、分位數等,它常和統計圖配合應用。

1.2.2 關聯規則 關聯規則從本質上講是條件概率,即當A發生時、B同時出現的概率有多大?只要B離50%較遠就有意義。數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。關聯包括簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。有時我們并不知道數據庫中數據的關聯函數,即使知道也不確定。因此關聯分析生成的規則帶有可信度。

1.2.3 分類和聚類 這是最常用的技術。分類方法主要有:回歸、決策樹、神經網絡。分類分析在數據挖掘中是一項重要任務。分類器的構造方法有統計方法、機器學習方法、神經網絡方法等。聚類是根據事物本身潛在的特性研究對象分類的方法。通過聚類把一個數據集合中的個體按照相似性歸成若干類別,使其“物以類聚”,將數據庫中的記錄劃分為一系列有意義的子集。聚類要解決的就是實現滿足這種要求的類的聚合。在進行聚類前,這些類別是潛在的,可分割的類的個數(聚類數)也是未知的。聚類大致分為統計方法、機器學習方法、神經網絡方法和面向數據庫的方法等。

1.2.4 偏差檢測 數據庫中的數據可能有一些異常記錄,檢測這些偏差很有意義。偏差檢測的基本方法是尋找觀測結果與參照值之間有意義的差別。

2 中醫病歷中醫學數據挖掘的特點

目前中醫病歷中采集的中醫學信息具有如下特點。

2.1 癥狀的模糊性 中醫學對疾病的診斷是通過望、聞、問、切的四診合參,獲取有用信息,再結合醫生的經驗,對疾病做出診斷。癥狀的模糊性不僅表現在獲得信息的形式多樣,而且因中醫癥狀存在著一癥多名,或多癥一名的現象,因此不同醫生即使對同樣的癥狀,可能會用不同的文字加以描述,比如對“患者不欲進食”的記錄,可能會有納差、食欲不振、納呆等的不同。這種模糊性模式加大了中醫學數據挖掘的難度。

2.2 癥狀的不完整性 病例和病案的有限性使醫學數據庫不可能對任何一種疾病信息都能全面地反映出來,表現為醫學信息的不完全性。同時,許多醫學信息的表達、記錄本身就具有不確定和模糊性的特點[3],這方面在中醫癥狀未做出標準量化方法并推行應用之前,尤為突出。疾病信息體現的客觀不完整和描述疾病的主觀不確切,形成了中醫病歷中醫學信息的不完整性。

2.3 證候的復雜性 著名的王永炎院士指出了證候具有動態時空、內實外虛、多維界面的特點,簡明扼要的描述了證候的復雜性。中醫證候的復雜性給數據挖掘增加了難度,但這也恰好是數據挖掘發揮效力的用武之地。

2.4 治療信息的個體化特性 中醫治病之本是辨證論治,體現在“三因治宜”、“同病異治、異病同治”等方面。即使針對同一疾病相同的證,醫生的處方用藥也可能會有差異。這種個體化的治療,充分體現了中醫治病的精髓,而其中所蘊涵的深奧哲理和規律,用一般的研究方法難以全面發掘。數據挖掘在這方面很可能會有很高的應用價值。

2.5 挖掘過程的復雜性 中醫藥領域中的數據屬性有離散型的,也有連續型和混合型的,對這些數據的噪聲處理等預處理相當復雜,挖掘過程還需要人機交互、多次反復,其中任何一個環節都不能缺少專業人員。只有靠中醫藥專家的引導,針對具體問題,選擇合理的挖掘方法,才能挖掘出真正有價值的知識。

在中醫學數據挖掘中,應針對上述數據特點和挖掘目標,結合運用不同的挖掘方法,對非線性、不完全的信息進行智能處理,發揮各自的技術及其整合優勢。

3 數據挖掘在中醫藥研究中的應用

近年來,數據挖掘技術在中醫藥研究中已得到應用。有學者認為中醫藥數據挖掘是中醫藥現代化研究的重要組成部分[4]。

3.1 中醫藥信息化研究 姚氏等[5]綜合文獻指出對中醫藥理論和實踐進行信息化、數字化、知識化,能夠克服中醫名詞術語過于繁雜造成的中醫發展障礙,對于中醫藥信息進行文本數據挖掘是促進中醫藥信息結構化的途徑之一,該問題的解決,能極大促進中醫藥現代化發展的進程。

3.2 中藥研究 陳凱先等[6]認為對大量中藥化學成分進行藥效基團的建模研究,并對中藥化學成分數據庫進行柔性搜索,能夠為更充分利用中藥化學成分所含的化學信息提供技術支持。馮雪松等[7]對中藥指紋圖譜的特點及數據挖掘技術在其中的應用做了綜述,指出中藥指紋圖譜由于反映了藥用植物的“共有特征”,又由于地域、生長環境、采收等多種因素影響,具有統計數學中多元隨機分布的“模糊性”,利用模糊數學、統計學、計算機技術等建立一種同時反應這兩種特征數據庫,存儲中藥指紋圖譜信息,應用數據挖掘技術發現和解析其中潛在的信息,以評價和控制中藥質量及研究中藥定量組效關系。

3.3 方劑研究 喬延江等[4]綜述了KDD在中藥研究開發中的意義。喬氏等認為中藥(復方)的KDD研究是在中醫理論指導下,以數據挖掘技術作為知識發現的主要環節,對中藥研發、設計、中醫組方理論及規律、中藥作用機制、構效關系、中藥藥效集團群的確認、化學成分及藥理指標的預測等進行多方位、多學科、系統的現代化研究,是一個高度復雜的系統。其目的是建立傳統中醫理論同現代中藥的科學化、系統化、可描述化的關系,是中醫藥現代化的重要組成部分。楊林等[8]闡述了數據庫技術與Web結合實現網上中醫方劑的信息挖掘。將方劑文獻資料進行全方位解析,設計內容詳細的數據庫與Web技術結合,通過Internet開發了網上中醫方劑信息分析處理系統,選擇支持Web-DB的ORACLE數據庫管理系統作為系統開發和運行平臺。經過數據預處理、選擇和篩選數據、確定分析目標、信息挖掘結果顯示等階段,完成對一批方劑數據的信息挖掘。姚美村等[9]應用數據挖掘技術對治療消渴病的中藥復方配伍的內涵進行探索性研究。以文獻收錄的106個治療消渴病的中藥復方為對象,經解析后建立復方特征數據庫;以數據挖掘系統Enterprise Miner為平臺,在單味藥層次上進行消渴病復方組成藥味之間的關聯規則分析研究,結果顯示單味藥、兩味藥組合、三味藥組合的應用規律與歷代中醫在消渴病治療用藥方面的論述一致。挖掘結果的可信度可達到或接近中醫專家的分析能力。秦首科等[10]在構建方劑、中藥和病癥數據倉庫的基礎上,通過對數據倉庫內部各種關聯和映射關系的定義,利用中藥和病癥數據倉庫的聯機分析功能,探討了方劑和其針對癥狀之間的聯系。蔣永光等[11]對從《中醫大辭典·方劑分冊》中篩選出1355首脾胃方中的414種藥物,經用聚類分析、對應分析和頻繁集方法,從功效、歸經、藥性和藥味等方面進行了分類特征分析,并就脾胃方的核心藥物、方劑結構、“藥對藥”組和“方藥證”的對應關聯方面形成了有關技術規則和處理程序。

3.4 中醫證候研究 張世筠等[12]應用流行病學和變量聚類分析的數理統計方法,對2442例中醫肝證患者進行了初步研究。由調查組采集核對中醫四診資料,按肝證辨證記分標準記分,分為11個證型。經過聚類分為實證、風證、虛證3類,解決了中醫各肝證的歸屬問題,本研究還定量地闡明肝的實證、虛證、風證的相互關系。白云靜等[13]在充分闡釋證候系統的非線性、復雜性特征的基礎上,探析了人工神經網絡方法用于證候研究的可行性,并介紹了基于人工神經網絡的證候研究方法。徐蕾等[14]采用boot strap方法對406例樣本進行擴增以滿足數據挖掘對樣本量的要求,采用基于信息熵的決策樹C4.5算法建立中醫辨證模型。通過決策樹C4.5算法篩選出對辨證分型有意義的26個因素,按其重要程度排序;產生出清楚易懂可用于分類的決策規則,建立辨證模型,模型分類符合率為:訓練集83.6%,驗證集80.67%,測試集81.25%;模型區分各類證型的靈敏度和特異度也較高。認為決策樹C4.5算法建立的模型效果較好,可用于慢性胃炎中醫證型的鑒別診斷。吳斌[15]等探討了腎陽虛證的辨證因子分布規律。以腎陽虛證量表為基礎,從定性、定量角度收集資料。以定性評分計算各辨證因子的出現頻率,用定量評分進行分層聚類分析。發現:畏寒、肢冷、夜尿、腰背發冷等辨證因子出現頻率高,聚類分析提示腎陽虛主證、舌象、脈象分布較有規律。認為根據數理統計結果對腎陽虛證的辨證因子進行初篩,為腎陽虛證的量化研究奠定了基礎。

4 小結與展望

利用數據挖掘技術探求中醫藥診治疾病的規律,形成用數字描述和表達的中醫藥內容,能有力推動中醫藥研究的規范化進程。但由于中醫藥信息的復雜性和特殊性,中醫藥數據挖掘在挖掘對象的廣泛性、挖掘算法的高效性和魯棒性、提供知識或決策的準確性方面有更高的要求。目前中醫藥數據庫資源已較豐富。數據挖掘技術將成為中醫藥現代化的重要組成部分。但從目前應用數據挖掘技術進行的中醫藥研究來看,中醫數據挖掘尚處于起步階段,多數是對古文獻數據的整理挖掘,缺乏用于探求中醫診治疾病規律和復方用藥規律的研究。這可能與中醫數據的復雜性所致的數據預處理繁瑣有關;如能通過建立結構化數據庫,采用結構化的臨床信息采集系統收集數據,將能提高中醫學數據挖掘的效率及可信度。有助于發現中醫的診治規律,并創新診治模式,提高診療與科研教學水平。

1 Srikanth R''Agrawal R.Mining Sequential Patterns:Generalizationsand Performance Improvement.In 5th Int’ Extending Database Technology.Avignon France''1996''121-130.

2 翁敬農(譯).數據挖掘教程.北京:清華大學出版社''2003''11.

3 Qu JH''Liao QM''Xu WZ''et al.The construction of medical database and datamining.Journal of the Fourth Military Medical University''2001''22(1):88.

4 喬延江''李澎濤''蘇鋼強''等.中藥(復方)KDD研究開發的意義.北京中醫藥大學學報''1998''21(3):15-17.

5 姚美村''袁月梅''艾路,等.數據挖掘及其在中醫藥現代化研究中的應用.北京中醫藥大學學報''2002''25(3):20-23.

6 陳凱先''蔣華良''嵇汝運.計算機輔助藥物設計—原理、方法及應用.上海:上海科技出版社''2001''1.

7 馮雪松''董鴻曄.中藥指紋圖譜的數據挖掘技術.藥學進展''2002''26(4):198-201.

8 楊林''徐慧''任廷革,等.數據庫技術與Web結合實現網上中醫方劑的信息挖掘.中國中醫藥信息雜志''1999''6(9):71-72.

9 姚美村''艾路''袁月梅''等.消渴病復方配伍規律的關聯規則分析.北京中醫藥大學學報''2002''25(6):48-50.

10 秦首科''牛孺子.利用數據倉庫分析處理中醫方劑評析.中醫藥學刊''2002''20(3):341-342.

11 蔣永光''李力''李認書''等.中醫脾胃方劑配伍規律數據挖掘試驗.世界科學技術—中醫藥現代化''2003''5(3):33-37.

12 張世筠''沈明秀''王先春''等.中醫肝證的變量聚類分析.中國中西醫結合雜志''2004''24 (1):35.

13 白云靜''申洪波''孟慶剛''等.中醫證候研究的人工神經網絡方法探析.中醫藥學刊''2004''22(12):2221-2223.

14 徐蕾''賀佳''孟虹''等.基于信息熵的決策樹在慢性胃炎中醫辨證中的應用.第二軍醫大學學報''2004''25(9):1101-1103.

統計學決策規則范文4

關鍵詞:風險度量,正負偏差,綜合風險偏差

一,研究的目的和意義

本文的研究目的在于識別和度量證券投資中的風險,按照投資組合理論,通過組合可以分散掉的風險被稱作"非系統性風險"或者"公司特別風險",它源自于各個公司內部的特別事項的發生,比如,訴訟,罷工,營銷策略的成功或失敗,合同簽署及履行情況.由于公司各自的情況不同,導致這種風險在各個公司之間的差距較大.進行投資組合的一個基本思路就是通過證券組合使一種股票報酬率的不好的變化被另一種股票報酬率好的變化抵消掉,從而將這種風險最大程度地分散掉.當然,仍存在一部分組合難以消除的風險,被稱作"系統性風險"或"市場風險".這種風險通常源自公司外部的一些宏觀經濟或非經濟事項,比如戰爭,通貨膨脹,經濟衰退,利率的波動.這些事項的發生會對所有的企業的經營狀況產生影響,因而無法通過投資組合予以分散.本文主要討論前一種風險,分析它對于投資者投資決策的影響.這有助于管理部門進行證券投資風險管理,提供一個管理的客觀標準,有利于規范證券市場,優化資源配置,從而促進經濟的穩定發展.

二,目前研究的現狀

1,風險研究的發展【13】

自從Markowitz于1952年創立了投資組合以來,風險度量和金融資本配置模型的研究一直是金融投資研究的熱點之一,到目前為止,金融投資專家和學者已提出很多種不同的度量風險模型.從各種模型提出的動因看,推動風險的度量模型發展的主要因素有:(1)對風險含義認識的深化.Markowitz將風險視為投資收益的不確定性.方差因可以很好衡量這種不確定性的程度而成為風險的度量方法.隨著對投資者風險感受心理的研究,人們認識到風險來源于投資項目損失的可能性,因此,出現了半方差等變化了的風險度量模型.(2)風險心理學的研究成果.由于每個投資者的風險偏好和風險承受能力不同,金融界,投資界和理論研究者對此做了大量的研究,希望能找到更符合現實狀況的風險度量方法和能更高效獲取投資回報的資產配置模型.因此,在風險度量模型中,引進了反映投資者風險偏好和風險承受能力的風險基準點,由此形成另一類風險度量模型.如ExpectedRegret方法等.(3)數學處理簡化的需要.在對各種風險度量模型進行理論分析時,經常要用數學方法對其進行處理,為了便于應用數學方法,在不影響模型的特征的前提下,盡可能采用一些數學上較容易處理的模型.如方差與標準離差,其特征基本類似,但方差的數學處理要比標準離差容易,因此在理論上和實際應用中,方差比標準差普遍.最近提出的CVaR風險度量方法,也是在VaR方法遇到數學處理困難時提出的.(4)風險管理實踐上的需要.風險度量模型要能夠應用于投資實踐,其度量結果必須有很好的經濟解釋,以前的很多風險度量方法.如方差,半方差,標準離差之所以未能得到現實投資者的廣泛接受,很大原因在于它們不能給投資者提供一個可理解的風險評價值.90年代以來出現的VaR盡管在理論界受到廣泛的批評,但仍然得到監管部門和現實投資者的廣泛接受,其原因在于它提供一種易于理解的描述風險的普通語言.

2,風險的定義

關于風險概念,學者們下過許多定義.可歸納為以下七種【11】:

將事件本身存在不確定性視為風險;

將未來結果的變動可能性視為風險;

將各種可能出現的結果中的不利結果視為風險;

將不利結果出現的可能性及不利程度視為風險;

將各種可能結果之間的差異本身視為風險;

以客觀實際結果為參照對象,將主觀預期結果與客觀實際結果的距離視為風險;

以主觀預期結果為參照對象,將未來結果與主觀預期結果的差距視為風險.

概念①和②主要關注事件結果的不確定性;概念③則關注與預期不一致的不利結果;概念④進一步強調不利結果發生的程度;概念⑤,⑥,⑦是一類,主要關注結果與某種參照標準之間的差距.由于出發點和認識上的不同,上述定義并沒有準確界定風險的一般性.因此,保險業說的是可能導致財產損失的風險,金融管理界說的則是可能導致金融體系動蕩甚至崩潰的風險,證券投資者說的又是投機交易可能出現巨額虧損的風險,風險投資者說的卻是可能因投資失敗導致血本無歸的風險.還有諸如技術風險,市場風險,管理風險,財務風險,政策風險等等.用的雖是同一個詞匯,但敘述的內容則有差異,對風險概念和定義的描述不盡相同.因此,本文的研究對象主要集中在③,④兩種概念范疇,以縮小范圍,集中注意力研究這個問題.

3,風險的量化

目前,常見的風險度量指標可分為三類.

第一類:用風險分布的數字特征來構造風險度量指標,而不直接涉及行為主體對風險的偏好特性程度.典型的有:

(1)方差風險度量及其引申

馬克維茲(Markowitz)在投資組合理論中以投資收益率r的均值(mean)E(r)度量投資組合的收益,以投資收益率r的方差(variance)σ2(r)度量投資組合的風險.這被稱為均值-方差決策規則.

方差是用來衡量一個隨機變量波動大小的指標,當隨機變量的波動呈對稱性分布時,收益波動越大的隨機變量,其潛在的損失也就越大.因此,當隨機變量的分布為對稱型時,用方差來表示風險是恰當的.由于Markowitz在1952年進行投資組合分析時,假設投資組合的各項資產的收益率的聯合分布為正態分布.因此,它的分析方法是恰當的.標準離差(standardderivation)與方差的特征一樣,只是標準離差在數學分析時較容易處理,因此傳統上,度量隨機變量的波動性一般采用方差而不采用標準離差.不過,方差雖然在分析其性質時容易數學處理,但利用它進行投資組合優化時,存在計算上的困難,因為必須求解二次規劃問題,Konno和Yamazaki(1991),胡日東(2000)提出,利用標準離差作為風險度量指標,可以簡化投資組合優化的運算.因為只需求解線性規劃問題即可.

舉個例子,設有兩個投資方案,其收益率分別為隨機變量X和Y,數學期望分別是x和y,標準差分別為σX和σY,則在均值-方差決策規則中,所謂X優于Y,是指其滿足如下兩個準則:

準則1:x≥y,σX≤σY

準則2:

其中:rf為市場上的無風險利率.

雖然方差度量具有良好的特性,但是自從Markowitz提出方差作為風險度量指標后,還是受到眾多的批評和質疑.其焦點在于投資收益率的正態分布特性,它對收益率波動的好壞不分(將高于均值的收益率也視為風險).法瑪,依波持森和辛科費爾德等人對美國證券市場投資收益率分布狀況的研究和布科斯特伯,克拉克對含期權投資組合的收益率分布的研究等,基本否定了投資收益的正態分布假設.半方差(semivariance),半標準離差(standardsemiderivation)---半方差的平方根,正是在這種背景下提出來的,哈洛提出半方差的概念用來度量風險,即只關注損失邊的風險值(DownsideRisk).用于解決收益率分布不對稱時的風險度量問題,但從模型包含的變量看,這兩種方法并不"純凈",因為模型中含有投資收益的均值,風險量值的大小不僅取決于各種損失及其可能性等不利情景,而且還與投資收益的有利情景有關.而人們廣泛所接受的仍然是以方差作為風險的度量.均值-方差決策規則也在投資決策中得到了廣泛的應用.

(2)含基準點的風險度量

從風險的原始語意出發,風險應該反映投資資產出現不利變化的各種可能性,從投資收益率角度看,風險應該反映投資收益率在某一收益水平下的各種可能性高低,從投資組合價值變化角度看,風險應反映投資組合價值損失超過某一基準點的可能性大小.因此,對投資者而言,關注風險,就是關注其投資收益率或其投資價值出現在某一基準點以下的分布狀況.基準下方風險度量(downsideriskmeasure)被認為是對傳統證券組合理論的一個主要改進.但是由于各投資者的風險偏好和風險承受能力不同,所以每個投資者都有和他對世界認知相容的與眾不同的基準點.包含基準點的風險度量模型很多,最普遍的和經常使用的基準下方風險度量是半方差(特殊情況)和LPM―――LowerPartialMoment(一般情況).其中半方差是一個更合理的風險度量標準(連Markowitz自己都承認這一點).無論從理論上,經驗上,還是實踐上,半方差都是和期望效用最大化(ExpectedUtilityMaximization)幾乎完全一致的【4】【5】.它的一個改進―――半標準離差性質也很好,與基于偏好風險厭惡的一個公理化模型―――二階隨機占優(SeconddegreeStochasticDominance---SSD)也幾乎是一致的【1】.但是哈洛(Harlow)的LPM模型更為成熟.哈洛在投資組合理論中引入風險基準(riskbenchmark)———投資收益率r的某個目標值T(targetrate),用LPM(lowerpartialmoments)度量投資組合的風險:

這里r為投資組合的收益率,F()為收益率r的分布函數,v為基準收益率.當n=0時,LPM0=P{r0,稱Ri為綜合風險偏差.那么上述的風險組合偏差只不過是綜合風險偏差在θ=1的特例罷了.我認為,由于風險是不對稱的,所以θ≠1.具體的結果,應該通過實證分析得到.

綜合風險偏差Ri將正偏差與負偏差有機地結合起來,反映了兩種不同性質的偏差對投資決策的影響.Ri越大,說明投資項目越具風險性;若Ri小于0,則非常具有投資價值.綜合風險偏差都可以用來比較一系列投資項目的優劣.特別是當投資者比較注重投資的風險性的時候.

四,實證分析

應用上面介紹的理論模型度量金融資產或其組合面臨的風險,前提條件是金融資產或其組合的價值變化或收益率分布必須是確定的,這在實際中往往是不可能的.在實踐中有兩種情況:一種是根據理論推導可以確定金融資產的價值或收益率變化的分布類型,只是分布參數未知.在這種情況下,可以利用統計學的參數估計方法(如點估計或極大似然估計法)來估計模型的分布參數,然后將估計的參數代入上述理論模型就可以測算風險量值.另一種情況是連金融資產的價值或收益率的分布類型也無法確定,在這種情況下,只能根據歷史數據或情景模擬數據來刻畫它們的經驗分布,再根據經驗分布測算其風險量值.實踐中往往以后一種情況居多,因此在風險管理或控制中,歷史資料的積累和相應數據庫的建立是相當重要的.

因此,我取的數據為,上證股票從中按同分布隨機抽樣抽出5只股票歷史數據,取每周周末的收盤價,時間范圍為2001年1月5日-2003年4月30日經過作一些調整共形成115周的數據;同時在深證股票中進行同樣的操作.分別計算它們的綜合風險偏差,根據收益越大,風險越大的原則(即無套利原則,否則存在套利機會.),估算它們的θ值.同時,可以按原來的各種方法,模擬它們的分布,計算風險.最后用這些數據來比較各個風險度量標準的優劣.具體的數據表如下:

表一:上海證券交易所的股票

股票名稱

浦發銀行

啤酒花

九發股份

昆明制藥

龍頭股份

代號

1

2

3

4

5

20010105

14.41

28.96

12.24

17.85

19.55

14.33

28.20

13.15

17.45

19.01

13.99

27.30

12.75

16.85

18.60

13.19

25.02

11.56

15.58

17.45

11.98

24.60

11.40

15.30

17.92

11.68

24.37

11.40

15.65

17.49

20010302

11.64

25.35

11.84

15.79

17.60

12.12

24.98

11.85

16.00

18.35

12.04

26.78

12.08

15.84

17.67

12.74

27.00

11.52

15.96

17.79

13.06

27.01

12.04

16.87

18.30

12.65

27.96

12.00

16.50

18.29

12.60

27.93

12.01

17.25

18.45

12.98

28.10

11.71

16.75

18.20

12.57

28.12

11.49

16.35

18.20

12.52

28.28

11.40

16.38

18.23

20010511

13.15

28.12

11.68

16.41

18.24

12.99

29.87

11.58

16.50

18.12

13.08

31.02

11.83

16.97

18.54

13.20

31.12

12.04

16.84

18.63

13.10

30.10

11.99

18.00

19.08

12.95

30.58

11.90

18.16

19.77

12.70

31.02

11.74

18.49

20.38

13.18

31.92

11.86

18.88

21.05

20010706

13.69

30.80

11.71

18.70

20.30

13.70

31.12

11.65

18.70

22.08

13.93

31.42

11.75

18.15

22.38

13.65

28.73

11.02

17.78

21.39

13.06

27.57

10.25

17.30

20.79

13.21

28.42

10.29

17.38

21.28

12.84

27.88

9.89

17.25

20.87

12.33

27.67

9.80

16.85

19.88

11.63

27.20

9.11

16.68

19.28

20010907

11.36

27.40

8.97

16.52

19.15

11.96

27.33

9.13

16.84

21.13

11.60

27.47

8.94

16.97

20.56

11.25

26.77

8.84

16.82

19.88

10.46

24.07

8.64

15.00

19.78

9.55

22.50

8.03

13.19

18.52

10.34

23.78

9.76

15.45

20.35

20011102

11.38

24.02

9.71

14.89

21.22

10.77

22.92

9.35

15.18

21.00

10.10

22.74

9.25

14.28

21.10

10.71

24.38

9.60

14.75

20.99

10.80

24.03

9.89

14.82

21.73

11.09

24.45

9.66

15.32

20.99

10.39

23.88

9.10

14.61

21.44

9.95

24.72

8.95

14.11

20.78

9.90

25.21

8.92

13.91

20.62

20020104

9.76

24.57

8.79

13.89

20.63

9.09

23.63

8.03

11.70

19.40

7.95

21.13

8.57

11.60

17.92

8.17

21.92

8.75

12.65

17.71

8.41

22.72

8.24

12.36

18.17

8.87

22.22

8.46

12.19

17.40

20020301

8.81

22.34

8.29

11.80

17.75

9.77

23.72

9.30

13.58

18.97

9.55

23.13

8.78

13.52

19.99

9.85

23.65

8.98

14.09

19.73

10.09

21.95

8.56

13.66

19.51

9.20

22.33

8.58

14.22

19.68

9.58

22.12

8.83

13.93

19.26

9.22

21.34

8.73

13.55

18.68

9.32

21.70

8.72

13.71

18.72

9.43

21.89

8.89

13.92

20.46

20020510

9.16

21.12

8.67

13.76

20.90

8.69

20.69

9.41

13.04

20.94

8.45

19.94

9.77

12.89

20.09

8.23

18.99

9.54

12.77

19.28

8.33

19.39

9.71

13.27

19.72

8.00

18.74

9.48

12.99

19.18

8.56

20.45

10.22

13.50

19.70

9.75

20.91

11.03

15.52

20.11

20020705

9.77

20.57

10.92

15.41

19.56

9.40

20.54

10.51

14.97

19.54

9.39

20.84

10.49

15.00

19.72

9.10

19.74

10.03

15.10

18.95

9.12

19.76

10.10

15.37

18.07

8.99

19.50

9.75

15.30

17.81

8.96

19.95

9.78

15.41

17.35

9.24

20.45

9.88

15.69

17.74

9.19

20.66

9.60

15.85

17.52

20020906

8.88

20.14

9.17

15.50

16.57

8.62

20.38

9.24

15.25

15.96

8.54

19.98

9.42

14.93

15.97

8.54

19.98

9.16

15.35

15.18

8.12

18.62

9.25

14.55

14.33

8.14

18.37

9.43

14.25

13.72

8.10

18.44

9.61

14.22

13.66

20021101

7.92

18.08

9.60

14.40

13.66

7.91

18.26

9.63

14.73

13.40

7.62

16.82

8.43

14.25

13.13

7.19

15.85

8.02

13.85

12.13

7.30

16.39

8.31

14.21

12.68

7.13

15.64

7.93

14.03

12.20

7.09

15.72

7.86

13.98

12.08

7.22

16.24

8.09

14.06

12.92

6.92

15.85

7.72

14.06

12.25

20030102

6.45

15.25

7.37

12.84

11.84

6.77

15.54

7.61

13.41

12.55轉.14

16.33

8.44

14.61

13.40

7.04

16.55

8.07

14.78

14.09

7.17

16.54

8.11

14.78

14.22

7.30

16.40

8.14

14.63

14.20

7.15

16.13

8.13

14.28

13.94

7.30

16.80

8.18

14.37

13.79

20020307

7.14

16.35

7.92

14.36

13.45

6.83

15.97

7.70

13.97

13.10

6.81

16.14

7.89

14.16

12.96

6.94

15.73

7.92

14.27

13.01

6.90

16.42

8.05

14.37

13.12

7.03

16.58

8.10

14.94

12.89

6.98

17.27

8.02

15.59

13.69

6.55

16.29

7.55

13.40

13.30

6.33

17.75

7.31

13.72

12.98

均值

9.92

22.57

9.65

15.08

17.73

收益

-0.31

-0.22

-0.21

-0.16

-0.09

正偏差ui

0.24

0.19

0.15

0.10

0.11

負偏差di

0.17

0.17

0.11

0.08

0.19

方差

5.24

22.29

2.12

2.64

8.73

沒有參數的

-0.07

-0.02

-0.04

-0.02

0.09

加入參數的

-0.17

-0.13

-0.11

-0.07

-0.03

風險組合偏差

0.72

0.89

0.72

0.83

1.80

表二:深圳證券交易所的股票

股票名稱

絲綢股份

江鈴汽車

桂林集琦

中成股份

吉林化纖

代號

1

2

3

4

5

20010105

27.80

8.45

22.17

23.28

7.29

24.30

8.34

22.21

23.66

7.89

25.88

8.73

20.90

24.22

7.90

24.36

8.54

20.09

23.00

7.47

25.13

8.42

20.14

22.58

7.68

25.58

8.30

19.97

25.65

7.33

20010302

27.70

8.47

21.60

24.07

7.43

28.58

8.38

21.42

24.05

7.60

28.50

8.32

21.82

24.96

8.16

27.04

8.51

21.10

24.84

8.18

27.86

8.73

22.28

25.36

8.53

29.19

8.67

21.28

25.52

8.94

26.69

8.93

21.50

27.40

8.91

26.82

8.61

21.80

26.37

8.90

25.38

8.45

20.65

25.56

8.45

25.41

8.40

20.73

26.16

8.34

20010511

26.47

8.65

21.08

26.43

8.69

25.83

8.54

22.13

26.76

8.95

25.03

9.00

21.83

23.96

8.55

26.24

8.93

22.98

23.68

8.80

25.57

8.91

23.98

23.77

8.54

24.75

8.82

24.11

23.28

8.73

25.43

9.22

25.15

23.73

9.00

25.43

9.24

24.65

24.21

8.86

20010706

25.34

8.81

24.61

24.14

8.54

26.11

8.86

26.14

23.66

8.44

25.79

8.83

26.54

24.09

8.38

25.74

8.50

23.85

23.56

8.03

24.76

7.89

22.22

23.88

7.36

24.57

7.85

23.87

23.58

7.39

24.19

7.69

23.59

23.35

7.29

23.95

7.49

22.99

23.28

7.48

23.56

6.79

22.13

23.14

7.45

20010907

22.55

6.92

21.21

23.01

7.19

21.97

6.98

20.62

23.14

7.15

21.31

6.76

20.65

23.01

6.98

21.45

6.49

20.39

22.27

6.40

21.36

5.93

18.93

22.02

5.66

20.77

5.70

15.15

21.36

5.87

20.64

6.10

16.73

21.78

6.16

20011102

20.55

6.47

17.06

21.87

6.57

20.43

6.15

15.39

21.74

6.68

20.37

6.15

15.36

21.88

6.80

20.41

6.38

18.36

22.05

7.12

20.98

6.60

19.28

22.28

7.17

20.79

6.66

18.63

22.51

7.05

20.25

6.36

18.23

22.27

6.70

19.18

6.30

16.94

22.23

6.80

18.91

6.08

16.92

23.35

6.44

20020104

18.59

6.02

16.79

23.42

6.37

16.00

5.52

15.11

23.06

5.93

10.94

4.54

12.87

22.63

6.07

10.26

4.32

14.42

22.72

6.43

12.56

4.53

15.03

23.13

6.67

11.89

4.64

15.09

23.12

6.72

20020301

12.34

4.65

15.17

24.10

6.56

14.45

5.55

17.66

24.37

7.08

14.67

5.48

16.83

24.32

6.94

14.63

5.50

18.33

24.81

7.10

14.85

5.24

18.20

24.50

6.75

15.58

5.73

18.08

24.74

6.68

15.17

5.63

18.02

25.16

6.89

14.68

5.52

17.60

24.12

7.74

14.41

5.77

17.48

24.37

8.60

14.65

5.82

18.17

23.64

9.33

20020510

14.47

5.76

17.45

23.89

8.91

13.82

5.61

16.46

23.57

8.39

13.50

5.67

15.87

23.56

8.27

13.19

5.96

15.32

24.32

7.93

13.28

6.19

15.74

25.86

8.31

12.83

5.95

14.99

25.24

8.59

13.98

6.35

16.01

27.03

9.18

14.92

7.02

16.73

27.75

9.44

20020705

15.03

6.94

16.67

28.21

10.04

14.77

6.82

17.66

28.56

9.62

14.81

6.95

18.84

28.32

9.88

14.16

6.87

19.01

27.84

9.36

14.20

6.78

20.01

27.83

9.64

13.89

6.81

20.30

27.54

9.79

14.25

6.79

19.59

28.05

9.58

14.54

6.74

20.01

28.52

9.86

14.56

6.97

19.47

28.50

9.64

20020906

14.04

6.68

19.52

28.12

9.20

13.82

6.52

19.83

27.99

8.80

13.37

6.27

19.88

27.68

8.83

13.23

6.10

19.79

27.83

8.56

12.83

5.76

19.23

27.11

8.19

12.72

5.70

19.22

26.74

8.39

12.65

5.78

19.61

26.69

8.55

20021101

12.63

5.77

19.02

26.34

8.80

12.49

5.65

19.77

26.24

8.31

11.34

5.19

20.03

25.73

8.74

10.62

4.80

19.19

25.24

7.82

11.14

5.15

19.77

26.42

8.15

10.94

4.99

19.82

26.04

8.05

11.19

4.96

19.95

25.64

8.11

11.62

5.12

19.79

26.02

8.19

11.01

4.94

18.65

26.12

7.71

20030102

11.12

4.73

17.58

25.20

7.30

11.55

4.98

17.57

25.94

7.62

11.97

5.34

17.03

26.36

8.23

12.09

5.31

15.96

26.16

8.22

12.15

5.34

16.70

26.71

8.29

12.47

5.35

16.32

26.68

8.41

12.16

5.30

16.16

25.96

8.40

12.33

5.57

16.74

25.83

8.96

20020307

12.06

5.30

16.35

25.24

8.93

11.61

5.19

14.79

25.46

9.16

11.55

5.16

14.13

25.35

9.02

11.53

5.21

14.45

25.68

9.30

11.71

5.18

14.37

25.19

9.51

12.04

5.33

14.40

26.55

10.30

11.89

5.46

15.44

26.21

10.15

11.01

5.06

13.85

25.56

10.68

10.83

5.04

12.68

24.35

12.77

均值

17.81

6.57

18.90

24.90

8.12

收益

-0.36

-0.22

-0.15

0.07

0.11

正偏差ui

0.35

0.21

0.12

0.06

0.10

負偏差di

0.27

0.16

0.14

0.06

0.13

方差

35.43

1.93

9.00

3.41

1.37

沒有參數的

-0.08

-0.05

0.01

0.00

0.03

加入參數的

-0.17

-0.11

-0.03

-0.02

-0.02

風險組合偏差

0.77

0.74

1.09

0.95

1.28

備注:(1)所有的數據都不是原始數據,均經過處理,原因很簡單,因為在這兩年間,這些公司都派發了紅利,主要有送股和直接派送現金兩種方式,也有的公司進行了配股,因此股價在派發紅利時產生劇烈變動,所以我根據派發紅利的方式和比例進行了還原計算,將所有價格都調整到2001年未派發任何紅利的基準情形.

(2)所有的數據都只保留兩位,但是計算并沒有簡化,只有最后結果才顯示兩位.所有有時會看到0.14-0.12=0.01的情況,這是正常的.

(3)收益是以均值作為最后價格進行的計算,因為如果只用最后一周的收盤價,顯然有失偏頗.正負偏差也是以均值作為期望值的.

(4)由于這兩年中國的利息率非常之低,同時還征收利息稅,所以我忽略了利息的影響,令rf=0.

(5)兩個表格中,所有股票都是按收益從小到大進行排序,編號,以便于比較各種風險度量方式的優劣.

所有的股票都是按收益排序的,根據無套利原則(收益越大,風險也就應該相應的越大),他們的風險也應該是由小到大排序的.從表格的數據中我們可以明顯的看到,方差是紊亂的,與收益并沒有明顯的線性關系,所以可以斷定,投資者并沒有使用方差作為他們度量的依據.風險組合偏差比方差要好一些,在上海市場上,有一個數據沒有按照遞增排列,而在深圳市場上有兩個.說明這種度量風險的方法也是不夠好的.再看看沒有參數的情形(也就是沒有θ,直接用di-ui來作為度量風險的標準),在兩個市場上都有一個數據沒有按照遞增排列,所以這個情形也不夠好,但是相差也不遠,所以我引入參數θ.下面通過無套利原則(收益越大,風險也就應該相應的越大)來估算θ的值.

由收益越大,風險也就應該相應的越大的原則(無套利原則),那么,用這四個不等式組成的不等式組,分別計算上海和深圳兩個市場上的θ值,可得在上海市場上,0.09<θ<0.67,取中值,所以θ1=0.38;而在深圳市場上,0.57<θ<.75,取中值,所以θ2=0.66.更一般的,令,可得中國市場上,不對稱系數θ=0.52.

這個結果令我很迷惑,根據心理學和行為經濟學的研究成果【6】,風險是不對稱的,負偏差對人們效用造成的影響應該比正偏差大,所以θ應該比1大才對,但是現在居然只有一半,和心理學和行為經濟學的研究成果完全不符.這很奇怪!我分析主要有以下幾個可能的原因:

1.中國的證券市場并不完備,這是大家公認的.即使美國也只是弱完備市場.我收集不到美國的數據,所以沒法進行比較分析.可能市場的不完備性影響了數據的真實有效性.

2.心理學和行為經濟學的研究成果可能討論的是普通人,也就是一般人在經濟生活中的行為,比方說買菜,買衣服這一類,但是證券市場上全是投資者,可能他們的效用函數與普通人是不一樣的.特別是在中國市場上,存在相當多的投機者,他們都想以小博大,一夜暴富.因此他們往往不在乎負偏差,而更關心正偏差有多大.這幾年股票的收益并不好,在上海市場上,全部五只股票收益都是負數,而深圳市場上也有三只股票收益為負.在這樣的情況下,投資者雖然有所減少,但是仍有相當數量的投資者選擇留在市場中.這充分說明了他們并不關心負偏差,而更關心正偏差有多大,想抓住一個正偏的機會發一筆財.在這種情形下,θ=0.52<1也就不足為奇了.

3.當正偏差超乎尋常的大時,人們就顧不上負偏差了.這就好像彩票,管理中心已經說了,拿出50%作為彩金,也就是任何投資的理性預期收入應該時投入的一半,但是由于有一個微乎其微的概率得到一個超乎尋常的正偏差――五百萬,人們對彩票樂此不疲.這實際上也是一個投資中不理性投機的行為.證券市場上也是如此,前些年,市場很不規范,有少數人鉆空子賺了不少錢,這就成了那個超乎尋常的正偏差.人們就紛紛仿效,根本沒有理性分析情況的變化,就忽視了負偏差.這可能也是θ相當小的原因.

五,新的風險度量標準在投資決策中的應用

用綜合風險偏差很容易解決在本文第一部分中所提到的例證.很明顯,基金A和基金B相對于rf的負偏差均為0,也就是說兩者都不存在絕對風險,兩者的正偏差分別為rA=rf+0.5,rB=rf+1,從而兩者具有不同的綜合風險偏差-0.5和-1.顯然B的綜合風險偏差較小,故投資于基金B比較有利.

對于一般情況而言,顯然投資者應該選擇綜合風險偏差較小的證券組合.

下面就單一證券投資方案的選擇舉例,對證券投資組合的選擇可類似地討論.設有A,B,C三種證券,時間周期為半年,預期收益率及發生的概率如表1所示(預期收益率的概率分布可通過對歷史數據的觀察而得出,此處僅舉例說明風險調整收益在投資決策中的應用,故假設各種可能的收益率發生的概率均為1/6)【10】.

表1證券A,B,C半年期預期收益率(單位:%)

Si\Pj

1/6

1/6

1/6

1/6

1/6

1/6

A

-10

-3

20

6

-5

10

B

-20

-8

6

40

20

-2

C

-5

-2

2

8

4

-4

設基準收益率rf=2%,取中國證券市場的不對稱系數θ=0.52,則計算如表2所示.

表2證券A,B,C半年期預期收益率的綜合計算指標(單位:%)

Si

ri

Vari

di

ui

Rgi

Ri

A

3.00

1.23

8.00

10.00

0.80

-5.84

B

6.00

4.58

12.00

20.00

0.60

-13.76

C

0.50

0.26

5.67

4.00

1.42

-1.05

由上表可以看出:

若考慮平均收益率的大小,應選擇證券B進行投資;

若考慮用方差表示的風險指標,應選擇方差較小的證券C進行投資;

若考慮以負偏差表示的證券的絕對風險,就選擇證券C進行投資;

若綜合考慮方差和風險,則證券A的方差比較小,收益比較大,值得考慮投資;

若考慮風險組合偏差,則證券B的風險組合方差最小,應優先考慮投資;

若考慮綜合風險偏差,則應選擇證券C.證券C的綜合風險偏差最小.

事實上,市場上能無風險的獲得收益率2%,那么沒有人愿意去投資平均收益只有0.5%的證券C,因為這樣還要承擔一定的風險,雖然有可能使自己的投資收益超過2%.

可以看出,風險度量指標及投資決策指標的選擇對投資決策的結果有著決定性影響.因此,風險度量指標與投資決策指標的選擇合理與否將直接決定投資行為的成敗.

RiskMeasureandItsInfluencetotheInvestmentDecision

JingFang

(BusinessSchool,WuhanUniversity,Wuhan,430072)

Abstract:Thispaperreviewthehistoricalmethodofriskmeasure,pointouttheirlimitation,supplyawaytorecomposeitandanewindexofriskmeasure---synthesisriskdeviation.AnddemonstrateandanalysewithmorethanonethousanddatainthestockmarketinChina,explaintheusageofitwithexample.

KeyWord:riskmeasure,positiveandnegativedeviation,synthesisriskdeviation

參考文獻

[1]WlodzimierzOgryczakandAndrzejRuszczynski,《FromStochasticDominancetoMean–RiskModels:SemideviationsasRiskMeasures》,InternationalInstituteforAppliedSystemsAnalysis,InterimReport,IR-97-027/June

[2]DavidNNawrocki,《ABriefHistoryofDownsideRiskMeasures》,JournalofInvesting,1999,Fall

[3]ZengjingChenandLarryG.Epstein,《Ambiguity,RiskandAssetReturnsinContinuousTime》,RochesterCenterforEconomicResearch(RCER),workingpaperNo.474,2000,(7)

[4]JavierEstrada,《Mean-SemivarianceBehavior:AnAlternativeBehavioralModel》,CentroInternacionaldeInvestigacionFinanciera(CIIF),ResearchPaperNo.492,2003(2)

[5]JavierEstrada,《Mean-SemivarianceBehavior(Ⅱ):TheD-CAPM》,CIIF,ResearchPaperNo.493,2003(2)

[6]RichmondHarbaugh,《Skillreputation,prospecttheory,andregrettheory》,2002,(3)

[7]EckhardPlaten,《AMinimalFinancialMarketModel》,2000,(9)

[8]ThomasJ.LinsmeierandNeilD.Pearson,《RiskMeasurement:AnIntroductiontoValueatRisk》,1996,(7)

[9]劉春章黃桐城陳漢軍,《風險調整收益及其在投資決策中的應用》,決策借鑒,2002,(10),75-77

[10]馬國順,《一種新的風險度量指標》,西北師范大學學報(自然科學版),1999,(2),19-21

[11]鄒輝文陳德棉,《關于風險的若干問題及其在風險投資中的應用》,同濟大學學報,2002,(9),1145-1151

[12]張宏業,《證券組合風險的分析》,中央財經大學學報,2000,(6),46-48

[13]陳金龍張維,《金融資產的市場風險度量模型及其應用》,華僑大學學報(哲學社會科學版),2002,(3),29-36

[14]曹永剛王萍類成曜,《現代金融風險》,北京:中國金融出版社,2000

[15]韋廷權,《風險度量和投資組合構造的進一步實證》,南開經濟研究,2001,(2),3-6

[16]黃威華,《β系數與證券投資風險的度量》,內蒙古財經學院學報,2001,(3),36-38

[17]傅志超,《股票投資風險的度量與控制》,經濟數學,1994,(1),60-63

[18]朱世武張堯庭徐小慶,《一種新的股市風險度量指標及其應用》,經濟數學,2002,(6),1-9

[19]戴浩暉陸允生王化群,《單時期下一種新的風險度量方法及其應用》,華東師范大學學報(自然科學版),2001,(9),33-38

[20]吳開兵曹均華俞自由,《風險度量與風險控制》,上海經濟研究,1999,(4),42-49

[21](意)皮埃特羅.潘澤(美)維普.K.班塞爾,《用VaR度量市場風險》,綦相譯,北京:機械工業出版社,2001

亚洲精品一二三区-久久