前言:中文期刊網精心挑選了神經網絡過擬合的表現范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
神經網絡過擬合的表現范文1
關鍵詞經濟活動預測模型人工神經網絡
經濟活動諸如商品價格走勢、生產活動的產量預測、加工的投入產出分析、工廠的成本控制等方面都是重要的技術經濟層面。定量化的經濟活動分析是經濟學研究的必由之路,而建模是量化分析的基礎,這是因為模型為科學分析和質量、成本等控制提供了理論依據。本文針對經濟活動中大多數研究對象都具有的非線性特點,給出了用人工神經網絡(ArtificialNerveNetwork)模型建立經濟活動的預測模型的原理和方法,并描述了神經網絡與各種先進的建模方法相結合的模型化方法,為經濟活動的分析、預測與控制提供了理論基礎。
1神經網絡模型方法
現實的經濟系統是一個極其復雜的非線性系統,客觀上要求建立非線性模型。傳統上使用回歸與自回歸模型刻畫的都是線性關系,難于精確反映因變量的變化規律,也終將影響模型的擬合及預報效果。為揭示隱含于歷史記錄中的復雜非線性關系必須借助更先進的方法———人工神經網絡(ANN)方法。
人工神經網絡具有并行處理、自適應、自組織、聯想記憶及源于神經元激活函數的壓扁特性的容錯和魯棒性等特點。數學上已經證明,神經網絡可以逼近所有函數,這意味著神經網絡能逼近那些刻畫了樣本數據規律的函數,且所考慮的系統表現的函數形式越復雜,神經網絡這種特性的作用就越明顯。
在各類神經網絡模型中,BP(Back-Propagation誤差后向傳播)神經網絡模型是最常用的也是最成熟的模型之一。本質上,BP模型是對樣本集進行建模,即建立對應關系RmRn,xk∈Rm,ykRn。數學上,就是一個通過函數逼近擬合曲線/曲面的方法,并將之轉化為一個非線性優化問題來求解。
對BP神經網絡模型,一般選用三層非循環網絡。假設每層有N個處理單元,通常選取連續可微的非線性作用函數如Sigmoid函數f(x)=1/(1+e-x),訓練集包括M個樣本模式{(xk,yk)}。對第P個訓練樣本(P=1,2,…,M),單元j的輸入總和記為apj,輸出記為Opj,則:
apj=WQ
Opj=f(apj)=1/(1+e-apj)(1)
對每個輸入模式P,網絡輸出與期望輸出(dpj)間誤差為:
E=Ep=((dpj-Opj)2)(2)
取BP網絡的權值修正式:
Wji(t+1)=Wji(t)+?濁?啄pj+?琢(Wji(t)-Wji(t-1))(3)
其中,對應輸出單元?啄pj=f’,(apj)(dpj-Opj);對應輸入單元?啄pj=f’,(apj)?啄pkWkj;
?濁是為加快網絡收斂速度而取值足夠大又不致產生振蕩的常數;?琢為一常數項,稱為趨勢因子,它決定上一次學習權值對本次權值的影響。
BP學習算法的步驟:初始化網絡及學習參數;提供訓練模式并訓練網絡直到滿足學習要求;前向傳播過程,對給定訓練模式輸入,計算網絡的輸出模式,并與期望比較,如有誤差,則執行下一步,否則返回第二步;后向傳播過程,計算同一層單元的誤差?啄pj,按權值公式(3)修正權值;返回權值計算公式(3)。BP網絡的學習一般均需多周期迭代,直至網絡輸出與期望輸出間總體的均方根誤差ERMS達到一定要求方結束。
實踐中,BP網絡可能遇到如下問題:局部極小點問題;迭代收斂性及收斂速度引起低效率問題。此外還有,模型的逼近性質差;模型的學習誤差大,記憶能力不強;與線性時序模型一樣,模型網絡結構及節點作用函數不易確定;難以解決應用問題的實例規模與網絡規模之間的矛盾等。為克服這樣的一些問題,同時為了更好地面向實際問題的特殊性,出現了各種基于神經網絡模型或與之結合的模型創新方法。
2灰色神經網絡模型
灰色預測和神經網絡一樣是近年來用于非線性時間序列預測的引人注目的方法,兩種方法在建模時都不需計算統計特征,且理論上可以適用于任何非線性時間序列的建模?;疑A測由于其模型特點,更合用于經濟活動中具有指數增長趨勢的問題,而對于其他變化趨勢,則可能擬合灰度較大,導致精度難于提高。
對于既有隨時間推移的增長趨勢,又有同一季節的相似波動性趨勢,且增長趨勢和波動性趨勢都呈現為一種復雜的非線性函數特性的一類現實問題,根據人工神經網絡具有較好的描述復雜非線性函數能力特點,用其對季節性建模;最后根據最優組合預測理論,建立了兼有GM(1,1)和ANN優點的最優組合預測模型。該模型能夠同時反映季節性時間序列的增長趨勢性和同季波動性的雙重特性,適用于一般具有季節性特點的經濟預測。
首先,建立GM(1,1)模型,設時間序列x(0)=(x(0)(1),x(0)(2),?撰,x(0)(n)),作一階累加生成:
x(1)=(x(1)(1),x(1)(2),?撰,x(1)(n))(4)
其中x(1)(k)=(x(0)(i),k=1,2,?撰,n
構造一階線性灰色微分方程并得到該方程的白化微分方程:
+ax=u
用最小二乘法求解參數a,u,得到x(1)的灰色預測模型:
(1)(k+1)=(X(0)(1)-u/a)e-ak+u/a,(k=0,1,2,?撰)(5)
其次,根據上節方法建立BP人工神經網絡模型。
第三,將兩模型優化組合。設f1是灰色預測值,f2是神經網絡預測值,fc是最優組合預測值,預測誤差分別為:e1,e2,ec,取w1和w2是相應的權系數,且w1+w2=1,有fc=w1f1+w2f2,則誤差及方差分別為ec=w1e1+w2e2,Var(ec)=w21Var(e1)+w22Var(e2)+2w1w2cov(e1,e2)
對方差公式求關于w1的極小值,并取cov(e1,e2)=0,即可得到組合預測權系數的值。
2基于粗糙集理論的神經網絡模型
粗糙集理論與模糊集理論一樣是研究系統中知識不完全和不確定問題的方法。模糊集理論在利用隸屬函數表達不確定性時,為定義一個合適的隸屬函數,需要人工干預,因而有主觀性。而粗糙集理論由粗糙度表示知識的不完全程度,是通過表達知識不精確性的概念計算得到的,是客觀的,并不需要先驗知識。粗糙集通過定義信息熵并進而規定重要性判據以判斷某屬性的必要性、重要性或冗余性。
一般來說,BP神經網絡模型對模型輸入變量的選擇和網絡結構確定等都基本憑經驗或通過反復試驗確定,這種方法的盲目性會導致模型質量變差。用粗糙集理論指導,先對各種影響預測的因素變量進行識別,以此確定預測模型的輸入變量;再通過屬性約簡和屬性值約簡獲得推理規則集;然后以這些推理規則構造神經網絡預測模型,并采用加動量項的BP的學習算法對網絡進行優化。有效改善了模型特性,提高了模型質量。其建模步驟為:由歷史數據及其相關信息歷史數據構造決策表;初始化;對決策表的決策屬性變量按劃分值域為n個區域的方式離散化;采用基于斷點重要性的粗糙集離散化算法選擇條件屬性變量和斷點(分點),同時計算決策表相容度,當決策表相容度為1或不再增加時,則選擇條件屬性變量和分點過程結束;由選擇的條件屬性變量及其樣本離散化值構造新的決策表,并對其約簡,得到推理規則集;由推理規則集建立神經網絡模型;對神經網絡進行訓練;若神經網絡擬合誤差滿足要求,則結束,否則,增加n。必須指出,區間分劃n太小,會使得擬合不夠,n太大,即輸出空間分得太細,會導致過多的區域對應,使網絡結構過于復雜,影響泛化(預測)能力。
3小波神經網絡模型
人工神經網絡模型存在的網絡結構及節點函數不易確定問題,結合小波分析優良的數據擬合能力和神經網絡的自學習、自適應特性建模,即用非線性小波基取代通常的非線性S型函數。
設非線性時間序列變化函數f(t)∈L2(R),定義其小波變換為:
Wf(a,b)==f(t)?漬()dt(6)
式中,?漬ab(t)稱為由母小波?漬t(定義為滿足一定條件的平方可積函數?漬(t)∈L2(R)如Haar小波、Morlet小波、樣條小波等)生成的依賴于參數a、b的連續小波,也稱小波基。參數a的變化不僅改變小波基的頻譜結構,還改變其窗口的大小和形狀。對于函數f(t),其局部結構的分辯可以通過調節參數a、b,即調節小波基窗口的大小和位置來實現。
用小波級數的有限項來逼近時序函數,即:
(t)=wk?漬()(7)
式中(t),為時間序列y(t)的預測值序列;wk,bk,ak分別為權重系數,小波基的平移因子和伸縮因子;L為小波基的個數。參數wk,bk,ak采用最小均方誤差能量函數優化得到,L通過試算得到。
4模糊神經網絡模型
模糊集合和模糊邏輯以人腦處理不精確信息的方法為基礎,而人工神經網絡是以大量簡單神經元的排列模擬人腦的生理結構。二者的融合既具有神經網絡強大的計算能力、容錯性和學習能力,又有對于不確定、不精確信息的處理能力,即同時具有底層的數據處理、學習能力和高層的推理、思考能力。
一種應用模糊理論的方法是把模糊聚類用來確定模糊系統的最優規則數,從而確定模糊神經網絡的結構。這樣確定的網絡結構成為四層:第一層為直接輸入層;第二層為模糊化層,對輸入做模糊化處理;第三層為模糊推理層,對前層模糊結果做模糊推理;第四層為非模糊化層,可以采用重心非模糊化法,產生網絡輸出。該網絡采用動態處理法,增強了其處理能力,且適用性強、精度高。
5結語
除上述幾種結合式神經網絡方法之外,人工神經網絡模型在算法設計方面一直在取得巨大的進步。神經網絡模型方法是一種先進的具有智能的非線性建模方法,其在自然科學、經濟現象、社會活動等方面的應用正在不斷深化,把神經網絡方法引入經濟活動的分析和預測中,并緊密聯系諸多先進的建模方法,是使工業經濟、商業經濟及其對經濟本質規律的研究等各項工作推向前進的重要理論武器。
參考文獻
神經網絡過擬合的表現范文2
關鍵詞:差分進化;粒子群;高斯變異;OIF-Elman;系統辨識
DOI:10.16640/ki.37-1222/t.2017.05.119
1 概述
神經網絡因具有強大的并行處理能力、自組織和自學習能力、非線性映射能力,在系統辨識領域受到了廣泛的重視[1]。采用神經網絡對系統進行辨識時,無需知道系統的具體結構,通過對相關數據進行訓練可以得到辨識模型的網絡結構,使得辨識更加簡便易行,且可用于閉環辨識。在工程實際中,辨識對象大多為動態系統,且具有較強的非線性,一般的靜態前饋神經網絡雖然可以采用增加外部遲延的方法辨識動態系統,但會使網絡結構復雜化,導致收斂速度變慢。具有內部反饋結構的遞歸神經網絡,因自身具有反饋結構,網絡本身便是一個非線性動態系統,成為辨識動態系統的有效方法之一[2]。本文在OIF-Elman[3]遞歸網絡模型的基礎上,結合改進的粒子群算法對其進行優化,并用于加熱爐換熱器對象的辨識,辨識的結果證實了該方法的可行性和優越性。
2 OIF-ELman神經網絡
2.1 OIF-Elman網絡結構
基本的Elman神經網絡在BP神經網絡基礎上加入了局部反饋鏈接和局部遞歸單元,具有了動態系統的結構。OIF-Elman網絡在Elman網絡的基礎上增加了輸出層節點的反饋,強化了對動態系統的擬合能力,被稱為具有輸出-輸入反饋機制的改進Elman網絡[4]。其結構圖如圖1所示,網絡的兩個關聯層的表達式分別為[5]:
,
2.2 OIF-Elman網絡動態系統仿真
分別采用Elman網絡及OIF-Elman網絡對二階動態系統:,輸入信號為,取樣本個數為50。學習算法均采用誤差反向傳播(BP)學習算法并比較兩種網絡的擬合精度,如圖2所示。圖2(a)榱街滯絡的訓練誤差曲線,圖2(b)為兩種網絡輸出對應每一個樣本的誤差,可見OIF-Elman網絡相比于Elman網絡誤差更小,精度更高,在動態系統辨識上更加有效。
3 混合粒子群優化算法
由于傳統的BP學習算法收斂速度慢易陷入局部最優等缺陷,本文提出一種改進的混合粒子群優化算法作為OIF-Elman神經網絡的學習算法。改進的算法在標準粒子群算法模型的基礎上,融入了高斯變異以及差分進化算法的交叉變異機制,并將本文算法與典型的三種差分進化粒子群算法(DEPSO)在不同目標函數上進行仿真對比。
3.1 算法思想
算法保留了粒子群模型的速度向量,采用常用的一種差分變異策略,增加粒子的多樣性,保證全局搜索能力,但由于目標向量是速度向量,故在此基礎上將基向量改為,并加入基于群體最優的差分向量,加速種群收斂速度,加強了對群體最優附近區域的挖掘能力[6]。文獻[11]中采用了對于最優向量中某一維分量變異的策略得到了很好的效果,在本文算法的高斯變異操作中,只對速度向量的某一維分量進行變異。另外為了進一步加強算法在群體最優附近的挖掘能力,引入高斯變異在最優位置附近進行搜索。有研究指出,全局最優解易出現在粒子群的群體最優位置與個體最優之間[7],受此啟發,本文算法中取群體歷史最優位置和歷史次優位置之間的區域進行高斯變異。這么選擇首先使高斯變異的范圍根據搜索進程進行變化,搜索前期范圍較大,搜索后期范圍會縮小。其次是因為在算法收斂后期問題的解多在群體最優位置附近,當粒子位置(由于算法的選擇操作,粒子個體最優即是粒子當前位置)未越過最優解時,算法會使粒子向最優解移動并記錄上次最優位置,當粒子由于速度慣性越過最優解時,問題的解便在歷史最優位置和歷史次優位置之間,所以說這個范圍是最具價值的搜索空間。實驗證明這種方式對于單峰及多峰函數起到了局部挖掘,促進收斂的作用。
根據上述原理,本文算法步驟如下:
(1)初始化。初始化種群個數,迭代次數,以及所有粒子的位置和速度。
(2)計算每個粒子的適應度值,初始化種群個體歷史最優和群體最優。
(3)判斷是否達到結束條件,如是則輸出當前全局最優值,否則執行下面步驟。
(4)對粒子速度向量中隨機選擇的一維,按照下面公式進行變異。更新粒子位置后采用差分進化算法的選擇機制,與之前粒子位置的適應度值進行比較,若當前粒子比之前粒子的適應度值更優,則用當前粒子進行替換,否則保留前一代粒子到下一代。
(5)記錄粒子群的歷史最優及歷史次優,采用下式進行高斯變異,在歷史最優與歷史次優之間進行挖掘,尋找更優的粒子對當前最優粒子進行替換,并更新次優粒子位置。
(6)返回步驟(3)。
3.2 數值仿真
將本文提出的算法與標準粒子群算法(PSO)、差分進化算法(DE)以及三種典型的差分進化與粒子群的結合算法[8](本文將其稱為:I輔助式[9]、II集成式[10]和III協作式[11])進行對比,選用Ackley多峰函數、Griewank函數、Rastrigin函數、Rosenbrock函數四種測試函數作為算法的目標函數,仿真結果如圖3及表1所示。
由圖3可知,本文改進算法在Rastrigin多峰函數優化上的優勢顯著,PSO算法和DE算法以及類型II均陷入了局部最優,類型I和類型III的改進算法依然繼續搜索趨勢,但與本文所提算法相比速度極慢。在其他函數如Rosenbrock函數仿真結果上,相比于其他算法,本文改進算法達到更高精度,表現出在此單峰問題求解中的優勢。
4 對加熱爐-對流換熱系統辨識
4.1 加熱爐換熱器控制系統的組成
將本文的辨識方法應用到加熱爐換熱器雙入雙出耦合對象,控制系統的方框圖如圖4所示。其輸出為內膽溫度T1和換熱器冷卻水出口溫度T2,入為控制器1和控制器2的輸出信號即加熱器與變頻器的開度信號U1和U2。故設計神經網絡辨識模型的輸出為T1和T2,輸入為U1和U2。
訓練樣本以5秒的采樣間隔取控制回路閉合時加入換熱器冷卻水出口溫度設定值后500秒內的100組控制器的輸出以及溫度數據,所有試驗數據做歸一化處理,訓練次數為300次。
4.2 仿真對比及結果分析
將本文方法與采用BP學習的OIF-Elman網絡及采用上述類型III優化算法的OIF-Elman網絡進行對比,如圖5所示。經過訓練,三種網絡模型均收斂到了一定的精度,本文提出的網絡模型相比于BP算法OIF-Elman網絡及類型III-OIFElman網絡以較少的訓練次數收斂到了較高精度。表2為三種模型的辨識誤差,同時也加入了標準Elman神經網絡的辨識誤差作為對比,可以看出采用本文算法的OIF-Elman網絡的辨識精度更高。
圖6為三種網絡模型對訓練樣本輸出信號的擬合曲線,更加直觀地展現出網絡模型的辨識效果,由圖可見,同樣是采用本文算法的OIF-Elman網絡模型相比其他兩種模型對于樣本的擬合效果更好。
5 結束語
加熱爐換熱器對象是一個多入多出的動態過程,采用OIFElman這種遞歸型神經網絡對加熱爐換熱器對象閉環調節過程的實驗數據進行了辨識,得到具有一定精度的神經網絡模型。采用BP算法,網絡的隱層節點較多,收斂速度慢,且精度不高。采用粒子群等智能算法優化神經網絡權值、閾值、關聯系數、關聯層初始值,較之BP算法,智能優化算法表現出了較快的收斂速度與精度,省卻了人為給定關聯系數及關聯層初值這一步驟,同時表現出了較強的搜索能力,簡化神經網絡的復雜性,得出了在同樣規模的神經網絡結構下BP算法無法搜索到的解。本文提出的混合算法較之多種改進的差分進化粒子群算法在仿真結果上表現出較好的搜索能力,并應用到神經網絡對象辨識中,針對加熱爐換熱器對象得到了一種結構簡單,精度更高的神經網絡模型。
參考文獻:
[1]茹菲,李鐵鷹.人工神經網絡系統辨識綜述[J].軟件導刊, 2011,10(03):134-135.
[2]章國升.基于遞歸神經網絡的非線性系統辨識研究[D].蘭州: 蘭州大學,2010.
[3]時小虎,梁艷春,徐旭.改進的Elman模型與遞歸反傳控制神經網絡[J].軟件學報,2003,14(06):82-91.
[4]王琛.超超臨界機組非線性動態模型的研究[D].北京:華北電力大學(北京),2010.
[5]姚柳.超超臨界機組的建模與仿真[D].北京:華北電力大學(北京),2011.
[6]宋錦,師玉嬌,高浩等.基于新型變異策略的差分進化算法[J].計算機工程與設計,2016,37(05):1285-1290.
[7]Gao H,Xu W. Particle Swarm Algorithm with Hybrid Mutation Strategy[J]. Applied Soft Computing, 2011, 11(8): 5129-5142.
[8]辛斌,陳杰.粒子群優化與差分進化混合算法的綜述與分類[J]. 系統科學與數學,2011,31(9):1130-1150.
[9]Zhang W,Xie X.Depso:Hybrid Particle Swarm with Differential Evolution Operator[C]//Proceedings of the Ieee International Conference on Systems,man,and Cybernetics, [S.l.]:[s.n.],2004:3816-3821.
[10]Jun S,Jian L.A Hybrid of Differential Evolution and Particle Swarm Optimization for Global Optimization[C]//Proceedings of the 3rd International Symposium on Intelligent Information Technology Application,[S.l.]:[s.n.], 2009:138-141.
[11]Niu B,Li L.A Novel Pso-de-based Hybrid Algorithm for Global Optimization[C]//Proceedings of the 4th International Conference on Intelligent Computing,[S.l.]:Springer Berlin Heidelberg,2008:156-163.
神經網絡過擬合的表現范文3
關鍵詞:匯率彈性化;匯率波動;神經網絡
中圖分類號:F830.7 文獻標識碼:A 文章編號:1674-2265(2013)04-0008-06
一、文獻綜述
隨著經濟全球化的不斷推進和國際資本流動的日益加劇,匯率對于投資者選擇正確的投資策略、企業規避和防范外匯風險以及中央銀行有效干預外匯市場和制定正確的貨幣政策,都有著非常重要的影響。因此,關于匯率的行為描述和預測問題研究一直是國內外理論界關注的焦點。
關于匯率波動的預測,一般從“匯率波動緣于經濟系統基本因素所致”(易綱、范敏,1997)出發,進而基于對匯率的理性預期等假設前提對匯率決定進行探討。相關的理論有購買力平價理論、利率平價理論、國際收支說等,并基于此,在匯率與影響匯率的經濟因素之間建立線性模型,再利用計量等工具對模型進行檢驗、矯正。常用的方法有最小二乘法、協整方法等。易綱、范敏(1997)對人民幣匯率決定的諸多理論作了詳盡分析,他們認為,均衡的市場利率和貨幣的完全可兌換這兩個前提條件在中國不成立,從而利率平價在中國解釋能力不強,這與王愛儉等(2003)的結論一致。但他們同時指出,隨著中國向人民幣完全可兌換和資本自由流動的方向不斷邁進,利率平價的解釋和預測能力會越來越強。魏巍賢(1998)在其1997年研究成果中的人民幣匯率決定模型的基礎上,采用月度數據構建了人民幣短期匯率預測模型,結果表明模型具有較好的模擬和預測性能以及結構穩定性。他進一步的研究(2000)結果表明,1994年以來匯率穩定主要歸因于央行的干預、適度從緊的貨幣政策、高速的經濟增長以及對外債余額與通貨膨脹的有效控制。惠曉峰等(1999)對購買力平價和貨幣理論進行修正,采用線性組合預測匯率,結果顯示組合模型比單個模型更加穩定。相關的文獻還可見于鄭蘭祥(2000)、張道政(2005)等。
另一種匯率預測的思路便是傳統的時間序列模型,常用的有ARMA模型(帕爾馬和陳,1997)、隨機游走模型(哈基奧,1986)和GARCH簇模型(波勒斯列夫等,1991;恩格爾等,1997)?;輹苑宓龋?003)論證了GARCH模型預測人民幣匯率時序的可行性,發現人民幣匯率存在明顯的異方差性。韋斯特等(West等,1995)通過以上幾個模型對匯率預測效果的對比發現,GARCH模型預測效果最佳,尤其是短期預測;ARMA模型預測效果次之?;舨℉opper,1997)和布魯克斯(Brooks,1997)的研究結論也表明,GARCH等時序模型能有效預測匯率波動。
然而大量的研究發現,市場的收益率并非呈現標準正態分布,反而呈明顯尖峰厚尾現象。同時,諸多文獻進一步證實匯率波動呈現簇聚現象、長記憶性等顯著的非線性特征(波勒斯列夫等,1991;恩格爾等,1997;楊瑞成等,2010)??梢姡蔷€性特征存在于匯率波動已是不爭的事實(米斯等,1990),而神經網絡是預測匯率非線性波動的良好選擇(關等,1995)。
神經網絡方法在匯率波動預測的應用研究已有諸多文獻可考。迪博爾德等(Diebold等,1990)研究認為,非線性方法在匯率波動預測中對于匯率值以及趨勢的預測都有更優表現。魯芬斯等(Refense等,1993)也認為神經網絡方法對匯率預測要比傳統線性預測方法好很多。勞舍爾(Rauscher,l997)在驗證了匯率與經濟各變量間的長期均衡關系后,采用各經濟變量作為BP網絡的輸入,對匯率的波動作了動態預測,結果表明BP網絡在匯率的波動尤其是其波動趨勢上的預測要優于ARMA、VEC等線性模型。惠曉峰等(2002)針對傳統BP網絡的缺陷,結合遺傳算法與遞歸預測方法提出基于實數編碼的GABP網絡預測模型,并在人民幣兌美元匯率時序的實證檢驗中得出良好的結果。王熙等(2010)通過對人民幣名義匯率高頻時序波動率的研究,驗證了其非線性動態行為表征,同時指出,非線性模型能比線性模型更好地描述匯率時序中大的波動。
可見,國內外文獻主要根據相關理論和模型對匯率自身或者匯率收益的波動率進行預測和比較分析,而較少從匯率收益率的角度探討匯率波動區間和波動趨勢以及匯率彈性化下匯率波動預測模型的選擇問題,而這正是本文要重點解決的問題。因此,本文選取2001年1月至2010年12月的月度數據,綜合采用線性MA模型和非線性神經網絡模型對匯率波動進行預測比較,探討匯率彈性化下人民幣匯率的波動預測問題,借以捕捉匯率波動趨勢,并基于此給出相應的結論與建議。
二、變量說明與模型選擇
根據黃志剛等(2010)的分析,本文選擇VOL(匯率波動)、CF(短期跨境資本流動)、ERI(匯率干預)、RIR(實際利率)4個經濟變量來解釋匯率的波動,同時加入股市收益及匯率波動滯后項作為匯率波動的預測解釋變量。各變量說明如下。
(一)變量與數據說明
1. VOL:匯率波動。關于匯率波動的預測,本文主要探討匯率的收益率,即波動幅度。黃志剛等(2010)將其定義為:
[rt=mpt-mpt-1mpt-1×100]
其中,[mpt]表示直接標價法下當月每日即期匯率的平均值,[mpt-1]表示前一個月每日即期匯率的平均值。這是百分比法定義的收益率。然而因對數收益率有更好的統計特性,如具有簡單的可加性,能在一定程度上消除或降低自相關等線性依賴性等(楊瑞成等,2010),因而對金融時序分析而言,對數收益率比百分比收益率更為適用(雷強等,2009)。故本文采用匯率價格的對數收益率來表示人民幣兌美元匯率波動,定義如下:
[VOLt=Ln(Pt/Pt-1)×100]
其中[Pt]表示第t月人民幣兌美元匯率中間價的月度均值,乘以100是為了提高精度,數據來源于中國人民銀行網站。
2. CF:短期國際資本流動。關于短期跨境資本流動(Capital Flow,記為CF)的度量,本文沿用黃志剛(2010)的設定方式,即:
短期跨境資本流動=外商直接投資增加額+外債增加額+經常項目順差額-外匯儲備增加額
其中,各變量均采用月度數據。不同的是,本文中的外債增加額是將外債凈額季度數據通過一階差分得到的季度增加額,用Eviews7.2軟件轉換為月度數據得來,而不是直接把差分所得的季度增加額當作每個月的值(這會高估外債增加額)。經常項目順差仍采用進出口順差的月度數據近似表示。數據來源于國家商務部網站和國家外管局網站。
3. ERI:匯率干預。為研究政府干預對匯率波動的影響,本文根據干杏娣等(2007)和黃志剛等(2010)的研究結論,同樣選取外匯儲備月度變化量代表政府對匯率波動的干預(Exchange Rate Interference,記為ERI)。數據來源于國家外管局網站。
4. RIR:實際利率。根據利率平價、購買力平價等國際金融理論可知,利率的變化會通過不同途徑和不同方式引起國際收支的變化,進而引起匯率變動;同時也能通過資本流動和商品市場對匯市波動產生直接或間接的影響。國外大量研究表明,利率價格變化對匯率波動有顯著影響,并且匯市與貨幣市場間存在雙向波動溢出效應,這些特征在成熟市場國家表現更為突出。隨著我國匯率彈性的逐漸增加,二者間的聯動性進一步增強,央行調控政策效果不僅取決于利率或匯率變動,還取決于二者間的聯動性。
因此,本文沿用實際利率(記為RIR)代表宏觀經濟形勢的變化。數據采用全國銀行間同業拆借市場利率的月度加權均值,并通過月度通脹率進行調整而得,數據來源于中國人民銀行網站、國家統計局網站和《中國金融統計年鑒》。
5. SHZ:上證指數收益。大量研究文獻認為股市對匯率波動也有很大影響。自20世紀90年代以來,國內外學者就已對股市與匯市的關系作了豐富研究,許多學者分別從宏觀和微觀角度分析得出股市與匯市間存在較強聯系的結論,但不同國家間傳導關系有別。也有部分研究指出二者間并不存在長期關聯性(菲力巴提斯等,2005;奧賽爾,2006;姚等,2006),但大部分學者傾向于認為金融自由化會加強兩者間的聯系(王新軍等,2010)。因此,為研究股市與匯市間的關系,并比較分析不同匯制下二者間的關系,本文也把該變量考慮在內,同時將滯后一期匯率波動的影響VOL(-1)項也考慮到匯率波動預測中。
鑒于兩次匯改(分別是2005年7月21日和2007年5月21日央行進行的兩次匯率改革)以及金融危機(即2008年12月次貸危機引發的全球金融危機)的影響,本文將研究數據劃分為4個階段:2001年1月―2005年7月(2001M01―2005M07),2005年8月―2007年4月(2005M08―2007M04),2007年5月―2008年12月(2007M05―2008M12),2009年1月―2010年12月(2009M01―2010M12),對以上變量間的關系進行分階段檢驗。
(二)平穩性檢驗
由表1可知,各變量在不同時段呈現出不同性質。其中第一、四階段結果較一致;第二、三階段結果較一致。以第二、三階段為例,原序列VOL、CF、ERI、RIR均不能拒絕存在單位根的原假設,而經過一階差分后則都為平穩序列。因此,VOL、CF、ERI、RIR在第二、三階段都為一階單整序列。而SHZ收益序列則是平穩時序。顯然第一、四階段各變量間并不滿足協整檢驗前提,故只針對第二、三階段作進一步協整檢驗。
(三)協整檢驗
協整可用以描述變量間的長期穩定關系。鑒于數據量的緣故,本文綜合VAR模型檢驗結果以及黃志剛等(2010)的研究,確定第二、三階段相應變量檢驗最佳滯后階數均為1,結果如表2所示。可知,兩階段各變量間均存在顯著的長期均衡關系。
由式(1)―(4)可知,無論哪個階段,政府干預對匯率波動始終呈顯著負效應;而滯后一期匯率波動則對當期匯率波動有顯著正向影響,這也說明了匯率波動的趨勢性特征。比較不同階段回歸方程的系數正負可以發現,2005年匯改后的第二、三階段回歸結果一致性較強,而2005年前的第一階段與2009年后第四階段的回歸結果相近度較高,既反映了不同階段變量間內在聯系的變化,也從側面反映出不同階段金融市場、宏觀經濟及調控政策等整體環境的不同。如第二、三階段短期資本流動與匯率波動呈顯著正相關,股市與匯市波動有顯著正聯動性,實際利率與匯率波動顯著負相關,反映了該時期匯率制度彈性不斷增大,金融市場、宏觀經濟及調控政策等整體環境變化不大。但在匯改之前與金融危機階段,上述自變量與匯率波動變量的回歸系數方向恰好相反,這與吳(WU,2000)的研究結論一致,說明該二階段匯率缺乏彈性或存在較多的政府干預和資本管制等。
由變量顯著性也可發現,匯率與利率關聯性在2005年匯改之后有顯著提升,這說明隨著匯率彈性明顯增強,匯率對利率的反應也逐步靈敏,匯率改革逐步回歸市場(陳鏡冰等,2010)。第一、四階段結果表明二者間存在正向關系,貨幣市場變動加劇了匯市波動。而且此二階段人民幣兌美元匯率波動幅度較小,限制了貨幣市場與外匯市場間的信息傳導(趙華,2007),桎梏了我國貨幣政策的傳導效率,進而也說明了匯率的非市場化會阻礙利率的市場化進程。
同時也可看出,MA過程能夠較好地擬合匯率的波動模型,但4個階段的最優回歸方程不盡相同,故對相應時期波動預測應根據不同時段作動態的模型調整。因此,本文考慮以2005年為分界點,對不同時期的匯率波動采取逐月預測的方式,并同時使用全時段的預測方式作比較分析。預測模型如下:
[VOL=C+α1CF+α2ERI+α3RIR+α4SHZ+α5VOL(-1)+β1ma(1)+…+βnma(n) (5)]
其中,ma的項數根據具體情況選擇。全時段預測模型根據前90個月數據得出最優模型,進而預測后30個月數據;逐月預測則分兩段,分別以30個月和20個月歷史窗口值作滾動預測,即每預測一個月的數值,就對模型進行調整,根據擬合優度、AIC準則、變量顯著性和模型穩健性等選取最優預測模型。
(五)神經網絡預測模型介紹
匯率波動預測具有不確定性,時間序列及回歸模型是最常用的預測方式,其根據匯率變量與相關經濟變量的關系構建多元回歸模型作預測,但要求有較大樣本量。然而諸多學者的研究結果認為,神經網絡模型能夠有更優的匯率預測表現,而其中BP神經網絡就是目前應用最為廣泛的一種網絡模型。BP網絡能通過比較網絡輸出結果的誤差,反復修正權值和閥值,逐步縮小誤差,提高預測精度,即“誤差逆傳播算法”。隨著這種誤差逆傳播修正不斷進行,網絡對輸入響應的準確率不斷上升。
由于傳統BP網絡預測存在收斂慢、振蕩、容易陷入局部極小點、權值偏大以及不穩定等問題(周永進等,2007),許多學者對BP網絡算法作了改進,如MFBP、MBP、動態自適應BP快速算法,以及人工智能算法如遺傳算法、模擬退火算法等與BP網絡結合的組合神經網絡模型等。其中,遺傳算法(Genetic Algorithms,GA)是使用較廣泛也較優的選擇(金,2005)。GA算法是一種全局尋優搜索算法,它能通過群體實現搜索過程,且易于并行化,能夠提高算法的效率。本文采用GA算法對BP神經網絡的連接權進行優化(伍海華,2009)。先用GA算法對初始權值進行優化,定出權值取值范圍;然后采用BP算法在以上的解空間中搜索最優解;再根據網絡的不斷訓練與迭代,直至達到最優權值進而進行BP網絡預測。
國內外學者的研究成果已經表明,用GA算法改進的BP網絡的預測效果和收斂速度要明顯優于一般BP網絡算法(魏巍賢等,1995;王建成等,1998;鄭志軍等,2000)。因此本文選擇GABP神經網絡算法進行預測,并與前文MA模型預測效果作比較,探討匯率彈性化下不同模型對匯率波動預測的解釋力。
三、匯率彈性化下人民幣匯率波動預測模型的比較分析
(一)預測方式
本文分別采用以下四種方式對人民幣兌美元匯率波動進行樣本內擬合與樣本外預測。
1. MAQD全時段預測:采用90個月的歷史數據對后續30個月數據作預測,并對歷史數據進行模擬。
2. MAZY逐月預測:根據匯率彈性的不同,對2001M01―2005M07時段和2005M08―2010M12時段分別采用30個月和20個月的周期窗口進行滾動逐月預測。
3. GABP網絡預測:采用遺傳算法改進的BP神經網絡方法對匯率波動進行樣本外預測和樣本內模擬。
由圖1可見,MA逐月和GABP網絡預測的效果均優于全時段MA預測效果。逐月預測的匯率波動與實際波動趨勢較吻合;而全時段預測值傾向于低估實際匯率波動。用GABP網絡得出的預測值與實際值較接近。當然這只是直觀的認知,對于各模型的實際預測效果還需根據相關評價指標予以比較。
(二)模型性能評價
由于神經網絡無法用計量經濟學中常用的擬合優度、置信度、顯著性等檢驗指標,為與MA多元回歸模型結果作比較,本文綜合采用以下幾個常用指標來評價各模型預測效果。
1. 平均絕對誤差(MAE):[MAE=1Ni=1N|volfi-voli|]
2. 均方誤差(MSE):[MSE=1Ni=1N(volfi-voli)2]
3.平均絕對百分誤差(MAPE):
[MAPE=1Ni=1N|volfi-volivoli|]
4.均方根誤差(RMSE):[RMSE=1Ni=1N(volfi-voli)2]
其中,[voli]與[volfi]分別表示匯率波動的實際值和預測值。對于各模型而言,以上4個數值越小,說明模型預測值越接近于實際值,因而模型的預測效果也就越佳。
MA模型、一般BP網絡和GABP神經網絡模型的預測結果如表3所示。
同時對最后30個月共同預測期的匯率波動預測值作圖,如圖2所示。
綜合表3和圖2我們可以發現,MA模型對于歷史數據的擬合效果要相對優于BP神經網絡模型,逐月MA模型預測結果優于全時段MA模型。就全時段MA模型而言,其對歷史數據模擬的絕對偏差均很小,而對樣本外數據的預測效果卻不佳;逐月MA模型則不但能達到很好的歷史擬合,同時其樣本外預測效果也較好,無論是絕對誤差還是均方誤差皆遠小于全時段MA預測效果。從圖2中也可以發現,逐月MA預測時序和匯率實際波動趨勢較吻合,而全時段MA則明顯低估匯率實際波動。這些都再次證明了逐月預測的優越性。
分階段比較可以發現,MA模型適合于匯率波動趨勢變化較小時期的預測,而BP神經網絡模型對匯率波動較大時期的預測更具有良好表現。2005年匯改之前,逐月MA模型無論是樣本內模擬還是樣本外預測都是三種方式中最優的,該時段匯率缺乏彈性,正好體現了MA線性模型對于穩定趨勢預測的良好性能。而隨著匯率波動程度的增強,以近30個月的預測效果而言,GABP神經網絡預測無論是在匯率波動數值還是波動趨勢方向上都有著更優良的表現。同時也可發現,2008―2009年間的預測值偏差均較大,這也從側面反映了金融危機的影響。
綜上可知,2005年匯改之前,即匯率缺乏彈性時期,逐月MA模型的歷史擬合和樣本外預測效果最優;隨著匯改的深入,匯率彈性逐步增強,GABP神經網絡模型無論是在匯率波動的數值上還是波動趨勢方向上的預測均有最優表現。同時,利用非線性神經網絡模型的預測在匯率彈性較大時期能夠有比線性MA模型更優的預測效果,即能更好地捕捉實際匯率的波動。可見,對于匯率波動的預測不但應選擇合適的變量,同時在匯率彈性的不同時期也應當選取合適的匯率波動預測模型。
四、結論
匯率是影響國際間經濟金融聯系和發展的重要變量。自2005年我國啟動人民幣匯率形成機制改革以來,匯率彈性不斷增大,波動性明顯增強。本文利用2001―2010年的月度數據,分別采用MA線性模型和基于遺傳算法改進的GABP網絡模型,對匯率波動進行了模擬預測,結果表明2005年人民幣匯改以來,匯率與經濟變量間的關聯性明顯增強,但2008年金融危機以來,受相關政策的影響,匯率改革有些停滯,匯率與經濟變量間的聯動性減弱,這說明匯率的彈性化能夠加深匯率波動及其結構變量間的均衡關系。
匯率與經濟結構變量間的模型分析結果表明,政府干預對匯率波動呈顯著負效應,而滯后一期匯率波動則對當期匯率波動有顯著正向影響,匯率彈性增大增強了人民幣升值預期,升值預期則進一步助推了股市價格波動,股市對匯率波動的影響會因匯率彈性的不同而有所差異。匯率缺乏彈性會限制貨幣市場與外匯市場間的信息傳導,桎梏我國貨幣政策的傳導效率,這也進而說明了匯率的非市場化會阻礙利率的市場化進程。因此在促成利率市場化的諸多因素中,匯率因素起著不可忽視的作用,要加快完善貨幣市場才能更大程度地發揮利率對匯率的作用機制(王愛儉等,2003),意即利率市場化改革應與匯率市場化改革協調推進,二者不可分而治之。
比較不同模型的預測效果發現,MA線性模型基于歷史數據對匯率波動趨勢的持續性預測效果較好,適合于短期預測,因此2005年匯改之前,即匯率缺乏彈性時期,逐月MA模型的歷史擬合和樣本外預測效果最優;而且逐月預測效果要遠優于全時段預測。GABP神經網絡算法可以逼近任意非線性映射,避開了復雜的參數估計過程,較為簡單直觀,而且能夠顯著提升BP網絡的預測效能。隨著匯改的逐步深入和匯率彈性的逐步增強,GABP神經網絡模型相對MA線性模型對匯率波動有更好的解釋力和預測效果??梢?,對于人民幣匯率彈性化進程中匯率波動預測模型的選擇也應根據匯率彈性不同因時而異。
參考文獻:
[1]易綱,范敏.人民幣匯率的決定因素及走勢分析[J].經濟研究,1997,(10).
[2]魏巍賢.人民幣匯率決定模型的實證分析[J].系統工程理論與實踐,2000,(3).
[3]Baillie Richard,Bollerslev Tim.1991.Intra-day and Inter-market Volatility in Foreign Exchange Rates, Review of Economic Studies, 58(3), pp.565-585.
[4] Engle R.,R.Jeffrey.1997.Forecasting the frequency of changes in quoted foreign exchange prices with the autoregressive conditional duration model, Journal of Empirical Finance,4 (3),pp.187-212.
神經網絡過擬合的表現范文4
過去10年,人們對機器學習的興趣激增。幾乎每天,你都可以在各種各樣的計算機科學課程、行業會議、華爾街日報等等看到有關機器學習的討論。在所有關于機器學習的討論中,許多人把機器學習能做的事情和他們希望機器學習做的事情混為一談。從根本上講,機器學習是使用算法從原始數據中提取信息,并在某種類型的模型中表示這些信息。我們使用這個模型來推斷還沒有建模的其他數據。
神經網絡是機器學習的一種模型,它們至少有50年歷史了。神經網絡的基本單元是節點(node),基本上是受哺乳動物大腦中的生物神經元啟發。神經元之間的連接也以生物的大腦為模型,這些連接隨著時間的推移而發展的方式是為“訓練”。
在20世紀80年代中期和90年代初期,許多重要的架構進步都是在神經網絡進行的。然而,為了得到好的結果需要大量時間和數據,這阻礙了神經網絡的采用,因而人們的興趣也減少了。在21世紀初,計算能力呈指數級增長,計算技術出現了“寒武紀大爆發”。在這個10年的爆炸式的計算增長中,深度學習成為這個領域的重要的競爭者,贏得了許多重要的機器學習競賽。直到2017年,這種興趣也還沒有冷卻下來;今天,我們看到一說機器學習,就不得不提深度學習。
作者本人也注冊了Udacity的“Deep Learning”課程,這門課很好地介紹了深度學習的動機,以及從TensorFlow的復雜和/或大規模的數據集中學習的智能系統的設計。在課程項目中,我使用并開發了用于圖像識別的卷積神經網絡,用于自然語言處理的嵌入式神經網絡,以及使用循環神經網絡/長短期記憶的字符級文本生成。
本文中,作者總結了10個強大的深度學習方法,這是AI工程師可以應用于他們的機器學習問題的。首先,下面這張圖直觀地說明了人工智能、機器學習和深度學習三者之間的關系。
人工智能的領域很廣泛,深度學習是機器學習領域的一個子集,機器學習又是人工智能的一個子領域。將深度學習網絡與“經典的”前饋式多層網絡區分開來的因素如下:
比以前的網絡有更多的神經元更復雜的連接層的方法用于訓練網絡的計算機能力的“寒武紀大爆炸”自動特征提取
這里說的“更多的神經元”時,是指神經元的數量在逐年增加,以表達更復雜的模型。層(layers)也從多層網絡中的每一層都完全連接,到在卷積神經網絡中層之間連接局部的神經元,再到在循環神經網絡中與同一神經元的循環連接(recurrent connections)。
深度學習可以被定義為具有大量參數和層的神經網絡,包括以下四種基本網絡結構:
無監督預訓練網絡卷積神經網絡循環神經網絡遞歸神經網絡
在本文中,主要介紹后三種架構?;旧?,卷積神經網絡(CNN)是一個標準的神經網絡,通過共享的權重在空間中擴展。CNN設計用于通過內部的卷積來識別圖像,它可以看到圖像中待識別的物體的邊緣。循環神經網絡(RNN)被設計用于識別序列,例如語音信號或文本。它的內部有循環,這意味著網絡上有短的記憶。遞歸神經網絡更像是一個層級網絡,在這個網絡中,輸入必須以一種樹的方式進行分層處理。下面的10種方法可以應用于所有這些架構。
1.反向傳播
反向傳播(Back-prop)是一種計算函數偏導數(或梯度)的方法,具有函數構成的形式(就像神經網絡中)。當使用基于梯度的方法(梯度下降只是方法之一)解決優化問題時,你需要在每次迭代中計算函數梯度。
對于神經網絡,目標函數具有組合的形式。如何計算梯度呢?有兩種常用的方法:(i)解析微分(Analytic differentiation)。你已經知道函數的形式,只需要用鏈式法則(基本微積分)來計算導數。(ii)利用有限差分進行近似微分。這種方法在計算上很昂貴,因為函數值的數量是O(N),N指代參數的數量。不過,有限差分通常用于在調試時驗證back-prop實現。
2.隨機梯度下降法
一種直觀理解梯度下降的方法是想象一條河流從山頂流下的路徑。梯度下降的目標正是河流努力達到的目標——即,到達最底端(山腳)。
現在,如果山的地形是這樣的,在到達最終目的地之前,河流不會完全停下來(這是山腳的最低點,那么這就是我們想要的理想情況。)在機器學習中,相當從初始點(山頂)開始,我們找到了解決方案的全局最小(或最佳)解。然而,可能因為地形的性質迫使河流的路徑出現幾個坑,這可能迫使河流陷入困境。在機器學習術語中,這些坑被稱為局部極小值,這是不可取的。有很多方法可以解決這個問題。
因此,梯度下降很容易被困在局部極小值,這取決于地形的性質(用ML的術語來說是函數的性質)。但是,當你有一種特殊的地形時(形狀像一個碗,用ML的術語來說,叫做凸函數),算法總是保證能找到最優解。凸函數對ML的優化來說總是好事,取決于函數的初始值,你可能會以不同的路徑結束。同樣地,取決于河流的速度(即,梯度下降算法的學習速率或步長),你可能以不同的方式到達最終目的地。這兩個標準都會影響到你是否陷入坑里(局部極小值)。
3.學習率衰減
根據隨機梯度下降的優化過程調整學習率(learning rate)可以提高性能并減少訓練時間。有時這被稱為學習率退火(learning rate annealing)或自適應學習率(adaptive learning rates)。訓練過程中最簡單,也是最常用的學習率適應是隨著時間的推移而降低學習度。在訓練過程開始時使用較大學習率具有進行大的改變的好處,然后降低學習率,使得后續對權重的訓練更新更小。這具有早期快速學習好權重,后面進行微調的效果。
兩種常用且易于使用的學習率衰減方法如下:
逐步降低學習率。在特定的時間點較大地降低學習率。
4?. Dropout
具有大量參數的深度神經網絡是非常強大的機器學習系統。然而,過擬合在這樣的網絡中是一個嚴重的問題。大型網絡的使用也很緩慢,這使得在測試時將許多不同的大型神經網絡的預測結合起來變得困難。Dropout是解決這個問題的一種方法。
Dropout的關鍵想法是在訓練過程中隨機地從神經網絡中把一些units(以及它們的連接)從神經網絡中刪除。這樣可以防止單元過度適應。在訓練過程中,從一個指數級的不同的“稀疏”網絡中刪除一些樣本。在測試時,通過簡單地使用一個具有較小權重的單一網絡,可以很容易地估計所有這些“變瘦”了的網絡的平均預測效果。這顯著減少了過擬合,相比其他正則化方法有了很大改進。研究表明,在視覺、語音識別、文檔分類和計算生物學等監督學習任務中,神經網絡的表現有所提高,在許多基準數據集上獲得了state-of-the-art的結果。
5. Max Pooling
最大池化(Max pooling)是一個基于樣本的離散化過程。目標是對輸入表示(圖像,隱藏層輸出矩陣等)進行下采樣,降低其維度,并允許對包含在分區域中的特征進行假設。
這在一定程度上是為了通過提供一種抽象的表示形式來幫助過擬合。同時,它通過減少學習的參數數量,并為內部表示提供基本的平移不變性(translation invariance),從而減少計算成本。最大池化是通過將一個最大過濾器應用于通常不重疊的初始表示的子區域來完成的。
6.批量歸一化
當然,包括深度網絡在內的神經網絡需要仔細調整權重初始化和學習參數。而批量標準化有助于實現這一點。
權重問題:無論權重的初始化如何,是隨機的也好是經驗性的選擇也罷,都距離學習到的權重很遙遠。考慮一個小批量(mini batch),在最初時,在所需的特征激活方面將會有許多異常值。
深度神經網絡本身是有缺陷的,初始層中一個微小的擾動,就會導致后面層巨大的變化。在反向傳播過程中,這些現象會導致對梯度的分散,這意味著在學習權重以產生所需輸出之前,梯度必須補償異常值,而這將導致需要額外的時間才能收斂。
批量歸一化將梯度從分散規范化到正常值,并在小批量范圍內向共同目標(通過歸一化)流動。
學習率問題:一般來說,學習率保持較低,只有一小部分的梯度校正權重,原因是異常激活的梯度不應影響學習的激活。通過批量歸一化,減少異常激活,因此可以使用更高的學習率來加速學習過程。
7.長短時記憶
LSTM網絡在以下三個方面與RNN的神經元不同:
能夠決定何時讓輸入進入神經元;能夠決定何時記住上一個時間步中計算的內容;能夠決定何時讓輸出傳遞到下一個時間步長。
LSTM的優點在于它根據當前的輸入本身來決定所有這些。所以,你看下面的圖表:
當前時間標記處的輸入信號x(t)決定所有上述3點。輸入門從點1接收決策,遺忘門從點2接收決策,輸出門在點3接收決策,單獨的輸入能夠完成所有這三個決定。這受到我們的大腦如何工作的啟發,并且可以基于輸入來處理突然的上下文/場景切換。
8. Skip-gram
詞嵌入模型的目標是為每個詞匯項學習一個高維密集表示,其中嵌入向量之間的相似性顯示了相應詞之間的語義或句法相似性。Skip-gram是學習單詞嵌入算法的模型。
Skip-gram模型(以及許多其他的詞語嵌入模型)的主要思想是:如果兩個詞匯項(vocabulary term)共享的上下文相似,那么這兩個詞匯項就相似。
換句話說,假設你有一個句子,比如“貓是哺乳動物”。如果你用“狗”去替換“貓”,這個句子仍然是一個有意義的句子。因此在這個例子中,“狗”和“貓”可以共享相同的上下文(即“是哺乳動物”)。
基于上述假設,你可以考慮一個上下文窗口(context window,一個包含k個連續項的窗口),然后你跳過其中一個單詞,試著去學習一個能夠得到除跳過項外所有項的神經網絡,并預測跳過的項是什么。如果兩個詞在一個大語料庫中反復共享相似的語境,則這些詞的嵌入向量將具有相近的向量。
9.連續詞袋(Continuous Bag Of Words)
在自然語言處理問題中,我們希望學習將文檔中的每個單詞表示為一個數字向量,使得出現在相似的上下文中的單詞具有彼此接近的向量。在連續的單詞模型中,我們的目標是能夠使用圍繞特定單詞的上下文并預測特定單詞。
我們通過在一個龐大的語料庫中抽取大量的句子來做到這一點,每當我們看到一個單詞時,我們就會提取它周圍的單詞。然后,我們將上下文單詞輸入到一個神經網絡,并預測位于這個上下文中心的單詞。
當我們有成千上萬的這樣的上下文單詞和中心詞以后,我們就有了一個神經網絡數據集的實例。訓練神經網絡,最后編碼的隱藏層輸出表示特定單詞的嵌入。而當我們對大量的句子進行訓練時也能發現,類似語境中的單詞得到的是相似的向量。
10.遷移學習
神經網絡過擬合的表現范文5
(一)樣本的選擇
本文選取房地產上市公司作為樣本以保證研究的真實性。鑒于我國上市公司鮮有破產的情況發生,本文采用證監會的界定原則,將ST或者*ST(specialtreatment)公司定義為處于財務危機狀態的公司,將非ST公司界定為財務狀況正常的公司。
1.財務危機狀態樣本的界定
樣本來自于2005—2013年首次被ST或者*ST的34家房地產上市公司。選取的樣本研究期是上市公司被特殊處理時首次發生虧損的前一年(T-3年)。房地產企業投資回收期較長,虧損時有發生,在這一年以后接連發生虧損以至被特殊處理,因此這一年是上市公司發生財務危機的重要轉折點。
2.財務正常狀態樣本的選取原則
本研究針對的是房地產上市公司,界定未被特殊處理的房地產上市公司為財務狀況正常的樣本。為了排除政策等其他因素對研究的影響,選取的正常樣本研究期應與發生財務危機的公司相同,據此本文最終選取了2005—2013年間34家房地產上市公司為財務狀況正常的樣本。
(二)預警指標的選擇
由于財務危機的發生難以用幾個簡單的指標來描述,同時又缺乏相關經濟理論的指導,造成了指標選擇較為困難,本文采用試錯法對指標進行篩選?;谌嫘院涂闪炕脑瓌t,結合我國房地產行業的特征,從企業的短期償債能力、現金流量能力、長期償債能力、營運能力、盈利能力、股東獲利能力、風險水平和發展能力8個方面。過多的指標存在著大量無用的信息,不僅會導致分析困難,而且會降低預測的準確性。因此在進行分析之前,必須對備選指標進行篩選,剔除對財務危機表現不顯著的指標。
二、模型構建與分析
(一)財務數據的預處理
在采集到的數據中,部分財務指標缺乏,需要對這部分缺失的數據作一個預處理,保持數據的完整性,才能進行下一步的分析。對數據的預處理主要包括兩種情況:一是對于報表中未披露的數據。用該企業近期的數據作大致估計,盡量能代表公司的實際情況。二是對于不存在的指標數據。比率型指標當分母為零時,該指標不存在,為了保持數據的連續性,當期指標數據以其前后兩期的均值來代替。
(二)顯著性檢驗為了使分析更具有針對性
需要對上述備選指標進行顯著性檢驗,選出有差異的指標。對于分布不同的指標,采用不同的方法進行顯著性檢驗。
1.服從正態分布指標的顯著性
檢驗利用SPSS軟件對上述備選指標進行正態分布檢驗。檢驗結果顯示營運資金對資產總額比率、負債與權益市價比率、流動資金比率、營業成本率、賬面市值比5個指標呈正態分布,其余指標不符合正態分布。變量呈正態分布,對兩類樣本的相關指標進行T檢驗,根據檢驗的結果判斷兩類樣本的預警指標是否具有顯著性差異。本次T檢驗顯著性水平取值為0.05,在此顯著性水平下,營運資金對總資產比率和營業成本率通過顯著性檢驗,即這兩個指標在兩類樣本中存在顯著差異。
2.不服從正態分布指標的顯著性
檢驗其余57個指標不服從正態分布,不能直接使用參數檢驗。非參數檢驗適用范圍廣,對數據要求也不嚴,但是容易造成信息的損失,檢驗效能低。為了保證信息的準確性,先將數據進行轉化,利用轉化后的數據進行參數檢驗。轉化后的數據參數檢驗結果表明,流動比率、營運資金比率、長期資產適合率等25個指標通過了顯著性水平為0.05的參數檢驗,在兩組樣本中差異顯著。
3.顯著性檢驗結果綜合以上兩種顯著性檢驗結果。
(三)因子分析較多的指標會導致模型過度擬合
使得預測準確度降低。對上述27個指標進行因子分析,進一步減少指標的數量。對剩下的指標進行KMO測度和Bartlett球形檢驗。由上述檢驗結果可知KMO測度值為0.557,球形檢驗P值為0小于0.05,適合作因子分析。采用正交旋轉法進行轉換。結果顯示,特征值大于1的主成分有10個,累計貢獻率達84%,由正交旋轉成分矩陣可得:因子一主要代表盈利能力,因子二、因子八、因子十主要代表股東獲利能力,因子三和因子七主要代表長期償債能力,因子四和因子六主要代表短期償債能力,因子五主要代表營運能力,因子九主要代表風險水平。
(四)模型構建、預測結果及檢驗
1.BP神經網絡模型的構建、預測結果及檢驗
BP神經網絡模型主要由一個輸入層、一個輸出層、一個或多個隱含層構成,每層節點的權值通過BP神經網絡自我學習來調整,關于隱含層節點數的確定尚無相關理論,目前主要通過試錯法來確定。本次建模采用隱含層為一層的BP神經網絡結構,隱含層節點數由試錯法確定為4,從而得出BP神經網絡結構為10-4-1。從每類樣本中隨機抽取20個作為建模組,剩余28個樣本作為驗證組,檢驗模型的預測效果。將建模組40個樣本的10個因子作為BP神經網絡模型的輸入層作自我學習。模型自我學習完成之后,將剩余的28個測試樣本輸入經學習樣本調適完成后的BP神經網絡模型,得到的預測結果與實際結果比較。通過上述對比分析可知,BP人工神經網絡模型預測上市公司的財務狀況準確率為85.7%,具有較高的準確率。模型對于驗證組中兩類公司的預測準確率相同。
2.Logistic模型構建、預測結果及檢驗
將因子分析得到的10個因子用于Logistic回歸分析,令Y=0表示公司處于財務危機狀態,Y=1表示公司處于正常狀態,運行SPSS軟件,得到Logistic模型對40個建模樣本的判定分類。模型總體判定正確率為87.5%,其中對正常狀態公司的判定準確率高達90%,由此判定模型的擬合度較好。Logistic模型的相關參數。模型參數中各參數的Sig值均大于0.05,對結果的影響均不顯著,建立的模型理論意義不大。求證其在實際預警中是否具有實用意義,將驗證組的24個樣本帶入模型得到的結果。對于驗證組的判定中雖然模型的理論意義不大,但在預測房地產上市公司是否處于財務危機狀態仍然有一定的實用意義,預測準確率達到了67.86%,相較于神經網絡模型準確率較低,但是比神經網絡模型更加容易理解,便于操作。
3.模型結果說明
上述兩種模型分別對驗證組進行了預測,對于一個房地產公司,兩種模型可能會給予不同的判定,因此對比了兩種模型對于驗證組的預測結果。驗證組中,有9家公司的BP神經網絡模型和Logistic模型給出了互相矛盾的判斷,導致無法準確判定這9家房地產上市公司的財務狀況。然而,當BP神經網絡模型和Logistic模型對同一房地產上市公司財務狀況的預測結果一致時,在驗證組中取得了89.47%的預測準確率,有效提高了預測結果的準確性。
三、結論
通過上文對房地產上市公司財務預警指標體系的構建及實證研究后發現:
1.企業財務指標選取越多,包含的財務信息也就越全面,降維處理時得出的因子會較多,幾個因子才能代表公司某一方面的能力。
2.對公司T-3年的財務狀況進行分析,兩類公司現金流量能力方面的指標沒有顯著性區別,從現金流指標無法判斷公司未來是否會處于財務危機狀況。
3.Logistic模型的參數對預測結果的影響都不顯著,證實財務危機是由多種因素共同作用所造成的,難以使用一種或幾種指標來表明房地產上市公司發生了財務危機。
神經網絡過擬合的表現范文6
關鍵詞:品牌競爭力;BP神經網絡;評估指標
一、前言
競爭是市場經濟的本質,企業作為市場經濟的主體也處在各種競爭中。當市場經歷單一的產品競爭、質量競爭、價格競爭、廣告競爭等等之后,以品牌為核心的競爭模式將會成為引領市場的主要形式。企業如果成功塑造了市場領導者品牌,就會形成持續有效的、創造無限價值的競爭力。
品牌競爭力是企業在市場決戰中最重要的能力,用通俗的話說,如果你的產品比其他牌子的同類產品賣得好、賣得快、賣得貴、賣得久,就說明你的品牌競爭力強;反之,就說明你的品牌競爭力弱。因此,評估企業自身品牌的競爭實力成為擺在企業前的一個迫切議題。國內外的一些學者已從不同角度提出科學定量評估品牌競爭力的許多方法:市場表現評估法主要從品牌競爭力的表象方面進行評估;品牌綜合管理能力指標評估法、品牌競爭力基礎工作評估法都只單方面考慮從企業因素來衡量競爭力的強弱,未考慮品牌的顧客因素;與之相對應的基于顧客價值的品牌競爭力評估則沒有考慮品牌對企業的價值體現。因此,本文基于品牌的顧客價值和企業價值的雙重角度,從四個維度建立品牌競爭力評估的指標體系,并運用BP神經網絡模型預測目標品牌的競爭力。
二、品牌競爭力的評估指標體系
由于前述評估方法的片面性,其指標體系必然體現著不完善性。品牌競爭力的評估體系應綜合體現品牌的顧客價值和品牌所反映企業的各方面能力的綜合,基于顧客價值我們建立準則層——顧客的忠誠度,基于企業的品牌競爭力我們建立三個準則層——品牌市場能力、品牌管理能力和品牌基礎能力。對于各個子準則層體現的具體因素內容如表1所示。
三、基于BP神經網絡的品牌競爭力評估模型
近年來,眾多學者量化評估品牌競爭力的方法主要有層次分析法、線性回歸分析法、第二代回歸分析方法、模糊綜合評判法等。神經網絡的出現給多指標的系統評價提供了新思路,特別是BP神經網絡強大的自學自適應能力,在很多行業得到不同程度的成功應用,非常適用于對矛盾復雜的、近似的、不確定的知識環境做決策,能成功解決相關因素人為權重設計的主觀性及相關系數的復雜計算。
(一)BP人工神經網絡基本原理
BP網絡是一種反向傳遞并能修正誤差的多層反饋型網絡,其結構一般由輸入層、輸出層和隱含層構成,層與層之間的神經元通過相應的網絡權系數完全互連;同層內的神經元則無關聯。神經網絡在外界輸入樣本的刺激下不斷改變網絡的連接權值,將網絡輸出值和期望輸出值的誤差由輸出層、隱含層、輸入層的反向傳遞,以使網絡的輸出不斷地接近實際的輸出。
(二)基于BP神經網絡的品牌競爭力評估模型
1.人工神經網絡模型結構的確定。根據自變量一般為BP神經網絡模型的輸入層,因變量一般為輸出層的原則,品牌競爭力的BP神經網絡模型中,指標體系中目標層品牌競爭力的大小為輸出層,設強、中、弱三個判定層次;子準則層作為品牌競爭力的影響因子,其14個指標為輸入層,分別為X(C1)-X(C14)。
為達到BP神經網絡容量大小和網絡訓練時間的良好效果,本模型中訓練層的節點數取29個為最佳(隱含層的節點數=2倍輸入節點數+1)。
2.樣本選擇與組織。在樣本的選擇中,應選擇有顯著代表性且分布均勻的、足夠數量的樣本。為評估目標品牌競爭力大小,可先選取一些本企業已開發的品牌或可獲取的其他品牌產品的實際經營數據作為訓練、測試樣本。
3.輸入層的確定。在表1提出的14個指標中,由于不同指標是從不同的角度反映品牌競爭力,指標之間又由于量綱不同,所以無法進行比較。因此,從最終評價值的確定和神經網絡訓練的收斂性考慮,需要對指標先進行無量綱化處理。
(1)定性指標:這些指標的評價值采用專家打分法進行評價,取值為0.0-1.0之間。
(2)定量指標:定量指標又分為正向指標,逆向指標和適度指標。
正向指標一般采用下面的線性遞增函數進行描述:
yi=0 x(c)≤x(c) x(c)≤x(c)≤x(c)1
x(c)≥x(c)
逆向指標一般采用下面的無量綱化標準函數:
yi=0 x(c)≤x(c) x(c)≤x(c)≤x(c)1
x(c)≥x(c)
適度指標一般采用下面的函數進行無量綱化處理:
yi=
其中,q為該指標的最適合值。
4.訓練函數的選擇。由于輸入層變量和輸出層變量不成線性關系,所以隱含層一般選擇Sigmoid函數為激勵函數,即f(x)=,實現輸入層和輸出層的非線性映射。
5.BP神經網絡的訓練和終止。在該模型中,我們引入動量批梯度下降函數,即一種批處理的前饋神經網絡訓練方法,不但提高了收斂速度,而且引入了一個動量項,有效避免了局部最小問題在網絡訓練中的出現。我們先將85%-90%的訓練樣本的指標值輸入網絡,按照公式一層一層的計算隱含層神經元和輸出層神經元的輸入和輸出,當神經網絡的輸出值和實際輸出值的均方誤差超過某一閾值,則將誤差函數沿輸出層、隱含層、輸入層反向傳遞,調整神經網絡各個神經元的閾值和各層連接權值,使誤差函數不斷減小。在訓練網絡的過程中,訓練一定次數后就停下來,用保留的15%-10%的測試樣本檢驗此時網絡的測試誤差,當測試誤差下降到目標誤差精度以下時,則停止訓練,此時則為最佳訓練次數,模型輸出值和實際輸出值實現最優擬合。
6.目標品牌競爭力大小的評估。將要預測的品牌的指標值輸入訓練好的BP神經網絡,該模型就能相對客觀地對該品牌的競爭力進行評估,輸出層的輸出值就是該品牌競爭力的判定值,通過判定值可知品牌競爭力的強弱(整個流程見圖1)。
四、結束語
品牌的研究在中國還將走得更遠,本文在現有研究的基礎上提出將品牌競爭力的量化評估與人工智能進行簡單結合,克服評估工作過程中人為因素的主觀性及相關權數計算的復雜性,提高品牌競爭力評估的可信性與客觀性,使評價結果更客觀反映企業品牌建設的真實狀況,為企業診斷品牌經營問題,打造核心競爭力經營決策提供更可靠的信息支持。
參考文獻:
1.蔣亞奇,張亞萍.基于層次分析法的企業品牌競爭力評價與測度研究[J].經濟研究導刊,2011(8).
2.王文川等.品牌競爭力模糊灰色綜合評價方法研究[J].統計與決策,2010(6).
3.周玫.基于顧客忠誠的品牌競爭力評價分析[J].當代財經,2005(9).
4.范秀成.品牌權益及其測評體系分析[J].南開管理評論,2000(1).
5.李煜華等.基于BP神經網絡的老工業基地企業核心競爭力的綜合評價[J].商業研究,2006(5).
6.許曉泓.品牌競爭力開放度評估方法的建構[J].綠色財會,2006(8).
7.陳寶忠.我國企業品牌競爭力研究[D].南昌大學,2005(6).
8.盧泰宏.品牌資產評估的模型與方法[J].中山大學學報(社會科學版),2002(3).
9.張啟勝等.品牌競爭力的評價指標體系、模型及應用[J].企業家天地?理論版,2006(4).