前言:中文期刊網精心挑選了數學建模博弈論范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
數學建模博弈論范文1
【關鍵詞】博弈論;認知無線電技術;頻譜分配
前言
認知無線電系統具有智能性,可對周圍環境做出感知,并從中獲取信息,獲取時利用“理解-構建”法,同時,傳輸參數能夠實時改變,與運行環境相適應,促進頻譜利用效率的提升。在認知無線電系統,策略選擇問題存在于多種關鍵技術中,而博弈論可為最優策略的選擇提供指導,因此,利用認知無線電技術分配頻譜資源時,可充分的借助博弈論的作用,提升分配的科學性。
1博弈論概述
決策主體包含多種行為,行為間直接相互作用時,會產生相應的決策,研究該決策及其均衡問題的理論即為博弈論[1]。換言之,一個主體與其他主體間的選擇會相互影響,此時的決策問題與均衡問題就是博弈論研究的重點。由此看來,博弈論也可稱作“對策論”?,F實生活中,比較常見沖突、競爭及合作現象,對于厲害沖突問題,博弈論會采用嚴謹的數學模型解決,因此,該理論可應用于多個領域中。
2頻譜分配算法設計
2.1算法目標分析
認知無線電中,實際需要為分配頻譜時的依據,實際需求不同時,分配目標也會存在一定差異。在博弈論基礎上,認知無線電分配頻譜時,目標應為最小化系統總干擾水平,即最小化各節點用戶受到的干擾。
2.2效用函數的選擇
算法目標確定后,采取何種效用函數描述干擾情況為接下來的工作。眾所周知,通過效用函數,可將用戶對于某個特定信道的性能反映出來。效用函數選擇時,并不具備唯一性,但對于某個特定應用,最終選擇的效應函數必須具備物理意義、數學性質[2]。通常,以自私用戶情況作為考慮情況,在某個特定信道上,對其他用戶的干擾級別作出感知,之后以此為依據,完成信道評估工作。自適應算法中,最小量信息是效用函數U1需要的,也就是以不同信道為基礎,測量出某個特定用戶的干擾。不過,效應函數U1對于自身選擇影響其他用戶的情況并未考慮,而干擾在用戶間互相存在,因此,算法目標并無法實現。本文中改進了效用函數U1,在某個特定信道中,同時考慮用戶受到的干擾以及用戶產生的干擾,改進后的效用函數U2表述如下:j≠i,j=1效用函數U2組成部分包含兩個:一個為其他用戶對用戶產生的干擾Id,另一個為用戶自身產生的干擾Io,將這兩個部分的表達式帶入效用函數U2表達式后,形成新的表達式:U2i(si,si-1)=-Idi-Ioi,坌i=1,2,…,N測量值Id、Io時,前者通過接收端,后者通過發射端。
2.3算法提出背景與假設
假設:頻分復用技術為認知無線電系統所采用的,如正交頻分復用(OFDM),分配頻率就是分配通信信道;小區中能夠傳輸數據的頻率信道有K個,且有N對認知無線電用戶,N>K;算法中傳送信令包時,采用一個公共控制信道,與此同時,各階段發射端、接收端的傳遞與接收信息均在此信道中進行,主用戶頻率不會干擾信道;算法中節點為固定后,或緩慢的移動,慢于收斂速度;對于小區中的各個節點,每個節點都知道其他所在的位置,而且增益矩陣GN×N保存一個,鏈路增益記錄在其中,計算鏈路增益時,以小區中節點設置位置為依據;在一個信道狀態表(CST)中保存各節點的發射端、接收端,其他通信節點占用數據信道的情況記錄其中[3]。
2.4算法初始化
在認知無線電小區中,為保證各個用戶均能將自身效用函數U2值計算出來,必須要初始化信道分配,通常隨機設置初始狀態。因在增益矩陣、CST中保存小區用戶的發射端與接收端,可在初始化假設中獲得數值。小區中,用戶并不具備相等的發射功率,于初始化階段設置其值,執行算法期間,該值并不改變[4]。此外,在一個算法周期中,公共控制信道上傳送信令包問題會涉及到,若此公共控制頻道被兩個用戶同時使用,沖突會產生,因此,策略更改能進行一次,并只有能一個用戶完成,那么,下一算法周期執行時,選擇具體用戶的決定利用貝努利試驗。
2.5算法使用的信令協議
設計信令協議時,以3次握手機制為基礎。RTS-CTS包交換協議為IEEE820.11協議中的一種,而本文設計的協議與其相似,規定的信令數據包主要包含5種,具體見表1。2.6算法步驟基于信令協議,通過公共控制信道,小區用戶能夠傳送控制信息,有利于利用效用函數,完成數據信道準確、高效的選擇。本文所設計的算法具體步驟見圖1,由圖1可知,公共控制信道在這個算法實現過程中發揮重要作用,而算法設計的關鍵為信令協議。
3算法的仿真實現
3.1建模
算法仿真時,平臺搭建利用OPNET網絡仿真工具實現。OPNET網絡仿真工具中,采用的仿真概念為離散事件驅動,一段程序執行由事件觸發,執行過程中保證不改變系統時鐘[5]。OPNET模擬現實系統時,以三層建模機制為基礎,通過進程域、節點域及網絡域完成建模,三個建模域之間的關系見圖2認知無線電小區結構中,以300m為半徑,其中,發射-接收對共40個,存在5個可用的數據信道;主用戶小區半徑為200m,信道4與信道5為其工作頻率,產生的干擾會影響9對用戶。小區內用戶進行控制信息的傳遞時,均采用同一個公共控制信道,且主用戶并不會影響該信道。小區所有用戶初始信道分配狀態采取隨機方式設置,在相同初始狀態上進行仿真,獲得仿真結果。仿真算法過程中,初始信道隨機分配后,并未均勻的專用系統中的信道,10個用戶占用1信道、18個用戶占用2信道、9個用戶占用3信道、3個用戶占用4信道、10個用戶占用5信道。隨機選取小區內各用戶發射端的發射功率,結果顯示,數值在2~5MW之間,仿真過程中,取值保持不變。之后運行建立的仿真平臺,實現算法。
3.2算法實現
仿真平臺利用OPNET網絡仿真工具建立后,每對節點用戶的過程模型上體現了主要算法功能的實現,單個認知無線電小區用戶節點狀態轉換圖見圖3。算法初始狀態為Init狀態、算法處于用戶發射端為Transmitter狀態、算法處于用戶接收端為Receiver狀態、發射端與接收端的CST更新時采用Update狀態、算法步驟第一步完成時為Decision狀態、父進程與子進程交換信息時為CollectProHandle狀態、執行算法期間的空間狀態則為Idle狀態。
3.3仿真結果與性能分析
執行算法期間,較多的改變了用戶數據信道選用策略,算法執行的健壯性比較強,即使少數沖突發生,收斂趨勢并未改變,算法周期執行250個也就是5s后,不再改變信道選擇策略,納什均衡狀況達到,一致于博弈論;仿真5s后,潛在函數曲線趨于穩定,并最大限度的保持,適應于用戶選擇策略的改變狀態,與博弈論數學特征相符合;仿真結束后,更多的用戶SIR處于5~10dB之間,明顯改善SIR水平。仿真結果充分表明,在較短時間內,本文所設計的算法即可收斂到納什均衡狀態,隨著算法的收斂,逐步的提升潛在函數值,達到最大后基本不再改變,明顯改善SIR水平,相同于博弈論的推導結果。
4結論
在博弈論的基礎上,本文設計了認知無線電系統的頻譜分配算法,經仿真結果可知,該算法能夠將用戶干擾水平最小化,并提升頻譜資源的利用效率,但本文的研究還存在一定的局限性,仍需繼續深入的研究。
參考文獻
[1]崔軍峰,劉恩亞.淺談博弈論在認知無線電中的應用[J].中國無線電,2016(07):37~39+41.
[2]劉志強,余莉,韓方劍,等.應急通信系統中基于認知無線電的動態頻譜分配技術方案[J].數字技術與應用,2016(02):50~52.
[3]倪秋芬.基于博弈論的認知無線電網絡頻譜分配研究[J].計算機與數字工程,2016(01):95~99.
[4]廉政,韓韌,張紅.認知無線電頻譜分配技術探秘[J].上海信息化,2015(08):59~62.
數學建模博弈論范文2
作者:,上海財經大學公共經濟與管理學院助理教授、碩士生導師 上海 200433
[摘 要]本文對當代西方主流的政治學與公共管理學研究中常用到的“規范研究”的方法進行了簡明的介紹。文章從規范研究的基本假設談起,指出在最基本分析單位應當有內在一致性和應當是理性的假設條件下,規范研究大致可從效用理論和博弈論兩個方向來進行,而究竟選取哪一個方向則取決于研究者關注的是單一主體在決策時的不同選擇還是多個主體在尋求均衡路徑中的互動。文章還探討了規范研究的隱含假設,并勾勒了一個典型的規范研究的操作框架。文章最后探討了對于規范研究不同模型的評價原則,及如何構造一個規范研究的模型。
[關鍵詞]規范研究;模型;效用理論;博弈論
[中圖分類號]D035 [文獻標識碼]A [文章編號]1006-0863(2014)02-0074-05
一、引言
在政治學與公共管理學的研究中,除了我們所熟知的量化研究和質性研究的方法之外,當代西方主流的學術期刊上還時常用到一種被稱為規范研究 (formal theory) 的方法,規范研究在我國臺灣學術界又被稱為形式理論。[1] 規范研究或形式理論(以下皆稱為規范研究)最大的特色就是用數理的模型來分析主體的行為。需要注意的是,本文關注的“規范研究”應當與另一個常用的“規范性理論”(normative theory)的概念區分開?!耙幏缎岳碚摗庇幸粋€對于世界應該如何的價值判斷,在公共行政學中,規范性理論與實證研究是兩條研究路徑, 相對于以經驗為基礎,運用自然科學方法的實證研究,規范性理論是一種以價值問題為核心關注點、以解讀和詮釋文本為主要表現形式、通過嚴謹的邏輯構造來回答某個學科的基本問題乃至人生與世界的“大問題”的研究路徑。[2]而“規范研究”則通常從不言自明的公理出發,按照嚴格的數理邏輯和設定規則推演出世界應該如何。這些推演和對于應然狀態的判斷再反過來用實證的方法進行研究。
雖然很多所謂的規范性理論的文章事實上是不嚴謹的學術研究,但這不影響規范性理論的文章在我國目前的公共行政學的文獻中占據主流地位這一事實。[3][4]如本文將要介紹的“規范研究”在不少關于行政學研究方法的討論中還不被單獨列為一個類型。[5][6]然而有一些學者已經開始用符合“規范研究”要求的方式寫作。如楊立華構建了一個知識困境的博弈模型來理解如何通過提高個體對博弈對方知識的尊重和認同,同時加強相互之間的知識交流和溝通,來走出由于知識困境而導致的知識成員之間的矛盾、沖突和對立。[7] 郭慶松討論了如何通過分析勞動關系的博弈規則來確定勞動關系的博弈均衡,從而促進勞動關系利益主體效用函數的實現或預期收益的最大化。[8]
用數理模型來分析的好處顯而易見。數學作為符號邏輯,理論上講日常語言可以表達的一切都能轉化成數學這種符號邏輯。而數學相對日常語言來說,其結構性、工具性、操作性更強,有利于對復雜現象的溝通,及對事物的控制。就易于溝通而言,比如,一個普通的中國人可能并不懂瑞典語,但如果有基本的數理訓練的話,他可以很方便的理解瑞典人寫的規范研究的模型。
最早的規范研究的著作見諸于經濟學的文獻中,如古諾(Cournot)[9] ,伯川德(Bertrand)[10] ,和埃奇沃思(Edgeworth)[11] 關于壟斷定價和生產的論文。約翰?馮?諾伊曼(John von Neumann)和奧斯卡?摩根斯坦(Oskar Morgenstern)1944年在《博弈論和經濟行為》一書中提出大部分經濟問題都應當被當作是博弈來分析[12]。 而在政治學與公共管理學界,四本巨著可以被認為是規范研究的應用的奠基之作。它們是,安東尼?唐斯(Anthony Downs)的《民主的經濟學理論》 [13],鄧肯?布拉克(Duncan Black)的《委員會與選舉理論》 [14],威廉?賴克(William H. Riker)的《政治聯盟的理論》 [15] 及詹姆斯?布坎南(James Buchanan)與戈登?圖洛克(Gordon Tullock)的《同意的計算――立憲民主的邏輯基礎》 。[16] 大批后來的學者繼續用規范研究的方法發展自己在各個方面的理論,如關于經濟和政治的發展有曼瑟爾?奧爾森(Mancur Olson)的《國家的崛起與衰落》[17],關于官僚體系有威廉?尼斯卡寧(William Niskanen)的《官僚制與代議制政府》[18], 關于利益集團有奧爾森的《集體行動的邏輯》[19], 關于民主理論有賴克的《自由主義與民粹主義》[20], 關于合作行為的演變有羅伯特?阿克塞爾羅德(Robert Axelrod)的《自由主義與民粹主義》[21] 等。
二、規范研究的基本假設
我們知道,統計分析的核心是歸納,也就是說,從繁多的資料中整理出相關變量間系統的聯系。而規范研究的核心是演繹,即從設定的模型出發,推演出主體在模型的約束條件下根據一定規則如何達到自己的目的。具體的規范研究有各自不同的模型,但所有的模型基本都遵循幾個假設。其一,模型的最基本分析單位應當有內在一致性;其二,基本分析單位的行為應當是理性的。
是否具有內在一致性,主要指標是分析單位有沒有自己的行為目標。同一個分析單位在同一個時段內,行為目標應當是確定的。假如在研究的時段內,這一個分析主體的目標是游離的,那么,這個主體就不應被作為規范模型的最基本單位。一個有內在一致性的分析單位(或主體)可以是一個人,或一個群體,或一個國家,甚至一個國家聯盟。但這些單位未必任何時候都有內在一致性。比如,如果一個人既有利己性,又有利他性,那么我們必須嚴格設定我們的規范模型到底是在描述利己時,還是利他時的個人。這樣,我們才能得到前后一致的模型。
如果分析主體為了達成既定目標而采取最優的方式,我們就認為這個分析主體是理性的。注意這里的理性有可能與我們通常理解的“理性”有一些出入。比如,二戰末期日本軍隊采用了神風敢死隊的方式與對手作戰,我們通常會認為這是瘋狂和“不理性”的作戰方式,但如果我們把它理解為分析主體(神風敢死隊隊員)為達成既定目標(最快和最大限度的打擊對手),那么在當時的限定條件下,同歸于盡也許是他們能采取的最優選擇。
三、規范研究的分類
常見的規范研究大致可分為兩大類,一種是效用理論(utility theory),另一種是博弈論(game theory)。效用理論同時也是博弈論的基礎,它用數學理論來表達決策過程。[22]對于一個理性的主體而言,他有趨利避害的本能。效用理論假設理性主體的偏好是不變的,它會首先設定理性主體的目標是什么,再指明主體的各種行動的后果是什么。因為主體對各種后果的偏好不同,我們可以用一組從小到大的數值來表明主體對各種后果到底有多么偏好,這些數值就是效用。把主體對各種后果的偏好與這些數值對應起來的公式就是效用函數。最后,各種后果的出現是有一定的概率的,主體會根據這些概率而冒著相應大小的風險來采取產生不同后果的行動。效用理論這時就能夠給我們一個科學的決策指南。我們可以將所有不同行動的效用與所有不同行動的風險分別相乘,以得到每個行動的預期效用。理性的主體將會選擇產生最大預期效用的行動。
但社會科學里最流行的規范研究的類型還當數是博弈論了。與其它的研究方法,如效用理論或統計分析相比,博弈論最大的特色是把分析主體的互動納入到模型中。這樣,主體間策略性的行為就能被模型所解釋:我的選擇是如何因為你的選擇而改變,與此同時你的選擇又是如何因為我的選擇而改變;為了實現目標,因為我預期你會如此行動,所以我策略性地沒有選擇短期內的最優行為;而你由于預期到我不會采取短期最大化的行為,也策略性地選擇與短期最大化不同的另一套應對;如此這般。這樣,博弈論的構架本身自然而然的迫使我們直面決策行為的“內生性”,也就是說,決策不是一成不變,而是隨著模型內其他變量的改變而不斷變化。博弈論相信,當博弈終止,塵埃落定之時,理性的局中人將已經把所有可能的信息納入到最終決策之中了。所以,最終各方的決策應當是均衡的,即,沒有任何一方愿意改變現狀,從而進入重新一輪的博弈。雖然,根據博弈論理論,理性主體的行為最終將落在均衡路徑之內,但博弈論的框架要求我們不得不考慮在均衡路徑之外的,理論上不會發生的決策與行為。因為這樣才能幫助我們得到模型的最終解答。
除此之外,近些年規范研究也開始向新的方向發展,值得注意的有兩個方向。第一,規范研究開始注意與實驗的方法相結合。[23] 后面將會介紹,規范研究大多是從一些基本的假設出發開始推演的;但當假設并不契合實際時,結論將會偏差。對于在受控的環境下的受試者,研究人員可以用多種方式檢驗假設及結論的可靠性,并利用這些反饋修正自己的規范研究的模型。第二,政治學與公共管理學研究中一種新興的網絡分析法(network analysis),可以被視為是規范研究的一類分支。[24] 網絡分析法明確地把主體放在一個社會關系的網絡之中,主體的每一個社會關系都是網絡中的一條線,主體本身是網絡中的一個節點。關系的演變將依據研究者給定的假設與邏輯。由于任意一點都可能與多點相連,任意一點的決策將受到多種輸入的影響,但這個決策也會反過來影響其他點,因此網絡分析法充分的體現了社會內主體間的相互依賴(interdependency),對理解許多政治與經濟問題有重要意義。
表1 規范研究分類
(一)著名的博弈論模型
最著名的博弈論模型恐怕非“囚徒困境”莫屬了。最原始的囚徒困境模型是兩個囚犯被隔離訊問,招認就能減低刑期,不招會被罰,并假設只要一人招認,檢察官就有足夠證據能處罰兩個人。當兩人都招時,兩人都會中度受罰,但當兩人都不招,則檢察官只能輕罰兩人。重點在于,如果只有其中一方招認,招的那一方就能獲釋,不招者則得到重度懲罰。每個人都會去想對方到底招不招,然后發現,不論對方招不招,我自己招認的好處都大于不招,所以兩人基于理性,就各自發展出主導策略,即都選擇招認,因此兩人都受到中度懲罰。
表2 囚徒困境
注:括號內是兩人的所得,越大的數字表明越大的所得。括號內左邊的數字是囚犯一的所得,右邊是囚犯二的所得。但假如囚徒困境的情形要重復不斷地進行,最理性的方式則是大家形成合作的默契,都不招認,因此都只受到輕度懲罰。假如默契不形成,兩人每次都受到中度懲罰,顯然不理性。不過,要是博弈只有一輪,基于不信任,大家就都會訴諸短期理性,寧可受到中度懲罰。囚徒困境模型證明時間是重要的因素,即博弈玩一次和玩無限次的結局是不一樣的。如果是無限次,兩人就會合作,因為考慮到博弈的次數n乘上兩人合作的利得,遠大于n乘上兩人不合作的利得,所以兩個人終究會學習合作。囚徒困境模型的目的,是在說明人通過學習,即使基于自利而在短期內做出不利于自己的決定,但長期里最終會回歸最理性的方式,修正自己的行為選擇。[25][26]
與囚徒困境一樣有名的另一個規范研究的模型是懦夫游戲。在這個模型的情境中,兩人開車迎面撞來,看誰是怕死先閃開的一方就算輸。和囚徒困境最大的不同在于,當雙方都不合作(即不閃開)時,得到的結局對雙方都是最凄慘的;而在囚徒困境中,兩人都不合作時,得到的結果對雙方都只是次凄慘的(即中度懲罰),所以兩囚才都有可能選擇招認。
表3 懦夫游戲
注:括號內是兩人的所得,越大的數字表明越大的所得。括號內左邊的數字是主體一的所得,右邊是主體二的所得。在博弈論的建模過程中,每一種決策的效用值究竟有多大,其實并不重要,真正重要的是每一種決策效用相對其他決策效用的大小。例如在剛剛提到的囚徒困境與懦夫游戲這兩個模型中,如果我們改變其中一個模型中效用值的相對大小,我們甚至可以把這個模型轉換成另一個模型。
(二)博弈論的弱點
盡管博弈論是規范研究中非常有力的一個工具,但正如任何其他工具一樣,博弈論也有自己的局限性。具體來講,有如下幾點。[27]
1.博弈論通常假設博弈中的行為主體有相同的期待,即,每個人都知道自己及他人的所有可能的策略,并以此為基礎來決定自己的應對策略。但當相同期待的假設不能被滿足時,博弈該如何進行呢?一個辦法是允許行為主體在不斷博弈中理性的學習:從每輪博弈中,每個主體的期待通過觀察其他人的應對而得到更新,更新后的期待成為下一輪博弈的基礎。
2.許多博弈論的模型會產生多重均衡點,而無論我們用何種解決辦法,多重均衡的結果都沒法消除。多重均衡意味著博弈的結果并不唯一,如何從多個均衡中選取我們需要的結果呢?博弈論中的“無名氏定理”可以幫助我們更好地理解多重均衡的現象,并給出選取唯一解的理由。
3.博弈論通常假設相同的知識。字面上的理解自然是行為主體們都掌握同樣多的信息,這意味著除了客觀事實的信息外,主體們還知道其他的主體也知道這些客觀事實,主體們知道所有的主體們都知道所有人都有相同的期待,主體們知道所有人都是理性的,等等。在有限信息博弈論模型中,相同的知識這個假設可以被放松,即一些主體比另一些主體有更多的信息,但信息不對稱這個“信息”卻是行為主體們都知道的。
4.博弈論通常會假設行為主體是理性的,可另外一個可能的假設是“有限理性”,即在追求特定結果的過程中主體的推演能力是有限的。關于有限理性,文獻中有三類可能的解決辦法。(1)每個行為主體的策略都基于對手所有過往行動出現的頻率,理性是有限的因為主體只需要記住所有的歷史;(2)每個行為主體的策略是基于“有限自動回復”,主體沒法記住所有歷史,他的行動由固定的前幾期的歷史所決定;(3)不同主體從各自的有限知識與分析能力出發得出不同的策略,這些不同策略在同一個平臺下相互競爭、優勝劣汰,最好的策略自然會最終勝出。
四、規范研究的隱含假設
在用效用理論或博弈論來建立模型進行規范研究之前,研究者通常需要接受一些隱含的假設。第一,假設參與博弈的主體之間沒有任何情感聯系。這保證了各主體的行為是由純粹利益的計算而決定的,從而使不可觀測的因素不會改變建模者的結論。比如,在囚徒困境中,假如兩個囚徒是父子關系,那么我們對于即使只有一次博弈的結果,也極不可能得到兩人相互背叛的結論。這就是說,模型本身沒有考慮的非直接的利益因素改變了模型的結果。第二,假設主體是利己而非利他的。這與之前提到的主體一致性相呼應,保證了建模者可以相對容易的推演出主體的效用函數。然而,這是對現實的極大簡化,比如,在公車上讓座是我們常見的利他行為,但如果用規范研究的模型來解釋這一點的話,往往會從建模本身的需要出發,把利他行為解釋成為了更好達到自己目標的利己行為。
五、規范研究的操作框架
在這些明顯的或隱含的假設的基礎上,我們可以勾勒出一個典型的規范研究的操作框架。
第一步,研究者應當提出要研究的問題。這是所有研究必須跨出的第一步,但通常也是最為困難的一步。好的開始是成功的一半,好的問題正是好的開始的核心。雖然也有靈光一閃的情形出現,但絕大多數的情況下,提出好的問題要在熟悉本領域文獻,廣泛閱讀其他跨領域的材料,及對社會、政治、經濟、公共政策等眾多領域內規律性的現象保持敏感并不斷思考的基礎上形成的。
第二步,根據提出的問題以及研究者本身的訓練和偏好,研究者應當決定到底用效用理論還是用博弈論來研究這個問題。如前所述,博弈論的精髓在于研究多主體間互動中的策略。因此,如果我們的研究對象是單一主體如政府,研究目標是這個單一主體應如何在給定的選項間選擇,例如政府應打破還是維持壟斷,那么,這個研究目的決定了純粹的效用理論可能是更適合的方法。所以,應當是研究問題決定了采用何種研究方法,而不是相反。
第三步,在確定了研究問題和適當的研究方法后,研究者要考慮在自己的模型中要采用哪些假設。因為歸根到底,大部分規范研究的結論在其假設被設定的那一刻起,其實就已經確定了。規范研究的過程是用一套符號邏輯的語言,清晰地告訴讀者怎樣可以從假設推導至結論。這樣,規范研究的每一步都是符合邏輯,并經得起后來研究者的檢驗的,后來的研究者可以很容易地發現模型推演中可能的錯誤。
最好的假設應當是不言自明的,被絕大多數人和學術界所承認的。但通常僅有這些假設不足以得出研究想要得出的結論,因此,更多的假設不可避免。研究者要使用的新假設應當是較少爭議的。這些假設最好應該有現實的經驗作為依據,并有已有的文獻曾采用過相同或類似的假設。即便如此,研究者還是應當用較大的篇幅來說明自己為什么要用這些假設,及這些假設為什么是合理的。
表4 規范研究常用的假設
第四步,自然是推演的過程。這通常是一個模型最顯眼的部分,雖然,對于有經驗的建模者,之前的確定問題(并確立變量)和設立假設,恐怕才是最傷腦筋和凸顯功力的步驟。社會科學規范模型的推演用到最多的數學知識包括代數、微積分和概率論等。
六、如何評價不同的規范研究的模型
那么,當一個規范研究的模型被構建出來以后,我們如何把它和另一個規范研究的模型作比較,并評價孰優孰劣呢?像任何社會科學的模型那樣,我們首先的評價指標是這個模型是否能更好的幫助我們理解和解釋我們關心的問題。對于某個問題,好的模型或者能把我們久已認為本該如此的觀念用數理化、邏輯化的語言在一個嚴謹的框架內清晰的表達出來;或者能夠在簡單無爭議的假設的基礎上,推演出反直覺的結論,從而彌補單純靠觀測、歸納的研究方法的不足。比如,斯托爾珀和薩繆爾森在公認的比較優勢理論的基礎上,推導出國際貿易使得一個國家里相對蘊含更豐富的生產要素獲利更多的結論。[28] 這個結論與我們的一般直覺相反。一般的直覺告訴我們,稀缺的東西才能獲取高價,充足供給的東西價格應當下跌才對。
規范研究的模型還應能自圓其說,也就是說,從假設到結論的推演是按照邏輯一步步進行的,從而保證讀者對于每一步的推演都是信服的。一個好的規范研究的模型還應當對多種情境有普適性。這個模型看似是在某一種很特殊的情境下分析主體的行為,但由于規范研究的特征,只要模型的結構和假設能夠保持,我們完全可以替代入不同的主體,從而用同樣的模型來研究不同的問題。比如,博弈論中的囚徒困境模型,完全可以超越“囚徒”的選擇這個最初的情境,而來分析個人、企業、群體、或國家在類似囚徒困境的結構中是如何用與囚徒類似的邏輯來理性的決策的。事實上,國際關系研究中經常用到囚徒困境模型來分析國家間戰爭與和平的考量。又比如,政治學分析中常見的中間選民理論,最初是被用來解釋為什么美國的選舉候選人有向政黨意識形態偏中間的選民們靠攏的傾向。但隨著這個理論的廣為人知,美國政治以外的學者也開始用中間選民理論來解釋其他領域的熱門問題,如福利國家為什么會發生,或者為什么威權政體可能會轉變為民主政體,等等。
規范研究與社會科學的其他研究方法一樣,也應當盡量追求簡潔有力。這就是指一個模型應當用盡可能少的變量或假設來解釋盡可能多的變化。如果一個假設不能帶來更大的解釋力,那么這個假設就不應當被包括在模型中。[29]
七、如何構造規范研究的模型
作為本文的結尾,我們來探討一下該如何構造一個規范研究的模型。第一種辦法,是自建一個模型。在這里,最重要的原則是簡單、簡單、再簡單。建模從寫下主體們一系列的選擇開始:有什么選擇;該什么順序;選擇時有什么信息;選擇會產生什么后果。然后,考慮主體們對這些后果的可能的偏好。接著,就可以寫下決策樹并算出這個模型的結果了。
第二種辦法,是修改一個現有的模型,比如改變現有模型的某個假設,或取舍現有模型的某(幾)個變量。從工作量上來說,這通常要比構建一個全新的模型要容易些。但同樣的,我們還是在修改模型的過程中需要簡單、簡單、再簡單。如果普通的方法可以解決問題,就沒有必要用更復雜的方法。
[參考文獻]
[References]
[1][25]石之瑜. 政治科學中形式理論的運用與瓶頸――從賽局理論談起[J].東吳政治學報,2003(17).
Shih Chih-yu. The Epistemological Limit of Formal Theory in Political Science: Game Theory Revisited. Soochow Journal of Political Science, 2003(17).
[2][4]顏昌武,牛美麗. 公共行政學中的規范研究[J]. 公共行政評論,2009(1).
Yan Changwu, Niu Meili. The Normative Research in Public Administration. Journal of Public Administration, 2009(1).
[3][5]何艷玲. 問題與方法:近十年來中國行政學研究評估(1995―2005)[J].政治學研究, 2007(1).
He Yanling. Questions and Methods: Evaluation of Chinese Public Administration in the Past 10 years. Cass Journal of Political Science, 2007(1).
[4][6]劉曉峰,劉祖云. 我國行政學質性和量性研究方法的評價與反思:基于2006-2008年部分期刊文章的樣本分析[J].甘肅行政學院學報, 2010(3).
Liu Xiaofeng Liu Zuyun. Evaluation and Reflection on the Chinese Public Administration Research Methods. The Journal of Gansu Administration Institut, 2010(3).
[7]楊立華. 知識困境及其解決方式:以環境治理為例的博弈模型構建[J].中國行政管理,2010(10).
Yang Lihua. The Knowledge Dilemma and its Resolution Methods: Game Theoretical Models of Environmental Governance. Chinese Public Administration, 2010(10).
[8]郭慶松. 論勞動關系博弈中的政府角色[J].中國行政管理,2009(7).
Guo Qingsong. A Study of Government Role on the Game of Labor Relations. Chinese Public Administration, 2009(7).
[9]Antoine Augustin Cournot,Irving Fisher. Researches into the Mathematical Principles of the Theory of Wealth. Macmillan, 1838.
[10]Joseph Bertrand. Théorie mathématique de la richesse sociale’. Journal des Savants, 1883:499508.
[11]Francis Ysidro Edgeworth. La teoria pura del monopolio. Giornale Degli Economisti.1897: 1331.
[12]John von Neumann, Oskar Morgenstern. Theory of Games and Economic Behavior. Princeton University Press, 1944.
[13]Anthony Downs. An Economic Theory of Democracy. New York: Harper & Row, 1957.
[14]Duncan Black. Theory of Committees and Elections. Cambridge: Cambridge University Press, 1958.
[15]William H. Riker. The Theory of Political Coalitions. New Haven: Yale University Press,1962.
[16]James Buchanan, Gordon Tullock. The Calculus of Consent. Ann Arbor: University of Michigan Press, 1962.
[17]Mancur Olson. The Rise and Decline of Nations. New Haven, CT: Yale University Press, 1982.
[18]William Niskanen. Bureaucracy and Representative Government. Chicago: Aldine, 1971.
[19]Mancur Olson. The Logic of Collective Action. Cambridge, MA: Harvard University Press, 1968.
[20][22]William H. Riker. Liberalism Against Populism. San Francisco: W. Freeman, 1983.
[21]Robert Axelrod. The Evolution of Cooperation. New York: Basic Books, 1984.
[23]James D. Morrow. Game Theory for Political Scientists. Princeton: Princeton University Press, 1994.
[24]Rose McDermott. Experimental Methods in Political Science. Annual Review of Political Science, 2002. 5:3161.
[26]Michael D. Ward, Katherine Stovel, Audrey Sacks. Network Analysis and Political Science. Annual Review of Political Science, 2011. 14:245-64.
[27]David Kreps. Game Theory and Economic Modelling. New York: Oxford University Press. 1990.
[28]James E. Alt, Kenneth A. Shepsle. Perspectives on Positive Political Economy. New York: Cambridge University Press, 1990.
[29]Wolfgang F. Stolper, Paul A. Samuelson. Protection and Real Wages. The Review of Economic Studies, 1941. 9 (1).
The Methodology of Formal Theory:A Brief Introduction and its Application in Public Administration
Zhou Qiang
[Abstract]This article is a brief introduction to the methodology of formal theory, which is common in contemporary research in fields like political science, economics, and public administration. We start from discussions of the basic assumptions of formal theory, namely, internal consistency and rationality, and point out that formal theory research can be conducted using either utility theory or game theory. The choice of a specific approach depends on whether the research in question focuses on the different options facing the decision-maker in his decision making process, or the interactions between multiple players in pursuit of equilibrium. Furthermore, we discuss the implicit assumptions in formal theory, give a typical operational framework for a formal theory research, and enumerate some criteria for judging the quality of a formal theory model. We conclude by listing the ways to construct a formal theory model.
數學建模博弈論范文3
關鍵詞:GMP實施;藥品生產企業;食藥監管部門;博弈論
GMP,即《藥品生產質量管理規范(2010年修訂)》。它是一把標尺,既規范藥品生產和質量管理,同時也衡量藥品生產企業的技術水平[1]。按國食藥監安[2011]101號文件要求,所有藥品生產企業均應在2015年12月31日前達到《藥品生產質量管理規范(2010年修訂)》要求。GMP認證后,GMP能否持續穩定實施才是關鍵,才能有效控制藥品的安全與質量。
藥品飛行檢查,是指食品藥品監督管理部門針對藥品研制、生產、經營、使用等環節開展的不預先告知的監督檢查。近年來,在國家食品藥品監督管理總局(以下簡稱CFDA)飛行檢查中,被檢藥品生產企業GMP實施情況不容樂觀,更有甚者GMP證書被收回,僅2016年全國收回藥品GMP證書就高達171張[2]。
博弈論,是研究決策主體的行為發生直接相互作用時候的決策以及這種決策的均衡性[3]。1928年,馮?諾依曼證明了博弈論的基本原理,從而宣告了博弈論的正式誕生。博弈論在金融學、證券學、生物學、經濟學、國際關系、計算機科學、政治學、軍事戰略和其他很多學科都有廣泛的應用。本文將利用博弈論研究藥品生產企業和食品藥品監督管理部門(以下簡稱食藥監管部門)的博弈,得出影響藥品生產企業GMP持續穩定實施的眾多相關因素,并分析出關鍵因素,從而促進藥品生產企業持續穩定實施GMP。
1 研究方法
以博弈論為基礎、為依托,借助其他科學方法分析研究藥品生產企業持續穩定實施GMP的現狀及相關影響因素。
1.1 調查法
通過查閱文獻、收集資料發現我國現有藥品生產企業數量為8702[4]。2016年全國收回藥品GMP證書數量為171[2],約占總量的1.97%;跟蹤檢查后發回藥品GMP證書數量為104[2],即未發回藥品GMP證書數量為67,約占總量的0.77%。這些數據既給藥品生產企業敲響了警鐘,也敦促各級食藥監管部門加強對轄區藥品生產企業的監管力度,尤其是相較于其他省份數量偏大的河北、吉林、安徽、廣西四省。
1.2 數學建模法
由于博弈論可以比較深刻地反映出各參與方利益的沖突與一致問題, 以及參與方的決策過程, 所以通常被用做政策制定和政策分析的有力工具。為了分析我國的GMP持續穩定實施, 基于澤爾騰(1995)“小偷與守衛”[5-6]博弈模型,建立一個完全信息靜態博弈模型來討論博弈雙方的決策。
1.2.1 模型假設
GMP持續穩定實施相關的博弈模型的基本假設有以下方面。
(1)理性人假設
假定博弈主體為我國食藥監管部門與藥品生產企業,博弈主體均符合理性的“經濟人”假設。藥品生產企業和食藥監管部門都會在博弈過程中謀求自身利益最大化。對于藥品生產企業來說,以較少的成本支出和良好的企業形象(即無形資產)收獲豐厚的企業利潤是其追求的目標;而對于食藥監管部門來說,依法執法、科學監管、為人民服務,國家穩定和諧,國民用藥安全與質量得到保證,是其追求的目恕
(2)非合作博弈假設
為了利于分析,假定藥品生產企業是為了追求利潤最大化而不持續穩定實施GMP,即GMP實施存在缺陷,屬于違法行為;食藥監管部門為了追求國家穩定和諧、提高國民用藥安全與質量,隨時準備對群眾舉報、投訴的藥品生產企業的違法行為進行查處。藥品生產企業和食藥監管部門的關系類似于“監管模型”中的小偷和守衛的關系,設定這兩者之間不存在“共謀”“串通”的行為,將其視為非合作博弈來考慮。
(3)完全信息靜態假設
完全信息博弈指參與者對所有參與者的策略空間及策略組合下的支付有充分了解;靜態博弈指參與者同時采取行動,或者盡管有先后順序,但后行動者不知道先行動者的策略。就GMP監管與實施決策雙方的行動從邏輯順序看,藥品生產企業決策在先,食藥監管部門決策在后。對于藥品生產企業來說,只要不想持續穩定實施GMP,就不存在技術障礙;對于食藥監管部門來說,假設其具有完全檢查能力,即只要檢查就可以查出藥品生產企業實施GMP是否持續穩定,是否存在違法行為。因此,可以將該博弈設定為完全信息靜態博弈模型。
(4)策略選擇的假定
博弈雙方均有兩種策略選擇:藥品生產企業可以選擇持續穩定實施GMP和不持續穩定實施GMP,食藥監管部門可以選擇檢查和不檢查。
1.2.2 決策組合分析
通過博弈論相關方法可得到藥品生產企業和食藥監管部門的決策組合。
(1)組合一
食藥監管部門檢查,藥品生產企業不持續穩定實施GMP時,假設食藥監管部門因對群眾的舉報、投訴積極檢查而提高社會穩定性、增進社會和諧、保障人民健康的總和為B,其單次檢查支出的包括人力、物力、財力在內的所有成本為C;藥品生產企業因違法被查處所受懲處為A。故而食藥監管部門的收益為B-C,藥品生產企業收益為-A。
(2)組合二
食藥監管部門檢查,藥品生產企業持續穩定實施GMP時,對于食藥監管部門來說,其收益仍為B-C;對藥品生產企業而言,相當于接受例行檢查,無損亦無收,因此收益為0。
數學建模博弈論范文4
現代工程科技要求工科大學生應具備扎實的數學基礎理論和數學應用能力,而目前工科大學生數學學習常常呈現“學而無趣”“學而無用”的現象,這種現象折射出的教學問題為:理論與實踐脫節,缺少數學創新實踐環節,缺乏數學人文素養培養。
為了將數學基礎理論、數學創新實踐和數學人文素養三者融合起來貫穿于工科大學生數學創新實踐能力培養過程中,我們設計并實施了系統科學的解決方案:建設優質的實踐平臺(基礎)構建科學的培養模式(構架)建立優秀的教學團隊(實施)提高大學生數學創新實踐能力(效果)。在實施方案指導下,經過近20年的探索與實踐,成效顯著。此成果榮獲2014年高等教育類國家級教學成果一等獎。 一、創建優質的實踐平臺,完善教學資源結構,優化創新人才個性成長環境
1. 建立大學生數學創新實踐基地和大學生數學實驗室
為了培養工科大學生數學創新實踐能力,我校在友誼校區和長安校區分別創建了多功能大學生數學創新實踐基地?;厥羌皞€性化教學、自主學習、數學實驗、創新研究、數學建模競賽”等為一體的創新實踐平臺,為大學數學主干課程教學改革以及培養跨學科創新人才提供良好的條件與環境。大學生數學創新實踐基地可以同時容納300名學生上機實習,配備了一流的設施,制定了科學的管理制度,面向學生全天候開放。學生根據個人的學習、實踐、創新、研究等需求,有效使用基地的所有資源,充分發揮學生自主學習的主觀能動性,提升了教學資源利用率。
同時,我們又建立了兩個數學實驗室:數學建模與科學計算實驗室,統計與數據模擬實驗室。這兩個實驗室配備了高性能計算機和多種數學計算和優化的專業軟件。實驗室承擔了高性能計算和仿真模擬等任務,為學生深化數學創新實踐提供了保障。
2. 編寫出版注重培養數學創新實踐能力的系列教材
該系列教材堅持以問題驅動為主線,以大學生已有知識為基礎,以培養實踐能力為目標,內容簡單有趣,非常適合學生學習。同時,該系列教材還能夠滿足多個層面學生需求。其中,《實用數學建模與軟件應用》、《基于MATLAB和LINGO的數學實驗》適用于數學建模和數學實驗課程教學;《數學建模簡明教程》適合數學建模專題講座;《數學建模競賽優秀論文精選與點評》以及《美國大學生數學建模競賽賽題解析與研究》適合數學建模競賽賽前培訓使用;《線性代數》、《高等數學》、《概率論與數理統計》、《隨機數學基礎》等教材增加了數學建模與數學實驗素材,架起了大學數學主干課程與數學實踐的橋梁。
3. 構建優質網絡教學資源,豐富大學生自主學習內容
為了滿足學生的學習興趣,我們建立了“數學建?!眹壹壘氛n程網站,“高等數學”、“線性代數”、“概率論與數理統計”以及“概率論基礎”等4門省級精品課程網站,同時創建了西北工業大學“數學建模競賽”網站。這5個課程網站和1個競賽網站為學生提供了豐富的學習資源,使之成為開展第二課堂學習的基地。 二、以“基礎為本,實踐為魂,素養為翼”為理念,構建“基礎―實踐―素養”融合發展的人才培養模式
我們在課堂教學中,以“深化知識理解,培養創新意識和創新思想”為本;在實踐教學中,以“知識融于實踐,實踐檢驗知識”為魂;在文化熏陶方面,以“數學文化熏陶推動知識學習和實踐應用”為翼,以實現“學而有趣,學而有用,學而會用”。
“基礎―實踐―素養”融合發展的“二三三”培養模式是由“兩級課程”(大學數學主干課程和數學建模相關課程)、“三類實踐”(數學實驗、數模競賽、創新項目)以及“三重熏陶”(數學講壇、數學沙龍、數模講座與論壇)構成,其培養過程概述為“加深數學基礎理論?強化數學創新實踐?提升數學人文素養”,三者之間相互融合、相互促進,為學生后續發展奠定良好基礎。在踐行“二三三”培養模式過程中,扎實的數學基礎理論支撐大學生數學創新實踐,數學創新實踐深化大學生對基礎知識的理解,提升學生的學習興趣。基礎理論學習涉及數學歷史、文化和思想,以培育學生的數學人文素養;數學創新實踐豐富學生數學人文素養內涵。數學人文素養提升學生參與創新實踐的積極性;數學人文素養激發基礎理論學習興趣,擴充知識面?!盎A―實踐―素養”相互融合,在人才基礎培養上具有科學性和系統性。
1. 將數學創新實踐能力培養貫穿于“兩級課程”教學全過程,提高教學質量
首先,開展問題驅動式的教學模式改革,將數學建模思想融入大學數學主干課程,提升學生的數學建模能力和數學應用能力。
問題驅動式的教學模式強調人本主義理念,發揮教師的主導作用和學生的主體作用。教學過程引導學生思維,激發學生主動學習的潛質,全面提升其抽象思維、邏輯推理、數學建模和數學應用等能力。
一是以建模的方法講授數學定義和定理。通過直觀分析、抽象思維、邏輯推導等過程,建立起數學定義、數學定理與自然現象和規律之間的橋梁,這個橋梁就是數學建模。通過數學建模的方法,可以講授定義的形成過程以及定理的內在意義,既可以提高學生的建模能力,也將抽象概念形象化。
二是將往屆的數學建模競賽試題和課堂內容相結合。在教學過程中,根據講授的課程內容,解答往屆的數學建模競賽試題,以提高學生數學建模能力和數學應用能力。
三是將科學研究中的問題與課堂教學相結合,教師將科學研究中的一些簡單建模問題與課程內容相結合,提升學生創新實踐能力。
四是開設分層次系列數學建模課程,對不同的教學對象選擇不同的教學內容,實現授課內容與授課對象相統一。例如,為部分院系學生開設數學建模必修課,為其他院系學生開設數學建模選修課,為參加競賽學生開設培訓課,為參加創新項目的學生開設討論課,邀請校內校外專家舉辦講座,為有興趣的學生提供網絡資源,等等。通過分層次教學,滿足了各個層面學生對數學建模知識的需求。
五是依據教學目的、效果、對象選擇教學手段,廣泛采用網絡資源、多媒體課件、一對一討論、集體討論、網絡答疑等教學手段,提高教學效果。同時,加強課堂教學與課外實踐有機結合。在完成規定的課堂教學任務前提下,為了鞏固和提高課堂效果,我們又設置了適量的課外實踐,主要包括課外數學建模創新項目、各級各類競賽、數學實驗等內容。
2. 開展系列大學生數學建模競賽與培訓,為培養高素質、復合型、跨學科創新拔尖人才奠定基礎
我們建立了完善的校級數學建模競賽體制,保證80%以上的大學生在校期間至少參加一次數學建模競賽。這不僅提高了大學生應用數學理論知識解決實際問題的能力,同時也是檢驗數學課程教學改革效果的良好手段。參賽學生從2000年的240余人增加到2014年的4800余人,累計參賽學生達30000余人,是全國校級數學建模競賽參賽規模最大的學校之一。
我們建立了完善的全國大學生和美國(國際)大學生數學建模競賽培訓機制,包括隊員選拔、課程培訓、賽題培訓、專項培訓、專題討論、強化訓練、分組協作等手段。經過這樣的培訓,西北工業大學在各級各類數學建模競賽中成績斐然。
3. 開展數學實驗和系列大學生自主創新項目,培養學生的科學研究能力
為了培養學生的科學研究能力,我們以培養知識理解、知識應用、數學計算、創新和實踐為指導,設計了8個基礎實驗、4個選做實驗。通過基礎實驗,調動了學生主動學習和應用數學分析解決問題的積極性,使其掌握常用的工程數學的應用方法。選做實驗立足于對各知識點的理解和應用,讓學生學會怎樣運用所學知識,提取問題的數學結構,進行創造性思維,更好地掌握和應用所學各種數學工具、軟件工具的能力。
近兩年來,共開設系列大創項目113項,參與學生400余人。通過自選級、校級、國家級三個層次大學生數學創新項目,學生的科學研究能力得到了顯著提升。
4. 舉辦“三重熏陶”,豐富教學內涵
我們通過延伸課堂教學,舉辦數學講壇、數學沙龍、數學建模講座和論壇,開闊學生視野,提升學生對數學思想、歷史、文化、美學、應用的認識,實現了課堂教學與人文素養培養無縫鏈接,豐富了數學教學內涵。
例如,在數學論壇上,中國工程院院士崔俊芝做過“從科學計算到數字工程――漫談數學與交叉科學”,“杰青”王瑞武做過“合作的演化――數學在生命科學中應用的一個問題”,美國密西根大學J. Liu做過“博弈論與諾貝爾經濟學獎”等報告。另外,也舉辦過“幾個著名的數學難題及錢學森的科學人生”、“科學巨匠――赫伯特?西蒙和馮?諾依曼”等數學沙龍。通過這些活動,營造了數學文化氛圍,增強了學生數學文化修養,擴大了學生的數學知識面,提升了學生的數學建模興趣和能力。 三、以“能站講臺,能教實踐,能開論壇,能做科研”為標準,構建一支全能型專業化師資隊伍
數學建模博弈論范文5
以“模塊-綜合”架構構建電力、能源類電子系列課程體系
博弈論在高校課堂教學管理中的應用
動物學學科
廁蠅科昆蟲起源、演化及世界分布格局的探究
多面體平圖的4著色方法
利率受隨機因子影響的投資組合問題
一類離散時間時滯線性切換系統的魯棒H_∞控制
五面體平圖中的生成樹的構造與計數
高校辦公室人員基本素質的綜合評判方法
兩種抽樣方式下樣本均值的數字特征及其意義
一類具有無限時滯Volterra型積微分方程周期解的存在性(英文)
帶有隨機因子的最優投資和消費問題(英文)
定積分計算中的若干技巧
基于因子-主成分回歸分析的股價技術分析研究
基于R_0-蘊涵伴隨對的重心法模糊系統及其概率表示理論
小密度處耦合常數對原子核基態性質的影響
Ni-Mn-Sb合金的可逆高溫磁卡效應
硅對鋼/鋁軋制復合界面化合物抑制效應的研究
水在金屬鎂表面吸附的第一原理研究
超聲波透射法檢測鉆孔灌注樁技術
基于GPRS變電站RTU監控系統設計
電動汽車用電機及控制器試驗分析
高密度儲氫材料的研究進展
納米科技的發展與應用
一種降低XML文檔更新代價的擴展Dewey編碼方案
基于SOA的數據挖掘服務整合研究與設計
基于HSI空間和紋理的頻譜度量的印鑒識別
高校學生成績預警系統的改進研
基于Schema文檔的XML文檔驗證系統的設計
使用SQL Server管理應用程序服務數據
一種網絡認證計費的設計與實現
語料庫在茶典籍英譯中的實例應用
病房通風CFD模擬及其方案優化
影響鋁柵板上鉛鍍層孔隙率的因素探究
酵母菌單細胞電化學行為的循環伏安法及電化學交流阻抗研究
UV-B和Cd脅迫對大豆細胞壁降解酶活性的影響
高粱微衛星兩種PAGE銀染方法的比較
哺乳動物的低代謝及其應用
大麝鼩能量代謝和體溫調節特征
蟋蟀嗅覺的聯合學習與記憶能力研究
區域城市化與生態環境協調發展分析——以福建省為例
基于農用地分等成果的耕地需求量預測探析——以松溪縣為例
再釋組織公民行為角色自定義——基于社會、組織與個人影響因素的討論
法國與德國國有企業改革比較研究
遼寧產業結構調整的發展趨勢研究
遼寧省農村公共服務的現狀及對策分析
中西古典建筑審美比較
目前建設工程合同管理中存在的問題與對策
在基礎析化學教學中的數學建模
英國能源教育課程特點評
數學建模博弈論范文6
建筑業是國民經濟的支柱產業之建筑安全
生產既是其持續健康發展的必要條件,也是人民安居樂業和社會安定的重要支撐。但是多年來,建筑安全生產基礎薄弱,事故易發多發。除了受建筑企業自身生產力水平和從業人員素質等因素的制約和影響外,作為外部約束力量的政府部門的監管也是關鍵因素。上?!?1?15”特大火災等建筑安全事故都警示建筑生產中安全監管的重要性。但是,由于建筑工程涉及到各參與方利益,安全監管常不能有效開展。一方面建筑企業受利益驅使,可能在事故風險與經濟利益間進行博弈;另一方面地方監管部門為了追求更多利益,也可能與企業合謀,從而影響安全監管的執行。為了保證建筑安全生產,必須建立科學的機制約束監管部門和建筑企業的行為。
關于如何建立科學的安全監管機制,國內外學者采用不同的方法進行了研究。IainMacLean通過案例分析了由執行安全監管到放松監管安全狀況的變化;ChinShanLu等0采用實證研究的方法探討了安全監管對生產效率的影響;李志強H對我國交通建設工程安全監管現狀及模式進行探討,提出全過程動態循環安全監管模式的新思路。事實上,建筑工程的安全狀況往往是建筑企業和監管部門之間一系列博弈的結果,博弈論亦是研究安全生產中監管部門與建筑企業行為的有效方法。但是,目前僅有少數學者從博弈的視角研究建筑安全監管,如:申玲等建立靜態博弈模型分析監管部門需要關注的影響承包商安全生產投入的因素;曹冬平等從博弈角度分析得出監管部門的處罰力度、安全檢查成本和管理效率對建筑企業安全施工有較大影響;張飛漣等B]則建立博弈模型確定監察機關對施工單位進行抽檢的比例及處罰力度。這些研究多是運用經典博弈理論來分析建筑安全監管行為。經典博弈理論假設博弈雙方為完全理性、從靜態角度進行研究,這與實際情況存在差別。因此,有待于采用更科學的理論和方法研究建筑安全監管問題。現實中,監管博弈雙方往往不斷地獲取對方或者外界的信息來改變自己的策略。演化博弈理論從系統論出發,將群體行為的調整過程看作一個動態系統,以有限理性為基礎,突破經典博弈論理性假設的局限,強調動態的均衡M。因此,用演化博弈理論對建筑安全監管問題進行分析,將更接近實際情況。然而,演化博弈中的演化穩定策略(ESS,EvolutionarilyStableStrategy)只能描述系統的局部動態性質,不能表現均衡與動態選擇過程之間的關系。
系統動力學(SD,SystemDynamics)是研究復雜系統中信息反饋行為的有效仿真方法,它關注系統的動態變化與因果影響,能夠在非完備信息狀態下分析求解復雜問題。SD為研究不完全信息條件下演化博弈的復雜動態演化過程,提供了一種有效的輔助手段。因此,與已有的研究不同,筆者將把演化博弈與系統動力學相結合,考慮信息不確定的實際情況,對建筑安全監管中的動態博弈進行演化均衡穩定性分析,揭示博弈雙方的動態特性,通過建立相應的SD模型和仿真更好地剖析建筑安全的波動規律,為科學的安全監管決策提供依據。
1建筑安全監管的演化博弈模型
1.1模型假設
演化博弈論認為,有限理性的經濟主體無法準確知道自己所處的利害狀態,而是通過最有利的策略逐漸模仿下去,最終達到一種均衡狀態&2。建筑安全監管主要涉及到政府監管部門和建筑企業2個有限理性的局中人。在建筑安全監管中,監管部門是否監管、建筑企業是否按安全規程運作是一個動態博弈。在有限理性的前提下,建筑企業考慮利益所得及政府的監管懲罰,可以選擇的策略假設為小={執行安全規程,不執行安全規程};政府監管部門為確保生命財產安全并考慮監管成本可選擇的策略假設為皂={嚴格監管,不監管}。
假設建筑企業執行安全規程時的經營收益為Na,經監管部門檢查為安全施工且無事故發生時,會得到一定的獎勵Ra;不執行安全規程時,可節省安全投入G,但被監管部門檢查出來后將受到懲罰Pa。
假設監管部門的日常收入(一般指上級的撥款等)為Nb,進行安全施工監管的成本為Cb??紤]到監管部門檢查時,如果建筑企業采取不執行安全規程施工的策略,就會采用各種手段來掩蓋,這時監管部門會有一定的失誤概率(即把不安全施工認定為安全施工的概率)e,監管部門失誤時,會受到懲罰(上級部門的直接經濟懲罰或失去公眾信任的間接聲譽損失)Pb,監管部門檢查出不安全施工項目時,由于避免了安全事故的發生,會得到一定的獎勵(上級部門的直接經濟獎勵或公眾信任提升的間接收益)Rb。監管部門監管不力時,如果建筑企業采取不安全施工且發生安全事故,監管部門也將受到懲罰Pb。
1.2模型求解
根據上述假設,建立演化博弈模型的支付矩陣見表1。假設建筑企業采取不執行安全規程策略的比例為采取執行策略的比例為1-監管部門采取監管策略的比例為>采取不監管策略的比例為1-;T。
建筑企業采取不執行策略的期望收益函數E,為:
E1=y“Na+Ga+Ra)+(1-e)
(Na+Ga-Pa)]+(1-y)(Na+Ga)(1)建筑企業采取執行策略的期望收益函數E2為:
E2=y(Na+Ra)+(1-y)Na(2)
建筑企業的平均期望收益函數E為:
E=%EX+(1-x)E2(3)
根據Malthusian動態方程M,建筑企業采取不執行策略的復制動態方程為:
F(x)=字=x(E1-E)=x(1-x)dt1
Ga-(1-e)(Pa+Ra)y](4)
同理,監管部門采取監管策略和不監管策略的期
望收益D1、込及平均收益函數珔和復制動態方程為:
(1-2x)Ga-(1-e)(Pa+Ra)y]
DetJ)=={(1-2x)Ga-(1-e)(Pa+R,a)y]}
{(1-2y)1-e)(Pb+Rb)x-Cb]}+
{x1-x)1-e)(Pa+Ra)}
{y1-y)1-e)(Pb+Rb)}10)
Tr(J)={(1-2x)Ga-(1-e)(Pa+Ra)y]}+
{(1-2y)[1-e)(Pb+Rb)x-Cb]}(11)
J=
雅克比矩陣反映一個可微方程與給定點的最優線性逼近。通過分析系統的雅克比矩陣,可以判斷系統穩定點是否為ESS13。通過分析后發現大多數情況下,系統并不存在某一狀態使得博弈雙方隨著博弈次數的增加而逐漸趨于穩定。因此,下面將在以上演化博弈分析的基礎上建立系統動力學模
D1=xe(Nb-Cb-Pb)+(1-e)
(Nb-Cb+Rb)]+(1-x)(Nb-Cb)(5)D2=x(Nb-Pb)+(1-x)Nb(6)
D=yD1+(1-y)D2(7)
F(y)=學=y(1-y)【1-e)(Pb+Rb)x-Cb]dt
(8)
令(F(x),F(y))=(空,學)=(0,0),得到
dtdt
系統的5個均衡點為:A=(0,0),^=(0,1),
入3=(1,0),4=(1,1),
As=(X,Y)((1-e)(^b+Rb),1-e)(^a+Ra)),
其中,A1,,-A4對應的是純戰略納什均衡,a5對應的是混合戰略納什均衡。
由式(4)和式(8)可得該系統的雅克比矩陣、行列式和跡分別為:
-x(1-x)(1-e)(Pa+Ra)
aa(9)
(1-2y)【1-e)(Pb+Rb)x-Cj.
型,描述博弈雙方博弈關系的長期動力學趨勢,為研究各種不確定因素和制定相關政策提供一個定性與定量相結合的仿真預測平臺16。
2SD演化博弈模型的建立
結合上述分析,采用VensimPLEVersion5.9c建立建筑安全監管的SD博弈模型如圖1所示。Vensim是一個圖形化建模的系統動力學建模軟件,具有模型模擬、數組變量、真實性檢驗、靈敏性測試、模型最優化等強大功能。
該模型主要有4個流位變量、2個流率變量、
9個外部變量和20個中間變量構成。4個流位變量用來表示政府監管部門中采取嚴格監管策略和不監管策略的部門個數、建筑企業中采取執行安全規程施工和不執行安全規程施工的企業個數;2個流率變量表示政府監管部門采取監管策略的部門數量變化率和采取不執行安全規程施工的企業的變化率;
9個外部變量分別對應表1博弈支付矩陣中的9個變量取值,見表2。
3.1模型仿真分析
模型初始值假設為:仿真起始時間INITIALTIME=0,仿真結束時間FINALTIME=100,仿真步長TIMESTEP=0.0078125,Na=3,Ga=2,Ra=I,Pa=3,Nb=3=1,Rb=1.5,Pb=2,e=0afl。下面探討監管部門監管率和建筑企業不執行安全規程施工率,在不同初始值下系統變化的特性。3.1.1博弈雙方初始策略均采用納什均衡博弈雙方初始均采用納什均衡A1=(0,0),
對于圖2中的曲線x=0,=0和曲線x=1,規程施工時,監管部門的最佳策略是不監管;當所有y=1可理解為:當所有的建筑企業都選擇執行安全的建筑企業都選擇不執行安全規程施工時,監管部門的最佳策略是監管。
對于圖2中的曲線x=1,=0和曲線x=0,y=1可理解為:當所有的建筑企業都選擇執行安全規程施工時,監管部門卻選擇監管;而當所有的建筑企業都選擇不執行安全規程施工時,監管部門卻選擇不監管。也就是說當群體中的所有個體都不采取新策略時,即便先前的策略是不利的,也沒有個體會學習新的有利策略,最終群體處于一種穩定的狀態。
下面研究有個體采取新策略的情況。假設x=1,=0.01,即初始時所有的建筑企業均采取不執行安全規程施工,而僅有1%的監管部門監管時,博弈的演化過程如圖3a所示;假設x=0.99,=1,即初始時監管部門均采取監管策略,而有99%的建筑企業不執行安全規程施工時,如圖3b所示。
從圖3a可知,當建筑企業總是采取不執行安全規程施工時,盡管開始只有極少的(1%)監管部門采取監管策略,但是通過學習,監管部門很快都采取監管策略,此時系統達到均衡狀態A^。從圖3b可知,當監管部門總是采取監管策略,盡管開始有大多數的(99%)建筑企業采取不安全施工策略,但是通過學習,建筑企業很快都采取安全施工,此時系統達到均衡狀態A:。
3.1.2博弈至多一方初始時采取混合戰略納什均衡
博弈至多一方采用混合戰略納什均衡值時,假設為(0.5,V),(X*,0.9),則演化過程如圖4所示。從圖4可知,當系統的初始值和混合戰略納什均衡值不等時,隨著時間及博弈次數的增加,博弈雙方的策略選擇存在著比較大的波動。此時,系統的最終狀態并不理想,博弈過程很難被控制。
3.1.3懲罰力度對模型的影響
令x=0.5,二Y*時,考察懲罰力度變化對建筑企業安全施工的影響。假設TIME=50時加大對建筑企業的懲罰力度,即Pa由初始假設值3增加到6,此時模型擬合結果如圖5a所示;假設TIME=50時加大對監管部門的懲罰力度,即Pb由初始假設值2增加到4,則模型模擬結果如圖5b所示。由圖5可看出,加大對建筑企業的懲罰力度,短期內能減小其不執行安全規程施工率,但并不能降低建筑企業的博弈均衡點,所以長期來看并不是有效的策略;但是增加對監管部門的懲罰力度,卻能夠有效地降低建筑企業不執行安全規程施工的概率。
3.1.4獎勵力度對模型的影響
令x=0.5,r=Y*時,考察獎勵力度的變化對建筑企業安全施工的影響。假設在TIME=50時加大對建筑企業的獎勵力度,即R。由初始假設值1增大為3,此時模型擬合結果如圖6a所示;假設TIME=50時加大對監管部門的獎勵力度,即Rb由初始假設值1.5增大為5,模型擬合結果如圖6b所示。由圖6可見,加大對建筑企業的獎勵力度,并不能降低建筑企業的博弈均衡點;但是增加對監管部門的獎勵力度,卻能夠有效地降低建筑企業不執行安全規程施工的概率。
3.1.5監管部門監管失誤率對模型的影響
令x=0.4,=1時,考察監管部門監管失誤率e對建筑企業安全施工的影響,如圖7所示。由圖7可知,當e比較小(小于50%)時,降低監管部門的失誤率能夠快速、有效地降低建筑企業的不執行安全規程施工概率。當e比較大(超過50%)時,盡管監管部門總是檢查,但建筑企業通過演化學習發現監管部門多數時候都出錯,于是最終都會采取不執行安全規程施工的策略,且隨著e的變大學習速度越快。
3.1.6安全投入和監管成本對模型的影響
令x=0.5,=Y*時,考察建筑企業的安全投入和監管部門的監管成本Cb對建筑企業不執行安全規程施工率的影響。假設在TIME=50時建筑企業的安全投入增加,即&由初始假設值2增大到5,此時模型擬合結果如圖8a所示;假設TIME=50時監管部門的監管成本減小,即Cb由初始假設值1減小到0.5,模型擬合結果如圖8b所示。由圖8可見,高額的安全投入會導致建筑企業不惜被查出罰款的風險,最終總是選擇不執行安全規程施工的策略;而減小監管部門的監管成本可有效降低建筑企業不執行安全規程施工的概率。
類似的方法分析該模型的其余外部決策變量發現,Na和Nb的變化對建筑企業不執行安全規程施工率沒有明顯的影響。
3.1.7懲罰機制對模型的影響
通過3.1.3中的分析發現:單純地加大對建筑企業的懲罰力度并不能有效地防止建筑企業的不安全施工行為。如果采取動態懲罰機制,即對建筑企業的懲罰力度Pa和對監管部門的懲罰力度Pb是隨著企業不執行安全規程的嚴重程度(可通過建筑企業不執行安全規程施工率來衡量)而變化的,那么對整個博弈模型的穩定性會產生如何影響呢?綜合考慮獲取企業不執行安全規程施工程度這一信息存在著信息延遲等問題,進一步深化圖1所示的模型,可得到如圖9所示的流圖。
通過對圖4和圖10進行比較發現,通過動態懲罰機制,隨著時間及博弈次數的增加,博弈雙方的策略選擇最終趨向于混合戰略納什均衡值,即動態懲罰機制相對一般懲罰策略,改變了博弈雙方的支付矩陣,能夠有效地抑制博弈過程的波動性,使博弈趨向于一個穩定的狀態。因此,政府上級部門可以通過各種定量的手段獲取建筑企業施工時不執行安全規程的程度指標,針對不同程度制定建筑企業和監管部門的處罰規定,有效地控制建筑施工中的安全問題。
3.2基于模型仿真結果的對策建議
依據上述模型仿真分析結果,筆者對我國建筑安全監管提出如下建議:
3.2.1加大對監管部門的獎懲力度
仿真結果表明,加大對監管部門的獎懲力度可以有效降低建筑企業不安全施工的概率。因此,應當建立針對監管部門及監管人員的獎勵與懲罰相結合、問責與事故預防相結合的激勵機制,即在評價監管部門和監管人員工作時,既要追究其在安全事故中的監管責任,也要獎勵其在事故預防方面的工作業績。這既可以有效激勵監管部門和監管人員的監管力度和積極性,也能促進各級監管部門對建筑安全監管方法由事后追究責任向事前加強防治方面的轉變,這是確保各項安全政策和措施有效執行的關鍵。
3.1.2減少監管部門的監管失誤率通過監管失誤率對模型影響的仿真分析可知,
監管失誤率會對建筑企業的行為產生影響,較高的失誤率會導致越來越多的企業不執行安全規程施工。監管部門將不安全施工認定為安全施工一般源自2種情況:一是監管人員自身水平有限未能發現;二是監管人員與建筑企業之間存在合謀或腐敗。因此,減少監管失誤率需從2方面著手:_是提高監管人員的專業水平和檢查技術手段,二是加強監管人員的職業道德建設,提高監管部門從業人員的素質和責任感。通過減少或避免監管工作中的失誤或失職,以達到良好的監督管理效果。
3.1.3降低建筑安全監管成本
從模型分析可知,減少監管成本可有效降低建筑企業不執行安全規程施工的概率。因此,監管部門應通過技術創新、加強內部運行控制等手段提高監管效率、降低監管成本,從而降低監管部門采取監管策略的門檻。監管部門采取監管的可能性越大,建筑企業違規操作的可能性相應就越小。降低建筑安全監管成本,既能在一定程度上鼓勵建筑企業自我監管,也能體現節約型政府和節約型社會的改革思想。
3.1.4合理控制安全措施投入
建筑企業往往為了追求眼前的效益而不愿進行建筑安全措施投入。事實上,建筑安全管理的理想狀態應該是政府與企業的“雙蠃”即隨著建筑安全管理水平的提高,建筑企業的經濟效益和建筑安全的社會效益均顯著增長17]。因此,一方面,建筑企業應采取科學的安全生產措施,在不影響安全生產的前提下,合理控制安全措施成本;另一方面,政府相關部門應利用自己的優勢組織專家解決建筑安全生產中的關鍵技術,增強技術能力,研究經濟高效的安全防護技術和機具,提高企業安全投入的效果,提高企業增加安全投入的積極性。
3.1.5建立科學的懲罰機制
-個良好的懲罰機制不是單純依靠提高罰款額度來降低違法行為,而是在合理的水平上既能抑制不安全施工發生,也能避免博弈演化過程的波動性。模型仿真結果表明,加大對建筑企業的懲罰力度對于短期內改善建筑安全施工有一定的效果,但從建立建筑安全管理的長效機制來看,還需要有效的結合動態懲罰政策,即懲罰的力度隨企業不安全施工的程度的不同而變化,從而達到穩定地控制安全事故發生的目的。通過建立科學地懲罰機制,使建筑企業將安全施工內在化、自主化,由“要我安全”轉變為“我要安全”,從根本上解決建筑安全施工問題。
4結論
1)演化博弈論克服傳統博弈論完全理性的局限性,而將演化博弈論與系統動力學相結合,可以更有效地擬合、解釋現實中的動態博弈現象,為研究建筑安全監管這一復雜問題提供新的研究思路。