前言:中文期刊網精心挑選了雷雨話劇范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
雷雨話劇范文1
關鍵詞:新課改;語文實踐;教學總結;教學形態
新課程改革沸沸揚揚,但落實到具體教學中時就氣力衰弱,和以前的教學模式并無二致,其精髓卻被浮泛在課堂40分鐘的教學流程中,只是被時髦地利用了一下而已,學生的“自主、合作、探究”活動只不過10分鐘而已,時間一到,自然終止。我常想,課堂40分鐘的教學時間,學生還未來得及體會概念和問題,如何能實現“自主、合作、探究”的深刻意義,所以課堂的這種活動只能以浮泛作結,只是流于形式的時髦應用而已。
到底什么樣的教學形態才會實現教學的真正價值和意義,才會是真正意義上的“自主、合作、探究”呢?先談談我對現代話劇《雷雨》的教學思考和設計。
現代話劇是一種文學形態,是集合了諸多元素在內的舞臺文學藝術,即是一種通過舞臺語言來深刻反映生活的文學形式。它通過演員在舞臺出色的語言方式呈現生活主題,讓人們直觀地從視覺和聽覺上了解人物形象、體會生活和感悟生活。我們對話劇教學的方向是明朗的,即讓學生深入了解這種文學形式。因此,據教學行為可行性的原則,探究的方向可以定出兩個,一是劇本的創作,一是舞臺表演。
在話劇《雷雨》的教學思考中,有兩點可以作為突破點,一是語文必修四只給出了話劇的第二幕劇本,二是它只是文字劇本并非直觀的舞臺表演。對于第一條,可以利用學生的好奇心,讓他們自己推想其他三幕的情節,并且嘗試寫作;對于第二條,可以利用學生強烈的表演欲望,讓他們嘗試排演話劇。這兩項工作是學習話劇的核心工作,扎實有效地做完這兩項,話劇教學的目標也就會完成得很好。
以下是我通過實踐后做出的以《雷雨》教學為出發點的話劇單元教學設計:
(一)新課程的教學思考:(1)強調學生的課堂主體地位;(2)激發興趣點并培養自主操作與創新能力。
(二)新課標與綜合性研究學習的要求:(1)力圖使學生對中外話劇有基本的了解;(2)引導學生觀察語言、文學和中外文化現象;(3)培養發現問題與研討探究的能力。
(三)基本學習內容(前期工作):(1)第二幕文本閱讀;(2)第三、四幕影視欣賞;(3)引導至第一幕的教學中,課本未選章節。
(四)從參與討論到思考創作:(1)分組(4~6人/組),主持1人,執筆1人;(2)討論基本內容為第一幕舞臺布景在周家還是魯家,怎么開場,安排哪些人物,交代哪些內容,矛盾怎么體現,情節如何發展,怎樣才更加合理;(3)形成第一幕劇本草稿并且試排。
(五)組間交流討論,組內修改,分組表演:(1)交流本組創作時遇到的問題,組員出現的分歧,如何解決的,其他組提出建議;(2)表演,討論,修改并形成正稿;(3)閱讀先生第一幕劇本,對比自己的劇本,看看誰距大師更近一步。
(六)學生可能會有的收獲(教學預期):(1)基本了解話劇的表現形式;(2)學會合理安排人物以及情節,會處理人物矛盾和他們之間的復雜關系;(3)懂得話劇表演詞的巨大作用;(4)在自主學習中學會思考問題和處理問題;(5)懂得話劇在舞臺表演上是受時間和空間的限制,懂得合理和集中反映矛盾的必須性和必要性。
話劇《雷雨》的教學計劃用8課時,但實際上達到10課時,雖然未按計劃完成,但我卻收到了意想不到的成果。
其一,同學們表現出了前所未有的興趣和熱情。從分組到作計劃,之后分工再到研討,交流完畢到修改,雖然個別組因爭相主持和發言鬧了小矛盾,但最終都完整地呈現了各自的成果,我作為教學組織者只是不斷地參與各組討論并進行觀察。
雷雨話劇范文2
關鍵詞:劃分方法;聚類算法;研究與應用
隨著我國的數學、計算機科學以及經濟學學科的快速發展,聚類算法得到廣泛使用,加快了數據處理與分析的速度,很大程度上促進了這些學科的發展。而且聚類算法的應用領域已經涉及生活和生產的方方面面,它是將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程。這有很多具體應用的實例,比如說在商業方面,聚類分析方法可以幫助銷售工作者找到不同的客戶群,并且通過聚類分析定的模式來展現客戶群的差異性。實際出真知,聚類分析方法對于市場的整體分析和數據處理等有著極其重要的作用,而且可以根據對客戶群特點的分析準確把握客戶的消費心理,這樣一來能夠促使廠商發現新的商機,開發新型的產業和地區市場,并且能夠將這些信息整合起恚輝詒O招幸擔聚類分析的應用更是在很大程度上解放的人力,很多數據的收集、處理變得極其方便,主要是根據地區的保險業的平均水平來劃分的,以平均值為劃分的界限,再結合局部地區的經濟發展速度、人均工資水平以及對保險業的態度和購買程度進行分組;再者便是在近些年來最為流行的貿易方式――電子商務。電子商務顧名思義用的就是計算機,其本身在數據處理上就占有一定的優勢,利用聚類分析的方法使得電子商務中的交易數據和人群劃分更加明顯,交易人群特點的掌握有利于電商事業的發展,也為更近一步的商務交流提供了建設性的意見。
1劃分方法的基本概念及其常用的方法
劃分方法(PAM:Partitioning method)的定義是首先創建k個劃分,k為要創建的劃分個數。常用的劃分方法有:k-means,k-medics,CLARA(Clustering Large Application),CLARANS(Clus-tering Large Application based upon Randomized Searchl.FCM。其中以k-means的使用最為普通,嚴格來說k--means屬于非層次聚類法的一種,下面我們來看一下它的整個執行過程,一共分為兩個部分,分別是初始化,循環。所謂初始化就是指選擇或是人為指定某些記錄作為凝聚點,但是要注意的一點就是按就近原則進行初始化的選擇,而且要注意記錄中心的數據,最后根據記錄數據重新進行這一過程。一直不斷地重復這一過程,直到凝聚點位置收斂為止。這種方法一般具有節省運算時間等特點。
2具體的運算過程
2.1數據預處理
數據預處理是指我們在對數據進行正式的處理之前,要先對數據的整體進行一下估量,主要從數據的數量、范圍、程度和既定標準這幾方面入手,進行規劃分類和簡單的預測分析,然后再就每一個方面對整體數據的影響進行估量式判斷,建立起一個預測模式。當然在我們有了明確的數據處理和分析結果時要將這一預測模式清楚,避免結果混淆。
2.2定義距離函數
聚類的產生是由于多個領域和數據之間存在著相似性,正是由于事物之間相似性的存在,才促生了聚類的算法。但是這些相似性的存在也極容易造成事物之間的混淆。所以給這些數據設置一個定義函數是非常有必要的。函數的設置是為了避免誤差,所以在設置相似距離時一定要把握好度量,保持數據點之間的平衡,從而保證整個運算過程的準確性。
2.3聚類或分組
數據對象的分類要根據數據的特點、適應的環境或是發揮的作用等來進行分類,而且由于分類時采用的方法不同或是人為因素的干擾,總會產生不同的數據分組。劃分方法一般從初始劃分和最優化一個聚類標準開始。Crisp Clustering,它的每一個數據都屬于單獨的類;Fuzzy Clustering,它的每個數據可能在任何一個類中,Crisp Clustering和Fuzzy Clustering是劃分方法的兩個主要技術,劃分方法聚類方法具有自身的法則優勢,它可以找到在不同的分類組之間的相似性,甚至可以分析出在同一組內分類數據之間存在的差異性,我們常說數據的處理和分析要科學,要辯證的看到事物的兩面性。這種方法本身就是一種辯證的方法,所以用它來分析和處理數據最合適不過了。
3聚類方法的主要應用研究
聚類算法在實際應用過程中涉及多個行業發展。從商業、生物、地理、保險行業、因特網行業以及電子商務行業等都所有涉獵。
3.1商業
在商業市場的發展過程中,往往對于市場未知風險的預測是企業可持續發展的一個重要問題。如果企業能夠有效的預測未來的市場風險,探究潛在的消費者動向,那么往往能夠取得顯著的利益。因此在當前階段,聚類算法能夠為企業研究消費者行為、探究潛在市場發展、選擇實驗室市場等奠定堅實的理論數據基礎。
3.2生物
在生物行業發展過程中,由于現代化科學技術的發展,在進行生物學的研究過程中,基因數據庫的容量大大提升,通過聚類算法能夠有效的根據基因數據庫的特點進行劃分,使人們能夠對種群的固有特征有顯著的認識。
3.3保險行業
當前世界保險行業發展速度較快,而不同的行業所需要的保險種類略有區別。聚類算法能夠根據不同的行業發展類型,制定相應的保險措施,為保險更好地發揮作用效果奠定基礎。
3.4因特網及電子商務
當前階段,電子文庫的發展規模逐漸擴大,聚類算法電子文庫的信息修復以及信息分類上發揮了顯著的作用效果。在進行信息特征搜索的過程中,聚類算法能夠根據相應的關鍵詞檢測整篇文章,大大降低了工作量。
其次當前物聯網時代的到來,物聯網對人們的影響愈加擴大。而通過聚類算法的數據分析和統計等,能夠在最短的時間內根據消費者的消費記錄以及瀏覽行為確定消費者特征,為電子商務的更好更快發展提供有效的保障。
雷雨話劇范文3
關鍵詞:聚類分析;相似度;共享最近鄰;k-平均算法;數據挖掘
中圖分類號:F224.0 文獻標志碼:A 文章編號:1673-291X(2010)05-0238-03
引言
隨著信息技術的不斷發展,數據庫應用的范圍、規模和深度也在不斷的擴大,這樣就導致積累了大量的數據,而人們所關心的往往是這些數據背后所隱藏的信息。目前,商業界普遍使用的條形碼和科學研究領域利用先進的數據測量儀器所測出的數據,這些數據都是海量的。面對這樣龐大的數據庫,人們迫切的需要一種有效的技術從這些龐大的數據中智能、自動地提取出來有價值的知識或是信息,這就是所謂的數據挖掘技術。而聚類分析正是數據挖掘所采用的關鍵技術之一,它被用于發現隱藏在大量數據中的分組和令人感興趣的數據模式。迄今為止,人們提出了許多聚類算法,所有這些算法都試圖解決大規模數據的聚類問題。
一、聚類的基本概念
1.聚類的定義
所謂聚類[1],就是將一個數據集合分成若干個稱為簇或是類別的子集,每個簇中的數據都是具有很高的相似度,而簇之間具有較低的相似度。
簇的定義[2]:由于不同的應用所分析的具體數據具有不同的特征,因此聚類的目標簇具有不同的的形式和定義。簡單的來講,簇就是聚類分析結果中由相似的數據對象所組成的一個個的分組就成為簇,同一簇中的點具有很高的相似性,不同簇中的點具有很高的相異性。
2.聚類的一般步驟
聚類分析一般的主要步驟如下:
(1)特征選擇。首先必須適當的選擇特征,盡可能多的包含任務所關心的信息。在選擇特征中,信息的多余減少和最小化是主要的目的。
(2)相似性度量。用于定量度量兩個特征向量之間的相似度。一個簡單的度量如歐氏距離經常被用來反應兩個特征向量之間的非相似度。
(3)聚類算法。已經選擇了合適的相似性度量,這步涉及到選擇特定的聚類算法,用于揭示數據集中隱藏的數據結構。
(4)結果驗證。一旦用聚類算法得到了結果,就需要驗證其正確性。
(5)結果的判定。在許多情況下,應用領域的專家必須用其他實驗數據和分析判定聚類結果,最后得出可被人理解的正確的結論。
3.聚類的典型要求
一種好的健壯的聚類方法應當具有可伸縮性、具有處理不同類型屬性的能力、能夠發現任意形狀的簇、先驗知識最小化、具有處理噪聲數據的能力、對輸入數據的順序不敏感、具有處理高維數據的能力、基于約束的聚類、具有可解釋性和可用性。
二、典型的聚類方法
1.基于劃分的方法
給定一個包含n個數據對象的數據庫,以及要生成簇的數目k,一個基于劃分的聚類算法將數據對象組織為k個劃分(k
k-平均算法(k-means)首先隨機選取k個數據對象,每個對象代表一個簇的平均值或中心點。其余的對象按照它們與這些平均值之間的距離,被賦予與之最相近的簇。然后,算法對每個新簇重新計算其平均值。這個過程一直迭代直到一個準則函數收斂為止。典型的準則函數是方差準則函數,定義為:E=xeCx=m
其中x代表數據空間中給定的對象,mi是簇Ci的平均值(x和mi可以是任意維的向量)。該準則函數試圖使結果簇內部盡可能地緊湊并相互分離。
k-中心算法(k-medoids)不采用簇中對象的平均值,而是采用簇中心點(medoid)作為參照點。對象劃分的原則仍與k-平均算法一樣是基于最小化所有對象與其參照點之間的相異度之和。該算法首先為每個類隨機選擇一個代表對象,剩余的對象根據其與代表對象的距離分配到最近的一個類中, 然后反復地用非代表對象替代代表對象, 以改進聚類的質量。
2.基于層次的方法
層次聚類法(hierarchicalcl ustering methods)是一種廣泛應用的一種經典方法[4]。這種方法的基本思想是:先將n個樣本各自看成一類(簇),然后規定樣本之間的距離和類與類之間的距離。最初每個樣本自成一類,類與類之間的距離即為樣本之間的距離。然后選擇距離最小的一對合并為新類,接著計算新類與其他類之間的距離,再合并間距最小的兩個類,依次迭代,直到所有的樣本都歸于一類。具體分為兩種:凝聚的(agglomerative)層次聚類和分裂的(divisive)層次聚類。
凝聚的層次聚類是采用自底向上的策略,首先將每個對象作為一個簇,然后合并這些原子簇為越來越大的簇,直到所有的對象都在一個簇中,或者某個終止條件被滿足。絕大多數層次聚類方法屬于這一類,只是區別在簇間的相似度定義上。
分裂的層次聚類采用與凝聚的層次聚類相反的策略,首先將所有對象置于一個簇中,然后逐漸細分為越來越小的簇,直到每個對象自成一個簇,或達到某個終止條件。例如,達到了預期的簇的數量,或者兩個最近的簇之間的距離超過了某個閥值。
3.基于密度的方法
DBSCAN (Density-Based Spatial Clustering of Applications with Noise)是一種典型的基于密度的聚類算法。[5]該算法的基本思想是:一個類能夠被其中的任意一個核心對象所確定,為了發現一個類,DBSCAN先從數據集D中找到任意一對象P,并查找數據集D中以Eps (半徑)和MinPts (最小密度閥值)為參數的從對象P密度可達的所有對象。如果P是核心對象,也就是說半徑為Eps的P的鄰域中包含的對象數不少于MinPts個,則根據算法可以找到一個關于參數Eps和MinPts的類,如果P是一個邊界點,即半徑為Eps的P的鄰域包含的對象數目小于MinPts個,則沒有對象從P密度可達,P被暫時標注為噪聲點,然后DBSCAN 處理數據集D中的下一個對象,該算法的時間復雜度為O (NlogN) (N是數據集中的數據對象數目)。
4.基于網格的方法
基于網格的(grid-based)聚類方法采用一個多分辨率的網格數據結構。它將空間量化為有限數目的單元,這些單元形成了網格結構,所有的聚類操作都在網格上進行。這種方法的主要優點是處理速度快,其處理時間獨立于數據對象的數目,僅依賴于量化空間中每一維上的單元數目?;诰W格的代表性算法有STING和CLIQUE等。
5.基于模型的方法
基于模型的聚類方法試圖優化給定的數據和某些數據模型之間的適應性。[6]這類方法經常是基于這樣的假設,即數據是根據潛在的概率分布生成的。基于模型的方法主要包括統計學類方法和神經網絡類方法。
三、基于幾何光滑度的案例聚類方法
由于上述算法都存在一些局限性,一般只能發現凸型的類或是球型的類,而對于凹形或是任意形狀的類或是具有高度稀疏特性的類就無能為力,因此,本文提出基于SNN相似度的類似于幾何中自由曲線曲面拼接光滑度計算(即連接點處若干階左右導數一致)的聚類算法,即基于幾何光滑度的光滑拼接聚類算法,算法本身可由光滑度參數來調節。
1.SNN相似度
數據對象之間相似的程度取決于它們共享最近鄰的數量。任一數據對象的k個最近鄰組成 一個最近鄰列表,兩個對象之間的共享最近鄰為它們最近鄰列表的交集。特殊地,當兩個對象的k最近鄰列表完全一致時,它們的相似程度最大。SNN相似度就是它們共享的近鄰個數。計算SNN相似度可利用下述算法。
2.相關定義
如前所述,SNN相似度就是它們共享的最近鄰個數。通過算法1我們能夠計算出所有樣本間的SNN相似度并組成相似度圖。隨后我們可以應用到基于SNN的聚類算法中,但是一般的基于SNN的聚類算法如JP聚類[7]和基于SNN密度聚類[8]都存在一個共同的缺點:一個樣本集是分裂成兩個類還是保持不變,可能依賴于一條鏈,這使它們顯得有些脆弱。例如,如果有3個樣本x1,x2,x3,x1和x2有一個很高的SNN相似度,x2和x3也有一個很高的SNN相似度,但x1和x3的SNN相似度卻為0,這時應用JP聚類算法或基于SNN密度聚類算法,x1,x2,x3一般會歸到一類中去。這顯然不是很好的聚類。因為直觀上看,如果這3個樣本是一類,那么x1和x3也應該有一個較高的SNN相似度,而不至于很快降為0。這類似于幾何中計算參數曲線拼接問題,如果兩條參數曲線在拼接點滿足越高階的導數連續性,拼接后的曲線就被認為越光滑,在直觀上也覺得它更象一條曲線了。因此,我們根據幾何中的這種現象提出基于SNN相似度的n階光滑度的定義。在此基礎上再提出光滑拼接聚類算法。
定義1:如果有一條長鏈,由2n+1個樣本點x-n,…,x-1,x0,x1,…,xn組成。假設鏈可表示為:x-n?圮x-n+1?圮…?圮x-1?圮x0?圮x1?圮…?圮xn-1?圮xn,其中,每個樣本點和其后的樣本點之間的SNN相似度是這兩個樣本點組成的單鏈強度(大于0)。我們把這個長鏈看作是一個短鏈x-n?圮x-n+1?圮…?圮x-1?圮x0與另一個短鏈x0?圮x1?圮…?圮xn-1?圮xn在x0處的拼接。如果x-1與x1的SNN相似度不為0,則稱原長鏈在x0處是1階光滑的;否則稱為0階光滑的;如果x-2,x-1,x1,x2的兩兩SNN相似度都不為0,則稱原長鏈在x0處是2階光滑的;一直下去,如果有x-n,…,x-1,x1,…,xn兩兩之間SNN相似度都不為0,則稱原長鏈在x0處是n階光滑的。
定義2:如果有一條長鏈,由n+1個樣本點x0,x1,…,xn組成。假設鏈可表示為:x0?圮x1?圮…?圮xn-1?圮xn,其中,每個樣本點和其后的樣本點之間的SNN相似度是這兩個樣本點組成的單鏈強度(大于0)。我們把這個長鏈看作是一個單鏈x0?圮x1與另一個短鏈x1?圮…?圮xn-1?圮xn在x1處的拼接。如果x0與x2的SNN相似度不為0,則稱原長鏈在x1處是1階單側光滑的;否則稱為0階單側光滑的;如果x0,x2的SNN相似度也不為0,則稱原長鏈在x1處是2階單側光滑的;一直下去,如果有x0 , x1,…,xn兩兩之間SNN相似度都不為0,則稱原長鏈在x1處是n階單側光滑的。
3.算法設計
通過算法1我們可以從數據集{xi1≤i≤m}中計算出任意兩個樣本間的SNN相似度,并組成一個m×m階的SNN相似度矩陣。從此矩陣中可以找出Cm2個單鏈,其中,每個單鏈的強度為兩個樣本點的SNN相似度。如果兩個短鏈中含有相同的樣本點,我們可以考慮把它們合并成一條鏈,并檢查這種拼接在拼接點是否滿足s階光滑(如果兩條都是單鏈,則s只能取1),如果滿足,就合并;否則,它們就不拼接而維持原狀。由于拼接需要考慮光滑度,因此這種拼接聚類不僅僅依賴于單鏈的強度,s值如果過大,會導致一些單鏈無法拼接。這將會導致類別數目過多。假設已有一個連通圖,而一條單鏈要在連通圖的一個節點處拼接,從這個節點出發在連通圖中可以找到若干條短鏈,這個單鏈要與這些短鏈在拼接點滿足一個指定的光滑度。因為拼接要有確定的先后順序,以保持實驗結果的穩定,所以我們預先將單鏈集中的單鏈按強度(即SNN值)由大到小排序。這樣先拼接的單鏈的強度大,但光滑度要求低;后參加拼接的單鏈的強度(同一類內而言)越來越小,但光滑度要求越來越高。由此可知,這種拼接是強度和光滑度之間互補的。這顯然是合理的,因為如果一個樣本點要加入一個類中,如果和類中的某個樣本沒有很大的SNN相似度,那么它至少應該和這個類中的很多樣本有一個共享最近鄰(SNN值為1)。由于算法內含強度和光滑度互補的運行機制,因而算法本身不需要設置參數。在拼接過程中,滿足條件就進行拼接,但在第k層節點拼接之間,我們可以刪除之前的第k-1層節點的單鏈,因為這些節點已經屬于一類,無需參加拼接,這樣單鏈集容量就能迅速降低,加快算法。
具體的基于SNN相似度的光滑拼接聚類算法可以描述如下:
四、實驗與分析
本次試驗我們采用數值型數據進行試驗,這樣可以簡化操作,便于進行數據進行處理,突出我們所采用的聚類算法的有效性。
1.數據集
實驗所采用的數據集來源于國家從2004―2007年全國總共發生的洪澇災害,總共由100條數據點組成。在這個數據集中,我們可以將取值密集但相同的變量去掉,并將一些非數值文字型的不影響實驗結果的變量去掉,最終每個數據點都是一個24維的向量。
2.實驗結果分析
對于算法1中我們將最近鄰參數k取值為常數6,算法2中光滑度參數s取定值為1。我們采用算法2進行聚類分析,在結果中我們發現類別編號1、3、5、7四個類是算法所發現的類,這些類中數據點相對集中,其他還有少量數據點的類別均看作是噪聲。并且發現四級響應級別數據點相對比較集中。并發現那些被看做是噪聲的數據點一般都是屬于個別年份離類別較遠的數據點。
聚類分析是數據挖掘中的一種非常實用的技術,它能夠發現大量數據背后所隱藏的數據分布模式與關聯規則,以便提供給我們有價值的信息。目前聚類算法已經應用到許多領域,但是仍然存在諸多缺陷。今后,聚類算法將在可伸縮性、容錯性、易用性、處理高維數據等方面加以提高和改進,以便能夠更好地應用于更多的領域,解決其他方法不能夠解決的問題。
參考文獻:
[1] Han JiaWei.Kamber數據挖掘概念與技術[M].北京: 機械工業出版社, 2001.
[2] 邵峰晶,于忠清. 數據挖掘――原理與算法[M].北京: 中國水利水電出版社, 2003.
[3] 王實,高文. 數據挖掘中的聚類算法[J].計算機科學,2007, (4): 42-45.
[4] 武森,高學東. 高維稀疏聚類知識發現[M]. 北京: 冶金工業出版社, 2003.
[5] 周水庚,周傲英,曹晶. 基于數據分區的DBSCAN算法[J]. 計算機研究與發展, 2000,(10): 1153-1159.
[6] Guha, S, R. Rastogi, and K Shim, Rock. A robust clustering algorithm for categorical attributes. Information Systems, 2000,25(5): 345-366.
雷雨話劇范文4
關鍵詞: 聚類分析;差分進化;K-均值聚類算法;Laplace 分布;Logistic混沌搜索
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2013)22-5064-04
K-均值算法是由MacQueen[1]提出的一種經典的聚類分析算法,它具有算法簡單且收斂速度快的優點,但是算法的聚類結果易受初始聚類中心影響,且容易陷入局部最優。近年來許多學者利用各種常用智能優化算法(如遺傳算法[2-3]、微粒群優化[4]等)對K-均值算法進行改進,并取得了不錯的效果。
由Storn和Price提出的差分進化(Differential Evolution, DE)算法[5]是一種基于群體進化的啟發式算法。該算法從原始種群開始,通過變異(Mutation)、交叉(Crossover)和選擇(Selection)操作來生成新種群,通過計算每個個體的適應度值,來確定個體的保留或淘汰,然后通過不斷迭代運算,引導搜索過程向最優解逼近。文獻[6-7]利用差分進化對K-均值算法進行改進,結果表明,與基于傳統遺傳、微粒群優化等常用進化算法的K-均值改進算法比較,基于差分進化的K-均值改進算法能獲得更好性能。但是,傳統差分進化算法也存在算法收斂速度與全局尋優能力之間的矛盾,進化后期易出現早熟、停滯現象,通過改變控制參數雖然可以提高算法收斂速度,但是也會造成其全局尋優能力的下降,從而使得基于傳統差分進化的K-均值改進算法的性能受到一定影響。
針對上述問題,該文提出一種基于改進差分進化的K-均值聚類算法,基本思想是:在差分進化算法中通過引入Laplace變異算子來提高算法收斂速度和全局尋優能力,同時通過引入Logistic變尺度混沌搜索,以克服傳統差分進化算法進化后期可能出現的早熟、進化停滯現象;然后將其用來改進K-均值算法。實驗結果證明,該算法具有較好的全局尋優能力,且收斂速度較快。
1 聚類的基本數學模型
2 改進差分進化算法
2.1 傳統差分進化算法
2.2 Laplace變異算子
2.3 Logistic變尺度混沌搜索
3 基于改進差分進化的K-均值聚類算法
3.1 個體編碼
3.3 算法步驟
步驟1:設定個體數N,最大迭代次數Gmax。
步驟2:種群的初始化:隨機選取樣本作為聚類中心,并計算當前位置適應度值。
步驟3:對于個體Xi,G按3.2描述產生變異算子F。
步驟4:分別根據式(3)執行變異操作,根據式(4)執行交叉操作,生成試驗向量[Uki,G],根據式(5)執行選擇操作。
步驟5:根據個體的聚類中心編碼,按照最近鄰法則重新劃分樣本的歸屬類別。
步驟6:重新計算新的聚類中心,以替代原值。
步驟7:由式(11)判斷是否陷入局部最優,若是,則對該個體變尺度混沌搜索,以利于跳出局部最優,轉到步驟3。
步驟8:如不滿足所設的終止條件,則轉到步驟3,同時G的值自增1;否則輸出最好個體值Xbest及最好適應度值[fXbest],算法結束。
4 實驗及效果評價
5 結束語
本文首先在傳統差分進化算法中引入Laplace變異算子和Logistic變尺度混沌搜索以提高其性能,然后將改進的差分進化算法應用于K-均值算法。實驗結果表明:該文算法較好地克服了傳統K-均值算法的缺點,具有較強的全局搜索能力,且收斂速度較快。
參考文獻:
[1] MacQueen J. Some methods for classification and analysis of multi-variate observations[C]// Proc. of the 5th Berkeley Symposium on Mathematics Statistic Problem, 1967, 1: 281-297.
[2]王家耀,張雪萍,周海燕.一個用于空間聚類分析的遺傳K-均值算法[J].計算機工程,2006,32(3):188-190.
[3] Michael Laszlo, Sumitra Mukherjee.A genetic algorithm that exchanges neighboring centers for k-means clustering[J]. Pattern Recognition Letters,2007,28(16):2359-2366.
[4] Omran M G H, Engelbrecht A P, Salman A. Dynamic clustering using particle swarm optimization with application in unsupervised image classification [J]. Proceedings of World Academy of Science, Engineering and Technology, 2005, 9(11): 199-204.
[5] Storn R, Price K.Differential evolution-a simple and efficient heuristic for global optimization over continuous spaces[J].Journal of Global Optimization, 1997, 11(4):341-359.
[6] Paterlini S , Krink T.High performance clustering with differential evolution[C]//Proc. of Congress on Evolutionary Computation,2004,2:2004-2011.
[7] Sudhakar G. Effective image clustering with differential evolution technique[J]. International Journal of Computer and Communication Technology,2010,2(1):11-19.
[8] Kuo-Tong Lan, Chun-Hsiung Lan.Notes on the distinction of Gaussian and Cauchy mutations[C]// Proc. of Eighth International Conference on Intelligent Systems Design and Applications,2008:272-277.
[9] 劉興陽,毛力.基于Laplace分布變異的改進差分進化算法[J].計算機應用, 2011,29(10):2719-2722.
[10] 沈明明,毛力.融合K-調和均值的混沌粒子群聚類算法[J].計算機工程與應用, 2011,47(27):144-146.
雷雨話劇范文5
關鍵詞 地理氣候 聚類分析 判別分析
中圖分類號:G642 文獻標識碼:A
0 引言
氣候分類①是將全國氣候按某種標準劃分為若干類型的過程。決定各地氣候物理條件的因素主要指決定各地地理位置的諸要素,如緯度、高度、海拔分布等。此外,海流、盛行風也可作為氣候因素。
本文選取中國氣象科學數據共享服務網②中的一組數據集,采用年平均氣壓、年平均氣溫、年極端最高氣溫等8個指標,用最短距離法對重慶—沙坪壩、福建—福州、安徽—安慶等24個城市進行聚類分析,確定了5類氣候區域,并對各類區域的氣候特點進行分析,得出劃分結果與實際各城市氣候特點相符的結論;再從這24個城市中選擇幾個城市重新進行判別分析,并利用判別分析對聚類分析的評價結果進行檢驗,最終確定5類氣候分劃。
1 聚類分析的基本原理及應用
1.1 聚類分析的基本原理
聚類分析是將數據所對應的研究對象進行分類的統計方法。其基本原理是依樣品的屬性或特征,用數學方法定量地確定樣品間的親疏關系,再按其親疏程度劃分成不同的類,得出能反映個體間親疏關系的分類系統。
本文選用歐氏距離③系數作為統計量。其數學表達式為: =
其中為第個樣本第個因子的值;為第個樣本第個因子的值;為因子個數。
由于歐氏距離受量綱的影響,因此首先將數據標準化,公式為:
并采用最短距離法進行聚類分析,具體分析步驟④⑤如下:
(1)所有的樣本點各自為一類。計算樣本之間的距離,共有個,將計算結果排成距離矩陣:
(2)按最短距離逐步歸類。從矩陣表中選擇距離最短的兩個樣本歸并為一類。再將其組成新的序列,繼續計算新類同其他樣本的距離。依上述方法重復計算,每一次都按距離最短的兩個樣本組合并成新類或歸并到其他類,直到所有代表樣本連成一個完整的分類系統。
(3)畫出聚類分析圖。
1.2 聚類分析的應用
按上述步驟得到的聚類結果及結果分析如下:
Ⅰ區:德欽。云南氣候復雜,兼具低緯氣候、季風氣候、山原氣候的特點,主要特征表現為:氣候垂直變化明顯;年溫差小,日溫差大;降水充沛,干濕分明,分布不均。
Ⅱ區:大柴旦。青海具有高原大陸性氣候,光照充足;冬寒夏涼,暖季短暫,冷季漫長;雨量偏少,干濕季分明。
Ⅲ區:東方。海南最具熱帶海洋氣候特色,全年暖熱,雨量充沛,干濕季節明顯,常年風力較大,氣候資源多樣。
Ⅳ區:成山頭、大連、阿巴嘎旗、富錦、長春、阿勒泰、敦煌、鹽池、盧氏、北京 、天津。以上地區位于長江以北,屬于溫帶地區,具有溫帶海洋、溫帶季風、溫帶大陸等氣候特點。
Ⅴ區:貴陽、鄂西、沙坪壩、安慶、東臺、上海、廣州、常德、福州、贛州。以上地區位于長江以南,普遍具有亞熱帶氣候特點。
顯然,這種聚類結果與現實中這些城市所屬的地理氣候大致是相同的,用聚類分析法將該組數據劃分成5類是符合實際意義的。
2 判別分析的基本原理及應用
2.1 判別分析的基本原理
距離判別是最簡單、直觀的一種判別方法,由于在統計分析中有必要考慮隨機變量方差的信息,因此本文選用馬氏距離③。樣本與均值為,方差為的總體的馬氏距離為:
(, ) =
由于聚類分析結果為前三類各有一個城市,因此,本文只考慮Ⅳ區和Ⅴ區,用已聚類得到的這兩類作為已知總體,選擇其中的幾個城市進行回代來驗證聚類結果的可信度。因此,本文考慮兩總體的距離判別問題,分兩種情況討論:兩總體協方差陣相同不同的情況。
設兩個總體為和,其均值向量分別為和,協方差陣分別為和,現在給一個樣本,要判斷來自哪一個總體。
(1)兩個總體的協方差矩陣相同時,即≠,==
2.2 判別分析的應用
在聚類分析產生的第Ⅳ類和第Ⅴ類分別作為總體,來回判聚類結果中第Ⅳ類、第Ⅴ類的所有城市屬于哪一類總體,這屬于以上所介紹的兩個總體的距離判別問題。
其判別分析結果為:未作為判別總體的北京和天津屬于第Ⅳ類、贛州屬于第Ⅴ類,而作為判別總體的那18個城市在回判過程中仍然還屬于聚類過程中所屬的那一類,這種判別結果與現實中這些城市所屬的地理氣候大致相同,同時還與聚類分析的結果一致,進一步驗證了這8個指標變量的有效性。
3 結束語
通過上面的聚類分析和判別分析,根據各城市的主要指標,將某年全國主要城市的氣候標準值數據劃分為5類:Ⅰ Ⅴ類區。通過分析比較各類城市的氣候指標,可將全國各省的氣候類型進行劃分,并可以對全國其他地區的氣候類型進行推斷,進一步做出該城市的大致的所屬區域:長江以南或以北、溫帶或亞熱帶以及各種雨量或其他氣候特征。因此,可用這些氣候指標數據,對某一省市進行地理區域劃分,通過該劃分進一步對不同地理區域的農業發展、經濟開發等各方面進行研究,推動我國各項事業的綜合發展。
基金項目:國家自然科學基金資助項目(項目編號:41071247)
注釋
① http:///view/746962.htm.
② http:///shishi/climate.jsp stprovid=%B1%B1%BE%A9.
③ 薛毅,陳立萍.統計建模與R軟件[M].北京:清華大學出版社,2011.
雷雨話劇范文6
Abstract: Traditional automated attendance records manage system is too rigid for modern company, and it cannot give more humanized attendance results in view of workers’specific situations. Even in medium and small-sized enterprises, it will generate a large amount of attendance records every month. The traditional system just processes these information separately, so it will lose a lot of valuable information and also bring some difficulties in the future system maintenance. But clustering analysis technique will help to solve this problem. This method treads the whole records as a dataset and it will find some useful clusters. Then these clusters will help to classify the individual attendance records. And at the same time, this method will give the differences between the clustering results and individual records which will finally come to the more humanized attendance ranking.
關鍵詞:聚類;分類;考勤系統
Key words: clustering;sorting;attendance system
中圖分類號:TP274 文獻標識碼:A 文章編號:1006-4311(2015)35-0138-03
0 引言
考勤系統是現代企業管理中必不可少的一環,隨著技術的發展,考勤的技術手段也在不斷地進步,從最初的人工手動記錄,轉變為打卡式考勤,指紋式考勤,人臉識別式考勤等,上述的考勤方法又可歸結為主動式考勤。隨著RFID[1]技術的發展,員工可以不再主動地對自己的上下班進行記錄,考勤設備利用感應技術主動地記錄員工的上下班情況,這一類技術又可歸結為被動考勤技術。
無論是主動考勤技術還是被動考勤技術,其記錄的核心信息都只有兩種,一種是員工的身份信息,另一種是這個身份信息下所對應的考勤記錄序列。目前企業中所使用的考勤系統[1,2]其核心可分為兩塊:請假子系統與遲到早退判別子系統。遲到早退判別子系統的核心方法是利用系統中設定好的班制信息對員工的打卡信息進行判定,篩選出遲到早退的情況。這樣的判定邏輯幾乎被用在所有的考勤信息處理系統中,但是隨著公司管理技術的發展,這種考勤模式所存在的問題也日漸凸顯出來。
首先,這樣的考勤系統是需要預先錄入考勤規則的,也就是說相關人員需要配置班制信息,班制的增刪修改都將影響系統的判定,并且在公司沒有使用更先進的考勤設備技術前,從考勤設備中導出的數據往往是不帶有班制信息的,這就給考勤系統的班制判斷帶來了更大的困難;其次,這種根據規則判斷的考勤系統無法實現更為人性化的考勤管理,對于員工的遲到數據,系統沒辦法給出非量化的判斷,例如,對于某員工的偶發性遲到與某員工的習慣性“踩點”遲到這兩種情況,傳統的判斷方式無法區別,只能同樣處罰兩個員工的遲到行為,這樣的管理方式有失公平,不夠人性化。
對于中型企業而言,隨著員工規模的增加,公司的考勤數據可以利用數據挖掘的方法進行非“量化”的處理,每一種班制的員工打卡記錄都具有特定的模式,即使上班的人員數量不多,但是由于其具有時間上的重復性,依然可以形成某一班制的特性。目前尚沒有文獻研究嘗試利用聚類技術對考勤系統進行改良,本文嘗試利用某公司的真實考勤數據,利用聚類分析的方法實現一種新的考勤判定系統,降低考勤系統開發的復雜度,提高算法的通用性。
1 數據預處理
1.1 數據導入并格式化 打卡設備所導出的原始數據是非標準化的,導出的文件格式更適用于人工判斷處理,其原始格式包含表標題、日期行、員工信息行、員工打卡記錄行,如圖1所示。
本文利用mysql數據庫對數據進行格式化存儲,利用PHP插件PHPEXCEL將原始xls文件導入到計算機中。
由于原始數據打卡記錄中存儲的是時間字符串序列,這樣的字符串序列不利于后續數據的計算處理,故利用下述公式行映射轉換:t=h?60+m
其中m為時間字符串中“:”后面的分鐘數,h為前面的小時數,t為映射后的值,其實際含義為當天時刻對應的分鐘數。導入后的數據如圖2所示。
1.2 缺失冗余數據清洗 數據清洗是數據挖掘步驟中不可缺少的環節,其目的在于清除數據中錯誤的、不相關的數據,避免對后續分析產生影響[3]。
從打卡記錄中可以發現,有些時間點的時間間隔非常短,前后相距不超過五分鐘,此種情況常常是由于設備靈敏度或者人為遺忘打卡后重復打卡導致的數據冗余,為了避免這種情況對于數據準確性的影響,在數據清洗過程中,首先將時間間隔低于2的數據合并,并以第一個時間作為合并后的時間間隔,同時記錄這一天內的打卡記錄數。最終形成待挖掘數據集,如圖3所示。
2 聚類分析
2.1 聚類模型選取 在選取聚類模型前,首先利用統計的方法對打卡時間點按每十分鐘做一次統計,繪制圖像如圖4所示。
通過統計圖不難發現,打卡記錄在某些時間點上存在顯著的聚集情況,同時在平時又呈現出分散的效果,利用統計的方法去發現其中的模式顯得非常的困難。
聚類分析簡稱聚類(Clustering)[4],其作用是將數據對象劃分成為多個簇,使得簇內部的相似度很高,而簇與簇之間的相似度很低,聚類被廣泛應用于商務智能、圖像識別等領域。聚類技術又被稱為無監督的學習,與之對應的是有監督的學習―分類技術(Sorting)。
本文為了在對班制判斷的時候避免需要提前錄入班制的情況,故利用聚類技術對數據進行聚類,獲取班制信息,并利用其與聚類“邊界”的關系,計算出差異的權重值。
聚類算法大致可以分為層次聚類、劃分聚類、密度聚類、網格聚類等幾大類[5]。劃分類聚類方法中k-means最為著名,但是k-means與許多聚類方法都有著一個問題―需要提前確定聚類個數[9],或者在試驗中憑經驗獲取聚類參數k,通過實驗,隨著K取值的變化,分類結果也存在著顯著的差異,當k=8時聚類結果如圖5所示。
從聚類結果中可以看出,參數k對于聚類結果有著顯著的影響,為了降低對程序開發及維護人員的工作,故本文不采用k-means聚類防范,而利用參數較為不敏感的密度聚類算法,對考勤時間序列模式進行聚類分析。
2.2 聚類算法說明 密度聚類(DBSCAN)[6,7]是一種能夠發現任意形狀類團的聚類方法,除此以外,相比劃分類聚類方法,其無須指定類團數目參數,而是用領域半徑與領域密度閾值來實現聚類。
密度聚類算法思路非常簡單,任意選取一點,將其標記為“已訪問”,并在其ε半徑內尋找其它點,如果在ε半徑內滿足MinPts個點,則繼續訪問這些點,重復上述操作,如果不滿足,則將該點置為離群點。并且DBSCAN聚類方法還可以通過利用PC設備上的GPU進行加速運算[10]。
DBSCAN算法在類團邊緣存在一些邊緣判斷錯位的問題[11],由于本文的真實數據集的特性,聚類邊緣不容易出現兩個類團交叉的現象,并且本文所使用的MinPts相對較小,也不容易產生這一問題。
本文采用的密度聚類參數為:MinPts=15,ε=50,MinPts的值是由一個班制一個人在一個月內至少有15次打卡記錄得出的,ε的參數值是通過幾輪實驗最終確定的。
2.3 聚類結果處理 通過類團數據,利用類團數據計算類團中心并分析結果如圖7所示。
其中類別1與類別2均非正常班制,在傳統考勤系統中也并未明確給出該班制,而類別4為某員工自發加班所形成的班制也并未在班制表中出現。如表1。
3 離群點處理
3.1 離群點原因 雖然聚類數據包含大部分的打卡記錄點,但是依然有一些數據點被孤立在簇以外形成離群點[8],離群點產生的原因有很多種:漏打卡,重復打卡,非正常上下班,數據錯誤等。
3.2 離群點處理 離群點產生的原因很多,甚至遠遠超過正常類團的數量,對于考勤記錄中的離群點,可行的處理方式有三種:第一種,由于數據缺失重復導致的離群情況。這種情況可以利用特定個體當月的其它考勤記錄,通過其它考勤記錄的長度均值判斷離群數據點的離群原因;第二種,依然利用聚類技術找出離群點的共性,一個月的離群數據可能不足以形成可解釋的類團,但是隨著時間的積累,離群點的數量也最終滿足聚類的數量要求,形成新的類團;第三種,對于偶況的離群點,采用人工歸納的方式,形成離群庫,為以后此類離群現象提供參照。
4 總結
通過數據實驗可以得出,利用聚類方法能夠較為準確地獲得班制信息,甚至可以發現班制表中不存在但是在實踐中會出現的班制情況,這也證明了在班制判斷領域,聚類分析方法有著更為通用的表現。通過聚類的可視化,又發現了打卡時間的邊界效應,從而解決了無法準確分辨時間點的上下班屬性。利用數據挖掘的思路解決考勤判定這一問題有著傳統方法無法實現的巨大優勢。但是,利用這種方法也存在著一些不足,如無法準確獲取遲到的具體時間,離群點的聚類效果不理想等問題。由于本次實驗所采用的數據長度均為2,從某種成都上簡化了模型的復雜度,對于真正投入系統運行,還需要結合真實數據進一步調整。
參考文獻:
[1]唐勇.RFID身份識別考勤系統設計[D].電子科技大學,2013.
[2]陳英.員工考勤管理系統的設計與實現[D].南京郵電大學,2014.
[3]孟龍梅.數據挖掘過程中數據清洗的研究[J].通化師范學院學報,2015(4).
[4]韓家煒,堪博.數據挖掘:概念與技術[M].范明,孟小峰,譯.機械工業出版社,2007.
[5]孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學報,2008,19(1):48-61.
[6]高N.基于密度聚類算法的改進方法研究[D].大連理工大學,2007.
[7]黃文.數據挖掘[M].電子工業出版社,2014.
[8]鄧玉潔.基于聚類的離群點分析方法研究[D].重慶大學,2012.
[9]Dudik J M, Kurosu A, Coyle J L, et al. A comparative analysis of DBSCAN, K-means, and quadratic variation algorithms for automatic identification of swallows from swallowing accelerometry signals[J]. Computers in biology and medicine, 2015, 59: 10-18.