聚類分析論文范例6篇

前言:中文期刊網精心挑選了聚類分析論文范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。

聚類分析論文

聚類分析論文范文1

系統主要實現軟件的模塊話設計,包括反射率數據分析模塊、速度分析模塊、天線運行穩定性分析模塊以及雷達組網數據分析模塊。

1.1反射率分析模塊

反射率的大小體現了氣象目標的降水粒子的密度分布及體積大小,在實際氣象技術中長期用于表示氣象目標的強度,在工作上采用dBZ單位表示。對于空管氣象雷達圖,數據顯示采用PPI(PlanPositionImage)顯示方式。該方式決定了一張氣象雷達圖由圓錐俯視平面上分析空間的回波構成。在設計上簡單介紹其設計流程,首先必須讀取原始數據,并判斷是否首次讀取,若為首次讀取則對其進行預處理,否則進行坐標轉換;其次進行圖像繪制并判斷是否需要改變仰角。此處需要關注的關鍵是如何進行數據的預處理。在實現上,對接收的數據進行反射率信息結構體賦值。當然該結構體包括了記錄實際仰角角度、數據文件路徑存儲、雷達波段判斷以及相關數據的偏移。通過掃描上述結構體可以實現對雷達數據的預處理。

1.2速度分析模塊

多普勒雷達采用了速度退化模糊技術以擴大其對徑向風速測量不模糊的區間。結構設計主要考慮數據顯示的徑向方式,流程設計則與反射模塊類似。當然在界面設計上,系統將提供對顏色配置的定義,使其人機交互更為快捷。

1.3天線穩定性分析模塊

天線是雷達數據采集的關鍵部位,長期以來是影響雷達運行的主要關鍵點之一。其依賴于底下的電機進行旋轉,目前大多數進口電機可以保證24小時安全運行。而運行時仰角提升和轉速的平穩性直接影響雷達數據的采集。為此,我們通過在徑向數據上采用方位角及仰角進行掃描實現曲線圖監控。通過選擇基數據再進行預處理后繪制相關曲線實現對天線運行狀態的評估。其中,曲線圖的繪制需要的參數為:縱坐標為氣象雷達實際運行的每層仰角均值;橫坐標為范圍角:0-360°。

1.4雷達組網分析模塊

按照民航局的總體規劃,未來空管將實現多氣象雷達覆蓋,在這過程,多個氣象雷達的組網將成為氣象雷達數據的主要來源。這種模式將使得數據覆蓋面更大、數據安全性更高、數據準確性更強。而與此同時帶來了雷達數據融合組網的技術難點。設計上,首先模塊將定義雷達站點配置信息,并與此同時提供組網雷達可選數據;其次對選擇雷達數據進行數據預處理;再之則對雷達數據進行統計平均并做坐標轉換;最后進行拼圖處理。在這過程中,需要對雷達數據的強度進行自適應調整、顯示范圍自適應調整。與上述同理,系統核心在于預處理。在C#中定義List數據列表,并在定義其結構為[站點標示][距離][方位角],對于數據讀取時,需要進行插值算法處理,此時的單時數據拼接分析可以實現不同仰角和方位角的篩選。為了控制系統數據的準確性可以在前端定義雷達數據方位角表,根據表進行映射處理。通常如若出現非連續數據可以在預處理上對其進行差值補償。在C#上可以采用反差圓補償方法。

2.結束語

聚類分析論文范文2

摘 要 對北京體育大學2003-2012年體操方向碩士學位論文的關鍵詞詞頻統計與分析,研究高頻詞之間的結構關系,探究北京體育大學體操方向碩士學位論文的選題方向、研究內容及其不同的特點,分析熱點的形成原因與未來發展趨勢。

關鍵詞 北京體育大學 碩士學位論文 研究熱點

一、研究方法與對象

研究方法主要采用詞頻統計法與共詞聚類分析法。詞頻統計法能夠揭示或表達文獻核心內容的關鍵詞或主題詞在某一研究領域中出現的頻次高低來確定該領域研究熱點和發展動向的文獻計量法。共詞聚類分析法是一種內容分析方法,通過對一組詞兩兩統計它們在同一片文獻中出現的頻率,以此為基礎對這些詞進行聚類分析,從而反映出詞與詞之間的親疏關系,進而分析這些詞所代表的學科和主題的研究結構。

二、研究生學位論文的共詞聚類分析

(一)關鍵詞詞頻統計與分析

本文利用《CNKI中國優秀碩士學位論文全文數據庫》,搜索出2003―2012年北京體育大學體操方向碩士學位論文共73篇,以73篇學位論文中的關鍵詞為調研對象,通過共詞分析法中的聚類分析探索各高頻關鍵詞之間的內在關系,歸納出北京體育大學體操碩士學位論文研究的熱點,以及各個不同研究方向的親疏性。本研究利用Excel對前期檢索出的學位論文進行關鍵詞統計,共得到碩士學位論文關鍵詞283個,平均每篇碩士學位論文含關鍵詞3.9個。然后對統計結果進行以下處理:去除對反應主題沒有積極意義的詞,如“展望”、“問題”等,對表達同一個意思的關鍵詞進行標準化處理,如“高職院?!?、“職業技術院校”、“職技高?!钡葮藴驶癁椤案呗氃盒!?,“高等院校”、“高等學校”、“高?!薄ⅰ按髮W”等標準化為“高?!薄?/p>

經過多次比較,最終選擇詞頻大于的關鍵詞作為高頻關鍵詞,從而確定個體操方向碩士學位論文的高頻關鍵詞(表1)。這個關鍵詞總的出現頻次為65次,占關鍵詞總頻次的36.3%。從高頻關鍵詞分布可以看出,北京體育大學體操方向碩士研究生重點關注的研究對象集中在“體育教育專業”、“分析”、“普通高?!?、“競技體操”、“北京市”、“教學理念”、“現狀”、“發展對策”等。

表1 碩士學位論文高頻關鍵詞表

序號 關鍵詞 詞頻

1 體育教育專業 12

2 分析 10

3 普通高校 8

4 競技體操 8

5 北京市 7

6 教學理念 7

7 現狀 7

8 發展對策 6

(二)構造詞篇矩陣、相似矩陣

對于高頻關鍵詞共現頻次的統計,本研究利用SPSS17.0,以每篇學位論文為一條記錄,記錄的內容為高頻關鍵詞是否在學位論文的關鍵詞出現(出現為1,否則為0),構造出詞篇矩陣。以詞篇矩陣為基礎,在SPSS軟件中進行相關分析,數據類型選擇“binary”二元變量,相似系數選擇“Ochiai”系數,構造出高頻關鍵詞的相似矩陣(見表2)。相似矩陣中的數字為相似數據,數字的大小則表明詞與詞之間的距離遠近,數值越大則表明詞與詞之間的距離越近,相似度越好;反之,數值越小,表明詞與詞之間的距離越遠,相似度越差。相似矩陣對角線的數據為1,表明某高頻關鍵詞自身相關度。

表2 碩士學位論文高頻關鍵詞的相似矩陣(部分)

體育教育專業 分析 普通高校 競技體操 北京市 教學理念 現狀 發展對策

體育教育專業 1.000 0.060 0.286 0.004 0.192 0.321 0.334 0.215

分析 0.060 1.000 0.030 0.121 0.018 0.006 0.076 0.023

普通高校 0.028 0.030 1.000 0.150 0.030 0.068 0.119 0.029

競技體操 0.004 0.121 0.150 1.000 0.008 0.192 0.043 0.020

北京市 0.192 0.018 0.030 0.008 1.000 0.192 0.035 0.078

教學理念 0.321 0.006 0.068 0.192 0.192 1.000 0.087 0.186

現狀 0.334 0.076 0.119 0.043 0.035 0.087 1.000 0.100

發展對策 0.215 0.023 0.029 0.020 0.078 0.186 0.100 1.000

(三)北京體育大學體操方向碩士學位論文的研究熱點可以概括為以下幾類:

1.競技體操的發展對策。包括關鍵詞:競技體操、發展對策、后備人才。

2.北京市普通高校體育教育專業教學理念。包括關鍵詞:北京市、普通高校、體育教育專業、教學理念。

3.體育教育專業與教學能力。包括關鍵詞:體育教育專業、教學能力。

三、研究熱點的特點分析

(一)北京體育大學體操方向碩士學位論文的研究熱點比較寬泛,選取對象比較廣泛,包括普通高校、體育院校、競技體操、體操普修課、教學理念等。

(二)碩士學位論文注重對教學理念及競技體操發展狀況的研究,旨在通過現狀研究,探尋發展的脈絡與經驗。

(三)碩士學位論文注重對基本理論研究,研究內容寬泛。在理論分析上顯得薄弱、創新能力欠缺。

參考文獻:

[1] 高寶立,劉小強.高等教育研究熱點分析:兩個維度、四項指標――以現代大學制度研究為例[J].教育研究.2008(09).

[2] 遲景明,吳琳.近十年我國高等教育學學科研究熱點和趨勢――基于研究生學位論文的共詞聚類分析[J].中國高教研究.2011(9):20-24.

[3] 馬費成,張勤.國內外知識管理研究熱點――基于詞頻的統計分析[J].情報學報,2006.25(02).

聚類分析論文范文3

論文關鍵詞:聚類分系,網絡營銷,策略,客戶關系

0前言

現代科學技術的迅猛發展,特別是在互聯網的應用和開發上更加的迅速,企業必須通過網絡對自己的產品加強宣傳以增強自己的競爭力。客戶是一個非常重要的、有價值的重要資源,現在如何更好地從數據庫中挖掘出客戶中有價值的信息,更好的培植和經營與有價值客戶的關系,拋棄那些無利可圖沒有發展前景而且營銷費用高的客戶,并且可以針對不同價值的客戶給與不同的政策同時制定出個性化的營銷策略,這些才能夠保證企業的生存發展。對于這一切數據挖掘無疑是行之有效的好方法之一。本文以一個網絡營銷公司為例,提出了一套可操作性的對客戶價值評價方法,然后使用數據挖掘技術中比較常見和常用的聚類分析算法對客戶信息進行聚類從而達到非常重要的信息并為企業在網絡營銷中提供決策依據。

1聚類分析

聚類(clustering)是對于數據挖掘技術是非常重要的一部分,現在也是數據挖掘技術中關鍵的一種。聚類的意義就是針對物理或邏輯上的數據對象的進行自動分類,最后將數據對象分為多個類或簇的過程。對于聚類結果要使得數據對象在同一個分類中具有最大的相似度,而在不同的類中具有最小相似度。聚類的現實意義就是在于可以將數據按照一定得關系進行自動的分類,事先不知道所有的數據對象共有多少類,通過算法的處理最后得到一個分類結果進行應用。譬如在市場研究領域中,特別是針對網絡營銷的企業或網站,從大量的網絡數據進行分析聚類,可以講客戶分成不同的類別,針對這些類別不同的購買力和興趣愛好來進行個性化的營銷手段,提高企業的經濟效益。目前研究人員大多針對于聚類分析算法的改進和完善進行研究,進而提高聚類分析的工作效率。著名的算法有:CLARANS,BRICH,DBSCAN,CURE,STING,CLIGUE和WaveCluster等。

2聚類分析應用于企業客戶資源管理

現針對某電子商務公司進行分析,該電子商務公司的客戶分布在全國各地以及國外一些地區,現僅列出具有代表性的10個大客戶:吉林,黑龍江,山東,江蘇,浙江,安徽,湖南,緬甸,印度,南非等。在數據挖掘的目的就是從客戶中找到一些共同點,在對這些客戶數據進行處理前要使用聚類分析的方法進行研究看看這10個客戶能否有一些共同之處以便企業針對不同類型的客戶給與不同的對策,首先對該公司采用專家打分的方法,而且還有通過網上問卷調查和訪談的方式,收集各地銷售專員的意見等方式,然后對數據加以綜合,最后聚類分析法確定各項指標的權重。

那么在具體實施聚類分析法的時候可分為5個步驟進行:

第1步:首先對各項指數構建層次結構,其中被評定的10個大客戶作為方案層,客戶價值放在目標層中進行處理,各項指標是準則層,按照這樣的分層結構來構造客戶關系評價系統中個指數的結構圖,見圖2-1所示;

表2-1指標權重值表

指標

V

V

V

V

V

V

V

V

V

權重

0.0378

0.0401

0.0135

0.0161

0.0251

0.0060

0.0038

0.0091

0.0192

指標

V

V

V

V

V

V

V

V

V

權重

0.0381

0.1498

0.1721

0.0021

0.0201

0.0085

0.0053

0.0231

0.0701

指標

E

E

E

E

E

E

E

E

權重

0.0212

0.0312

0.0754

0.1841

0.0145

0.0510

0.0078

0.0684

從數據可以看出有兩種情形:一是緬甸和南非,從數據中可看出這類客戶的當前價值很小,但是具有很大的隱含價值,勢必會有一天他們的成長給企業會帶來豐厚的物質利益,這樣具有發展潛能的客戶應該采取措施激發潛能;二是安徽和印度這類客戶,雖然從數據中看出這類客戶當前價值很小,但是就這兩個省份的地理位置和經濟狀況來分析他們隱含著較大的價值。對于這一類的客戶,企業就應該采取靈活的措施,激發他們的購買能力促使該類型的客戶不斷地向前發展;

第2類是“維持型”客戶,他們會源源不斷的為企業提供利潤,如黑龍江和江蘇,他們這類客戶根據以往的交易記錄分析到得結果就是目前價值大,不過沒什么發展的潛能,或者說在某種情況下它的時常還會萎縮,當前這類客戶會給企業帶肋比較豐厚的利潤但是就長期發展而言卻不是利潤的主要來源,他們在某種情況下會流失掉,會被其他的企業競爭對手的介入而流失,為此對于企業一方面要維持與這類客戶的良好關系,保持穩定的客戶關系,另一方面還要采取一些營銷手段來刺激該類客戶的消費,提供一些個性化的服務和策略;

第3類“淘汰型”客戶,這類用戶就如同雞肋了,對于企業的現在和將來都意義不大,目前的銷售份額較小,企業對他們營銷的成本還很高,年利潤率很低,根據分析這類客戶包括浙江、湖南和吉林,他們沒有長期的發展的趨勢,所以企業采取的策略就是應充分挖掘他們給企業帶來的當前價值后逐漸地放棄他們;

第4類是“貴賓型”客戶,這類用戶是企業的主要經濟利潤的來源,在某種程度上可以說是企業生存的保證,他對企業是關系到生死存亡的重要客戶,從數據中看山東就是該企業的這類貴賓型的客戶,他的當前價值和潛在價值都很大,企業必須認真對待,細心呵護與這類客戶的關系,以及該客戶企業的關鍵性人物的關系,加強與這類客戶的溝通和關系的培養,同時還要提高警惕,防止競爭對手搶走這些貴賓型客戶。針對貴賓型客戶企業就應該對其進行一對一的營銷策略,進行良好的客戶需求溝通,盡最大可能滿足他們的需求,適當給與一些特殊政策來加強和他們的關系。從不同角度來加強客戶對企業的忠誠度、滿意度等。企業根據這些重要的信息就可以針對不同的客戶采取合適的銷售策略。

聚類分析論文范文4

關鍵詞: 洞庭湖區 生態經濟區劃 生態經濟建設

洞庭湖位于長江中游荊江河段南岸,地處湖南省北部和湖北省南部間,是我國第二大淡水湖泊。本文中的洞庭湖區僅指的是洞庭湖湖南省部分(未包括湖北省的公安、石首、松滋等),范圍包括岳陽市、常德市、益陽市三個市,共24個縣(市、區),土地面積為45363 km ,占到湖南省土地總面積的21.4%(具體見圖1)。在經濟上取得巨大成就的同時,洞庭湖區的生態環境卻令人擔憂,湖區生態經濟建設更顯得刻不容緩。

1.湖區區劃指標的建立

由于生態經濟區劃的復雜性、綜合性,強調自然和人文的有機耦合,因此在指標的選取上就必須做到全面,指標必須包含生態、經濟、社會等多方面的因素。本文在參照前人指標體系選擇的基礎上,結合湖南洞庭湖區的實際情況,分別從社會、經濟和生態方面選取了24個指標來構建本文生態經濟區劃的指標體系①。(見表1)

2.SPSS指標數據分析處理

2.1主成分分析

2.1.1將原始數據進行標準化處理

本文選取了20個行政單位,選取2004年的指標24個,這樣就組成一個20×24的原始數據矩陣。其中對原始數據矩陣X用以下公式進行標準化處理。公式如下:

2.1.2計算所有變量的相關矩陣R,得到相關系數矩陣:

2.1.3因子提取

采用主成分分析法,利用相關系數矩陣R進行因子提取。在SPSS中可以得到所有指標的特征值。根據特征值大于1的提取原則,并且公共因子的在變量總方差中所占的累計百分數達到84.661%,所以得到了能夠綜合反映洞庭湖區的生態經濟狀況的5個公因子。(見表2)

2.1.4因子旋轉

為便于對主因子進行解釋,知道每個主因子的意義,本文對因子載荷矩陣進行了旋轉。本文用的是最常用的最大方差旋轉法(Varimax)。(旋轉后的主成分特征值、貢獻率和累計貢獻率見表3)

2.1.5主成分的確定

計算5個主成分的得分。由20個區域5個主成分的因子得分組成一個新的數據矩陣S;由這個數據矩陣S組成下一步聚類分析的原始數據,根據主成分得分及方差貢獻確定權重(見表4),根據權重值,算出各區域綜合因子得分,并進行排序(見表5)。

2.2聚類分析

本文采用了系統聚類法(Hierarchical Cluster),定義各樣本點之間距離采用的是平方歐氏距離(Euclidean distance),接著計算出每2個樣本間的歐氏距離系數D ,其公式為:

式中:D ―i,j兩點的距離系數;X ―第i點第k因子的值;X ―第j點第k因子的值;m―因子的個數;q―指數。(公式:3)

然后根據距離系數,按照最短距離法,從矩陣表中選擇距離系數相似的樣本歸并為一類,將其組成新的序列,繼續計算新類同其它樣本之間的距離,如此反復,每進行一次縮小一類,直到得到所需的結果為止。通過系統聚類,可以得到樹狀譜系圖(圖2所示)。

從以上的聚類結果來看,在取歐氏距離為2.3時,可以將湖區分為7類,從綜合聚類結果來看,由于生態經濟區劃的劃分首先強調的連片性和相似性,故為了綜合考慮起見,本文又對三類指標分別進行了主成分分析,并得到了各自的主成分綜合得分表,在初步聚類結果的基礎上,結合生態和經濟、社會單類指標主成分綜合得分,并參照湖區的實際情況,最終可得中心城市生態經濟區、北部沿湖平原生態經濟區、中部丘崗綜合生態經濟區、環湖山地丘陵生態經濟區四個區域(區劃圖見圖3,分區結果和特點見表6和表7)。

注釋:

①本文數據來源主要是2005―2006年湖南省統計年鑒;2005年湖南省年鑒;2004年湖南省國土資源廳統計的湖南省各個縣區土地利用現狀數據;湖南省國土委員會辦公室和湖南省經濟研究中心1985年編寫的洞庭湖區整治開發綜合考察研究專題報告等。

參考文獻:

[1]張麗珍,孟令堯等.平泉縣生態經濟特征及其分區開發整治模式[J].1999.16,(2):12-16.

[2]胡月明,馮艷芬,江華,徐劍波,李強,陳飛香.中山市國家級生態示范區生態經濟評價及可持續發展對策研究[J].2001.22,(3):13-15.

[3]左長清.關于建設江西生態經濟區的思考[J].2002,(11):13-14.

[4]李紅巖.洞庭湖區生態經濟區劃與建設初步研究:[碩士學位論文].長沙:湖南師范大學,2007.

[5]王克英.洞庭湖治理與開發[M].長沙:湖南人民出版社,1998:3-4.

[6]金相燦等.中國湖泊富營養化[M].北京:中國環境出版社,1990:234.

[7]張小紅.生態經濟區區劃模型與建設研究――以華容縣為例.[碩士學位論文].長沙.湖南師范大學,2006.

[8]王麗.生態經濟區劃理論與實踐初步研究――以黃山市為例.[碩士學位論文].蕪湖:安徽師范大學,2005.

聚類分析論文范文5

統計時將同一機構不同部門合并為同一機構,如華東師范大學言語聽覺康復科學研究院、特殊教育系等合并為華東師范大學進行統計;同一機構不同稱謂或機構有更名的合并為同一最新稱謂進行統計,如上海交大新華醫院、上海第二醫科大學附屬新華醫院合并為上海交大新華醫院,中國醫科大學第二臨床學院、第二附屬醫院合并為中國醫大盛京醫院進行統計。文獻關鍵詞對論文關鍵詞進行分析,可以了解我國兒童語言發育研究的重點和范圍。利用bi-comb軟件對1576篇文章的6049個關鍵詞進行統計,抽取詞頻大于22的30個關鍵詞為高頻關鍵詞,通過對高頻關鍵詞統計可以看出國內兒童語言發育涉及的研究面較為廣泛,但是僅僅停留在高頻關鍵詞的簡單統計,很難歸納出研究的主要方面,因此需要通過聚類分析深入挖掘這些高頻關鍵詞之間的聯系[1]。通過bicomb軟件對上表中的高頻關鍵詞建立共詞矩陣,再利用gcluto軟件進行聚類分析,得出高頻關鍵詞聚類樹圖,研究對象和內容兒童語言發育的研究對象廣泛,包括語言發育異常的兒童和正常兒童。語言發育異常的研究對象主要包括出現口吃、構音障礙、發育性語言障礙的兒童,以及存在影響語言發育的因素如聽力障礙、孤獨癥、智力低下和腦癱等疾病的兒童。對異常兒童的研究內容涉及病因、臨床表現、診斷、康復治療等方面。研究者在研究語言發育時對正常兒童的界定標準一致,即選擇不存在上述影響語言發育因素的兒童。對正常兒童語言發育規律的探討,包括發音、詞匯、句子、語法、語用等方面的研究。通過文獻梳理,可以發現在對正常兒童進行研究時個案研究居多,群體研究相對較少。研究材料和方法國內對兒童語言發育情況進行測評的方法較缺乏,在研究中主要采用以下方法。第一種方式,采用標準的結構化測試,包括圖片詞匯測試、丹佛發育篩查試驗、蓋澤爾發展量表、韋克斯勒學齡前和學齡初期智力量表等。目前標準測試中還只有圖片詞匯測試是直接用于語言測評的工具,其它結構化測評都只能部分或間接通過智能水映兒童語言能力。第二種方式,采用語言樣本分析,即在兒童熟悉的環境中,由他們自由地做一些常做的活動并進行錄音,采集語言樣本后進行轉錄并利用語言樣本分析程序自動分析[2]。語料測評可較客觀的得到兒童的語言水平,但需要兒童有足夠的語言表達能力后才能收集語料,不能應用于還沒語言表達能力的年幼兒童。近年來,有學者開始采用新的方式來評估兒童的語言能力。例如,北大醫院梁衛蘭等[3]利用父母報告方式,通過撫養人根據兒童日常的表現,選擇兒童會的詞匯和手勢,評估嬰幼兒語言和溝通能力。還有學者采用自行研究設計的量表,其中有代表性的是上海劉曉等[4]編制的《早期語言發育進程量表》。這些測評方法能較好的反映年幼兒童的語言能力,有待于在臨床進行推廣。

年代和學科分析從年代分布可以看出,研究國內兒童語言發育的文獻量近十年增長較快,圖1顯示呈現逐年上升趨勢,發展趨勢良好。通過表1的主要研究學科可以看出,兒童語言發育引起了醫學、語言學、心理學、教育學等多個學界的關注,隨著相關學科的快速發展,國內兒童語言發育研究也將進一步開展,未來可更多的開展學科之間的交叉研究。期刊分析根據布拉德福定律:核心區、相關區、非相關區期刊數量成1∶n∶n2的關系[5],將729種刊載兒童語言發育論文的期刊,按照刊載論文的數量,以遞減順序排列,按照公式計算若前27種期刊中刊載33.3%以上的文獻方能形成核心期刊區。排在最前面的27種期刊刊載文獻約占論文總數的29%,前40種期刊才達到33.3%的比例,故目前尚未形成核心期刊群。雖然該領域尚未形成核心期刊群,但有關兒童語言發育的文獻較多的刊登于表2中所列期刊,提示作者向此類期刊投稿,可能會提高命中率。作者和機構分析以普賴斯定律對作者群進行分析,核心作者的論文量應該占全部相關論文總量的一半,核心作者最低發文數N的值為:N=0.749(Gmax)1/2),其中Gmax為所統計的年限中最高產的那位作者的論文數[6],在本次研究中為27,故N取整數為4。作者論文4篇以上為56人,多數文章為合作完成,共127篇,占總論文數8.1%,遠低于兒童語言發育論文總和的50%,提示兒童語言發育研究的核心作者群仍處于形成階段。根據發文機構統計結果顯示,主要發文機構包括多個教育機構和醫學機構,提示可加強教育和醫學機構之間的相互合作,推廣醫教結合模式。

關鍵詞頻次表反映了我國兒童語言發育研究重點及熱點分布。對進行聚類分析得出的聚類樹國內兒童語言發育研究的高頻關鍵詞大致可聚為五類。第一類是新生兒聽力篩查,第二類主要是嬰幼兒語言發育,第三類是語言障礙兒童的語言能力及語言訓練,第四類主要是學生的詞匯、句子等方面的發展,第五類是學齡前兒童的語言習得。摘要分析通過文獻摘要分析,可以看出在對正常兒童進行研究時個案研究居多,群體研究相對較少?;趥€案得出的數據未必能代表群體的發育規律。正常兒童的語言發育規律,是研究異常兒童發育異常的基礎,可更多地開展正常兒童語言發育規律的群體調查。國內對兒童語言發育情況進行測評的方法較缺乏,主要通過結構化測評和語言樣本分析方法進行測評,對年幼兒童語言能力進行測評的方法較少,新的測評方法有待于研究和推廣。綜上所述,國內兒童語言發育研究的總體發展趨勢良好,發表文獻量逐年增加,呈多學科發展的態勢,引起了醫學、語言學、心理學、教育學等學界的關注,未來可更多地開展學科之間的交叉研究。目前尚未形成核心期刊群和穩定的研究群體,主要發文機構包括多個教育機構和醫學機構,提示可加強教育和醫學機構之間的相互合作,推廣醫教結合模式。對正常兒童進行研究時群體研究相對較少,應更多地開展正常兒童語言發育規律的群體調查研究。國內語言發育測評的方法較缺乏,新的測評方法有待于研究和推廣。

作者:潘虹地 趙亞茹 汪永娟 梁萃 陶旭煒 李雪寧 單位:中國醫科大學附屬盛京醫院發育兒科

聚類分析論文范文6

關鍵詞:Web;挖掘;PSO

隨著Internet的迅速發展,World Wide Web已深入到社會生活的方方面面。Web可以說是目前最大的信息系統,其數據具有海量、多樣、異構、動態變化等特性。人們使用Web,一般有如下需求[1]:

獲取相關信息或服務;

從Web信息中發現新的知識;

提供個性化服務:不同的用戶對信息、服務有不同的要求。

為了解決上述問題,人們迫切需要能自動地從Web上發現、抽取和過慮信息的工具,由此產生了Web挖掘。

Web挖掘就是從Web文檔和Web活動中發現和抽取潛在的、用戶感興趣的有用模式和隱藏的知識[2]。

1.Web挖掘

WEB挖掘可以認為包括以下四個子任務[3,4]:資源發現、信息選擇和預處理、概括和泛化、分析。

資源發現是一個從Web上的聯機資源中檢索數據的過程。信息選擇和預處理是一個信息轉變的過程。它可以是除去停用詞,詞干處理,發現訓練集中的短語,以及得到關系或邏輯表示等。概括過程是應用數據采掘技術獲得知識。最后的分析是對采掘結果的驗證和解釋,在此過程中應該發揮人的作用。

Web文本信息的特征獲取是指自動地從Web文本信息中抽取出代表其內容主題的特征詞條形成特征矢量來表示Web文本。它影響到下一步Web文本分類的質量。文本挖掘問題的一個主要難點是特征矢量的維數過高,對于大多數學習算法來說都難以承受。目前已有多種方法被用于特征抽取,比如文檔頻次門限方法、信息增益方法、χ2分布方法、互信息熵方法、基于奇異值分解的潛在語義索引方法(LSI)以及基于遺傳算法的特征提取算法等。

聚類技術是對符合某一訪問規律特征的用戶進行用戶特征挖掘。Web使用挖掘中存在兩種類型的聚類:使用聚類(用戶聚類)和頁面聚類。根據聚類的結果聚類方法可分為層次聚類與非層次聚類。在不同的方法中,人們研究了獲得較高的計算效率的問題。

在Web使用挖掘過程中,對用戶、Web頁面等Web對象進行聚類時,存在明顯的模糊性,模糊聚類也因此成為目前Web聚類分析研究的主流。

2.Web挖掘中存在的問題

Web數據挖掘[5]與傳統數據挖掘不同,Web頁面的結構比一般文本文件復雜很多,它可以支持多種媒體的表達。人們最初是希望通過Web來實現世界各種信息的互通,在這個平臺上自然希望任何的信息都可以表達了。因此也造成了互聯網數據的復雜性這個特點。而在互聯網上文檔一般是分布的,異構的,無結構或者半結構的。許多新技術的產生為解決這個難題提供了一條可行的道路,如XML技術。還有,互聯網上的數據動態性極強,頁面本身的內容和相關的鏈接經常更新。而互聯網面對的客戶也各不相同,這些都造成了用戶行為模式分析的困難度。

現行Web挖掘方法很多,解決Web信息應用部分問題,但存在一定的不足,如:由于用戶查詢固有的主觀性、不精確性和不確定性,大多數Web檢索系統僅用一個簡單的檢索模型,側重于檢索效率,忽視了檢索的準確性。不能進行軟決策,現有查詢是基于“硬拋棄”法,而且取決于查詢與檢索出文檔的相關性,但相關性只是文檔的部分屬性,不是很分明的界限。頁面分級還不全面,還沒有考慮各種參數的權重,如點擊位置、相鄰性和頻率等,分級還很少考慮用戶的特點。

為處理Web數據特征,克服目前現有的Web挖掘方法的局限,軟計算方法是一個很好的方法。軟計算是一組協同的方法,它提供一種處理現實中模糊狀態信息靈活處理能力。它們的目標是通過探索不精確、不確定、近似推理和局部正確的最大可能限度,達到易理解的、健壯的和低代價的解決方案,類似人的決策過程。軟計算技術包括模糊邏輯(fuzzy logic,FL)、粗糙集(rough set,RS)、人工神經網絡(artificial neural network,ANN)和遺傳算法(genetic algorithm,GA)[ 5-8]。

現有的Web文檔特征抽取算法文章證明這些特征抽取方法都有一些局限。傳統的聚類分析把每個待辨識的對象嚴格地劃分到某個類中,各個類別的界限是分明的。然而現實世界存在著大量的界限劃分不嚴格的聚類問題。即問題具有一定的模糊性,如在區分“優”和“良”等級時,就需要模糊劃分。在Web使用挖掘過程中,對用戶、Web頁面等Web對象進行聚類時,存在明顯的模糊性,模糊聚類也因此逐漸成為Web聚類分析研究的主流。

3.粒子群優化算法

粒子群優化(Particle Swarm Optimization, PSO)算法[1]是Kennedy和Eberhart受人工生命研究結果的啟發、通過模擬鳥群覓食過程中的遷徙和群聚行為而提出的一種基于群體智能的全局隨機搜索算法,與其他進化算法一樣,也是基于“種群”和“進化”的概念,通過個體間的協作與競爭,實現復雜空間最優解的搜索;同時,PSO又不像其他進化算法那樣對個體進行交叉、變異、選擇等進化算子操作,而是將群體(swarm)中的個體看作是在D維搜索空間中沒有質量和體積的粒子(particle),每個粒子以一定的速度在解空間運動,并向自身歷史最佳位置pbest和鄰域歷史最佳位置gbest聚集,實現對候選解的進化。PSO算法具有很好的生物社會背景而易理解、參數少而易實現,對非線性、多峰問題均具有較強的全局搜索能力,在科學研究與工程實踐中得到了廣泛關注[3-8] 。

由于PSO 中粒子向自身歷史最佳位置和鄰域或群體歷史最佳位置聚集,形成粒子種群的快速趨同效應,容易出現陷入局部極值、早熟收斂或停滯現象。同時,PSO的性能也依賴于算法參數。為了克服上述不足,國內外學者相繼提出了各種改進措施。主要有粒子群初始化、鄰域拓撲、參數選擇和混合策略四類。

4.結論

由此可見,由于Web信息的獨特性,和傳統的數據挖掘相比,Web挖掘還有很多需要解決的難題需要我們針對實際應用加以解決。

參考文獻:

[1]吉林大學博士學位論文 Web挖掘中若干問題的研究 許建潮 2005.6.10.

[2]Raymond Kosala,Hendrik Blockeel, Web Mining Research: A Survey, SIGKDD Explorations,2(1),pages 1-15,July 2000.

[3]中國科學院博士學位論文 WEB信息檢索與分類中的數據采掘研究 李曉黎 2001.5.21.

[4]周龍鑲,陽小華.基于用戶訪問模式的WWW瀏覽路徑優化[J].軟件學報,2001,12(6),846~850.

[5]Jianhan Zhu,Jun Hong,John G Hughes.Using Markov Models for Web Site Link Prediction.In:Proceedings ofthe thirteenth ACM conference on Hypertext and hypermedia.Maryland(USA),2002,169~170.

[6]浙江大學博士畢業論文 Web訪問信息挖掘若干關鍵技術的研究 余軼軍 2006.4.1.

亚洲精品一二三区-久久