熱點話題下網絡輿情信息挖掘方法探析

前言:尋找寫作靈感?中文期刊網用心挑選的熱點話題下網絡輿情信息挖掘方法探析,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。

熱點話題下網絡輿情信息挖掘方法探析

摘要:網絡輿情熱點話題在提取的時候需要運用到復雜的網絡理論,同時需要使用復雜的算法羅列出其中的重點信息。網絡輿情領域當中的分析技術主要分為兩個方面的內容。其一是根據具體內容進行分析,其二是依據信息數據進行分析,這兩種技術是極為傳統的,在運營的過程中也沒有結合現代網絡特性而加以完善。針對以上的問題,需要對輿情分析領域進行更加具體的拓展,積極應用網絡化的方法來解決相關問題。頁面節點的設置將以輿情網絡為重點內容,并將鏈接關系作為主要的支撐點,這樣才能從根本上構建出符合當代復雜網絡情況的輿情傳播網。工作人員能夠及時發現網絡中的輿情熱點。將維基百科中所存在的各項數據作為所使用的仿真數據集合,機采用新穎的數據提出方法,能夠將其中潛在的相關領域熱點內容挖掘出來。從仿真結果上能夠了解到,兩種方法在使用的時候都能夠有效完成網絡輿情熱點的收集工作。真正獲得具有實際價值的輿情熱點話題。

關鍵詞:網絡輿情;熱點話題分析;下載數據;信息挖掘

隨著互聯網技術在社會中的積極運用,各種形式的信息技術均得到了完善。網絡在這樣的發展環境中逐步凸顯出了隱蔽性的特點,同時具有虛擬性和開放性。所以,輿情信息的收集需要運用更加復雜的計算程序。僅僅依靠人工進行相關信息的統計和監測將難以獲得更加精確的信息。因此,怎樣才能夠在海量的信息數據中搜集到最有價值的輿情信息,需要相關領域的學者進行多方面的思考。將寶貴的工作經驗和嶄新的技術手段加以有機融合。讓關鍵性的輿情信息能夠在最短的時間內搜集起來。在近些年中,網絡領域的輿情信息挖掘技術已經得到了社會各界的重點關注。其具有的優勢是十分鮮明的,運用的范圍也極為廣泛,無論是進行各種信息的安全保護處理,還是對主題輿情信息加以跟蹤,都能夠積極利用這種信息技術,同時還能夠對熱點話題加以監測。本文針對網絡領域的輿情信息挖掘技術加以多方面的考究,為輿情監測工作提供最有參考價的信息。

1信息采集與分析過程

1.1采集數據,提取熱點話題。在進行信息挖掘工作之前,技術人員首先要做的便是對樣本數據進行精細化的分析。這樣才能夠為接下來的工作打好堅實的基礎。工作人員需要進行數據信息的統計,并根據文件類型的不同將其分為兩類。一類是能夠反映輿情主題的關鍵性文件,也就是所謂的熱點話題文件,它其中所包含的內容能夠真正體現出當前形勢下的輿情關鍵點,其展現出的發展曲線也能夠真正符合現階段的輿情發展趨勢。這種文件對于信息挖掘是具有重要意義的,需要相關工作人員進行重點關注。而另一類則是普通的下載文件,其中所包含的內容也是五花八門的,但是并不能彰顯出現階段的輿情特點。這類文件的下載曲線處于較為平緩的狀態。并不會存在熱點話題所具有的明顯曲線特征。因此,在進行樣本數據準備工作的時候,工作人員一定要根據曲線特征來判斷下載文件的類型。這樣才能夠在眾多的下載文件當中真正提取到熱點話題文件,從原有的基礎上提升工作效率,讓樣本數據準備工作能夠開展得更為迅速。

1.2數據整理、分類評估。在做好了樣本數據采集工作后,工作人員所需要做的便是進行數據挖掘的訓練。在廣泛搜集到熱點話題相關信息后,工作人員還要利用更加先進的技術提取其中所涵蓋的重點信息,這樣才能夠將原本復雜無序的數據信息內容整合成規律性的訓練集。持續鏈級的價值是極為重要的,能夠為后續的工作打好基礎。將各類測試數據進行合理分類,并對其中存在的價值進行科學評估。

1.3開展數據信息測試工作。接下來,工作人員所需要做的便是對互聯網上的熱點話題文件信息進行挖掘,并對文件類型加以分類。在實施分類標準的時候,便可以將文件系統化的組合成不同的訓練集,進而更加科學合理的對所有需要測試的數據加以歸納,在實施完信息挖掘工作后,互聯網領域的熱點話題都會自動生成一個分類標簽。這樣工作人員便可以極為直觀了解到每種文件的主要類型,提取熱點話題文件的工作效率將會得到顯著提升。

2常用輿情信息挖掘方法

依據上述的信息挖掘步驟,工作人員在實施輿情挖掘的時候能夠使用的技術有以下幾種類型。其一是爬蟲網頁解析技術,其二是分類技術,其三是聚類技術,其四是數據處理技術[5]。在這些技術當中,分類技術使用效率是較高的,在分類技術當中還有諸多的應用方法供工作人員進行使用,經常使用的有中心法、支持向量機法,以及k最近鄰算法等。本文主要針對k最近鄰算法進行重點分析。K最近鄰算法又稱之為KNN算法。根據這種算法所具有的性質,可以將其分類為非參數性的分類算法。在當今社會當中,這種算法已經被積極應用到了各種數據信息的挖掘工作當中。該技術所包含的核心思想可以簡單地闡釋為假設每一類信息當中包含的數據樣本數量是巨大的,同時每個數據樣本又有唯一的評判標準將其進行合理分類。此時便需要計算等待分類的樣本X相似程度與訓練樣本中的數據信息呈現出怎樣的狀態,并且尋找與X最為相近的樣本數量k。這樣工作人員便能夠依據k個樣本的類別進而確定X應該歸屬到哪個類別當中。KNN算法所具有的優勢是極為顯著的。首先,這種算法的原理十分通俗易懂。在實施的時候也不會讓工作人員面臨很大的工作挑戰。其次,KNN算法在使用的過程中,雖然嚴格遵守了極限定理,但是待分類文件所具有的相似度特點只與相關的相似樣本文件有關聯性,所以此類算法在使用的過程中能夠從根本上避免樣本不平衡情況的出現。另外,相似度在計算的時候能夠根據樣本所具有的特征加以考量,進而在最大程度上減少了工作人員采用特征不當所造成的計算誤差。但是,KNN技術在本質上依舊屬于一種具有懶惰性質的學習方式。當所要分析的數據信息分布情況并不均勻的時候,或者存在嚴重的傾斜現象的時候,其中涵蓋的樣本信息數據的特征會呈現出頻率增長的特點,這會直接影響到KNN算法的精確程度。另外,KNN技術在使用的過程中需要對訓練樣本進行逐個計算。

3網絡輿情熱點話題的曲線相似度

3.1統計日信息增長量。工作人員需要對每天的數據信息增長量加以統計,并將該日的信息數據量與前一天的信息數據量加以比對,這樣才能夠真正消除兩種曲線的量級差別。信息日增長率的計算方式為:R=𝑁𝑡2−𝑁𝑡1𝑁𝑡1公式中Nti表示ti時間點的信息量。

3.2增長向量。工作人員依據曲線所呈現出的特點能夠將每日增長率計算出來,同時可以將曲線變化一個周期所需要消耗的時間作為向量(設10天為一個周期)。因而定義曲線增長向量為:ZL={R1,R2,…,Rm,…,R10}上式反應了10天內的信息曲線增長情況,公式中Rm=R(ti|tj)表示ti到tj時間段的信息增長量。

3.3輿情信息熱點話題曲線相似度。在計算曲線相似度的時候,工作人員采用日常工作中廣泛應用的余弦夾角算法。該算法在使用的過程中,將每個文件夾中的向量信息進行單位化處理,隨后就要進行內積計算,計算出的數據信息結果可以嚴格控制在0-1之間。曲線相似度的計算方法為:XSD=COS(RZL|YZL)=∑(𝑅𝑍𝐿𝑖𝑛𝑖=1∗𝑌𝑍𝐿𝑖)√∑𝑅𝑍𝐿𝑖2𝑛𝑖=1∗∑𝑌𝑍𝐿𝑖2𝑛𝑖=1公式中RZL表示熱點話題文件曲線向量,YZL表示網絡輿情文件曲線向量。通過精細化的計算后可以了解到,熱點話題的曲線增長趨勢于網絡輿情文件的曲線增長趨勢具有很大的相似性[5]。由此可以得出一個結論,熱點話題文件和輿情文件之間存在必然的關聯性。因此工作人員在今后的工作過程中,需要對熱點話題進行深刻分析,將其中所具有的數據信息加以精細化了解。這樣能夠從根本上判斷出輿情的發展趨勢走向。在今后的工作過程中,也能夠積極利用這些話題信息當中的各項數據來挖掘真正具有價值的輿情信息。

3.4改進KNN算法。KNN算法需要進行進一步的改進,這樣才能夠更加精準的搜集到熱點話題,并了解這些話題文件的下載走勢,更好地挖掘到網絡輿情信息。其主要的改進步驟如下。首先,工作人員需要計算出待分類數據所具有的特點,并將其余樣本數據進行相似度(XSD)上的比較。其次,工作人員需要在了解到相似度特點后,在樣本數據中尋找出十個與待分類數據信息相似度最高的數據,隨后需要將這十個樣本數據進行具體分類。最后,這一數據分類便是待分類數據樣本所應該歸納到的分類類別。

4輿情信息挖掘的實驗結果

工作人員在執行輿情挖掘工作的時候,可以將其中的數據信息記錄在WEKA平臺上。WEKA平臺上包含了大量的學習算法,并且能夠將各項數據信息進行預處理,隨后將信息進行分類,歸納總結。測試數據的運用能夠進行輿情信息的挖掘,并且可以將各個數據進行精細化的分類。讓工作人員能夠直觀察覺到各個文件的類別,工作人員能夠在眾多的文件當中尋找到最為需要的熱點話題,切實了解到現階段的網絡輿情現象,了解到輿情事件的發展趨勢。因此,熱點話題所具有的特點能夠彰顯出網絡輿論的走勢,讓受眾能夠了解到真正的網絡輿情現狀。工作人員需要竭盡所能地在眾多的網絡信息中挖掘出最具有價值的數據信息。同時工作人員還需要具有敏銳的判斷能力,這樣才能夠在諸多的信息當中了解到何種輿情信息是真實可靠的。最后,有一部分輿情文件的下載發展曲線特點,雖然能夠和網絡輿論事件的發展趨勢相吻合,但其并不屬于網絡輿情,輿情發掘結果也會存在一定的誤差性。造成這種現象的主要原因可能是熱點音視頻文件數量的激增,但這種情況是極少數的。工作人員在實行工作任務的時候,只是要注意將這類文件篩選過濾即可,這樣就能從根本上保證輿情信息的真實準確性,讓熱點話題分析工作可以具有實際的效果。

5結語

綜上所述,在網絡輿情信息挖掘工作的基礎上,本文主要對熱點話題文件的下載工作流程和意義進行了分析,并將其與網絡輿情所具有的關聯性加以科學合理的整合,詳細介紹了KNN算法在此項工作中的重要價值。讓輿情信息發掘工作能夠開展得更加順利。通過對熱點話題下載趨勢的分析,可以尋找到最具有實際價值的輿情主題,促進了網絡領域輿情監測工作的進步。

作者:文銀娟 李文娟 趙靜 魏彩霞 郭文龍 馮月華 單位:甘肅中醫藥大學定西校區理科教學部

亚洲精品一二三区-久久