互聯網輿情監控分析范例6篇

前言:中文期刊網精心挑選了互聯網輿情監控分析范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。

互聯網輿情監控分析

互聯網輿情監控分析范文1

關鍵詞:輿情監測;移動互聯網;推送技術

中圖分類號:TP309

近些移動互聯網和移動終端快速普及,移動互聯網的概念是相對于傳統互聯網而言。移動互聯網可以使用隨身攜帶的移動終端隨時隨地乃至在移動過程中獲取互聯網服務,較傳統互聯網有著很大的優勢[1]。

正是由于當前獲取互聯網服務的方式更加便利、多樣,使網絡輿情形成更加迅速,對社會影響更快,同時預警也更困難[2]。

目前從海量的互聯網信息中獲取最新輿情信息,并及時發現負面報道和不良言論已經有了成熟的技術,但是傳統的輿情預警系統,往往需要依賴于PC平臺并靠專人值守監測,而輿情本身帶有很大的突發性和不可預見性,即時的輿情報警成為當前輿情監測領域主要難題。就傳統輿情預警系統而言,如果無專人值守或者在不能使用電腦的情況下,往往不能第一時間獲得最新的輿情信息[3]。

本文系統將傳統的輿情預警系統和移動互聯網相結合,發揮移動互聯網優勢,可以使用戶全天隨時隨地不間斷獲取最新輿情,且無需專人值守,突破了輿情實時預警的難點。并給出了系統實際運行的實驗結果。

1 系統設計

基于移動互聯網的輿情預警系統分為服務器端和移動平臺客戶端兩個組成部分。系統結構如圖1所示:

(1)輿情數據采集。服務器端主要負責從新聞網頁、論壇、博客獲取需要輿情信息,并存儲在服務器端的輿情數據庫中;(2)移動終端獲取輿情數據。移動客戶端是安裝在移動終端的App應用程序??梢垣@取服務端提供的數據,客戶端有支持兩種獲取數據的方式:1)客戶端請求數據。在客戶端啟動時會向服務端發送請求,請求輿情數據。服務端收到請求后將輿情數據庫中的數據按時間將最新的輿情數據生成Json文件提供給客戶端??蛻舳私邮沾薐son文件,在客戶端進行解析,解析提取相應的數據顯示在客戶端上。用戶也可手動刷新輿情列表,以獲得最新輿情。上述是移動終端傳統獲取信息的方式,是通過客戶端請求,即輪詢方式;2)推送通知。和傳統輪詢方式不同,推送通知則是由服務器告知手機,手機再進行獲取,信息獲取效率相對要提高很多[4]。

當服務端數據庫有更新時,利用推送通知技術向移動平臺發送推送通知,并以提示音和彈出框提醒用戶,告知用戶有新的輿情消息,提示用戶開啟客戶端瀏覽。

圖1 基于移動互聯網的輿情預警系統結構

推送技術具有很大的優勢,它由服務端發起,使得輿情信息主動地去尋找用戶,告訴用戶什么時候有輿情消息什么時候該去使用客戶端瀏覽,為用戶節省了大量的時間,當有新的輿情消息時,根據推送消息的提醒用戶點擊查看。

本系統將最新的移動互聯網技術與現有的輿情預警系統相結合,突破了傳統輿情預警系統不能保證用戶隨時隨地即時收到最新輿情的技術難題。

2 關鍵技術

2.1 推送通知流程

推送通知整體流程,如圖2所示。Provider是指輿情監控系統的服務端,App是指輿情監測客戶端,PNS(Push Notification Service)是指推送服務器,Device是指移動終端設備,Device Token是指設備令牌用于推送認證。

圖2 推送通知流程

輿情預警推送通知過程分為六個階段:

(1)輿情客戶端向操作系統注冊推送通知服務;(2)移動終端操作系統向PNS注冊自己的設備和應用,并獲得Device Token;(3)輿情預警客戶端將Device Token發送給輿情監控服務器;(4)輿情監控服務端把待發送的消息、目的Device的標識打包發給PNS;(5)PNS在自身的已注冊推送服務的Device列表中,查找有相應標識的Device并把消息發到對應的Device;(6)Device的操作系統把發來的消息傳遞給對應的客戶端,并彈出提示。

2.2 推送通知認證

推送認證機制,實際上包含兩層。一層是物理連接上的認證,另一層是Device設備令牌的認證。

圖3 SSL/TLS鏈接

(1)物理連接上的認證:SSL(安全套接層)/TLS(安全傳輸層協議)鏈接。

Device在開啟Push的時候,會連接PNS建立一條SSL/TLS加密鏈接。每一臺正常的Device都有一個獨有的設備證書,而PNS也有一個服務器證書。兩者建立的時候,會驗證彼此的證書有效性。TLS鏈接一旦建立,在沒有數據的情況下,只需要每隔15分鐘進行一次?;畹奈帐郑虼藥缀醪徽剂髁?。而一旦意外鏈接中斷,Device會不斷嘗試重新建立TLS鏈接;(2)Device設備令牌的認證PNS判斷推送消息該發給哪臺Device的依據是“目的Device的唯一標識”,這個標識就是Device Token。設備令牌是每次建立TLS連接時,PNS通過前一層次(TLS層)里提到的每臺正常的Device唯一的設備證書(Unique Device Certificate),并用令牌密鑰(Token Key)加密生成的。在令牌生成了之后,PNS會把Device Token返回給Device,而客戶端則把返回來的Device Token直接發送給Provider。當Provider有消息要發送時,需要將消息和Device Token一起發送給PNS,而PNS再依據Device Token,找到相應TLS鏈接的Device,并發送相應的推送消息。

2.3 發送推送通知

Provider發送給PNS的數據格式為JSON,結構如下:{“aps”:{“alert”:“輿情信息”,“alertid”:“1005”,“badge”:1,“sound”:“default”}}

JSON格式解釋如下:alert:輿情信息的標題;alertid:該條輿情信息的id;badge:未讀條數的數值計數;sound:通知到達時提示音。

PNS接收到消息體和Device Token后,將嘗試向制定設備發送推送通知。如果其嘗試向某個設備發送通知并且失敗了,它會將通知放入隊列。當設備重新和PNS建立TLS鏈接時PNS會將隊列待發送的通知發送給該設備。

3 實驗

3.1 實驗過程

使用本系統進行一全天的輿情采集及預警實驗。當輿情系統服務端采集到最新輿情時,更新數據庫,同時向客戶端發出預警,彈出提示框及發出提示音。如圖4所示。

圖4 最新輿情信息推送通知

3.2 實驗結果及分析

全天系統共采集到需要預警的輿情信息862條,如表1所示。經測試在移動終端全部及時第一時間收到預警。

表1 預警實驗

輿情爆發時段 預警數

9:00之前 252條

9:00-18:00 406條

18:00以后 204條

表2可知本文系統在輿情預警上有明顯優勢,可保證用戶隨時隨地獲取最新輿情。

表2 本文系統與傳統系統進行功能比對

移動輿情預警系統 傳統輿情預警系統

無需專人值守 需專人值守

全體自動報警 無人值守無法報警

可隨時隨地獲取輿情預警 離開機房就無法獲取輿情信息

4 結束語

本文系統與傳統系統相較主要有兩大優勢:一是移動性,用戶可隨時瀏覽最新輿情信息;二是推送通知服務,可以使用戶第一時間收到輿情預警。兩者結合可以實現全天輿情預警,突破了傳統輿情預警系統的瓶頸。

本文所介紹的系統目前已經在iOS平臺上投入使用,取得良好的用戶口碑,提升了用戶體驗。其必將為輿情預警領域未來的發展提供了有力的技術支持,為用戶提供更多便利。

參考文獻:

[1]史波.移動互聯網環境下公共危機信息傳播行為的影響因素研究[J].情報雜志,2013(06):14-18.

[2]彭劭莉,張樂.突發事件網絡輿情預警研究綜述[J].情報探索,2013(06):51-54.

[3]許鑫,章成志,李雯靜.國內網絡輿情研究的回顧與展望[J].情報理論與實踐,2009(03):115-120.

[4]李慶誠,商盛立.手持閱讀終端電子資源Push系統設計與實現[J].計算機工程與設計,2009(06):1483-1487.

作者簡介:莫倩(1972-),男,博士,副教授,研究方向:數據挖掘和中文信息處理;熊碩(1989-),男,碩士研究生,研究方向:數據挖掘和中文信息處理。

互聯網輿情監控分析范文2

關鍵詞:網絡輿情;網絡爬蟲;網絡資源;爬蟲測速;主題更改

中圖分類號:TP391.3

21世紀是信息科學技術飛速發展的世紀,互聯網在生活中的應用越來越廣泛,尤其是隨著智能手機逐漸普遍,人們能夠通過移動互聯網更加便捷地獲得外部資訊。網絡輿情是當前網民們針對熱點社會事件以及社會政治經濟狀況等內容反映出的態度總和?!肮苤懈Q豹,時見一斑”,可以說網絡輿情就是當前社會現狀的放大鏡,針對這些態度思想及政治傾向的社會輿論信息的收集整合,是分析社會動向、研究人民需求的重要手段。

互聯網引擎搜索技術并未完全成熟,在很多具體環節仍舊存在著缺點,嚴重制約著網絡輿情監測工作的全面展開。傳統的網絡爬蟲技術在進行網絡信息的獲取時,對其內容的處理精確性和不足,存在著無用信息過多和部分關鍵信息缺失的情況。因而,針對網絡爬蟲技術進行研究,提出更為有效的優化措施是一項十分必要的工作。

1 互聯網輿情檢索技術

現階段建設的網絡輿情監測系統基本涵蓋了所有互聯網領域的基本技術,是一項復雜而龐大工程。但從系統的功能實現上看,輿情監測系統的關鍵技術是由互聯網信息采集技術和文本信息抽取技術構成的。

1.1 互聯網信息采集技術簡介

作為互聯網搜索引擎獲得信息的基本技術,信息采集技術的實現方法包括元搜索和網絡爬蟲兩種模式。這也是當前網絡輿情監測信息獲得的主要途徑。

所謂元搜索技術,就是在檢索過程中將多個網絡搜索引擎以串聯的方式運行,監測方提交的搜索條件被初步處理后,分送給這些串行的搜索引擎,由其各自完成對相應數據庫信息的檢索工作,在獲得初步搜索結果后,再將這部分信息進行二次加工,通過去重、排序、過濾等方式完成冗余信息的處理。元搜索技術在檢索信息全面性方面要明顯優于單搜索引擎技術。同時,元搜索技術在進行信息檢索時并不需要對所有互聯網信息進行搜索,具有明顯的效率優勢。

1.2 網頁信息抽取及預處理技術

作為網絡信息獲取的最終步驟,對檢索程序獲得的網頁信息進行抽取和預處理是搜索信息全面的重要影響因素。所謂網頁信息抽取及預處理技術是將網絡信息中包含的自然語言根據檢索條件進行提取,從中獲得需要的實體、關系、事件等要素,最終并用易于理解接受的規范化形式對結果進行記錄和展示?,F階段一個成熟的互聯網網站,其頁面通常包括導航欄、正文標題、正文內容、相關鏈接、推廣信息、版權公告等。而在這些內容中,真正吸引用戶的是正文標題和正文內容,也就是切合用戶需求的主體信息。在獲取網絡信息的過程中盡量獲得這些主體內容,對其他次要信息進行選擇性忽略正是網頁信息抽取及預處理技術重要的功能。

2 輿情監測網絡爬蟲技術簡介

作為當前重要的互聯網信息采集技術,網絡爬蟲(We-bCrawler)技術在實際應用中收到了較好的效果。當前各領域構件的輿情采集系統中廣泛采用的是Heritrix網絡爬蟲,這一開源程序允許用戶的自主修改移植。Heritrix主要有三大部件:范圍部件、邊界部件、處理器鏈。其中,范圍部件控制抓取的URL入隊過程;邊界部件則對選定的URL的收集情況進行監測,進而選擇下一個URL,排除已處理URL;處理器鏈則可視為URL處理器,其工作結果會反饋給邊界部件。

網絡爬蟲的工作流程是從未訪問URL隊列中選取目標并開始爬行,通過URL的指向作用,引導程序識別目標網頁,通過事先認可的網絡協議將網頁內容爬取抽取出來,然后解析內容其中包括目標網頁內的新URL,并將這部分URL添加進未訪問列表,完成爬取后獲取的內容存放到本地網頁庫內。

3 提高網絡爬蟲在輿情監測應用水平的措施

網絡爬蟲的本質是能夠使實現網絡信息自動提取代碼程序,是網絡搜索引擎功能的主要實現手段。網絡爬蟲包括通用爬蟲和面向主題爬蟲兩種,當前網絡輿情監測使用的面向主題網絡爬蟲程序,會通過網頁分析算法對非設定主題鏈接進行排除過濾,提高了搜索的精確性。當前,網絡輿情監測中的面向主題爬蟲技術的主要研究對象的行業領域的URL搜索策略問題。

3.1 改善爬蟲網絡利用率的解決方案

網絡爬蟲的利用率是當下輿情監測工作的重要限制因素,高效的爬蟲利用能夠更為便捷地獲得全面而準確的信息。

為了準確掌握爬蟲工作的效率,我們在爬蟲中加入測速的方法,對爬蟲抓取速度進行監測和工作特征數據進行分析。根據監測結果,在抓取速度較慢的階段,采取相應措施進行修正,保證程序對網路資源的高效利用。這一解決方案的具體實現步驟如下:

(1)爬蟲抓取速度監控。抓取速度是進行衡量信息獲取水平的重要衡量因素,影響爬蟲的網頁抓取速度主要有兩個因素,分別是抓取頁面的大小和抓取這些頁面所耗費的時間。因而,可以根據基本的換算關系定義網絡爬蟲抓取速度B:B=PT,式中:T為爬蟲進行抓取的時間間隔;P代表該時間間隔內抓取頁面的大小。

(2)爬行策略更改。40%正常水平的抓取速度是十分低效的,這時必須采取相應的措施進行解決。常見的措施主要包括:減少爬蟲的線程數;暫停當前爬蟲的運行,選擇適當的時間繼續爬行;更換爬行網站。

3.2 改善爬蟲主題覆蓋率的解決方案

當前的社會熱點層出不窮,具有一定的突然性,同時在人們的討論和交流中會進一步發酵,產生的信息量很大。為了保證網絡輿情監測工作的順利進行,就要求爬蟲程序具有較高的抓取的覆蓋率。另外,在進行網頁內容的抓取過程中,爬蟲程序需要執行網頁與主題相關度的計算,會影響爬行速度。所以在進行網絡爬蟲抓取優化時,通常會使用在傳統爬蟲中加入主題更改模塊的形式,即保證了抓取速度的同時也提高了主題覆蓋率。

3.3 系統設計與測試

通過以上分析可知,提高爬蟲系統工作效率的關鍵是在其內部添加測速模塊和主體更改模塊,由此可完成設計方案的優化。該爬蟲在傳統爬蟲的基礎上添加了爬蟲測速模塊和主題更改模塊。

4 結束語

網絡爬蟲技術是當前輿情監測系統中使用的重要技術,在網頁內容獲取方面發揮了重要作用。限制這一技術進一步發揮作用的主要原因是爬蟲程序的網絡資源利用率的問題。同時,網絡輿情監測檢索突發性和大數據性特征,要求爬蟲抓取信息的過程更為迅速,主體覆蓋面也要更廣。本文通過在傳統爬蟲中加入了爬蟲測速監控模塊和主題更改模塊的形式,進行了抓取速度和覆蓋率的監測實驗,其結果表明,這一優化方案有效提高了爬蟲程序的執行效率和信息獲得的全面性,是一種值得認可的檢索技術。

參考文獻:

[1]王桂梅.主題網絡爬蟲關鍵技術研究[D].哈爾濱工業大學,2009.

互聯網輿情監控分析范文3

行業信息化

最佳輿情產品獎

中科點擊秉承自主創新的理念,以堅強的黨性、靈敏的嗅覺和高度的社會責任感與使命感,專注于垂直搜索引擎技術、海量數據分析挖掘技術、自然語言智能處理技術和網絡滲透偵探技術等方面的研究和突破。

在全球一體化和互聯網技術不斷發展的背景下,如何提升突發事件應對能力,加強危機傳播管理和口碑建設,已經成為各級政府部門、社會組織、企業及個人在新形勢下的全新挑戰。

中科點擊(北京)科技有限公司(簡稱中科點擊)秉承自主創新的理念,以堅強的黨性、靈敏的嗅覺和高度的社會責任感與使命感,專注于垂直搜索引擎技術、海量數據分析挖掘技術、自然語言智能處理技術和網絡滲透偵探技術等方面的研究和突破,經過近10年的研究與積累,開發出了具有自主知識產權的軟件產品軍犬軟件(ADSoft)。

軍犬網絡輿情監控系統能夠一站式地在第一時間針對境內、境外網站的各種網絡載體(如新聞、論壇、博客、微博)等全面部控監測,經系統對海量數據進行智能分析、穩準狠快地把互聯網讀懂、讀薄。其核心功能可總結為“352231”。

三大采集:定向采集,是指針對指定站點進行采集;非定向采集,是指針對特定關鍵詞進行采集;境外采集,是指針對在國內不能訪問的境外站點進行采集。

五大分析:包括分析是否與“某市”相關,是否屬于“某市”輿情,是否屬于“某市”負面輿情,是否屬于熱點輿情,以及每條輿情或某個事件專題的傳播路徑等。

二個平臺:網絡輿情專用平臺、掌上輿情平臺。

兩種報告:指基于網絡輿情平臺中的數據、圖表生成的簡報專報。

三種預警:包括短信預警、郵件預警、彈窗預警三種方式。

一套標準:輿情業務辦理標準。

該系統的成功開發與運用,為政府部門加強互聯網信息監管,監測涉軍(警)、涉獨、反恐、維穩、打擊“兩非”,以及實現對重點組織、重點人群和重點信息的定向監測,應對突發公共事件,維護黨、政府、單位、領導及地區形象,把握輿論導向,掌控社情民意,甚至引導網民的上網行為等均提供了堅強的技術保證,也為政府部門在當今錯綜復雜的內外環境和紛繁無序的互聯網世界中撥云見日,掌握監管的主動權,提供了極大的便利與可能。

互聯網輿情監控分析范文4

關鍵詞:網絡輿情;高校;思想政治教育

截至到2014年6月,中國互聯網網民數量達6.49億,CNNIC(中國互聯網絡信息中心)于2015年2月了《中國互聯網絡發展狀況統計報告》,其中主要部分互聯網網民是在校學生,因此高校大學生已經成為網絡輿情的主要力量,因此當前高校大學生思想政治教育亟待解決的問題是利用網絡輿情引導大學生思想動態導向。

1高校網絡輿情

1.1高校網絡輿情的內涵

高校網絡輿情的內涵是利用網絡平臺,將關系到大學生自身利益的事件以及突發新聞事件,迅速匯聚各類網絡意見和網絡輿論意見的總和,通常這些網絡輿情具有一定程度的群體共識,意向性觀念,倡導激勵,思想和政治觀點的負面影響和積極的推動作用,具有普遍的社會價值判斷和獨立。

1.2高校網絡輿情的特點

網絡輿情依托于互聯網,與傳統的社會輿情相比具有以下特征:(1)及時性與互動性:在互聯網時代,微博、QQ等社交網絡的使用,使得重大事件發生后第一時間往往在網上進行擴散,同時網民會附加自己的喜好及評論,在校園中同樣如此;(2)多元性和復雜性:由于網上信息傳播的具體方式、輿情主體特征、主觀角度不同,導致校園網絡輿情呈現出復雜性和多元性的特點。(3)廣泛性:網絡虛擬空間突破現實時間、空間的限制,使得校園內輿情傳播得更快更廣,可以極快擴散到更廣的范圍。

2網絡輿情對高校大學生思想政治的影響

2.1高校網絡輿情對大學生思想的積極影響

網絡空間是學生校園生活的一個重要陣地,學生在網絡上表達自己的思想、情緒,記錄自己學習生活的點滴,對同學進行評價,對校園及社會重大事件表達自己的態度,所以虛擬空間的網絡文化建設,是當前時代背景下校園文化建設的一個重點。高校教育工作者需要充分利用網絡優勢,引導學生在網絡中的正向思維,提升正能量,有針對性地展開學生思想政治工作。正確地引導高校網絡輿情,可使得高校師生統一整體思想,提升學校感召力和號召力,聚集校內師生向心力,促進高校學生思想政治教育工作。

2.2高校網絡輿情對大學生思想的消極影響

在目前的環境下,網絡已經成為信息交流與碰撞,滲透和競爭的主要載體。在西方一些發達國家一直在利用互聯網對大學生群體進行思想的滲透,輿論的導向,誤導腐蝕輿論的理念,改變學生的人生觀,價值觀,腐蝕青年學生。一些大學生因為他們較低的辨別能力,不能堅定自己的政治立場,很容易受到煽動和腐蝕,這給高校中思想政治教育帶來了很大影響。

3高校網絡輿情的引導措施

(1)加強大學生網絡道德建設,規范高校網絡輿情制度,建立起一套完善、規范的高校網絡輿情控制機制并加強對網絡輿情的指導。在思想政治方面提高對網絡輿情的重視程度,始終堅持將以占領網絡輿論的位置用科學的,積極的信息,網絡輿論等引導工作,以及學生的日常思想政治教育放在一起。

(2)增強思想政治教育工作者的信息素養,注重輿論工作隊伍建設。對高校提出意見加強網絡思想政治教育,培養既具有較高層次的政治理論并且熟悉思想政治工作的規律,又精通網絡技術,熟悉網絡文化,擅長思想政治教育的工作隊伍。

(3)優化高校網絡輿情環境,建立高校網絡輿情交流平臺。與其任由學生被動地接受良莠不齊的網絡輿論,不如主動為大學生建立一個積極向上的網絡環境,形成一個具有極大凝聚力的思想政治教育網絡陣地,幫其培養良好的網上行為習慣。高校教育工作者和高校也應該為學生搭建一個有效發泄情緒的平臺。通過這個平臺,能及時,準確地了解學生的實時動態的心理,有利于采取緊急措施,使學生的心理和性格對健康有益的方向發展。

互聯網輿情監控分析范文5

關鍵詞:數據抽取;Hadoop;輿情

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)15-0023-03

Abstract:The public opinion information data with massive, show data sources of unpredictability, article on the HTML page for noise reduction, sub tree construction, and then through the similarity calculation, combined with public opinion simple ontology library, the realization of the data block identification and record the data extract, finally to Hadoop platform for experimental environment and pumping out the algorithm experiment. Experimental results show that the algorithm in the public opinion data mining, automatic extraction of extraction rules has a certain reference value.

Key words:Data extraction; Hadoop; public opinions

1 概述

網絡輿情是某些社會事件發生后,在互聯網的平臺上,民眾針對其發展和變化過程的不同階段逐漸產生和發酵的社會態度,并借助于諸如論壇、博客、微博、微信、新聞跟帖等此類便捷的網絡媒體進行關注、表達或宣泄。由于網絡媒體的自由性和實時性,互聯網的便捷性和隨意性,網民針對社會過程中的各種問題,越來越多的傾向于借助網絡媒體跟帖、轉發、投票等方式暢所欲言,淋漓盡致地發表觀點,在極短時間造成內凝聚共識,并誘發行動,直接影響社會。[1]同時由于閱歷和思想認識水平的局限性,網民們往往會在短時間內難以認識事情背后復雜的社會,并認清其心理動因,從而造成非理性和過于主觀的聲音占據上風。從目前各領域內的一系列突發事件來分析,人們通過網絡媒體進行傳播爆發出的輿論能量不容小覷。各級行政機關、企事業部門都越來越重視互聯網輿情的監測,各專家學者也從不同方面對輿情進行分析研究,如從政策機制、評估體系策略[2]、用戶行為特征、網絡輿情傳播模式的研究和引導;技術上主要集中在網頁抓取、內容分析、語義識別、數據挖掘、主題識別與跟蹤等算法的研究等。在這在互聯網技術飛速發展,影響力日益巨大的時下,網絡已化身為思想文化的集散地和社會輿論的增強器,我們應充分認識以其為載體的新媒體的社會影響力。因此,對于如何快速、準確的發現互聯網上潛在輿情信息并對其進行有效監測、監控及正確引導勢在必行,本文通過對已有技術和知識進行分析總結的基礎上,引入了云計算技術,對以面對與高校相關的網絡輿情信息的數據抽取的關鍵技術進行了研究。

2 研究現狀

隨著互聯網技術的飛速發展,特別是互聯網的普及應用,我國的網民數量、網站數量以及網絡信息資源的容量以爆炸性的趨勢增長。據中國互聯網絡信息中心2016年1月的《第37次中國互聯網絡發展狀況統計報告》[3]顯示:網民通過各類移動設備進行網絡行為的用戶占全體網民總量的90.8%,規模達到了6.06億,其中手機占移動類網民的91%。同時,以互聯網為工具進行新聞獲取閱讀的用戶規模為5.55億,手機網絡新聞用戶規模為4.60億,相較于去年年底將近增長11%。如作為網絡環境下對新聞快速傳播形成熱點話題的微博、微信、來往等App應用借助于手機等無線設備,極大促進了網民對網絡輿情的接觸度和傳播速度,從而使Web成為一個以大數據為基本特征的全球化信息中心。這些在許多領域具有重要價值的海量數據具有多樣性、異構性且動態變化等特征,單純地依賴人工的方法難以及時、迅速地完成海量web信息的收集、 web輿情的發現及進一步的跟蹤。

針對網絡輿情監測迫切需要分析挖掘的這些海量數據,按其信息蘊藏的深度,可分為SurFace Web和Deep Web兩大類[4][5]。Surface Web是將各個獨立的HTML靜態網頁通過超鏈接進行連接,其內容能夠為當前的通用搜索引擎直接索引和檢索而無需與網絡數據庫進行交互;而Deep Web面向的是網絡服務器中的網絡數據庫,Deep Web的內容頁面在被查詢時才由Web服務器主動與數據庫服務器進行交互而動態按照某一特定的HTML布局生成后返回給提交查詢請求的訪問者。隨著信息化的不斷跨躍推進和互聯網技術的持續快速發展,以網絡數據庫形式存儲的資源成指數級增長,如今人們也已訪問網絡數據庫成為信息獲取的主要方式和方法。[6] Deep Web形式的數據內容分布于商業、經濟、計算機、教育、新聞媒體、娛樂等不同的領域;網絡媒體以BBS論壇、微博、微信、來往、博客、播客、新聞、跟帖等各種形式載體和展現,此類海量存儲在Deep Web背后的網絡數據庫數據已成為了供政府及企事業單位進行輔助決策的來源。但由于網絡數據庫隱藏在Web服務后端的隱蔽性,及各個Deep Web站點在網頁展現形式和表述質量的差異性,使得當前存儲DeepWeb數據的網絡數據庫搜索引擎只能實現大約33%左右覆蓋搜索,因此如何有效的、快速的且準確地在浩瀚的網絡數據庫中抽取信息資源成為當前輿情研究中首當解決的問題。

3 基于大數據的數據抽取的相關技術

3.1 數據抽取

數據抽取,也稱之為網頁信息提取,主要是從HTML源碼中去除一些如廣告、標語等噪聲信息,提取出標題、作者、正文等有用的信息。及時準確的信息提取為輿情系統提供可靠的數據源,數據抽取在web 輿情發現中至關重要,,它為輿情系統準確地發現相關信息提供基礎。信息的抽取過程按自動化程度一般可分為人工、半自動化及全自動化三種方式。網頁信息抽取是一種針對網絡數據庫中的數據通過分析、加工網頁的結構實現信息數據的提取的過程。由于網頁的復雜性、多樣性以及程序員構建過程的隨意性和習慣性,使得信息展現的模版不確定性和多樣性,針對不同的網頁模版抽取規則也不盡相同,信息抽取的方法也越來越多,按其實現原理大致可分為基于HTML結構、基于自然語言處理和基于本體幾類方式[7]。

3.2 Hadoop

Hadoop是由Apache基金會開發的一個開源的分布式系統基礎架構,其核心為實現為海量數據提供了存儲的分布式文件系統 (Hadoop Distributed File System,HDFS)和為海量數據提供了計算能力的分布式計算MapReduce。Hadoop為程序開發者提供了簡單易用的接口,用戶只需編寫 Map函數和Reduce函數即可實現分布式計算,而無需考慮諸如由Hadoop負責處理的任務調度,負載平衡和通信等問題[8]。

HDFS是能部署在廉價的機器上的分布式文件系統,用戶不需知道文件的實際存儲位置就能夠訪問分布在不同機器上的文件,具有高容錯性、高吞吐量、能自動處理失效節點的特點。HDFS包含三種類型的角色:用以實現系統命名空間的管理和客戶端文件訪問管理的Name Node,用以實現管理節點文件存儲的Data Node 和用于需要操作分布式文件系統文件應用程序的Client。MapReduce是包含一個主服務器Job Tracker和多個從服務器Task Tracker的主從式架構,Job Tracker是一個master服務,負責調度、監控和管理Task Tracker,并給空閑的Task Tracker分配Map任務和Reduce任務。

4 抽取框架

實現上主要對查詢結果列表頁和內容頁進行信息提取,提取過程中使用自建的簡單本地體庫抽取方法來實現抽取,主要過程為:數據清洗、數據塊識別,結果集抽取,抽取規則構建。

4.1 數據清洗

一般情況下,一個查詢結果頁面可能包含多個數據塊,如宣傳數據塊、數據信息數據塊、位置數據塊、導航數據塊等。其文檔中含有一些對抽取沒有價值的信息,如樣式表標簽、圖片標簽、命名空間標簽、內容標簽、表單標簽、媒體標簽、表格標簽等,直接對此類有大量無用節點的HTML代碼進行解析而生成的網頁標簽樹會十分臃腫,因此首先將列表結果頁和內容結果頁文件進行“瘦身”解析成標簽樹,并采用廣度優先遍歷方法對標簽樹中所有節點進行降噪處理,其過程如下:從根節點開始出發,直至發現表示正文開始的body標簽節點,將當前節點及其子樹提取后向下遍歷,判斷讀入節點是否是噪音節點,如果是則將該節點及其子樹刪除,循環直至到達樹末尾。經過上述過程的降噪處理,可以將網頁標簽樹中明顯的以上所提及的無用信息標簽及其間的內容刪除,從而降低了計算量,并極大簡化了后續算法的輸入。

4.2數據塊識別和數據記錄集抽取

一般情況下,每個查詢結果頁面一般只有一塊區域是用戶所關心并希望可以獲取的,這部分即為該頁面的數據信息部分,而其他的模塊則認為是對用戶數據塊信息順利的獲取的干擾因素,因此如何準確的識別出數據塊在HTML頁面的位置的至關重要。在完成對標簽樹清洗處理之后,我們需要發現并定位標簽樹中的數據塊,此數據塊包含查詢結果。分析比較多個經過清洗生成的查詢結果的標簽樹后發現:對于標簽樹中,某一父親節點T具有越多的結構相似的子樹越多,當比重超過一定的閥值,則該節點將越會是我們所關注的數據塊,針對這一思想實現如何快遞自動識別出的興趣數據塊,算法描述如下:

輸入:節點T下的兩顆子樹T1、T2

輸出:子樹T1、T2的相似度Sim(T1,T2)

算法:

1)初始化SumT1、SumT2、DisumT12;

2) 循環T節點直至遍歷所有的子節點{

3) 如果兩個節點的標簽相同{

4) Sum T1++; Sum T2++;

5) }

6) 如果兩個節點的有節點但標簽相同{

7) Sum T1++; Sum T2++; Disum T12++;

8) }

9) 如果T1節點樹有節點而 T2節點樹無節點{

10) Sum T1++; Sum T2++;Disum T12++;

11) }

12) 否則{

13) Sum T2++; Disum T12++;

14) }

15) Sim(T1,T2)=(SumT1+ SumT2- DisumT12)/( SumT1+ SumT2)

16) }

互聯網輿情監控分析范文6

關鍵詞:網絡輿情;網絡輿情技術;金融業

1、網絡輿情

1.1網絡輿情定義

關于網絡輿情的概念,國內已有研究對其進行了界定,但尚未形成共識,不少研究還存在濫用混用概念的現象,對深入地進行網絡輿情研究造成了不良影響,因此研究網絡輿情,有必要先理清其概念。

目前,關于網絡輿情的定義主要有兩大陣營。其一是軍犬輿情系統創始人彭作文給出的網絡輿情定義是以網絡為載體,以事件為核心,廣大網民情感、態度、意見、觀點的表達、傳播與互動,以及后續影響力的集合。網絡輿情六大要素:網絡、事件、網民、情感、傳播互動、影響力。其二是曾潤喜在網絡輿情管控工作機制研究一文中給出的網絡輿情定義是由于各種事件的刺激而產生的通過互聯網傳播的人們對于該事件的所有認知、態度、情感和行為傾向的集合。其別強調了輿論與輿情的區別,輿論是人們的認知、態度、情感和行為傾向的集聚表現,是多數人形成的一致的共同意見,是單種意見的集合,即需要持有某種認知、態度、情感和行為傾向的人數達到一定的量,否則不能認為是一種輿論。而輿情是人們的認知、態度、情感和行為傾向的原初表露,可以是一種零散的,非體系化的東西,也不需要得到多數人認同,是多種不同意見的簡單集合,這也是最容易將二者混淆的地方。當輿情產生聚集時就可以向輿論轉化,因而對輿情的管控就是要使輿情不轉化為輿論或轉化為良性輿論。

這兩種定義雖然強調的側重點不同,但是我們不難發現其闡述網絡輿情的核心都是網絡、事件以及人對事件的反應。所以對于網絡輿情的研究,我們要基于網絡,針對事件,收集、監測和分析人對事件的反應,以便于相關部門能及時對問題采取相應的解決措施。

1.2網絡輿情特點

網絡輿情形成迅速,對社會影響巨大。隨著因特網在全球范圍內的飛速發展,網絡媒體已被公認為是繼報紙、廣播、電視之后的“第四媒體”,網絡成為反映社會輿情的主要載體之一。網絡環境下的輿情信息的主要來源有:新聞評論、電子公告板(BBS)、博客(Blog或Weblog)、聚合新聞(RSS)、空間、電子郵件(Email)、其他社會性軟件平臺等。網絡輿情表達快捷、信息多元,方式互動,具備傳統媒體無法比擬的優勢。網絡的開放性和虛擬性,決定了網絡輿情具有以下特點:

1)直接性,通過BBS、新聞點評、博客網站和個人空間,網民可以立即發表意見,下情直接上達,民意表達更加暢通;

2)突發性,網絡輿論的形成往往非常迅速,一個熱點事件的存在加上一種情緒化的意見,就可以成為點燃一片輿論的導火索;

3)偏差性,由于發言者身份隱蔽,并且缺少規則限制和有效監督,網絡自然成為一些網民發泄情緒的空間。在現實生活中遇到挫折,對社會問題片面認識等等,都會利用網絡得以宣泄。因此在網絡上更容易出現庸俗、灰色的言論。

2、網絡輿情技術在金融行業中的應用

2.1網絡輿情技術

網絡輿情技術是有效掌控網絡、促進社會主義和諧社會建設的重要技術手段。目前,網絡輿情技術主要包括:話題檢測、話題跟蹤、自動摘要、趨勢分析、輿情預警等。

1)熱話題檢測:可以根據新聞來源的權威度、發言時間的集中程度等參數,發現指定時間段內的熱門話題。并可以根據主題關鍵詞和回帖數進行整體語義分析,識別出所有敏感話題。

2)話題跟蹤:可以對文章進行聚類,分析新發表文章、帖子是否和已有文章主題是同一話題。

3)自動摘要:可以對所有文章、話題傾向自動分析,形成摘要。

4)輿情趨勢分析:可以針對某個主題分析人們在不同的時間段內的熱度。

5)突發事件分析:可以對突發事件進行跨時空的全面分析,得出整個事件發生的全貌并對事件的下一步的趨勢進行預測。

6)輿情報警:可以對突發事件、涉及內容安全的敏感話題進行及時發現并產生報警。

7)輿情統計報告:根據輿情分析引擎處理后得到的數據生成相應報告,用戶可通過瀏覽器進行瀏覽,并提供了檢索功能,可以根據指定條件對熱點話題、傾向性等自己感興趣的話題進行查詢,得到話題信息的詳細內容,提供決策支持。

2.2網絡輿情技術在金融行業中的應用

網絡輿情技術從誕生起就顯示出巨大的威力,涉足面也愈來愈廣,已經從單純的社會領域走入了專業性更強的金融投資領域。由于信息通訊技術和互聯網的發展,互聯網金融信息對金融市場的影響已經越來越不容忽視。這些信息關乎著整個金融行業的發展和穩定。

為了金融行業更好的發展,我們接下來探討一下網絡輿情技術在金融行業中的應用。

2.3輔助投資工具

目前很多人把網絡輿情技術視為新的理財工具,并不夸張,某一個新事件的發生或者是網絡上對某支股票的熱議都在很大程度上左右著金融實踐者們的行為,同時進一步影響著股市變化的趨勢。

申銀萬國研究所首席經濟學家楊成長認為,網絡輿情技術在我國的逐步推廣,將對金融創新、衍生產品等有促進作用。他表示,“未來的資本市場將逐漸轉型為市場股民化、股民網絡化。”

中科精誠總經理梁正之則表示,“目前網絡輿情這一技術僅為一些監管部門運用,未來我們將研究如何逐步向機構投資者和中小投資者推廣應用?!?/p>

中科院計算技術研究所網絡重點實驗室副主任余智華表示網絡輿情技術是基于內容的智能分析技術,金融行業可以建立一個與當前流行的股票軟件和金融市場信息采集分析系統功能定位完全不同的信息跟蹤分析技術。并且通過系統監測互聯網上的相關新聞報道、相關評論等,跟蹤分析這些信息與金融市場之間的關聯關系,將這些信息按照知識模型體系進行分析與組織,為投資者及相關機構提供便于分析利用的、相互關聯的信息來源。

2.3.1聲譽風險管理

近年來,我國各金融機構按照國家有關金融監管制度,初步建立了金融穩定工作協調機制,制訂了應對突發事件的相關應急預案。然而,隨著社會的不斷發展,互聯網已經成為思想、文化、信息的集散地和社會輿論的放大器。同時由于中央和地方政府對網絡輿情的高度重視及積極回應,互聯網業已成為政府治國理政、了解社情民意的新平臺。金融機構如何建立有效的聲譽風險管理體系,實施有效輿情監控成為當務之急。尤其是近兩年來,金融行業的“聲譽危機事件”屢見不鮮,致使相關金融機構形象受損、信用度滑坡,并嚴重影響了金融安全和社會穩定。

為更好地凈化網絡輿論環境,維護金融穩定,進一步幫助金融機構樹立品牌形象、加強聲譽風險管理,網絡輿情技術在金融行業中的應用必不可少。它能有效防止負面信息的肆意傳播和輿情失控,協助金融機構提高網絡輿論引導能力,營造積極向上的輿論環境,為金融機構快速健康發展提供強有力的輿論保障。

2.3.2輔助決策管理

輔助決策管理系統主要作為相關管理機構的輔助決策工具,通過網絡輿情技術,收集分析金融市場信息,并與傳統的金融分析數據相結合,以決策主題為重心,以傳統金融分析方法為基礎,網絡輿情技術為輔助,構建決策主題研究相關知識庫、政策分析模型庫和情報研究方法庫,建設并不斷完善輔助決策系統,為決策主題提供全方位、多層次的決策支持和知識服務。為金融管理研究機構以及政府部門提供決策依據,起到幫助、協助和輔助決策者的目的。

3、可能存在的問題

雖然網絡輿情技術給金融行業帶來了新的發展機遇,對凈化網絡輿論環境,維護金融穩定起到了積極的作用,但同時也可能會帶來新的問題。

1)輿情技術的準確性問題。網絡輿情技術發展至今,還沒有一個準確性的檢驗標準,其準確度到底達到什么水平,尚不可知!尤其相比對一目了然的公司財務報表、年報這類結構性數據進行預測,運用輿情分析技術對紛繁復雜的非結構性數據——網絡輿情進行分析,真的可以提升預測的準確性嗎?

2)網絡輿情技術給網民帶來的安全性問題。通過網絡輿情技術所收集的信息難免涉及到網民個人隱私,這些信息該如何管理?是否會給網民帶來困擾?

3)對于相對復雜的財務數據結構,對其跟蹤和挖掘技術也要求甚高。

參考文獻:

[1]劉毅.網絡輿情研究概論[M].天津:天津人民出版社.2007.09

[2] 馬海兵.網絡輿情及其分析技術[N].光明日報.2007.01.22.

[3]賈孟飛.基層網絡輿情監測工作的實踐與思考[J].銀行家.2010,(12)

[4]章棟兵.互聯網輿情分析關鍵技術的研究與實現[D].武漢:武漢理工大學.2010

亚洲精品一二三区-久久