前言:尋找寫作靈感?中文期刊網用心挑選的網絡輿情的采集獲取和處理,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。
1我國網絡輿情發展現狀及分析 據第29次中國互聯網絡發展狀況統計顯示:截至2011年12月底,中國網民規模突破5億,達到5.13億,全年新增網民5580萬。 互聯網普及率較上年底提升4個百分點,達到38.3%。中國手機網民規模達到3.56億,占整體網民比例為69.3%,較上年底增長5285萬人。家庭電腦上網寬帶網民規模為3.92億,占家庭電腦上網網民比例為98.9%。農村網民規模為1.36億,比2010年增加1113萬,占整體網民比例為26.5%。2011年,網民平均每周上網時長為18.7個小時,較2010年同期增加0.4小時。2011年中國網民即時通信使用率上升較快,增至80.9%。同時,許多傳統交流溝通類應用的用戶規模出現萎縮:電子郵件使用率從2010年的54.6%降至47.9%,用戶量減少392萬人;論壇/BBS使用率則由32.4%降至28.2%,用戶量也略有減少。隨著網絡的應用普及,網絡輿情反映已經逐漸取代了傳統的輿情交互途徑,成為了社會大眾對現實社會的真實情感反映。在當前我國經濟快速發展,社會轉型的關鍵時期,隨著經濟社會文化的發展,社會利益關系更趨多樣化、復雜化,人們的思想意識也更加多元化、獨立化,往往一些問題一經網絡討論傳播,就會立即引起廣大網民的關注,繼而形成網絡輿情熱點,并引起網民強烈的反響和激烈的討論。 2網絡內容控制的技術方向 近年來,國際上開發的網絡輿情監控產品種類繁多,最為常見的是以內容分級和過濾為技術方向的產品,其作用類似“電子保安”。麻省理工學院所屬W3C(WorldWideWebConsortium)推動了PICS(PlatformforInternetContentSelection)技術標準協議,完整定義了網絡分級的檢索方式。以PICS為核心的RSAC研發,例如RSACI(RSAContheInternet)分級系統,以網頁內容中呈現出性(Sex)、暴力(Violence)、不雅言論(Language)或裸體(Nudity)表現程度等四個維度進行相應管控。作為美國過濾軟件的代表CyberPatrol,用戶可以對其中監控對象的名單等內容進行修改。政府部門通常也訂立阻止用戶訪問的“互聯網網址清單”,以實現不良信息的過濾和篩選。 目前,我國參照國際上網絡內容控制服務和軟件,形成了以下幾個網絡內容管控的技術方向: 1)過濾/屏蔽技術:(1)使用統一資源定位器(URL)列表的服務器端過濾;(2)使用URL列表的客戶端過濾;(3)使用文本內容分析的過濾(包括服務器端和客戶端)。2)標識和分級系統:(1)第一方標識/分級;(2)第三方標識/分級;(3)互聯網內容選擇平臺(PICS),該平臺結合了第三方分級和用戶自行分級兩種方式。3)年齡認證系統:(1)基于信用卡的年齡認證系統;(2)基于獨立發出的ID(Identification)的年齡認證系統。4)新型頂級域名(TLD)/分區:(1)為對未成年人有害的內容建立的新型TLD,如.xxx或.adult,表示定位于該域名的網頁上的內容(以及來自于該域名的電子郵件)是對未成年人有害的內容;(2)為無害于未成年人的內容建立新型TLD,如kids等,表示定位于該域名網頁上的內容(以及來自于該域名的電子郵件)一般被視為適合所有未成年人。這兩項技術雖具可行性,但目前尚未投入使用。作為一種替代性辦法,可以建立一種新的次級域名(如.us.kids),這種域名不需要ICANN對現有頂級域名系統做出調整(;3)通過分配一套新的IP地址(新的IP協議——IPv6,尚未廣泛應用)建立網上“安全區”,任何在該IP地址范圍內的內容可視為“安全區域”或“灰色區域”內容,屬于無害信息或既無益也無害于未成年人的信息。5)監控技術:(1)監督和限時技術;(2)實時內容監督/屏蔽方法,可用于不適用過濾技術的網絡傳播領域。6)安全空間(Greenspaces):這是一種封閉系統,只允許訪問系統管理員選定的內容,不能訪問系統之外的網站。相關的網絡輿情監管部門及行業自律組織應該在考慮公民隱私權、網絡言論自由、維護網絡秩序等合理因素的基礎上,在按比例、遵循相關法律法規的前提下考慮采取一種或幾種技術,審核用戶的真實注冊信息、言論內容的合法性以確保對網絡輿情的合理有序監管。 3網絡輿情采集與獲取技術 3.1網站定向采集 網站定向采集是實時發現互聯網上新出現的信息是否包含用戶關注的信息,通過周期性地發送HTTP請求,模擬用戶網頁瀏覽行為,掃描相關網站URL列表,以實現對關注站點的實時采集,通過鏈接簽名技術和鏈接比對分析技術來判斷所關注的網頁是否已進行了信息更新,對出現更新的頁面重新下載并存入頁面信息庫,若無更新,則設定周期進行下一輪的掃描過程。 通過頁面內容分析技術對下載到的更新頁面信息進行分析和處理,若該信息符合信息報警提示的條件,則進行報警提示處理。 采集周期和采集URL列表可以由用戶自行設定,周期越短,掃描頻率越高,對于信息的更新就越快,實時性更強。 3.2網絡垂直搜索 網絡垂直搜索可以實現從網絡上自動收集與監控專業領域相關的Web網頁數據。同時,網絡垂直搜索能夠更高效地收集相關信息,也能對這些信息的更新做出更及時的響應。 垂直搜索引擎僅專注于某一領域和主題,并能夠對該網頁的主題相關度進行準確預測,優先下載相關度高的網頁,從而提高“收獲比”和網絡帶寬利用效率。并且,可以通過聚焦爬蟲和監控技術,建立一個大型的網絡信息監控系統,包括對官方媒體新聞的Web站點上的新聞和代表大眾民意的博客文章及在線論壇的監控,實現自動化的收集、存儲、整合和處理流程,包括數據的即時可視化處理,這些均可以為開源信息數據的處理提供豐富的數據平臺。 3.3網絡聚焦爬蟲 網絡聚焦爬蟲是實現全網數據自動采集的主要工具之一,主要負責從互聯網上爬取和下載與主題相關的網絡資源。筆者建議在原有普通爬蟲基礎上,對其功能進行擴充,能夠及時、有效地抓取與主題相關的網絡資源。聚焦爬蟲從組成上可分為領域相關初始URL種子集、頁面抓取模塊、主題相關性分析模塊以及URL與頁面下載模塊等。#p#分頁標題#e# 領域相關初始URL種子集用于生成面向特定主題的較好的種子站點,使爬行模塊在初始工作階段保證良好的主題相關性,以提高爬取相關頁面的命中率,一般可以通過采用元搜索引擎搜索出主題相關網頁,從中選取質量較高的一組種子URL。 頁面抓取模塊主要抓取頁面內容,并通過對頁面鏈接抽取,將抽取的鏈接集放入緩存中,用于下一階段的URL去重和主題相關度分析。 主題相關性分析模塊是聚焦爬蟲的核心模塊,該模塊的實現是根據主題相關性的判別結果決定頁面的取舍,一般由內容相關性分析和鏈接分析組成,通過相關性計算,分析待下載網頁是否符合關注的主題。 URL與頁面下載模塊是基于主題相關性分析的模塊,對符合主題的鏈接進行,若符合下載的條件,則將頁面下載到頁面信息庫中。 3.4需求配置采集 根據實際需求,可以設計靈活配置的WebRobot搜索策略,應用面向對象的分析方法,將Robot的核心工作任務抽象分成兩類:一類為遍歷工作,其根據指定的超鏈接,通過協議獲取其頁面信息;另一類為解析工作,其根據遍歷所得到的Web頁面信息,解析其中包含的超鏈接并以此鏈接作為起點實現遞歸遍歷工作。為了靈活控制Robot的行為,需要設計適宜的規則擴充系統,并在任務執行之前根據用戶指定的規則做出是否執行Robot各項任務的判斷。筆者建議可配置的Robot系統的總體架構設計為三層:用戶服務提供接口層(SPI,ServiceProviderInterface)、應用程序接口層(API,ApplicationProgrammingInterface)及核心工作層(Core)。整體框架如圖2所示。 通過實現服務提供接口層中的規則和插件接口,可以靈活地擴充控制Robot工作的行為規則和事件處理機制。同時,系統的核心部分的驅動來自于可方便定義的配置文件,從而實現整個Robot工作系統的靈活配置。 3.5深度網、動態網采集 深度網、動態網的特征是在于其頁面的隱蔽性,一般需要用戶提交數據請求的表單才能獲得返回的結果。筆者建議可以通過模擬填寫表單和取回所有返回結果頁面的過程來實現隱藏Web數據抓取。其工作過程可分為三步:1)分析頁面,尋找表單:深度網爬蟲從站點主頁開始爬行表單頁面,這個過程使用一組啟發式規則來去除非研究表單;2)學習填寫表單:爬蟲從表單中抽取標簽,配合領域規則知識庫,盡力學習如何正確地填寫表單;3)識別和取回結果頁面:爬蟲提交表單,然后取回結果頁面識別記錄。4輿情處理技術由于網絡輿情數據的海量性,不同網頁數據重復不可避免,必須采用有效的方式減少網頁重復情況,同時采用更精準的方式采集到更多的網頁數據信息。筆者建議采用異構網頁信息抽取、網頁、關聯分析技術及跨媒體數據搜索等方式進行解決。 4.1異構網頁信息抽取 異構網頁信息抽取實現對異構網頁的正文、標題、日期等信息的抽取,將抓取得到半結構化HTML頁面數據轉化成結構化的信息輸出。異構網頁信息抽取的過程可分兩步:1)分析網頁來源與網頁結構等屬性,如能直接得出輸入網頁的類型,則直接調用對應包裝器實施正文信息抽??;若非指定類型網頁,則根據網頁屬性分析結果尋找可用的包裝器和信息抽取器,分別計算抽取結果;2)分析結果間差異性,進行格式對齊與數據集成,實現抽取結果的集成,獲得最終結果。 4.2網頁減冗 網頁是在采集到的海量網頁信息中自動檢測出內容重復的頁面信息,以節約存儲資源、提高索引效率和搜索返回的結果質量、排除因存在大量重復數據對情報分析的影響?,F有的算法例如I-Match,DSC(DigitalSyntacticClustering)等大都不適合用于大規模文檔實時的要求。由于特征數目不容易決定基于TF-IDF進行的算法,運行的時候效率也不是很高。項目團隊成員在實踐中不斷探索和實驗,提出了一種改進的基于內容的快速網頁算法。該算法既利用了基于標點符號的特征串算法的高效率,又將TF-IDF穩定的優點融入其中,以TF-IDF中TF的大小來決定該詞是否被選為特征,并且將被選中特征加入特征串中參與比較,在文檔數目龐大且文檔特征比對計算次數較多時,可以通過預先存放文檔特征庫的方式來提高海量文檔的比對速度。 4.3信息抽取與關聯分析技術 對于信息的抽取與關聯分析可以通過對主題搜索而獲得主題或專業相關的網頁后,分析網頁結構與內容并提取專業信息。Web頁面文本信息往往是半結構化的,也夾雜著結構化和自由文本,同時又表現出動態性的特點。例如,有些網頁來自一些專業網站,大量的數據保存在這些網站的數據庫中,可以通過動態網頁組織呈現給用戶,這些數據往往體現出較強的結構化特征。如何獲取這些信息的關鍵就在于分析獲得這些網站組織數據內容的格式,并基于這些格式規則來抽取網頁中所需信息。 同時,可以針對公共安全領域中需要對網頁情報內容中的時間、地點、人員、事件等命名實體進行識別和抽取,處理各語言實體之間的對應,實現多語言信息的關聯和整合。 4.4跨媒體數據的搜索技術 由于跨媒體數據的多樣性、復雜性、巨大性、分散性和不確定性等特點,為實現跨媒體搜索平臺中的海量跨媒體數據處理,筆者提出一種適合海量跨媒體數據的搜索算法解決技術。首先,我們可以通過分布式爬蟲服務器不間斷地從Web或者各個數據庫中收集跨媒體數據,形成跨媒體文檔集合?;赩IPS(Vision-BasedPageSegmentation)對跨媒體文檔內部鏈接信息進行過濾,排除網頁周圍的噪聲鏈接,如廣告欄和菜單條等。過濾后的文檔存儲到跨媒體數據庫中。其次,可以通過鏈接分析來獲取跨媒體對象之間的高層語義關聯,并采用交叉參照圖(CrossReferenceGraph,簡稱CRG)模型來描述媒體對象之間的語義相關性;結合先驗知識和多媒體文檔語義框架的描述來計算媒體對象之間的權重。這種權重反映了媒體對象之間語義關聯的強弱;同時,我們還需要通過用戶的相關反饋逐步調整、修正和完善交叉參考圖。再次,針對跨媒體數據庫中的媒體對象可以進行層次聚類,并基于媒體對象的質心距離計算其跨媒體索引鍵值,生成每個媒體對象的索引。生成的索引將存儲于索引庫中。最后,當用戶提交一個查詢對象時,可以通過對交叉參照圖進行基于快速索引的定位,得到與查詢對象相關的候選媒體對象。#p#分頁標題#e# 5結束語網絡輿情是社會輿情的反映,一定程度上反映著社會民意,其產生的原因往往是突發事件引起公眾對事件的評析或散播某些虛假信息而引起公眾跟風及評析等多方面因素,其中反映著一些合理的訴求,當然也有一些不合理的訴求,合理及不合理的訴求處置的正確與否直接關系到社會的穩定。 妥善引導好、監管好、處理好網絡輿情問題需要信息安全技術提供有力的保障。 通過上述內容的介紹和分析,筆者認為可以通過一個系統項目的建設解決有關部門急需的互聯網海量信息下掌控輿情動態的難題,提升網絡輿情分析、監管水平,以便更好的為網絡輿情監管部門提供智力支持服務和技術支持服務。