前言:中文期刊網精心挑選了社交媒體文本分析范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
社交媒體文本分析范文1
可以肯定,該分析師的結論完全基于標準的定量數據的分析。但他不知道的是,當天早些時間,已經有一則關于“這家公司將被另一家公司以每股60元的價格收購”的通告。由于該分析師沒有監控和分析文本數據,例如新聞,于是他的建議誤導了客戶。
類似的事情近年來經常發生。
企業一直依賴于存儲在關系型數據庫中的結構化(可量化的)數據來分析其商業運作、競爭狀況以及全面的業務運營環境。實際上,企業所依賴的僅僅是其所能獲得信息的極少一部分,甚至還未達到20%,而這些未被分析到的信息卻以非結構化(定性的)數據形式廣泛存在。
可實現的BI圣杯
時至今日,許多企業已經意識到,如果有方法可以收集、集成、查詢和分析那剩余的80%非結構化數據,決策支持將會得到極大的提升。但這個目標一直難以實現。企業迫切需要一種方法從不同格式的非結構化數據包括Word文檔、PDF文件、E-mail消息、短信息、媒體文件、客戶服務調查、呼叫中心的記錄、PowerPoint Presentation、各種其他類型(非量化)的企業文檔中梳理關鍵的業務信息。另外,收集和分析外部的非結構化數據如來自Web頁面、博客、聊天室、及其他社交和新聞媒體等。遇到的挑戰就是得尋求一種有效方式將這種非結構化數據和結構化數據進行集成,并將它們一起分析,發現關鍵的趨勢和相關性。
文本分析技術恰恰能夠破解這一難題。它是一種將文本數據進行轉換,使它們適合于查詢以及高級分析所擁有的、為我們所熟悉的功能。它應用語言與統計機制以抽取用于對文檔、音頻、視頻和圖像進行分類的概念和模式;它可將非結構化信息轉換為適用傳統分析機制應用的數據,揭示之前計算機無法處理的大量信息中的意義與關系。
前沿:文本分析及統一存儲
業界已有的共識就是定量分析僅僅能夠提供一定數量和特定類型的信息用于基本的商業決策。定量的(結構化)數據非常適合于為回答“什么”問題提供信息,但是定性的(非結構化)數據在回答“為什么”問題時卻更有用。要了解全面、準確預測,企業對這兩種類型的答案都需要。但一些公司仍然保持著獨立的結構化數據分析系統和非結構化數據分析系統,這導致了成本高昂,集成延遲,無法綜合分析數據,無法做出實時、全面、智慧的決策等問題。
理想的方式是將集成的結構化和非結構化數據存儲到同一個地方――最好是一個可以管理多種數據類型以及支持所有關系型商業智能的標準報表、數據挖掘、預測分析和文本分析的優化的分析引擎。單一的存儲為IT管理和業務用戶帶來明顯的好處――能夠以更短的時間獲得一個關于企業的業務環境綜合、關聯的視圖。
因此,需要將文本分析加入到企業的商務智能中,以消除目前讓挖掘海量定性的數據變得困難和成本高昂的障礙。
文本分析可以理解為一種語義層的技術,來補充傳統的商業智能。BI長期關注定量數據,而文本分析將BI報表、分析和可視化功能擴展到占80%的、以文本和其他非結構化形式存在的業務信息。它使得任何書面或口述的材料可以被分析,包括電子郵件和文本消息,Web頁面、博客、論壇以及其他社交和新聞媒體,聯系中心記錄以及調研反饋,保修和保險索賠,企業報表和申請以及法律文檔和科技文獻。
系列實踐證明,統一的文本和定量數據存儲可以消除那些在文件系統中管理非結構數據的系統管理員進行邏輯設計的復雜性,也消除了一旦文件系統損壞或停機而帶來的數據不可訪問的風險。中心式的數據訪問意味著更穩定和更安全的系統。
現在,技術已允許結構化和非結構化數據存儲在統一的分析引擎中,基于該引擎, 涵蓋全企業,找到相關的非結構化數據,并將它們從文件格式中抽取出來;對非結構化數據進行預處理并將它們和現有的結構化數據一同加載到數據庫中;基于聯合的數據存儲執行所需的分析,發現趨勢、機會、威脅、低效率,以及其他可以帶來更好商業決策的洞察力。
數據量迅猛增長,競爭愈發激烈,監管更加嚴格……那些繼續基于對商業環境僅僅20%的理解而運營的企業將發現自己的劣勢正在不斷擴大。領先的企業將部署領先的技術和高級分析機制,從來自另外80%的信息――不斷增長的、傳統上未被使用的非結構化數據――中獲得洞察力、智能以及其他關鍵信息中得到更多好處。
案例
eBay的極限分析
霍娜
全球最大的電子商務平臺eBay擁有全世界最大數據倉儲系統。近年來,它的數據成長的腳步相當驚人:eBay現在每天有50PB的新增數據,使用者平均每天對5萬種商品進行數百萬次的網上查詢。除此之外,eBay還有7,000多個商業用戶和分析人員,為了分析,每8秒鐘會產生1TB的數據量。這些加起來,eBay每天要處理的數據量高達100PB。多么驚人的數字!對eBay 來說并不只是數據量的增加,eBay分析平臺高級總監Oliver Ratzesberger認為,近年來在分析數據領域最大的挑戰就是要同時處理結構化與非結構化的數據。
eBay的非結構化數據主要是來自行為分析的數據以及對網站點擊率的分析。Ratzesberger表示,這些資料都比過去還要復雜、多變。以追蹤點擊率為例,近年來大部分的網頁都是動態網頁,過去只要透過網址就能知道使用者正在看什么網頁,但是現在一個網頁上的內容變多了,而且每一秒都在變化,這對于分析使用者行為來說,難度也就更高。 Ratzesberger認為,分析點擊率信息這一類半結構性和非結構性數據是eBay未來在數據管理方面的工作重點之一。
社交媒體文本分析范文2
關鍵詞:大數據;陶瓷文獻;整合模式
江西省社會科學規劃一般項目《從文本到人本:“一帶一路”境遇下中國陶瓷文化的國際傳播策略》階段性研究成果,景德鎮市社會科學規劃重點項目《學習型社會視閾下數字閱讀“把關人”制度建構研究》階段性研究成果,景德鎮市科技局軟科學項目《景德鎮陶瓷文化傳播力構成體系研究》階段性研究成果。
在大數據時代,數據已然成為一種戰略資源而導引著社會資源的整合模式,基于一切皆為數據、一切皆可量化的整合效率,數據式整合無疑是促進跨文本、跨主體、跨行業、跨時空等諸多跨界式融合升級的基本動力。
中國陶瓷文化博大精深,是中國傳統文化的重要組成部分,也是實施“一帶一路”戰略的重要領域,而陶瓷文獻則是陶瓷文化的載體,其整合無疑具有重要意義。
1 文本整合模式:從文獻到文化
陶瓷文獻的類型眾多,包括陶瓷作品、期刊、圖書、報紙、古籍、特藏、以及電子資源等,它們作為陶瓷文化的載體,記錄與保存著源遠流長的中國陶瓷文化。當下,融合已經成為包括陶瓷文化在內的社會文化創新與發展的新常態,各種類型的陶瓷文獻之間也相互交融,因此,從文獻到文化的升級就成為陶瓷文獻整合的模式之一。這種語境下的文化既包括陶瓷文化,又不止于陶瓷文化,而是內容、關系、情感、時空、生活方式等諸多要素的雜糅,因而也是陶瓷文化與社會文化相互滲透、相互融合而成的多元文化共同體。
在大數據時代,由于文本數據化,數據相關化,因此從知識文本到智能文本以及從圖文文本到圖像文本的升級就是陶瓷文獻整合的路徑之一。
首先,智能文本
智能化是高科技時代的一個高頻詞匯,智能終端、智能家居、智能系統、智能生態等等已經進入百姓生活之中。就陶瓷文獻整合來看,智能文本主要包括智能編輯的文本以及智能終端的文本。在大數據時代,數據無時無處不在,一切皆為數據也必然要求一切皆可量化,因為身處海量數據之中的用戶其個性化需求顯得更為迫切,所以只有精準才能贏得用戶。而智能文本則堪當此任,其中,智能編輯的文本是基于智能算法與思維而能夠實現個性化與規?;⒁约皩I化與便捷化等多元價值互動的文本,包括智能生成的文本、智能推送的文本以及智能服務的文本等。
就陶瓷文獻來看,智能生成的文本是指陶瓷文獻的科技性、藝術性、知識性、文化性、情境性等多元內容能夠實現智能組合而不受主體、專業等限制;智能推送的文本是指能夠基于用戶的各種行為,包括點擊、搜索、閱讀、發送、評論、收藏等行為,而進行智能推薦的文本;智能服務的文本是能夠為陶瓷生產、交易、投資、消費、管理等各種產業和社會活動提供服務的文本。比如基于陶瓷藝術品拍賣與收藏的數據而預測當前藝術品市場的投資熱點,以及基于陶瓷用具的產銷數據而設置時尚生活的議題。
智能終端的文本主要是適用于智能手機的移動文本,它包括生產、生活、學習、工作、休閑娛樂、社交、投資消費等各種場景的文本。比如,手機一卡通、手機支付、手機位置服務、手機知識推薦:移動閱讀、移動檢索服務、移動參考咨詢、移動學科服務、移動二維碼、移動視聽展示和移動特色資源、移動門戶服務等各種服務。這些移動文本可以消除陶瓷博物館、檔案館、圖書館、展覽館、文物局等時空的限制而進行實時實地傳播。
其次,視頻文本
陶瓷既是藝術之物也是生活之物,既具有工具理性也具有價值理性,既是金木水火土的結晶也是科技、藝術、文化、經濟等的濃縮,其自然景觀和人文景觀皆美不勝收,其物質文化和非物質文化都光輝璀璨。以瓷都景德鎮來看,“三面青山一面水,一城瓷器半城窯”;“陶舍重重倚岸開,舟帆日日蔽江來”等展開了一幅幅美輪美奐的畫卷。
視頻文本可以包括數據圖、網絡在線演示、互動圖標、圖片、動漫、視頻短片、影視劇等文本,是從圖文傳播向圖像傳播的轉型。這些不但是傳承陶瓷文化的絕佳載體,而且是講好陶瓷故事的有效形式。借助于形、聲、色、畫等眾多元素的視頻文本能夠將兼具物態、生態、活態等多元、多變形態的陶瓷文化展示得淋漓盡致,也能夠將動人、感人、催人奮進的陶工故事、城市故事甚至民族故事等陶瓷故事演繹得惟妙惟肖。比如,陶瓷物質結構的演進,包括石器、陶器、鐵器、銅器、銀器、陶瓷等;能量結構的演進,包括森林、水土、河流、光、熱、風等;工藝結構的演進,包括陶瓷七十二種工藝流程及其革新;組織結構的演進,包括官與民、行與幫、地緣與業緣等;社會生態結構的演進,包括作坊、窯址、礦坑、民居、里弄、店鋪、街道、集市等;這些結構相互交織而形成動態的陶瓷文化圖譜,適于視頻文本進行傳播。
2 人本整合模式:從文化到人化
從以信息為中心到以人為中心,以及從以傳者為中心到以用戶為中心的轉型,是大數據、云計算時代媒介傳播的新模式、新課題。
首先,關系人模式。
泛在網絡環境下,用戶不是分散的用戶,而是相互關聯、相互交融的網絡式用戶,因而也是無所不在、無所不能的關系人,既可以是公共關系人,也可以是社交關系人。
其一、公共關系人。公共關系是企業開展社會化經營的重要資源,而在公共領域與私人領域日益交融的環境中,公共關系存在于一切領域,公共關系人也日趨細分而多樣化。主要表現在:從名人公關到人人公關,任何人均可以是公關人。比如,就企業公關而言,對于企業員工與投資者,可以通過企業生活與家庭生活的互動而實現內部公眾式的公關;對于企業所在社區,可以通過公共信息、公益活動等而實現社區公眾式的公關;而對于消費者、受眾、用戶等,則可以通過消費者、體驗者、宣傳者以及咨詢者等多元角色的互動而實現市場公眾式的公關。
從品牌公關到微公關,任何時空均可以是公關領域。在傳統媒體時代,品牌是企業以及城市公關的法寶;而在微博、微信主導的微時代,微公關則頗為盛行。主要表現在:微平臺、微終端,包括微博、微信等平臺以及拍客、播客等新終端;微內容,包括信息、知識、思想、經驗、情感、情趣等內容;微形式,包括圖片、照片、視頻、微電影、微電臺、時尚秀等形式;微空間,包括物質、文化、心理、情感、情緒等多重空間。
其二、社交關系人。以個體為中心的社交平臺是對企事業等組織邊界的超越,因而人人皆社交,無社交不傳播;同時,社交平臺的開放性、便捷性、分享性以及聚合性等屬性使得其成為有效的生產、營銷平臺而滲透于各種生產經營領域。進一步而言,社交平臺開創了社會生產生活的新空間,社交關系人成為新寵。主要表現在:社交平臺加快了傳受互動,從而信息類內容、關系類內容、話題類內容等不斷增生;社交平臺加快了虛擬空間與現實空間的互動,從而傳播場域也就成為傳播場景;社交平臺加快了生產方式與生活方式的互動,從而促進了個性化的生產方式與生活方式??傊?,社交關系人是傳受互動、產消一體等多元角色的交互,是口碑文化、粉絲文化等多元文化的體現。
其次,體驗人模式。
體驗是用戶時代傳播與營銷的基本模式,它既可以促進跨媒介形態傳播,也可以推動跨文化形態傳播。而就中國陶瓷文化傳播來看,體驗主要包括物態文化體驗、生態文化體驗以及活態文化體驗。
其一、物態文化體驗。從器物形態來看,陶瓷既可以是工藝之物,也可以是生活之物;既可以是科技的結晶,也可以是人文創意的體現;既可以是實用之物,也可以是紀念之物;從而也是各種體驗之物。比如,在瓷都景德鎮,陶瓷不但是城市文化的載體,瓷燈柱、大型城雕、陶藝青銅雕塑、山體陶瓷壁畫、巨型生肖瓷雕等城市環境到處可見;而且是企事業組織文化與行業文化的載體,瓷書、瓷畫、瓷板、瓷瓶、瓷杯等陶瓷語言可以詮釋獨特的企業文化、行業文化以及地域文化。
其二、生態文化體驗。天人合一,主張自然與人的和諧,追求季節氣候、地理環境、材料的自然美感、以及人工的巧作這四種因素的完美結合,是中國陶瓷文化藝術的基本審美標準,從而形成豐富多彩的生態景觀。生態系統可以為社會生產提供取之不竭、用之不盡的物質與能源,光、熱、風、水、土、礦、森林、河流、地形地貌等被人類利用以創新陶瓷生產方式;生態系統可以為陶藝創作提供靈感,梅蘭竹菊、青綠山水、花鳥蟲魚等皆是陶瓷藝術創作的基本題材;生態系統還可以為人的生存與發展提供新的生活空間,觀光旅游、休閑度假、養身保健、怡情悅性等生態模式倍受青睞。
其三、活態文化體驗。無論是物態文化,還是生態文化,其價值都是通過人的行動才能充分展示出來,活態的人是陶瓷文化的集中體現。活態文化體驗可以包括:工藝主體的傳授、表演、展示,瓷器、瓷畫、瓷樂、瓷舞、瓷飾、瓷甌雜技等都可以傳播瓷韻瓷味;社會與時代主體的跨時空交互,中國陶瓷文化源遠流長,流派眾多,宋、元、明、清等朝代均有各自特色,而通過跨時空交互,歷史的厚重與時代的脈絡則能得到體驗;人文主體的交流,活態的陶瓷文化既可以包括專業技藝與知識,也可以包括經驗、感悟與創意,還可以包括民風民俗等民間、民生文化,因此知識的教育、思想的討論、技藝的切磋、經驗的傳受、節慶活動的舉辦、方案的設計等均是人文交流的形式。
3 資本整合模式:從媒介到中介
大數據不僅僅是一種數據,而且更是一種思維。比如,用戶思維、簡約思維、極致思維、迭代思維、流量思維、社會化思維、平臺思維、跨界思維等等。因此,大數據時代,媒體不僅需要實現媒介內容與業務的轉型,而且需要實現思維與觀念的轉換,也就是資本的升級。進一步而言,媒體不僅僅是作為信息與內容的傳播者,而且是作為產業和社會的重構者;不僅需要對信息資源進行整合,而且需要對產業資源和社會資源進行整合;不但需要實現傳受互動,而且需要促進產城一體;從而實現信息媒介到社會中介的轉型。因為信息流、商品流、物質流、人才流、技術流、資金流、服務流等在大數據的無限覆蓋下而相互交融從而形成共生共榮、互聯互通、相互嵌入的融合生態,進而虛擬與實體之間、產品與服務之間、媒介與中介之間的邊界也日趨模糊,都成為社會網絡的一個個節點。
因應這種媒介與中介交融的趨勢,傳媒實施資本整合就是要實現從媒介資本向社會資本和創意資本的升級。
首先,社會資本的整合模式:從大眾到小眾。
大數據的全體樣本分析與全媒體、全民參與、全球聚合等是相輔相成的“全”時空類型傳播模式,從而大眾也日益細分而成為小眾。與前者相比,后者是傳受互動、產消一體、個體與社會對接、民族與世界交匯等等多元交互式的社會群體。
社交媒體文本分析范文3
摘要 通過對大學生的2683條“說說”進行文本分析,并結合深度訪談發現,新媒介已嵌入到大學生日常生活管理的各個領域,大學生對新媒介的使用呈現出“隨時隨地”、“物盡其用”、“為我所用”的圖景。在新媒介的使用中,大學生也充滿了“個體自理性”,即從自己的目的、認知乃至想象出發,有選擇地、自我矯正式地使用新媒介管理日常生活,而這有利于提高大學生自我管理的績效和促進自我發展。
關鍵詞 新媒介;自我管理;QQ說說
中圖分類號G206 文獻標識碼A
作者簡介 汪黎黎,懷化學院外語國學院講師,湖南懷化418008;姚勁松,懷化學院文學與新聞傳播學院副教授、副院長,湖南懷化418008
1)基金項目:湖南省高校輔導員工作研究會輔導員專項課題重點項目“新媒體環境下的大學生自我管理研究”( FDY11013);懷化學院青年基金項目“新媒介環境下的大學生個體自我管理研究”( HHUQ2009-37)
一、問題的提出
按照Manz的界定,個體自我管理是指一整套認知和行為策略,其能幫助個體改變工作和生活環境、建立自我激勵的機制,從而推動個體不斷朝著理想的績效水平發展。自我管理是強調在具體的階段性目標或長期的整體目標(如自我發展)導向之下,采取自我評估、自我認知、自我監控、自我激勵、自我悅納等認知與行為策略,調節自己的思想、情緒、心理、行為乃至與環境的關系,從而實現既定的目標。
據CNNIC的報告顯示,截至2013年12月,大學生周上網時長達到25.1小時/周,大學生群體使用各類交流溝通應用的比例均高于其他群體,是交流溝通類應用的主力軍。此外,有研究顯示,大學生對自媒體非常熟悉且依賴性較強,47%的受訪大學生“手機絕不離身”,37.4%的大學生“天天登錄,形成習慣”,40.4%的大學生“在無聊時登錄”。呵見,隨著互聯網的快速發展和電腦、手機、IPAD等終端的不斷普及,新媒介正在潛移默化地影響、改變著大學生的日常生活,隨時隨地收發信息、瀏覽網頁、溝通交流、互動娛樂正日益成為他們的一種生活方式。那么,大學生是如何挖掘、利用新媒體這一平臺來管理自我、發展自我的?或者說新媒介與大學生的日常生活管理產生了怎樣的勾連?這種勾連對大學生的自我管理又有哪些影響?高校學生管理工作者應怎樣引導大學生利用新媒介管理白我?這是本文所關注的問題。
二、研究設計
在已有研究中,較多地采用自我報告式的測量方法,但被試者的自我報告可能會與實際的網絡使用行為存在較大差異。如Ebersole的研究發現,學生自我報告的網絡使用動機與專家檢查到的實際網絡使用行為存在很大差異。所以,本文試圖從大學生實際生產的網絡文本人手,采用文本分析法,并以深度訪談作為輔助研究手段。
鑒于新媒介是一個模糊而動態的概念,本文以是否接入互聯網作為界定新媒介的標準,只要用計算機、手機、IPAD等終端通過有線或無線的形式接人了互聯網,便屬于新媒介使用行為。大學生對大部分網絡運用的使用率較高,新媒介使用行為多元而復雜。所以,本文擬通過研究大學生對“QQ說說”(以下簡稱“說說”)的使用,以管窺大學生對新媒介的日常使用經驗及其給大學生帶來的影響。選擇“說說”的理由如下:一是“說說”是騰訊公司開發的一款與QQ即時通訊相關聯的工具,隨QQ-起內嵌到電腦、手機、IPAD等多種終端中。此外,“說說”(最多140個字)與QQ簽名(最多50字)能同步更新,且可同步到騰訊微博上??梢?,“說說”具備新媒介的特征。二是由于與QQ相關聯,“說說”在大學生中擁有較高的普及度和用戶粘性,而操作簡單、使用QQ時隨手、創作門檻低、能得到QQ好友的關注和互動,又使其較之一般的博客、微博擁有更高的使用率。三是“說說”的公開性和可保存性,為文本分析提供了可能。
在樣本選擇上,綜合考慮年級、系部、性別等要素,采用滾雪球的方式進行選擇,即先挑出一個學生作為樣本,然后再按一定要求從其QQ好友中挑選出新的樣本。最終,樣本總體情況如下:共選出12名學生,大一至大四每年級分別有3名,男女各6名,分別來自中文、物信、生物、教育、外語、工商、音樂7個系部。然后,選取一個完整學年度,對12名學生發表的“說說”及互動情況做文本分析。
在統計期間,12名學生共發表“說說”2683條。本文首先結合“說說”的前后語境及整體語境,對其進行逐條閱讀、分析,通過資料濃縮,“將具體、零散的資料提煉為具有一定意義關聯的資料……尋找類屬之間的相關關系,將不同的類屬合并成類群”,再根據“說說”的語境①,用NVivo軟件對每條“說說”進行編碼、歸類,編碼的內部一致性信度為88.4%。最后,進行相應的統計與分析。
三、研究發現
(一)“隨時隨地”的使用:嵌人大學生日常生活
“說說”的統計結果顯示,大學生對“說說”有著較高的使用頻次,在統計的1年時間里平均223.6條,日均0.6條;最多的433條,日均1.2條;最少的123條,相當于3天發1條。
大學生對“說說”的使用呈現出隨時(anytime)的特征(圖1)。如圖1所示,在分析的樣本中,全天24個時段里都有“說說”,高峰期主要集中在非睡眠的休閑時段,382條(14.2%)“說說”于睡覺前的22-23點;其次分別為21-22點(7.5%)、12-13點(6.9%)、23-24點(6.1%)。值得注意的是,“說說”的量在學習時段并未明顯減少,除上、下午剛上課的第一個小時內,比例相對較低外(8-9點為2.7%、14-15點為3.7%),其余時段的量在4.5%-5.4%之間波動,較為均衡。凌晨1點-6點,仍有少量“說說”在各個時段。在“說說”的渠道方面,分別有1012條(37.7%)通過QQ簽名、863條(32.2%)通過QQ空間、808條(30.1%)通過手機QQ空間。至少②有30.1%的“說說”通過手機(圖2),在一定程度上說明大學生對“說說”的使用具有隨地(anywhere)的特征。
(三)“物盡其用”的使用:勾連大學生日常生活管理
文本分析發現,“說說”實際上已經嵌入到大學生日常生活的各個領域,與他們的思想、情感、心理及日常的生活、學習、社交等產生了廣泛的關聯。按照質化分析資料整理中的“互動模式”方法,結合“說說”的語境,經梳理、濃縮、尋找關聯、循環修正等,最終提煉、總結出“說說”在日常信息管理、觀點與愿望表達、情感管理、目標管理、關系管理等方面,勾連著大學生的日常生活管理(圖3)。
文本分析發現,785條(29.3%)“說說”與大學生的日常生活信息相關聯??梢?,利用“說說”管理日常生活信息,是大學生最普遍的應用,也是最重要的應用之一。大學生主要在三個層面利用“說說”管理日常生活信息:一是日常生活記錄(占總數的23.1%,下同),主要記錄大學生的日常生活狀態、遇到的各類事件、各種見聞、旅行游記等,大多是只言片語、碎碎念式的隨手記錄與,相當于一個日常生活的“記事本”、一個信息“平臺”。二是信息公告(2.5%),即告知公眾的信息,具有非常明確的信息傳播取向,其目的就是為了傳達和告知,而不是單純的記錄,相當于一個“公告牌”。下面這句便是典型代表:“通告:本人不慎發現自己近日有嚴重避世傾向,原因不詳,在言行上如有冒犯或得罪,純屬無心,還請諸君見諒。”三是信息儲存與分享(3.7%),儲存、分享有價值的或有趣的信息,包括名人名言、歌詞、臺詞、流行話語、老師課堂話語等;分享與QQ好友密切相關的信息。此類信息具有明顯的分享取向,相當于一個供大家傳閱的“摘抄本”。
研究發現,“說說”亦是大學生用以表達觀點、抒發感悟和管理情感的重要場域。513條(19.1%)“說說”關聯大學生的觀點與愿望表達,其中444條(16.5%)是來自日常生活的所思、所想、所感、所悟,及少量對時事發表的觀點和看法;69條(2.6%)是大學生在日常生活中表達的個人心愿、各類祝愿等,如希望考試通過、盡快病愈、求順利等。492條(18.3%)“說說”關聯大學生的情感管理,包括心情呈現與表達(7.7%)、情感宣泄與釋放(4.4%)、心理活動呈現(3.8%)和自我情緒調節(2.4%)。在這里,大學生記錄、呈現、表達著日常生活中的喜怒哀樂,宣泄與釋放著各種情緒,呈現著內心深處的想法、疑慮、焦慮及內心的獨白與交流等,安慰著自己、悅納著自己以調節情緒??梢哉f,觀點表達的管道、抒發感悟的空間、管理情感的場地,使“說說”非常鮮明地呈現出大學生“自留地”的色彩。他們在這塊“自留地”里,生產著自己的話語、觀點、思想和情感,甚或視之為傾訴對象而習慣性地“對話交流”乃至恣意釋放情感,以此展示并塑造著自己的個性,也建構著一個自我的世界。
大學生把“說說”作為一個以具體目標為導向的自我管理工具,是本研究的一個重要發現。426條(15.9%)“說說”關聯著大學生的目標管理,內容包括目標設計(1.5%)、自我激勵( 6.2%)、自我監控/規范( 5%)、自我反省(3.1%)。具體表現為,用“說說”記錄日常生活中確定的具體目標尤其是學習中的總目標、分目標等;記錄圍繞確定的績效和目標,對自己的思想、情緒、行為等進行的自我監控、自我規范、自我反省、自我激勵甚至自我懲罰等。隨手粘上一句:“沒能力,分心的事很多,不過我會繼續努力的,小小的心,大大的夢,加油!”如此,用“說說”進行目標管理,也就將原本屬于心理層面的自我管理過程外顯化,既可實現“記錄在案,以資對照”的自我管理效果,也可通過這種外顯與公開,將公眾的關注、監督、評價等自我以外的因素引入,共同促使目標達成。
令人意外的是,大學生還充分挖掘并塑造了“說說”的社交、關系管理等功能。371條(13.8%)“說說”關聯著大學生的關系管理,被用來傳遞指向特定人或人群的信息。這些信息,既有各種溫暖的節日祝福、生日祝語,也有向特定人傳遞的普通信息、表達的謝意,還有少數針對性的指責、泄憤甚至謾罵。為什么會選擇這種公開化的渠道傳遞個人信息?小婷在訪談中如是說:“在‘說說’上祝福別人會讓別人覺得自己在公開場合表達對他(她)的愛,會覺得自己很重視他。’’可見,大學生選擇用“說說”來傳遞個人信息,而放棄短信、QQ即時聊天等私密渠道,其潛意識里希望的不僅只是傳遞信息,而是將信息背后隱含的傳受者之間的關系公開化,借此來管理、強化一種關系。
綜上,“說說”的文本分析顯示,盡管“說說”只是QQ即時通訊工具附帶的一個信息平臺,但其功能卻被大學生給予了最大限度的利用與開掘,使其與大學生的日常生活管理產生了廣泛的關聯,達到了物盡其用的效果。阿晨在訪談中對“說說”做了如下描述:“‘說說’是一個傾訴者、一個陪伴者、一個記錄者、一個苦難的承受者,有點兒像一個朋友、一個平臺、一個日記本。我們記下了很多之前需要自己一個人承擔、很少分享的事兒。”
(三)“為我所用”的使用:凸顯大學生的主體性
從整體上看,“說說”與大學生的日常生活管理發生了廣泛的關聯,但并不意味著大學生對“說說”的應用是同一的、均質的。盡管12個學生對“說說”的5個功能都有不同程度的應用,但使用的偏好和運用的力度存有差異(表1)。這種差異,說明大學生在日常生活中對“說說”的使用較多地呈現出“為我所用”的利己目的。也就是說,在這塊“自留地”里,他們往往從個人目的、意愿出發,有指向、有選擇地使用“說說”為自己服務。
研究發現,大學生對“說說”相較于其它媒介具有哪些優勢,能在哪些方面更好地滿足自己的需求等問題,都有著自己的體驗和認知。這既構成了他們使用“說說”的基礎,也是他們各取所需、有所側重地使用“說說”的關鍵所在。結合深度訪談及“說說”文本,簡要分析3個學生樣本。
阿晨,大一,他認為,“說說”的優勢在于能夠隱晦含蓄地傳遞不能明言的觀點和態度?;凇吧缃弧比∠虻恼J知,他更多地用“說說”來維系、管理日常生活中的關系(占總數的29.5%,居首位),而其它的“說說”也大多有著一定的“社交”指向,即使是發表信息、釋放情感,也是為了向特定的人或群體證明自己的存在、維系自己的身份或尋求一種群體認同。如他在“說說”中以傾訴的口吻,充分表達、釋放了對靚穎的感情,其目的并非僅在于在“自留地”里恣意釋放情感,而更在于尋求一種“涼粉”的身份認同感,因為其QQ好友里有幾十位“涼粉”,這些信息是為他們而發。
小黎,大四,她認為“說說”可以表達、發泄情緒,能及時跟大家分享自己的生活經歷,并認為“說說”的優勢在于:“是希望引起別人關注的一種方式,而且比QQ給人更多的期待,因為沒有直接對話,所以發‘說說’的當事人會在期待中等待別人的回復”??梢姡c阿晨的認知不同,小黎并沒有預設信息的回復者,而是對“說說”公開、延時傳播帶來的“誰會回復”充滿期待。這種尋求關注、充滿期待、獲悉自己的關注者、尋求未明確對象交流的整個過程,或許正是她使用“說說”的重要原因?;诖?,她主要用“說說”來沒有特定傳播指向的信息,較均衡地使用“說說”來表達觀點與愿望(28.7%),表達、釋放情感(28.7%),記錄、分享信息(24.2%)。相反,對有特定傳播指向的目標管理(指向自我,2.5%)、關系管理(指向特定人,11.5%)使用較少。
阿畢,大三,他認為“說說”是為了記錄自己的生活、“尋找被關注的優越感”,是一種“感情的寄托”,“每天一有時間都會不自覺地去看,也許看起來漫不經心,也不會經常去評論,但是這已是一種習慣了。”基于此,他對“說說”保持著較高的使用率,日均1.2條,且強調自我、有些個性的他還將“說說”完全構筑成一個“自我”的空間,含目標設計、自我激勵、自我反省、自我監控/規范在內的,鮮明指向“自我”的“說說”居于首位(40.6%),而在情感管理、觀點與愿望表達中也大多是“自我”的情感與觀點。正是對自我的強調,“說說”日漸成了他的感情寄托和精神支柱。
綜上,基于對“說說”的認知、體驗乃至想象,大學生有選擇地、“為我所用”地使用著“說說”,并在使用中進行自我糾偏、自我矯正與自我調試,呈現出較強的能動性,充分凸顯了他們的主體性。孫冉的研究認為,“出于利他目的的作者似乎更偏愛于日記;出于利己目的的作者似乎更偏愛于日志”,這也為本文提出大學生使用“說說”呈現出“為我所用”的利己目的,提供了一定的證據。
四、結語與討論
總體而言,本文以大學生對“說說”的使用為例,通過對“說說”進行文本分析,并結合深度訪談,勾勒了一幅新媒介勾連大學生日常生活管理的總體圖景?;窘Y論是:伴隨著移動新媒介、移動互聯網的快速發展與普及,新媒介與大學生的生活產生了全面而深入的勾連,已嵌入到大學生日常生活的各個領域,日漸成為Weiser眼中的“影響深遠的技術”一一“是那些能夠消失的技術,它們將自身編織人人們的日常生活中,以至于人們很難將其區分出來?!蓖瑫r,大學生的新媒介使用是一個能動的“意義”行為:他們能最大限度地發掘新媒介的價值,用以滿足日常生活管理的需要并延展日常生活空間;他們對新媒介有著自己的認知、體驗與想象,并將其投射到使用行為中,有選擇、有目的、有取向地利用新媒介的各種優勢,并能在一定程度上自我糾偏、自我矯正使用行為,從而實現“為我所用”的利己目的。簡要地說,新媒介勾連大學生日常生活管理的圖景可濃縮為:“隨時隨地”、“物盡其用”、“為我所用”,而勾連之間呈現的是大學生的主體性與能動性。
社會認知理論中有一個重要的概念叫“個體自理性( personal agency)”,認為個體具有主動選擇信息、決策判斷并做出目標導向行為以實現既定目標的能力。Bandura認為,個體的自我管理功能正是通過對個體自理性的實踐才得以展現。前面的研究揭示,大學生能夠從自己的目的、認知乃至想象出發,有選擇地、自我矯正式地使用新媒介管理日常生活,體現出他們對新媒介的使用具有較強的“個體自理性”。
社交媒體文本分析范文4
前幾年在某大型跨國公司管理團隊時,我意識到“大數據”在HR管理中的作用。在管理團隊薪酬時,IT系統不僅處理薪酬流程,還提供對標數據支持決策:調薪周期開始時,公司把調薪預算從上到下分解到各級經理,經理會具體分析每個下屬員工應該分配多少預算。一般會考慮:一、員工當期績效表現,二、目前在公司內同類工作崗位中所處薪酬水平?三、與同行和競爭對手的同類崗位相比處于什么水平?經理根據業務需要確定是否要努力保留一位員工,通過預算分配使員工處于合理的薪酬水平。這個系統不僅提供了公司內按職位角色細分的薪酬分布曲線,同時提供了行業薪酬分布曲線,使管理人員能直觀看到員工調薪前后在公司內及市場上的薪酬“分位值”。
公司如果有規范的職位職務體系基礎容易統計內部薪酬分布,行業的數據一般來自大型HR咨詢公司的薪酬數據庫。做跨公司的職位職務對應匹配卻是件有挑戰性的事情――你怎么知道A公司的八級軟件工程師相當于B公司的十級咨詢顧問呢?傳統上,我服務的那家公司是定向的對標指定,即人工對應到具體同類型公司的同類型崗位。隨著技術的發展,現在時髦的基于文本分析的“大數據分析”能夠解決更廣泛的職位匹配問題,再結合薪酬數據庫,能夠提供更準確做薪酬對標??梢灶A計,這種對標方法會成為一種更加普及的應用。
HR咨詢公司薪酬數據庫的客觀性和準確性往往存有爭議,大企業做對標時一般會購買幾家咨詢公司的數據,相互參照使用。然而,現在互聯網上各種“曬工資”網站越來越多,例如,基于互聯網的大數據分析可能顛覆傳統的薪酬數據庫服務,企業能夠更加實時、準確地做職位薪酬對標,提升人才管理水平。
HR部門的價值從后臺服務職能,發展到幫助業務部門挖掘、培養、發展人才,成為企業業務的驅動者,人才相關數據的分析為這樣的工作方式轉型提供了可能性。不僅是薪酬數據分析,從下圖所示的HR相關數據可以產生很多分析機會。
例如某些專業崗位招聘如何選擇候選細分人群,需要在用人成本、人才質量、使用風險以及細分人群供應量等不同因素中平衡,可以通過數據挖掘方法,根據不同人才尋源策略確定相應的候選人細分對象;又如雇主品牌建設,通常員工敬業度調研結果中薪酬是一個抱怨因素,可是,實際薪酬水平以及期望薪酬水平與員工的敬業度、員工績效之間有多深的關聯?不同的薪酬或者獎金結構方式會對敬業度產生什么影響?再例如提高招聘質量,國外某保險公司對數百例初級銷售人員聘用后的實際業績分析發現,應聘人資質與業績相關度較高的因素有:簡歷文本質量(語法準確、表述清楚)、教育經歷完整性、高端產品銷售的經驗、過去類似工作的成功、不確定環境下工作的能力等,并有意思地發現大學檔次、大學成績、推薦人資質等因素與業績相關度不高。除此之外,在員工保留因素、銷售人員績效、出勤率預測、繼任計劃、人才管道計劃、高潛力人才挖掘等人力資源管理領域,數據分析都有廣泛的應用。
社交媒體文本分析范文5
[關鍵詞] 文本分析;投資者情緒;股票收益;影響研究
[中圖分類號] F640 [文獻標識碼] A
Influence Research of Investor Sentiment on the Stock Market in the Short Term
CANG Yuquan, YIN Xudong
Abstract: With the development of the Internet, listed companies release information in the social media platform, and investors review these information and formulate investment strategies. The majority of investors now are irrational, lack of real information channel and professional knowledge of investment theory, and susceptible to network public opinion and produce "sheep-flock effect". The study analyzes the comments of Eastmoney Guba by means of Chinese text analysis technology, the construction of investor sentiment index, and the influence of investor sentiment on the stock market in the short term. The empirical results show that investor sentiment really affects stock returns. This conclusion can help investors to effectively use the Internet information and formulate investment decisions.
Key words: text analysis, investor sentiment, stock returns, influence research
引言
“羊群效應”是一種比較特殊的非理,在一個投資群體中,單個投資者總是參照相似投資者進行操作,在他人買進時買進,在他人賣出時賣出。我國的股票市場僅僅發展了二十余年,還處在新興市場階段,信息的披露制度不完全,市場投資環境、股票交易制度、股票市場監管存在缺陷,市場呈現非有效性。在社會化媒體中的關于股票的信息魚龍混雜,真實的信息廣泛傳播,虛假的信息傳播的更快,范圍更廣,這些信息相互影響,極容易形成“羊群效應”,因此確定網絡輿情對股票收益的影響有重要意義。
本文試圖通過中文文本分析技術,分析網絡輿情與股票市場的關系,具有如下作用:一是有利于提高市場的有效性,驗證不同性質的網絡輿情對股票收益的影響,對股票市場的變化具有解釋和預測作用;二是為投資者提供投資決策依據,互聯網成信息傳播的高速通道,同時加快了謠言的傳播速度,考慮網絡輿情對股價造成的影響有利于投資者辨別有效信息,對市場形成有效判斷,做出有效的投資決策。
本文結構如下:第二部分是文獻回顧;第三部分是理論分析;第四部分是模型選擇、指標設計和數據選擇;第五部分實證分析結果;第六部分是文章結論。
一、文獻回顧
根據有效市場假說,市場中的理性投資者將會對該市場中的每一條信息進行充分評估,不僅歷史數據和當前基本面數據不會影響股價,那些突發的虛假信息也不會對股價造成沖擊。現有的研究結果表明股市是弱有效市場或是半強有效市場,網絡輿情將會對股票市場產生怎樣的影響呢?
基于網絡輿情的股票市場研究主要以互聯網社交平臺上與股票市場相關的信息為研究對象,研究分析二者的相互作用,并進一步分析網上的股票相關信息對股票市場的預測能力和解釋能力。Wysocki(1998)以3000多支股票為樣本,對946000條股評進行分析,研究結果發現股評數量對次日的股票交易量和異常收益率的變化有一定的解釋和預測作用。Vivek Sehgal、Charles Song(2007)驗證了網絡情緒和股票價值具有相關性,表明股市近期價格波動和網民的情緒密切相關。Johan(2011)對美國大型社交網站Twitter進行數據挖掘,用格蘭杰檢驗發現公眾的情緒狀態的日變化與道瓊斯工業平均指數收盤值的每天的變化顯著相關。Sabherwal等(2011)采用WallStreetPit-Thelion網絡聊天室中每日討論前十的10只熱門股,該網絡聊天室設計獎懲制度賦予發帖者不同的信譽等級,盡可能減少交易噪聲。他們發現發帖量不能預測股市交易量、收益率或是波動性,但是股票收益率是可預測的,投資者情緒與同期收益正相關,滯后一期和滯后二期的投資者情緒與收益負相關,引起后期股票收益的急劇下降,可能是由于市場的修正作用。此外他們還發現:行情看漲指數的絕對值與同期波動性和隨后一期、兩期的波動性負相關,說明投資者的情緒越極端,股票波動率越?。恍星榭礉q指數的絕對值越大(投資者情緒越極端),小單交易就越多。李玉梅等(2011)對通訊行業的上市公司的截面數據進行分析,研究表明在線股票評論的數量和投資者的情緒可以在一定程度上解釋個股的異常收益率,股評的數量對股票異常收益率,漲跌額和交易量變化有一定的影響。段江嬌等(2014)根據帖子內容中的詞匯與詞庫中各個檔次的關鍵詞進行匹配,計算各個檔次關鍵詞出現的次數,取次數最多的檔次作為帖子的情緒。通過構建向量自回歸VAR模型,檢驗了投資者情緒指數、分析師推薦指數和上證指數收益率之間的動態關系,研究發現分析師推薦指數的上漲會導致股指收益率短期上漲,投資者情緒指數的上漲會導致股指收益率的下降。
從表4中可以看出當在輿情事件發生后,股票成交量變動不能用投資者情緒指數來解釋,正可能是由于現在中國的股票市場悲觀情緒彌漫,但市場的下跌空間也有限,多數投資者選擇了持股不動操作策略。對于事件發生后的平均收益率的3因素回歸模型發現,股票換手率的變動能夠顯著影響該支股票的收益率,這與早期的研究結論一致。在考慮到投資者情緒指數的4因素回歸模型中,情緒指數在95%置信區間上顯著,說明投資者情緒在短期的確會影響到股票市場的收益,這間接表明中國股市存在大量的非理性投資者,他們的非理性情緒將會對股票市場帶來顯著影響。同時上市公司的規模指標和有效評論數量的系數在三個模型中均不顯著,這說明在短期,對股票市場影響較大的是投資者情緒。
五、研究結論
本文以東方財富網股吧為樣本,采用中文文本情感分析技術從中抽取出大多數投資者對股票市場未來走勢的漲跌情緒傾向,計算投資者情緒指數,使用該指數研究股票收益和成交量的相互影響。研究結果表明:輿情事件爆發的當天市場投資者關注度最高,在事件爆發后3-4天投資者對于該支股票的關注度降到低點,隨后新的輿情事件又會吸引投資者的眼球;情緒指數與股票的收益存在正相關關系。投資者情緒指數表現樂觀(悲觀)時,股票收益會在短期內出現上漲(下跌);投資者情緒指數無法解釋股票成交量在短期的變動,原因可能是當下市場悲觀情緒蔓延,除非出現重大利好或是利空消息,投資者最佳的投資策略是選擇持有手中的股票不做任何交易。
投資者情緒指數可以成為預測短期收益的有效指標,網上蘊含著大量類似于投資者情緒指數的信息,合理運用這些信息能輔助投資者進行有效的投資決策。隨著中國股票市場的快速發展,互聯網在股票市場的影響能力日益增加,本研究的實證結論對幫助投資者正確、有效地理解和使用互聯網并輔助投資決策具有重要現實意義,并且可以幫助投資者提高投資決策能力。如何更好、更及時地挖掘互聯網有效信息,分析網絡信息與股票市場的深層次關系是今后研究的重要內容。
[參 考 文 獻]
[1]Fama and mon Risk Factors in Returns on Stocks and Bonds,Journal of Financial Economics,Vol.53,1993
[2]Wysocki P D. Cheap Talk on the Web: the Determinants of Postings on Stock Message Boards[J]. Working Paper, Univercity of Michigan. 1998
[3]Mikkelson and Partch,W.Mikkelson,M.Partch.Stock price effects and costs of secondary distributions. Journal of Financial Economics,14 (1985),P165-194
[4]Lakonishok,J.,ShleiferA.,and Vishny R. .The Impact of Trading on Stock Price.Journal of Financial Economics,Vol.32,1992,P23-44
[5]李曉明,朱家稷,閆宏飛.互聯網上主題信息的一種收集與處理模型及其應用[J].計算機研究與發展,2003(12)
[8]趙靜梅,何欣,吳風云.中國股市謠言研究:傳謠、辟謠及其對股價的沖擊[J].管理世界,2011(11)
[9]徐琳.網絡輿情對股價波動影響的實證研究[學位論文[D].西南財經大學,2013
社交媒體文本分析范文6
關鍵詞:網絡輿情;輿情監測;指標體系
有效加強網絡輿情監測分析,才能實時掌握網絡輿情動態。網絡輿情監測分析工作重要環節包括采集、整理和分析輿情信息,需要構建一定的指標體系,評價揭示網絡輿情信息的特征與變化規律。指標是在評價某些研究對象所確定的依據和標準,包括指標名稱和數值。網絡輿情指標體系是由相互聯系、相互補充的指標組成的統一整體,用于反映網絡輿情的綜合狀況,揭示其中的各個方面。本文首先介紹輿情監測的來源范圍,接著闡述網絡輿情監測指標的構建原則與內容,提出從主題匯聚、熱度、內容傾向性、預警等方面構建網絡輿情監測指標體系。
1 網絡輿情監測來源
網絡信息的來源不斷趨于多樣化,從傳統的新聞網站、博客論壇,發展到微博、微信等社會化網絡應用[2]。準確把握輿情態勢,防止監測分析片面化,需要增加信息來源范圍。然而,輿情監測難以捕獲所有網絡信息,網絡輿情的來源選擇就顯得非常重要。在網絡上,表現為圍繞新聞、事件、問題與個案等產生的網絡信息。網絡輿情的信息來源選擇主要包括:
(1)主流媒體新聞網站。網絡新聞是民眾獲取信息的重要來源,特別是主流媒體的新聞。重大性與突發性輿情都會及時出現在主流媒體,聚集大量網民跟帖評論,是輿情的重要來源與傳播源頭。(2)論壇。在網絡社區中,網民會發出具有個人觀點看法的各類信息。在輿情監測工作中,接觸到的近半信息都來自于各種論壇。(3)博客。博客是個人分享、交流思想知識的空間,會對熱點和新聞事件、特定話題和現象發表個人評論,是輿情信息的重要載體之一。博客數量眾多,主要采集專家、知名人物的博客及網民回復。(4)視頻網站。視頻網站是社會生活和事件的記錄與者,并且大多視頻網站提供給留言功能,比如優酷、愛奇藝等。視頻信息鮮活,網民會分享觀感看法與態度,視頻標題與描述信息為輿情數據的整理分析提供了可能和便利。以往工作容易忽視這類輿情載體,而實際中一些輿情事件會較早通過視頻網站傳播。輿情監測工作需要重視視頻信息的價值,及時采集抽取其中的有價值信息。(5)社交媒體。在社交媒體應用上,國內主要是微博和微信。微博相對數據開放,數據量巨大,很難在較短的輪詢時間窗口完成采集遍歷。所以,與傳統博客類似,選擇其中的部分微博。微信主要限制在個人通訊范疇,主要將微信公眾號作為輿情信息來源。另外,一些網站由于贏利、點擊量等原因,有意甚至惡意炒作負面信息。所以,要區分標識這類信息來源。同時,在采集器設置上進行一定限制和過濾,避免采集處理過多無效無關數據。
2 監測指標構建原則
網絡輿情指標體系的構建原則應包括:(1)主題性。具體的輿情工作具有明確的服務對象,其輿情內容具有鮮明的主題、行業或領域性質。輿情監測的目的是及時識別問題與風險。因此,輿情指標應對各類信息做出靈敏響應。(2)可靠性。指標的選取要有相對可靠性與穩定性,確保指標的使用在時間上有延續性[1]。(3)系統性。網絡輿情監測分析工作是一項十分復雜的過程,涉及內容眾多。指標體系一定要盡量全面完整形成整體,覆蓋輿情工作流程,從多層次多角度揭示網絡輿情特征。(4)實用性。輿情監測指標必須反映輿情演化趨勢與客觀規律,符合網絡輿情工作需求與相關流程,便于分析和引導輿情。同時,指標的計算分析結果要盡量便于理解與解釋說明,為輿情簡報等工作提供必備的數據支持。
3 監測指標體系
(1)主題聚合
按照內容相關度準確關聯聚合輿情信息,是準確把握輿情整體走向、媒體與網民言論態度的前提。主題聚合即指依據信息內容實現信息的分類與聚類,是輿情話題發現與話題追蹤的基本支撐。從技術實現角度,主題聚合涉及信息內容分析,大多都是基于詞語匹配的聚分類方法實現輿情話題發現與追蹤等主題聚合功能。然而,文本中存在大量詞形不同,但意義關聯的近義詞、同義詞與相關詞,內容相同或相近的新聞、帖文會出現在不同的頁面與帖文。輿情信息中包括大量短文本,特別是網民回帖評論,存在明顯的語義特征稀疏問題。分類體系只限于關鍵詞本身,不具備主題詞的語義描述,容易影響聚分類的準確率與召回率,主題聚合指數的性能會受到明顯限制。一個解決方法是構建語義知識,并擴展語義計算模型提高分析的準確程度;利用當前的最新技術,比如深度學習方法,通過構建具有多隱層的學習模型,以海量輿情數據作為訓練集,學習擴展語義特征,提升內容分析的準確程度。
(2)熱度
輿情熱度衡量輿情被關注的程度與傳播范圍。輿情熱度主要包括輿情關注度、傳播覆蓋度、輿情權威度等二級指標。一些研究提出地域關注度指標[3],但網民IP地址對于第三方采集系統是難以大范圍直接獲取的。其中,輿情關注度采用主題內容下輿情信息的關注數量衡量,具體是篇目、瀏覽、回復數量的綜合加權值,一般以線性累加和公式計算。該指標主要從網民角度,衡量輿情內容的被關注程度和感興趣情況。覆蓋度是指主題信息在采集來源站點中出現的比例。輿情信息來源站點是經過篩選的,代表輿情在整個監測范圍內的傳播程度。由于信息來源規模與特點不同,所以需要對來源類型預設參數再進行比例計算。權威度指輿情信息的來源權威度,比如人民網的權威度較高而小型商業新聞網站的權威度低,知名公眾人物的博客權威度較高。權威度通過預設參數區分主流媒體、論壇、博客、微信公眾號的來源指標。最后,將以上二級指標綜合加權,進行標準化處理得到主題熱度。
(3)內容傾向
內容傾向是信息內容中包含的觀點態度,內容傾向指標用于統計輿情信息中的各類情感傾向類型數量。傾向類型主要分為兩類:正面(褒、支持)、負面(貶、反對)。文本中的句子不僅包括情感詞,而且包含一些具有較強情感色彩的形容詞、程度副詞、感嘆詞、否定詞等影響判斷情感傾向的因素。區分輿情的傾向性,需要構建情感詞庫作為智力支撐,才能提高情感判斷的范圍與準確性。比如鄙視、侵犯屬于負面動詞,而擁護、贊揚屬于正面動詞,安全、漂亮屬于正面形容詞。“鄙視這種言論”,“這種裝置不安全”,可以依據其中的動詞形容詞判斷情感傾向。
傳統手工構建的情感詞典覆蓋面有限,難以滿足實際運用??紤]到技術實施的快速性、易用性以及語義問題。借助已有情感詞典構建基本情感詞庫,運用Word2Vector工具將語料庫(比如已采集輿情信息、維基百科知識)轉換為詞向量,計算其他詞語與已知情感詞的語義距離,構建情感詞特征空間[4]。通過擴展情感詞庫,判斷廣泛的情感傾向。輿情信息中的回帖或評論大多由較短句構成,其中句子s中的情感詞表示為,s的情感類型。其中,表示詞wi的傾向類型。如果wi前面否定詞個數是奇數,則反置wi的極性傾向。將傾向性判斷問題轉化為文本分類問題,這樣可以有效判斷各種長短文本的情感傾向,得到主題信息的情感態度頻率分布與內容傾向趨勢。
(4)預警
網絡輿情表現為海量的網絡信息,輿情變化程度對應相應數據的特征與趨勢。所以,監測分析數據變化可以描述輿情的影響趨勢,對網絡輿情進行危機預警。當前,網絡輿情事件處理存在應急準備不足,報送時間不及時,突發事件響應速度慢等不足。一個重要原因是網絡輿情預警能力相對較弱。輿情監測需要增強輿情信息的分析和預測,將工作重點從單純的收集有效數據,向深入研判與預測輿情的趨勢方向拓展。常用的思路與方法是:預設時間窗口,獲取主題信息數量,內容敏感程度,負面傾向性評價數量比例,傳播范圍等基本特征與指標。計算歷史窗口下的信息增長率、增長梯度等變化程度,評估輿情信息的數據變化趨勢并制定預警級別。進而,以數據挖掘為核心技術,應用不同的數據模型方法,比如傳統的多元回歸、貝葉斯網絡、決策樹、支撐向量機等預測輿情發展趨勢。如果大于某閾值或符合預定模式,認為需要預警,即從海量網絡數據中預判出潛在的危機隱患。
參考文獻
[1] 王鐵套,王國營,陳越. 基于模糊綜合評價法的網絡輿情預警模型[J]. 情報雜志,2012, 31(6):47-51.
[2] IRI網絡口碑研究咨詢機構介紹及研究方法[EB/OL]. http:///wiki/網絡輿情指數體系.
[3] 李雯靜,許鑫,陳正權. 網絡輿情指標體系設計與分析[J]. 情報科學,2009 (7):986-991.
[4] 黃仁,張衛. 基于word2vec的互聯網商品評論情感傾向研究[J]. 計算機科學,2016(6):387-389.