前言:中文期刊網精心挑選了銀行輿情工作總結范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
銀行輿情工作總結范文1
熱點話題挖掘是輿情監控的重要技術基礎。針對現有的論壇熱點話題挖掘方法沒有解決數據中詞匯噪聲較多且熱度評價方式單一的問題,提出一種基于主題聚簇評價的熱點話題挖掘方法。采用潛在狄里克雷分配主題模型對論壇文本數據建模,對映射到主題空間的文檔集去除主題噪聲后用優化聚類中心選擇的Kmeans++算法進行聚類,最后從主題突發度、主題純凈度和聚簇關注度三個方面對聚簇進行評價。通過實驗分析得出主題噪聲閾值設置為0.75,聚類中心數設置為50時,可以使聚類質量與聚類速度達到最優。真實數據集上的測試結果表明該方法可以有效地將聚簇按出現熱點話題的可能性排序。最后設計了熱點話題的展示方法。
關鍵詞:
潛在狄里克雷分配;主題模型;Kmeans++聚類;聚簇評價;熱點話題
0引言
作為Web 2.0技術迅猛發展的產物,網絡論壇使人們能更多地參與到日常話題的互動中,因此論壇成為了重要輿情的發源地與傳播地。及時地發現輿情有利于政府部門的治國理政,也為企業的發展決策、危機公關處理等提供了輿論向導,因此熱點話題挖掘成為了輿情監測領域的一個重要研究方向。
對于熱點話題挖掘的問題,相關研究人員進行了大量的研究。丁偉莉等[1]對博客用向量空間模型建模后使用SinglePass算法進行聚類來發現其中的話題;邱立坤等[2]在對網絡論壇中文本數據用向量空間建模并聚類后利用點擊數與評論數對結果排序來發現熱點話題;王偉等[3]對用傳統向量空間模型表示的網頁信息用OPTICS(Ordering Points To Identify the Clustering Structure)聚類算法進行兩次聚類來發現熱點輿情。以上研究中都用到了向量空間模型表示文本,它并沒有融入語義信息,這會使得語義不相關的信息出現在同一聚簇中,從而造成了主題信息的丟失,影響了聚類的效果。席耀一等[4]與劉嵩等[5]在對論壇話題追蹤時利用知網語義庫為詞匯加入了語義信息,并用它作為文檔表示模型來計算文檔的語義相似度[6],這種方法在很大程度上緩解了主題丟失的問題,但論壇信息的快速更新使得這種融入了監督成分的方法仍然不能達到理想的效果,而且維護知網語義信息也是個難題。劉霄等[7]通過利用概率潛在語義分析(Probabilistic Latent Semantic Analysis,PLSA)主題模型為Twitter數據建模來發現突發的熱點話題,PLSA成功地利用概率統計的方法來為文本建模,但它并沒有在文檔與主題的層面上給出一個合適的概率模型,PLSA中文檔的主題分布與主題中詞的分布是模型的參數,它們會隨著文檔增多而增加,這樣它只能生成給定文檔集合上的模型,在新的文本加入時還要重新訓練,另外當訓練集有限的情況PLSA還可能會出現過度擬合的現象[8]。
本文熱點話題挖掘的研究對象是網絡論壇數據集,它不同于新聞網頁中經過專業編輯處理過的文本,它有著自己的特點:1)口語化,帖子者來自不同的地方,也有不同的經歷與背景,在表達同一觀點時措辭會有很大不同,經常會有錯別字或網絡新詞匯產生,這就使得詞匯噪聲較多;2)篇幅差距較大,有些帖子的論述比較多,另一類只通過帖子的標題來傳達信息,這會造成詞匯矩陣稀疏的問題。
針對以上研究中的不足以及論壇文本數據的特點,本文采用潛在狄里克雷分配(Latent Dirichlet Allocation,LDA)主題模型對論壇文本數據建模,在對數據集進行聚類基礎上提出基于主題聚簇的評價方法對聚簇進行排名。該方法在考慮主題的關注度同時,還對聚簇內部所含主題的突發性與主題純凈度加以考慮。通過對最有可能出現熱點話題的聚簇進行信息抽取后設計話題展示的方法來完成熱點話題挖掘任務。
1系統整體框架
對論壇文本集預處理后用LDA主題模型建模,將文本表示由高維詞匯空間映射到了低維主題空間,這樣就去除了詞匯噪聲的影響,之后用處理規模相似的訓練集進行聚類實驗,從對聚類的速度與效果兩方面考慮得出合適的主題噪聲閾值與聚類中心數目,然后用優化聚類中心選擇的Kmeans++算法對主題空間中表示的文本集合進行聚類,之后通過主題聚簇用評價方法對出現熱點話題可能性賦予權重,最后從最有可能出現熱點話題的聚簇中用本文提出的描述方法提取出熱點話題信息作為展示。
2論壇熱點話題挖掘
2.1論壇文本建模
2.1.1LDA主題模型
LDA主題模型是一種三層貝葉斯概率模型,是Blei等[8]在2003年提出的,它的目的在于以無監督的學習方法從文本集合中發現其中隱含的語義信息。
根據LDA模型的描述,文本集合可以按以下算法生成。
2.1.2模型求解
LDA主題模型求解模型的過程就是在給定模型參數的條件下,最大化式(2)中描述的每個文檔的生成概率的問題:
p(w|φ,α)=∫p(w|φ,θ)p(θ|α)dθ (2
LDA模型求解是困難的問題,很難有精確的解法。實踐中常用到的有兩種不精確的解法:一種是基于變分法的EM(EstimationMaximization)算法求解[8];另一種求解方法是Gibbs Sampling[9],它是MCMC(Markov Chain Monte Carlo)方法的一種,其理論基礎是馬爾可夫鏈收斂定理,通過構造符合馬爾可夫鏈細致平衡條件的狀態轉移矩陣,讓任意給定的初始分布通過轉移矩陣迭代轉移,使其收斂到目標分布。Gibbs Sampling算法采樣公式推導起來簡單而且實際應用中運行效果也十分理想。
Gibbs Sampling求解方法采用了與式(2)提到的方法所不同的思想,它不直接將φ與θ作為模型參數來估計,而是先計算后驗概率p(z|w),再對模型隱含變量進行估計。以下是Gibbs Sampling算法求解LDA模型變量的步驟。
2.1.3論壇文本建模
本文采用了JGibbsLda[10]LDA建模工具對預處理后的論壇文本數據進行建模分析。參考文獻[11]中LDA主題模型參數的經驗值,取α=50/K, β=0.1,其中K為指定的潛在主題數,Gibbs Sampling的次數N設為1000。
Gibbs Sampling算法結束時會產生兩個矩陣:
大小為M×K的文檔——主題分布矩陣,其中M為論壇文檔集數目;大小為K×Nw的主題——詞的概率分布矩陣,其中Nw為文檔集中詞匯表的大小。
2.1.4主題噪聲去除
通過對文檔集主題分布矩陣觀察發現,每個主題分布中會出現一個或幾個突出的主要主題,其他次要的主題所占的比重可以忽略。為了突出主要主題的影響,采用了以下規則對主題噪聲進行去除:假設每個文檔的主題分布中概率值最大的為主要主題記作Tmain,它的概率記作P(Tmain),設定閾值δ,對于除主要主題外的其他任何主題Ti,如果P(Ti)
2.2主題空間Kmeans++聚類
傳統的Kmeans聚類算法中,聚類中心的選擇是個關鍵的步驟。大多數用到的隨機選擇的方法會導致每次聚類的結果有差別而不能很好地反映聚類的真實情況,所以對映射到低維主題空間的論壇數據采用優化聚類中心選擇的Kmeans++算法[11]對論壇數據進行聚類。Kmeans++算法如下:
設D(x)為文檔x到已有的聚類中心中最近的距離;X為數據點集合;
步驟1從X中隨機選擇一個點作為第一個聚類中心c1;
步驟2以概率分布D(x)2/∑Xx=1D(x)2選擇數據點x∈X,并將它作為新的聚類中心ci,更新D(x);
步驟3重復步驟2直到找到K個聚類中心;
步驟4執行標準的Kmeans聚類算法對數據進行聚類。
對于最優聚類中心數的確定,可以在已知處理數據集規模條件下進行聚類實驗,從中心數的設定對聚類質量與速度的影響選出最優值。
2.3主題聚簇評價方法
為了發現熱點話題,本文提出了一種主題聚簇評價方法對出現熱點話題的可能性進行權重賦值。
假設聚類中心各個主題分量的概率分布矩陣表示如下:
其中:C為聚類中心數;K為主題數;p(k,c)表示主題k分配在聚類中心c的概率,k∈K,c∈C且對于任意c∈C,∑Kk=1p(k,c)=1。
盡管聚類算法已經將主題描述不相關的帖子分開,但依然存在一些主題,它們在每個簇中的分布情況非常均衡,這樣的主題因為其普遍性而少了突發的特征,本文采用主題在各聚簇中的分布均衡情況來描述主題突發性。
定義1設C為聚類中心總個數,p(k,c)為聚類中心c中主題k的概率分布值,那么主題k突發度PromDeg(k)定義如下:
PromDeg(k)=∑Cc=1(p(k,c)-∑Cc=1p(k,c)/C)2/C(7
當得到了各個主題的突發度后,將各維度中主題的突發度與其所占的概率加權求和,很容易得到總的主題突發度,用它作為衡量聚簇主題突發性的標準。
定義2假設PromDeg(k)表示主題k的突發度,p(k,c)為聚簇c中第k維主題的概率值,其中k∈K,K為主題數,那么聚簇c的主題突發度為:
PromDeg(c)=∑Kk=1PromDeg(k)p(k,c)(8
在主題聚簇中,可以將聚簇表達的信息表示為在主題上一定概率的混合,純凈度高的聚簇可以更清楚地表達主題信息,而熱點話題聚簇會因為其主題的聚集趨勢明顯而使得純凈度高。信息熵是信息論中度量信息量的概念,系統的狀態分布越有序,信息熵越小。以聚簇的主題信息熵為依據,定義衡量聚簇主題純凈度的標準。
定義3假設K為主題數,p(k,c)為聚類中心c在第k維主題的概率,那么聚簇主題純凈度Purity(c)為:
其中γ為平滑值,防止主題信息熵為0。
為了衡量聚簇的熱度,融入人為參與因素,賦予聚簇不同的關注度權重,文本采用單位時間內點擊數與回復數來對聚簇的關注度進行描述。
定義4假設T2為采集時間,T1為發貼時間,φ為調整回復數與點擊數的權重,repNum、clickNum分別是帖子的回復數與點擊數,N為聚簇中包含的帖子總數,那么聚簇c關注度AttenDeg(c)為:
AttenDeg(c)=1N∑Nn=1(φ*repNumn+(1-φ)*clickNumn)T2-T1(10
將聚簇主題突發度、主題純凈度、關注度三個評價標準綜合進行考慮可以得到每個聚簇含有熱點話題可能性的歸一化的評價公式:
S(Cj)=PromDeg(Cj)AttenDeg(Cj)Purity(Cj)∑Cc=1PromDeg(c)∑Cc=1AttenDeg(c)∑Cc=1Purity(c)(11)
其中Cj代表了第j個聚類。
2.4熱點話題提取
對聚簇按出現熱點話題的可能性排序后,通過找出與聚類中心所描述的主題擬合程度最高的帖子,并抽取出最能描述熱點話題的標簽,來完成熱點話題挖掘的工作。
由于聚類中心反映了聚簇中的平均的主題分布情況,通過找出與聚類中心語義相似度最大且關注度最高的帖子作為包含熱點話題的帖子樣例。本文使用JensenShannon散度[12]來計算帖子主題分布與聚類中心之間的擬合程度。JensenShannon散度公式如下:
DJS(PC)=12∑Kk=1P(k)lbP(k)M(k)+C(k)lbC(k)M(k)(12)log的底是多少,請明確。
其中M(k)表示兩概率分布中同一維度上的概率均值,可用式(13)來表示:
M(k)=12(P(k)+C(k))(13)
其中:P為帖子在主題空間的概率表示,C為聚類中心在主題空間的概率表示,K為主題空間的維數。
最后找出聚簇中占比重最大的主題,統計出在此主題下出現頻率最高且出現概率最大的若干個詞匯作為熱點話題的標簽化描述。
3實驗與結果分析
3.1主題噪聲閾值與聚類中心數的確定
對主題空間中表示的文本進行聚類時,不同的主題噪聲閾值與不同的聚類中心數目選擇會對聚類的質量與速度產生不同的影響,而目前并沒有合適的規則對兩個值進行選擇。通過對不同的主題噪聲閾值與聚類中心數進行訓練,選擇出最優的聚類參數。
聚類效果的評價標準采用平均聚簇內誤差平方和(Average Sum of Squared Errors,ASSE),值越小表示了聚簇內部的樣本點越集中,聚類質量越高,其形式如式(14)所示:
ASSE=∑Cc=1∑Nn=1xcn-xc2/C(14)
其中:xcn 為聚類c中的第n個樣本點,xc為聚類中心。
實驗中選擇了2763篇論壇帖子作為訓練集,聚類采用Kmeans++算法,主題噪聲參數范圍設為[0,1],聚類中心的數目選擇為[5,100]。圖3與圖4分別顯示了不同的主題噪聲與聚類中心選擇對聚類質量與速度的影響。
實驗結果表明:聚類中心選擇不同值時,當主題噪聲閾值在區間[0,0.7)時,聚類結果的ASSE值會顯著降低,閾值在區間[0.7,1)時,ASSE值不會發生明顯變化,為了考慮次要主題對話題描述的意義,將主題噪聲閾值設置為0.75;圖4中的峰值顯示當主題噪聲閾值設置過大,聚類中心數目較少時聚類時間開銷較大且不穩定,當閾值過小,聚類中心數目多時也會出現相同的狀況,考慮到聚類質量相對較優的情況下,參照圖中時間開銷較低的區域,將聚類中心數目選擇為50,這樣就可以在保證聚類質量同時提高聚類算法效率。
3.2聚簇評價與熱點話題發現
本文采用的實驗數據來自用戶活躍的天涯論壇的經濟論壇、股市論壇、理財前線、房產觀瀾這4個版塊,通過網絡爬蟲采集了從2013年7月1日到7月5日的帖子共11200篇。采用LDA主題模型對預處理后的數據進行建模,主題個數K取100,模型的參數選擇原則為2.1.3節中所述。主題噪聲閾值設為0.75,之后將數據用Kmeans++算法進行聚類,聚類中心數N設為50,最后對主題聚簇用評價方法對出現熱點話題的可能性進行權重計算。
為了詳細分析主題聚簇評價效果,在圖5中列出了2013年7月2日當天排名前4的聚簇各評價因子權重。從圖中分析得出:雖然有些主題聚簇的突發性與純凈度得分高,但關注度很低,可以判斷這是一類灌水貼,不能當作熱點話題;而熱點話題的特征是關注度高,而且突發度與主題純凈度得分也比較高。圖中標注的是排名最高的4個話題聚簇的主題詞依次是:大盤、板塊、期貨;貨幣、流動性、銀行;百姓、貨幣、物價;收益率、期限、風險。
4結語
本文基于LDA主題模型與Kmeans++聚類算法,提出了一種在論壇中挖掘熱點話題的方法。主要工作總結如下:
1)將LDA主題模型用于論壇文本數據建模中,挖掘其中語義信息,解決了論壇數據中詞匯噪聲多的問題,同時避免了文本表示中矩陣稀疏的問題。