前言:中文期刊網精心挑選了神經網絡語義分割范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
神經網絡語義分割范文1
關鍵詞:主題模型;特征表達;多示例多標記學習;場景分類;文本分類
中圖分類號: TP181
文獻標志碼:A
Multiinstance multilabel learning method based on topic model
YAN Kaobi1, LI Zhixin1,2*, ZHANG Canlong1,2
1.Guangxi Key Laboratory of MultiSource Information Mining and Security, Guangxi Normal University, Guilin Guangxi 541004, China
2.Guangxi Experiment Center of Information Science, Guilin Guangxi 541004, China
Abstract: Concerning that most of the current methods for MultiInstance MultiLabel (MIML) problem do not consider how to represent features of objects in an even better way, a new MIML approach combined with Probabilistic Latent Semantic Analysis (PLSA) model and Neural Network (NN) was proposed based on topic model. The proposed algorithm learned the latent topic allocation of all the training examples by using the PLSA model. The above process was equivalent to the feature learning for getting a better feature expression. Then it utilized the latent topic allocation of each training example to train the neural network. When a test example was given, the proposed algorithm learned its latent topic distribution, then regarded the learned latent topic allocation of the test example as an input of the trained neural network to get the multiple labels of the test example. The experimental results on comparison with two classical algorithms based on decomposition strategy show that the proposed method has superior performance on two realworld MIML tasks.
英文關鍵詞Key words:
topic model; feature expression; multiinstance multilabel learning; scene classification; text categorization
0引言
傳統的監督學習問題通常定義為單示例單標記學習問題,一個對象用一個示例來表示,同時關聯一個標記。定義X為示例空間,Y為標記集合。單示例單標記學習的目的是從一個給定的數據集{(xi,yi)|1≤i≤N}中學習一個函數f:xy,其中:xi∈X是一個示例,yi∈Y是示例xi的一個標記。在機器學習技術[1]日益成熟的條件下,傳統的單示例單標記學習方法已經取得了很大的成功。
然而,在現實世界中,一個對象通常是多義性的復雜對象,如果仍用傳統的單示例單標記學習方法,不但不能很好地表達出對象豐富的內容信息,而且不能得到對象準確的語義標記集合,因此對于這種多義性對象,可以采用多標記學習方法來處理。在多標記學習[2]方法下,一個對象用一個示例來表示,但是關聯多個標記。多標記學習的目的是從一個給定的數據集{(xi,yi)|1≤i≤N}中學習一個函數f:x2y,其中:xi∈X是一個示例,yiY是示例xi的一個標記集合{(yi1,yi2,…,yili)},li是標記集合yi中標記的個數。雖然多標記學習已經取得了很大的成就,但是只用一個示例來表示多義性對象不能有效地表達出多義性對象的復雜內容。
事實上,在多標記學習中,一個標記對應著對象不同的區域,如果能夠對一個確定的區域(不是一個整體的對象)和一個特定的標記直接建立對應的模型,將會有效地減少噪聲對分類準確性的影響,因此可以采用多示例學習的方法來表示多義性對象的復雜內容。多示例學習[3]的任務是從一個給定的數據集{(xi,yi)|1≤i≤N}中學習一個函數f:2xy,其中:xiX是一個包的示例集合{(xi1,xi2,…,xini)},ni是包xi中示例的個數,yi∈Y是包xi上的一個標記。然而,多示例學習主要用于單標記問題,對于多標記問題需要分解為多個單標記問題進行處理。
為了克服多標記學習和多示例學習方法的缺點,將二者結合起來形成一種多示例多標記學習方法[4],來處理帶有復雜內容的多義性對象將會更加合理和有效。多示例多標記學習的目的是從一個給定的數據集{(xi,yi)|1≤i≤N}中學習一個函數f:2x2y,其中,xiX是一個包的示例集合{(xi1,xi2,…,xini)},ni是示例集合xi中示例的個數,yiY是包xi的一個標記集合{(yi1,yi2,…,yili)},li是標記集合Yi中標記的個數。
近年來,多示例多標記學習已經取得了很大的進展,同時也面臨著三個主要的難題。首先,由于圖像分割技術[5]的限制,很難劃分出具有完整語義標記的示例;其次,在劃分示例后,傳統的做法是提取示例的底層特征,然后建立特征向量和語義標記之間的映射模型,由于特征提取[5]和機器學習技術[1]的限制,如何自動提取示例的高層特征及建立映射模型也是一個難點;最后,由于標記之間復雜的相關性[6],如何建立能夠捕獲標記之間相關性的模型[7]也是一個難點,同時文獻[8]指出了大數據問題也是多示例多標記學習面臨的一個新問題。如果能夠克服這些主要難題,可以建立一個完美的多示例多標記模型,該模型可以直接學習示例和標記之間的映射關系,同時可以捕獲到標記之間的相關性。
1相關研究
1.1多示例學習
多示例學習中,一個樣本被看成是一個包含多個示例的包,當需要對一個包進行標記的時候,如果包中至少有一個示例具有對應的標記含義,則將這個包標記為正包,否則標記為負包。雖然多示例學習框架被限制在單標記問題上,但是多示例學習方法已經取得了很多研究成果,針對不同的問題提出了不同的多示例學習方法,此外多示例學習還可以用于圖像檢索。
1.2多標記學習
對于多義性對象,可以采用多標記學習的方法來處理。文獻[6]對多標記學習作了一個全面的綜述報告;文獻[9]提出了一種基于神經網絡的多標記學習方法。從現有的多標記算法可以看出,可以采用兩個策略來處理多標記學習問題:一是將多標記問題分解為多個單標記問題。但是在很多情況下標記之間是有相關性的,例如天空和海洋可能會同時出現在同一個場景中,如果仍然用這個策略來處理多標記學習問題,將會丟失這種對提升多分類性能很有幫助的信息。二是直接對示例和標記集合之間建立模型。在一些復雜的模型中,不但可以直接建立示例和標記集合的對應關系,同時也可以得到標記之間的一些相關性。
1.3多示例多標記學習
對于多示例多標記學習,文獻[4]中對多示例多標記學習作了一個全面的介紹,并且提出了MIMLBOOST和MIMLSVM算法。MIMLBOOST算法首先將多示例多標記問題轉化為多示例問題,然后再采用MIBOOST[10]來處理多示例問題;MIMLSVM算法首先將多示例多標記學習問題轉化為多標記問題,然后采用MLSVM[11]算法來處理多標記問題。傳統的監督學習方法、多示例學習方法和多標記學習方法都可以通過分解策略從多示例多標記學習中得到,但是采用這種分解策略會丟失很多蘊藏在訓練樣本中的信息,同時也不能考慮到標記之間存在關聯性的問題。后來,文獻[12]提出了一種直接學習示例和標記之間映射關系的MIMLRBF算法;文獻[7]提出了一種聯合多示例和多標記的新穎算法,該算法不但可以直接對示例集合和標記集合之間進行建模,同時還可以捕獲到標記之間的關聯性;文獻[8]則提出了一種針對大數據問題的快速多示例多標記算法。然而,上述文獻中提到的方法都沒有考慮如何來更好地表示對象的特征這一因素。針對這一問題,本文考慮將特征學習模型融入多示例多標記學習中,以學習到一個更好的特征表達方式,從根源上提升分類算法的準確性。概率潛在語義分析模型可以學習到樣本中潛在的主題這一高層特征,本文結合這一特性提出一種新的多示例多標記學習方法PLSANNMIML,以解決多示多標記學習中如何更好地表示對象特征這一問題。
2PLSANNMIML方法
2.1概率潛在語義分析
Hofmann[13]首次提出用概率潛在語義模型對文本進行建模的方法。當用概率潛在語義分析模型處理圖像數據時,可以把圖像看成是文檔,用概率潛在語義分析模型對圖像進行建模來發現圖像潛在的主題分布。
假設D={d1,d2,…,di}代表一個圖像數據集,W={w1,w2,…,wj}代表一個視覺詞匯表,這種用概率潛在語義分析模型對圖像進行建模的模型是一個發現共現矩陣隱變量的模型,而該共現矩陣的值由nij=(wj,di)組成,其中nij=(wj,di)是一個視覺詞wj出現在圖像di中的數量。設Z={z1,z2,…,zk}代表沒有觀測到的潛在主題變量, P(di)代表觀測到一張具體圖像的概率, P(zk|di)代表一張特定圖像在潛在主題空間下的概率分布, P(wj|zk)代表一個視覺詞出現在一個確定主題變量下的條件概率。這種生成模型可以用如下步驟表示:
1)以一定的概率P(di)選擇一張圖像di;
2)以一定的概率P(zk|di)選擇一個主題zk;
3)以一定的概率P(wj|zk)生成一個詞wj。
經過上面的過程,當得到一個觀測點(wj,di)時,潛在的主題變量zk被忽略,產生下面的聯合概率模型:
L=logP(wj,di)=∑d∈D∑w∈Wn(wj,di)logP(wj,di)
(1)
在遵循似然原則的條件下,采用期望最大化算法[12]最大化似然函數的對數,從而得到P(wj|zk)和P(zk|di),似然函數的對數表現形式如式(2)所示:
L=logP(wj,di)=∑d∈D∑w∈Wn(wj,di)logP(wj,di)
(2)
2.2神經網絡
神經網絡[14]由于其在信息處理中具有非線性的自適應能力,已經在人工智能領域中取得了廣泛的應用。算法通過具有三層結構的前向神經網絡模型[15]來得到樣本的標記集合,每層由不同的神經元組成,第一層叫輸入層,中間層叫隱藏層,最后一層叫輸出層。在每一層中的每個神經元都連接著下一層的所有神經元,但在同一層中的神經之間是沒有連接的,當信息從一層傳到下一層時,前層中的每個神經元都會有一個激活函數對信息進行變換,該函數選擇的是S型的激活函數,其定義是:f(x)=1-ex1+ex。在訓練神經網絡時,采用的是反向傳播學習算法[15]來學習神經網絡中神經元的權值。
2.3PLSANNMIML方法
算法主要包括訓練和測試兩個階段,流程如圖1所示。
2.3.1訓練階段
訓練過程包括兩個步驟:首先通過概率潛在語義分析模型從所有的訓練樣本中學習到每個樣本的特定主題分布P(zk|di)和每個主題的特定詞分布P(wj|zk),每個樣本就可以用P(zk|di)來表示;其次再用每個樣本的特定主題分布來訓練神經網絡,具體細節如下所示:
式(3)描述的是神經網絡在樣本xi上的誤差函數。訓練過程中算法采用概率潛在語義分析模型將xi轉化為主題向量zk。假定標記空間Y有Q個標記,神經網絡具有與主題向量zk維數相同的輸入和Q個輸出,其中Q個輸出對應著Q個標記,向量w是在神經網絡中需要學習的權值向量。
Ei(w)=∑Qq(ciq-diq)2
(3)
其中:ciq是訓練時樣本xi在第q個類上的實際輸出;而diq是樣本xi在第q個類上的目標輸出,如果q∈yi則diq的值為1,否則其值為-1。通過結合誤差反向傳播策略[14],采用隨機梯度下降法來最小化式(3)中的誤差函數,其過程如下:
假定xji是單元j的第i個輸入, wji是關聯輸入xji的權值大小,netj=∑iwjixji是單元j的網絡輸出,oj=f(netj)是單元j的實際輸出,tj是單元j的目標輸出,根據隨機梯度下降算法可以得到每個權值的更新公式如下:
wji=wji-ηEiwji
(4)
其中η是學習速率的大小。計算式Eiwji的值時,分兩種情況討論:
當j是輸出層的單元時,推導出式(5):
Eiwji=-(tj-oj)oj(1-oj)
(5)
當j是隱藏層的單元時,推導出式(6):
Eiwji=-oj(1-oj)xji∑k∈S[(tj-oj)oj(1-oj)]wkj
(6)
其中S是單元j的輸出所能連接到的單元的集合。
2.3.2測試階段
給定一個測試樣本pX,算法首先利用在訓練階段得到的每個主題的特定詞分布P(wj|zk)來學習到測試樣本的特定主題分布P(zk|dt),然后將學習到的主題分布輸入到已經訓練好的神經網絡,神經網絡將會有Q個輸出,采用文獻[9]介紹的方法選擇閾值,通過選擇合適的閾值,得到標記的相關集合。
3實驗結果與分析
3.1實驗步驟
根據選擇的模型,算法涉及到三個需要確定的參數變量,分別是詞的數量、主題的數量和神經網絡中隱層神經元的數量,分別用Words、Topics、Neurons來表示。由于這三個參數對算法的性能有很重要的作用,因此首先需要確定這三個參數的最優值。在確定參數的最優值時,采用漢明損失(Hamming loss)和1錯誤率(oneerror)這兩個評價指標來評估參數對算法性能的影響。確定算法的最優參數后,算法對現實世界中的兩種多示例多標記學習任務進行實驗,并與現有的多示例多標記算法MIMLBOOST和MIMLSVM進行比較。
實驗涉及到兩個數據集,每個數據集都有2000個樣本。實驗時先把每個數據集劃分為三部分:1000個樣本的訓練集合、500個樣本的驗證集和500個樣本的測試集。
其中500個樣本的驗證集用于確定算法的最優參數。當確定算法的最優參數后,再將1000個樣本的訓練集和500個樣本的驗證集合并形成一個1500個樣本的訓練集,最終每個數據集對應著一個1500個樣本的訓練集和一個500個樣本的測試集。表1是對實驗中所用數據集的具體描述。
【答:文本數據集每個包劃分出的示例都不相同,一個平均值表示的是一次實驗時每個包的示例的平均數,表格中平均數有個范圍是對數據集進行不同的劃分,進行多次實驗時的一個平均值范圍,所以是3.56±2.71,也與后面表中的實驗數據一致。上面場景數據集,每幅圖片都劃分成9個示例,所以平均數不變,也可以寫成9.00±0.00;
3.1.1場景數據集
實驗使用的場景數據集包含2000幅自然場景圖像,整個數據集包含的類標記有沙漠、山、海洋、日落、樹。數據集中每幅圖像的標記都是人工標記的,數據集中超過22%的圖像具有多個標記,平均每幅圖像的標記數量是1.24±0.44。對圖像劃分示例后,通過提取每個示例的顏色和紋理特征將其中的每個示例表示為一個18維的向量,并用這個特征向量代表這個示例。
3.1.2文本數據集
實驗使用的文本數據集又名為Reuters21578數據集。實驗時先對這個數據集進行預處理,形成一個具有2000個文檔的數據集。整個文檔數據集包含7個類標記,大約15%的文檔具有多個標記,平均每個文檔的標記數量是1.15±044。當進行示例劃分時,采用滑動窗口的技術[16]來形成文檔的示例,每個示例對應著一個被大小為50的滑動窗口所覆蓋的文本段,最后采用基于詞頻[17]的詞袋模型表示方法來表示生成的示例。
3.2實驗結果
圖2是采用部分場景數據集作為實驗數據,觀測不同參數值配置對算法性能的影響。圖2(a)~(f)中參數變量的取值范圍為[3,21],并且參數變量取整數值;
算法中,學習速率η的值設置為0.1。通過改變參數的配置,采用漢明損失和1錯誤率來評估參數對算法性能影響,進行了多組實驗來確定算法的最優參數值。
實驗開始時,如圖2(a)和(b)中顯示,先確定Neurons和Topics這兩個參數的值,其值設置為Neurons=3,Topics=3,Words的變化范圍為[3,21]。從圖2(a)和(b)中可以看到,當Words取值為7時,漢明損失和1錯誤率指標取得最小值,算法的分類性能最好。
在圖2(c)和(d)中,參數Neurons的值與圖2(a)和(b)中的值相同,但是Words的值設置為7,Topics的變化范圍為[3,21]。從圖2(c)和(d)中可以看出,當Topics取值為9時,漢明損失和1錯誤率指標取得最小值,算法的分類性能最好。
在圖2(e)和(f)中,根據前面的實驗結果,參數Words的值設置為7,Topics的值設置為9,Neurons變化范圍為[3,21]。從圖2(e)和(f)中可以看出,當Neurons取值為9時,漢明損失和1錯誤率指標取得最小值,算法的分類性能最好。確定算法的最優參數值后,算法對現實世界中的兩種多示例多標記學習任務進行實驗,并和MIMLBOOST和MIMLSVM進行比較,采用文獻[12]中提到的五種多標記學習評價指標來評估算法的性能。表2和表3分別是各個算法在場景數據集和文本數據集上進行實驗的結果,同時表4還給出了各個算法在這兩個數據集進行實驗時所需要的時間。在表2和表3中,表示數值越小算法性能越好,而表示數值越大算法性能越好。
從表2、3中的數據可以看出,對于表中的所有評價指標,PLSANNMIML算法在場景數據集和文本數據集上具有更好的性能。
從表4中可以看出,PLSANNMIML方法在時間上也具有更好的性能,在訓練和測試階段,算法需要的時間都比MIMLSVM算法稍微少些,而且遠遠要少于MIMLBOOST算法所需要的時間。從所有的實驗結果可以看出,PLSANNMIML方法在現實世界中的兩種多示例多標記學習任務中具有更優越的性能。
4結語
現有的大部分多示例多標記學習算法都沒有考慮怎么樣更好地表示對象的特征這一因素,因此提出了一種結合概率潛在語義分析和神經網絡的多示例多標記學習方法。概率潛在語義分析模型可以學習到樣本中的潛在語義這一高層特征,而神經網絡在多標記問題中具有良好的分類性能。對現實世界中的兩種多示例多標記學習任務進行實驗表明,PLSANNMIML算法對其他的多示例多標記學習算法而言具有很強的競爭力,解決了在多示例多標記學習算法中怎么更好地表示對象的特征這一問題;同時也存在著不足之處,算法依然采用的是分解策略來處理多示例多標記學習問題,同時還忽略了標記之間的相關性。下一步將在融入特性學習模型的基礎上尋找其他策略來處理多示例多標記問題,同時也要考慮標記之間的相關性。
參考文獻:
[1]
BISHOP C M. Pattern recognition and machine learning: information science and statistics [M]. New York: Springer, 2006: 67-459.
[2]
ZHOU Z, ZHANG M,ZHANG S, et al. Multiinstance multilabel learning [J]. Artificial Intelligence, 2012, 176(1): 2291-2320.
[3]
ZHOU Z. Multiinstance learning: a survey [R/OL]. Nanjing: Nanjing University, National Laboratory for Novel Software Technology, 2004 [20150206]. http:///zhouzh/zhouzh.files/publication/techrep04.pdf.Nanjing, China, Mar. 2004.
[4]
ZHOU Z, ZHANG M, HUANG S, et al. Multiinstance multilabel learning [J]. Artificial Intelligence, 2012, 176(1): 2291-2320.
[5]
PRATT W K. Digital image processing [M]. DENG L, ZHANG Y, translated. Beijing: China Machine Press, 2005:345-398. (PRATT W K. 數字圖像處理[M].鄧魯華,張延恒,譯. 北京:機械工業出版社,2005:345-398.)
[6]
LI Z, ZHUO Y, ZHANG C, et al. Survey on multilabel learning [J]. Application Research of Computers, 2014, 31(6): 1601-1605. (李志欣,卓亞琦,張燦龍,等.多標記學習研究綜述[J].計算機應用研究,2014,31(6):1601-1605.)
[7]
ZHA Z, HUA X, MEI T, et al. Joint multilabel multiinstance learning for image classification [C]// CVPR 2008: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2008: 1-8.
[8]
HUANG S, ZHOU Z. Fast multiinstance multilabel learning [C]// AAAI 2014: Proceedings of the 28th AAAI Conference on Artificial Intelligence. Menlo Park: AAAI Press, 2014: 1868-1874.
[9]
ZHANG M, ZHOU Z. Multilabel neural networks with applications to functional genomics and text categorization [J]. IEEE Transactions on Knowledge and Data Engineering, 2006, 18(10): 1338-1351.
[10]
XU X, FRANK E. Logistic regression and boosting for labeled bags of instances [C]// PAKDD 2004: Proceedings of the 8th PacificAsia Conference on Knowledge Discovery and Data Mining, LNCS 3056. Berlin: Springer, 2004: 272-281.
[11]
BOUTELL M R, LUO J, SHEN X, et al. Learning multilabel scene classification [J]. Pattern Recognition, 2004, 37(9): 1757-1771.
[12]
ZHANG M, WANG Z. MIMLRBF: RBF neural networks for multiinstance multilabel learning [J]. Neurocomputing, 2009, 72(16/17/18):3951-3956.
[13]
HOFMANN T. Unsupervised learning by probabilistic latent semanticanalysis [J]. Machine Learning, 2001, 42(1/2): 177-196.
[14]
SCHMIDHUBER J. Deep learning in neural networks: an overview [J]. Neural Networks, 2015, 61: 85-117.
[15]
HAYKIN S. Neural networks [M]. YE S, SHI Z, translated. 2nd ed. Beijing: China Machine Press, 2004: 109-176. (HAYKIN S. 神經網絡原理[M].葉世偉,史忠植,譯.2版.北京:機械工業出版社,2004:109-176.)
[16]
SEBASTIANI F. Machine learning in automated text categorization [J]. ACM Computing Surveys, 2001, 34(1): 1-47.
神經網絡語義分割范文2
關鍵詞: 情感分析; 情感傾向性; 詞典擴充; 電力客服工單; 主動服務
中圖分類號: TN915.853?34; V249 文獻標識碼: A 文章編號: 1004?373X(2017)11?0163?04
Dictionary expansion based sentiment tendency analysis of power customer service order
GU Bin, PENG Tao, CHE Wei
(State Grid Jiangsu Electric Power Company, Nanjing 210000, China)
Abstract: In order to improve the customer satisfaction and active service consciousness of the electric power enterprises effectively, the textual characteristic of the power customer service order is combined to construct the sentiment analysis model of the power customer service order. The keywords of the service order are extracted according to TF?IDF thought. The word2vec training is used to get the word vector of each word. The cosine similarity is calculated to expand the high similarity field vocabulary to the sentiment dictionary. The service order sentiment analysis and text classification are performed. The validity of the method is verified with experimental analysis. The results show that, in comparison with the original sentiment dictionary, the method of dictionary expansion and service order sentiment tendency analysis is superior, has higher accuracy, and can provide a certain reference significance for the customer relation management of power enterprise.
Keywords: sentiment analysis; sentiment tendency; dictionary expansion; power customer service order; active service
0 引 言
隨著電力體制改革的逐步深化,配電市場競爭不斷加劇,迫切需要供電企業改變傳統的思維方式和工作模式,進一步樹立市場化服務意識,從客戶需求出發,挖掘客戶的潛在需求和內在價值,從而提升客戶滿意度和運營效益。作為與客戶交流、溝通的重要窗口,電力企業95598客服系統記錄了海量的客戶信息,若能徹底挖掘客服工單中的客戶特征、情感信息并了解客戶的關注焦點,對電力企業和客戶都將具有十分重要的意義[1]。
電力客服工單情感傾向性分析可以有效地發掘客戶情感信息和需求,可根據客戶情感傾向性識別潛在的投訴客戶,可根據反饋信息判別某項業務的實施效果等。針對文本情感傾向性分析,現有的理論研究比較側重于文本特征提取以及采用機器學習方法對文本進行分類,但是基于具體業務特征進行情感詞典擴充的研究還比較少,導致情感傾向性計算往往會存在一定的差異,因此,根據電力行業的特c,進行客戶服務工單情感詞典擴充及情感傾向性的研究非常有必要。
情感分析是指利用文本挖掘、機器學習技術分析挖掘隱藏在文本中的情感信息,并將其分類為積極情感態度和消極情感態度[2]。目前,國內外關于文本情感傾向性分析已經進行了較多的研究工作[3?7],文獻[3]基于情感詞間的點互信息和上下文約束,提出一種兩階段的領域情感詞典構建算法,提升了情感詞情感傾向的識別能力。文獻[4]研究了基于矩陣投影(MP)和歸一化向量(NLV)的文本分類算法,實現對商品評價的情感分析,不僅可以有效識別商品評論情感性傾向,而且提升了識別效率。文獻[5]將詞級別向量和字級別向量作為原始特征,采用卷積神經網絡提取文本特征并進行情感傾向性分析,結果表明字級別向量可取得較高的準確率。文獻[6]提出一種詞圖模型的方法,利用PageRank算法得到情感詞的褒貶權值,并將其作為條件隨機場模型特征預測情感詞傾向,提升了具體語境下預測的準確性,但是針對文本數量較大的情況準確率較低。文獻[7]結合句子結構上下文語義關聯信息,提出一種基于深度神經網絡的跨文本粒度情感分類模型,提升了分類準確率,但該方法只適應于特定領域,泛化能力較低。
鑒于以上研究現狀,本文以電力客戶服務領域文本特征為突破口,構建了電力客服工單情感分析模型,基于工單關鍵詞提取對原始的情感詞典進行擴充,并對工單情感傾向性進行分析,最后,通過算例應用驗證了本文所提方法的有效性。
1 相關工作
1.1 情感分類
情感分類技術的主要目標是基于文本數據識別用戶所表達的情感信息,并將文本數據分為正類和負類。當前,針對情感分類的研究,主要從監督學習、基于規則方法、跨領域情感分析等方面展_研究,與此同時,針對文本特征的提取和特征情感判別是情感分類研究的兩個關鍵問題。
1.2 Word2vec介紹
word2vec是Google在2013年開源的一款將詞表征為實數值向量(word vector)的高效工具,采用的模型有CBOW(Continuous Bag?of?Words,即連續的詞袋模型)和Skip?Gram兩種,word2vec采用的是Distributed Representation的詞向量表示方式,經過對輸入集數據進行訓練,可以實現將文本詞匯轉換為維空間向量,然后基于空間向量相似度來表達文本語義相似度,模型輸出結果可用于自然語言處理領域相關工作,比如文本聚類、詞典擴充、詞性分析等。
word2vec生成詞向量的基本思想來源于NNLM(Neural Network Language Model)模型,其采用一個三層神經網絡構建語言模型,假設某個詞的出現只與前個詞相關,其原理示意圖如圖1所示。
圖1中,最下方的為前個輸入詞,并根據其預測下一個詞每個輸入詞被映射為一個向量,為詞語的詞向量。網絡的第一層(輸入層)為輸入詞語組成的維向量網絡第二層(隱藏層)計算為偏置因子,使用激活函數tanh;網絡第三層(輸出層)包含個節點,每個節點表示下一詞的未歸一化log概率,并使用softmax激活函數將輸出值歸一化,最后使用隨機梯度下降法對模型進行優化。
圖1 NNLM原理模型圖
模型的目標函數為:
需要滿足的約束條件為:
2 電力客服工單情感分析模型
本文以某電力公司客服工單數據為研究對象,在深入理解電力業務及工單文本語義特點的基礎上,建立了一種電力客服工單情感分析模型。首先,在進行文本預處理的基礎上,對文本進行分詞處理并且完成關鍵詞提取;然后,采用word2vec訓練工單數據,并基于關鍵詞進行情感詞典擴充,構建電力客服領域專用情感詞典;最后,進行工單情感傾向性分析。
2.1 工單文本預處理
由于工單文本數據中存在大量價值含量較低甚至沒有價值意義的數據,在進行分詞、情感分析中會對結果產生較大的影響,那么在文本挖掘之前就必須先進行文本預處理,去除大量沒有挖掘意義的工單數據。工單文本預處理工作主要包括:刪除未標注業務類型數據、分句處理、文本去重、短句刪除等。
分句處理:將工單數據處理成以句子為最小單位,以句尾標點符號為標志分割,包括“,”,“?!保埃弧?,“!”等符號。
文本去重:就是去除工單數據中重復的部分,常用的方法有觀察比較刪除法、編輯距離去重法、Simhash算法去重等。
短句刪除:刪除過短的文本,如“還可以”,“非常好”等,設置文本字符數下限為10個國際字符。
2.2 電力客戶服務領域情感詞典構建
2.2.1 分詞
本文采用python的jieba分詞工具對數據集進行分詞,并完成詞性標注和去除停用詞,由于情感分析通常由名詞、形容詞、副詞和連詞等反映出來,因此刪除詞性為動詞的詞匯。jieba中文分詞工具包包含三種分詞模式:精確模式、全模式和搜索引擎模式,綜合分詞效果及后文的研究,本文選擇精確模式進行分詞,三種模式的分詞效果如表1所示。
另外,在實際的分詞過程中,出現了個別分詞結果與實際的語義不符,原因是字典中缺少相關的專有名詞,或者是這些詞語的詞頻較低,比如“客戶/咨詢/抄/表示/數等/信息”,“客戶/查戶/號”,“變壓器/重/過載”,“查/分/時/電價”等,因此,需要對原有詞典進行更新。python中采用jieba.load_userdict(dict.txt)語句添加自定義詞典,其中dict.txt是保存字典內容的文件,其格式為每一行分三部分:一部分為詞語;另一部分為詞頻;最后為詞性(可省略),用空格隔開。
2.2.2 關鍵詞提取
構建電力客戶服務領域專屬情感詞典,需要盡可能保證領域詞典的多樣性,關鍵詞的提取要求一方面能夠盡量反應出這個特征項所屬的類別,另一方面能夠把自身屬于的類別與其他類別有效地區分開來,依據此原理,本文采用TF?IDF思想進行電力客戶服務領域關鍵詞的提取,關鍵詞選取的權重決定了情感詞典的多樣性,為下文情感詞典的擴充做好基礎,算法原理如下。
將工單文檔和特征項構建成二維矩陣,各條工單的特征向量可表示為:
式中:表示第個工單中第個特征中的詞頻。則與為:
式中:表示語料庫中的文件總數;表示包含詞語的文件總數,防止分母為零的情況,通常對分母做+1的處理。因此,的計算公式為:
實際應用中,依據維度的大小確定相應的權重大小,這樣就形成了代表語料特征的關鍵詞集。
2.2.3 基于word2vec進行情感詞典擴充
隨著經濟技術的發展及客戶文化的差異,不同的客戶通常使用不同的詞匯描述同一個對象特征,且電力行業中存在許多專用詞匯,同樣也表達了一定情感,但這些詞脫離于現有的情感詞典,因此,有必要對現有的情感詞典進行擴充,進而提升工單情感傾向性分析的準確性[8]。選取中國知網情感詞集和大連理工大學林鴻飛教授整理和標注的中文情感詞匯本體庫作為基礎的情感詞典,然后依據權重較大的關鍵詞對原有詞典進行擴充[9]?;谏衔碾娏蛻舴展沃刑崛〉年P鍵詞,采用word2vec工具對工單數據集進行訓練,根據CBOW模型或Skip?Gram模型訓練出每個詞的詞向量,并通過計算余弦相似度得到文本語義上的相似度,并將相似度較高的詞語加入到情感詞典中。
依據上文分詞后得到的工單文本數據,采用Linux Version2.6環境對數據進行訓練,操作命令如下:
./word2vec ?train data95598.txt ?output vectors_95598data.bin ?cbow 0 ?size 200 ?winodw 5 ?negative 0 ?hs 1 ?sample le?3 threads 12 ?binary 1
其中,data95598.txt為輸入數據集;vectors_95598data.bin為模型輸出文件;采用Skip?Gram模型進行訓練,詞向量維度設置為200;訓練窗口大小設置為5;-sample表示采樣的閾值,訓練結果采用二進制方式存儲。這樣,得到的模型文件中就包含了每個詞的詞向量。
采用余弦相似度計算關鍵詞的相似詞,即基于生成的詞向量計算兩個維向量的相似度,因為word2vec本身就是基于上下文語義生成的詞向量,因此,余弦值越大,表明兩個詞語的語義越相似。向量與的余弦計算公式如下:
通過distince命令計算輸入詞與其他詞的余弦相似度,經過排序返回相似詞列表,再經過人工篩選,將這些詞加入到原有情感詞典中,實現對原有情感詞典的擴充。
2.3 工單情感傾向性分析
工單情感傾向性分析是基于構建的情感詞典,計算每個客服工單的情感分值,從而判斷工單的情感傾向性。通過上文處理,每一個客服工單都可以被分割成一個個子句片段,表示為每個子句片段由一系列分詞后的詞語構成,提取每個句子的情感詞、否定詞等,表示為依據情感詞典中給定詞的極性值計算每個子句的情感值,分別算每個句子的正向和負向情感分值,計算公式如下:
式中:SenSum表示某個客服工單的情感分值;表示第個子句中第個正向情感詞的極性值;表示第個子句中第個負向情感詞的極性值。
在否定子句中,當為偶數時,否定子句情感為正;當為奇數時,否定子句情感極性為負。對所有的子句情感分值求和并求均值,就得到了整個客服工單的情感值,進而判斷客服工單的情感傾向性,若SenSum為正,表示工單情感為正向;否則,工單情感為負向。
3 實驗分析
3.1 實驗數據準備
本文的實驗環境基于Linux系統,采用python語言進行算法的實現,抽取某電力公司95598客服工單數據作為研究對象,運用jieba包進行中文分詞處理,并采用word2vec訓練數據生成詞向量及擴充情感詞典。由于工單數據是按照業務類型生成的,因此選取業務類型為表揚的工單作為正類,選取業務類型為投訴的作為負類,其中,正類和負類數據比例為21,共得到20 000條數據作為實驗數據集,隨后進行情感傾向性分析,隨機選擇70%的數據作為訓練集,30%的數據作為測試集。
3.2 評價指標
當前針對文本分類效果評估有許多方法,本文選擇準確率(precision)、召回率(recall)和值進行文本情感分類效果的評估,準確率是對分類精確性的度量,召回率是對分類完全性的度量,值越大說明分類效果越好,準確率和召回率是一組互斥指標,值是將二者結合的一個度量指標,值越大,分類效果越好,并將通過本文情感分析模型得到的結果與業務員標注的類型做對比分析。它們的計算公式如下:
3.3 實驗結果及分析
本文基于抽取到的客服工單數據,結合設計的電力客服工單情感分析模型,實現對電力客戶服務領域情感詞典的擴充,并基于構建的電力客服領域專屬詞典進行工單情感傾向性分析,70%的數據用于訓練word2vec并進行情感詞典的擴充,30%的數據用于測試工單情感分類的準確性。測試集共包含工單數6 000條,其中正類工單3 895條,負類工單2 105條。將采用本文情感分析模型得到的結果與原始基礎情感詞典得到的結果進行對比分析,見表2。
由表2可知,采用本文構建的電力客服工單詞典針對正向和負向的情感詞都有較高的準確率、召回率和值,由此可知,本文設計的電力客服工單情感分析模型是合理的,且具有明顯的性能優勢。
4 結 語
本文設計了一種電力客服工單情感分析模型,構建了電力客服領域情感專用詞典并進行工單情感傾向性分析。采用word2vec工具對采集到的數據進行訓練,并用測試集數據對本文提出的模型進行驗證分析,結果表明,本文所提方法具有一定的合理性和可行性,可為電力企業客戶關系管理提供一定的參考意義,促進企業客戶滿意度及運營效益的提升。此外,本文主要研究了基于構建的電力客服專用情感詞典進行客戶情感傾向性分析,但是對于無監督性學習方法情感傾向性分析以及情感強度的分析還有待進一步研究。
參考文獻
[1] 李勝宇,高俊波,許莉莉.面向酒店評論的情感分析模型[J].計算機系統應用,2017,26(1):227?231.
[2] SINGH VK, PIRYANI R, UDDIN A, et al. Sentiment analysis of movie reviews: a new feature?based heuristic for aspect?level sentiment classification [C]// Proceedings of 2013 International Multi?Conference on Automation, Computing, Communication, Control and Compressed Sensing (iMac4s). Kottayam: IEEE, 2013: 712?717.
[3] 郗亞輝.產品評論中領域情感詞典的構建[J].中文信息學報,2016,30(5):136?144.
[4] 鐘將,楊思源,孫啟干.基于文本分類的商品評價情感分析[J].計算機應用,2014,34(8):2317?2321.
[5] 劉龍飛,楊亮,張紹武,等.基于卷積神經網絡的微博情感傾向性分析[J].中文信息學報,2015,29(6):159?165.
[6] 黃挺,姬東鴻.基于圖模型和多分類器的微博情感傾向性分析[J].計算機工程,2015,41(4):171?175.
[7] 劉金碩,張智.一種基于聯合深度神經網絡的食品安全信息情感分類模型[J].計算機科學,2016,43(12):277?280.
神經網絡語義分割范文3
關鍵詞:圖書館;亂架檢測;圖像分割;字符識別;深度學習
中圖分類號:TB
文獻標識碼:A
doi:10.19311/ki.16723198.2016.25.087
1概述
利用現代智能處理技術特別是用計算機代替人們自動的去處理大量的圖像信息,能夠解決人類器官的分辨能力容易受到環境、情緒、疲勞等因素的影響,從而部分代替人工勞動,大大提高生產效率。近年來,將傳統的工作進行數字化和自動化加工逐漸成為圖書館行業越來越重視的工作內容之一。但是目前的圖書館數字化工作仍存在眾多沒有解決的問題。
圖書亂架的整理工作是圖書館日常維護工作的一個重要組成部分。由于書籍眾多,當出現不同種類的圖書放置在一起時,工作人員很難人工將錯誤放置的圖書進行正確地歸類,即使能夠做到,也會花費很長的時間和大量的精力,導致人力資源的浪費。
2006年,深度學習(Deep Learning)開始在學術界和工業界引領發展前沿,其中深度學習認為:1)多隱層的人工神經網絡學習得到的特征對數據有更本質的刻畫,有利于分類和檢測;2)深度神經網絡在訓練上的難度,可以通過“逐層預訓練”來有效克服?;谏疃葘W習的圖像視覺識別技術已經在許多行業中得到了應用,如檢驗零件的質量;識別工件及物體的形狀和排列形態等。
本文結合圖書館日常管理中遇到的圖書亂架這一實際問題,以書脊視覺圖像為切入點,引入深度學習中的SoftMax回歸,設計出一種包括單冊圖像分割、字符識別、語義特征提取以及歸類判別等環節的圖書亂架檢測算法,其有效性已在實驗中得到較好的驗證。
2書脊圖像的定位分割
由于獲取的圖像有可能會出現模糊,因此需要對圖像進行預處理。將拍攝的書脊圖像近似看成平穩過程,使用Wiener濾波器進行幅度相位去模糊。Wiener濾波器的基本原理是將原始圖像f和對原始圖像的估計f^看作隨機變量,按照使f和對估計值f^之間的均方誤差達到最小的準則進行圖像復原。
然后使用Canny算子進行邊緣檢測,并進行縱向和橫向的直線跟蹤,對兩條直線之間的區域進行判斷,如果是書脊區域,就進行分割,然后定位第二本書,直到處理完整幅圖像。
圖1(a)為利用Canny算子進行邊緣檢測出來的結果,得到了所有書籍的邊緣;圖1(b)是對書籍進行分割定位的結果,把定位到的目標用直線標出,以供后續處理。
3書脊圖像的字符識別
由于漢字的類別較大、結構復雜和類似字多,造成漢字的識別難度比較大。傳統的僅用一種特征來識別漢字的方法已不能滿足漢字識別的要求。因此,本文采用了二次識別的方法對漢字字符進行識別,第一次分類利用漢字的筆畫穿過數目特征,第二次是對那些首次仍不能區別開的漢字利用漢字四角的能量值密度特征進行區分。
本文的漢字特征選擇了筆畫穿過數目和能量值密度這兩個特征。筆畫穿過數目是指對漢字圖像的水平、垂直兩個方向進行掃描,然后統計這兩個方向上掃描線出國漢字筆畫的次數即得到漢字的筆畫直方圖,得到筆畫穿過次數的特征向量。
在進行漢字特征匹配時,首先對待識別的漢字筆畫穿過數目特征進行提取,記該特征為C。識別時,首先計算待識別漢字與標準庫中漢字的距離d,d定義為待識別漢字的筆畫穿過數目矩陣C與標準庫中漢字的筆畫穿過數目矩陣B的對應值差值的絕對值之和,其表達式為
d=∑ni=1∑mj=1cij-bij
式中cij為矩陣C中的元素,bij表示矩陣B中的元素。
給定一個閾值σ,若距離dσ,則該字不能被識別,否則把該字放入二級識別隊列中,如果二級隊列中只有一個字,就判別這個字為要識別的字,若二級隊列中不只一個漢字,則要對二級識別隊列中的漢字進行二級識別。
在二級識別里用能量值密度作為特征,提取這些漢字的能量值密度。設一閾值為ε,計算待識別漢字的能量值密度矩陣和標準庫漢字的能量值密度矩陣中對應值的絕對值之和,差值最小的漢字判別為要識別的漢字。
4語義特征提取
利用識別出來的字符,對其進行語義特征的提取,以判斷書籍屬于哪一類。首先通過在原始文本語義空間提取文本的局部分布信息,構造拉普拉斯矩陣和局部密度矩陣,然后通過奇異值分解SVD和廣義特征值分解GEVD求解特征變換矩陣,最后實現文本數據的降維空間聚類。
給定m個文本數據的原始特征語義空間描述X=(x1,x2,…,xm)T,這里xi為文本i的特征向量描述,包含文本類別信息相關的關鍵詞、主題詞以及文本中出現的高頻詞等描述信息,并且xi中的每一個特征元素記錄了這些詞條的重要程度和出現的頻度。
對X按列進行基于歐幾里得距離的kNN近鄰算法獲取點向量xi的k個鄰近點N(xi),并采用高斯核將鄰接點向量的歐幾里得距離轉化為相似度:
sij=exp(-xi-xj2),xj∈N(xi)
得到文本集X的相似矩陣S,該矩陣為對稱矩陣。通過矩陣S構造對角矩陣D,其中dii=∑jsij,令L=D-S,為譜圖數據的拉普拉斯矩陣,為對稱矩陣。利用局部密度矩陣D求取文本向量均值=∑ixidii∑idii,并將文本歸一化i=xi-,對歸一化的進行奇異值分解,降低文本的語義維度,簡化數據描述。并通過非監督判別分析得到降維文本語義空間,即判別語義特征提取,獲取分類判別能力最強的前l個語義特征。
在特征提取后的降維空間采用k-means聚類,進行文本分類,即語義特征的提取。
5書籍亂架放置的判別
進行了語義特征提取之后,為了檢測書籍的亂架放置。因此,需要將提取到的語義特征進行分類。為了盡可能準確地進行分類,采用深度學習的方法進行模型的訓練。其中訓練過程分為兩個階段:貪心的逐層預訓練和整個模型的全局微調。
在逐層訓練預階段,每次只訓練模型的一層,然后將當前層的輸出作為下一層的輸入,進行下一層的訓練,直到預訓練完所有的層。
在模型的全局微調階段,由于亂架放置的書籍的種類可能是多個,所以采用softmax回歸多類分類器。Softmax回歸多分類器是logistic回歸模型在多分類問題上的推廣,在多分類問題中,類標簽y可以取兩個以上的值。假設共有k個類別,則softmax regression的系統方程為
hθ(x(i))=p(y(i)=1|x(i);θ)p(y(i)=2|x(i);θ)p(y(i)=k|x(i);θ)=1∑kj=1eθTjx(i)eθT1x(i)eθT2x(i)eθTkx(i)
其中,x(i)為第i個輸入樣本,θ為系統參數,p為樣本取特定類別時的概率。
此時,系統的損失函數方程為:
J(θ)=-1m∑mi=1∑kj=11y(i)=jlogeθTjx(i)∑kl=1eθTlx(i)
其中,1?是一個指示性函數,即當大括號中的值為真時,該函數的結果就為1,否則其結果為0。θ為代價最小化時所需要滿足的系統參數。實際實現時,首先使用具有先驗歸屬標記的書籍信息樣本按照以上方式對書籍歸屬學習器進行訓練,得到訓練好的歸屬規則學習器。將提取的書籍信息輸入到歸屬規則學習器,學習器輸出到歸屬規則庫進行書籍類別的判別,將判別出來的結果輸入到亂架判決器,進行亂架檢測,如果檢測出來有書籍分錯類,則會輸出亂架警報。
6實驗結果與分析
利用書脊檢測出來的結果,進行字符檢測并對檢測出來的字符進行語義識別,判斷某一本書是不是放錯了類別,如果放錯,則框出放錯的書籍并發出警報。
圖2(a)中都是科技類的書籍,并沒有其他類的書籍,所以輸入的這張圖片并不會輸出亂架報警;圖2(b)中除了科技類的書籍之外,還有一本建筑類的書籍混雜其中,所以系統會把這本書檢測出來并用交叉直線醒目地標示出來。
中除了科技類的書籍之外,還有一本美術類的書籍混雜其中,所以系統會把這本書檢測出來并用直線標示出來。
圖2和圖3只是筆者為了演示系統的運行效果而給出的個例圖示,限于篇幅所限不能窮盡所有曾經檢測處理過的案例。筆者曾經對科技類、哲學類和藝術類為主體的大容量樣本集的亂架圖像進行了分析,每個樣本集的分析耗約為300~320秒,大大高于人工檢測的速度。亂架檢測實驗的樣本集實驗結果列于表1之中。
7結論
在圖書館系統中利用機器視覺的方法進行書籍定位和檢測是視覺研究的一個重要方向。本文給出了一種綜合運用相關視覺圖像技術對亂架圖書進行自動檢測的系統設計。實驗表明,該方法可通過程序設計完全有計算機自動實現,平均檢出率超過90%,速度快穩定性好,處理時間大大小于人工檢測時間,并且能夠在很大程度上降低圖書管理員的勞動強度,有助于提高大型圖書館的架上書籍整理效率。
參考文獻
[1]李因易.圖像處理技術在圖書館藏書清點中的應用研究[D].貴陽:貴州大學,2006.
[2]方建軍,杜明芳,龐睿.基于小波分析和概率Hough變換的書脊視覺識別[J].計算機工程與科學,2014,(36):126131.
[3]何耘嫻.印刷體文檔圖像的中文字符識別[D].秦皇島:燕山大學,2011.
[4]D.-J. Lee,Y.Chang,J. K.Archibald,C.Pitzak.Matching book-spine images for library shelf-reading process automation[C].in Automation Science and Engineering,2008.CASE 2008. IEEE International Conference on, 2008:738743.
[5]戴臻.內容文本分類中的語義特征提取算法研究[D].長沙:中南大學,2010.
[6]Y.Bengio, Learning deep architectures for AI[J].Foundations and trends in Machine Learning, 2009,(9):1127.
[7]Y. Bengio.Deep Learning of Representations for Unsupervised and Transfer Learning[J].in ICML Unsupervised and Transfer Learning,2012:1736.
[8]P.Baldi. Autoencoders, Unsupervised Learning,and Deep Architectures[J].in ICML Unsupervised and Transfer Learning,2012:3750.
神經網絡語義分割范文4
關鍵詞:圖像識別;OCR;題庫采集;移動終端;特征建模
中圖分類號:G434 文獻標識碼:A 論文編號:1674-2117(2016)12-0075-04
采集題庫的現狀
隨著經濟和社會的發展、“互聯網+”的廣泛應用及教育觀念的更新,我們迫切需要科學、方便、完善的網絡型題庫管理系統。試題庫建設是教育現代化的需要,是考教分離、最大限度提高辦學效益的需要,因此,進行區域網絡試題庫系統的建設和研究具有十分重要的意義。
受限于教材版本和區域應用層面的需求,采購商業化的題庫并不能完全滿足教育教學的實際要求。手握大量紙質試卷的老師們,迫切需要一個錄入神器,方便快捷地將其錄入到題庫系統里。
利用基于移動終端的圖像文字識別技術將文字和圖片迅速錄入題庫是我們在移動端系統開發的應用亮點。它能夠大幅提高對質量不高圖像的識別率,其關鍵算法對圖像的噪聲、亮度明暗不一致和規格凌亂的問題進行了很好的處理。它能夠將圖像上傳到服務器進行在線識別,在識別過程中先對圖像進行消噪,然后對亮度進行均衡處理及對圖像閾值分割,提高了圖像識別的成功率。
題庫采集系統工作流程
題庫采集主要分為圖像采集、圖像識別和標注三個過程。整體的工作流程包括:①系統啟動,進入主界面,可選擇開始拍攝閱卷或讀取設備中已有的圖像,如選擇拍攝題目,進入圖像采集模塊,調用移動設備的攝像頭進行拍攝,拍攝成功后,跳轉至識別界面,如選擇讀取相冊已有圖像也跳轉至識別界面。②在識別界面上顯示出拍攝或者讀取的相冊圖像,首先調用圖像預處理模塊對圖像進行預處理,輸出預處理后的圖像,然后調用圖像校正模塊對預處理圖像進行校正,輸出校正圖像,最后調用圖像識別模塊對校正圖像進行識別,輸出識別結果。③調用標注模塊對識別結果進行分類管理,為題目添加系統屬性,如學科、章節、知識點類目、題型、難度系數等標簽。圖1為題庫采集系統工作流程示意圖。
OCR智能模型設計思路
在人工智能領域,模擬人類圖像識別活動的計算機程序,人們提出了不同的圖像識別模型――模板匹配模型。這種模型認為,識別某個圖像,必須在過去的經驗中有這個圖像的記憶模式,又叫特征模型。當前的刺激如果能與大腦中的模型相匹配,這個圖像也就被識別了。例如,有一個字母A,如果在腦中有個A模板,字母A的大小、方位、形狀都與這個A模板完全一致,字母A就被識別了。圖像識別中的模型識別(Pattern Recognition)利用計算機和數學推理的方法對形狀、模式、曲線、數字、字符格式和圖形自動完成識別、評價的過程。
那么如何通過模型的學習提高OCR的智能判斷水平呢?我們主要從以下三個方面做了實踐研究。
1.采集識別優化
(1)二值化處理
二值圖像在數字圖像處理中占重要地位,其在處理實際圖像過程中地位更加突出。要應用二值圖像,掃描文檔之后的第一步就是對灰度圖像根據所選閾值進行二值化處理。二值圖像是像素值為0或255的像素點集合,如此一來,圖像的數據量大大減少,但圖像的基本輪廓信息得以保留。此項的關鍵是所選取的閾值是否得當,不當則會減弱二值圖像的處理效果。常用的閾值選取方法有固定閾值法、平均閾值法、直方圖法、Means法四種。
谷歌公司在HP公司Tesseract光學字符識別引擎的基礎上做了深度加工,其中對閾值的自適應分類器和兩步矯正法的應用大大提高了文本的識別效率。近幾年來,百度針對商業運用開發了自然場景OCR API服務,依托百度的OCR算法,提供了整圖文字檢測、識別、整圖文字識別、整圖文字行定位和單字圖像識別等功能。目前火熱的作業幫APP就是基于百度識別API做的延伸產品(如圖2)。
(2)圖像去噪與矯正
任何一幅原始圖像,在其獲取和傳輸的過程中,都會受到各種噪聲的干擾,使圖像質量下降,淹沒其特征,對圖像分析非常不利。為抑制噪聲、改善圖像質量所進行的處理被稱為圖像平滑或去噪。
圖像平滑是用于突出圖像的寬大區域和主干部分(低頻部分)或抑制圖像噪聲和干擾(高頻部分),使圖像平緩漸變,減小突變梯度,改善圖像質量的圖像處理方法。它屬于圖像增強的一部分,主要的圖像平滑方法有均值濾波、中值濾波、灰度形態學濾波、小波濾波、高斯低通濾波以及統計方法濾波。
已獲得的文本圖像有些不可避免地會發生傾斜,這樣會給后面文字的行切分和列切分以及文字的識別帶來困難,所以需要對獲取的圖像進行傾斜校正。圖像的傾斜校正最關鍵的是傾斜角的檢測,我們主要采用平行四邊形法進行文本圖像的校正(如圖3)。根據拍攝者給出的一系列文件位置點,用位置點的坐標結合模型擬合出文本線,根據文本線與水平線之間的差距進行精確恢復,以得到水平分布的文本行。
2.特征提取與建模
特征提取是圖像識別的重要步驟,為了保證后續處理的質量,生成的特征要具備描述物體的典型特性,如獨特性、完整性、幾何變換下的不變性、靈敏性以及抽象性。我們設計的系統的特征模型包括文字特征、圖片特征、公式特征等。
提取圖像特征關系可以有兩種方法:一是對圖像進行合理地分割,劃分出圖像中所包含的對象或區域,然后根據這些區域提取圖像特征,并建立索引;二是簡單地將圖像均勻地劃分為若干規則子塊,然后對每個圖像子塊提取特征,并建立索引。
圖像特征建模的基本原則是根據圖像的視覺內容和可獲得的指導信息來確定對應的文本語義描述。在圖像標注任務中會涉及兩種不同的媒體:一是圖像,二是文本。這兩種媒體具有良好的互補性,可以協作傳遞信息,正所謂“圖文并茂”。由這兩種媒體可以產生4種關系,即圖像間關系(IIR)、詞間關系(WWR)、由圖像到詞的關系(IWR)和由詞到圖像的關系(IR)。
3.基于標注模型的學習與訓練
我們通常采用兩兩圖像之間的視覺相似性(pairwise similarity)來建立以圖像為節點的相似圖,但這種方式由于沒有考慮到數據集或某個數據子集內的結構分布信息,效果不能令人滿意。因此我們引入了第二個以詞為節點的圖學習過程,用來實現對圖像標注的改善。
最常見的是屬性相關性,如“李白”是“古詩文”的關系。除此之外,詞匯之間還存在多種相關性,如“凸透鏡”與“光”之間有著很強的聯系,這種相關性不依賴于特定數據集,它是人們在生活中大量知識的積累和反映。當一幅圖像已被標為“凸透鏡”“光”等詞匯后,初中物理作為該圖像標注詞匯的概率就會相應提升。為了獲取這種相關信息,一種方法是從訓練數據集中利用已標注詞匯間的共生概率來計算詞匯間的關系。該方法基于已標注信息,相對準確,但它不能反映更廣義的人的知識。于是,我們可以采用另一種方法,利用具有大量詞匯的、包含了人的知識的結構化電子詞典來計算詞匯間的關系。與統計方法相比,詞典包括了更加完整的大數據關聯信息。由此我們設計了基于標注的模型學習體系(如下頁圖4),通過提取題目圖像的特征點綁定其隱形屬性,再與拍攝者提供的顯性屬性做比對,進行數據建模,并引導系統修正其三大特征庫(文字、圖片、公式),實現自我學習。
需要注意的是,基于標注信息描述由圖到標簽的關系,更適合按照多標記分類(multilabel classification)問題來解決。具體而言,假設標注詞匯服從多項式分布,由此將圖像標注歸為多類別分類問題,而題庫的分類方式恰恰符合這樣的多標記模型(相對固定是顯性標簽:學科、學段、知識點、章節、難度等)。
注意事項
1.基于API方式的接入能使產品得到快速開發
例如,當前百度通過專業服務分發平臺APIStore開放百度文字識別技術,讓開發者可以零成本使用基于移動應用的OCR技術,為開發者創新應用提供了更多的選擇。
2.題庫特征建模要考慮學科特征
實踐證明,文科和理科的題目有著截然不同的特征屬性,如語文更注重詞匯與語法方面的訓練,而數學包含了大量的公式和二維化的圖像。往往數學在小學和中學階段的題目也會表現出不同的特征屬性,在建模的同時要注意抽取。
3.未來的方向是要構建基于題庫圖像模型的題庫推送規則
當題庫的建構達到一定數量之后,我們要將圖像和翻譯成的題目都保存下來,再根據拍攝者的需求做相關的推送,根據其使用的情況(如點擊率、評價等)再對模型進行修正。
從目前的技術發展角度看,突破性來自于機器語言翻譯方面的研究成果:通過一種遞歸神經網絡(RNN)將一種語言的語句轉換成向量表達,并采用第二個RNN將向量表達轉換成目標語言的語句。而谷歌將以上過程中的第一種RNN用深度卷積神經網絡CNN取代,這種網絡可以用來識別圖像中的物體。此種方法可以實現將圖像中的對象轉換成語句,對圖像場景進行描述。概念雖然簡單,但實現起來十分復雜,科學家表示,目前實驗產生的語句合理性不錯,但還遠談不上“完美”,這項研究目前還處于起步階段。相信在不久的將來此項發明將應用于教學領域,那么基于云模式下的圖像識別系統將得到一個質的飛躍,它也將使圖像識別與深度學習更加緊密地聯系在一起,最終實現系統對互聯網上教育資源摘取和自學習的強大功能。
參考文獻:
[1]黃明明.圖像局部特征提取及應用研究[D].北京:北京科技大學,2016.
[2]劉淼,楊鎮豪,謝韻玲,謝冬青,唐春明.Android圖文同步識別系統的設計和實現[J].計算機工程與設計,2014(06).
[3]李龍卓.基于形狀特征的圖像檢索技術研究[D].青島:青島科技大學,2015.
[4]付蘆靜,錢軍浩,鐘云飛.基于漢字連通分量的印刷圖像版面分割方法[J].計算機工程與應用,2015(05).
神經網絡語義分割范文5
【關鍵詞】液壓系統;現狀;發展趨勢;故障診斷技術
一、液壓系統故障診斷技術發展現狀
液壓系統故障診斷技術是隨著液壓設備不斷高度自動化和復雜化以及對液壓系統工作可靠性要求越來越高而發展起來的,是針對現代液壓設備需要及時排除液壓故障而提出來的,是將醫療診斷中的基本思想推廣到液壓工程技術而形成的,是建立在液壓控制理論,信息理論和電子技術、傳感器技術、人工智能技術等基礎上的一門綜合性新技術。液壓傳動是三大傳動技術之一,與機械傳動、電力傳動相比,液壓傳動系統具有其獨特的優點,即廣泛的工藝適應性、優良的控制性能和較低廉的成本,并且功率大、響應快、精度高,已經廣泛應用于冶金、制造等領域。
二、液壓系統的故障原因分析
(1)主觀診斷法。主觀診斷法主要是依靠簡單的診斷儀器,憑借個人的實踐經驗,判別故障發生的部位及其原因。這種方法要求診斷人員掌握豐富的故障機理知識和診斷經驗,需利用系統或元件的結構、模型和功能等方面的知識,綜合分析才能了解。(2)基于模型診斷法。基于模型的診斷法是先運用一定的數學手段描述系統某些可測量特征量,這些特征量在幅值、相位、頻率及相關性上與故障源之間存在著聯系,然后通過測量、分析、處理這些特征量信號,來判斷故障源所在。這種方法實質上是以傳感器技術和動態測試技術為手段,以信號處理和建模處理為基礎的診斷技術。(3)智能診斷技術。液壓系統故障智能診斷技術是人工智能技術在液壓系統故障診斷領域中的應用,它是計算機技術和液壓系統故障診斷技術相互結合與發展進步的結果。智能診斷的本質特點是模擬人腦的機能,又能比人腦更有效地獲取、傳遞、處理、再生和利用故障信息,成功地識別和預測診斷對象的狀態。因此,智能診斷技術是液壓系統故障診斷的一個極具生命力的發展方向。目前的智能診斷研究主要從兩個方面開展:基于專家系統的故障智能診斷技術和基于神經網絡的液壓系統故障智能診斷技術。
三、液壓故障診斷技術發展趨勢
(1)多種知識表示方法的結合。近幾年來,在面向對象程序設計技術的基礎上,發展起來了一種稱為面向對象的知識表示方法,為這一問題提供了一條很有價值的途徑。在面向對象的知識表示方法中,傳統的知識表示方法如規則、框架、語義網絡等可以被集中在統一的對象庫中,而且這種表示方法可以對診斷對象的結構模型進行比較好的描述,在不強求知識分解成特定知識表示結構的前提下,以對象作為知識分割實體,明顯要比按一定結構強求知識的分割來得自然、貼切。(2)經驗知識與原理知識的緊密結合。關于深淺知識的結合問題,可以各自使用不同的表示方法,從而構成兩種不同類型的知識庫,每個知識庫有各自的推理機,它們在各自的權利范圍內構成子系統,兩個子系統再通過一個執行器綜合起來構成一個特定診斷問題的專家系統。這個執行器記錄診斷過程的中間結果和數據,并且還負責經驗與原理知識之間的“切換”。這樣在診斷過程中,通過兩種類型知識的相互作用,使得整個系統更加完善,功能更強。(3)多種智能故障診斷方法的混合?;旌现悄芄收显\斷系統的發展有如下趨勢:由基于規則的系統到基于混合模型的系統、由領域專家提供知識到機器學習、由非實時診斷到實時診斷、由單一推理控制策略到混合推理控制策略等。(4)虛擬現實技術將得到重視和應用。虛擬現實技術是繼多媒體技術以后另一個在計算機界引起廣泛關注的研究熱點,它有四個重要的特征,即多感知性、對存在感、交互性和自主性。從表面上看,它與多媒體技術有許多相似之處。(5)數據庫技術與人工智能技術相互滲透。人工智能技術多年來曲折發展,雖然碩果累累,但比起數據庫系統的發展卻相形見絀。其主要原因在于缺乏像數據庫系統那樣較為成熟的理論基礎和實用技術。人工智能技術的進一步應用和發展表明,結合數據庫技術可以克服人工智能不可跨越的障礙,這也是智能系統成功的關鍵。對于故障診斷系統來說,知識庫一般比較龐大,因此可以借鑒數據庫關于信息存儲、共享、并發控制和故障恢復技術,改善診斷系統性能。
神經網絡語義分割范文6
關鍵詞:歌曲中歌聲的識別;MFCC;特征聚類變換;高斯混合模型
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2016)31-0170-02
Abstract: Using MFCC directly as feature parameters for singing voice detection in songs leads to large amount of feature parameters and insufficient singer’s singing characteristics. Aim to this, an approach based on clustering and transform of MFCC is proposed in this paper. After GMM clustering of MFCC, the mean of each individual Gaussian distribution is adopt as the new feature for the SVM classifier. The new feature utilizes GMM’s great ability of data description, so as to highlight singer’s singing characteristics and reduce the amount of feature parameters. The experimental results show that the approach proposed in this paper performs a little well than the combination of MFCC and standard GMM, along with the decreasing amount of processing data .
Key words:singing voice detection;MFCC;feature clustering and transform
1 引言
歌曲中歌聲識別的任務是,在歌曲中定位歌手開始歌唱以及持續的片段[1]。歌曲從結構上通??梢詣澐譃楦枋盅莩糠趾图儼樽嗖糠?,其中歌手演唱部分通常是人聲與伴奏音樂的疊加,而純伴奏部分則不含人聲、純粹由伴奏樂器的聲音構成。目前在歌曲中歌聲識別方法中,常用的聲學特征參數有:線性預測系數(Linear Predict Coefficients,LPC)[1]、感知線性預測系數(Perpetual Linear Predict Coefficients,PLPC)[2]、梅爾頻率倒譜系數(Mel - Frequency Cepstral Coefficients,MFCC)[3][4]、對數頻率功率系數(Log Frequency Power Coefficients,LFPC)[5]等。而目前在歌曲中歌識別方法中,常用的分類器包括:隱馬爾科夫模型(HMM)[1]、高斯混合模型(GMM)[3][4]、支持向量機(SVM)[6]、人工神經網絡(ANN)[7]等。文獻[8]的研究結果表明,在使用同一分類器對各種聲學特征進行歌曲中的歌聲識別時,MFCC的識別效果最好。同時,研究表明,GMM具有較強的數據描述能力,但分類能力較弱,而SVM的數據描述能力較弱,但分類效果更好[9-10]。因此,本文嘗試采用MFCC作為聲學特征,提出使用GMM和SVM相結合的方法來對歌曲中的歌唱部分和純伴奏部分進行區分。
MFCC特征參數不僅可用于話者識別,還用于語音識別、語種識別等,是因為MFCC特征參數中不僅包含說話人信息,還包含豐富的語義信息、語種信息等多種信息。因此,直接采用MFCC作為歌曲中歌聲識別的特征參數,將會導致特征參數中含有大量冗余信息、存在數據量大的問題。同時,特征參數中包含歌手的演唱特征較少,需要收集大量歌曲樣本,即包含各種歌手演唱的歌曲樣本,才能表征出歌手的演唱特征。同時,訓練歌唱GMM模型和伴奏GMM模型都需要較多的訓練數據。以上這些因素都會導致數據處理量很大。
針對上述問題,本文提出一種對MFCC特征進行聚類變換的歌曲中的歌聲識別方法。通過對MFCC特征進行GMM聚類變換,得到各個單高斯分布的均值作為SVM分類器的特征參數。既利用了GMM數據描述能力強的特點,突出歌手歌唱的個性特征,降低特征參數的數據量;同時也利用了SVM分類能力強的優勢。
2 對MFCC特征的聚類變換
2.1 MFCC特征的提取
使用經過人工標注的歌曲作為訓練數據,經過預加重,加漢明窗分幀處理,本文采用的幀長為20ms。對每一幀提取13維MFCC及其一階和二階差分作為特征參數,共計39維。
2.2 基于GMM聚類的特征變換
根據高斯混合模型(Gaussian Mixture Model, GMM)的定義可知,高斯混合模型是用M個單高斯分布的概率密度函數的線性加權組合來對一個特征數據集的統計分布進行描述的。其中,每個單高斯分布的概率密度函數可用均值、協方差及權重來表述(m=1,2,...,M)。因此,可以把GMM中的每個單高斯分布看成一個類別,那么均值描述了該類數據的平均大小,反映了不同特征向量在在特征空間的相對位置,協方差描述了數據分布的密集程度,權重描述了屬于該類的數據的多少。所以,對一個特征數據集進行GMM的訓練過程,也可以看成是對該特征數據集進行GMM聚類的過程。因此,也可使用GMM聚類對MFCC特征進行特征變換。本文直接采用各個單高斯類的均值作為GMM聚類后的變換特征。本文采用的高斯混合數m為256。
3基于SVM的歌曲歌唱部分檢測
3.1 SVM的訓練
根據人工標注將提取出的MFCC特征參數分為歌唱MFCC特征和純伴奏MFCC特征兩類,分別融合在一起得到歌唱MFCC特征數據集和純伴奏MFCC特征數據集。首先,對歌唱MFCC特征數據集進行GMM聚類,將得到的變換特征向量序列記為{, , ...,},其中,s代表singing,即歌唱部分。并且,將該變換特征向量序列對應的類別全部標記為+1。然后,對純伴奏MFCC特征數據集進行GMM聚類,將得到的變換特征向量序列記為{, , ...,},其中,i代表instrumental,即純伴奏部分。并且,將該變換特征向量序列對應的類別全部標記為-1。最后,用這些數據對SVM進行訓練,得到支持向量和最優分類超平面。本文采用的SVM核函數是徑向基內核。
3.2基于SVM的歌聲/純伴奏的識別
對測試歌曲中的歌聲片段進行識別時,首先對其分幀,假設共有T幀,每一幀提取MFCC特征向量,這樣得到一個初始的MFCC特征向量序列{x1, x2, ..., xT}。對得到的MFCC特征向量序列{x1, x2, ..., xT}進行GMM聚類,將得到的變換特征向量序列記為{, , ...,}。利用前面訓練好的SVM進行分類,設分類結果為{w1,w2,...,wM},其中wm={+1, -1},m=1,2,...,M。以w1為例,如果w1=+1,則意味著所代表的類別中的所有初始MFCC對應的幀均識別為歌聲幀;如果w1=-1,則意味著所代表的類別中的所有初始MFCC對應的幀均識別為純伴奏幀。
4 實驗結果及分析
實驗中使用的音頻數據庫由60段英文流行歌曲組成,每段長度為15秒。對這60段歌曲的歌聲片段和純伴奏片段分別進行了手工標注,并將標注結果保存在對應的*.lab文件中。具體來說,將歌曲的歌聲片段標注為singing,而將純伴奏片段標注為non-singing。測試方法為留一交叉檢驗。采用基于幀的識別率來評價識別效果,計算公式如下:
表1給出了使用MFCC特征結合GMM模型和使用MFCC聚類變換特征結合SVM的識別結果。從表1中可以看到,使用MFCC聚類變換特征結合SVM進行識別,平均識別率略有提高。同時,平均處理數據量大大降低,僅為聚類變換之前的34.2%。
5 結論
本文采用對MFCC特征經過GMM聚類后的變換特征,即各個單高斯分布的均值,作為新的特征參數,并采用SVM作為分類器,進行歌曲中歌聲的識別研究。相對初始的MFCC特征,變換特征利用GMM數據描述能力強的特點,突出了歌手歌唱的個性特征。且變換特征的數據量相對于初始MFCC特征的數據量減少了65.8%,有利于提升識別速度。同時,采用SVM作為分類器,利用了SVM分類能力強的優勢,彌補了GMM區分能力較弱的不足,實驗結果表明平均識別率略有提高。
參考文獻:
[1] Berenzweig A L, Ellis D P W. Locating singing voice segments within music signals[C]. IEEE Workshop on the Applications of Signal Processing to Audio and Acoustics, 2001:119-122.
[2] Berenzweig A, Ellis D P W. Using Voice Segments to Improve Artist Classification of Music[J]. Proc Aes, 2002:1-8.
[3] Tsai W H, Wang H M. Automatic singer recognition of popular music recordings via estimation and modeling of solo vocal signals[J]. IEEE Transactions on Audio Speech & Language Processing, 2006, 14(1):330-341.
[4] 能恒, 張亞磊, 李霞. 基于模型在線更新和平滑處理的音樂分割算法[J]. 深圳大學學報(理工版), 2011, 28(3):271-275.
[5] T. L. Nwe, A. Shenoy, and Y. Wang, “Singing voice detection in popular music,” in Proc. 12th Annu. ACM Int. Conf. Multimedia, 2004, pp.324-327.
[6] Maddage N C, Wan K, Xu C, et al. Singing voice detection using twice-iterated composite Fourier transform[C]. IEEE International Conference on Multimedia and Expo. 2004:1347-1350 Vol.2.
[7] Tzanetakis G. Song-specific bootstrapping of singing voice structure[C]. IEEE International Conference on Multimedia and Expo. IEEE, 2004:2027-2030 Vol.3
[8] M. Rocamora and P. Herrera. Comparing audio descriptors for singing voice detection in music audio files. in Proc. of Brazil-ian Symposium on Computer Music, 11th. San Pablo, Brazil, volume 26, page 27-30, 2007.