卷積神經網絡特征范例6篇

前言:中文期刊網精心挑選了卷積神經網絡特征范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。

卷積神經網絡特征

卷積神經網絡特征范文1

關鍵詞:圖像分類;深度學習;Caffe框架;卷積神經網絡

中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2016)35-0209-03

Research and Implementation of Image Classification Based on Convolution Neural Network

WANG Chao

(Information Engineering Institute,East China University of Technology, Nanchang 330013, China)

Abstract: The problem of image classification has been the core problem in computer vision. A good solution is developed by further study which can solve the problem of extracting image features in image classification. In order to learn image features efficiently, constructing the machine learning model with hidden layer as well as training a large number of image data will eventually promote the accuracy of image classification or prediction. This paper is intended as an in-depth Caffe learning framework to construct a small image data-base. The convolutional neural network provided by Caffe framework will make a training analysis of the data set and then extract the information of target image features. These can be used for the final prediction of the target image. Compared with the traditional image classification algorithm, the accuracy of the prediction will be greatly improved.

Key words: image classification; deep learning; Caffe framework; Convolutional Neural Network

S著計算機與互聯網技術的快速發展,我們已經進入了一個以圖像構建的世界。但是面臨有海量圖像信息卻找不到所需要的數據的困境,因而圖像分類技術應運而生。通過各種機器學習算法使計算機自動將各類圖像進行有效管理和分類,但是由于圖像內容包含著大量復雜且難以描述的信息,圖像特征提取和相識度匹配技術也存在一定的難題,要使得計算機能夠像人類一樣進行分類還是有很大的困難。

深度學習是近十年來人工智能領域取得的重要突破,在圖像識別中的應用取得了巨大的進步,傳統的機器學習模型屬于神經網絡模型,神經網絡有大量的參數,經常會出現過擬合問題,因而對目標檢測準確率上比較低。本文采用卷積神經網絡框架,圖像特征是從大數據中自動學習得到,而且神經網絡的結構深由很多層組成,通過重復利用中間層的計算單元來減少參數,在特征匯聚階段引入圖像中目標的顯著信信息,增強了圖像的特征表達能力。通過在圖像層次稀疏表示中引入圖像顯著信息,加強了圖像特征的語義信息,得到圖像顯著特征表示,通過實驗測試,效果比傳統的圖像分類算法預測的準確度有明顯的提升。

1 基于卷積神經網絡的圖像分類方法

1.1 人工神經網絡

人工神經網絡(Artificial Neural Network, ANN)是描述生物神經網絡運行機理和工作過程的抽象和簡化了的數學物理模型,使用路徑權值的有向圖來表示模型中的人工神經元節點和神經元之間的連接關系,之后通過硬件或軟件程序實現上述有向圖的運行[1]。目前最典型的人工神經網絡算法包括:目前最典型的人工神經網絡有BP網絡 [2]Hopfield網絡[3]Boltzmann機[4]SOFM網絡[5]以及ART網絡人工神經網絡[6],算法流程圖如圖1所示[7]。

1.2 卷積神經網絡框架的架構

Caffe是Convolutional Architecture for Fast Feature Embedding的縮寫[8],意為快速特征嵌入的卷積結構,包含最先進的深度學習算法以及一系列的參考模型,圖2表示的是卷積神經網絡結構圖。Caffe深度學習框架主要依賴CUDA,IntelMKL,OpenCV,glog軟件以及caffe文件。本文使用的各個軟件版本說明,如表1所示。

Caffe深度學習框架提供了多個經典的卷積神經網絡模型,卷積神經網絡是一種多層的監督學習神經網絡,利用隱含層的卷積層和池采樣層是實現卷積神經網絡特征提取功能,卷積神經網絡模型通過采取梯度下降法最小化損失函數對網絡中的權重參數逐層反向調節,通過頻繁的迭代訓練來提高網絡的精度。卷積神經網絡使用權值共享,這一結構類似于生物神經網絡,從而使網絡的復雜程度明顯降低,并且權值的數量也有大幅度的減少,本文使用這些模型直接進行訓練,和傳統的圖像分類算法對比,性能有很大的提升,框架系統訓練識別基本流程如圖3表示。

1.3 圖像分類特征提取

卷積神經網絡的結構層次相比傳統的淺層的神經網絡來說,要復雜得多,每兩層的神經元使用了局部連接的方式進行連接、神經元共享連接權重以及時間或空間上使用降采樣充分利用數據本身的特征,因此決定了卷積神經網絡與傳統神經網絡相比維度大幅度降低,從而降低計算時間的復雜度。卷積神經網絡主要分為兩個過程,分為卷積和采樣,分別的對上層數據進行提取抽象和對數據進行降維的作用。

本文以Caffe深度學習框架中的 CIFAR-10數據集的貓的網絡模型為例,如圖4所示,對卷積神經網絡模型進行訓練。CIFAR-10是一個標準圖像圖像訓練集,由六萬張圖像組成,共有10類(分為飛機,小汽車,鳥,貓,鹿,狗,青蛙,馬,船,卡車),每個圖片都是32×32像素的RGB彩色圖像。通過對數據進行提取和降維的方法來提取圖像數據的特征。

2 實驗分析

將貓的圖像訓練集放在train的文件夾下,并統一修改成256×256像素大小,并對貓的圖像訓練集進行標記,標簽為1,運行選擇cpu進行訓練,每進行10次迭代進行一次測試,測試間隔為10次,初始化學習率為0.001,每20次迭代顯示一次信息,最大迭代次數為200次,網絡訓練的動量為0.9,權重衰退為0.0005,5000次進行一次當前狀態的記錄,記錄顯示如下圖5所示,預測的準度在98%以上。而相比傳統的圖像分類算法BP神經網絡網絡的收斂性慢,訓練時間長的,網絡的學習和記憶具有不穩定性,因而卷e神經網絡框架在訓練時間和預測準度上具有非常大的優勢。

3 結束語

本文使用Caffe深度學習框架,以CIFAR-10數據集中貓的網絡模型為例,構建小型貓的數據集,提取貓的圖象特征信息,最后和目標貓圖像進行預測,并和傳統的圖像分類算法進行對比,預測的準確率有很大的提升。

參考文獻:

[1] 楊錚, 吳陳沭, 劉云浩. 位置計算: 無線網絡定位與可定位性[M]. 北京: 清華大學出版社, 2014.

[2] 丁士折. 人工神經網絡基礎[M]. 哈爾濱: 哈爾濱工程大學出版社, 2008.

[3] McClelland J L, Rumelhart D E, PDP Research Group. Parallel distributedprocessing[J]. Explorations in the microstructure of cognition, 1986, 2.

[4] Hopfield J J. Neural networks and physical systems with emergent collectivecomputational abilities[J]. Proceedings of the national academy of sciences, 1982, 79(8): 2554-2558.

[5] Ackley D H, Hinton G E, Sejnowski T J. A learning algorithm for boltzmannmachines[J]. Cognitive science, 1985, 9(1): 147-169.

[6] Kohonenmaps T. Self-Organized Formation of Topologically Correct Feature Maps[J]. Biological Cybernetics,1982, 43(1): 59-69.

卷積神經網絡特征范文2

關鍵詞:卷積神經網絡;圖像分類;空間變換;可變形卷積

DOIDOI:10.11907/rjdk.171863

中圖分類號:TP317.4

文獻標識碼:A 文章編號:1672-7800(2017)006-0198-04

0 引言

圖像分類一直是計算機視覺領域的一個基礎而重要的核心問題,具有大量的實際應用場景和案例。很多典型的計算機視覺問題(如物體檢測、圖像分割)都可以演化為圖像分類問題。圖像分類問題有很多難點需要解決,觀測角度、光照條件的變化、物體自身形變、部分遮擋、背景雜波影響、類內差異等問題都會導致被觀測物體的計算機表示(二維或三維數值數組)發生劇烈變化。一個良好的圖像分類模型應當對上述情況(以及不同情況的組合)不敏感。使用深度學習尤其是深度卷積神經網絡,用大量圖像數據進行訓練后可以處理十分復雜的分類問題。

卷積神經網絡是為識別二維形狀而專門設計的一個多層感知器,這種網絡結構對平移、縮放、傾斜等擾動具有高度不變性,并且具有強大的特征學習與抽象表達能力,可以通過網絡訓練獲得圖像特征,避免了復雜的特征提取與數據重建過程。通過網絡層的堆疊,集成了低、中、高層特征表示。AlexNet等網絡模型的出F,也推動了卷積網絡在海量圖像分類領域的蓬勃發展。

1 卷積神經網絡

卷積神經網絡是人工神經網絡的一種,其“局部感知”“權值共享”[1]等特性使之更類似于生物神經網絡,網絡模型復雜度大大降低,網絡訓練更容易,多層的網絡結構有更好的抽象表達能力,可以直接將圖像作為網絡輸入,通過網絡訓練自動學習圖像特征,從而避免了復雜的特征提取過程。

Yann LeCun等[2]設計的LeNet-5是當前廣泛使用的卷積網絡結構原型,它包含了卷積層、下采樣層(池化層)、全連接層以及輸出層,構成了現代卷積神經網絡的基本組件,后續復雜的模型都離不開這些基本組件。LeNet-5對手寫數字識別率較高,但在大數據量、復雜的物體圖片分類方面不足,過擬合也導致其泛化能力較弱。網絡訓練開銷大且受制于計算機性能。

2012年,在ILSVRC競賽中AlexNet模型[3]贏得冠軍,將錯誤率降低了10個百分點。擁有5層卷積結構的AlexNet模型證明了卷積神經網絡在復雜模型下的有效性,并將GPU訓練引入研究領域,使得大數據訓練時間縮短,具有里程碑意義。AlexNet還有如下創新點:①采用局部響應歸一化算法(Local Response Normalization,LRN),增強了模型的泛化能力,有效降低了分類錯誤率;②使用Dropout技術,降低了神經元復雜的互適應關系,有效避免了過擬合;③為了獲得更快的收斂速度,AlexNet使用非線性激活函數ReLU(Rectified Linear Units)來代替傳統的Sigmoid激活函數。

Karen等[4]在AlexNet的基礎上使用更小尺寸的卷積核級聯替代大卷積核,提出了VGG網絡。雖然VGG網絡層數和參數都比AlexNet多,但得益于更深的網絡和較小的卷積核尺寸,使之具有隱式規則作用,只需很少的迭代次數就能達到收斂目的。

復雜的網絡結構能表達更高維的抽象特征。然而,隨著網絡層數增加,參數量也急劇增加,導致過擬合及計算量大增,解決這兩個缺陷的根本辦法是將全連接甚至一般的卷積轉化為稀疏連接。為此,Google團隊提出了Inception結構[5],以將稀疏矩陣聚類為較為密集的子矩陣來提高計算性能。以Inception結構構造的22層網絡GoogLeNet,用均值池化代替后端的全連接層,使得參數量只有7M,極大增強了泛化能力,并增加了兩個輔助的Softmax用于向前傳導梯度,避免梯度消失。GoogLeNet在2014年的ILSVRC競賽中以Top-5錯誤率僅6.66%的成績摘得桂冠。

網絡層數的增加并非永無止境。隨著網絡層數的增加,將導致訓練誤差增大等所謂退化問題。為此,微軟提出了一種深度殘差學習框架[6],利用多層網絡擬合一個殘差映射,成功構造出152層的ResNet-152,并在2015年的ILSVRC分類問題競賽中取得Top-5錯誤率僅5.71%的成績。隨后,對現有的瓶頸式殘差結構進行改進,提出了一種直通結構[7],并基于此搭建出驚人的1001層網絡,在CIFAR-10分類錯誤率僅4.92%。至此,卷積神經網絡在越來越“深”的道路上一往直前。

2 可變形的卷積神經網絡

2.1 空間變換網絡

空間變換網絡(Spatial Transformer Network,STN)[8]主要由定位網絡(Localisation net)、網格生成器(Grid generator)和可微圖像采樣(Differentiable Image Sampling)3部分構成,如圖1所示。

定位網絡將輸入的特征圖U放入一個子網絡(由卷積、全連接等構成的若干層子網絡),生成空間變換參數θ。θ的形式可以多樣,如需要實現2D仿射變換,那么θ就是一個2×3的向量。

2.3 本文模型

本文以自建的3層卷積網絡C3K5(如圖6所示)和VGG-16作為基準網絡,分別引入空間變換網絡、可變形卷積和可變形池化,構造出8個卷積神經網絡,用以驗證可變形模塊對淺層網絡和深層網絡的影響,如表1所示。

圖6中C3K5網絡模型包含3個帶有ReLU層、LRN層和池化層的卷積模塊,卷積層采用步長為1的5×5卷積核,輸出保持原大小,池化層采用步長為2核為2×2的最大值池化,即每經過一個卷積模塊,特征圖縮小為原來的一半。

3 實驗與分析

3.1 實驗設置

本文實驗環境:CPU為Intel i5-7400,8G內存,顯卡為GTX1060,采用Cuda8+CuDNN6.0加速。

實驗數據集包括公共圖像數據集mnist、cifar-10、cifar-100和自建圖像數據集pen-7。公共數據集分別有50 000張訓練樣本圖像和10 000張測試樣本圖像。自建數據集pen-7為京東商城的七類筆圖像庫,每類有600張圖片,圖像分辨率為200×200,總計訓練樣本數3 360,測試樣本數840, 圖7為其中的14個樣本。

3.2 結果與分析

分別將表1中的10個卷積網絡應用到mnist、cifar-10、cifar-100和pen-7四個數據集進行訓練,batch-size設置100,即每次傳入100張圖片進行訓練,每訓練100次測試一次(記為一次迭代),總共迭代100次,取最后10次迭代的準確率計算平均值,得各網絡應用在不同數據集的分類結果,如表2所示。

實驗結果表明,在卷積網絡中引入空間變換網絡、用可變形的卷積層和可變形的池化層替換傳統的卷積層和池化層,不管是在淺層網絡還是在深層網絡,都能獲得更高的分類準確率,這驗證了空間變換網絡和可變形卷積(池化)結構,豐富了卷積神經網絡的空間特征表達能力,提升了卷積網絡對樣本的空間多樣性變化的魯棒性。包含3種模塊的網絡獲得了最高的分類精度,使空間變換網絡、可變形卷積層和可變形池化層在更多應用場景中并駕齊驅成為可能。

4 結語

通過在現有卷積神經網絡中引入空間變換網絡、可變形的卷積層和可變形的池化層,使得卷積網絡在mnist、cifar-10、cifar-100及自建的pen-7數據集中獲得了更高的分類精度,包含3種模塊的網絡獲得了最高分類精度,證明了空間變換網絡、可變形的卷積層和可變形池化層都能豐富網絡的空間特征表達能力,協同應用于圖像分類工作,這為后續研究打下了堅實的基礎。

參考文獻:

[1]BOUVRIE J. Notes on convolutional neural networks[J].Neural Nets,2006(1):159-164.

[2]Y LECUN,L BOTTOU,Y BENGIO,et al.Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[3]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems. Curran Associates Inc,2012:1097-1105.

[4]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. Computer Science, 2014(6):1211-1220.

[5]SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[J]. CVPR, 2015(3):1-9.

[6]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]. Computer Vision and Pattern Recognition. IEEE, 2015:770-778.

[7]HE K, ZHANG X, REN S, et al. Identity mappings in deep residual networks[J]. arXiv,2016(1603):5-27.

[8]JADERBERG M, SIMONYAN K, ZISSERMAN A, et al. Spatial transformer networks[J].Computer Science, 2015(5):1041-1050.

[9]DAI J, QI H, XIONG Y, et al. Deformable convolutional networks[J]. arXiv: 2017(1703):62-111.

卷積神經網絡特征范文3

【關鍵詞】微表情識別 卷積神經網絡 長短時記憶

1 引言

人們的內心想法通常都會表現在面部表情上,然而在一些極端環境下,人們為了壓抑自己的真實內心情感時,他們的面部變化十分微小,我們通常稱之為微表情。在刑偵、醫學、教育、心理和國防等領域上,微表情的應用前景十分遠大, 不過即便是經過訓練的人也很難用肉眼來準確的檢測和識別微表情。其主要原因就是它的持續時間短,僅為1/5~1/25s,而且動作幅度很小。

人臉表情識別技術早已發展到一定程度了,甚至不少研究團隊提出的方法針對6種基本表情的識別率已經達到90%。然而微表情識別技術的研究在近幾年來才剛剛開始,如Pfister等提出了一種結合時域插值模型和多核學習的方法來識別微表情; Wu等設計了一種使用Gabor特征和支持向量機的微表情識別系統;唐紅梅等在LTP做出改進而提出的MG-LTP算法,然后采用極限學習機對微表情進行訓練和分類;Wang等提出了基于判別式張量子空間分析的特征提取方法,并利用極限學習機訓練和分類微表情。

上述的識別技術都是基于傳統機器學習的方法,而近幾年來,利用深度學習技術來解決圖像識別問題是當前的研究熱點。在ILSVRC-2012圖像識別競賽中,Krizhevsky等利用深度卷積神經網絡的自適應特征提取方法,其性能遠遠超過使用人工提取特征的方法,并且在近幾年內的ImageNet大規模視覺識別挑戰比賽中連續刷新了世界紀錄。

本文決定使用卷積神經網絡(CNN)來提取人臉微表情特征,它能讓機器自主地從樣本數據中學習到表示這些微表情的本質特征,而這些特征更具有一般性。由于微表情的特性,要充分利用微表情的上下文信息才能更為精確的識別微表情,這里我們采用長短時記憶網絡(LSTM),它是遞歸神經網絡(RNN)中的一種變換形式,它能夠充分的利用數據的上下文信息,在對序列的識別任務中表現優異,近幾年來它被充分的利用到自然語言處理、語音識別機器翻譯等領域。綜上所述,本文提出一種CNN和LSTM結合的微表情識別方法。

2 相關工作

2.1 卷積神經網絡模型

卷積神經網絡模型(CNN)最早是由LeCun等在1990年首次提出,現已在圖像識別領域取得巨大成功,它能夠發現隱藏在圖片中的特征,相比人工提取的特征更具有區分度,而且不需要對原始數據做過多的預處理。

卷積神經網絡(CNN)通過三種方式來讓網絡所學習到的特征更具有魯棒性:局部感受野、權值共享和降采樣。局部感受野是指每一個卷積層的神經元只能和上一層的一部分神經元連接,而不是一般神經網絡里所要求的全連接,這樣每一個神經元能夠感受到局部的視覺特征,然后在更高層將局部信息進行整合,進而得到整個圖片的描述信息。權值共享是指每一個神經元和上一層的部分神經元所連接的每一條邊的權值,和當前層其他神經元和上一層連接的每一條邊的權值是一樣的,首先@樣減少了需要訓練的參數個數,其次我們可以把這種模式作為提取整個圖片特征的一種方式。降采樣是指通過將一定范圍內的像素點壓縮為一個像素點,使圖像縮放,減少特征的維度,通常在卷積層之后用來讓各層所得到的特征具有平移、縮放不變形,從而使特征具有更強的泛化性。

2.2 長短時記憶型遞歸神經網絡模型

長短時記憶(LSTM)模型是由Hochreiter提出,它解決了傳統RNN在處理長序列數據時存在的梯度消失問題,這一切都要歸結于LSTM結構的精心設計。一個常規的LSTM結構如圖1所示。

每一個LSTM結構都有一個記憶單元Ct(t表示當前時刻),它保存著這個時刻LSTM結構的內部狀態,同時里面還有三個門來控制整個結構的變化,它們分別是輸入門(xt),忘記門(ft)和輸出門(ht),它們的定義如下所示:

(1)

(2)

(3)

(4)

(5)

(6)

其中σ是一個sigmod函數,而則表示輸入數據的非線性變化,W和b是模型需要訓練得到的參數。等式5展示了當前的記憶單元是由忘記門和上一時刻的內部狀態所控制的,ft決定了上一時刻的內部狀態對當前時刻的內部狀態的影響程度,而it則確定了輸入數據的非線性變換得到的狀態對當前時刻記憶單元的影響程度。等式6展示了輸出門和當前時刻的內部狀態決定了該LSTM的輸出。正因為這個巧妙的設計,LSTM就能處理長序列的數據,并且能夠從輸入序列中獲取時間上的關聯性,這一特性對于微表情的識別尤為重要。

3 網絡結構調優和改進

3.1 卷積神經網絡設計

本文針對輸入大小為96×96的灰度圖,構建了4個卷積層(C1,C2,C3,C4),4個池化層(S1,S2,S3,S4),1個全連接層(FC1)和1個Softmax層組成的卷積神經網絡結構,如圖2所示。卷積核(C1,C2,C3,C4)的大小分別為3×3,3×3,5×5,5×5,分別有32,32,32,64個。池化層的降采樣核大小均為2×2,并且全部采用的是最大采樣,每一個池化層都在對應的卷積層之后,而在所有的卷積層之后,連接了一個包含256個神經元的全連接層,為了盡可能的避免過擬合問題,本文在全連接層后加入一個p=0.75的Dropout層,除了softmax層,其余層的激活函數全部是采用ReLU,CNN的參數訓練都是采用隨機梯度下降算法,每一批次包含100張圖片,并設置沖量為0.9,學習速率為0.001。

3.2 長短時記憶型遞歸神經網絡設計

盡管CNN已經從人臉微表情圖片從學習到了特征,但是單一的CNN模型忽略了微表情在時域上的信息。于是我們提出通過LSTM來學習不同人臉表情在時域上的關聯特征。我們構建了多個LSTM層,以及一個softmax層。

我們首先先訓練好CNN的參數,然后把訓練好的CNN模型,作為一個提取人臉微表情的工具,對于每一幀圖片,我們把最后一個全連接層的256維的向量輸出作為提取的特征。那么給定一個時間點t,我們取之前的W幀圖片([t-W+1,t])。然后將這些圖片傳入到訓練好的CNN模型中,然后提取出W幀圖片的特征,如果某一個序列的特征數目不足,那么用0向量補全,每一個特征的維度為256,接著將這些圖片的特征依次輸入到LSTM的節點中去,只有t時刻,LSTM才會輸出它的特征到softmax層。同樣LSTM網絡的參數訓練還是采用隨機梯度下降算法,每一批次為50個序列,沖量為0.85,學習速率為0.01。

4 實驗

4.1 微表情數據集

該實驗的訓練數據和測試數據均來自于中國科學院心理研究所傅小蘭團隊的第2代改進數據庫CASMEII。該數據庫從26名受試者中捕捉到近3000個面部動作中選取的247個帶有微表情的視頻,并且給出了微表情的起始和結束時間以及表情標簽,由于其中悲傷和害怕表情的數據量并不多,因此本文選取了里面的5類表情(高興,惡心,驚訝,其他,中性),由于數據庫中的圖片尺寸不一樣并且是彩色圖片,因此先將圖片進行灰度處理,并歸一化到 大小作為網絡的輸入。本實驗采用5折交叉驗證的方法,選取245個微表情序列等分成5份,每個序列的圖片有10張到70張不等,每份均包含5類表情。

4.2 CNN+LSTM和CNN的對比實驗

從圖2中可以看出不同策略在五類表情里的識別率。當我們采用單一的CNN模型來對人臉微表情進行分類時,我們采取了dropout策略和數據集擴增策略來防止CNN過擬合。CNN+D表示采取了dropout策略的CNN模型,CNN+A表示采取了數據擴增策略的CNN模型, 即對每一張圖片進行了以下四種變換:旋轉、水平平移、垂直平移、水平翻轉。從而能將數據集擴增至4倍。CNN+AD表示采取了兩種策略的CNN模型。CNN+LSTM表示結合了CNN和LSTM的網絡模型。

從表1中我們可以看出,添加了策略的CNN,在人微表情識別上的表現要好于沒有添加策略的CNN,這可能是因為訓練圖片較少,而CNN網絡層次較深,導致沒有添加策略的CNN在訓練參數的過程中很容易就過擬合了。而對于CNN+LSTM的表現要好于單一的CNN模型,這說明LSTM的確能夠充分利用時域上的特征信息,從而能夠更好識別序列數據,這證明了CNN+LSTM的模型可以用于識別人臉微表情的可行性。從表1中,我們還可以看出高興和驚訝的表情識別率較高,而其他的則相對較低,這可能是因為高興和驚訝的區分度較大,并且樣本較多。

4.3 LSTM的參數調整

下面我們逐一的研究不同參數對CNN+LSTM模型的微表情識別率的影響程度。

圖4顯示輸入的序列個數為100左右能夠擁有相對較高的準確率,這說明只有充分利用每一個微表情序列的時域信息,這樣,訓練出的模型才更加具有一般性。

圖5顯示出當LSTM隱層的神經元個數為128時,此時的微表情平均識別率最高,這說明隱層需要足夠多的神經元才能保留更長的時域信息,對于微表情識別來說,能夠擁有更高的精度。

圖6顯示了LSTM隱層的個數為5時,該模型擁有最好的識別率,這說明較深的LSTM網絡才能充分挖掘特征的時域信息。因此經過以上實驗,我們得到了一個由5層LSTM,每一層包含128個神經元,并能夠處理長度為100的特征序列的模型。

4.4 和非深度學習算法的實驗對比

為了比較傳統機器學習算法和深度學習算法孰優孰劣,我們使用傳統機器學習算法在Casme2進行了一樣的實驗,從表2中可以看出,本文所提出的CNN+LSTM模型相對于這些傳統機器學習模型,有著較為優異的表現。

本文中的實驗均是基于Google的開源機器學習庫TensorFlow上進行的,硬件平臺是dell工作站:Intel(R) Core(TM) i7-5820K CPU、主頻3.3GHZ,內存64GB、Nvida GeForce GTX TITAN X GPU、顯存12GB。

5 結束語

本文針對傳統方法對微表情識別率低,圖片預處理復雜的情況,提出了采用卷積神經網絡和遞歸神經網絡(LSTM)結合的方式,通過前面的卷積網絡層來提取微表情的靜態特征,省去了傳統機器學習方法,需要人工提取特征的過程,簡化了特征提取的工作。然后再通過后面的遞歸神經網路,充分利用表情特征序列的上下文信息,從而在序列數據中發現隱藏在其中的時域信息,從實驗結果中可以看出,利用了時域信息的CNN+LSTM比單純使用CNN的識別率更高,而且相對于傳統機器學習方法也更為優秀。但是當數據量越大時,如果網絡的層次比較深的話,模型的訓練時間就會很長,并且極度依賴硬件設備,這算是深度學習通有的弊病。為了進一步投入到應用中去,接下來還得提高微表情的識別率,以及在實時環境下,如何能夠動態和準確的識別微表情,這些都將會是以后研究的重點。

參考文獻

[1]PORTER S,TEN BRINKE L.Reading between the Lies Identifying Concealed and Falsified Emotions in Universal Facial Expressions[J].Psychological Science,2008,19(05):508-514.

[2]Pfister T,Li X,Zhao G,Pietikainen M (2011) Recognising spontaneous facial micro-expressions.2011 Proc IEEE Int Conf Comput Vis (ICCV): IEEE.pp.1449-1456.

[3]Wu Q,Shen X,Fu X (2011) The Machine Knows What You Are Hiding: An Automatic Micro-expression Recognition System.In: D’Mello S,Graesser A,Schuller B,Martin J-C,editors.Affect Comput Intell Interact.Springer Berlin/ Heidelberg. pp.152-162.

[4]唐紅梅,石京力,郭迎春,韓力英,王霞. 基于MG-LTP與ELM的微表情識別[J].電視技術,2015,39(03):123-126.

[5]WANG S J,CHEN H L,YAN W J,et al. Face Recognition and Micro-Expression Recognition Based on Discriminant Tensor Subspace Analysis Plus Extreme Learning Machine[J].Neural Processing Letters,2014,39(01):25-43.

[6]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks. In:Advances in Neural Information Processing Systems 25.Lake Tahoe, Nevada,USA:Curran Associates,Inc., 2012.1097?1105

[7]DENG J,DONG W,SOCHER R,et al.Imagenet:A large-scale hierarchical image database [C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2009:248-255.

[8]BENGIO Y,DELALLEAU O.On the expressive power of deep archi-tectures[C]//Proc of the 14th International Conference on Discovery Science.Berlin:Springer-Verlag,2011:18-36.

[9]LeCun Y,Boser B,Denker J S,Howard R E,Hubbard W,Jackel L D,Henderson D.Handwritten digit recogni- tion with a back-propagation network. In: Proceedings of Advances in Neural Information Processing Systems 2. San Francisco,CA,USA:Morgan Kaufmann Publishers Inc.,1990.396-404.

[10]S可.卷積神經網絡在圖像識別上的應用研究[D].杭州:浙江大學[學位論文],2012.

[11]Hochreiter S,Sehmidhuber J.Long Short-Term Memory.Neural Computation,1997,9(08):1735-1780

[12]LUCEY P,COHN J F,KANADE T,et al.The Extended Cohn-Kanade Dataset ( CK + ): A complete dataset for ac- tion unit and emotion-specified expression [C] //IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).New York:IEEE,2010:94-101.

[13]Dayan P,Abott L F.Theoretical Neuroscience.Cambridge:MIT Press, 2001.

[14]YAN W J, LI X, WANG S J, et al. CASME II: An Improved Spontaneous Micro-Expression Database and the Baseline Evaluation [J].Plos One, 2014,9(01):1-8.

[15]Yandan Wang,John See,Raphael C-W Phan,Yee-Hui Oh. Efficient Spatio-Temporal Local Binary Patterns for Spontaneous Facial Micro-Expression Recognition[J].PLOS ONE,2013,10(05): 11-12

[16]張軒閣,田彥濤,郭艷君,王美茜.基于光流與LBP-TOP特征結合的微表情識別[J].吉林大學學報:信息科學版, 2015,33(05):521-522.

[17]Martín Abadi, Paul BarhamJianmin, Chen el.TensorFlow:Large-Scale Machine Learning on Heterogeneous Distributed Systems[EB/OL].https:///abs/1605.08695.

卷積神經網絡特征范文4

關鍵詞:卷積神經網絡;自動編碼器;非監督訓練;多尺度分塊;目標識別

中圖分類號:TP391.41文獻標志碼:A英文標題

0引言

對圖像中目標的精確和魯棒識別是模式識別及人工智能領域的核心內容,在道路監控、戰場偵察、精確打擊等領域中有著重要的作用和廣泛的前景。近年來,隨著深度神經網絡成為機器學習新的熱點,基于卷積神經網絡(Convolutional Neural Network,CNN)的圖像識別算法因其較強的魯棒性和突出的識別率被學術界和工業界所重視。

Alex等[1]提出基于大型深層CNN的自然圖像識別算法,在ImageNet數據集上取得了很高的識別率;Dan等[2]提出了基于多核的CNN,并采用GPU并行運算的方法在三維NORB數據集上取得了很好的識別效果。以上算法雖然都取得了較高的目標識別率,但是由于算法采用有監督的訓練方式,需要大量標簽數據對網絡權重進行調整,當數據量較小時會導致模型前幾層網絡無法得到充分訓練,故只能針對含標簽數據較多的大型數據集。針對此問題,目前主流的解決方法是采用特征提取算法對CNN的濾波器集進行非監督的預訓練。文獻[3]采用稀疏編碼提取訓練圖像的基函數作為CNN的初始濾波器;文獻[4]將獨立成分分析(Independent Component Analysis,ICA)應用于CNN的預訓練階段,利用ICA訓練濾波器集合,使識別率得到了一定提高。然而無論是稀疏編碼還是ICA,其特征提取的效果都比較一般,應用于預訓練階段對算法識別率的提升也比較有限。所以如何更好地選擇濾波器的預訓練算法仍是十分困難的問題。

除了預訓練外,影響CNN識別率和魯棒性的關鍵參數還有濾波器的尺寸和下采樣層的采樣間隔。濾波器尺寸反映了CNN對輸入圖像局部特征的提取情況,文獻[5]證明濾波器尺寸對最終識別結果有很大影響,并給出了單層條件下相對最優的濾波器尺寸。下采樣層主要負責對特征進行模糊,從而獲得平移、尺度等不變性。采樣間隔反映了模糊的程度,間隔越大模糊越嚴重,模糊后的特征保持的全局空間信息就越少。文獻[6]證明當采樣間隔較小時,即使經過2次卷積和2次最大下采樣(maxpooling),網絡輸出的激活值仍能重構出與原始輸入看似相同的圖案。然而下采樣間隔過小會導致不變性喪失,過大則會損失大量細節信息,兩者均會導致識別率的下降。

針對以上問題,本文提出基于多尺度分塊卷積神經網絡(MultiScale Convolutional Neural Network, MSCNN)的圖像目標識別算法。首先利用稀疏自動編碼器(Sparse AutoEncoder,SAE)對卷積神經網絡的濾波器進行非監督預訓練,通過最小化重構誤差獲得待識別圖像的隱層表示,進而學習得到含有訓練數據統計特性的濾波器集合,預訓練效果相比ICA更好。其次提出多尺度分塊的方法構建卷積神經網絡,為了增加魯棒性并減小下采樣對特征表示的影響,對輸入圖像進行多尺度分塊形成多個通路,并設計相應尺寸的濾波器進行卷積運算,將不同通路下采樣后的輸出進行融合從而形成新的特征,輸入softmax分類器完成圖像目標的識別。最后通過大量實驗對比MSCNN算法與經典算法在通用圖像識別任務中的識別率和魯棒性差異,從而驗證算法的有效性。

4仿真實驗及分析

本文使用STL10公開數據集以及從全色波段的QuiekBird遙感衛星和GoogleEarth軟件中截取的遙感飛機圖像數據集進行測試實驗,將所有圖片變為64×64像素的RGB圖。選擇STL10數據集的原因是因為其含有不包含標簽的訓練集,可用于本文的非監督預訓練算法,且圖像中包含更多類內變化。STL10共10類目標,本文選用其中的4類目標進行實驗。選擇遙感飛機圖像數據則是為了驗證本文算法在遙感圖像解譯方面的可用性。該數據集包含5類遙感飛機,共400幅。實驗時隨機選取遙感飛機圖像庫中50%的圖像作為訓練樣本,其余作為測試樣本。本文的實驗環境為CPU2.8GHz、內存3GB的計算機,實現算法的軟件為Matlab(2011a)。

4.1算法識別率對比測試

MSCNN的各通路尺寸參數設置如圖4所示,每個通道使用300個濾波器,濾波器初始值按照不同通道感受野大小利用稀疏自動編碼器預訓練得到。編碼器設定為3層,稀疏參數ρ設定為0.05,訓練周期為400。卷積神經網絡的下采樣方式采用最大下采樣(max pooling)。

按照上述參數設置,通路1輸出特征維度為2700,通路2輸出特征維度為4800,通路3輸出特征維度為4800,MSCNN輸出特征維度總共為12300。所有算法的訓練周期均為50。傳統CNN參數設定與通路1參數設定相同,同樣使用300個濾波器,濾波器初始值通過隨機初始化得到。輸出特征維度為2700。實驗結果如表1所示。

從表1可看出,加入LCN的CNN較未加入的CNN對兩種數據集的識別率有一定的提高,說明了加入LCN對目標識別率是有一定的貢獻的;在兩種數據集上MSCNN相比原始CNN都擁有更高的識別率。MSCNN通路1雖然參數設置與CNN相同,但在相同訓練周期下識別率較加入LCN的CNN又有一定提高,說明了非監督預訓練對識別率提高的有效性。對于STL10數據集,可看出通路2的識別率在3個通路中最高,通路3則最低,這是因為通路3輸入的圖像尺寸最小,而STL10類內變化很大且目標不全在圖像中心,故識別率有所下降。通路之間進行兩兩累加后識別率都有所提高,在3個通路共同作用時識別率最高,達到83.5%。對于遙感飛機圖像集而言,可看出3個通路中通路2的識別率最高,這是因為遙感飛機圖像集均為飛機圖像,不同類別之間的全局特征差異并不明顯,而局部特征更能表示不同的飛機類別。通路3由于輸入尺寸較小,識別率稍有下降。同樣的,不同通路之間的疊加都讓識別率有所提升,最終MSCNN三通路特征融合后的識別率達到了96.5%,完全滿足對于可見光遙感圖像目標識別的需求。

從表1還可看出,本文算法在3個通路CNN的情況下的識別率較1個通路或2個通路的CNN的識別率高,由此可以推斷3個通路CNN所提取的特征具有較強的泛化能力和魯棒性。此外3個通道能夠兼顧不同的尺度,使模型能提取到尺度不同的特征。

4.2算法魯棒性實驗

為驗證MSCNN的魯棒性,在數據集中選取不同類別的圖像對其進行平移、尺度、旋轉變換,然后計算MSCNN輸出的第一層全連接特征與圖像變換后輸出特征之間的歐氏距離,根據距離的大小可以衡量輸出特征對于目標變化的魯棒性,歐氏距離越小就說明特征對于目標變化越不敏感,魯棒性就越好。對于STL10選取四類目標進行實驗,對比算法為CNN;對于遙感飛機圖像集隨機選取10幅進行實驗,并取距離的平均值,對比算法為ICA和CNN。測試結果如圖6~7所示。

圖6中虛線表示傳統CNN算法得到的結果,實線則表示MSCNN得到的結果,從圖6可看出:無論是面對平移、尺度還是旋轉變換,MSCNN算法最終輸出的特征向量變化率均小于CNN算法,證明其魯棒性要好于CNN。

從圖7也可看出:本文算法對于遙感飛機圖像集的平移、尺度、旋轉均表現出良好的魯棒性,相比而言ICA提取的特征魯棒性較差,目標圖像微小的變化就導致了特征較大的改變。本文算法魯棒性較好首先是因為MSCNN采用非監督的預訓練方式,訓練得到的濾波器含有更多圖像不變性特征;其次是因為MSCNN采用多尺度輸入,小塊圖像輸入在一定程度上相當于另一種局部特征,這些特征相比全尺寸輸入擁有更好的不變性;最后是MSCNN采用了局部對比度標準化,對于亮度變化較大和存在噪聲的目標圖像魯棒性明顯增強。

另外,本文算法采用了多通路多尺度分塊的方法,必然會使網絡參數增加,從而會使訓練時間比較耗時;但在測試階段,輸入樣本的計算僅包含一些簡單的卷積和下采樣,算法復雜度并沒有因為通道的增加而增加,因此在測試階段的實時性較傳統的CNN并沒有太大變化。

5結語

本文提出了MSCNN算法在卷積神經網絡的基礎上通過非監督預訓練濾波器的方法解決傳統卷積神經網絡前幾層無法得到有效訓練的問題。針對傳統神經網絡對于復雜背景圖像識別率不高的問題,利用多尺度輸入圖像增加局部不變信息,利用不同尺寸濾波器卷積搭配不同下采樣間隔的方法在獲得特征不變性的同時不至于喪失目標的細節信息,有效提升了識別率和魯棒性。與經典算法的對比實驗結果表明:該方法能夠有效識別可見光自然圖像和遙感圖像,并對平移、尺度和旋轉變換具有較強的魯棒性。

參考文獻:

[1]

ALEX K, ILYA S, HINTON G E. ImageNet classification with deep convolutional neural networks[EB/OL]. [20150210]. http://papers.nips.cc/paper/4824imagenetclassificationwithdeepconvolutionalneuralnetworks.pdf.

[2]

DAN C, UELI M, JURGEN S. Multicolumn deep neural networks for image classification[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 3642-3649.

[3]

KAVUKCUOGLU K, SERMANET P, BOUREAU Y, et al. Learning convolutional feature hierarchies for visual recognition[EB/OL]. [20150210]. http://cs.nyu.edu/~ylan/files/publi/koraynips10.pdf.

[4]

KAVUKCUOGLU K, RABZATO M, FERGUS R, et al. Learning invariant features through topographic filter maps[C]// IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 1605-1612.

[5]

COATES A, LEE H, NG A Y. An analysis of singlelayer networks in unsupervised feature learning[C]// Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. Piscataway, NJ: IEEE, 2011: 215-223.

[6]

ZEILER M D, FERGUS, R. Visualizing and understanding convolutional neural networks [C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Berlin: Springer, 2014: 818-833.

[7]

BALDI P, LU ZHIQIN. Complexvalued autoencoders [J]. Neural Networks, 2012, 33:136-147.

[8]

HAYKIN S.神經網絡與機器學習[M].3版.申富饒, 徐燁, 鄭俊, 譯. 北京: 機械工業出版社, 2011:81-89.(HAYKIN S. Neural Networks and Learning Machines[M]. 3rd ed. SHEN F R, XU Y, ZHENG J, translated. Beijing: China Machine Press, 2011:81-89.

[10]

LECUN Y, BOTTOU L, BENGIO Y. Gradientbased learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[11]

DERMANET P, LECUN Y. Traffic sign recognition with multiscale convolutional networks [C]// Proceedings of the 2011 International Joint Conference on Neural Networks. Piscataway, NJ: IEEE, 2011: 2809-2813.

[12]

GONG Y C, WANG L W, GUO R Q, et al. Multiscale orderless pooling of deep convolutional activation features[C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Piscataway, NJ: IEEE, 2014: 392-407.

[13]

JARRETT K, KAVUKCUOGLU K, RANZATO M, et al. What is the best multistage for object architecture?[C]// Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Piscataway, NJ: IEEE, 2009: 2146-2153.

[14]

BOUVRIE J. Notes on convolutional neural networks [EB/OL]. [20150210]. http://math.duke.edu/~jvb/papers/cnn_tutorial.pdf.

Background

This work is partially supported by the National Natural Science Foundation of China (61372167, 61379104).

ZHANG Wenda, born in 1991, M. S. candidate. His research interests include pattern recognition and artificial intelligence.

卷積神經網絡特征范文5

關鍵詞:諧波分析;FFT;加窗插值;多譜線插值;小波變換

引言

隨著我國電網規模的日益擴大,電網的諧波污染也逐漸嚴重,如何快速有效地檢測和分析網絡中的諧波成分是一個大家非常關心的問題。

1電力系統諧波分析的常用方法

1.1采用模擬濾波器硬件電路檢測諧波的方法

模擬濾波器諧波檢測如圖1所示。該法原理直觀明了,成本低,但其測量精度依賴于濾波器的元件參數[1]。

1.2基于神經網絡理論的諧波檢測方法

文獻[2]提出了一種基于固定三角基函數的人工神經網絡諧波分析方法,新模型更直觀,收斂速度快。但構建神經網絡需要時間來訓練樣本、神經網絡構造方法缺乏統一的規范、訓練樣本數量龐大。

1.3基于傅里葉變換的諧波檢測方法

為盡可能地減少FFT算法中出現的頻譜泄漏效應和柵欄效應以及其他的誤差,現總結兩種方法:(1)插值算法加窗插值法通過加窗減小頻譜泄漏、插值消除柵欄效應引起的誤差。理想的窗函數需同時具有兩個特性:一是主瓣窄;二是低旁瓣峰值和高旁瓣衰減率。研究比較成熟的窗函數有:三角窗、矩形窗、Blackman窗、Nuttall窗等[3-5]。常用窗的頻域特性如表1所示。(2)雙峰譜線修正算法文[6]提出了一種基于兩根譜線的加權平均來修正幅值的雙峰譜線修正算法,實驗結果證明了其有效性和易實現性。

1.4基于小波分析的諧波檢測方法

三層小波包分解示意圖如圖2所示。單一的諧波檢測方法已經不能滿足要求,所以現在就是要集合幾種諧波檢測方法的優點來提取更精確更合理的方法。小波變換和加窗的FFT結合也得到了廣泛研究[7],圖3、圖4仿真出了小波變換的頻域實現和FFT實現。綜上所述,研究加混合卷積窗以及多譜線插值的改進FFT有更大的應用前景,小波包對高、低頻段進行相同尺度的分解,提高信號分析分辨率,提供了更多的信號特征。

2諧波測量的發展趨勢

隨著電網相關技術和設備不斷的變化,需要不斷改進和更新諧波檢測方法,未來諧波檢測的主要發展趨勢為:(1)電力系統受非穩態諧波影響,諧波檢測需要逐步由穩態諧波檢測轉向非穩態諧波檢測。針對非穩態波形畸變,尋求新方法,如神經網絡、小波變換等。(2)諧波測量需要由確定性、慢時變性轉為隨機性、快速性以及諧波實時跟蹤,研究新的諧波特性辨識方法。(3)諧波檢測需要諧波監測、實時分析與控制目標相結合,實現測量與控制網絡化、智能化、集成一體化。(4)諧波檢測需要建立一套完整的諧波檢測理論體系和完善的功率定義和理論,通過新理論提出新方法滿足研究實踐需求。

3結束語

集合多種諧波分析方法的優點研制出一種高精度、高速度的混合諧波分析法勢在必行,這必將推動學術領域研究新的諧波特性辨識和快速變化諧波跟蹤方法,為諧波研究和治理提供有力的保障。

參考文獻:

[1]陳冬紅.電力系統諧波測量和分析方法研究[D].南京:河海大學,2005.

[2]王小華,何怡剛.基于神經網絡的電力系統高精度頻率諧波分析[J].中國電機工程學報,2007,27(34):102-106.

[3]溫和,騰召勝,曾博,等.基于三角自卷積窗的介損角測量算法及應用[J].電工技術學報,2010,25(7):192-198.

[4]溫和,騰召勝,卿柏元,等.Hanning自卷積窗及其在諧波分析中的應用[J].電工技術學報,2009,24(2):164-169.

[5]曾博,唐求,卿柏元,等.基于Nuttall自卷積窗的改進FFT譜分析方法[J].電工技術學報,2014,29(7):59-65.

[6]龐浩,李東霞,俎云霄,等.應用FFT進行電力系統諧波分析的改進型算法[J].中國電機工程學報,2003,23(6):50-54.

卷積神經網絡特征范文6

由于在移動數碼設備(例如智能手機、掌上電腦、學習機等)以及平板電腦(Tablet PC)上的巨大應用價值,聯機手寫漢字

>> 聯機手寫漢字/詞組識別的研究及其應用 基于聯機手寫漢字字塊特征碼提取的研究 用VB實現聯機手寫漢字的筆劃端點提取 藏文聯機手寫識別的研究與實現索 基于多重卷積神經網絡的大模式聯機手寫文字識別 聯機手寫維文字符的預處理和特征提取方法 基于過拆分和合并的聯機手寫英文單詞分割技術 對脫機手寫相似漢字識別方法的研究 基于神經網絡的聯機手寫識別系統的研究和實現 立足細化處理解析脫機手寫漢字識別 BP神經網絡探析脫機手寫漢字識別 脫機手寫數字識別技術研究 一種改進的脫機手寫漢字四角特征粗分類方法 基于字型特征的手寫體漢字多分類識別的研究 脫機手寫體簽名識別的小波包隱馬爾可夫模型 基于GABP神經網絡的脫機手寫藏文識別方法 基于置信度分析的脫機手寫數字識別算法 手寫漢字識別系統的研究與應用 手寫數字識別的原理及應用 手寫漢字的特性與生命力 常見問題解答 當前所在位置:l,運行時需要Java Runtime Environment 1.5以上版本的支持),已經能較好地識別筆順無關的手寫體漢字。目前該系統還沒有加上虛擬筆劃等一些草書識別技術及先進的結合聯機及脫機識別引擎的多分類器集成技術,我們將來在適當時候會利用Java平臺實現這些技術并在該頁面上公布。

我們還構想了一個聯機手寫識別技術在計算機輔助漢字書寫學習中的嶄新應用――漢字聽寫學習,初步的原型網頁見218.192.168.156:8080/ call/dictation.asp,(該頁面同樣用Java平臺實現,運行時需要JRE支持)。 使用者可以進行在線漢字聽寫,然后系統利用聯機識別技術自動評判使用者書寫的字符是否正確,并給出反饋。該技術已經集成到我們正在設計的一個對外漢語書寫教學網站之中。近年來,隨著中國社會經濟建設的飛速發展,漢語教學在世界各地受到越來越多的重視,國外的漢語學習者日益增多,盡管目前國內外有不少漢語教學網站或軟件,但我們的學習系統利用低存儲量的活動漢字編碼技術及動態反走樣還原顯示技術、基于聯機識別的漢字聽寫技術以及漢字書寫質量評價技術,具有特色和創新。

六、結束語

我們認為,高自由度的草書識別及無約束的手寫詞組的識別是構造更自然、更快捷、更流暢的手寫輸入方式的核心技術,相信通過國內外同行的努力,在不遠的將來,手寫輸入法會變得更實用、更高效、更具競爭力;此外,手寫漢字/詞組識別技術在計算機教育、智能機器人等領域中還可帶來更多的創新應用。

亚洲精品一二三区-久久