前言:尋找寫作靈感?中文期刊網用心挑選的軌道交通AFC系統自動售票機語音交互,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。
摘要:隨著互聯網技術的快速發展,手機二維碼支付得到廣泛關注和研究,這種移動支付方式也受到廣大市民乘客的接受和認可,通勤乘客對購票終端的需求進一步降低。在售票終端總量減少的前提下提升單臺設備購票速率,豐富和滿足乘客服務場景,將語音交互所需的語音識別、語義理解、語音合成引擎進行站內部署,并部署AI語義結構化可視化開發平臺,支持購票、線網圖查詢、站內導航等語義技能的可視化開發,從而不斷提升售票終端語音對話的智能度,更好服務乘客需求的作用
關鍵詞:語音識別;語義理解;語音合成;語音購票
1引言
在大數據時代的背景下,軌道交通行業正面臨新一輪信息產業革命的到來,數字化轉型是必然的趨勢。目前軌道交通網絡化運營要求越來越高,對傳統afc系統是一種極大的挑戰,傳統的自動售票機運營模式已經不能滿足現代化的運營要求,以互聯網技術為基礎的智能支付技術應用在軌道交通行業將占有越來越重要的地位,二維碼支付技術已在自動售票機上得到廣泛應用。AFC票務規則的復雜性和業務多樣性,還有除售票、檢票、充值以外的大量業務需要依賴人工實現,車站客服人員為進站、出站人群辦理補票、更新、退票等服務,甚至承擔了包括問詢、指路、兌零等多種職能。隨著移動支付、移動互聯網技術等興起,AFC系統也在積極探索尋求新的發展途徑,尤其在智慧車站方面更加走向無人化、智能化。
2軟件功能開發
2.1智能喚醒
多模態語音模組集成了人臉檢測與唇動檢測算法,會持續的從攝像頭接收視頻流信息并輸出人臉檢測結果,當用戶走到設備前,可以自動檢測到用戶,并通過唇動檢測進一步捕獲用戶開始說話和結束說話的節點,從而實現智能感知用戶主動喚醒響應用戶說話的效果。
2.2語音咨詢
目前我方在天津等城市圍繞智慧客服中心場景的語音咨詢,已開發出線網圖查詢、站內導航、出入口查詢等多種技能,每種技能對應不同的業務咨詢,在JSON語義結果返回時,service字段會有不同的取值,智慧客服中心終端設備接到多模態語音模組通過串口傳輸的JSON語義結果后,客戶端程序可以根據service字段跳轉到不同的業務流程頁面中,生成業務回答文本,并調用語音合成服務進行播報回答。
2.3語音購票
多模態語音模組通過人臉檢測與唇動檢測算法,捕獲開始說話和結束說話的節點后,會將該時間段內通過麥克風陣列拾音的音頻做降噪處理,并通過語音交互的SDK與私有云服務通信進行語音識別、語義理解的處理,獲取購票的語義結果。多模態語音模組會通過串口將語義結果傳輸到設備工控機,工控機上運行的客戶端程序在接收到JSON結果時,可根據當前所處的頁面選擇是否解析JSON執行業務操作,如當前處于首頁,在接收到上述“買天津西站的地鐵票”的JSON結果時,則跳轉到待支付頁面。
3平臺部署
3.1調度服務部署
采用交互云技術方案,客戶可通過調用參數來決定業務調度模型。整體調度方案整合了我方的語音識別(IAT),語音合成(TTS)和語義理解(NLU)和用戶個性化系統等。具備語音交互能力的同時,也具備第三方自定義技能的靈活配置和業務拓展的能力。在服務調用時,通過schduler參數設置能力調度順序,如iat,nlp,tts表示識別?語義?合成,通過which_ability參數指定返回結果,如iat,nlp,tts表示需要返回識別,語義和合成的結果,不設置時默認只返回最后結果。服務接入協議方面支持WebSocket接入方式,為廠商接入提供方便,降低設備運行要求。服務接入實現了全雙工交互,并通過數據壓縮傳輸提升服務性能,減少帶寬占用。全雙工通信協議:針對服務外部通信,系統設計采用WebSocket長連接通信協議,對于服務內部通信,則采用gRPC協議,從而實現節省服務器資源和帶寬,提高通信效率。數據壓縮傳輸:針對服務外部音頻數據通信,客戶可采用speex等高壓縮率編碼格式,也支持以原始音頻pcm格式傳入。對于服務內部數據調用,則采用protobuf序列化方式,從而降低流量和傳輸延時。
3.2語音識別云服務部署
語音識別采用語音和語義多信息融合的短句方案,提升非連貫交互場景中的交互成功率;在基于交互上下文信息的動態解碼方面,使用了篇章級語言模型的方案。在領域識別方面,支持不同領域的識別模型,如在語言近場中覆蓋通用、交通出行、搜索、餐飲、導航、視頻、音樂和醫療領域。個性化識別方面,支持會話級個性化(帶屏設備的所見即可說),用戶級個性化(站內信息、站內設施)和應用級個性化(站點名、景點名、建筑名),全方位多維度支持廠商和用戶的個性化需求,提升識別準確率。1)語音識別服務語音識別聽寫服務是將語音識別聽寫引擎服務化,由于語音識別引擎為包含眾多功能模塊,都以動態庫的形式對外提供,業務方如果直接調用引擎,首先需要了解引擎的基本結構和調用邏輯,對引擎進行封裝,然后編寫自身的業務邏輯模塊,存在著較大的難度和工作量。因此將識別引擎服務化,已上層接口的形式對外提供,提供業務方調用,節省了業務方調用識別引擎的復雜度,只需調用服務提供的接口,能夠更多的關注自身的業務調用邏輯,無需關注底層引擎調用邏輯;同時也節省了業務方的人力成本,避免各業務方的重復集成。2)負載均衡(lb)模塊負載均衡模塊用于向負載均衡服務定時上報自身信息,包括總的和當前正在使用實例數等相關信息,負載均衡服務可根據上報信息提供給業務端最優的引擎節點,此模塊支持開啟關閉,是否啟用。3)實例管理服務內部采用實例池的形式來管理引擎實例,啟動時,會向引擎申請池大小的引擎實例數目,當請求會話數超過實例大小時會返回相應錯誤,此模塊可避免業務端向引擎申請過多實例導致引擎崩潰。4)會話管理服務采用grpc雙向流模式,每一個流代表一路會話,在每一路會話中,服務會先解析用戶請求,設置相應參數,接下來調用引擎進行識別,解析和封裝引擎返回的結果,流式返回給客戶端。5)日志模塊服務包括了日志模塊,目前僅將日志記錄在本地,不具有上傳到日志中心功能。6)個性化模塊個性化模塊包括全局個性化、領域個性化和用戶個性化。
3.3語義理解服務部署
1)語義理解引擎采用獨創的基于海量弱監督數據訓練的語義關聯遷移模型(ATM),基于BILSTM模型進行意圖理解和語義抽取,使用通用CNNRank模型對用戶查詢進行語義消歧,采用ABNF文法支持垂直領域定制化的語義理解作為通用BILSTM模型的補充和修正,最終實現語義提取正確率和召回率達到平均85%以上,交互完成率達到平均80%以上。2)自定義技能針對地鐵領域購票、線網圖查詢等業務場景,可以通過自定義技能的方式來實現關鍵信息提取的功能。將當地地鐵各條線路的線路名稱、站點名稱構建成線路實體{lineName}、站點實體{stationName},并構建購票數量的實體{num},基于用戶購票的表述習慣,融入站點名稱、線路名稱,支持“我要買[{num}]{lineName}的票”、“我要買{stationName}的票”、“我要買{lineName}{stationName}的票”等語料覆蓋,通過語義的模糊匹配,支持用戶說“買2張去XX體育場的地鐵票”這種非嚴格規范類的說法。地鐵購票機客戶端應用,在獲取語義結果中{num}、{stationName},根據字段值生成一條購票訂單,并在頁面中顯示支付的二維碼,用戶通過手機掃碼,即可快速完成購票。3)自定義問答支持一問一答,一問多答,多問一答和多問多答。通過自定義問答可以將地鐵常見咨詢問題中,不易于歸類做自定義技能開發的問題,作為自定義問答,從而提升設備在乘車咨詢問題回答的全面性。4)開放問答系統默認支持9種官方問答:抱怨,十萬個為什么,情緒,感情,問候,熱點,個性化,夸獎,常識。開放問答可以做閑聊補充,當用戶與設備交互咨詢“喜馬拉雅山有多少”“你真聰明”等問題時,設備也能夠返回回答,增加設備智能度與趣味性。5)語義理解服務語義理解服務是對語義引擎的封裝,其包含的主要模塊有:語義解析服務:解析引擎,負責語義解析,對一句話進行語義理解,并解析為結構化的JSON數據返回,是語義理解的核心組件,依賴redis,mongoDB和語義貼弧等服務。語義貼弧服務:智能貼弧功能可以在輸入語料時自動分析語料各部分所匹配的系統內置實體和輔助詞,能明顯簡化錄入語料的工作量。編譯引擎:編譯引擎,負責將Web頁面編輯的內容編譯成為解析引擎使用的資源。問答服務:支持一問一答,一問多答,多問一答和多問多答。日志模塊:服務包括了日志模塊,目前僅將日志記錄在本地,不具有上傳到日志中心功能。
3.4語音合成服務部署
1)語音合成引擎采用基于原創的聽感量化編碼的統一框架,建立多語言共享的統一建模單元實現優質的語音合成文本轉換為流暢、清晰、自然和具有表現力的語音數據——高質量合成音頻的自然度和清晰度已經超過了普通人的朗讀水平。技術指標:提供多個面向智能人機交互的高表現力語音合成系統,相對傳統信息播報風格語音合成系統,在人機對話文本領域,以國際通行的平均主觀意見分MOS(MeanOpinionScore)做人工主觀對比評測(在5分制標準,打分間隔0.5分),人機交互系統的自然度可高出信息播報系統0.2MOS分,并具有統計顯著性。2)語音合成服務語音合成,英文全稱TextToSpeech,簡稱TTS。主要解決的問題是如何將文字信息轉化為可聽的聲音信息,涉及聲學、語言學、數字信號處理、計算機科學等多個學科技術,可以“讓機器像人一樣開口說話”。語音合成服務是對語音合成引擎的封裝,內部調用通過gRPC實現。語音合成服務除調用語音合成引擎外,還包括以下功能:
?負載均衡(lb)模塊:負載均衡模塊用于向負載均衡服務定時上報自身信息,包括總的和當前正在使用實例數等相關信息,負載均衡服務可根據上報信息提供給業務端最優的引擎節點,此模塊支持開啟關閉,是否啟用。
?會話管理:服務采用grpc雙向流模式,每一個流代表一路會話,在每一路會話中,服務會先解析用戶請求,設置相應參數,接下來調用引擎進行合成,解析和封裝引擎返回的結果,流式返回給客戶端。?日志模塊:服務包括了日志模塊,目前僅將日志記錄在本地,不具有上傳到日志中心功能。
?多發音人:發音人涵蓋男女播音員標準發音、童聲發音、機器發音、動漫人物發音、中老年發音、明星發音等,共227個發音人。
?多參數:支持語速、音量、音調等多種合成參數調節。
4結論
伴隨著二維碼過閘功能的進一步推個,依然在自動售票機上購票乘客的特點將更加鮮明,加強客服群體分析,積極完善設備、技術標準,并在此基礎上探討多項功能集成可行性是未來設備功能優化的方向。
參考文獻:
[1]吳楠.地鐵語音售票機方案【R】杭州,2019(01)
[2]張寧.何鐵軍.王建,軌道交通自動售檢票系統互換性研究【J】城市軌道交通研究,2007(11)
作者:白玉彬 單位:中國機房設施工程有限公司