前言:尋找寫作靈感?中文期刊網用心挑選的歌唱發音質量評估論述,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。
作者:苗雨 單位:江蘇師范大學
一、歌唱聲音質量客觀評價研究歷史追溯
歌唱聲音質量客觀評價的研究是以聲樂藝術科學化研究為前提的,這種科學化的研究始于歐洲,它的研究歷史最早可以追溯到18世紀。
(一)輕緩起步階段
早在1703年,法國醫生杜達(Dydart)發表了《發聲原理的研究報告》(MemoiresSurlacausedelavoix)一書,提出了“旋渦”(Vortex)理論,從生理學的角度對歌唱發音的科學性進行了開創性的研究①。1854年,西班牙著名聲樂教育家和理論家瑪努埃爾•加爾西亞(M.P.R.Garcia,1805-1906)發明了喉鏡,促進了人們對嗓音生理學的研究,同時也開創了以人體發聲機理作指導的新的教學方法(機理教學法),使人類聲樂發展史進入了一個嶄新時代。1863年德國海德堡大學教授亥姆霍茲(HermannVonHelmholtz,1821-1894)發表了近代世界聲學史上劃時代的巨著《作為音樂理論生理基礎的音的感覺》(又譯《聲音感覺論》),將基礎生理學及解剖學的研究和數學與物理學分析結合起來,驅使吸引人們運用聲學的普遍原理去解釋歌唱發音的現象,在聲樂界產生了強烈反響。經過一個半世紀的發展,對聲樂演唱和教學領域的研究,終于從純粹的以人的主觀意識為主的經驗主義進入了以生理學和物理學原理為基礎的客觀科學主義研究的新高度。
(二)快速發展階段
自20世紀20年代蘇聯國立莫斯科大學物理學教授爾謝夫金(SergeyNikolayevitchRzhevkin)和卡贊斯基(VladimirSergeyevitchKazansky)發現歌手共振峰以來,西方學者對歌唱聲音質量進行實證性評價研究進入快速發展的階段。美國的巴索洛繆(WilmerT.Bartholomew),威廉•范納德(WilliamVennard),瑞典的桑德柏格(JohanEmilFredrikSundberg)等是這一研究領域的代表。我國自20世紀80年代開始,包紫薇(1981)、王士謙(1986)、韓寶強(1996)、吳靜(2007)、于善英(2010)等學者相繼在此研究領域取得了一系列的成果。他們的研究主要是運用頻譜分析等技術,為歌唱聲音的不同形態找到相對應的聲學評價參數,并探索在歌唱評價和聲樂教學中的應用價值。這一時期,王建群(2005)、劉加林(2006)等學者還從基頻、標準化噪聲能量、聲強等方面研究影響歌唱發聲質量評價的相關參數。以上相關研究為基于人工智能技術的歌唱發聲質量客觀評價研究奠定了基礎。
(三)縱深拓展階段
21世紀以來,計算機信息處理技術與神經生理學、非線性動力學、模糊數學等學科的快速發展,為基于人工智能技術的歌唱聲音質量評價研究提供了更為豐富的研究手段。我國有關基于人工智能技術的歌唱聲音質量評價研究始于2007年,迄今成果單薄,其中代表性的成果有:王修信等(2007)、羅蘭娥(2008)、李文娟等(2009)、袁劍(2010、2011)。這類研究或利用語音分析技術對藝術嗓音進行聲音樣本提取,并與標準化聲音或專業評委的主觀評價進行比較;或制定涉及多項評價標準的評價方案,然后利用計算機、人工智能、模糊數學等知識原理對不同聲音評價參數進行分析,最后在此基礎上建立歌唱發聲質量客觀評價機制。以下本文將以主流研究中的兩種體系———基于歌唱聲音評價參數提取的和基于主觀評價標準量化的客觀評價機制為研究對象,分別以研究思路和方法、研究內容、研究結果、存在問題等方面對其研究成果作出歸納梳理和評價。
二、基于人工智能技術的兩種評價體系
之所以確定為兩大體系,是因為前者的研究基礎是歌唱聲音,后者是建立在主觀評價標準量化指標的基礎之上的;之所以都確定為客觀評價體系,是因為二者均運用了人工智能技術。
(一)基于歌唱聲音評價參數提取的客觀評價研究
直接以歌唱聲音本身作為評價參數的客觀研究目前主要采用兩種方法———神經網絡研究方法和特征匹配研究方法。
1.利用神經網絡方法建立評價機制的研究
此種研究方法以廣西師范大學計算機科學與信息工程學院的王修信、物理與電子工程學院的羅蘭娥為代表。(1)研究思路與內容王修信等先后發表了《幾種聲學參數在藝術嗓音客觀評價中的應用》(2007)、《藝術嗓音歌聲客觀評價初探》(2007)兩篇文章,提取歌聲平均能量(表征相同環境下歌聲信號的相對大小)、平均頻率誤差(判別測試者的歌聲頻率與標準頻率中心是否對準)、平均音域誤差(表征測試者音域與曲譜音域的偏離程度)作為客觀評價的3個聲學參數。在MATLAB計算機培養編寫程序②環境下,使用BP(backpropaga-tion)神經網絡方法③客觀評價藝術嗓音歌聲質量。后篇文章較前篇文章有所深化,將聲源分析樣本從36人增加到48人,明確了性別比例(其中女31名,男18名);在分析方法上增加了多元線性回歸方法。研究認為,使用BP神經網絡方法和多元線性回歸方法基本都能正確客觀評價歌聲質量,且與資深專業教師的主觀評價一致。BP神經網絡方法誤差在4%之內,線性回歸方法誤差在6%之內,BP神經網絡方法(模型)客觀評價效果較優。羅蘭娥與王修信為師承關系,其研究以王修信的研究為基礎。因此,羅蘭娥在研究方法和觀點上與王修信有不少相似之處,包括如錄音環境、錄音設備(軟件、硬件)、聲音樣本提取標準、存儲格式、MATLAB分析程序的選擇等方面。相對于王修信等的研究,該文的創新之處在于:①明確了歌唱聲音信號采集的類型,使該研究與歌唱實踐更加契合;②聲音評價提取的參數由原有研究的3項增加到8項,對被評價聲音的反映更加全面;③評價網絡建立所依據的類型增加了評價精度更高的小波神經網絡。研究認為,神經網絡方法能正確客觀地評價歌聲質量,評價分數最高的歌唱者聲學參數呈規律變化;小波神經網絡方法較BP神經網絡方法評價精度更高;聲學參數對評價結果影響度排序依次為第三共振峰、第一共振峰、音域、基頻、平均能量、第三共振峰微擾、第一共振峰微擾、基頻微擾等。(2)評價及存在問題王修信等的研究在歌唱聲音采樣時對于錄音環境、錄音設備(軟件、硬件)、聲音樣本提取標準、存儲格式、被錄制對象的年齡、人數、唱法等方面都有明確的界定,在規范性和嚴謹性方面達到了較高的要求。該研究對被錄制對象的性別和聲部在(2007)中不明確,在(2007)中區分了男女性別,對歌唱者的聲部依然未見說明。遺憾的是,兩項研究對歌聲信號采集類型(單音、練聲曲、歌曲片段)及演唱音域未作說明,在歌唱藝術實踐中,以上內容都是對歌唱發音評價產生影響的重要因素。羅蘭娥(2008)中涉及到一些與音樂相關的概念值得商榷。分析結果中有:“1號歌唱者E、F、G三種調試的第一共振峰均接近450Hz,第三共振峰均接近2500Hz,音域3.5個八度左右,明顯寬于其他歌唱者”。這里存在兩個問題。首先,這句話中提及到兩個音樂概念———“調試”和“音域”。在音樂術語中沒有“調試”這個概念,結合多次提到“調試”的上下文可以推斷,作者指的應該是“調式”。但“調”和“調式”的概念在樂理中的含義是不同的。一般來說,孤立的一個音或毫無邏輯關系的若干個音無法構成音樂語言,只有把若干個音按照一定的關系組織起來才能塑造音樂形象,表達思想感情。主音與它構成一定的關系(主要是傾向性關系,音程關系與和弦關系)的若干個音所結合成的音的體系叫做“調式”。“調”主要是指主音的音高,亦即整個調式的音高。④作者在文中實際要表達的意思應是用E、F、G三種不同的調來演唱歌曲。其次,此句提到歌唱者的“音域3.5個八度左右”。這個3.5個八度如何解釋?以男高音聲部為例,理論上說,男高音音域的應用范圍一般在C1-C3的兩個八度之間。歌唱實踐中,因為嗓音條件和高音技術原因,能達到這個音域范圍的男高音也并不多見。羅蘭娥(2008)的研究中,歌唱聲音樣本錄制對象為音樂學院聲樂專業19名21歲-25歲的本科大學生,就國內的聲樂教學現狀分析,這些學生的演唱音域如果能達到兩個八度已經進入優秀的行列了,而結果顯示1號歌唱者的音域達到3.5個八度左右是不可能存在的。#p#分頁標題#e#
2.利用特征匹配方法建立評價機制的研究
此種研究方法以上海大學影視學院李文娟等為代表。(1)研究思路與內容李文娟等(2009)提出包含3個步驟的研究方案:①提取測試聲音樣本和相應原聲的音強(參數1)、音高(參數2)、氣息(參數3)等特征參數;②采用特征匹配方法對各參數進行比較;③由評分機制根據其相似程度給出客觀評分。實際操作程序是:在特征提取環節,通過音量強度曲線分析提取參數1,通過對比基頻(比對演唱者聲音和原聲的音高)提取參數2,通過計算測試聲音波形的標準差提取參數3;在特征匹配環節,運用動態時間規整法⑤,對被評價的演唱聲音與一個標準聲音分別進行預處理,提取相應的特征參數進行特征匹配;在給出評分環節,通過公式計算出音強、音高、氣息的最佳權值,在Matlab6.5上進行仿真實驗,找到計算機和人工評分的最佳映射關系,最后通過評分測試驗證評價機制的準確性。此種研究的評分測試主要針對技能訓練性練習曲,這類練習曲是聲樂演唱訓練中最常用的練聲曲,主要圍繞特定母音、語音音節和技巧性發聲進行針對性訓練。在實驗仿真中,選取了最常見的5個母音(a,e,i,o,u)和男聲閉口哼鳴練聲曲進行測試分析。研究認為,這種基于特征比較的聲樂評價方法算法復雜度較低,其評分結果接近人工評分,較符合人的主觀感受;通過分析顯示出演唱者聲音的波形,以直觀方式展示演唱者的不足,可以改善多媒體聲樂教學現狀。(2)評價及存在問題相對于王修信、羅蘭娥等對藝術嗓音歌唱聲音質量評價的研究,李文娟等(2009)將研究重點放在評價歌唱者對樂曲旋律把握程度方面,運用a,e,i,o,u5個母音和練聲曲作為聲音測試形態,這就與聲樂演唱和教學的實際更加貼合。但該研究對于被測試聲音在特征參數提取環節中涉及的錄音環境、設備、采樣標準以及被提取對象的唱法、聲部類型未作出明確說明;對于“標準聲音資料”的概念不明確,標準資料選用的方法和標準交待不清;評價樣本測試環節中僅選用兩位測試者,并且兩位測試者的演唱程度差異很大。這些問題都直接影響到研究結果的準確性和說服力。
(二)基于主觀評價標準量化的客觀評價機制研究
此種評價機制的研究代表是西安音樂學院計算機教研室的袁劍。
1.研究思路與內容
袁劍在(2010、2011)中,擬訂“聲樂評價標準方案”,通過專家打分,運用BP神經網絡的研究方法,模擬一個穩定的專家打分系統,構建評價模型。傳統的聲樂評分方法通常采用的是線性分類數學解析表達式,在多個分值中去掉最高、最低分,最終以平均分作為實際得分。該文對傳統的評分方法提出質疑,認為傳統的聲樂評分方法忽視了各評價指標和演唱效果之間的非線性關系,帶有強主觀性,不能很好地、真實地反映演唱者的水平。研究者首先制訂了一套“客觀性”的、對聲樂評價進行量化表述的標準方案,分為技術、藝術、風格三個大的類別,每個類別中又分成若干子項目。袁劍(2010)中共設有17個子項目,包括技巧8項(歌唱姿勢、呼吸的運用、氣息支持與穩定程度、音域范圍、吐字清晰度、音調準確度、節奏的準確度、曲目難度)、藝術6項(舞臺形象、音色的表現、聲音自然程度、流暢程度、圓潤程度、對旋律的把握)、風格3項(對歌曲情感的表達、情感到位程度、獨創性)。在袁劍(2011)中,研究者將具體評價項目上由17項減少到7項,包括技巧3項(氣息控制、準確度、曲目難度)、藝術2項(形象、音質)、風格2項(情感的表達、獨創性)。其次,聘請聲樂專家按照上述評價體系對同一評價樣本分別打出分項成績和總成績。將分項成績輸入BP神經網絡,以總分為參照樣本,對網絡進行訓練、調整,使BP神經網絡以調整各層權值的方式學習專家經驗,即采用BP網絡來模擬一個穩定的專家打分系統,構建評價模型。袁劍(2011)進一步要求評委按照“優秀、較優秀、良好、較良好、合格、不合格”6個評價級別對分項指標進行定性評價,而無需打出具體分數。然后依次使用層次分析法確定評價指標的權值,用模糊矩陣的合成運算求得綜合評價的標準化模糊子向量,對歸一化處理后的子向量按照等級分值求出被評價對象的具體分數。研究認為,由于BP神經網絡能夠很好地模擬非線性系統,將評委做出的定性描述合理的轉換為定量的分值,因此使用BP神經網絡來模擬一個穩定的專家打分系統非??尚小M瑫r認為,由于BP神經網絡存在隱層節點個數的確定問題,并在訓練過程中有可能陷入局部最優解,因此在一定程度上影響了評價的準確性。
2.評價及存在問題
此種評價機制實際上是主觀評價基礎上的客觀,本質上是介入人工智能技術的主觀評價體系。與以往王修信、羅蘭娥、李文娟等為代表的歌唱嗓音評價側重于聲音物理屬性的評價不同,袁劍的兩項研究成果在研究思路上基本一致,就如何改善評委主觀給定一個綜合分值的現行聲樂評價方式,通過“技巧、藝術、風格”3個評價類別中各項評價子項目的設定,對評價對象進行全面的評價。這其中“藝術、風格”評價類別的提出,與以往單純涉及聲音評價的研究相比,更能體現出聲樂評價的藝術屬性。袁劍(2011)采用的評價標準方案的具體項目較少,使得方案在反映評價對象演唱水平的全面性方面可操作性較低。兩項研究中對于被評價對象的唱法、聲部類型、性別、年齡、伴奏形式、演唱環境未作具體說明。
三、評價體系呈現特點及建議對策
自王修信等學者2007年開始對歌唱客觀評價模式展開研究以來,在研究人員的構成、研究方法和研究內容等方面呈現出獨有的特點,同時也存在某些不足和需要改善的問題。
(一)研究人員:專業背景單一化從研究者的專業背景來看,在研究的初始階段,王修信、羅蘭娥等都是來自高校計算機科學、信息工程、物理與電子工程等研究機構,其研究團隊少有音樂領域的研究人員,故在“調式”、“音域”等音樂術語與專業知識上出現問題,其研究成果也都發表在《廣西物理》《聽力學及言語疾病雜志》等理科和醫學類刊物上。2009年始,李文娟、袁劍等出自綜合藝術院校、專業音樂學院計算機音樂研究機構的研究者開始涉足這一領域。其研究成果從最初在《計算機工程》《計算機數字工程》發表到后期出現在《黃鐘》(音樂核心期刊)上,這些研究趨勢表明,基于人工智能理論的歌唱發音客觀評價研究在我國專業音樂界已漸受關注。歌唱發音評價的研究是一門交叉學科,涉及聲樂學、音樂聲學、物理學、歌唱生理學、嗓音醫學、解剖學等諸多學科的專業知識,因此這一領域的研究需要多種專業背景的研究團隊參與,方能真正全面、深入地展開。中央音樂學院嗓音研究中心主任醫師、我國藝術嗓音醫學的奠基人馮葆富教授也曾指出:“藝術歌唱不同一般言語發聲,是超常功能。聲樂歌唱行為科學研究需要生理的、病理的、物理的(聲學)、心理的、音樂學的等多方面、多學科的合作才能做出成績。”⑥就目前研究團隊人員的專業構成分析,基本上是以計算機科學、信息工程、物理與電子工程的研究人員為主,音樂專業尤其是聲樂專業研究者的比例極少,因此在研究思路、研究方法、研究內容等方面出現了不少脫離歌唱發音評價實際要求的問題,如演唱者的唱法、聲部、性別的界定,元音、練聲曲、歌曲類型的選擇以及對音域、調號等專業術語的闡釋等。用先進的儀器、軟件進行科學性的實證研究有助于我們了解歌唱發音的本質,但這種科學性的研究要以促進和推動歌唱藝術的發展為最終目標。因此對歌唱發音評價的研究在研究內容、研究思路、研究方法等方面要符合聲樂藝術的規律,如果一個研究者沒有歌唱藝術的實際演唱體會,不了解聲樂藝術演唱、傳播、欣賞、教學的各個環節和規律,其研究就不可能真正達到歌唱發音評價研究的要求。目前我國對歌唱發音客觀評價的研究剛剛起步,作為當代聲樂研究領域中一個嶄新的研究方向,應該逐步引起聲樂界的關注,讓更多具有豐富聲樂演唱與教學經驗的學者成為研究團隊的核心力量,才會促使這一學科健康、快速的發展。#p#分頁標題#e#
(二)研究內容:重技術分析,聲音指標細化不足在基于人工智能技術的歌唱聲音評價研究領域,無論是基于歌唱聲音評價參數提取還是基于主觀評價標準量化的研究,在具體研究方法和研究內容的制定上,都要盡可能考慮到影響研究結果的各項因素和環節。就我國目前研究人員的專業構成來看,容易出現聲學專家不熟悉聲樂專業特點、欠缺相關音樂理論知識,而聲樂專家不了解如何利用儀器進行聲學實驗等問題。
(三)研究方法:主客觀結合,技術性強正如我國著名聲樂理論家倪瑞林所說,“在科學技術高度發展的今天,美聲唱法的傳授與推展,實在應該從經驗主義上升到與科學相結合而更見實效、更精益求精的階段了。”⑦基于人工智能技術的現代科學實證方法正逐步被聲樂界接受和理解,目前總的研究方法為:主觀與客觀相結合,理論與實驗相結合。具體采用數據采集、數據分析、實驗仿真和主客觀對比分析等方法,突出特點為大量運用儀器和相關軟件進行數據采集和分析實驗。以下圖示兩種評價模式的研究方法??梢钥闯?,以上兩種研究方法存在本質的不同,最主要的區別在于研究基礎?;诟璩曇粼u價參數提取的客觀評價機制研究,建立在被測聲音和比對聲音的數據采集與分析之上,研究中采用的相關的軟硬件設備、被測聲音樣本等,對后續研究環節和研究結果都產生決定性的影響。這種研究以非主觀的數據對比分析為主要依據,思路新穎,具有較強的說服力,但與目前聲樂評價的實際模式反差較大。另外,目前的測試儀器和分析軟件專業化程度較高,在具體可操作性和實用性方面還有比較大的局限性。只有采用易操作和普及的軟硬件進行研究,才能夠使研究成果具有更高的推廣價值。
基于主觀評價標準量化的客觀評價機制研究,建立在人工主觀評價基礎之上,通過對聲音評價標準的細、量化,運用人工智能技術建立客觀評價機制,從而改善目前聲樂界完全由評分人依據主觀態度評分的現狀。嚴格地說,這不是純粹意義上的客觀評價研究,是一種“對主觀評價機制的客觀性改良”。與目前取多個評委評分平均值的評分機制相比,用人工神經網絡和模糊數學方法對評委定量、定性評價作出再定量的計算方法,在國內同類研究中具有獨創性。該評價項目對“舞臺形象”“旋律的把握”“歌曲情感表達”等涉及樂感和表演內容的設定,超越了以往只考察發音技巧的單一研究,與歌唱評價的實際要求更加契合。但此種研究所依據的人工神經網絡和模糊數學等人工智能方法,要求具備較高的相關專業知識;研究在評委選擇的標準上還比較模糊;與傳統評價法的對應性還應提供更多的實驗樣本,以提高研究結果的可信度。以上相關問題都是在基于主觀評價標準量化的客觀評價機制的研究中亟待解決的。
結語
基于人工智能技術的歌唱聲音質量評價研究,是一種相對客觀的研究,其研究結果并不是對傳統主觀評價的否定,而是為其提供基于客觀的評價與驗證??陀^評價的研究思想是建立在主、客觀評價應該相互對應的前提之下的。作為當代聲樂領域科學性研究的嶄新研究方向,基于人工智能技術的歌唱質量客觀評價研究,未來還有很大的研究空間:在評價參數提取和分析環節,除了共振峰、音域、基頻、平均能量、頻率誤差、音域誤差等參數,還應盡可能地廣泛使用其它更利于研究精化的評價參數,如幅度、過零率、聲調、不同共振峰之間關系以及不同頻帶能量、諧波指數等。目前運用的人工神經網絡和多元線性回歸等方法主要產生和運用在20世紀80年代,需要大量的試驗樣本支持并存在不穩定性。而運用半監督學習、模式識別、支撐矢量機(svm)等最新人工智能技術的研究尚無相關成果。研究在歌唱聲音數據庫的建立、歌唱聲音評價特征的選擇上還有很大的拓展空間。