臨床醫療英語應用文語料庫建設方法

前言:尋找寫作靈感?中文期刊網用心挑選的臨床醫療英語應用文語料庫建設方法,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。

臨床醫療英語應用文語料庫建設方法

【摘要】臨床醫療英語屬于科技英語的一個分支。對醫學生而言,學習和掌握臨床醫療英語應用文語言特點與寫作技巧尤其重要。在我國將語料庫技術與專門用途英語相結合的研究正方興未艾。在簡述二者結合的必要性和重要性的基礎上,探討臨床醫療英語應用文語料庫的創建原則、建庫步驟與建設方法

【關鍵詞】臨床醫療英語;應用文語料庫;建設方法

作為一種科技文體,臨床醫療英語具有嚴謹規范、邏輯嚴密、客觀簡明的語言特色,其遣詞造句、語法結構具有獨特的詞匯體系和句法特征。隨著全球化的進程,醫學生必需具有國際化的學術視野,經常了解國內外領域的最新動態,不動查閱醫學文獻。在本科階段,對醫學生而言,學習和掌握臨床醫療英語應用文語言特點與寫作技巧尤其重要。因此,建設臨床醫療英語應用文語料庫,開展基于醫療英語的醫療行業英語語言的研究更具有緊迫性。語料庫不同于電子文檔或數據庫,語料庫的建設有特定的研究目的和具體用途,臨床醫療英語應用文語料庫主要用于研究臨床醫療英語詞匯,分析臨床醫療英語應用文語言特點,完善和開發相關教材等。

一、臨床醫療英語應用文語料庫創建原則

臨床醫療英語應用文語料庫的總體建庫原則是建立一個能全面反映臨床醫療英語語言事實的語料庫。該語料庫的建設應遵循隨機抽樣法、內容真實性、語料代表性、庫容適度性等原則。

1.隨機抽樣

語料庫是在隨機采樣的基礎上收集的有代表性的真實語言材料的集合,是語言運用的樣本。因此,臨床醫療英語應用文語料庫在語料抽樣范圍和主題覆蓋方面都力求取得平衡,在收集語料時按比例分層抽樣,需要考慮到每一主題類型的抽樣比例,在分布上應盡可能均勻。主題涵蓋禮儀文書、求職文書、醫務文件、公務文書和科研文書五個方面。

2.真實性

真實性是建設語料庫的基本前提,無此前提,語料庫就不能反映真實的語言面貌,基于語料庫的研究及得出的結論也必然是毫無意義的。具體而言,一要收集實際使用中的文本,而不能是研究者杜撰的;二要收集符合條件的文本,不符合的一律剔除。為了確保語料的真實性,應以復印、掃描或拍照等方式收集最原始的語料,從源頭上保證語料的真實性。

3.代表性

語料庫的代表性,即研究中所使用的語料是否能夠代表我們需要研究的語言。它對建成語料庫應用語言研究結果的可信度至關重要,這是建設臨床醫療英語應用文語料庫的首要原則,是區分語料庫與語料檔案庫的重要標準。一個語料庫是否有代表性首先要看語料庫所代表的總體??傮w而言,臨床醫療英語應用文語料庫代表的往往是理論上有限而實際上無限的總體?,F實中建庫者不可能將所有的臨床醫療英語應用文語料全部收集起來。為了提高語料的代表性,必須借助統計學抽樣方法,確保建立的語料庫中的語料樣本能最大限度地反映總體的特征。

4.庫容適度性

語料庫規模并不是越大越好??傮w而言,10萬詞次的語料庫可以滿足音韻學研究,形態學研究的語料庫需要達到50萬詞次,而句法學研究則需要50萬到100萬詞次的語料庫。我校建設的臨床醫療英語應用文語料庫初步庫容為50萬詞,各主題均占20%,約10萬字。該語料庫具有開放性、動態性和擴容性的特點,爭取在語料庫初步建成3年之后進一步擴展到100萬詞。

二、臨床醫療英語應用文語料庫建庫步驟

臨床醫療英語應用文語料庫的建庫步驟主要涉及語料的來源、采集、整理、標注、統計等內容。具體說來臨床醫療應用文語料庫的建設要經歷下列18道工序:語料庫設計、確定語料收集范圍、先導語料采集取樣論證、編制語料收集要求和工作流程、培訓語料采集人員、語料正式采集、回收語料并分類保存、紙質語料文本轉為txt文本、校對、語料清潔整理、抽檢語料樣本、對所有文本進行文件頭部元信息標注、校對、分詞、語料標注和詞性賦碼、校對、復查抽檢、對語料進行統計分析等。

三、建設方法

1.建立語料庫

建立語料庫涉及到文本的掃描、錄入和反復校對。每個取樣存為一個單獨文件,文件名以學科領域等因素命名。完成文本的數字化后進行文本整理,它是語料庫建庫的關鍵環節,涉及文本的備份、文本的清潔整理、語料元信息的標注等環節。整理后的文本要進行文本加工,文本加工涉及分詞、詞性標注及其他語言信息標注等環節。在臨床醫療英語應用文語料庫中,標注主要包括頭部元信息標注和詞性標注。元信息主要包括:文本說明信息(序號、文本分類等)、文獻信息(作者、時間、標題等)、文本結構信息(章節、段落等)等。元信息標注是后期語料庫檢索、查詢、分析、構建子語料庫的重要依據和條件。臨床醫療英語應用文語料庫的最終標注格式是XML。即可擴展標記語言。它具有跨平臺的優勢,一般用于數據存儲。

2.實現檢索軟件的自動抽取

為了能夠抽取研究者感興趣的語言單位,需要運用自動檢索工具,這些工具為可單獨運行的檢索軟件。單語純文本語料庫支持WordSmith、AntConc、Editplus等檢索工具對文本各種信息和語言特色的檢索分析。

四、可能遇到的問題和解決辦法

臨床醫療英語應用文語料庫的建設重點是語料庫的代表性,即語料能否代表所要研究的語言。語料庫的代表性主要涉及語料庫的設計容量、語料來源以及取樣的平衡。解決辦法是在具體語料采集環節之前要進行取樣論證,根據設計容量和語料來源、獲得途徑、著作權法等相關法律法規明確取樣準則和標準。然后根據取樣準則進行隨機簡單抽樣、先導分析并進而制定臨床醫療英語應用文語料庫的工作計劃和工作流程。建設難點是語料庫的標注。即把表示各種語言特征的附碼添加到相應的語言成分上,以便于計算機對特定語料進行識別和提取。標注工作的加工深度直接影響整個語料庫的質量和應用價值。解決辦法為實施標注工作前確定標注環境、工具、標注內容和規則、制定標注標記集等,確保語料標注的一致性和準確性。限于篇幅,筆者將另文贅述。臨床醫療英語應用文語料庫的建設和相關研究,一方面,可提升語料庫研究在國內專業領域理論研究基礎。另一方面,可以通過在臨床醫學領域的應用,有利于解決該領域國內外科研技術交流中的語言障礙,提升本領域的學術交流合作。此外,也可促進臨床醫學在詞典編纂、術語研究、語篇分析、文本資料分析、教材編寫和語言教學等方面發展,此領域的研究工作具有重要的理論和現實意義。

作者:張文奕 盧喆 宋雪姣 單位:甘肅中醫藥大學國際教育學院

亚洲精品一二三区-久久