數據庫建設文化研究論文

前言:尋找寫作靈感?中文期刊網用心挑選的數據庫建設文化研究論文,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。

數據庫建設文化研究論文

1大禹文化資料庫概述

為了傳承和弘揚大禹文化,受哲學社會科學研究院委托,單位成立了大禹文化研究中心,并召開了多次國內學術會議。目前,在海峽兩岸研究人員的支持下,研究所已經收集了大量有關大禹的書籍、考古資料。這些資料即包括已經收集到的視頻、照片、古籍原件等多種實體內容,也包括被“歷代石刻史料匯編”、“公元集成圖片庫”、“中國基本古籍庫”、“中國歷代典籍總目系統”、“中國數字方志庫”、“瀚堂典藏古籍數據庫”等專題數據庫所搜錄的文獻,還包括以大禹文化為主題新聞與資料??v觀歷史,大禹文化在發展中進步,許多事實新聞,如“五水共治”等就是大禹文化建設的補充。因此,大禹文化資料庫的建設也是一個長期的與時俱進的過程。

2資料庫建設相關技術

2.1大數據技術

進入大數據時代,人們開始發現很多主題都開始變成了大數據。目前,大禹文化研究數據雖然不多,但由于大禹的歷史悠久,隨著考古技術的提升、大禹的歷史文化資料會變得越來越豐富,以大禹為主題的傳奇故事會以動漫、歷史劇等形式傳播出去。隨著水文化得到人們的重視,融合大禹元素的水文化傳播的信息也會大量增長。此外,大禹文化相關的電子商務以及無線傳感、虛擬空間技術在大禹主題旅游行業的應用也會帶來大數據。因此,針對大禹主題的大數據研究也會成為一個重要研究方向,可以在這些大數據中獲得新的研究點。

2.2云計算

目前由于大禹文化研究資料分布在許多不同專題數據庫中,需要人工進行整合。這會耗費了大量的人力,造成的研究的瓶頸。為此,如果有必要通過商業和技術協議將其各庫中擁有的大禹文化資料共享出來,用云服務的方式為研究者提供統一的檢索平臺,以產生更大的社會效益。事實上,在教育領域,CALIS等圖書館共享平臺已經在提供一個通用的文獻資料云,并取得了良好的效果。但大禹研究者需要更為專業的數據庫,如果能夠將大禹主題信息較為精確地從各大數據庫中抽取出來再作整理,必然能夠降低研究者檢索文獻的難度,增加其搜索內容的廣度。因此,開展基于云服務的大禹專題數據庫構建方法研究就顯得十分必要。

2.3垂直搜索引擎技術

由于收集資料的專業化和檢索方式的專門化,使得垂直搜索引擎具有通用搜索引擎不可替代的功能。事實上,除專題數據庫外,互聯網是獲取大禹專題信息的重要渠道。而建立專題數據庫類似于建立一個垂直搜索引擎。有了大禹主題的垂直搜索引擎,許多最新的研究資料也可以從互聯網中獲取。由此要做的工作就是設計大禹主題的網絡爬蟲,用爬蟲不斷抓取互聯網中的大禹文化研究資料,然后以搜索引擎的方式供研究者使用,并用統計方法對不斷增長的資料進行分析。事實上,許多專題數據庫(如國研網)就是含有專題文獻摘要的搜索引擎。顯然,構建大禹主題垂直搜索引擎會是專題數據庫建設主要內容。

2.4多媒體信息檢索技術

大禹文化研究資料包括了大量視頻、照片等多媒體信息。但為這些多媒體信息建立標簽需要花費大量人力,需要引入自動標引技術。目前手寫體識別、截圖搜索、智能問答、視頻流中人臉識別等技術已得到廣泛的應用??梢詫⑦@些多媒體技術用于對大禹文化資料的自動匹配和檢索,以增強研究者獲取資料的便捷性,進一步提升大禹文化專題數據庫的建設水平。

3資料庫設計思路

3.1設計目標

結合人工與計算機技術,建立能夠對大禹文化主題相關信息的采集、加工和的平臺,為研究者提供較搜索引擎更為精確的研究資料,較其他專題數據庫更為完善的文獻數據,較圖書館更為豐富的多媒體信息。

3.2信息采集功能設計

一般來講,專題數據庫的信息采集流程為:①確定專題信息的收集范圍,實現專題信息的手工采集、自動采集;②按照數字文獻格式標準體系對采集的專題信息進行存儲,生成數字化文獻;③以手工或自動的方式生成數字化文獻的元數據對元數據進行自動標引,采用一定的標準進行組織;④對不同的數據庫制作者賦予不同的權限,以手工或批量方式添加、修改、刪除元數據,使元數據與數字對象建立對應,實現對元數據和數字對象的管理。按照數據的來源不同,需要設置不同采集形式,具體如下:已有資料電子化。即將已有的書籍和文獻資料人工轉換為掃描件,部分材料運用OCR技術轉換為文字格式,并將實物拍攝成照片,運用多媒體技術做好各類資料的文本標注。這樣就可以和已有的視頻等電子資料整合成多媒體資料集。用深度搜索引擎技術,從各大數據庫中自動提取出大禹文化主題相關的文獻資料,直接引入其在原有數據庫中的文獻標識進行標注。設計好大禹文化主題網絡爬蟲,實時從互聯網中抓取主題相關資料,保存在搜索引擎專用的數據庫中。再應用自動推薦技術,向數據庫管理員推薦有價值的文獻資料,由管理員將互聯網中的文獻列入專題數據庫中供研究者檢索,即將文獻標引為不同的標志,如果文獻是從專題數據庫中獲取標明“引入”,搜索引擎直接獲取標明“互聯網”,數據庫管理員人工確認的則標明“人工入庫”。運用云技術,將資料庫建在云端,與其他專題數據庫建立合作關系,獲得大禹專題文獻的推送服務??梢詮膶I文獻資料庫、垂直搜索引擎和多媒體信息檢索庫的角度來開展資料的收集和整理。

3.3信息檢索功能設計

為提升專題數據庫的功能,實現更好的用戶體驗,具體設計如下:實現一般文獻資料數據庫應有的文本檢索功能。該數據庫提供主題、關鍵詞、摘要、標題、內容等關鍵信息的全文檢索,并以pdf文件形式提供文獻資料。在大禹文獻數據庫中分析并整理出專業名詞集,形成大禹文化語義本體,為檢索者提供同義詞識別、主題相關檢索詞推薦等功能,并能夠按照訪問量、下載量、文獻引用量、發表時間等方式進行排序。對收集到的照片、視頻等多媒體資料作自動標注,建立多媒體檢索庫,實現文本到多媒體信息統一檢索接口。這里主要參考的標準是Mpeg-7,實現對視頻中幀、鏡頭、情節和節目的分離;同時用Sphinx來提取語音中的信息,實現語音向文本的自動轉換。這樣用戶就可以用關鍵詞、截圖、語音等方式來搜索資料庫中的多媒體資料。例如,用戶給出大禹陵的照片,就可以檢索到出現過該照片信息的視頻文件。提供智能問答系統,讓研究者可以與虛擬資料庫管理員進行在線交流,由計算機自動提供文獻資料情況的解釋說明,從而提高專業數據庫服務的質量。具體實現過程為:建立FAQ庫;對用戶的提問進行分析,將問題轉換成查詢關鍵詞;在FAQ庫中查到問題對應的答案;對于在庫中查不到的問題,則給出提問要求,讓用戶進一步明確意圖;對多次查詢沒有結果的問題則從互聯網上獲取答案,并推薦給用戶;如果用戶認可推薦的答案,則將這個問題和答案組合加入到FAQ中去。事實上,清華大學圖書館的智能聊天機器人已經實現了這樣的功能,并大大改善了查詢者的用戶體驗。運用大數據技術,提供數據分析接口,讓研究者能夠從不斷增長的數據中快速分析出想要的統計信息。主要要實現流處理和批處理兩種處理方式。流處理主要針對不需要永久化存儲的過程信息,如相關旅游服務的實時信息和商品銷售信息。批處理則是針對長期積累在數據庫中的大數據進行分析。要通過檢索功能的優化,實現具有大數據分析環境、面向新媒體的新型數據庫檢索平臺。

3.4信息檢索評估方法設計

在數據庫建設完成后,可以用信息檢索的傳統方法對構建好的數據庫要進行測試與評估,方法如下:

3.4.1雙率檢測

雙率檢測,即對數據庫檢索的查全率和查準率進行評估。先要設計一套測試用關鍵詞和測試用資料,然后對關鍵詞查詢的結果進行統計,獲取查詢結果與測評用資料的實際匹配程度。同時統計出被查得文獻資料個數與實際已經存儲資料個數的比值。在查詢時要考慮查詢對象除文本資料外,還有多媒體資料,要設計多種樣本進行評估。

3.4.2對大數據統計分析結果進行評估

對大數據統計分析結果進行評估。即用人工評價的方式來對統計結果的正確性以及推薦結果的合理性進行打分,從而為優化統計分析算法打下基礎。

3.4.3響應時間測評

設計不同的關鍵詞組合,記錄查詢的時間,評估出系統的響應速度,設定響應閾值,并分析響應緩慢的原因。

3.4.4語義本體合理性評估

設計專業術語中容易混淆的一組關鍵詞進行檢索,統計出同義詞和專用詞轉換的成功率,以利于優化大禹主題本體的設計。信息檢索評估的體系十分復雜,要抓住專題數據庫針對強的特點來測試,測試的主要目的是提高用戶體驗。

4結束語

大禹文化是華夏文化的標志之一,大禹文化研究歷來受到人們的重視。隨著時代的發展、全球化和大數據時代的到來,大禹文化研究資料的數量和表達媒體越來越豐富和多樣化,有必要對這些數據進行分類和處理,從而構建全面、大型、完善、優質、動態更新的大禹研究多媒體電子數據庫,以推進大禹文化研究。本文探討了在數據庫建設關鍵問題,具體包括實物資料的電子化、多個專題數據庫文獻的自動提取、互聯網中實時新聞的獲取、圖像和音視頻檢索等。隨著新技術的發展,在融入大數據分析和云計算后,可以實現研究專題的推薦和數據庫間專題文獻的自動推送等功能,從而大大降低專題數據庫建設的人力成本,不斷提升數據應用者的用戶體驗。論文對大數據、云計算和個性化推薦的細節沒有深入探討,希望能夠在數據庫的建設過程做進一步的研究。

作者:張斌 王傳飛 何鋒考 單位:浙江越秀外國語學院

亚洲精品一二三区-久久