前言:中文期刊網精心挑選了計算機技術研究方向范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
計算機技術研究方向范文1
關鍵詞:語義檢索;概念語義樹;語義相似度
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2011)16-3809-02
Research on Method of Semantic Similarity Based on Concept Semantic Tree
HAN Xin, QIN Fan
(School of Electronics and Computer Science and Technology, North University of China, Taiyuan 030051, China)
Abstract: At present, the application of information retrieval has been widely used, but it is still a difficult thing to be accurate in the specific field of searching. This paper provides a semantic similarity calculation method based on the concept semantic tree, considering the concept of the semantic relations, hierarchies, and inheritance and other factors, as much as possible to improve retrieval efficiency in specific areas of information, and at final, demonstrate the feasibility of the method by experiment.
Key words: semantic retrieval; concept semantic tree; semantic similarity
傳統的信息檢索都是基于關鍵詞查詢的,因此在檢索時可能會出現一堆用戶并不真正需要的信息,導致查詢結果的準確率很低,查全率也不令人滿意,會出現“表達差異”,“詞匯孤島”等問題。語義檢索就是把信息檢索從傳統的基于關鍵詞層面提高到基于語義的層面,從語義方面著手,分析概念之間的內在聯系,利用語義來組織、存儲和獲取信息,信息和語義的結合,使信息變成計算機可識別的知識,從而系統能識別出用戶所需要的信息,提高檢索的查準率和查全率。
1 語義相似度
語義相似度是對語義相似性的定量表示,語義相似度計算是信息檢索、數據挖掘、知識管理等領域的基本問題。在信息檢索中,語義相似度能夠更多的反映文本概念是否符合用戶的查詢要求,相似度越高,說明文本內容與用戶的查詢請求越接近。
劉群、李素建[1]基于實例的機器翻譯,提出語義相似度就是兩個不同上下文本中的本體概念,在不改變文本的句法及語義結構的情況下可以互相替換的程度。如果位于不同上下文本中的兩個概念詞語在不改變文本的句法及語義結構的情況下可以互相替換的可能性越大,則說明二者的相似度就越高,否則相似度就越低。
當兩個語義概念元素x,y相似時,用sim(x, y)表示兩者之間的相似度,形式上,相似度計算滿足[2]:
1)相似度的值為[0,1]區間中的一個實數,即sim(x, y)∈[0,1];
2)如果兩個對象是完全相似的,則相似度為1,即sim(x, y) = 1 當且僅當x = y;
3)如果兩個對象沒有任何共同特征,那么相似度為0 ,即sim(x, y) = 0;
4)相似關系是對稱的,即sim(x, y) = sim(y, x)。
2 概念語義樹
使用層次化的樹狀結構來描述概念之間的邏輯關系,這種語義化的概念樹為檢索算法提供語義基礎,在檢索過程中不同的概念之間也有一定的相似性和相關性,因此需要處理概念樹中祖孫節點、兄弟節點等不同類型的關系,我們考慮用概念間的相似度對其進行描述和量化,以提高檢索的準確率為了計算概念相似度,作如下定義[3-4]:
定義1:在本體概念的樹狀層次結構中,如果概念A和概念B之間存在這樣的關系:A是B的祖先,則稱A和B為同支概念。概念A稱為A和B的最近根概念,記為R(A,B),而A、B之間的距離dist(A,B)=dep(B)-dep(A),其中depth(C)為概念C在層次結構中的深度。如圖1(a)所示。
定義2:在本體概念的樹狀層次結構中,如果概念A和概念B之間存在如下這樣的關系:A不是B的祖先并且B也不是A的祖先,則稱A和B為異支概念。如果概念R是A和B最近的共同祖先,并且是符合此條件的所有節點中距離概念樹的根節點最遠的一個,則稱R為A和B的最近根概念,記為R(A,B),且A、B之間的距離為dist(A,B)=dist(B,R)+dist(A,R),如圖1(b)所示。
定義3:概念C 稱為概念A 和B 的語義相關概念,當且僅當概念C 滿足如下的條件:當A, B 為同支概念時,C 在以A 為根的子樹中且不在以B 為根的子樹中;當A,B 為異支概念時,C 在以R 為根的子樹中且不在以A 或B 為根的子樹中。
在計算語義相似度時,A和B各自的子概念數以及它們的語義相關概念數對相似度計算結果也有影響, 當A,B為同支概念時,A的子概念由B的子概念和A,B的語義相關概念組成,前者所占的比重越大,則概念A,B的語義相似度越大;當A,B為異支概念時,R的子概念由A 的子概念、B 的子概念以及A,B 的語義相關概念三部分組成,前兩部分的比重越大,則A,B 的語義相似度越大。
1)當A,B為同支概念時,A與B之間的語義關系為:
式中,m表示概念B的子概念數,n表示概念A的子概念數。
2)當A,B為異支概念時,A與B之間的語義關系為:
式中,m表示概念B的子概念數,n表示概念A的子概念數,X表示A與B最近根概念的子概念數。
定義4:兩個概念之間的語義距離,是指在語義樹中連接這兩個概念的最短路徑的長度。語言學研究認為,兩個概念的語義距離越大,其相似度越低;反之,兩個概念的語義距離越小,其相似度越大,兩者之間可以建立一種簡單的對應關系。特別地當兩個概念之間語義距離為0 時,其相似度為1;當兩個概念之間的語義距離為無窮大時,其相似度為0。兩個概念之間的語義距離表達式為:
式中,distant(A,B)表示概念A與B之間的語義距離,weighti表示連接A,B的最短路徑上第i 條邊的權值。
定義5:概念的深度是指該概念與語義樹根的最短路徑中所包括的邊數。因為在語義樹中,每一層的概念都是對上一層概念的細化,由此可見,在語義距離相同的前提下,兩個概念的深度和越大,概念之間的相似度越大;兩個節概念的深度差越??;概念之間的相似度越大。概念深度的表達式為:
式中,depth(A)表示概念A的深度,n表示概念A與語義樹根之間的最短路徑中所包括的邊數。
3 語義相似度計算方法
考慮概念語義樹中概念之間的層次關系、繼承關系及語義關系,我們提出下面這個關于語義相似度的就算方法:
其中:Level(A,B)表示概念之間的語義關系對相似度的影響;
Distant(A,B)表示概念之間的語義距離對相似度的影響;
Depth(A,B)表示概念之間的深度對相似度的影響。
但對概念語義樹中層次結構分以下這兩種情況考慮:
1)當A,B為同支概念時,A與B的語義相似度為:
2)當A,B為異支概念時,A與B的語義相似度為:
α,β,γ為調節因子,且α+β+γ=1.
4 實驗結果
選取如圖2一個簡單的實例來計算語義相似度。
選參數α=0.6,β=0.3,γ=0.1,可得到“計算機”與其余各節點之間的語義相似度為:
參考文獻:
[1] 劉群,李素建.基于《知網》的詞匯語義相似度計算[J].Computational Linguistics Chinese Language Processing,2002,7(2):59-76.
[2] 李玲.面向流程診斷的企業知識相似度匹配工具研究與開發[D].哈爾濱:哈爾濱工業大學,2006.
[3] 王進,陳恩紅,施德明,等.一種基于語義相似度的信息檢索方法[J].模式識別與人工智能,2006(6):2-6.
計算機技術研究方向范文2
關鍵詞:古典文獻數據庫 公共古典文獻數據庫 文獻檢索服務系統
計算機技術的飛速發展,為古典文獻研究的現代化提供了堅實的基礎,其貢獻是有目共睹的。然而,計算機技術在古典文獻研究中的運用仍然存在著極為嚴重的缺陷也是不容回避的。筆者近幾年來主持并直接參加設計“e書庫”數據庫的過程中,感到有必要將自己的一些想法提供給正在設計有關軟件的計算機專業人員、愿意使用該類軟件的專家學者們參考。
一、我國古典文獻數據庫建設的歷程
自古以來,歷代學者對古典文獻整理與研究一直沿襲手工操作的方式,然而自上世紀80年代后,計算機技術開始涉入到古典文獻研究中,對傳統的古典文獻整理與研究方法(自然也對一切需要使用古典文獻資料的專業研究)起到了極大沖擊。
首先簡單回顧一下計算機技術在古典文獻研究領域內發展的歷程。上世紀80年代初,我國一些圖書館、大專院校及科研機構陸續開始大規模地利用計算機設計并建立數據庫。大致說來有兩類數據庫,一類是書目數據庫,一類是文獻數據庫。南京圖書館于90年代初率先建立書目數據庫,對讀者檢索有關書目起到了極大的幫助。之后,各地圖書館紛紛效尤,類似的書目數據庫很快就普及了。雖說至今各地圖書館的書目數據庫的檢索方式,仍存在機讀編碼格式不統一的問題,然而書目數據庫提供的方便快捷的查詢功能,對讀者來說無疑是一件大好事,具體到學術研究來說,至少為研究者提供了一個比較方便的查找有關古典文獻的實用工具。
在建立書目數據庫的同時,一些大專院校與科研機構開始研發各自的文獻數據庫。從數據制作格式來說,大致可以區分為兩類,一類是圖像格式,即將按原著內容掃描成PDF圖像文本,另一類是元數據格式,即錄入文獻文本內容(或掃描并轉化為電子文本)導入數據庫,并轉換成可閱讀與檢索的數據庫機讀格式。一般說來,無論是PDF格式還是元數據格式,它們數據庫容量都較大,也提供了較為原始的檢索方式,為學術研究提供了不小的幫助。從上述兩類制作格式的數據庫來說,PDF圖像文本可以直接閱讀圖像文字,但總體說來不太適應古典文獻整理與研究的需要。而元數據格式較為精致,初步具備了較為方便的常用的功能,可以檢索、作卡片等等。
古典文獻數據庫從收錄的文獻內容來說,大致可以分為兩類:一類是類目數據庫,即按“類”收錄有關圖籍,如經學類、史學類、文學類以及甲骨文、金文或出土文獻資料、石刻資料等等,另一類是綜合數據庫,如《四庫全書》、《四部叢刊》、《國學寶典》之類數據庫。
大陸最早的古典文獻數據庫是河南大學的《宋人筆記檢索系統南宋主要歷史文獻》,建立于1987年。之后,各種數據庫紛紛涌現,比較重要的有南京大學、河南大學、蘇州大學聯合研制的《計算機甲骨文信息處理系統》、中國社會科學院《全唐詩》、《先秦魏晉南北朝詩》、《全上古三代秦漢三國六朝文》、《十三經》、《全唐文》、《諸子集成》等數據庫、北京大學《全宋詩》數據庫、南京師范大學《全唐五代宋詞》數據庫、四川大學《宋會要輯稿》數據庫(與海外合作)等等。港臺古籍數字化起步較早,均采用繁體字形式。1984年臺灣中央研究院歷史語言研究所開始研發《漢籍全文資料庫》,香港中文大學則有《漢及以前全部傳世文獻》、《魏晉南北朝全部傳世文獻》、《竹簡帛書出土文獻》數據庫等等。其中《竹簡帛書出土文獻》收錄《馬王堆漢墓帛書》、《武威漢簡》、《睡虎地秦墓漢簡》、《銀雀山漢簡》、《居延漢簡釋文合?!芳捌渌⒁姾啝┕?40多萬字的竹簡帛書出土文獻,價值頗高。
值得注意的是,這些數據庫主要是提供給本單位研究人員使用的,當然也有部分數據庫對外開放,為其他研究者提供一定幫助。雖然這些數據庫有種種限制,但它們無疑為古典文獻的研究(當然包括其它專業的學術研究)提供了方便。之后,隨著網絡技術的發展,各科研機構、大專院校、各地方的圖書館、以及其它數以百計的網站向用戶提供收費或不收費的古籍文獻檢索服務,甚至還提供古籍文獻的下載服務。顯然,這些工作的開展,為學術研究的現代化提供了極為有力的支持。至今為止,據筆者所查索到的除科研機構、大專院校、各地圖書館數據庫之外,提供各種文獻下載的中文網站至少在200個以上,其中就有不少古籍文獻下載的網站。這些古典文獻數據庫或有關網站的建立,確實為古典文獻整理與研究乃至其它學術研究提供了極有價值的幫助。
二、目前存在的問題
當然,我們也應該清醒地看到,在古典文獻數據庫大量涌現的同時,一些潛在的問題與數據庫本身的缺陷嚴重地制約著古典文獻數據庫的正常發展。
從古典文獻數據庫技術發展角度來說,筆者認為大致經過三個發展階段。第一階段是PDF圖像文本數據庫,其數據來源主要是以掃描方式獲得,形成PDF圖像文本。這種圖像文本優點是直觀,與原書分毫不差,但它的缺點是功能極其單一,僅可供瀏覽圖像和簡單地檢索書目。雖然第一階段的數據庫功能極少,但畢竟能方便而直觀地閱讀文獻了,因此引起了學者們廣泛的興趣。必須指出的是,由于功能太少,這類數據庫難以進一步發展。
第二階段是元數據數據庫,以香港迪志公司投資、書同文數字化技術有限公司設計、上海人民出版社出版的《四庫全書》、書同文數字化技術有限公司設計、萬方數據電子出版社的《四部叢刊》、尹小林《國學寶典》、南開大學永川公司的《二十四史》,以及大陸、港臺等大專院?;蚩蒲袡C構制作的較大型的數據庫為代表。它們的優點是具有較多的基本功能,如檢索、卡片、打印等功能,有些還附加了日歷查詢、字典、音樂背景等附加功能。然而,它們都不允許對數據庫內的文本錯誤進行修訂、沒有圖表處理能力、不提供功能升級服務(某些軟件提供所謂新版本,實際上只是增加一些文獻文本,并未真正提升軟件服務功能)。而且由于各自為政,開發者大都采取自定義方法來自造非常用的生僻詞,因此各種數據庫之間字庫不能相互兼容。這一階段的古典文獻數據庫也有吸收第一階段數據庫有圖像的優點,如上述提及的《四庫全書》就附有圖像,以利研究者核對文字。該階段絕大多數數據庫注意到版權問題,但仍有一些數據庫在版權上出現較大問題,乃至引起法律糾紛。
計算機技術廣泛地涉入文科研究領域,各種古典文獻數據庫紛紛建立,當然給古典文獻整理與研究的現代化提供了極其有利的幫助,然而,在筆者看來,目前計算機技術在這一領域中的運用形成紛亂無序的“戰國時代”,有許多亟待解決的問題,否則將會影響或說削弱計算機技術在古典文獻研究(乃至其它學術研究)中巨大作用。對此弊病,筆者擬作一概述,企望引起有關部門、數據庫開發者及使用者的重視,以期真正使計算機技術對古典文獻整理與研究起到更大的促進作用。大致說來,主要問題有以下幾個方面:
其一,缺乏整體領導與規劃,國家投資與收益不對稱。當然,首先應該看到,國家有關部門已經著手做了一些規劃,也實施建立一些比較大的古典文獻數據庫,如2002年10月,國家科技圖書文獻中心受科技部的委托,牽頭聯合中國科技信息研究所、國家圖書館、上海圖書館、中科院圖書館、北京大學圖書館等單位,啟動了我國數字圖書館標準規范建設項目。這一項目的目的就是力圖建立我國比較統一和規范的數字圖書館標準,自然也會對建立古典文獻數據庫有較大的借鑒與參考的價值。又如北京大學《中國基本古籍庫》、上海圖書館《古籍影像光盤制作及檢索系統》等等,也由國家有關部門投入大量資金,而且已經啟動并完成了部分內容。不過也應該強調,由于國家沒有制定出一個比較符合國內數據庫發展狀況的真正有價值的規范體系,因此這些項目的承擔者仍是各自為政,數據庫之間并不能兼容,不可能形成技術“合力”。再從所取得的社會效益或說實際使用價值來看,也不盡人意。因為至今為止建立的各種數據庫仍人為地設置許多障礙,無法使它們實現較大的使用價值。數據庫由國家投資,收益自然應該歸國家,或者成為不收費的公益數據庫,但目前收益既不歸國家,又未能成為公益數據庫,這不能不說是個極大的遺憾。實際上,數據庫制作者無償利用國家投資進行了開發,制作完成后卻獲得相當豐厚的收益,使人感到有“國家投資,個別單位圖利”的印象。筆者不反對交納一定使用費用,但收費單位一定應該說明收費后去向,絕不允許產生國家投資而由個別單位乃至某些個人得利的情況。
其二,開發商嗜利忘義,數據庫錯誤嚴重。除上述由國家投資開發的古典文獻數據庫外,還有一些有一定技術實力的軟件開發商加入到古典文獻數據庫的開發中來了。比較而言,各科研機構、大專院校及各地圖書館建立的古典文獻數據庫質量較高,而開發商則很少關注數據庫中的文獻質量。我們承認確有少量開發商制作的數據庫質量較高,如迪志公司開發的《四庫全書》之類,然而象《四庫全書》這樣的數據庫確實鳳毛麟角,難以尋覓。我們發現,甚至有些開發商僅僅是把文本進行文字掃描導入,疏于校對,因此文本錯誤百出,難以卒讀。由于利益驅使,絕大多數開發商都以“獨自開發”為己任,數據庫設計相互保密,互不兼容,使用戶深感不便。這些問題已嚴重地影響到古典文獻數據庫的正常發展了。
其三,熱門文獻數據重復,冷門文獻數據罕見。雖說目前數據庫品種繁多,但由于考慮到使用者對文獻內容的需求,因此許多開發者熱衷于開發那些熱門數據,而一些比較冷門的文獻則鮮有人問津。實際上,冷門的文獻并非是沒有學術價值的文獻,只是使用人較少而已。因而,目前不但數據庫中文獻內容重復現象極為普遍,甚至同名同姓的數據庫也有不少,如《四庫全書》就出現了武漢大學版、上海人民出版社版等數種不同版本。且不說那些數量繁多、質量也不甚高的數據庫浪費了多少人力物力,其實也使用戶陷入無可適從、欲舍不能的境地。用戶往往為了某些少量文獻內容不得不購買和安裝整個數據庫操作系統,而且這些龐大的數據庫大量占據硬盤空間,導致計算機運行速度大為減慢。而那些允許網上檢索的文獻數據庫又往往容量極大,上網檢索者多,導致“交通阻塞”!
其四,技術關卡重重,難以互相兼容。各開發者既鑒于不同開發目的與技術條件,又為防止他人解密,因此在開發過程中在數據庫某些程序中人為設置技術障礙,以保障自己利益不受損害。自然,開發者需要投入大量人力物力,保障本身利益不受損害是無可非議的。然而也由于人為地設置了障礙,卻使各種文獻數據庫之間不能兼容,無法形成合力,先進的技術反而成為技術壁壘。實際上,這一情況大大浪費了寶貴的人力資源與財力,對古典文獻的開發與利用有百害而無一利。另外,由于技術壁壘,在古典文獻數據庫的文字方面更導致許多問題。我國古籍常用漢字大約為4萬余個,這還不包括超過2萬個異體字及數千甲骨文、金文等古文字。然而我國目前在計算機上采納的國標字庫(GB)和擴展字庫(GBK),兩者相加也只有27000余字,這與我國古籍常用漢字數量相比,實在差距太大。因此,如此小的字庫與需求相比確實是捉襟見肘。為了彌補這一缺陷,一些軟件設計者就采取在自定義區自造字(乃至占據字庫中擴展B的位置)、有些也用圖片方式來填字。而這些自造字、圖片字,拷貝到WORD文本之后,由于內碼位置的差異就變成其它字了,從而導致文本錯誤。
其五,功能單調,難以真正為科研服務。建立較早的古典文獻數據庫功能比較單調,只能做些簡單檢索、拷貝,沒有更為先進的功能,不能適應學術研究的需要。后來的一些古典文獻數據庫也存在類似問題,例如《四庫全書》的檢索功能,雖說可以采用添加“作者”、“書名”等限定條件,但檢索結果只是羅列一排出處,無法直觀地了解檢索到的具體內容。而且《四庫全書》也沒有提供更多的功能給用戶,因此這一巨大的工程仍遠遠不能滿足用戶的需求。況且這一數據庫目前已經“定型”,不再繼續開發,使用戶對此深感遺憾。而其它古典文獻數據庫設計者的思維大多仍停留在“文本之爭”當中,重復著原來設計思想的錯誤,沒有更多地開發為科研服務的有效功能,因此在筆者看來,這一做法顯然不可能真正擺脫古典文獻數據庫目前面臨著的困境。
其六,學術圈地,使人心有余而力難用。解放后,一些國家級出版社化費了極大的精力,組織專家點校了不少重要古籍,為學術研究的發展作出了極大貢獻。然而時至計算機時代的來臨,卻出現了“版權”的問題。一些制作者忽視了國家有關版權法規,直接利用了一些出版社的成果來牟取經濟利益,理所當然地會產生版權糾紛。筆者以為,保護版權是每個學者乃至每個公民應盡的責任,根本毫無討價還價的余地。然而問題是,現在一些出版社由于各種原因,沒有對自己已出版的點校過的古籍進行開發,而愿意開發這些古籍資源者卻無法涉入其中,導致他們處于既想開發這一寶藏又無法回避版權問題的尷尬境地,這就使眾多需要使用者望洋興嘆。如果有關出版社不愿授權,那么想要開發這些古籍者只能返回到沒有標點的原始文本中去。這種情況確實使每一個希望使用古典文獻數據庫的用戶感到極其失望,而且嚴重影響了古典整理與研究的現代化進度。
上述種種現實情況,已經是制約計算機技術對古典文獻整理與研究支持的瓶頸了,如果不解決這些問題,計算機技術即使再發達,恐怕也難以對古典文獻整理與研究予以真正意義上的支持與幫助。
三、如何解決古典文獻數據庫存在的問題
古典文獻數據庫存在的問題是十分明顯的,那么如何解決這些問題,以利學術研究(當然包括文獻研究)的迅速發展?筆者以為現在應該設計和開發出新一代文獻數據庫的軟件。按照筆者設想,這代軟件應該以建立能自由升級的公共古典文獻數據庫為目的,是一種以提供強大功能為主、徹底解決版權問題的數據庫,實際上是建立一個規模巨大的功能相對完善的學術研究資源庫。所謂公共古典文獻數據庫是綜合性數據庫,只能由國家有關部門作為主要規劃者,它應該盡可能地包羅我國傳世古典文獻、碑刻資料和出土文獻等。在此基礎上允許建立適應每個研究者研究范圍的個性化的文獻檢索服務系統。個性化的文獻檢索服務系統是指每個具體研究者所擁有的安裝在各自計算機上的文獻檢索服務系統,它擁有一定數量的適合自己研究的范圍的古典文獻文本。其實,各個研究者并不需要一個“包羅萬象”的規模極其巨大的數據庫,即使象占據6至7個G硬盤的《四庫全書》,具體到一個研究者真正需要的內容并不是全部,而是其中一部分內容。
問題的關鍵在于公共古典文獻數據庫與個性化文獻檢索服務系統兩者之間的技術“契合”,即兩者互相兼容的程度。公共古典文獻數據庫應該與個性化文獻檢索服務系統有所區別,公共古典文獻數據庫應該側重于文獻數量的完善、完備,而個性化文獻檢索服務系統則應該考慮其功能強大。因此,從本質上說,公共古典文獻數據庫應該是一個統一的設計比較周密、與其它個性化數據庫在技術上能實現良好兼容的的數據庫;而個性化文獻檢索服務系統應該是“百花齊放”式的但必須能與公共古典文獻數據庫兼容而非各自為政的小型數據庫。兩者關系是源與流的關系。鑒于此,筆者以為目前應該從兩個層次上來解決問題,一是盡快建立公共古典文獻數據庫;一是繼續開發個性化文獻檢索服務系統。
根據筆者近幾年的實踐,感到要解決這些問題并非不可能的。其實只要認真對目前計算機技術在古典文獻整理與研究中存在的問題作一分析與梳理,重點突破一些瓶頸問題,應該說是能解決上述這些問題的。那么怎么才能突破上述這些瓶頸呢?筆者以為以下幾個方面是值得考慮的。
其一,加強總體規劃,建立公共古典文獻數據庫。作為一個具體單位來說,誰也沒有可能建立一個包羅萬象的古典文獻數據庫,因此,這只能由國家有關部門組織人力物力來完成。其實,就目前來說,國家投入資金并不少,但由于制度原因,只是向某些重點院?;蚩蒲袉挝?、向重點項目投入巨資,而這些單位建立起各自為政的古典文獻數據庫、期刊數據庫,雖然也為學術研究作了一些貢獻,但不可否認的是,由于各自設計思路不同,相互之間不能兼容,已經妨礙到數據庫進一步發展了。以筆者愚見,國家有關部門應該主動負起責來,加強領導,重新考慮古典文獻數據庫的立項問題,組織力量、投入資金,真正建立起一個規模巨大、能為絕大多數研究者利用的公共古典文獻數據庫。同時也應該考慮所立項的古典文獻數據庫與其它數據庫(如現代文獻數據庫、當代文獻數據庫、期刊數據庫等)之間的兼容關系,只有這樣,或許若干年之后就能建立起一個價值極大的能真正為學術服務的公共古典文獻數據庫,乃至包羅一切文獻的數據庫。當然,就公共古典文獻數據庫來說,可以進行適量收費服務,但主要仍應該定位在“公益”上,不以“利”為主,這樣才能真正建立一個有價值的公共古典文獻數據庫來。
其二,數據庫內容與文獻檢索服務系統分離。這個問題與上述問題是緊密關聯在一起的,如果不能真正做到數據庫內容與文獻檢索服務系統分離,那么目前“列國紛爭”的面貌是不可能真正解決的。
我們知道,一個古典文獻數據庫實際上是兩大部分組成的,一是古典文獻數據庫內容,即數據庫所包括的文獻文本,二是對這些數據進行管理的文獻檢索服務系統。其實目前所見有關古典文獻數據庫都是“兩者合一”,即既包含一些文獻數據內容,又有具體的操作服務系統。事實上,這些古典文獻數據庫在功能上明顯存在缺陷的。就目前古典文獻數據庫管理形式來說,一是網絡管理,一是個人管理。前者是網絡數據庫,一般是單位所擁有的數據庫,即我們所說的網絡版,后者是安裝在個人電腦中的個人版。就功能來說,網絡版沒有必要具有卡片、文本修訂、書簽等個性化的功能,個人版應該具有做卡片、文本修訂、書簽、文獻管理等個性化的功能。就文獻數量來說,網絡版自然力求文獻內容豐富,盡可能包羅文獻文本,而個人版實際所需要的文獻數量是根據各自研究需要而定的,因而強行“規定”使用所有文獻內容并不值得肯定。就文獻內容來說,網絡版與個人版都應該允許不斷地增加其數據庫文獻內容,但不同的是,網絡版應該是只增不減,而個人版應該允許用戶根據研究需要自由增減文獻內容。
在筆者看來,應該從單純的文本內容競爭的思維中解脫出來,進入以文獻檢索服務系統競爭為主,文本竟爭為輔的體系,或許是解決古籍文獻數據庫的出路。也就是說,擅長計算機技術的開發者(開發商)應該注重文獻檢索服務功能的開發與完善,而具體文本的整理可由研究學術的專業人士來完成。這樣,開發者就可能開發出比較成功的文獻檢索服務系統,而數據庫中的文本也由于專業人士的加入而能大大提高文本的準確率,然后合成為一個規模較大的公共古典文獻數據庫。當然,輸入和整理古典文獻文本可以采用投標(或以申報項目形式)來確定,規定統一格式,要求保證文本的正確率達到一定比例,完成后再分別導入這一公共古典文獻數據庫中;經過若干年努力,最終能形成一個規模巨大、適應于學術研究的公共古典文獻數據庫。我想,采取這種措施不但節省了大量重復投資,真正做到人盡其才,物盡其用,而且一旦建立起這個規模巨大的公共古典文獻數據庫,可以解決了目前數據庫泛濫、文本錯誤太多、重復勞動等弊病,而且真正能做到廣大學者對古典資源“共享共有”。
在此基礎上,各個開發商可以力求開發學者們個性化的文獻檢索服務系統,它無須考慮文獻文本內容,但必須功能強大、操作方便,并與公共古典文獻數據庫完全兼容,學者們通過“購買”文本或其它方式來方便地組建自己的數據庫,這樣或許會給學術研究帶來真正的方便。
還須補充的是,我國的古典文獻中有大量表格與圖片,而由于技術原因,目前所有古典文獻數據庫都沒有導入原著的表格與圖片,極個別數據庫有少量圖片也是不能檢索,這是目前眾多古典文獻數據庫的重大失誤之一。其實只要真正化力氣去探索,這個問題是不難解決的。因為筆者曾作過設計并反復試驗,只要設計合理,圖片與表格不但可以導入數據庫,而且都是可以在數據庫中進行檢索。
其三,加速確定字庫方案,以利數據庫健康發展。當然,要真正解決公共古典文獻數據庫問題,還必須解決字庫問題。目前,國家雖然組織專家在論證有關字庫問題,然而由于進程不快,遠遠落后于當今計算機技術發展的需要。按照筆者的看法,應該建立一個以Unicode字庫為基礎的、適應漢語古籍需要的、并與國際接軌的真正有中國特色的字庫。這就需要抓緊工作,迅速落實擴展字庫B的內碼。同時根據我國漢字的具體特點,對自定義區域的6400字的內碼配置也應該有所規范,這樣才能使漢語字庫統一問題落實到實處。如果真能做到如此,那么就能真正解決目前古典文獻數據庫之間字庫互不兼容問題。
與字庫相關聯的是字體問題。古典文獻數據庫應該考慮到古代文獻對文字的特殊需要,筆者以為凡是古代文獻數據庫中的文本應該保留繁體字,以防繁簡不分而導致文義偏差。就目前計算機技術來說,解決這一問題是毫無困難的。其實用繁體字輸入文本早已不是問題,而掃描古籍文本再轉換成文字的技術也十分成熟,如北京書同文公司的“數碼翰林”OCR識別系統,應該說是極有價值的識別軟件,對絕大多數繁體文字能夠正確識別。如果能再進一步加以改進,使擴充字庫數量并與Unicode字庫兼容,那么古代文獻的文字識別問題是可以得到解決的。應該強調的是,古代文獻以繁體字導入數據庫,但應該允許在數據庫中自由進行繁簡轉換,換句話說,若需要使用繁體字時,文本可以保留繁體字,而需要簡體時,可以十分方便地轉換成簡體,這樣就適應用戶對繁簡體的不同需要了。
其四,徹底解決古典文獻版權問題。這是困撓計算機古典文獻數據庫建設的重要難題之一。自然,這一問題要真正得到落實確實存在相當困難的,因為版權保護工作任重道遠!不過,即使困難再大,古籍文獻數據化的發展的潮流是不可能停止的。筆者以為,有關出版社在維護自身法定的版權權益的前提下,應該從大局出發,在收取一定數量的報酬前提下,允許制作有關古典文獻的數據庫,以利學術研究的發展。至于報酬多少可以也應該實事求是地酌情商定,國家有關部門應該主動與那些出版社協調,亦可將目前大量分散投入到各課題中的資金中抽出部分來補償有關出版社,雙贏互利,以求突破版權瓶頸,早日解決這一棘手的問題。
與此相關的是古典文獻電子文本的版權問題,這也是個極難處理的問題。因為用戶若貪圖小利,版權意識不強,不愿化費代價使用電子文本,就容易產生“盜版”問題,如此就使得制作古典文獻電子文本者的正當利益大受損失。按筆者設想,如果真正能夠由國家有關部門主管古典文獻數據庫建設工作,那么就可以設想建立公共古典文獻數據庫規定導入數據庫的文獻文本都給予一個“統一編號”,沒有統一編號的文獻就不能直接導入公共古典文獻數據庫和個人使用的文獻檢索服務系統中,也就是說,個人使用古典文獻電子文獻必須化費一定的代價才能取得使用權,這樣就可以保證制作古典文獻電子文本者的一定收益,防止版權意識不強者侵權使用。同時由于古典文獻電子文本都有了統一編號,那么也就可以防止某一具體文獻文本重復錄入的問題。即使有部分重復,古典文獻電子文本也可以在用戶選擇過程中優勝劣汰。
其五,建立公平的交易平臺。建立龐大的公共古典文獻數據庫當然需要投入巨大的資金,而這種古典文獻數據庫自然不是每一個普通研究者購買得起的。在筆者看來,大專院校、科研機構應該在經濟允許的前提下購買有關數據庫,以供教學、研究之需。當然也應該允許個人在交納一定數量的經費后,自由上網使用這一數據庫,并允許購買(下載)一定數量的古典文獻文本,自行導入各自的文獻檢索服務系統,以利建立個性化的有實用價值的數據庫。如果真能做到這樣的話,那么就將會促進學術研究的迅速發展。
計算機技術研究方向范文3
(1)計算機技術
計算機技術是當代信息社會中的核心技術,具有明顯的綜合特性,主要包括計算機硬件、軟件及計算機應用等技術。計算機作為一個完整系統,運用了系統結構、系統管理、系統維護及系統應用等方面的系統技術,其部件技術則涵蓋了計算與控制、信息輸入輸出、信息儲存等關鍵技術,計算機器件技術是計算機整個系統的物質基礎,往往標志著計算機技術的變革。計算機軟件主要包括系統軟件、支撐軟件和應用軟件。隨著網絡技術的迅猛發展,系統軟件在網絡化、并行化及智能化等方向日趨成熟。軟件開發方法作為軟件開發技術研究的核心和基礎,經歷了結構化、面向對象的技術階段,目前發展到了基于構件的新型軟件開發階段。計算機技術已廣泛應用于工業、商業、金融、教育、醫療等各個領域,使我們的工作、學習和生活真正開始與數字化接軌,與信息化接軌。
(2)計算機技術發展的趨勢
計算機系統目前采用的硬件體制與專門邏輯已不能適應軟件日趨復雜的發展要求,客觀上迫切需要創造出服從于軟件發展的新體制。并行、聯想、專用功能化以及硬件、固件、軟件相復合,是新體制的重要研究方向。計算機軟件技術主要呈現出網絡化、融合化、可信化、智能化、工程化、服務化的發展趨勢,軟件工程的研究熱點將主要集中在軟件重用、構件技術、中間件、標準化技術等方面。納米計算機、量子計算機等高性能計算機的研究是計算機應用技術發展的必然趨勢,它將使計算機的運算速度提高數十億倍,大大增強計算機的運算、邏輯操作、信息存儲及處理能力。計算機智能化與巨型化的結合也是未來計算機技術的發展趨勢,智能化可以使計算機在現代科學基礎之上模擬人的思維邏輯過程及人的感官行為,代替人們進行日常的聽說讀寫想等行為過程;巨型化則主要突出巨型計算機的包容量大、運算能力強,功能強大等方面的特性。
2通信技術與計算機技術的融合
(1)計算機網絡通信技術
計算機通信技術不但具有較高的傳輸效率、較短的呼叫等待時間,還具有較強的抗干擾能力、很好的兼容性和多樣化的通信形式。當計算機通信技術與大容量、高速率的通信網絡深入融合后,計算機網絡通信技術應運而生,極大地推動了諸多領域的信息化水平,已廣泛應用于經濟、軍事、生產、教育、科學技術及日常生活等各個領域。新世紀計算機網絡通信技術的重要特征是數字化、網絡化和信息化,它本質上是一個以計算機數據處理和網絡通信為核心的信息時代,許多國家都正在致力于研究和制定本國信息基礎結構的規劃,這使計算機網絡通信技術的發展進入了一個新的歷史階段,其應用范圍和應用領域正得到不斷拓展,對人類產生了極為深遠的影響。
(2)信息技術
信息技術作為現代化高科技的先導性技術和關鍵性技術,其核心還是計算機和通信技術。知識和信息資源通過計算機的收集、整理、加工,轉換為新經濟時代的新商品———知識產品,因此我們形象地將計算機比喻成知識產品的“加工廠”。如果說計算機是現代社會中的一個個“神經元”細胞,那么由程控交換機、光纖網、通信衛星及其他現代化通信設備構成的覆蓋全球的通信網絡就是現代社會的“神經系統”。隨著新經濟時代信息化日臻成熟,云計算、移動互聯網和物聯網等新一代信息技術的廣泛應用,信息的增長速度越來越快,信息類型越來越豐富,做為重要的戰略資源,信息的價值日漸凸顯,因此許多科學家將傳遞信息的通信技術稱作知識經濟的生命線。隨著現代通信技術的發展,已擴大了人類信息流動的范圍,縮短了信息傳遞的時間。
(3)通信技術和計算機技術的融合發展趨勢
隨著通信技術和計算機技術的不斷發展,二者融合的速度必將不斷加快?,F代通信網技術正朝著寬頻帶、大容量、遠距離、多用戶、高效率、高保密性、高可靠性、高靈活性的寬帶化、個人化、智能化和綜合化的方向發展,要求能夠支持各類窄帶和寬帶、實時和非實時、恒定速率和可變速率的業務,尤其是支持多媒體業務。這些需求必然依賴于計算機技術強大的運算能力、處理分析能力和信息存儲能力。反過來,計算機技術正朝著開放、集成、高性能和智能化的方向發展,要充分發揮計算機技術在高端科學計算方面、大數據處理、云計算方面的作用,促進科學研究取得新的突破,使人類的工作、生活更加高效,必須依賴于光纖傳輸網絡、無線寬帶網絡等通信技術的進步。因此,計算機技術與通信技術相互依存、相互促進,二者的融合發展是必然趨勢。
3結束語
計算機技術研究方向范文4
關鍵詞:計算機科學與技術;發展趨勢;信息化
引言
計算機科學與技術的發展及應用標志著人類已經進入到信息化時代,而隨著社會科學技術的不斷發展,計算機技術水平也越來越高,在推動社會發展和進步中發揮著越來越重要的作用。而隨著社會的進步與發展,計算機科學與技術發展速度也會越來越快,其應用范圍也會越來越廣。在現代社會里,計算機科學與技術的作用是顯而易見的,以計算機科學與技術為核心,我國社會經濟將取得更好的發展成績。
1 計算機科學與技術的發展現狀
1.1 發展速度快、應用普遍
隨著社會的快速發展,計算機科學與技術的發展速度越來越快??萍甲鳛榈谝簧a力,計算機技術的發展給科技生產提供了新的動力。計算機技術總是在實踐中不斷地完善和發展,以先進的計算機技術來帶給人們更好的服務。而在當下,計算機科學與技術的應用也越來越普遍,已經滲透到社會發展的各個領域,給現代社會的發展帶來了重大影響。
1.2 專業化、多功能化
在計算機科學與技術應用過程中,計算機科學變得越來越專業化,與各行各業的發展越來越緊密。在現代社會里,計算機科學與技術已成為各行各業提高自身競爭實力的有效途徑,而計算機科學與技術的廣泛應用帶動了計算機科學的專業化發展。各行各業越來越看重專業化的人才培養,越來越看重產品的多功能性,而在現代社會里,只有多功能的產品,才能受到人們的關注。
2 計算機科學與技術快速發展的原因
2.1 社會發展的需要
在社會發展進程中,計算機科學與技術也在不斷發展,可以說,計算機科學與技術是隨著和會的發展而發展,計算機科學與技術是為社會發展服務的。起初,計算機的發展是為了滿足時展對信息處理的需求。開始計算機性能也僅僅是滿足了信息處理的需要,而且信息處理速度不夠快。而在現代社會里,計算機的應用已經普遍化,社會發展對計算機性能要求也越來越高,而為了滿足社會發展的需求,計算機科學與技術的研究也越來越深入,計算機科學與技術發展速度也越來越快[1-2]。
2.2 科技飛速發展的必然結果
在現代社會里,科技更新速度越來越快,科技的日新月異必然會帶動計算機科學與技術的發展。技術作為社會發展的動力,隨著信息技術的發展,人們對計算機科學與技術的研究也越來越深入,從而帶動計算機科學與技術的發展,更好地滿足社會發展的需求,推動社會的進步與發展。
3 計算機科學與技術在現代社會發展中的作用
在現代社會里,計算機科學與技術的應用越來越普遍,所起的作用也越來越提出。首先,計算機科學與技術的發展推動了經濟的發展。在現代社會里,各大行業紛紛利用計算機來進行管理,在計算機技術的依托下,提高了企業管理水平和效率,實現了信息的貢獻,為企業帶來了更好的經濟效益。對于企業而言,企業經濟效益提高,企業在市場經濟中的活躍度就會提高,從而推動經濟的發展;其次,推動教育事業的發展。教育作為我國現代社會人才培養的主要途徑,而計算機的出現豐富了教學方法和內容,有助于教育事業的更好發展;再者,計算機科學與技術的發展加快了工業社會向信息化社會轉化進程。計算機技術促進了勞動資料的變革以及勞動方式的變革,現代信息技術為人們提供了更為方便、快捷的處理、存儲和傳遞信息的手段;勞動生產率的提高給予人們日益增多的閑暇時間,即人們能夠更多地從事各項事業的創造性活動[3]。
4 計算機科學與技術的發展趨勢
4.1 智能化的發展趨勢
計算機作為一種設備,它在現代社會發展過程中發揮著重大作用。然而隨著社會的發展,計算機需要處理的數據越來越多,越多越大,計算機在運行過程中所暴露出來的問題也越來越多,普通的計算機已經難以滿足當下對大數據的計算需求。而智能化的計算機將有望解決當前計算機面臨的問題。展望未來,計算機的發展必然要經歷很多新的突破。從目前的發展趨勢來看,未來的計算機將是微電子技術、光學技術、超導技術和電子仿生技術相互結合的產物。在實際應用中,計算機可以通過獨特的設計機構、平行技術等技術實現計算機運行過程中各種數據、指令的合理性分析,從而推動計算機科學與技術的智能化發展。在未來的發展道路上,智能化必將成為社會發展的主要趨勢,利用智能化計算機可以完全取代人工,提高工作效率,更好地滿足社會發展的需要[4]。
4.2 高性能的方向發展
計算機性能問題一直是計算機科學與技術研究的重點。當前,許多計算機都是通過采用合適的芯片來完成相關操作。而在信息時代里,計算機需要處理的信息數據量越來越大,各行各業對計算機性能要求也越來越高。就我國現階段的計算機科學與技術水平來看,與世界發達國家還存在一定的差距,由于計算機技術水平有限,計算機性能還有待于提高。故此,在計算機科學與技術未來發展道路上,高性能的計算機研究已成為必然。只有加大計算機科學與技術的研究,才能提高計算機的系能,從而更好地滿足實際發展的需要,發揮計算機的優越性[5]。
4.3 體驗式的發展
所謂的體驗式就是讓消費者參與、體驗和感受。在現代社會里,體驗式符合了以人為本的現念,已成為社會各行各業相互競爭的一大舉措,如企業開展產品體驗,讓消費者更好地感受產品的功能,從而促使消費者購買。對于計算機科學與技術而言,它是為社會發展所服務的,在計算機科學與技術未來發展道路上,就應當積極地朝著體驗式的方向發展,不斷去完善服務和運用理念。體驗式是注重人的實際感受的,將人的需求和愿望通過科技的進步體現出來,更好地滿足人的欲求。人是計算機操作和運用的主體,而計算機在當代越來越成為個人以及企業實現個人行為以及目的的途徑,計算機的服務也只有更加去人性化,才能獲得更好的市場反饋[6]。
5 結束語
綜上所述,計算機科學與技術的發展已成為我國現代社會發展的重要一部分,正在逐漸滲透社會發展的各個領域。計算機科學與技術的發展改變了人們的生活、學習、工作方式,提高了社會發展速度。而隨著計算機科學與技術研究的深入,計算機科學與技術也逐漸向著智能化、高性能化、多元化的方向發展,將真正地實現工業社會向信息化社會的轉變,推動社會的更好發展。
參考文獻
[1]鄭宏莉.探究計算機科學與技術的發展趨勢[J].黑龍江科技信息,2014,36:149-150.
[2]劉博.淺談計算機科學與技術的發展趨勢[J].計算機光盤軟件與應用,2015,03:106-107.
[3]謝平.對計算機科學與技術發展趨勢的探討[J].計算機光盤軟件與應用,2012,05:125-126.
[4]甘黛嫻.計算機科學與技術的發展趨勢探析[J].計算機光盤軟件與應用,2012,06:97+96.
[5]吾買爾?孜亞吾東.計算機科學與技術發展趨勢研究[J].電子世界,2013,15:16-18.
計算機技術研究方向范文5
本文結合網絡日志數據挖掘技術,通過對Frame頁面和SubFrame頁面進行分析,提出基于改進的F
>> 基于數據挖掘的網絡日志分析 Web日志挖掘中的數據預處理研究 Web日志挖掘的數據預處理研究 基于Hadoop的網絡日志挖掘方案的設計 Web日志挖掘中的數據預處理技術研究 Web日志挖掘中的數據預處理技術研究與實現 網絡日志隨心記 網絡日志引發的教學思考 高校網絡日志大數據分析平臺研究 數據挖掘預處理技術的研究 基于Python語言的網絡日志處理系統設計 WEB日志數據預處理算法研究與實現 基于Web日志挖掘的頁面興趣度方法的改進 Web日志挖掘中預處理過程的具體研究 Web日志挖掘預處理中會話識別算法的優化 網絡日志系統在教學應用中的研究 接受美學視野下的網絡日志文學 寫不一樣的網絡日志 微地震數據預處理方法研究 數據挖掘的預處理技術研究 常見問題解答 當前所在位置:l,top.html,left.html,main.html,…}
輸出:判定策略
For each users session
{
currentframe=null
make_node(web)
if((cerrenframe, pid, ∈FS) make_tree(currentframe,web_left)
Else if pid, ∈dom(FS)
{curremtframe pidi make_decition_tree(currentframe,web_left}
else make_decition-tree(currentframe,web_rleft
if attribute_list=null{make_decition_tree(currentframe,web_right);}
else if(one ofattribute_list)>allgain
currentframe=test-attribute;
make_decition(ai,web_left)
Else generate_decision_tree(ai,web_right)
}
上述策略認為,訪問站點的頁面為根節點,具有信息增益最高的特征,currentframe變量記錄web當前頁面pidi。若當前頁面pidi不屬于frame頁面,則歸類左子樹,反之當前頁面pidi歸入右子樹。即pid,∈DOM(FS)。而frame頁面的subframe頁面歸類左子樹。這樣一來,frame頁面為決策樹右樹,subframe頁面為決策樹左樹,subframe頁面在會話識別階段得到保留,以便后續路徑補充。該方法優化了站點的組織結構,較好提升了網絡日志數據預處理效率。
3 實驗分析
我們通過Frame頁面過濾預處理方法實驗,驗證本文提出的改進方法。實驗提取700個日志所記錄的訪問頁面,共20萬條日志文件,結合本文提出的改進Frame頁面網絡日志數據挖掘預處理方法,與傳統頁面預處理方法進行對比測試。結果如表1所示。
在表1中,絕對支持度表示用戶頻繁訪問頁面的最小會話數,FSi表示用戶頻繁訪問頁面集合數,*為用戶不感興趣的頁面集,表示頁面集是用戶感興趣的,表示頁面集用戶感興趣程度加強。實驗表明,改進Frame頁面過濾方法相比傳統方法,預處理結果得到提高,因此,網絡日志的數據挖掘效率得到加強。
4 小結
本文通過對網絡日志數據挖掘預處理技術進行分析,結合預處理過程中的實際情況,著重考慮SubFrame頁面剔除對站點組織結構的影響,提出了改進的Frame頁面網絡日志數據挖掘預處理方法,實驗表明,該方法較好的提高了網絡日志數據挖掘的預處理精度和效率。
參考文獻
[1]方元康等.一種改進的Web日志會話識別方法[J].計算機技術與發展,2008,18(11):214-216.
[2]朱明.數據挖掘[M].合肥:中國科技大學出版社,2008:13-56.
[3]朱志國等.持久偏愛的Web用戶訪問路徑信息挖掘方法[J].情報學報,2010,29(2).
[4]凌海峰等.基于混合蟻群算法的web用戶會話聚類[J].計算機工程與應用,2013(22).
[5]韓法旺.Web日志挖掘數據預處理過程研究[J].南京工業職業技術學院學報,2012(2).
[6]凌海峰等.基于聚類的web用戶會話識別優化方法[J].計算機應用研究,2012(8).
作者簡介
龔壘(1984-),男,河南省淅川縣人?,F為南陽醫學高等專科學校助教。研究方向為計算機應用技術。
計算機技術研究方向范文6
【作者簡介】
趙春江現任國家農業信息化工程技術研究中心、北京農業信息技術研究中心和農業部農業信息技術重點開放實驗室主任,北京農業信息化學會理事長。
長期從事農業和農村信息化技術研究應用工作,主要研究方向為農業智能系統和精準農業。
2009年,我國農業和農村信息化應按照“統籌城鄉、協調發展,促進經濟、拉動內需,改善民生,引導消費”的指導思想,圍繞提高農村收入、做好公共服務、擴大就業渠道、改善生活條件等工作,加強農業信息技術研究開發和農村信息服務硬件條件建設,整合現有信息資源,大力推廣應用低成本信息技術產品,提高農村信息服務能力。
精準農業與智能裝備技術
1. 3S技術集成應用是重要方向。重點是充分利用全球定位系統、遙感監測系統、地理信息系統以及農業專家系統等技術,對整個農業生產的前期、中期、后期進行細化管理; 以3S技術為基礎的農業資源管理、產業布局優化、農情監測、災害預警、突發事件處理,以及面向政府職能部門的管理決策等需求,將成為信息技術快速發展的重要驅動力。
2. 無線傳感器網絡技術前景廣闊。作為“普適計算”思想衍生的產物,無線傳感器網絡的優點和特點已經日趨得到認可,特別是無線傳感器網絡和已有的網絡體系結構相互結合,將有利于解決當前農業生產中的信息現場在線采集問題,預期無線傳感器網絡在現代農業生產和管理中的應用前景會十分廣闊。
3. 智能化農業裝備是重要突破點。以信息技術和智能裝備技術為支撐,綜合現代種(養)植業管理方法,以提高農產品產量、品質和改善環境為目標的精準農業,已成為國際上現代農業發展的前沿,將是今后一定時期內信息農業的重要發展方向。集成遺傳算法、模糊邏輯、人工智能技術,研制智能化的生產工具、智能裝備(機械/儀器)、農業智能機器人等將是現代農業發展的重中之重。
農產品安全質量
全程信息化監管
十七屆三中全會明確提出,“加強農業標準化和農產品質量安全工作,嚴格產地環境、投入品使用、生產過程、產品質量全程監控,切實落實農產品生產、收購、儲運、加工、銷售各環節的質量安全監管責任,杜絕不合格產品進入市場。支持發展綠色食品和有機食品,加大農產品注冊商標和地理標志保護力度”。因此,面向主要農產品供應鏈管理,集成應用計算機技術和自動識別技術,構建農產品質量全程監管技術體系,對于加強政府對農產品安全的監管能力、滿足消費者知情權、整體提升農產品的市場競爭力等都將起到重要作用。
1. 農產品生產過程質量控制軟件需求旺盛。隨著我國在農產品生產領域逐步推廣GAP和HACCP體系,對基于該體系的農產品生產過程質量控制的軟件需求將會日趨強烈,能夠銜接無公害、綠色和有機農產品生產標準和實現定量化GAP風險分析是體現信息系統價值的關鍵,而運行在便攜式PDA和手機等終端上的嵌入式信息系統產品,則特別適合我國當前農產品的分散式生產模式。
2. 漢信碼和RFID技術將得到廣泛應用。作為我國具有自主知識產權的成果,漢信碼(GB/T 21049-2007)必然將在農產品供應鏈全程,尤其是產品包裝標識領域得以大范圍推廣和應用; 條碼及RFID讀寫器將向多功能、多接口、多制式、模塊化、小型化、便攜式、嵌入式等方向發展,RFID中間件技術將廣泛應用于農產品供應鏈全程信息管理和傳遞。
3. 基于協同供應鏈的農產品流通信息化是必然趨勢。農產品流通是完整的供應鏈體系,是完整的協同商務過程。一個農產品生產企業在農產品供應鏈中既是上游農產品物資供應企業的消費者,又是下游農產品加工企業的原料供應者。這一環環相扣的農產品協同供應鏈的信息化和智能化管理信息系統,是目前國內外研究機構和大型信息化產品供應商的研發方向。
4. 市場需要多途徑溯源技術及制定標準規范。需要研究計算機網絡、無線通信網絡和電話網絡對同一數據庫的訪問協議,開發支持短信網關、PSTN網關、IP網關的通用API,實現同一數據庫下的多方式查詢。最終實現計算機網絡、無線通信網絡和電話網絡多途徑追溯,并逐漸形成各途徑溯源的標準規范。
農村信息化服務
1. 多網絡集成和融合是必然趨勢。農業信息的“最初一公里”、“最后一公里”、資源信息共享等是今后需要解決的突出問題,十七屆三中全會提出“推進廣電網、電信網、互聯網‘三網融合’,積極發揮信息化為農服務作用”,為今后農村網絡基礎設施整合提供出了新的要求?;谟嬎銠C網絡、電視網絡、電信網絡甚至衛星通信網絡融合的集成應用將是我國未來農村信息發展的重點。