搜索引擎研究范例6篇

前言:中文期刊網精心挑選了搜索引擎研究范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。

搜索引擎研究

搜索引擎研究范文1

1.1 SEO市場規模

根據SEMPO的北美搜索營銷(SEM)市場規模數據發現,搜索營銷市場主要由競價排名、付費收錄、自然排名優化和搜索營銷技術四項業務構成。

2006年北美SEM市場的主體業務依然是競價排名(Paid Placement,也稱付費鏈接)業務,市場規模達80.64億美元,占SEM市場總規模的85.9%.而自然排名優化(Organic SEO)業務規模達11.07億美元,占SEM市場比重達11.8%。

艾瑞2009中國搜索引擎市場份額報告,中國搜索引擎營銷市場規模達69.6億元,占網絡廣告市場的33.6%。根據美國的數據10:1比例分析,在中國的自然排名優化(Organic SEO)市場規模約為6億元左右。

1.2 SEO公司

自2003年SEO技術進入中國市場以來,經歷了萌芽、初級發展階段,逐步進入高速發展階段,市場經過激烈競爭慢慢孵化出較有規模的自然排名優化服務公司,同時技術也在不斷得到提升。

中國SEO市場表現最為活躍的城市有北京、上海、廣州等地,并向其周邊城市蔓延。中小型企業對SEO服務需求量增長加快,二級城市的小型網絡公司也為客戶提供了SEO基礎業務。

更多技術型企業利用SEO技術結合產品研發,進行平臺級運營,轉換商業模式為個人用戶、中小型企業提供服務。在互聯網中能夠生存的互聯網公司都會掌握SEO的部分技術。

1.3 SEO從業人員素質

搜索引擎自然排名優化技術入門門檻較低,互聯網又缺少新生代產品,越來越多的網絡從業人員愿意加入到這個行業中來。不少網絡型企業公司對SEOer需求逐步上升,對入門級SEO技術人員增加了就業崗位。

中國搜索引擎優化技術步入中國較晚,中高端平臺運營級SEO人才資源也是比較稀缺,大部分大中型企業都會對SEO人員招聘放低要求。此類SEO人員掌握的不僅僅是單方面知識及運營技巧,更懂得SEO產品商業運用的實施。

不少SE O中高端人才能夠細分行業深層次的理論研究,做好技術細節,專業化運營、整合營銷,作為需要更高的職業研究方向,對工作要求的人員技術含量也在不斷的提升。

2 SEO發展方向

2.1 前景

網民對搜索引擎搜索已經養成了習慣,漸漸的把搜索引擎做為互聯網入口。不僅是娛樂、學習、商業行為等大部分人都是以搜索引擎為主找信息、查資料、尋產品。

搜索引擎創造了信息財富市場,企業利用網民的搜索習慣,通過搜索引擎SEO技術轉換商業利潤。搜索引擎市場份額的不斷攀升,給了SEO市場很大的機會,更多企業得到SEM服務的同時,也會選擇自然排名優化服務。在未來企業對搜索引擎精準營銷的更為依賴,做為SEO方向發展的公司前景比較可觀,正是市場所需。

2.2 市場

由于目前的SEO技術及商業模式不成熟,市場優勝劣汰的原則造就了大部分SEO網絡公司成為了先驅。既然這個領域有市場,市場規模不斷擴大。那么總會有人會運用好它,從中牟利,那么可以把分為以下幾種:

第一種是,SEO公司為客戶提供制定關鍵詞自然搜索排名服務,站在產品角度來看不可復制的產品服務,缺陷的部分就是依賴第三方環境做為贏利點。不過在激烈的市場競爭中也有不少發展較有規模的企業。

第二種是,SEO替代產品市場,結合搜素引擎優化研發出平臺級內容服務產品,比如像8684、58、趕集這樣的平臺,起步較晚但在通過內容服務的同時利用搜索引擎迅速做大的平臺運營企業。

第三種就是網建市場將SEO這塊納入基礎服務的產品化平臺,主要針對服務客戶群還是中小型企業,客戶通過購買建站的同時獲得SEO方面的服務,此類研發的平臺有勤加緣、銘萬、一呼百應等互聯網企業。結合巨大的網建市場推出SEO增值服務,深受中小型企業青睞。

2.3 技術

未來的互聯網不斷發展優化技術同時也是,作為SEOER的個人能力針對網站優化主要表現在下面幾個方面:

2.3.1 關鍵詞排名優化

系統結構、鏈接交換、有效鏈接資源利用、代碼優化、搜索引擎周邊工具的應用。

2.3.2 關鍵詞策略

所說的關鍵詞策略,并不是針對某一群關鍵詞策略化,而是針對互聯網平臺產品能夠進行合理的資源配備,目前大型網絡公司招的SEO人員的主要任務之一,也是一門值得研究的學問。

2.3.3 網站群應用

互聯網平臺產品網站群是SEO操作的一種應用方法,通常表現在細分行業、向周邊行業延伸建立頻道與外部網站加強鏈接合作,增強站內資源在搜索引擎效果更好,直接性搜索引擎流量增長的方法。

2.3.4 資源整合

資源整合不僅應用到企業戰略調整的手段,也應用到平臺SEO流量戰略層面,進行優化資源配置增強平臺的核心競爭力。戰術層面上更是戰略調整能做出發展有效的決策。

搜索引擎研究范文2

【關鍵詞】網絡;搜索引擎;翻譯

中圖分類號:H059

文獻標識碼:A

文章編號:1006-0278(2013)03-228-01

在信息技術和通信技術高速發展的今天,具有豐富資源的互聯網已在人們生活和學習中產生了極大的影響并占據了重要地位。在海量的網絡資源中查找相關的有用資源時,我們必須利用搜索引擎(search engine)。如何有效地利用互聯網搜索引擎輔助翻譯應成為業界研究的重要課題。

一、網絡搜索引擎輔助翻譯(ISEAT)的定義

計算機技術的不斷發展讓人們期待著能利用計算機輔助語言翻譯,簡稱CAT。CAT經過多年發展,包含有語料庫輔助翻譯、電子詞典輔助翻譯、網絡輔助翻譯、軟件輔助翻譯等多種形式。ISEAT是CAT一種形式,通過利用搜索引擎為譯者在海量的網絡資源中快速尋找到適用的語句或語句成分,從而提高翻譯的效率和準確性。在文章中,重點研究的是利用搜索引擎輔助詞匯的翻譯。

二、網絡搜索引擎的種類和特點

搜索引擎主要可分為三種:全文搜索引擎,如Google、Ba-idu;目錄索引類搜索引擎,如雅虎、搜狐、新浪、網易等;元搜索引擎;如Infospace、搜星搜索等。我們常用的搜索引擎為全文搜索引擎,其原理是通過機器手(即Spider程序)到各網站收集、存儲信息,并建立在線索引數據庫供用戶查詢。這些檢索數據庫規模大,信息豐富,搜錄網頁多,查詢方便,更新快。以Google為例,其檢索的各種語言網頁數量達數百億,涉及的范圍非常廣,如天文地理、歷史文化、經濟、科學等。其語料豐富并不斷更新,因此,搜索引擎檢索庫能從理解文本、詞語選擇、檢查校對等方面為譯者提供極大幫助。ISEAT并不僅是單純選用其中的語料,它還具備提供網絡在線詞典、百科全書、文本范本、查找專有名詞、幫助譯者熟悉翻譯原文的背景知識等其他功能,下文中我們都將以“Google”為例來說明。

三、搜索引擎在翻譯中的應用

(一)查找網絡在線詞典

詞典是翻譯過程中必不可少的工具。傳統紙介質詞典編撰耗時長,更新較慢,很難查到新近出現的詞語及其用法。且使用者可隨時查閱的詞典種類并不多,當遇專業性詞匯時往往無法及時解決。而網絡在線詞典容量大、更新快、使用方便,數量多,如進入google com,在搜索欄內輸入“Chin-ese-English Dictionary”或“English-Chinese Dictionary”就會出現上萬項符合要求的字典。輸入不同的關鍵詞,搜索結果會顯示不同的內容。雖然上述字典良莠不齊,但也有很多優秀的字典如:當代漢英在線詞典、韋氏在線詞典等。當在翻譯中遇到生僻詞語時,可在其中找到對應的譯文。

(二)查找專有名詞和術語譯法

盡管在線詞典容量大,詞新,但仍然缺少很多人名、地名、專有名詞和術語等。網上的資源相當豐富,不論翻譯的原文屬于哪一學科,通過搜索引擎都可以在互聯網上找到相關的網頁或相對應的詞庫。而現在的網頁多數都有中英文對照版本,這樣就為查找姓名、地名、專有名詞和術語的譯文和原文提供了極大的方便。一般來說,常見的英文人名、地名已經有著一些約定俗成的譯法。當我們不熟悉的人名出現時,我們可以查找搜索引擎翻譯。將“Rococo”鍵入搜索欄,然后查找中文網頁,便獲得大量項匹配的網頁,其中就有對“羅可可藝術”的中文介紹,在使用“羅可可”這個翻譯的較權威學網站也很多。由此也可確定上述為恰當準確的譯文。

(三)查找新詞的譯法

傳統的工具書或百科全書有一定滯后性。互聯網上的資源涵蓋面全而新,所提供的信息幾乎能滿足我們對新詞翻譯或解釋的所有需要。針對漢語英譯,China daily網站上有一個專門的漢英對照新詞詞匯庫(http//.cn/chinesetem.shm1),在那里我們可以查到大量新出現的中國特有的詞匯或表達方式。除了上述的詞庫之外,我們還可以從中英文對照的網頁上查找到所需資訊,如多數政府、公司、大學、正規出版物(如報紙、科技文獻等)的網頁都有中英文版本。

(四)查找或檢驗單詞固定搭配或常用搭配

搜索引擎研究范文3

據艾瑞咨詢數據顯示,去年我國的搜索引擎市場規模達到109.8億元,年同比增長57.7%,未來市場潛力巨大。展望中國搜索引擎市場發展趨勢,桌面軟件和搜索服務的結合將更加普遍,并且成為新進者迅速切入市場的突破點;垂直領域的優秀廠商通過合作或自主研發進入搜索市場可以預見;此外,微博的高速發展,使得實時搜索的發展具備想象空間。

縱觀幾大搜索引擎,百度連續推出了百度框計算,以及首頁改版,仍舊圍繞搜索引擎的核心“搜索”而不斷推出各種衍生的新產品;谷歌創新不斷,卻總存在問題;搜狗、搜搜、有道等運營商也連續發力;以往鏈點點通為代表的集桌面管理、網址導航、網絡應用和搜索引擎為一體的軟件面板形式,順應趨勢發展后力無窮。

技術創新能夠推動行業進步,而技術存在及發展的基礎仍舊是用戶。因此,創造一項嶄新的技術,不如先創造一項用戶的需求,只有在用戶層面的創新,才能開創一個全新的搜索引擎時代。

搜索引擎研究范文4

[關鍵詞]搜索引擎 評價指標體系 特點 發展

[分類號]G354.4

1 引言

據CNNIC第21次中國互聯網調查報告數據顯示,中國目前2.1億網民中,經常使用搜索引擎的人數高達72.4%,他們日常生活信息有70%以上是通過網絡獲得的。

在信息爆炸的今天,互聯網海量信息需要經過篩選進入人們的視野,從傳播學角度講,需要一個信息把關人的角色,將海量信息分類、匯總、準確地傳輸到需求者面前;從網絡功能講,沒有任何互聯網工具比搜索引擎更適合這個角色了。

有需求,自然就會產生市場。網絡巨頭紛紛把利潤中心轉向搜索引擎市場,除了google、baidu、yahoo!等專業搜索機構,甚至連sina、sohu等門戶也開始介入搜索引擎領域,一時間,搜索引擎成為網絡經營公司的重要產品。搜索引擎評價指標體系,為我們提供了一個了解、分辨、選擇搜索引擎的學術標準,充分了解分析這個指標體系,是我們研究搜索引擎的首要條件。

2 評價指標體系分析

本部分主要對國內外幾個核心學者的評價體系進行對比分析,并且結合若干篇較新的論文中的評價指標,討論它們之間的區別和繼承性,并總結當前搜索引擎評價指標體系研究的重點與不足。

2.1 Lancaster評價指標體系

1973年,美國學者Lancaster和Fayen曾列出6項衡量信息檢索系統的評價指標:覆蓋范圍、查全率、查準率、響應時間、用戶負擔和檢索結果輸出格式。這是傳統書目聯機檢索的評價指標,顯然,他們當時無法考察目前復雜網絡檢索甚至搜索引擎的檢索情況,但已經從技術以及用戶需求方面給后來者們建立了一個基本框架,奠定了從技術和用戶角度出發的搜索引擎評價指標體系發展方向,隨后的許多評價體系都是按照這個脈絡建立的。這個評價指標體系從檢索源、檢索效果、檢索輸出以及用戶使用角度考慮了信息檢索系統可能的評價點,并強調了檢索輸出格式的重要性,這與書目聯機檢索特點是分不開的。這套體系并未預料到若干年后網絡條件下的檢索源復雜度、檢索技術多樣性和用戶要求,所提出的評價指標可以作為目前搜索引擎評價指標體系的基礎評價指標。

2.2 Heting Chu、Marilyn Rosenthal評價指標體系

Heting Chu、Marilyn Rosenthal在對Alta Vista、Excite和LyCOS三個搜索引擎進行比較研究之后提出應該從標引、檢索能力、檢索效果、輸出和用戶負擔方面評價搜索引擎。Alta Vista、Excite的特點使得研究者注意到了搜索引擎檢索中標引水平和檢索能力的重要作用??梢钥闯觯阉饕嬖u價指標體系的發展,是同搜索引擎技術的發展分不開的,隨著搜索引擎檢索能力的提高,其評價指標體系也開始逐步豐富擴展,直接針對核心新技術產生了相應的評價指標體系。

2.3 Bar-Ila評價指標體系

Bar-Ila提出應從數據庫覆蓋范圍、查詢響應時間、用戶所需努力和檢索效果來評估搜索引擎的性能。國外搜索引擎評價研究最主要的一個特點是強調“人性化”。因此,他們在確定評價指標的過程中,在充分強調檢索效率重要性的同時,常常把用戶負擔放在第一位。與Lancaster評價指標、體系相比,這個指標體系沒有本質的增加,但是將查全率以及查準率作為檢索效果進行描述,是搜索引擎評價指標系統化思想的一個體現。

2.4 曾民族綜合評價指標體系

1997年,國內學者曾民族在綜合國內外搜索引擎評價研究成果的基礎上,提出了以下6類評價指標:數據庫規模和內容、索引方法、檢索功能、檢索結果、用戶界面、查準率和響應時間。

這套評價指標,是在考察當時網絡信息資源特點、網絡查詢工具、www查詢引擎、網絡自動檢索技術和Internet搜索引擎實例,并總結已有國外搜索引擎評價研究成果的基礎上提出的,是對當時研究領域與搜索相關的各項技術指標的整合,具有較高的理論覆蓋度和理論價值。但是,因為目前沒有搜索引擎可以做到集成最新索引、檢索技術、用戶服務,所以這套評價指標體系只能作為一個綜合備選庫,而實際對某些搜索引擎進行評價時,可以從這個指標庫當中抽取需要的指標進行組合。

需要注意的是,曾民族對傳統檢索效果部分沒有統一指明,而是在第六點的其他部分點出查準率和響應時間,是由其對目前網絡條件下信息資源特點的分析所得出的。曾教授認為:“信息源分散、無序、更迭、消亡無法預測。信息源的無政府狀態迫使人們更改相關性判斷的概念和標準。用戶無法判斷網上有多少信息同自己需求有關,查全率等檢索評價標準需要重新定義。”建立在目前網絡信息源巨量化、分散、無序、不可預知的基礎上,資源總量已經無法確定,所以查全率也就不得而知。筆者認為,面對全網絡的搜索引擎檢索,查全率之說固然不現實,但許多專業領域搜索引擎評價中,查全率也是一個非常重要且實際的指標,鑒于曾教授對整個網絡資源進行評價指標體系設計,不考慮查全率也無可厚非,但對于具體的搜索引擎實例,查全率理應成為評價指標體系的一部分。

2.5 宛玲等提出的10種評價指標體系

宛玲等在《試析中文搜索引擎的評價標準》一文中,提出了10種中文搜索引擎的評價指標,分別是:收錄信息范圍、反饋的信息量及內容的準確性、反饋的查詢結果錯誤率、報道與內容更新速度、檢索性能、響應時間、檢索界面友好性、精品推薦、與其他搜索引擎的友情鏈接、系統性能、點擊率、附加功能等。

這套指標除包含數據庫規模、檢索性能、檢索效果、用戶界面等類型指標之外,還強調了精品推薦、與其他搜索引擎的友情鏈接、系統性能等與用戶使用相關的方面,這是國內搜索引擎評價指標研究的一個提高,在領悟國外強調“人性化”的基礎上,將用戶使用體驗列為搜索引擎評價的重要內容。

隨著web使用技術的提高,web用戶服務意識不斷增強,其對搜索引擎的使用已經不簡單局限在技術要求上,“人性化”要求也越來越多,精品推薦、友情鏈接等服務內容也開始出現,將其作為搜索引擎評價指標來研究具有很大的創新意義。就這篇論文的評價指標體系來說,似乎有過于強調用戶體驗的嫌疑,前幾種評價指標沒有進行很好的體系構建,過于松散和用戶化。

2.6 韓圣龍關于查準率的改進

韓圣龍在《網絡信息檢索工具評價指標》一文討論了網絡信息環境下傳統的信息檢索評價指標體系遇到的困難,并在介紹“相關性范疇”和“命中記錄查準率”概念后對查準率公式作了改進。查準率仍舊是搜索引擎評價指標體系

的核心,查準率的提高直接反映出搜索引擎的性能,仍舊是當今學者研究的熱點。

文章結尾部分補充了對輸出格式的靈活性、數據更新頻率、鏈接的可靠性和用戶界面友好程度4個方面的展望,也充分說明了當前學者對用戶體驗指標重視程度的提高。

2.7 劉偉成關于元搜索引擎評價的研究

劉偉成在《元搜索引擎性能評價體系研究》一文中提出關于元搜索引擎一些主要性能的評價指標。由于元搜索引擎不同于單個搜索引擎的特點,關注搜索范圍和結果顯示是元搜索引擎評價的一個重要方面。元搜索引擎緩解了web數據的增長對單個搜索引擎索引網絡數據收集速度的影響,在覆蓋率方面有著明顯的優勢,評價元搜索引擎的搜索指標,覆蓋范圍必不可少。從使用角度講,元搜索引擎的搜索功能和效果特點不是非常突出,檢索控制與提問功能則是需要注意的。此外,檢索結果的輸出及用戶界面是元搜索引擎評價的另外一個重點,對比單個搜索引擎來說,由于元搜索引擎沒有非常強的核心技術,其用戶體驗評價變得重要起來。

3 評價指標體系研究特點及發展

從以上7種評價指標體系的介紹不難看出,搜索引擎評價指標體系的發展是一個指標內容逐漸豐富、指標性質逐漸商業化的過程,見表1。

在眾評價指標體系中,檢索能力(查全率、查準率)、用戶負擔、檢索結果都是作為核心指標出現的,是對搜索引擎基本功能的描述,代表了搜索引擎評價的最低要求。用戶體驗評價是近年來搜索引擎評價指標發展的一個特點,在搜索引擎功能發展到一定階段的同時,能否使用戶獲得優良的使用體驗,成為目前搜索引擎商業化成功與否的重要評價指標。

總體來說,我國搜索引擎評價指標體系的發展,建立在綜合國外研究成果的基礎之上,并結合了我國搜索引擎的現狀是綜合并呈一定體系的發展過程。一方面,沿用了國外評價指標發展重技術、重用戶的特征,在體系建設具有全面、豐富的特點,形成了全面建設加專攻一面的發展格局;另一方面,顯示了搜索引擎商業化發展對相關研究的影響。精品推薦、點擊率、附加功能、鏈接可靠性等評價指標的出現,要求研究者們更需要注重用戶體驗層次上的商業效益。

就目前發展狀況來看,評價指標體系已經較為成熟,但還存在以下問題:

3.1 技術主導

目前國內學者的研究,多數是從檢索性能和效果方面重點建立指標評價體系。對搜索引擎檢索功能的評價文章頗多,對檢索效果方面也有更為深入的研究,而且日漸成熟。查全率、查準率是技術評價的核心,如何能使搜索引擎全面、準確地反饋網絡信息資源,將是長盛不衰的主題。

檢索功能的特點越來越突出,內容越來越豐富。從布爾檢索、關鍵詞判斷到概念檢索、上下文關鍵詞的評價,反映了搜索引擎技術日臻成熟,其評價指標也越來越全面。但隨著技術的發展,搜索引擎的未來不得而知,所以檢索功能評價指標也有著很大的發展空間。

3.2 系統化研究

評價指標系統化、體系化是促進研究全面、健康發展的重要手段。搜索引擎的評價指標之間是存在聯系的,是一個和諧、功能互補的整體,關注他們之間的聯系要比關注評價點本身更有意義。

搜索引擎評價指標體系的建立,主要遵循了從覆蓋范圍到技術核心,由檢索結果到用戶體驗的信息傳遞流程。在某個小范圍的指標族當中,也有著很強的體系關系,研究這些體系關系,對于原有指標的修改、新指標的提出乃至整個指標體系的發展都有著重要的意義。

3.3 重視用戶體驗

國外搜索引擎評價研究最主要的一個特點是強調“人性化”。在確定評價指標的過程中,充分強調檢索效率重要性的同時,常常把用戶負擔放在第一位。

隨著用戶服務意識的提高,關注用戶負擔已經遠遠不能滿足用戶使用搜索引擎的需求,還需要增加用戶體驗。

3.4 品牌評價有待提高

筆者認為,在建立現階段搜索引擎評價指標體系的同時,不妨引入“品牌”概念。在經濟高速發展的今天,搜索引擎已經不單單是一項技術研究,更是一款有著廣大用戶知名度的產品,“品牌忠誠度”、“品牌美譽度”完全可以成為搜索引擎評價指標體系的借鑒,畢竟,衡量搜索引擎產品的好壞,用戶的評價才最關鍵。

品牌對于一個網絡產品的作用是不言而喻的。首先,品牌能夠幫助搜索引擎吸引用戶和保留用戶,用戶的使用和回饋又成為搜索引擎品牌積累的成本;其次,品牌效應能夠使搜索引擎的地位得到提升,這已經不是搜索功能能夠做到的了,一個好的搜索引擎的成長,不僅需要具備良好的搜索功能,更需要強勢的業界地位,良性的壓力才能促進其發展;再次,品牌是搜索引擎產品覆蓋率的象征,隨著社會經濟化、產業化的發展,品牌的效用會越來越突出,一個成功的、強勢的品牌也將成為搜索引擎評價的一項重要指標。

4 小結

技術、用戶是計算機技術產品市場化始終需要面對的兩個問題。搜索引擎的發展,是從用戶需要開始的,經歷了長時間的技術研究,并最終實現搜索引擎產品,得到市場推廣,接著,由推廣效果得到改進意見,進而優化產品,再推廣。在這個過程中,搜索業界的學者開始對搜索引擎評價研究,目的是給搜索引擎的發展提供一套系統化、科學化的參考意見。

搜索引擎研究范文5

關鍵詞 計算機 搜索引擎 智能化 技術

中圖分類號:TP3 文獻標識碼:A

0前言

搜索引擎也可被稱作一種程序,通過對用戶提供的關鍵詞進行計算、分類、搜索、返回,達到向用戶推送需要信息的操作。但搜索引擎會因為數據庫信息龐大、語言信息復雜、SEO作弊優化等情況降低搜索效率及準確性,所以搜索引擎加入智能化技術勢在必行。

1計算機搜索引擎計術

1.1搜索引擎原理

計算機搜索引擎的來源是根據數據庫內相關內容的搜索操作發展而成,目前的搜索引擎已經不再局限于數據庫內相關內容的搜索,發展到針對互聯網搜索的操作。

搜索引擎技術種類繁多,我們常用的有綜合門戶類(百度、谷歌類)和鏈接評價類。無論哪種技術都是用戶通過對關鍵詞的設定在搜索互聯網數據庫中進行搜索,并能搜索到準確或備用信息返回給用戶。

這種搜索是利用SPIDER蜘蛛在互聯網內各種開放性信息之間進行搜索,我們稱之為SPIDER蜘蛛機器人。蜘蛛爬行搜索是根據提供的關鍵詞,起始一個URL列表,利用鏈接形式進行整個互聯網的搜索,有的網站在ROBOTS文件中設置禁止蜘蛛爬行,這不屬于公開信息類,所以蜘蛛在搜索過程中將此類網站排除。直至URL列表為空或數據庫磁盤已滿,搜索終止。

1.2搜索引擎的障礙

搜索引擎目前具有一定的局限性,由于信息分類不夠準確、信息排序能力不強或信息更新速度慢、信息評價無作用等情況阻礙了搜索引擎的發展。

信息分類不夠準確,因為在對信息建立時便不能準確處理,信息內容復雜,類別自然多樣化。當關鍵詞出現的概率和信息類別、信息內容處理不平衡時,導致信息分類不準確。

人們現在所使用的搜索引擎,實際上為準確排序做了優化工作。但由于SEO優化過程中很容易投機取巧、進入極端優化,導致搜索引擎在排序方面出現錯誤。某些網站在做SEO優化時采用作弊行為優化排名,這種行為在搜索引擎中很難被發現,所以會出現作弊網站的排名至前。眾所周之,互聯網的信息量巨大,為我們提供很好的生活幫助,但也是由于信息量過大,導致一些信息更新不及時,經常會發生一些信息不能跟進實時搜索或者信息搜索位置不變等情況。

搜索引擎的障礙還體現于搜索引擎中收錄的信息評價能力弱,舉例說明,網站上設置多個關鍵詞,基本類似,這樣可以增加搜索引擎的收錄和排名,但這種收錄情況對用戶基本沒有用處。目前計算機搜索引擎還未能對信息進行客觀評價,從而篩選出關鍵詞和信息內容相匹配的信息。

2搜索引擎智能化技術分析

當計算機搜索引擎發現諸多障礙時,人們必須及時解決這些障礙。計算機搜索引擎融入智能化技術后,從原有的基礎算法更新到智能知識層面的算法,實現與用戶之間自然語言的智能搜索。

2.1智能搜索引擎的特點

2.1.1智能屬性

融入智能搜索引擎后蜘蛛爬行過程中將對信息進行自動索引并分析,對搜索結果更清楚準確,將更有價值的搜索內容存入到數據庫中。

2.1.2主動屬性

智能搜索引擎通過對用戶的搜索,主動對用戶進行分析,及時調整用戶所用信息。

2.1.3交互屬性

智能搜索引擎會通過語音識別技術將用戶的語境進行分析,準確的把握用戶和需求。

2.1.4個性化屬性

智能搜索引擎能夠讓用戶隨意定制不同的起始頁,或將常用網站或內容放至網站首頁等。

2.2智能搜索引擎技術分析

通過上文描述,智能搜索引擎技術中包含兩種技術,機器翻譯與語義理解技術。機器翻譯是將文字語言和計算機語言進行轉換,功能特別適用于使用方言或外語進行搜索時,計算機會通過語言形式進行計算機語言的搜索,然后將搜索到的信息從計算機語言翻譯到輸入語言形式呈現給用戶。語義理解是利用語音識別技術實現對語音的詞語、聲音、語調進行分析并準確理解。

計算機搜索引擎對語言識別能力已經非常準確,但加入智能化技術的搜索引擎會更加準確的把握關鍵詞、短語和語境的理解技術。漢語分詞技術、短語識別技術、同義詞之間轉換等都加強了計算機搜索的功能性。

3結論

目前很多搜索引擎已經融入了智能化技術,搜索引擎算法一直更新,使用云搜索處理技術為人們提供了更多樣化的服務。智能化搜索引擎能夠更準確、迅速的為用戶提供信息,同時也可以排除網站在SEO優化方面的作弊情況,讓網絡信息更加優質。

參考文獻

[1] 王偉.搜索引擎智能化技術中若干關鍵問題的研究與實現[D].河北:河北科技大學,2011.

[2] 許武權.基于Web文本信息的智能檢索系統的設計與實現[D].北京:電子科技大學,2011.

[3] 鄭文良.基于簡單本體的農業P2P搜索引擎關鍵技術研究[D].沈陽:沈陽農業大學,2013.

搜索引擎研究范文6

關鍵詞:搜索引擎; 分類; 類目

中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2013)18-4174-03

目錄型搜索引擎采用網站登錄收錄方式,依據主旨、用戶對象及網絡資源狀況構建分類體系,把收集到的本地的網站頁面進行人工編輯,層層類分,形成縱向隸屬、橫向關聯的網站目錄數據庫。用戶依據類目體系及其規則分類檢索,逐類瀏覽,直至獲得所需資源[1]。

目前,中文分類搜索引擎正蓬勃發展,猶如雨后春筍般相繼出現,但各家搜索引擎的分類目錄多為自編,這些自編的分類類錄或多或少的存在著問題,不能完全的滿足用戶的檢索需求[2]。所以筆者認為,建立統一的分類類錄體系勢在必行。該文在研究多數分類搜索引擎的基礎上,歸結出分類類錄的大致類別,以期為相關研究機構和人員提供參考。

1 樣本來源及研究方法

1.1樣本來源

本文選取的樣本來自于中國網站排名(.cn)。中國網站排名由中國互聯網協會主辦,主要提供網站綜合排名TOP榜、網站流量趨勢、統計工具、互聯網市場信息等業務。

本文主要研究的是搜索引擎的分類,所以選取的搜索引擎須滿足兩個條件:一是目錄型搜索引擎;二是綜合性門戶網站。結合這兩點,在網站排名TOP100中,剔除掉全文搜索型引擎(如, 、.hk、等),以及專項式搜索引擎,例如購物網站(、等),銀行網站(如.cn類),視頻網站(如 、等),游戲網站(、等),交友網站(、等)等等,選取11個具有代表性的目錄式綜合搜索引擎進行研究,分別是:騰訊網()、新浪網(.cn)、鳳凰網()、搜狐()、網易()、中華網()、新華網()、中國雅虎()、人民網(.cn)、北方網(.cn)、環球網()(表1)。

1.2研究方法

根據中國網站排名,選擇具有代表性的11種目錄式綜合搜索引擎,收集并整理目錄(表2),為方便統計,將同一意思的目錄統一名稱,例如,“購車”轉換為“汽車”、“IT”轉化為“科技”、“圖庫”轉化為“圖片”、“臺灣”轉化為“臺海”、“尚品”轉化為“時尚”、“地方站”簡化為“地方”、“懸賞問答”簡化為“問答”等等;統計搜索引擎類目,計算個類目的詞頻;按詞頻的高低進行排序;最后對詞頻表進行分析研究。

2 數據分析

將表2進行統計整理,總共獲得105個不同類目,對每個類目出現次數進行統計,并將結果降序排列,得到類目的詞頻統計圖(表3)。再將表3中的類目詞頻進行統計,獲得高頻詞低頻詞統計表(表4)。

由表3可知,類目“汽車”、“新聞”、“科技”、“體育”、“娛樂”、“財經”、“房產”“旅游”是詞頻排名前三名的類目,說明它們是分類體系的主流類,目錄型搜索引擎基本上都有著幾大類;由表4可知,高詞頻(詞頻[≥]7)類目數很少,只占到總數的12.38%,相反,低頻詞(詞頻[≤]3)類目數卻很多,占總數的76.19%,這顯然是不合理的。

3 類目詞頻統計結果分析

3.1搜索引擎類目分類存在的問題

1) 分類類目數差距大

根據表1顯示,搜狐的一級類目有34個,鳳凰網和人民網的類目有32個,而環球網的類目只有19個,網易和北方網也只有21個,最大的差距有多大15個。類目數過多,分類過于龐雜、外延溢出,例如搜狐的“高考”屬于“教育”的外延溢出,其完全可以并入“教育”類;類目數過少,知識覆蓋不全,體系過于簡單,查詢者需要層層遍歷,才能找到所需信息,浪費時間,例如想在環球網查找體育相關的信息,就必須同時查找“新聞”、“社會”、“評論”等類目,層層遍歷,直到找到體育相關的信息。

2) 歸類不科學,劃分有失恰當

許多搜索引擎的分類體系未能嚴格的按照類目的內涵和外延進行科學地歸屬類目[3],其分類體系劃分失誤的種類主要有以下幾種:①劃分出來的類目相包容。例如,新浪網的“新浪大片”類目完全可以歸納在“視頻”類目中,搜狐網的“彩票”類目可歸納在“財經”類目中;②劃分過窄。例如,環球網的“歷史”類目,內涵過窄,可以開辟一個“文化”大類,將“歷史”這一類目作為它的二級類目;③劃分過寬。例如,北方網的“文娛”類目,外延過于寬泛,可以拆分成“文化”和“娛樂”兩個類目。

3)類目排列隨意,界面欠友好

某些網站的界面友好層度比較低,廣告太多,類目布局不合理,以及類目和二級類目混雜,版面混亂,給查詢者的視覺效果不良[4];鳳凰網的左側右側均插入了廣告,并且隨滾動條滾動,版面不夠潔凈,然讓看了不舒服。例如,搜狐網的一級類目和二級類目混雜在一起,且字體大小一樣,導致類目過多,看的人眼花。相反,新浪網設有網頁導航,左側邊欄為一級目錄,右側為二級和三級目錄,一目了然,分類清晰。

4)類名不規范,缺乏統一的類名體系

搜索引擎分類體系中普遍存在類名不統一的現象,各家搜索引擎同內涵和外延的類目卻分別標示著不同的類目名稱。例如,搜狐、人民網、北方網出現了“IT”這一類目,而騰訊、新浪、鳳凰網、網易用的是“科技”這一類目;騰訊、新浪的“女性”類目和搜狐、網易、中華網的“女人”這一類目也是同屬一個概念。

5)出現生僻類,類下缺乏注釋

中文搜索引擎在其分類體系中采用了網頁制作者自己自編的類目名稱或是廣大網名自發形成的網絡用語、俗稱、簡稱、英文縮寫、慣稱等自然語言[3],但有些類名缺乏規范化處理,類下有無注釋,用戶很難判別其內涵和外延,增加用戶的額外負擔。例如,搜狐的“白社會”、北方網的“18街”、中華網的“有料”、中國雅虎的“心香一脈”等,在沒有注釋的情況下,用戶無從知道這些類目到底代表著什么樣的內容[5]。

4 對搜索引擎類分類體系的思考

根據各類目出現的頻次,將類目體系分為四類:主流類,次流類,商榷類,修改類(表5)。

4.1 主流類和次流類

主流類中的類目頻次都是大于或等于7的,即它是由高頻詞組成的,這些類目是搜索引擎的主流類目,幾乎所有的搜索引擎基本上都有這13個類目,在編制搜索引擎類目體系時,這13個類目可保留,直接使用;次流類是由類目頻次小于7大于等于4的類目組成,這些類目是搜索引擎的基本類目,將近一半的搜索引擎都有這12個類目,對于這12個類目,可直接保留使用,也可稍作微調,例如,將“讀書”歸入“文化”類、“手機”納入“數碼”類、“微博”與“博客”合為一類,搜索引擎分類體系可根據自身情況借鑒使用。

4.2 商榷類

商榷類類目是由頻次等于2和3的類目組成,這一類類目比較龐雜,界限不明確,需要調整后使用,分兩種情況:

1)保留型,將其比較典型的類目,與其他類目外延交叉較低的類目保留下來,例如“親子”、“女性”、“環保”、“問答”等;

2)調整型,將外延重疊交叉的類目進行調整,例如,“歷史”納入次流類的“文化”類,“動漫”歸入“游戲”類,“彩票”納入“財經”類,“女人”和“女性”合并為一類等。

4.3 修改類

修改類全部是由頻次等于1的類目構成,對于這類類目,要進行大幅修改,才可以投入使用。修改方式有四種:

1)保留型,一些類目雖然不常使用,但也是屬于一種新類別或是實用價值比較高的類目應予以保留,例如“男人”類目(因為有“女性”這一類目,為公平,應也有“男人”這一類目)導航(實用性很強);

2)包容型,一些類目的外延與其他類目交叉重疊了,所以不必要單獨列出來,例如,“教育”已經包括“高考”這一類目,“新浪大片”包含在“視頻”類目中,“華人佛教”屬于“文化”范疇等等。

3)注釋型,一些類目太過標新立異,僅看名字無法理解其內涵,不方便用戶使用,因此,需要加以注釋,例如,“白社會”、“節會”、“寬頻”、“18街”、“有料”、“心香一脈”。

4)摒棄型,一些類目是完全不必要出現在一級類目中,需要直接舍棄掉,例如,“服飾”、“高爾夫”、“心理測試”等。

綜上所述,一般性綜合搜索引擎的一級類目應大致有:“新聞”、“財經”、“科技”、“體育”、“娛樂”、“教育”、“房產”、“汽車”、“旅游”、“論壇”、“視頻”、“公益”、“健康”、“游戲”、“地方”、“博客”、“讀書”、“郵箱”、“軍事”、“文化”、“時尚”、“數碼”、“圖片”、“環保”、“女性”“問答”、“國際”、“男人”、“導航”這28個類目。在編制搜索引擎的類目體系時,考慮自身搜索引擎的特點、偏向,具體問題具體分析,借鑒使用。

參考文獻:

[1] 羅德一.農業分類搜索引擎分類體系研究[D].南京:南京農業大學,2004:3.

[2] 刑志宇.分類搜索引擎探析[J].河南圖書館學刊,2006(10).

[3] 余義芳.中文搜索引擎分類體系存在的問題及對傳統分類法的借鑒[J].圖書與情報,2004(3).

亚洲精品一二三区-久久