網絡爬蟲基本原理范例6篇

前言:中文期刊網精心挑選了網絡爬蟲基本原理范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。

網絡爬蟲基本原理

網絡爬蟲基本原理范文1

關鍵詞: 搜索引擎;網絡爬蟲;實現;設計;主題

中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2016)17-0023-02

Abstract: In the information age, the Internet is full of all aspects of our lives, and the application of the search engine for our life brought great convenience .The research on the realization of web crawler in search engine is of great significance to improve the efficiency of search engine. This paper analyzes the realization of the web crawler in the subject oriented search engine, and puts forward the corresponding methods and measures.

Key words: Search Engine; Web Crawler; Implementation; Design; Theme

1 概述

使用搜索引擎,人們可以方便快捷地在網上獲取有用信息。隨著大數據時代的到來,傳統的通用搜索引擎面臨著索引規模、更新速度和個性化需求等多方面的挑戰。主題搜索引擎以提供分類精細、數據全面、更新實時的搜索服務為目標。網絡爬蟲是搜索引擎的基礎模塊,是搜索引擎的重要基礎。

網絡爬蟲是一種能自動提取網頁內容的程序,利用網頁信息格式進行網頁分析,也可以定期搜集某個或某些網站的內容,跟蹤網站的發展歷程。隨著網絡爬蟲技術的快速進步,網絡爬蟲更加廣泛地運用于網站結構分析、個性化信息獲取以及用戶興趣挖掘等多種服務中。

2 主題搜索引擎簡述

搜索引擎是一種用來在萬維網上檢索資源文件的計算機程序。搜索引擎根據用戶輸入的檢索關鍵詞推測出用戶的查詢意圖,然后快速地返回相關的查詢結果信息供用戶使用。

大數據時代互聯網數據爆炸性地增長,急切地需要一種快速、準確細致、全面深入且更新及時的信息檢索方法。主題搜索引擎克服了傳統搜索引擎的諸多困難,使信息檢索變得更加精確細致,使搜索到的信息更加全面深入,同時使專題信息和學科信息的更新更加及時。

3 網絡爬蟲簡述

網絡爬蟲從一個初始URL隊列開始,從中獲取一個URL,獲取網頁,從網頁中提取所有的URL,并將新的URL添加到URL隊列中。然后網絡爬蟲從隊列中獲得另一個URL,重復前面的過程,直到達到停止條件。這種爬取資源的方式存在著網絡連接不穩定、網頁特征多樣化、URL不規范等一些問題。

4 網絡爬蟲分類

第一個網絡爬蟲是美國麻省理工學院的學生Matthew Grey于1993年寫成,后來改進了爬蟲程序并將其引入到搜索引擎中。隨著搜索引擎技術的不斷進步,爬蟲程序也越來越復雜,后來產生了通用爬蟲、限定爬蟲和主題爬蟲等幾種不同類型的爬蟲。

4.1通用爬蟲

基本原理上文已分析,但爬取的范圍過大,爬取順序要求低,對爬取速度和存儲空間要求較高。

4.2限定爬蟲

限定爬蟲是一種能爬取用戶感興趣的某一類網頁的爬蟲程序。但它不要求爬取所有的網頁,只需爬取某些特定種類的網頁即可。工作過程是:采用樸素貝葉斯方法用網頁樣本訓練一個文本分類器,然后用這個文本分類器指導爬蟲的偏好,從爬蟲隊列中選擇出用戶感興趣的網頁。

4.3 主題爬蟲

主題爬蟲先確定一個或多個主題,根據一定的分析算法過濾與主題無關的URL,保留與主題相關的URL并將其放入等待URLs隊列中;然后使用某種搜索策略從等待隊列中選擇下一個要抓取的URL,并重復上述過程,直到達到某種停止條件。

首先主題爬蟲需要判定當前抓取與設定的主題的相關性,其次主題爬蟲采用按相似度大小抓取網頁的策略來抓取網頁。相比通用爬蟲它極大地節約了硬件和網絡資源,加快了爬取速度,還可以滿足人們對特定領域的需求。

5 主題爬蟲的爬取策略

主題爬蟲以通用網絡爬蟲為基礎,在此基礎上進行優化和擴展,使其具備主題網絡爬蟲特有的功能,進而實現面向主題的網頁信息提取。

主題爬蟲盡可能搜集與主題相關的網頁,減少下載無關網頁的可能。主題爬蟲與通用爬蟲相比需要解決以下問題:主題的描述和定義、網頁內容與主題相關性的判定、鏈接重要程度的判定、如何提高主題爬蟲資源覆蓋率。

面向主題的信息采集系統可分為4個部分,即主題集選取、Web信息提取、頁面預處理、鏈接過濾。

5.1 主題集選取

主題網絡爬蟲中,為有效進行剪枝和過濾操作,需要對主題進行定義或描述,以此來確定采集的方向,主題集的好壞直接影響到了最終的采集效果。主題可以是幾個關鍵詞,還可以是自然語言。用戶可以自己定制主題,對主題做進一步的描述。主題集的合理選擇是主題爬蟲的基礎。

5.2 Web 信息提取

從采集起點開始,主題爬蟲開爬取Web上的信息資源,通過各種Web協議自動爬取站點的有效信息。為了高效地獲取信息,主題爬蟲系統中大多都采用了多線程的方式來提取Web信息。

5.3 頁面預處理

把主題爬蟲抓取到的Web頁面規范化,主要包括:頁面語法分析,頁面去噪等操作,提取網頁中的有效信息,然后判定網頁信息的主題相關性,過濾與主題無關的頁面,從而提高主題爬蟲的主題信息提取的準確性。

HTML網頁內容可以從正文、標題、標記信息、鏈接信息等方面反映。因此,對網頁信息的提取只需將這些特征信息提取出來。讀取頁面時,找到標記,將標記中間的內容中的所有標記去除,就得到了頁面正文;標記中的內容就是網頁的標題,它顯示在標題欄中。

即使提取的URL通過了主題相關性判別,提取到的頁面內容與設定的主題也可能有很大差距。所以,在頁面提取之后應對頁面信息進行與主題相關性判別,淘汰與主題無關頁面。

5.4 鏈接過濾

要提高主題Web信息的提取速率和準確性,系統需對采集到的UI進行URL和主題的關系的判定,叫做鏈接過濾,或鏈接預測。

鏈接過濾常用的算法是EPR算法。在鏈接關系的基礎上加入針對鏈接的相關主題的權重,再引入鏈接網頁之間的主題相關度權重,使產生的重要頁面是針對某一主題的,這形成了EPR算法。

6 結束語

網絡爬蟲的發展為搜索引擎的成功奠定了堅實的基礎,然而隨著互聯網技術的迅速發展,人們對搜索引擎的需求越來越大,信息檢索服務也在向著個性化、精細化的方向發展,人們對網絡爬蟲的進一步設計優化提出了更高的要求。

主題爬蟲核心問題是主題頁面群的采集和無關頁面的過濾問題。網絡爬蟲具有重復性,如何將頁面動態變化的規律與先前的搜索統計結果相結合,提高爬取效率是一個值得研究的問題。目前網絡爬蟲采用的搜索策略都較固定,缺乏適應性,如何提升爬蟲的自適應性有待進一步研究。

參考文獻:

[1] 劉金紅,陸余良.主題網絡爬蟲研究綜述[J].計算機應用研究,2007,24(10):26-29,47.

[2] 盛亞如,魏振鋼,劉蒙.基于主題網絡爬蟲的信息數據采集方法的研究與應用[J]. 電子技術與軟件工程,2016(7):168-169.

[3] 梁萍.搜索引擎中網絡爬蟲及結果聚類的研究與實現[D].中國科學技術大學,2011.

[4] 于娟,劉強. 主題網絡爬蟲研究綜述[J].計算機工程與科學,2015,02:231-237.

網絡爬蟲基本原理范文2

>> 基于.NET搜索引擎的研究與應用 基于網站建設的搜索引擎優化策略構建 基于搜索引擎優化的省級檔案網站調查與分析 基于的檔案垂直搜索引擎的實現 基于Servlet的搜索引擎 基于垂直搜索技術的搜索引擎 基于成功要素的搜索引擎優化模型研究 基于Memcached的日歷搜索引擎系統優化設計與實現 基于搜索引擎優化的網絡宣傳機模型 基于搜索引擎優化的網頁設計要點研究 網站搜索引擎優化研究 基于Lucene的圖書垂直搜索引擎探析 基于lucene的校園網搜索引擎 基于時間技術的搜索引擎排名算法 基于文本的圖片搜索引擎的研究 基于神經網絡的搜索引擎應用 基于JAVA技術的搜索引擎研究 基于Nutch的搜索引擎的研究 基于垂直搜索引擎的主題爬蟲技術 基于Google搜索引擎的原理及使用 常見問題解答 當前所在位置:l”),目的是幫助用戶對站點的整體有個把握。

(2)XML格式的網站地圖(類似“http:///Sitemap.xml”),它是網站上鏈接的列表。制作Sitemap并提交給搜索引擎可以使網站的內容完全被收錄。

中創建網站地圖方案:

(1)創建一個名為Web.sitemap的XML文件,該文件按站點的分層形式組織頁面。的默認站點地圖提供程序自動選取此站點地圖。注意:該文件必須位于應用程序的根目錄中。站點地圖代碼演示如下:

(2)利用免費的在線工具(http://)創建網站地圖,只要輸入網站地址,在線工具就會動態生成HTML格式或XML格式的網站地圖。

4.3 AJAX優化

Ajax(Asynchronous JavaScript and XML)是一種使用客戶端腳本與網站服務器交換數據的網站應用開發技術。它為Web中的客戶端腳本和服務器語言之間架起了一座橋梁。使用AJAX技術,其直接效果是頁面不需要打斷交互流程就可以重新加裁從而實現動態地更新,由此極大提升速度和用戶體驗。但Ajax技術在SEO方面被歸入“糟糕”一類效果,因為JavaScript是AJAX實現的基礎,對于AJAX來說是必不可少的,而搜索引擎不識別JavaScript代碼,因此搜索引擎抓取不到AJAX動態加載的內容。解決方法是在XML Sitemap中建立網站的所有鏈接,建立所有內容的靜態導航鏈接。這不僅有助于提升網站的搜索引擎可見度,還確保那些沒有啟用JavaScript的用戶也能看到導航條內容和鏈接。

4.4 網頁重定向優化

網站運行過程中會遇到服務器出錯,程序配置錯誤等一系列的問題,這就需要頁面重定向。如果不做重定向,用戶請求瀏覽網頁碰到這些的時候會出現一些系統默認的錯誤頁面,這樣對于搜索引擎來所很不友好。

HTTP 404錯誤意味著原始網頁的URL失效,這種情況很難避免,譬如瀏覽器請求的網頁被刪除或者移位,用戶鍵入鏈接拼寫錯誤等。搜索引擎同樣產生HTTP 404錯誤,認為該頁面不存在。如果頁面過多將會導致站點的權重大量的流失,影響到排名收錄。甚至會受到搜索引擎的處罰,對網站排名進行下降處理。

配置錯誤頁面解決方法,在web.config的system.web節里增加以下配置:

RedirectMode屬性設置為ResponseRedirect,則將用戶重定向到該錯誤頁面,并且原始URL更改為該錯誤頁面的URL。RedirectMode屬性設置為ResponseRewrite,則將用戶定向到錯誤頁面,并且不更改瀏覽器中的原始URL。

301代表永久性轉移(Permanently Moved),301重定向是網頁更改地址后對搜索引擎友好的最好方法,只要不是暫時搬移的情況,都建議使用301來做轉址。

下的301重定向方法,在原頁面的Page_Load事件中增加以下代碼:

private void Page_Load(object sender,System.EventArgs e)

{Response.Status = "301 Moved Permanently";

Response.AddHeader ("Location","http://");

}

5 結束語

隨著互聯網的發展,搜索引擎優化會得到越來越廣泛的應用。利用搜索引擎收錄和排名的規則,根據不同網站的架構,有針對性地基于不同開發平臺的特點進行優化來獲得搜索引擎的青睞,從而達到提高網站排名的效果。本文對網站的搜索引擎優化處理做了一些研究,還有很多所有平臺共有的優化要素都要全面加以優化,才能獲得較好的優化效果。

參考文獻:

[1]鄭耀東從入門到實踐[M].清華大學出版社,2009.

[2]吳澤欣.SEO教程:搜索引擎優化入門與進階[M].人民郵電出版社,2008.

[3]楊帆.SEO攻略:搜索引擎優化策略與實戰案例詳解[M].人民郵電出版社,2009.

[4]王建.精通Web標準建站―標記語言、網站分析、設計理念、SEO與BI[M].人民郵電出版社,2007.

[5]徐曉力.SEO及其策略研究[J].電腦知識與技術,2010,1(6):59-61.

亚洲精品一二三区-久久