首頁技術文章正文

Python爬蟲之增量式爬蟲和深層網絡爬蟲

更新時間:2022-08-18 來源:黑馬程序員 瀏覽量:

IT培訓班

  網絡爬蟲歷經幾十年的發(fā)展,技術變得更加多樣化,并結合不同的需求衍生出類型眾多的網絡爬蟲。網絡爬蟲按照系統(tǒng)結構和實現技術大致可以分為4種類型,分別是通用網絡爬蟲、聚焦網絡爬蟲、增量式網絡爬蟲、深層網絡爬蟲。接下來,對增量式爬蟲和深層網絡爬蟲這兩種爬蟲分別進行介紹。

  1.增量式爬蟲

  增量式網終爬蟲(Incremental Web Crawler)是指對已下載的網頁采取增量式更新,只抓取新產生或者已經發(fā)生變化的網頁的網絡爬蟲。

  增量式網絡爬蟲只會抓取新產生的或內容變化的網頁,并不會重新抓取內容未發(fā)生變化的網頁,這樣可以有效地減少網頁的下載量,減少訪問時間和存儲空間的耗費,但是增加了網頁抓取算法的復雜度和實現難度。


網絡爬蟲


  2.深層網絡爬蟲

  深層網絡爬蟲(Deep Web Crawler)是指抓取深層網頃的網絡爬蟲,它要抓取的網頁層次比較深,需要通過一定的附加策略才能夠自動抓取,實現難度較大。

  表層網頁與深層網頁

  網頁按存在方式可以分為表層網頁(Surface Web)和深層網頁(Deep Web),關于這兩類網頁的介紹如下。

  表層網頁是指傳統(tǒng)搜索引擎可以索引的頁面,主要以超鏈接可以到達的靜態(tài)網頁構成的網頁。

  深層網頁是指大部分內容無法通過靜態(tài)鏈接獲取的,只能通過用戶提交一些關鍵詞才能獲取的網頁,如用戶注冊后內容才可見的網頁。

分享到:
在線咨詢 我要報名
和我們在線交談!