Scrapy框架的工作原理是什么?

更新時間:2020-09-30 來源:黑馬程序員瀏覽量:

Scrapy框架的工作原理是什么?

Scrapy架構

學習Scrapy框架，從理解它的架構開始。圖1所示是Scrapy的架構圖。

從圖1可知，Scrapy框架主要包含以下組件：

(1)Scrapy Engine(引擎)：負責Spider、Item Pipeline、Downloader、Scheduler之間的通訊，包括信號和數(shù)據(jù)的傳遞等。

(2)Scheduler(調(diào)度器)：負責接受引擎發(fā)送過來的Request請求，并按照一定的方式進行整理排列和入隊，當引擎需要時，交還給引擎。

(3)Downloader(下載器)：負責下載Scrapy Engine(引擎)發(fā)送的所有Requests(請求)，并將其獲取到的Responses(響應)交還給Scrapy Engine(引擎)，由引擎交給Spider來處理。

(4)Spiders(爬蟲)：負責處理所有Responses，從中分析提取數(shù)據(jù)，獲取Item字段需要的數(shù)據(jù)，并將需要跟進的URL提交給引擎，再次進入Scheduler(調(diào)度器)。

(5)Item Pipeline(管道)：負責處理Spiders中獲取到的Item數(shù)據(jù)，并進行后期處理(詳細分析、過濾、存儲等)。

(6)Downloader Middlewares(下載中間件)：是一個可以自定義擴展下載功能的組件。

(7)Spider Middlewares(Spider中間件)：是一個可以自定義擴展Scrapy Engine和Spiders中間通信的功能組件(比如進入Spiders的Responses和從Spiders出去的Requests)。

Scrapy的這些組件通力合作，共同完成整個爬取任務。架構圖中的箭頭是數(shù)據(jù)的流動方向，首先從初始URL開始，Scheduler會將其交給Downloader進行下載，下載之后會交給Spider進行分析，Spider分析出來的結果有兩種：一種是需要進一步抓取的鏈接，例如之前分析的“下一頁”的鏈接，這些東西會被傳回Scheduler;另一種是需要保存的數(shù)據(jù)，它們則被送到Item Pipeline那里，那是對數(shù)據(jù)進行后期處理(詳細分析、過濾、存儲等)的地方。另外，在數(shù)據(jù)流動的通道里還可以安裝各種中間件，進行必要的處理。

Scrapy框架的運作流程

Scrapy的運作流程由引擎控制，其過程如下所示：

(1)引擎向Spider請求第一個要爬取的URL(s)。

(2)引擎從Spider中獲取到第一個要爬取的URL，封裝成Request并交給調(diào)度器。

(3)引擎向調(diào)度器請求下一個要爬取的Request。

(4)調(diào)度器返回下一個要爬取的Request給引擎，引擎將Request通過下載中間件轉發(fā)給下載器。

(5)一旦頁面下載完畢，下載器生成一個該頁面的Response，并將其通過下載中間件發(fā)送給引擎。

(6)引擎從下載器中接收到Response并通過Spider中間件發(fā)送給Spider處理。

(7)Spider處理Response并返回爬取到的Item及新的Request給引擎。

(8)引擎將爬取到的Item給Item Pipeline，將Request給調(diào)度器。

(9)從(2)開始重復，直到調(diào)度器中沒有更多的Request。

多學一招：Scrapy擬人小劇場