首頁技術文章正文

Python爬蟲使用哪個數據庫好?為什么?

更新時間:2021-05-21 來源:黑馬程序員 瀏覽量:

一般爬蟲使用的數據庫,是根據項目來定的。如需求方指定了使用什么數據庫、如果沒指定,那么決定權就在爬蟲程序員手里,如果自選的話,mysql 和mongodb 用的都是比較多的。但不同的數據庫品種有各自的優(yōu)缺點,不同的場景任何一種數據庫都可以用來存儲,但是某種可能會更好。比如如果抓取的數據之間的耦合性很高,關系比較復雜的話,那么mysql可能會是更好的選擇。如果抓取的數據是分版塊的,并且它們之間沒有相似性或關聯(lián)性不強,那么可能mongodb 會更好。

另外主流的幾種永久存儲數據庫,都是具備處理高并發(fā)、具備存儲大量數據的能力的,只是由于各自的實現(xiàn)機制不一樣,因此優(yōu)化方案也是不盡相同。總結就是:數據庫的選擇盡量從項目的數據存在的特性來考慮,還有一個問題就是開發(fā)人員最擅長那種數據庫。

MongoDB 是使用比較多的數據庫,這里以MongoDB 為例,大家需要結合自己真實開發(fā)環(huán)境選擇。

原因:


1)與關系型數據庫相比,MongoDB 的優(yōu)點如下。

①弱一致性(最終一致),更能保證用戶的訪問速度舉例來說,在傳統(tǒng)的關系型數據庫中,一個COUNT類型的操作會鎖定數據集,這樣可以保證得到“當前”情況下的較精確值。這在某些情況下,例如通過ATM查看賬戶信息的時候很重要,但對于Wordnik說,數據是不斷更新和增長的,這種“較精確”的保證幾乎沒有任何意義,反而會產生很大的延 遲。他們需要的是一個“大約”的數字以及更快的處理速度。但某些情況下MongoDB 會鎖住數據庫。如果此時正有數百個請求,則它們會堆積起來,造成許多問題。我們使用了下面的優(yōu)化方式來避免鎖定。每次更新前,我們會先查詢記錄。查詢操作會將對象放入內存,于是更新則會盡可能的迅速。在主/從部署方案中,從節(jié)點可以使用“-pretouch”參數運行,這也可以得到相同的效果。使用多個mongod 進程。我們根據訪問模式將數據庫拆分成多個進程。

②文檔結構的存儲方式,能夠更便捷的獲取數據。

對于一個層級式的數據結構來說,如果要將這樣的數據使用扁平式的,表狀的結構來保存數據,這無論是在查詢還是獲取數據時都十分困難。

③內置GridFS,支持大容量的存儲。

GridFS 是一個出色的分布式文件系統(tǒng),可以支持海量的數據存儲。內置了GridFS 了MongoDB,能夠滿足對大數據集的快速范圍查詢。

④內置Sharding。

提供基于Range 的Auto Sharding 機制:一個collection 可按照記錄的范圍,分成若干個段,切分到不同的Shard 上。Shards 可以和復制結合,配合Replica sets 能夠實現(xiàn)Sharding+fail-over,不同的Shard 之間可以負載均衡。查詢是對 客戶端是透明的??蛻舳藞?zhí)行查詢,統(tǒng)計,MapReduce等操作,這些會被MongoDB 自動路由到后端的數據節(jié)點。這讓我們關注于自己的業(yè)務,適當的時候可以無痛的升級。MongoDB 的Sharding 設計能力較大可支持約20 petabytes,足以支撐一般應用。

這可以保證MongoDB 運行在便宜的PC 服務器集群上。PC 集群擴充起來非常方便并且成本很低,避免了“sharding”操作的復雜性和成本。

⑤第三方支持豐富。(這是與其他的NoSQL 相比,MongoDB 也具有的優(yōu)勢)

現(xiàn)在網絡上的很多NoSQL 開源數據庫完全屬于社區(qū)型的,沒有官方支持,給使用者帶來了很大的風險。而開源文檔數據庫MongoDB 背后有商業(yè)公司10gen 為其提供供商業(yè)培訓和支持。

而且MongoDB 社區(qū)非?;钴S,很多開發(fā)框架都迅速提供了對MongDB 的支持。不少知名大公司和網站也在生產環(huán)境中使用MongoDB,越來越多的創(chuàng)新型企業(yè)轉而使用MongoDB 作為和Django,RoR 來搭配的技術方案。

⑥性能優(yōu)越

在使用場合下,千萬級別的文檔對象,近10G 的數據,對有索引的ID的查詢不會比mysql慢,而對非索引字段的查詢,則是全面勝出。mysql實際無法勝任大數據量下任意字段的查詢,而mongodb的查詢性能實在讓我驚訝。寫入性能同樣很令人滿意,同樣寫入百萬級別的數據,mongodb 比我以前試用過的couchdb要快得多,基本10分鐘以下可以解決。補上一句,觀察過程中mongodb 都遠算不上是CPU殺手。


2)Mongodb與redis相比較

①mongodb 文件存儲是BSON 格式類似JSON,或自定義的二進制格式。

mongodb 與redis 性能都很依賴內存的大小,mongodb 有豐富的數據表達、索引;最類似于關系數據庫,支持豐富的查詢語言,redis數據豐富,較少的IO,這方面mongodb優(yōu)勢明顯。

②mongodb 不支持事物,靠客戶端自身保證,redis 支持事物,比較弱,僅能保證事物中的操作按順序執(zhí)行,這方面 redis 優(yōu)于mongodb。

③mongodb 對海量數據的訪問效率提升,redis 較小數據量的性能及運算,這方面 mongodb性能優(yōu)于redis .monbgodb 有mapredurce 功能,提供數據分析,redis沒有,這方面 mongodb優(yōu)于redis。




以下是黑馬程序員近期推出的Python興趣課程,3天入門Python,體驗Python的魅力!

0基礎Python3天入門課程

   ·了解Python主流就業(yè)方向,把握最新熱點技術
   ·掌握Python的基礎語法及API調用
   ·能夠使用Python對數據獲取、使用和展示
   ·打造自己的數據分析項目并自動生成工作報告

Python零基礎3天課程


分享到:
在線咨詢 我要報名
和我們在線交談!