更新時(shí)間:2023-10-09 來源:黑馬程序員 瀏覽量:
Spark的數(shù)據(jù)本地性指的是數(shù)據(jù)與計(jì)算任務(wù)的位置關(guān)系。Spark的數(shù)據(jù)本地性有下面幾種:
數(shù)據(jù)的位置與計(jì)算任務(wù)在同一個(gè)JVM進(jìn)程中。這是最好的數(shù)據(jù)本地性級(jí)別,因?yàn)樗苊饬司W(wǎng)絡(luò)傳輸?shù)拈_銷。
數(shù)據(jù)的位置與計(jì)算任務(wù)在同一個(gè)節(jié)點(diǎn)上,但可能不在同一個(gè)JVM進(jìn)程中。雖然這比PROCESS_LOCAL稍差,因?yàn)閿?shù)據(jù)需要在同一節(jié)點(diǎn)內(nèi)的不同進(jìn)程之間傳輸,但它仍然避免了跨節(jié)點(diǎn)網(wǎng)絡(luò)傳輸?shù)拈_銷。
對(duì)數(shù)據(jù)的位置沒有任何偏好,Spark調(diào)度器可以在任何地方調(diào)度計(jì)算任務(wù)。這是最差的數(shù)據(jù)本地性級(jí)別,因?yàn)閿?shù)據(jù)需要在網(wǎng)絡(luò)中傳輸,從而增加開銷。
數(shù)據(jù)的位置與計(jì)算任務(wù)在同一個(gè)機(jī)架內(nèi),但可能在不同的節(jié)點(diǎn)上。這比NODE_LOCAL稍差,因?yàn)閿?shù)據(jù)需要在同一機(jī)架內(nèi)的不同節(jié)點(diǎn)之間傳輸。
對(duì)數(shù)據(jù)的位置沒有任何限制,Spark調(diào)度器可以在任何地方調(diào)度計(jì)算任務(wù)。這比RACK_LOCAL稍差,因?yàn)閿?shù)據(jù)可能在廣泛的網(wǎng)絡(luò)中傳輸。
通常情況下,Spark會(huì)盡量利用好的數(shù)據(jù)本地性來減少網(wǎng)絡(luò)傳輸開銷,從而提高性能。但是,當(dāng)數(shù)據(jù)本地性達(dá)不到要求時(shí),Spark也會(huì)根據(jù)實(shí)際情況選擇次優(yōu)的策略。
使用Python進(jìn)行網(wǎng)絡(luò)爬蟲開發(fā)有哪些優(yōu)勢(shì)?
2023-10-09Hadoop3.x相對(duì)于之前版本有哪些優(yōu)化?【Hadoop架構(gòu)變遷史】
2023-10-05醫(yī)療、金融、零售行業(yè)對(duì)大數(shù)據(jù)應(yīng)用有什么不同?
2023-10-05SSL證書是什么?SSL驗(yàn)證失效怎么辦?
2023-09-28黑馬程序員的Python培訓(xùn)班多少錢?都學(xué)什么?
2023-09-28轉(zhuǎn)行大數(shù)據(jù),沒有開發(fā)經(jīng)驗(yàn)?zāi)軐W(xué)嗎?
2023-09-26