作為數(shù)據(jù)倉庫和ETL的開發(fā)者,如果只想把時間用在創(chuàng)建BI解決方案上,那么任何用于軟件安裝和配置的時間都是一種浪費。例如,為了創(chuàng)建數(shù)據(jù)庫連接,很多與Kettle類似的工具都要求用戶手工輸入數(shù)據(jù)庫驅(qū)動的類名...查看全文>>
我們都知道,Python函數(shù)是支持嵌套的。如果在一個內(nèi)部函數(shù)中對外部函數(shù)作用域(非全局作用域)的變量進行引用,那么內(nèi)部函數(shù)就會被稱為閉包...查看全文>>
簡單來說,匿名函數(shù)就是沒有名稱的函數(shù),也就是不再使用def定義的函數(shù)。如果要聲明匿名函數(shù),則需要使用lambda關(guān)鍵字,匿名函數(shù)的聲明格式如下查看全文>>
在 Python 中,list是動態(tài)數(shù)組。所以在Python中列表和鏈表的內(nèi)存使用非常相似。鏈表和數(shù)組在以下的操作中有本質(zhì)區(qū)別:查看全文>>
數(shù)據(jù)清洗的基本流程一共分為5個步驟,分別是數(shù)據(jù)分析、定義數(shù)據(jù)清洗的策略和規(guī)則、搜尋并確定錯誤實例、糾正發(fā)現(xiàn)的錯誤以及干凈數(shù)據(jù)回流。下面通過一張圖描述數(shù)據(jù)清洗的基本流程,具體如圖所示。查看全文>>
由于缺乏或者不準確的數(shù)據(jù)統(tǒng)計信息(元數(shù)據(jù))和對成本的錯誤估算(執(zhí)行計劃調(diào)度)導致生成的初始執(zhí)行計劃不理想在Spark3.x版本提供Adaptive Query Execution自適應查詢技術(shù)通過在”運行時”對查詢執(zhí)行計劃進行優(yōu)化, 允許Planner在運行時執(zhí)行可選計劃,這些可選計劃將會基于運行時數(shù)據(jù)統(tǒng)計進行動態(tài)優(yōu)化, 從而提高性能。查看全文>>