首頁(yè)技術(shù)文章正文

云計(jì)算大數(shù)據(jù)培訓(xùn)之10個(gè)常見誤解:算法即預(yù)言家、大數(shù)據(jù)必干凈(上)

更新時(shí)間:2017-08-31 來源:黑馬程序員云計(jì)算大數(shù)據(jù)培訓(xùn)學(xué)院 瀏覽量:

為了確保你組織的大數(shù)據(jù)計(jì)劃保持正軌,你需要消除以下10種常見的誤解。


1. 大數(shù)據(jù)就是“很多數(shù)據(jù)”

大數(shù)據(jù)從其核心來講,它描述了結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)如何結(jié)合社交媒體分析,物聯(lián)網(wǎng)的數(shù)據(jù)和其他外部來源,來講述一個(gè)”更大的故事”。該故事可能是一個(gè)組織運(yùn)營(yíng)的宏觀描述,或者是無(wú)法用傳統(tǒng)的分析方法捕獲的大局觀。從情報(bào)收集的角度來看,其所涉及的數(shù)據(jù)的大小是微不足道的。


2. 大數(shù)據(jù)必須非常干凈

在商業(yè)分析的世界里,沒有“太快”之類的東西。相反,在IT世界里,沒有“進(jìn)垃圾出金子”這樣的東西,你的數(shù)據(jù)有多干凈?一種方法是運(yùn)行你的分析應(yīng)用程序,它可以識(shí)別數(shù)據(jù)集中的弱點(diǎn)。一旦這些弱點(diǎn)得到解決,再次運(yùn)行分析以突出 “清理過的” 區(qū)域。


3. 所有人類分析人員會(huì)被機(jī)器算法取代

數(shù)據(jù)科學(xué)家的建議并不總是被前線的業(yè)務(wù)經(jīng)理們執(zhí)行。行業(yè)高管Arijit Sengupta在TechRepublic 的一篇文章中指出,這些建議往往比科學(xué)項(xiàng)目更難實(shí)施。然而,過分依賴機(jī)器學(xué)習(xí)算法也同樣具有挑戰(zhàn)性。Sengupta說,機(jī)器算法告訴你該怎么做,但它們沒有解釋你為什么要這么做。這使得很難將數(shù)據(jù)分析與公司戰(zhàn)略規(guī)劃的其余部分結(jié)合起來。




預(yù)測(cè)算法的范圍從相對(duì)簡(jiǎn)單的線性算法到更復(fù)雜的基于樹的算法,最后是極其復(fù)雜的神經(jīng)網(wǎng)絡(luò)。


來源:dataiku,dataconomy。


4. 數(shù)據(jù)湖是必不可少的

據(jù)豐田研究所數(shù)據(jù)科學(xué)家Jim Adler說,對(duì)于巨量存儲(chǔ)庫(kù),一些IT經(jīng)理們?cè)O(shè)想用它來存儲(chǔ)大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),根本就不存在。企業(yè)機(jī)構(gòu)不會(huì)不加區(qū)分地將所有數(shù)據(jù)存放到一個(gè)共享池中。Adler說,這些數(shù)據(jù)是 “精心規(guī)劃”的,存儲(chǔ)于獨(dú)立的部門數(shù)據(jù)庫(kù)中,鼓勵(lì)”專注的專業(yè)知識(shí)”。這是實(shí)現(xiàn)合規(guī)和其他治理要求所需的透明度和問責(zé)制的唯一途徑。

本文版權(quán)歸黑馬程序員云計(jì)算大數(shù)據(jù)學(xué)院所有,歡迎轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)注明作者出處。謝謝!
作者:黑馬程序員云計(jì)算大數(shù)據(jù)培訓(xùn)學(xué)院
首發(fā):http://cloud.itheima.com/

分享到:
在線咨詢 我要報(bào)名
和我們?cè)诰€交談!