更新時間:2022-10-11 來源:黑馬程序員 瀏覽量:
7月29日-31日,ApacheCon Asia 2022開源大會在線上盛大開啟,來自傳智教育Python+大數(shù)據學科的張敬存老師、趙晨杰老師,共同在會上發(fā)表了題為《大數(shù)據&Python生態(tài)在傳智教育的實踐和思考》的演講,和與會者分享了傳智教育對大數(shù)據&Python生態(tài)發(fā)展的思考、探索與實踐歷程。
據悉,ApacheCon Asia 2022是由Apache 軟件基金會(ASF)組織的官方全球系列大會,作為久負盛名的開源盛宴,活動吸引了全球的開發(fā)者前來探討開源技術、開源文化和開源理念。
今年的ApacheCon Asia 2022會議議程覆蓋了數(shù)十個類別的Apache 項目內容,從流處理到消息隊列、集成,從大數(shù)據到金融科技,從搜索再到Tomcat等都有涉及。
當前,大數(shù)據技術正在深刻的引領和改變著各個行業(yè)發(fā)展,而Apache 軟件基金會(ASF)有著非常多的大數(shù)據項目,比如Hadoop, Hive, Spark, HBase, Kylin, Ozone, CarbonData, Doris, Cassandra, ZooKeeper,Hudi,Iceberg,Zeppelin,SeaTunnel(incubator) 等。也因此,本次大數(shù)據分論壇倍受業(yè)內關注。在會場中,開發(fā)者們共同探討大數(shù)據的前沿技術趨勢以及一線用戶的實踐經驗、原理、架構分析等。
傳智教育兩位老師作為大數(shù)據領域的探索者和授業(yè)者,受邀分享了《大數(shù)據 Python&生態(tài)在傳智教育的實踐和思考》,并從大數(shù)據Python生態(tài)發(fā)展、傳智教育基于大數(shù)據Python生態(tài)架構演變過程、大數(shù)據Python生態(tài)在傳智教育落地實踐、傳智教育大數(shù)據Python生態(tài)的展望四個方面,深度解析了傳智教育長期以來對大數(shù)據Python的技術理念、實踐應用和發(fā)展。
大數(shù)據Python生態(tài)發(fā)展
傳智教育認為,大數(shù)據Python生態(tài)的核心目標實際上圍繞著兩個關鍵字,分別是大數(shù)據和Python。
具體來講無非兩點,第一是將大數(shù)據的能力輸出給Python用戶,比如說Pyspark, 就相當于將spark的計算能力輸出給了Python用戶,進而就有了Pyspark這種組件。
其次要將Python生態(tài)分析計算的功能運行到大數(shù)據的組建上,進而提升Python生態(tài)對大數(shù)據問題的解決能力。
此外,使用Python語言來學習和應用大數(shù)據是非常具有優(yōu)勢的,大數(shù)據明星框架Spark首推使用Python語言進行開發(fā)。
·
傳智教育基于大數(shù)據Python生態(tài)架構演變過程
| 傳智教育基于大數(shù)據Python生態(tài)架構演變過程
趙老師結合傳智教育的實際情況舉例說,傳智教育的線上平臺業(yè)務線涉及100多個業(yè)務的看板,3000多個業(yè)務指標的分析,對于如此龐大的業(yè)務處理,傳智教育采用了Python+大數(shù)據生態(tài),從而實現(xiàn)整個數(shù)據的Pipeline來操作,同時通過實時數(shù)倉、用戶畫像和推薦系統(tǒng)等更好地為用戶提供合適的產品。
實際業(yè)務中遇到很多困難,比如:用戶咨詢和學習行為的大幅上漲;各業(yè)務庫和第三方系統(tǒng)的數(shù)據同步,采集同步;業(yè)務分析類需求查詢效率低(使用分析庫ADB查詢效率仍然低下);智能推薦(針對個性化行為信息,如何實現(xiàn)個性化課程推薦)等。
傳智教育基于上述痛點升級了架構,采用Pyflink生態(tài),重新設計出適合業(yè)務大數(shù)據的一個技術架構,運用大數(shù)據Python生態(tài)的Pyflink實現(xiàn)ETL處理,實時數(shù)倉,實現(xiàn)用戶畫像和推薦等。
值得一提的是,上圖所示的架構變遷V3.0中,從實時數(shù)倉、畫像到推薦系統(tǒng),都在整個傳智教育的大數(shù)據平臺,并首次引入 PyFlink,但是在使用過程中由于遇到了很多窗口的操作不支持問題,且當時PyFlink本身功能不完善,所以傳智教育就開發(fā)了窗口及其他PyFLink算子相關功能,并貢獻了十多個 PR 來幫助 PyFlink 變得更加成熟。
大數(shù)據Python生態(tài)在傳智教育落地實踐
傳智教育在線上平臺擁有多個學科,30多個就業(yè)模塊課程,上百門小課,需要根據用戶行為實時推薦小課和就業(yè)班課程,涉及首頁推薦、熱門推薦、猜你喜歡、搜索頁好課推薦等,需要通過用戶畫像和推薦系統(tǒng)完成個性化推薦服務。
以用戶畫像落地實踐為例,用戶信息標簽化,也就是抽取出一個平臺用戶的信息全貌,從而解決如何將數(shù)據轉化為商業(yè)價值的問題,包括教育程度、職業(yè)、喜好等標簽,以便全面了解用戶信息,同時給推薦系統(tǒng)提供數(shù)據支持。
那該使用什么技術完成標簽計算?
在傳智教育大數(shù)據&Python生態(tài)中,會首先將標簽進行分級,使用PyFlink技術棧完成人口屬性下面的年齡、性別等四級標簽計;商業(yè)屬性中支付方式、客單價、有券必買等四級標簽;行為屬性中瀏覽時長、登錄頻率、訪問頻率等四級標簽。
然后,通過PyFlink和PyAlink整合完成客戶價值標簽RFM、用戶活躍度模型RFE、價值敏感度模型PSM、購買性別標簽USG等,從而完成用戶畫像的咨詢,以及后續(xù)課程、就業(yè)、出勤等10多個看板,1000多個四級標簽構建。
展望傳智教育大數(shù)據Python生態(tài)
最后,傳智教育的趙晨杰老師,分享了大數(shù)據Python生態(tài)在傳智教育的未來發(fā)展展望。
例如,在實時數(shù)倉方面,將借助于Python大數(shù)據生態(tài)完成 ,數(shù)據湖實時接入數(shù)據,Doris實時同步數(shù)據湖數(shù)據。
在用戶畫像方面,完善用戶標簽體系,增加挖掘類標簽占比,豐富實時用戶畫像場景等。
在推薦系統(tǒng)方面,增加知識圖譜推薦,結合強化學習實現(xiàn)精準推薦,預研Bert模型在推薦系統(tǒng)應用等。
傳智教育相信在Apache 各類開源框架的應用下,傳智教育的各類系統(tǒng)應用能越來越好,同時在實踐的過程中,也能反哺系統(tǒng)功能,讓框架更完整,實現(xiàn)更多的功能。
為了讓更多的開發(fā)者在Apache社區(qū)學到大數(shù)據相關的前沿技術,傳智教育現(xiàn)已聯(lián)合Apache Hudi、Apache Doris、Apache Pulsar 等官方社區(qū)推出了完整的中文課程,給想要了解和使用這些技術的同學,提供一個快速入門的途徑,也為開源社區(qū)貢獻了自己的一份力量。
傳智教育此次應邀出席ApacheCon Asia 2022開源大會,展現(xiàn)出高新技術開發(fā)及應用的實力,作為一直致力于培養(yǎng)數(shù)字化人才的職業(yè)教育集團,未來將繼續(xù)深耕新技術場景化應用,探索數(shù)字化人才培養(yǎng)模式,帶給行業(yè)更多前沿探索實踐。