當前位置︰技術分享 > 技術參考 > 正文

流式數據處理在百度數據工廠應用與實踐2019-08-15 11:09:36 | 編輯︰hely | 查看︰ | 評論︰0

李俊卿關于《流式數據處理在百度數據工廠應用與實踐》主題演講,主要內容如下。

李俊卿關于《流式數據處理在百度數據工廠應用與實踐》主題演講,主要內容如下。

百度數據工廠以 Spark 為基礎提供了流批一體的大數據分析解決方案,流式數據處理在里面承擔了其中的實時計算和實時與離線轉換功能。流式數據處理不僅提供了流批統一 SQL 引擎、流批統一 META 管理和實時落數倉等技術支持,還提供了流式數據處理的一體化平台,提供流式數據處理的提交、運維、監控等能力。以百度數據工廠為基礎,流式數據處理在大型日志分析、廣告物料分析、實時推薦、大屏展示等方面提供了強力支撐,獲得了較好的效果。本演講將分享我們就 Spark 流式數據處理在數據工廠內做了哪些技術支持、改造及相應的實踐。

主要內容︰

理解數據工廠在流批統一上的優勢;

了解數據工廠流式數據處理的技術改進;

理解流式數據處理的一體化平台;

數據工廠流式數據處理在百度內的實踐。

李俊卿,百度高級研發工程師,數據工廠流式數據處理負責人。加入百度後,一直從事大數據相關工作,參與了百度大數據離線批處理從 Hive 到 Spark1.x 到 Spark2.x 技術方案的架構升級,主導了數據工廠的流式數據處理的整體設計及核心的研發工作,提出基于 Spark 的流 / 批 SQL 引擎統一方案,對分布式系統流批一致處理有獨到見解。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

完整演講 PPT 下載鏈接︰

https://qcon.infoq.cn/2019/beijing/schedule

上一篇︰常見數據結構和Javascript實現總結 數據中台之結構化大數據存儲設計下一篇︰