
搜索"raincent"或掃描下面的二維碼
?
『大數據』技術會逐步向輕量化和智能化方向發展,最終也會成為一個研發工程師的必備技能之一,而這個過程必須是由雲計算技術來驅動以及在雲平台之上才能完成
李俊卿關于《流式數據處理在百度數據工廠應用與實踐》主題演講,主要內容如下。
做前端的同學不少都是自學成才或者半路出家,計算機基礎的知識比較薄弱,尤其是數據結構和算法這塊,所以今天整理了一下常見的數據結構和對應的Javascript的實現,希望能幫助...
在大數據、人工智能、區塊鏈等新興技術的驅動下,各家銀行紛紛利用新技術制定數字轉型改革戰略,尋找差異化經營的可行模式。
背景YARN 作為 Hadoop 的資源管理系統,負責 Hadoop 集群上計算資源的管理和作業調度。美團的 YARN 以社區 2 7 1 版本為基礎構建
在本篇博客,我們將重新發表論文中的部分內容,為廣大讀者解釋Catalyst 優化器的內部原理。
本文主要講解python中操作word的思路。
Kafka在世界享有盛名,大部分互聯網公司都在使用它,那麼它到底是什麼呢?讓我們一步一步地來理解他,隨後深入探討其工作原理。
Python是一門非常適合處理數據和自動化完成重復性工作的編程語言,我們在用數據訓練機器學習模型之前,通常都需要對數據進行預處理,而Python就非常適合完成這項工作,比如需...
流式數據處理在百度數據工廠的應用與實踐
在大規模並行數據分析領域,AMPLab 的『One stack to rule them all』提出用 Apache Spark 作為統一的引擎支持批處理、流處理、交互查詢和機器學習等常見的數據處理場景。
天貓首頁作為用戶打開手機天貓 App 的第一印象,所推薦的商品極大地決定了用戶接下來的行為,對用戶流量的承接與分發、提升用戶購物體驗和呈現天貓貨品的性價比、品質感及品...
SparkSql 是架構在 Spark 計算框架之上的分布式 Sql 引擎,使用 DataFrame 和 DataSet 承載結構化和半結構化數據來實現數據復雜查詢處理,提供的 DSL可以直接使用 ...
目前實時計算的業務場景越來越多,實時計算引擎技術及生態也越來越成熟。以 Spark 和 Flink 為首的實時計算引擎,成為實時計算場景的重點考慮對象。那麼,今天就來聊一聊...
時間序列數據Time Series Data是在不同時間上收集到的數據,這類數據是按時間順序收集到的,用于所描述現象隨時間變化的情況。
在本文中優酷數據中台的數據技術專家門德亮分享了優酷從Hadoop遷移到阿里雲MaxCompute後對業務及平台的價值。
筆者作為架構師,全程參與了 JournalQ 和 JournalKeeper 的設計和開發。這篇文章中,我將跟大家分享在開發這兩款產品過程中的一些技術心得和實踐經驗。
大數據時代,除了媒體信息以外,商品在各類電商平台的訂單量,用戶的購買評論也都對後續的消費者產生很大的影響。
這個全網輿情分析系統,可以實現百億條網頁數據的存儲、實時新增網頁的抓取和存儲並能對新增網頁做實時的元數據提取。有了提取結果,我們還需要進行進一步的挖掘分析,這些分...
整理自快手大數據架構工程師鐘靚近日在 A2M 人工智能與機器學習創新峰會的演講分享《SQL on Hadoop 在快手大數據平台的實踐與優化》。
很多用Spark Streaming 的朋友應該使用過broadcast,大多數情況下廣播變量都是以單例模式聲明的有沒有粉絲想過為什麼?
據Neustar Research 4月發布的報告聲稱,從2018年第一季度到今年第一季度,規模不小于100 Gbps的DDoS攻擊數量猛增了近1000%。
自2014年以來,Uber 一直致力于開發大數據解決方案,確保數據可靠性,可擴展性和易用性;現在 Uber 正專注于提高他們平台的速度和效率。
本文從不平衡學習的基礎概念和問題定義出發,介紹了幾類常見的不平衡學習算法和部分研究成果。總體來說,不平衡學習是一個很廣闊的研究領域,但受筆者能力和篇幅的限制,本文...
數據不平衡是機器學習任務中的一個常見問題。真實世界中的分類任務中,各個類別的樣本數量往往不是完全平衡的,某一或某些類別的樣本數量遠少于其他類別的情況經常發生,我們...