Cloudera的開源Apache Spark引擎發(fā)行版上運行的Cloud Dataflow版本

2019-11-02 10:20:40    來源:    作者:

谷歌去年6月宣布將Cloud Dataflow作為一項托管服務,旨在幫助公司以批處理和實時流模式提取和分析海量數(shù)據(jù)集。去年12月,該公司向開源社區(qū)發(fā)布了Cloud Dataflow軟件開發(fā)套件,以鼓勵軟件開發(fā)人員編寫易于與托管服務以及其他執(zhí)行環(huán)境集成的應用程序。

這一舉措的結(jié)果之一是在Cloudera的開源Apache Spark引擎發(fā)行版上運行的Cloud Dataflow版本,用于大規(guī)模數(shù)據(jù)處理。Cloudera和Google于1月20日宣布了新的Dataflow“運行程序” ,開發(fā)人員將可以將Dataflow管道作為目標,以便在云托管或本地Spark集群以及Google托管服務上執(zhí)行。

Cloud Dataflow最引人注目的方面之一是它對可以同時執(zhí)行批處理和流模式的流水線邏輯的支持,Cloudera數(shù)據(jù)科學高級總監(jiān)Josh Wills在該公司的博客中宣布了這一新發(fā)展。

Wills說,Cloud Dataflow的流傳輸功能比Spark Streaming所提供的先進,而其批處理執(zhí)行引擎可優(yōu)化不處理流數(shù)據(jù)的管道的性能。

Cloud Dataflow結(jié)合了Google多年來在內(nèi)部用于大型數(shù)據(jù)處理的幾種主要技術(shù),包括MapReduce,F(xiàn)lumeJava批處理引擎和MillWheel流處理引擎。谷歌云平臺團隊的產(chǎn)品經(jīng)理埃里克·施密特(Eric Sc??hmidt)說:“數(shù)據(jù)流是我們對數(shù)據(jù)處理技術(shù)的綜合投資。” 他說:“從開發(fā)人員的角度來看,它是一種編程模型和一種托管服務。”

Google去年12月發(fā)布的Cloud Dataflow SDK為開發(fā)人員提供了一種編寫結(jié)合了批處理和流處理功能的大數(shù)據(jù)應用程序的方式,而無需使用單獨的編程模型或單獨的基礎結(jié)構(gòu)來運行它們。

施密特說:“他們以前必須做的是運行一個不同的SDK。” 他說:“您要么讓一組用戶執(zhí)行靜態(tài)的MapReduce批處理作業(yè),要么就擁有另一個陣營[進行流分析]。” 他說:“我們希望將批處理和流合并,并擁有一個組合的服務基礎架構(gòu)”,以同時運行這兩種服務。

他說,Google于12月將SDK發(fā)布到開源社區(qū),以確保將Dataflow也移植到其他執(zhí)行環(huán)境。他說,Cloudera Apache Spark的發(fā)布是Google考慮到Dataflow方向的一個例子。

Google首次宣布Dataflow時的關(guān)鍵問題之一是,使用該編程模型的開發(fā)人員是否會被鎖定在Google基礎架構(gòu)中以運行其管道。施密特說:“我們的策略是將SDK擴展到開源,以便他們可以將其擴展到其他環(huán)境。”

他說,隨著周二的宣布,Cloud Dataflow現(xiàn)在可以在Google的基礎架構(gòu),Spark集群或本地計算機上運行。

Google的舉動旨在更好地將公司定位于服務和技術(shù)的新興市場,以幫助企業(yè)從海量數(shù)據(jù)集中提取業(yè)務價值。多年來,許多公司在從事務處理系統(tǒng),點擊流,系統(tǒng)日志,機器傳感器,移動設備和其他來源中收集各種數(shù)據(jù)方面已經(jīng)做得更好。但是,由于傳統(tǒng)數(shù)據(jù)庫管理技術(shù)的局限性以及為大數(shù)據(jù)集構(gòu)建數(shù)據(jù)處理基礎架構(gòu)所涉及的復雜性,他們一直在努力從中獲取價值。

鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯(lián)系我們修改或刪除,多謝。