Google使軟件開發(fā)人員更容易編寫應(yīng)用程序并將其與其Cloud Dataflow托管服務(wù)集成,以處理大型數(shù)據(jù)集。該公司于12月18日向開源社區(qū)發(fā)布了一個(gè)用于Cloud Dataflow的Java軟件開發(fā)套件,該套件描述為旨在推動(dòng)圍繞該技術(shù)的應(yīng)用程序開發(fā)的工作。
Google軟件工程師Sam McVeety在博客中表示,將SDK開源后,其想法還在于幫助開發(fā)人員將Cloud Dataflow移植到其他語言和其他服務(wù)執(zhí)行環(huán)境。
McVeety寫道:“可重用的編程模式是提高開發(fā)人員效率的關(guān)鍵因素。” 他說:“ Cloud Dataflow SDK引入了用于批處理和流數(shù)據(jù)處理的統(tǒng)一模型”,開發(fā)人員可以通過創(chuàng)新的新方式加以利用。
McVeety說:“我們期待著共同構(gòu)建一個(gè)系統(tǒng),該系統(tǒng)能夠?yàn)樗斜尘暗挠脩籼峁┓植际綌?shù)據(jù)處理。”
谷歌在6月的Google I / O會(huì)議上宣布了Cloud Dataflow,這是一項(xiàng)托管服務(wù),可幫助企業(yè)實(shí)時(shí)和以批處理方式提取和分析大量數(shù)據(jù)集。
該公司將 Cloud Dataflow 描述為基于MapReduce的技術(shù)以及Flume和MillWheel等最新技術(shù),Google在內(nèi)部使用了所有這些技術(shù)來分析真正的海量數(shù)據(jù)存儲(chǔ)。
通過整合所有這些技術(shù)的要素,Google希望提供一種數(shù)據(jù)處理服務(wù),從而使公司能夠靈活地對(duì)大型數(shù)據(jù)集進(jìn)行批處理分析,以及對(duì)流進(jìn)數(shù)據(jù)庫的數(shù)據(jù)進(jìn)行近乎實(shí)時(shí)的分析。它還將使公司能夠攝取數(shù)據(jù)并分階段存儲(chǔ)數(shù)據(jù),以供其他分析工具和服務(wù)(例如Google自己的BigQuery)使用。
對(duì)于希望從大數(shù)據(jù)中獲取業(yè)務(wù)價(jià)值的公司而言,這種功能至關(guān)重要。云服務(wù),移動(dòng)設(shè)備和傳感器技術(shù)的激增使企業(yè)可以從無數(shù)來源收集越來越多的數(shù)據(jù)。挑戰(zhàn)一直是尋找一種方法來組織和管理數(shù)據(jù),從而從中獲取業(yè)務(wù)價(jià)值。
亞馬遜是最大的云服務(wù)提供商之一,已經(jīng)提供了一項(xiàng)稱為Kinesis的托管服務(wù),該服務(wù)類似于Google計(jì)劃通過Cloud Dataflow推出的服務(wù)。亞馬遜將Kinesis視為一項(xiàng)用于大規(guī)模實(shí)時(shí)處理流數(shù)據(jù)的服務(wù)。它旨在作為一項(xiàng)服務(wù)來幫助公司捕獲,存儲(chǔ)和分析從在線交易,Web日志,社交媒體源和移動(dòng)設(shè)備中提取的TB級(jí)數(shù)據(jù)。
借助Cloud Dataflow,Google希望能夠?yàn)殚_發(fā)人員和企業(yè)提供類似的功能。McVeety在他的博客文章中指出:“數(shù)據(jù)的價(jià)值在于分析-以及分析所產(chǎn)生的情報(bào)。
“隨著數(shù)據(jù)集變得龐大并分布在不同的存儲(chǔ)系統(tǒng)中,將數(shù)據(jù)轉(zhuǎn)換為智能可能會(huì)非常具有挑戰(zhàn)性。此外,對(duì)實(shí)時(shí)分析的需求不斷增長(zhǎng),從數(shù)據(jù)集提取價(jià)值的障礙也對(duì)開發(fā)人員構(gòu)成了巨大的挑戰(zhàn),”他說。