微軟在AzureCon之前宣布了圍繞其基于云的大數(shù)據(jù)處理功能的一些重大新進展,AzureCon是一項免費的虛擬活動,于9月29日開始。
其中之一是Azure Data Lake Store,它是Azure Data Lake的擴展,Azure Data Lake是公司用于大數(shù)據(jù)工作負載的基于云的存儲庫,于4月的Build大會上首次宣布。Microsoft Data Platform公司副總裁TK Rengarajan表示,Azure Data Lake Store旨在簡化企業(yè)的大數(shù)據(jù)處理和分析。
Rengarajan在9月28日的公告中說:“ Data Lake Store提供了一個單一的存儲庫,您可以在其中輕松捕獲任何大小,類型和速度的數(shù)據(jù),而不必強制應(yīng)用程序隨數(shù)據(jù)規(guī)模的變化而變化。” “在商店中,可以安全地共享數(shù)據(jù)以進行協(xié)作,并且可以從HDFS [Hadoop分布式文件系統(tǒng)]應(yīng)用程序和工具訪問數(shù)據(jù)以進行處理和分析。”
HDFS是流行的Hadoop大數(shù)據(jù)處理平臺的可擴展和分布式存儲組件。微軟計劃在今年晚些時候提供Azure Data Lake作為預(yù)覽。
Rengarajan表示,Azure Data Lake Store幫助為企業(yè)物聯(lián)網(wǎng)(IoT)計劃奠定了基礎(chǔ)。“例如,可以從物聯(lián)網(wǎng)解決方案的傳感器和設(shè)備或在線購物網(wǎng)站將數(shù)據(jù)實時攝取到商店中,而不受帳戶或文件大小的固定限制的限制,這與目前市場上的產(chǎn)品不同。”
此外,Azure Data Lake套件正在獲得基于Apache YARN的名為Azure Data Lake Analytics的分析服務(wù)。YARN也稱為MapReduce 2.0,是僅次于Apache Spark的第二受歡迎的數(shù)據(jù)處理引擎。
Rengarajan說:“這項服務(wù)將于今年晚些時候在預(yù)覽版中提供,其中包括U-SQL,該語言將SQL的好處與用戶代碼的表達能力統(tǒng)一在一起。” “ U-SQL的可擴展分布式查詢功能使您能夠有效地分析存儲中以及Azure,Azure SQL數(shù)據(jù)庫和Azure SQL數(shù)據(jù)倉庫中的所有SQL Server中的數(shù)據(jù)。”
他接著解釋說,U-SQL是一種新的查詢語言,融合了“ SQL的易用性和C#的強大表達能力”。“ U-SQL語言建立在為Microsoft內(nèi)部大數(shù)據(jù)系統(tǒng)提供支持的同一分布式運行時上。”
最終,微軟宣布了HDInsight在Linux上的全面上市。HDInsight支持許多開源分析引擎,包括HBase,Hadoop,Spark和Storm。Rengarajan說:“我們與Hortonworks和Canonical緊密合作,在Ubuntu操作系統(tǒng)上提供HDP(Hortonworks數(shù)據(jù)平臺)發(fā)行版,該發(fā)行版為Data Lake中的Linux版本的HDInsight提供支持。”
他補充說:“這是微軟迎接客戶的又一個戰(zhàn)略步驟,使您更容易在云中運行Hadoop工作負載。” 根據(jù)Rengarajan的說法,托管群集產(chǎn)品必須遵守99.9%的正常運行時間服務(wù)水平協(xié)議(SLA)。