為什么對象存儲對于AI和機器學(xué)習(xí)工作量而言可能是最佳的

2019-10-06 10:16:17    來源:    作者:

如果說IT是電視節(jié)目,那將是“ Ho積者”。組織每天都在創(chuàng)建和存儲越來越多的數(shù)據(jù),并且他們很難找到有效的方式來放置所有數(shù)據(jù)。

實際上,根據(jù)IDC的研究,到2020年,我們將達到44 ZB的標(biāo)記,其中大約80%的數(shù)據(jù)不在數(shù)據(jù)庫中。隨著如此空前的數(shù)據(jù)增長,IT團隊正在尋找靈活,可擴展,易于管理的方式來保存和保護數(shù)據(jù)。這是對象存儲大放異彩的地方。

對象存儲(也稱為基于對象的存儲)是一種將數(shù)據(jù)作為對象進行管理的存儲體系結(jié)構(gòu),與其他存儲體系結(jié)構(gòu)(例如,將文件作為文件層次結(jié)構(gòu)管理數(shù)據(jù)的文件系統(tǒng)和將數(shù)據(jù)作為扇區(qū)內(nèi)的塊進行管理的塊存儲)相反和軌道。每個對象通常包括數(shù)據(jù)本身,可變數(shù)量的元數(shù)據(jù)和全局唯一標(biāo)識符。

專門(至少提供)對象存儲選項的公司包括Cloudian,Pure Storage,Digital Ocean,IBM / Cisco,Dell EMC Virtustream,Spectra Logic,SwiftStack,Qumulo,Minio,NetApp,Hitachi Data Systems,Cohesity和Veritas等其他。

Cloudian首席執(zhí)行官兼聯(lián)合創(chuàng)始人Michael Tso是一位非常了解市場的人,他向eWEEK提供了一些行業(yè)信息,確切地說明了為什么他認為對象存儲系統(tǒng)對于大數(shù)據(jù)類型的工作負載(包括運行機器學(xué)習(xí)和數(shù)據(jù)存儲的工作負載)最有效。人工智能用例-一直變得越來越普遍。

以下是這些數(shù)據(jù)集的八個特定存儲要求,以及AI和ML應(yīng)用程序為何需要企業(yè)對象存儲解決方案提供的數(shù)據(jù)管理功能的原因。

存儲要求1:可伸縮性

人工智能系統(tǒng)可以在短時間內(nèi)處理大量數(shù)據(jù)。此外,更大的數(shù)據(jù)集可提供更好的算法。這種組合帶來了巨大的存儲需求。微軟教會計算機使用五年的連續(xù)語音記錄來進行語音交談。特斯拉正在教汽車以13億英里的行駛數(shù)據(jù)行駛。管理這些數(shù)據(jù)集需要一個可以無限擴展的存儲系統(tǒng)。

對象存儲如何提供幫助:對象存儲是唯一在單個名稱空間內(nèi)無限擴展的存儲類型。此外,模塊化設(shè)計允許隨時添加存儲,因此您可以根據(jù)需求進行擴展,而不是先于需求。

存儲要求2:成本效益

一個有用的存儲系統(tǒng)必須具有可擴展性和可承受性,這兩個屬性在企業(yè)存儲中并不總是共存:從歷史上看,以成本/容量為基礎(chǔ),高度可擴展的系統(tǒng)更加昂貴。

對象存儲如何提供幫助:對象存儲建立在業(yè)界成本最低的硬件平臺上。加上低管理開銷和節(jié)省空間的數(shù)據(jù)壓縮功能,結(jié)果是成本比傳統(tǒng)企業(yè)磁盤存儲低70%。

存儲要求3:軟件定義的存儲選項

龐大的數(shù)據(jù)集有時會需要具有專用服務(wù)器架構(gòu)的超大規(guī)模數(shù)據(jù)中心。其他配置可能會受益于預(yù)配置設(shè)備的簡單性。

對象存儲的幫助方式:對象存儲使您可以選擇存儲設(shè)備或軟件定義的存儲,從而保持部署選項的打開狀態(tài)。

存儲要求4:混合架構(gòu)

不同的數(shù)據(jù)類型具有不同的性能要求,而硬件必須反映出來。系統(tǒng)必須包含正確的存儲技術(shù)組合,以滿足同時滿足的規(guī)模和性能需求,而不是一種同類通用的方法。

對象存儲如何提供幫助:對象存儲采用混合架構(gòu),其中旋轉(zhuǎn)磁盤用于存儲用戶數(shù)據(jù),而SSD用于存儲對性能敏感的元數(shù)據(jù),從而優(yōu)化了成本和性能。

存儲要求5:并行架構(gòu)

對于無限制增長的數(shù)據(jù)集,并行訪問體系結(jié)構(gòu)至關(guān)重要。否則,系統(tǒng)將產(chǎn)生限制增長的瓶頸。

對象存儲如何提供幫助:對象存儲采用無共享群集架構(gòu),這意味著系統(tǒng)的所有部分都可以并行工作。隨著系統(tǒng)擴展,數(shù)據(jù)吞吐量不斷增長。

存儲要求6:數(shù)據(jù)持久性

備份多PB訓(xùn)練數(shù)據(jù)集是不可行的;這通常是成本和時間的限制。但是,您也不能不加保護。相反,存儲系統(tǒng)需要自我保護。

對象存儲的幫助方式:對象存儲具有內(nèi)置的冗余設(shè)計,因此無需單獨的備份過程即可保護數(shù)據(jù)。此外,您可以選擇每種數(shù)據(jù)類型所需的數(shù)據(jù)保護級別,以優(yōu)化效率。系統(tǒng)可以配置為容忍多個節(jié)點故障,甚至可以容忍整個數(shù)據(jù)中心的丟失。

存儲要求7:數(shù)據(jù)局部性

盡管某些培訓(xùn)數(shù)據(jù)將駐留在云中,但出于多種原因,大部分培訓(xùn)數(shù)據(jù)仍將保留在數(shù)據(jù)中心中:性能,成本和法規(guī)遵從性是其中三個。為了具有競爭力,本地存儲必須提供與基于云的同類存儲相同的成本和可伸縮性優(yōu)勢。

對象存儲如何提供幫助:對象存儲是云的存儲。許多云提供商將其用作公共云基礎(chǔ)結(jié)構(gòu)。云可擴展性和經(jīng)濟性現(xiàn)在可以在本地使用。

存儲要求8:云集成

無論數(shù)據(jù)位于何處,由于兩個原因,云集成仍將是重要的要求。首先,許多AI / ML創(chuàng)新都發(fā)生在云中。與云集成的本地系統(tǒng)將為使用云原生工具提供最大的靈活性。其次,隨著信息的生成和分析,我們很可能會看到往返于云的數(shù)據(jù)流動。本地解決方案應(yīng)該簡化流程,而不是限制流程。

對象存儲如何提供幫助:對象存儲應(yīng)通過三種方式與云集成:首先,解決方案可以采用S3 API,這是事實上的云存儲標(biāo)準(zhǔn)語言。其次,它們可以促進與Amazon,Google和Microsoft公共云之間的分層,并允許您在單個命名空間中查看本地和基于云的數(shù)據(jù)。第三,應(yīng)該直接從基于云的應(yīng)用程序訪問存儲到云的數(shù)據(jù)。這種雙模式訪問使您可以交替使用云資源和本地資源。

要充分發(fā)揮AI / ML的潛力,就需要支持創(chuàng)新的基礎(chǔ)架構(gòu)。當(dāng)今的對象存儲解決方案應(yīng)提供可擴展性,成本效率和互操作性,從而增強這些新興技術(shù)的功能。

鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請第一時間聯(lián)系我們修改或刪除,多謝。