跟蹤您的所有數(shù)據(jù) - 它的位置,它的去向,訪問者以及他們使用它做什么 - 既不好玩也不令人興奮。但它是整體數(shù)據(jù)管理的必要基礎(chǔ),在GDPR和CCPA 時代,它也是法律要求。這就是數(shù)據(jù)治理的內(nèi)容。
數(shù)據(jù)目錄是數(shù)據(jù)治理的無名英雄。一個數(shù)據(jù)目錄被寬泛地定義為旨在幫助企業(yè)查找和管理大量數(shù)據(jù)的元數(shù)據(jù)管理工具。今天,數(shù)據(jù)目錄領(lǐng)域的主要參與者之一Waterline Data正在宣布其產(chǎn)品的更新,ZDNet借此機(jī)會與創(chuàng)始人兼首席技術(shù)官Alex Gorelik進(jìn)行了討論。
水線數(shù)據(jù)目錄獲得更新:DATAOPS儀表板和混合多云
Waterline Data是一家單一產(chǎn)品公司。它的數(shù)據(jù)目錄是它提供的每個解決方案都基于,從元數(shù)據(jù)管理和數(shù)據(jù)沿襲到敏感數(shù)據(jù)發(fā)現(xiàn)和數(shù)據(jù)合理化。今天的發(fā)布以新的DataOps儀表板為中心,Waterline表示可以作為監(jiān)管中心,公司可以了解其數(shù)據(jù)產(chǎn)業(yè)的宏觀風(fēng)險。
DataOps儀表板允許用戶輕松查找和查看包含受管制敏感數(shù)據(jù)的特定文件,并幫助加快識別,修復(fù)和文檔處理過程,以滿足GDPR和CCPA要求。然而,Gorelik指出,還有另一項重大改進(jìn):支持混合多云支持的新代理架構(gòu)。
“Waterline現(xiàn)在可以編目并自動標(biāo)記多個云中的數(shù)據(jù),如AWS,Azure和Google Cloud Platform;內(nèi)部大數(shù)據(jù)系統(tǒng),如Cloudera和MapR;云數(shù)據(jù)庫,如Snowflake和RedShift;以及內(nèi)部部署的關(guān)系數(shù)據(jù)庫。代理可以運行本地用于Apache Spark或容器中,用于沒有Spark集群的環(huán)境,“Gorelik說。
另一個新功能是支持限制將數(shù)據(jù)發(fā)送出國的數(shù)據(jù)駐留法??梢詫⒋砼渲脼樵诒镜貓?zhí)行所有處理和發(fā)現(xiàn),并僅將非敏感元數(shù)據(jù)發(fā)送到中央目錄。最后,圍繞可用性,個性化和協(xié)作進(jìn)行了改進(jìn)。
集成和開源
元數(shù)據(jù)確實是關(guān)鍵,而Waterline通過機(jī)器學(xué)習(xí)對其進(jìn)行補(bǔ)充,以盡可能多地自動化苦差事。這是我們與Gorelik討論的焦點,從管理的元數(shù)據(jù)的確切性質(zhì)開始,以及與Waterline所引用的其他系統(tǒng)的集成。
Gorelik說,對于關(guān)系數(shù)據(jù)庫,Waterline通常使用標(biāo)準(zhǔn)JDBC。然而,有時他們必須做特定于平臺的事情。Waterline自動識別文件格式并解析文件系統(tǒng)和對象庫中的文件(AVRO,鑲木地板,JSON,XML,ORC,CSV等)。爬行自動完成并遞增:將Waterline指向文件夾或數(shù)據(jù)庫,它會檢測任何更改并處理新數(shù)據(jù)。
集成通過REST API完成,它支持雙向集成。Gorelik提到Waterline提供了預(yù)先構(gòu)建的適配器,可以從Atlas和Cloudera Navigator導(dǎo)入沿襲,并將標(biāo)簽和標(biāo)簽關(guān)聯(lián)導(dǎo)出到Atlas和Cloudera Navigator,這些標(biāo)簽用于驅(qū)動Ranger和Cloudera Sentry基于標(biāo)簽的訪問控制策略。
這些REST API有自己的JSON數(shù)據(jù)定義,但我們真正希望聽到的是對Egeria的某種支持。Egeria是一個ODPi開源項目,它實現(xiàn)了一組開放的API,類型和交換協(xié)議,以允許所有元數(shù)據(jù)存儲庫共享和交換元數(shù)據(jù)。
Hortonworks是ODPi成員,Egeria于2018年在Hortonworks的DataWorks活動中亮相,就Hortonworks而言,似乎這是Hadoop世界中元數(shù)據(jù)管理的前進(jìn)方向。顯然Cloudera - Hortonworks合并的事情很復(fù)雜,因為現(xiàn)在它都是Cloudera Navigator的元數(shù)據(jù)管理。然而,Egeria也在2019年的新Cloudera DataWorks活動中亮相,所以可能還有希望。利用Egeria是個好主意。