將Kubernetes添加到Microsoft用來擴展基于云的人工智能邊界的不斷增長的技術中。流行的開源容器編排平臺Kubernetes 在2017年取得了突破性的發(fā)展。現(xiàn)在,除了幫助企業(yè)在云或本地管理其應用程序容器部署外,還招募了Kubernetes,以便為基于云的AI工作負載提供在需求回升時完成工作所需的空間。
微軟推出了一種新的自動擴展系統(tǒng),該系統(tǒng)使用Kubernetes來擴展或縮減學習培訓工作負載所需的云計算資源量。該系統(tǒng)是與加利福尼亞州圣何塞市的技術初創(chuàng)公司Litbit合作開發(fā)的,該公司使用物聯(lián)網(wǎng)數(shù)據(jù)創(chuàng)建“ AI角色”,工作場所可根據(jù)其集體經(jīng)驗和專有技術來增強員工的能力。
例如,組織可以創(chuàng)建和培訓角色,以幫助其現(xiàn)場技術人員在跳上工作卡車并親自拜訪正在起作用以節(jié)省時間和費用的機械之前,檢測并診斷設備問題。
事實證明,這是一個艱巨的任務,而且是一個不可預測的任務。Litbit發(fā)現(xiàn),由于客戶在不同時間訓練其角色,因此AI訓練工作負載的變化很大。
“其中一些訓練工作(例如Spark ML)大量使用CPU,而其他一些工作(例如TensorFlow)大量使用GPU。在后一種情況下,某些工作會重新訓練神經(jīng)網(wǎng)絡的單個層并很快完成,而其他人則需要訓練整個新的神經(jīng)網(wǎng)絡,這可能需要數(shù)小時甚至數(shù)天。”微軟代表在博客中解釋道。
微軟和Litbit選擇了Kubernetes,部分原因是因為其成熟的集群管理技術,而且還因為該項目在短短幾年內(nèi)吸引了社區(qū)的大力支持。盡管該項目始于Google,但仍被視為Linux基金會的Cloud Native Computing Foundation(CNCF)的頭等大事。
兩家公司著手通過使用適用于Kubernetes的Azure CNI網(wǎng)絡插件在具有GPU支持的Azure上配置Kubernetes群集來解決高度可變的機器學習工作負載的問題。然后,他們使用用于Kubernetes的Helm軟件包管理器應用了節(jié)點級自動縮放器,隨后進行了一些配置更改,以啟動和運行系統(tǒng)。
該項目是成功的。該系統(tǒng)已經(jīng)運行了四個月,它使Litbit一次可以擴展到40個節(jié)點,并且在需求減少時可以無縫縮減規(guī)模。微軟已經(jīng)在其開發(fā)者博客上發(fā)布了Kubernetes自動縮放器的完整演練。
反映出困擾企業(yè)DevOps團隊的容器熱潮,微軟對Kubernetes的支持增加了一倍。
在今年12月初的KubeCon會議上,微軟宣布其Azure容器服務現(xiàn)已縮寫為AKS,這表示該公司以客戶為中心,以Kubernetes為中心的云原生應用程序開發(fā)方法。該公司還推出了一個名為Virtual Kubelet的新連接器,該連接器使用戶可以定位該公司的快速容器創(chuàng)建和部署服務Azure容器實例(ACI)。