隨著越來越多的人工智能應(yīng)用程序轉(zhuǎn)移到智能手機(jī)上,深度學(xué)習(xí)模型越來越小,以允許應(yīng)用程序更快地運(yùn)行并節(jié)省電池電量?,F(xiàn)在,麻省理工學(xué)院的研究人員有了一種新的更好的壓縮模型的方法。
它是如此簡單,以至于他們在上個月的一條推文中公開了它:訓(xùn)練模型,修剪其最弱的連接,以快速的早期訓(xùn)練速率對其進(jìn)行重新訓(xùn)練,然后重復(fù)進(jìn)行,直到模型達(dá)到您想要的尺寸為止。
“就是這樣,”博士Alex Renda說。麻省理工學(xué)院的學(xué)生。人們修剪模型的標(biāo)準(zhǔn)操作非常復(fù)雜。”
Renda在本月遠(yuǎn)程召開的國際學(xué)習(xí)代表大會(ICLR)上討論了該技術(shù)。倫達(dá)(Renda)是與博士生喬納森·弗蘭克(Jonathan Frankle)共同撰寫的作品 麻省理工學(xué)院電氣工程和計(jì)算機(jī)科學(xué)系(EECS)的學(xué)生,以及電氣工程和計(jì)算機(jī)科學(xué)的助理教授邁克爾·卡賓(Michael Carbin)-計(jì)算機(jī)科學(xué)和人工科學(xué)實(shí)驗(yàn)室的所有成員。
去年,在ICLR上,富蘭克爾和卡賓(Frankle and Carbin)獲獎的彩票假說論文尋求更好的壓縮技術(shù)。他們表明,如果在訓(xùn)練的早期發(fā)現(xiàn)正確的子網(wǎng),則深度神經(jīng)網(wǎng)絡(luò)僅能執(zhí)行十分之一的連接數(shù)。隨著對訓(xùn)練更大的深度學(xué)習(xí)模型的計(jì)算能力和能量需求呈指數(shù)級增長,這一啟示一直持續(xù)到今天。這種增長的代價(jià)包括,由于不屬于大型科技公司的研究人員爭奪稀缺的計(jì)算資源,導(dǎo)致全球變暖的碳排放量增加以及創(chuàng)新潛力下降。每天的用戶也會受到影響。大型AI模型會消耗手機(jī)帶寬和電池電量。
彩票假說引發(fā)了一系列主要是理論上的后續(xù)論文。但是在同事的建議下,弗蘭克勒決定看看它可能會修剪什么課程,其中搜索算法會修剪搜索樹中評估的節(jié)點(diǎn)數(shù)。這個領(lǐng)域已經(jīng)存在了幾十年,但是在神經(jīng)網(wǎng)絡(luò)在ImageNet競賽中對圖像進(jìn)行分類的突破性成功之后,這個領(lǐng)域又重新出現(xiàn)了。隨著模型的變大,研究人員增加了人工神經(jīng)元的層以提高性能,其他人則提出了降低它們的技術(shù)。
現(xiàn)在擔(dān)任麻省理工學(xué)院助理教授的宋瀚是一位先驅(qū)。在一系列有影響力的論文的基礎(chǔ)上,Han提出了一種修剪算法,他稱其為AMC或用于模型壓縮的AutoML,這仍然是行業(yè)標(biāo)準(zhǔn)。在Han的技術(shù)下,多余的神經(jīng)元和連接被自動刪除,并對模型進(jìn)行重新訓(xùn)練以恢復(fù)其初始精度。
作為對Han的工作的回應(yīng),F(xiàn)rankle最近在未發(fā)表的論文中建議,可以通過將較小的修剪后的模型倒回其初始參數(shù)或權(quán)重,并以更快的初始速率對較小的模型進(jìn)行重新訓(xùn)練來進(jìn)一步改善結(jié)果。
在當(dāng)前的ICLR研究中,研究人員意識到該模型可以簡單地倒退到其早期訓(xùn)練速度,而無需擺弄任何參數(shù)。在任何修剪方案中,模型變得越小,精度就越低。但是,當(dāng)研究人員將此新方法與Han的AMC或Frankle的重繞方法進(jìn)行比較時(shí),無論模型縮小多少,其效果都更好。
目前尚不清楚修剪技術(shù)為何能如此出色地工作。研究人員說,他們將把這個問題留給其他人回答。研究人員說,對于那些想嘗試的人,該算法與其他修剪方法一樣容易實(shí)現(xiàn),而無需花費(fèi)時(shí)間進(jìn)行調(diào)整。
“這是'Book'中的修剪算法,” Frankle說。“這很明顯,通用并且很簡單。”
就Han而言,現(xiàn)在從一開始就將重點(diǎn)從壓縮AI模型轉(zhuǎn)移到了引導(dǎo)AI上,以設(shè)計(jì)小型,高效的模型。他最新的方法“為所有人而做”也在ICLR上首次亮相。關(guān)于新的學(xué)習(xí)率方法,他說:“我很高興看到新的修剪和再培訓(xùn)技術(shù)不斷發(fā)展,使更多的人能夠使用高性能的AI應(yīng)用程序。”