技術(shù)觀察家中,Hot Hardware的 Paul Lilly 表示,他們從2-D到3-D的方式是新聞。當(dāng)路徑是反向的3D轉(zhuǎn)換為2D時(shí),這也就不足為奇了,但是“在不提供系統(tǒng)3D數(shù)據(jù)的情況下創(chuàng)建3D 模型則更具挑戰(zhàn)性。”
禮來(lái)(Lilly)引用了致力于渲染方法的研究團(tuán)隊(duì)之一高俊(Jun Gao)的話。“這實(shí)際上是有史以來(lái)第一次,您幾乎可以拍攝任何2D圖像并預(yù)測(cè)相關(guān)的3D屬性。”
他們從2-D圖像生成3-D對(duì)象的魔力在于“可差分基于插值的渲染器”或DIB-R。Nvidia的研究人員在包含鳥(niǎo)類圖像的數(shù)據(jù)集上訓(xùn)練了他們的模型。經(jīng)過(guò)訓(xùn)練,DIB-R能夠拍攝鳥(niǎo)類圖像并傳遞3D圖像,并具有3D鳥(niǎo)類正確的形狀和紋理。
Nvidia進(jìn)一步描述了將輸入轉(zhuǎn)換為用于預(yù)測(cè)特定信息(例如圖像的形狀,顏色,紋理和光照)的特征圖或向量的方法。
為何重要:Gizmodo的標(biāo)題進(jìn)行了總結(jié)。“ Nvidia教了AI從平面2-D圖像即時(shí)生成全紋理的3-D模型。” “立即”這個(gè)詞很重要。
Nvidia的Lauren Finkle 說(shuō),DIB-R可以在不到100毫秒的時(shí)間內(nèi)從2D圖像生成3D對(duì)象。“它是通過(guò)改變代表3D形狀的傳統(tǒng)模板多邊形球來(lái)實(shí)現(xiàn)的。DIB-R對(duì)其進(jìn)行更改以匹配2D圖像中描繪的真實(shí)物體形狀。”
Gizmodo的 Andrew Liszewski 強(qiáng)調(diào)了這100毫秒的時(shí)間要素。“令人印象深刻的處理速度使該工具特別有趣,因?yàn)樗哂袠O大地改善機(jī)器人或自動(dòng)駕駛汽車之類的機(jī)器如何看待世界并了解其前身的潛力的潛力。”
關(guān)于自動(dòng)駕駛汽車,利澤夫斯基說(shuō):“從攝像機(jī)實(shí)時(shí)視頻流中提取的靜止圖像可以立即轉(zhuǎn)換為3D模型,從而使自動(dòng)駕駛汽車能夠準(zhǔn)確地確定需要避免的大型卡車的尺寸。 ”
可以從2D圖像推斷出3D對(duì)象的模型將能夠執(zhí)行更好的對(duì)象跟蹤,Lilly轉(zhuǎn)向考慮將其用于機(jī)器人技術(shù)。他說(shuō):“通過(guò)將2D圖像處理成3D模型,自主機(jī)器人將處于更好的位置,可以更安全,更有效地與其環(huán)境進(jìn)行交互。”
Nvidia指出,要做到這一點(diǎn),自主機(jī)器人“必須能夠感知和理解其周圍環(huán)境。DIB-R可能會(huì)改善這些深度感知能力。”
同時(shí),Gizmodo的Liszewski提到了Nvidia方法可以為安全做些什么。“ DIB-R甚至可以提高用于識(shí)別人員并跟蹤人員的安全攝像機(jī)的性能,因?yàn)榧磿r(shí)生成的3D模型將使人們?cè)谝曇胺秶鷥?nèi)移動(dòng)時(shí)更容易進(jìn)行圖像匹配。”
Nvidia研究人員將于本月在溫哥華舉行的年度神經(jīng)信息處理系統(tǒng)會(huì)議(NeurIPS)上介紹他們的模型。
那些想了解更多關(guān)于他們的研究的人可以在arXiv上查閱他們的論文,“學(xué)會(huì)使用基于插值的微分渲染器預(yù)測(cè)3D對(duì)象”。作者是陳文正,高俊,Hua玲,愛(ài)德華·史密斯,Jaakko Lehtinen,Alec Jacobson和Sanja Fidler。
他們提出了“一個(gè)完整的基于光柵化的微分渲染器,可以通過(guò)解析來(lái)計(jì)算梯度。” 他們說(shuō),當(dāng)包裹在神經(jīng)網(wǎng)絡(luò)周圍時(shí),他們的框架學(xué)會(huì)了從單個(gè)圖像預(yù)測(cè)形狀,紋理和光線,并且展示了他們的框架“以學(xué)習(xí)3D紋理形狀的生成器”。
作者在摘要中指出:“許多機(jī)器學(xué)習(xí)模型都對(duì)圖像進(jìn)行操作,但是忽略了這樣的事實(shí),即圖像是由3-D幾何體與光相互作用形成的2-D投影,這一過(guò)程稱為渲染。使ML模型能夠理解圖像形成可能是推廣的關(guān)鍵。”
他們提出了DIB-R作為框架,該框架可以分析圖像中所有像素的梯度。
他們說(shuō),他們方法的關(guān)鍵是“將前景柵格化視為局部屬性的加權(quán)插值,將背景柵格化視為基于距離的全局幾何聚合。我們的方法允許對(duì)頂點(diǎn)位置,顏色,法線和光照方向進(jìn)行精確優(yōu)化并通過(guò)各種照明模型協(xié)調(diào)紋理。”