在GTC 2021 期間,NVIDIA Research 宣布他們正在開發一款全新的深度學習引擎,透過GANverse3D 應用程式,可以把 2D 影像建立成 3D 物件模型,好比說經典影集《霹靂遊俠》裡頭的霹靂車。
位在多倫多的 NVIDIA AI Research Lab 在 GTC 2021 期間展示 GANverse3D 應用程式開發成果。工程師透過這個應用程式能將平面影像打造成逼真的 3D 模型,並且可以在虛擬環境中進行視覺化的呈現和控制。根據他們所說,這項功能可以幫助建築師、創作者、遊戲開發者和設計師輕鬆地在他們的模型中加入新的物件,無需 3D 建模方面的專業知識,也不用花費大筆預算進行渲染。
舉例來說,將一張汽車的照片或影片變成一個可視化 3D 模型,這個模型甚至可以在虛擬場景中行駛,車上還配有逼真的頭燈、尾燈和方向燈,下方有個影片說明整個過程:
為了產生訓練用的資料集,研究人員利用生成對抗網路 (GAN) 來合成從多個視角描繪同一物件的影像,就像攝影師圍繞一輛停放的車子走動,並從不同的角度進行拍攝。這些多視角影像被插入一個用於製作反影像的渲染框架中,這便是從 2D 影像推論出 3D 網格模型的過程。
NVIDIA 指出,不是每個創作者都有足夠的時間和資源為他們繪製的每個物體建立 3D 模型。渲染一台展示間裡的汽車或街道上的建築物,所需捕捉的多視角影像成本可能會令人望之卻步。然而開發人員透過 Omniverse Connectors,便能在 Omniverse 中使用他們喜愛的 3D 應用程式,以即時光線追蹤技術來模擬複雜的虛擬世界。
這正是經過訓練的 GANverse3D 應用程式可以派上用場的地方,將一輛汽車、一棟建築物,甚至一匹馬的標準影像,變成可以在 Omniverse 中進行自訂及製作動畫的 3D 物件。
![]()
使用多視角影像進行訓練後,GANverse3D 只需要一張 2D 影像便能預測出一個 3D 網格模型。此模型可以搭配 3D 神經網路渲染器,讓開發人員可以控制自訂物件和背景交換。
如果將 GANverse3D 當作 NVIDIA Omniverse 平台的擴充項目進行匯入,並且在 NVIDIA RTX GPU 上運行,便能透過 GANverse3D 把任何 2D 影像重新打造成 3D 物件,例如將 1980 年代熱門電影影集《霹靂遊俠》中,那輛深受觀眾喜愛、協助主角打擊犯罪的經典汽車 KITT。
![]()
研究人員為了重建霹靂車 KITT,將汽車影像丟進訓練好的模型,讓 GANverse3D 預測出相應的 3D 紋理網格,還有車輪和頭燈等各種車輛零件。他們接著使用 NVIDIA Omniverse Kit 和 NVIDIA PhysX 工具,將預測出的紋理變成高品質的材料,讓霹靂車 KITT 的外觀和感受更加真實,並將其置於動態的駕駛序列中。
從不同角度捕捉同一物體的實體資料集實屬罕見,通常是使用 ShapeNet 等合成 3D 資料集來訓練大多數將影像從 2D 轉成 3D 的 AI 工具。
為了從網路上的公開汽車影像等實體資料獲得多視角影像,NVIDIA 的研究人員改為使用 GAN 模型,在神經網路層進行操作,將其變成一個資料生成器。研究團隊發現打開神經網路的前四層與凍結剩下的十二層,會使得 GAN 從不同視角渲染同一物體的影像。凍結前四層和變動其它的十二層,神經網路會從同一個視角產生不同影像。研究人員手動分配標準視角,在特定高度和相機距離下拍攝車輛,便能從單個 2D 影像中快速產生出多視角資料集。
最終使用 GAN 所產生出的 55,000 張汽車影像而訓練出的模型,表現優於使用熱門 Pascal3D 資料集所訓練出的反影像網路。
NVIDIA 研究科學家、同時也是這項研究的主要發起人 Wenzheng Chen 表示:「現在無需使用 3D 資產,我們便能將一個 GAN 模型變成一個超高效率的資料生成器,如此一來就能使用網路上的任何 2D 影像來建立 3D 物件。」
NVIDIA 研究人員且同為這項研究的發起人 Jun Gao 表示:「由於我們訓練使用的是真實影像,而非依賴合成資料的一般訓練管道,因此,所打造出來的人工智慧模型更適用於實際的應用程式。」
NVIDIA 將在五月的國際學習表徵會議 (International Conference on Learning Representations; ICLR) 與六月的國際電腦視覺與模式識別會議 (Conference on Computer Vision and Pattern Recognition; CVPR),接發表 GANverse3D 背後的研究成果。
*《霹靂遊俠》內容由 Universal Studios Licensing LLC. 提供。