国产精品看高国产精品不卡-国产精品看片-国产精品蝌蚪-国产精品狼人久久久久影院草久久一区二区三区午夜亚洲福-国产精品老熟女视频一区二区-国产精品理论片

天工一刻 | 一文看懂 3D 大模型

  • 2024-08-01

  • 來源:極客公園

3D 大模型,正在成為下一個風口。自 2023 年年底以來,一大批 AI 3D 模型生成相關技術取得突破,Meta、Adobe、Stability AI,以及 VAST(Tripo AI)、sudo AI、Meshy AI、Rodin 等海內外玩家動作頻頻。

今年 3 月以來,arXiv 上的 3D 生成(3D Generation)論文數量更是從 200+篇/月飆升至 400+篇/月,幾乎飆升 100%——這背后是 3D 模型多項核心技術取得突破,大量新興研究涌現。

與此同時,此前百花齊放的技術路徑也在逐漸形成產業共識,步入收斂。例如,在 GAN、VAE、Diffusion 等不同生成方案中,以 Diffusion Transformer(DiT)為代表的大模型路徑脫穎而出,逐漸成為當前的研究主流方案。不過,當前,在 3D 生成技術路徑上,仍然存在「2D 升 3D」「純原生 3D」「混合 3D」的不同技術流派。在過去半年甚至一年多的時間里,AI 3D 生成技術發展堪稱突飛猛進:3D 模型生成的質量更好、速度更快——部分情況下甚至能把原來以小時為單位的 3D 模型生成時間壓縮到秒級,帶來驚人的效率提升。3D 模型的 GPT 時刻,即將來臨。

傳統 3D 模型設計:流程長、環節復雜、價格貴

大多數人對 3D 模型并不陌生。最常見的是各類游戲、影視、動漫、CG 中的 3D 人物與 3D 物品/環境。當前,最精致的 3D 模型已經足以高度媲美真人。

(游戲《黑神話·悟空》)

此外,在 VR、元宇宙、數字人等科技前沿賽道,3D 模型也有著廣泛的應用。

(央視新聞數字手語主持人)

對于處在三維空間中的人類來說,3D 內容毫無疑問能夠提供比文字、圖片、視頻更沉浸、更逼真的內容體驗。隨著 3D 技術的發展,未來,人們甚至可以像《黑客帝國》《頭號玩家》一樣,創造出一個三維立體的、足以以假亂真的虛擬世界——元宇宙。但正如文字-圖片-視頻-3D 所承載的信息量呈指數上升,3D 內容生產的復雜度也在急劇增加。以傳統 3D 模型的生成為例,其制作環節可分為:概念設計/原畫、3D 建模、UV 拆分、烘焙貼圖、繪制材質、動畫制作、渲染等諸多環節。

根據模型的復雜度與精細度不同,一個 3D 模型的生產周期可能在數小時、乃至數天以上,成本范圍在 40 美元~650 美元之間。流程長、環節多、程序復雜、價格昂貴,同時普遍依賴專業人員手動操作,一道道關卡將 3D 模型的制作門檻不斷推高。值得注意的是,當前的 3D 大模型遠遠做不到替代 3D 設計師,其生成的質量并未達到「開箱可用」的商業級別,而更像是 Adobe、數位板這類幫助設計師減少重復勞動,提高生產力的工具。3D 大模型想要解決的,是 3D 制作流程中最耗費時間精力、最重復勞動的環節——建模與貼圖,通過 AI 技術將 3D 設計師們從重復勞動中解放出來,更專注地投入到藝術創作當中。

流派眾多,百花齊放

評價一個 3D 模型生成效果,有以下幾個核心指標:

1、幾何模型的形狀準確度;

2、紋理貼圖質量效果與「幾何-紋理」一致性;

3、3D 模型生成速度;

3D 建模相關研究最早可以追溯到 20 世紀 60 年代末的線框模型(Wire Frame Model),此后已經歷數十年發展。

此前,3D 生成技術流派眾多,在各種細分方向百花齊放。

按照生成方式分類,主流 3D 生成的派別包括文生 3D(text-to-3D)、圖生 3D(image-to-3D);

按照生成路徑劃分,根據論文《A Comprehensive Survey on 3D Content Generation》的分類,可以將 3D 大模型生成分為:2D 升 3D(2D prior-based 3D generative)、純原生 3D(3D native generative)、混合 3D(hybrid 3D generative)三大派別;

根據 3D 建模方案劃分,可以分為:點云(Point Cloud)、網格(Mesh)、深度(Depth)、神經場(Neural Fields)、混合(Hybrid)等多種方案;

(3D 生成模型技術發展路線,數據截止至 2023 年 8 月;來自論文《3D Generative Models: A Survey》)

根據 3D 生成模型劃分,則包括 GAN、VAE、Autoregressive、Diffusion 等模型。

目前,3D 大模型業內最新「新鮮」的研究成果來自 Meta。2024 年 6 月 25 日,Meta 發布了其最新 3D 大模型研究——Meta 3D Gen。這是一款文生 3D(text-to-3D)大模型,其能夠在數十秒(<1 分鐘)內生成幾何形狀準確、紋理材質優秀的 3D 模型。準確來說,Meta 3DGen 是一套組合模型,其幾何形狀與貼圖紋理是兩個步驟(2 Stages),分別由 Meta 3D AssetGen、Meta 3D TextureGen 兩個模型生成。

(Meta 3D Gen 生成流程,來自論文《Meta 3D Gen》)這一技術路徑將 3D 幾何生成與 3D 紋理貼圖作為兩個步驟分別處理,其優勢在于幾何形狀質量更好,而缺點在于會影響模型生成速度與幾何紋理一致性。目前,業內也有不少 3D 大模型方案選擇 1 Stage 一步到位的端到端生成方案,幾何與紋理同步輸出生成,這一技術路徑的優勢在于速度與紋理效果,但缺點在于幾何形狀質量會受到紋理影響——如一張帶有波點圖案的水平桌面,可能會被 3D 模型識別為凹凸不平。這兩條技術路徑各有千秋,目前業內尚未達成共識。

3D 大模型的 三大主流路徑

當前,3D 大模型研究的最大挑戰,不是算法、甚至也不是算力——而是數據。訓練數據短缺問題在文本、圖像、視頻大模型領域都存在,但在 3D 大模型領域格外嚴重。昆侖萬維董事長兼 CEO 方漢在接受媒體采訪時曾表示,在 3D 模型生成賽道,全世界的數據只有 1000 多萬,優質的數據只有 200 萬。3D 數據資源少、清洗難度高、高質量 3D 數據資源難以獲取……種種困難為 3D 大模型的打造形成了諸多限制。

因此,早期 3D 生成模型的研究思路以「2D 升 3D」為主——先生成多視角的 2D 圖像,然后根據該圖像生成 3D 模型。

(1)2D 升 3D

這一思路的代表項目為 2022 年 9 月底谷歌推出的 DreamFusion 項目《DreamFusion: Text-to-3D using 2D Diffusion》。與 3D 模型資源相比,文生 2D 圖(text-to-image)領域擁有數十億計的海量資源,因而谷歌 DreamFusion 項目采用了「2D 升 3D」的思路,先使用一個預訓練 2D 擴散模型基于文本生成一張二維圖像,然后引入 Score Distillation Sampling(SDS)基于概率密度蒸餾的損失函數,生成高質量和復雜的三維結果。這一方法的亮點在于無需任何 3D 數據預訓練即可生成 3D 模型,開創了 SDS 路徑的先河,也在隨后催生出大量「2D 升 3D」的相關研究。

(2D 升 3D 路徑代表研究,來自論文《A Comprehensive Survey on 3D Content Generation》)

但與此同時,以 SDS 為代表 2D 升 3D 路線也存在生成速度慢、生成質量不可控等問題,其中最受關注的是由此帶來的「多頭」問題(Janus problem)——在生成的 3D 模型中,有時會出現兩個甚至多個人物/動物頭部,高度影響模型的合理性。因而,近年間,原生 3D 又逐漸成為研究主流。準確劃分起來,原生 3D 又可以分為「純原生」3D 生成與「混合」3D 生成兩條路徑。

(2)「純原生」3D

「純原生」3D 生成方案與通用大模型思路類似,采用端到端方案,首先使用海量 3D 數據集訓練大模型,然后以前饋(feed-forward)方案生成 3D 模型。

(「純原生」3D 大模型路徑代表研究,來自論文《A Comprehensive Survey on 3D Content Generation》)

這一路徑的代表玩家毫無疑問有 OpenAI——Scaling Law 與大模型領域的堅定支持者。2022 年 12 月,OpenAI 發布論文《Point-E: A System for Generating 3D Point Clouds from Complex Prompts》,并開源了文生 3D 項目 Point-E;2023 年 5 月,OpenAI 則進一步發布論文《Shap-E: Generating Conditional 3D Implicit Functions》,開源了升級版模型 Shap-E。

(OpenAI 于 2022 年底發布的 Point-E 大模型 3D 生成效果 demo)

與文本大模型不同,在 3D 大模型領域,OpenAI 并沒有顯著的領先優勢。3D 原生路徑的真正代表玩家為 Adobe 于 2023 年 11 月推出的 LRM 項目《LRM: Large Reconstruction Model for Single Image to 3D》。LRM 是圖生 3D 的代表模型,其擁有 5 億參數,能夠在 5 秒鐘內實現圖片-3D 模型的生成。LRM 采用高度可擴展的 transformer-based 架構,其突破性地將圖生 3D 任務轉換成了「將圖片翻譯為 3D 模型」的任務,并在 100+萬公開 3D 數據集上進行了訓練。Adobe 的 LRM 項目因 3D 模型的生成質量與生成速度都有著極大提高,其發布后在學術與產業界引起了大量關注,并也從此催生了一大批相關研究。不過,高質量 3D 數據稀缺依舊困擾著「純原生」3D 大模型的發展。因而,近年間,「混合」3D 生成技術路徑悄然興起。

(3)「混合」3D

混合 3D 是當下 3D 大模型最前沿的技術方向,也是昆侖萬維 3D 大模型團隊專攻的技術方向。

由于純原生 3D 路徑訓練數據不足,而 2D 升 3D 路徑只能提取有限的 3D 幾何知識。因此,在最新的混合 3D 路徑中,大模型研發人員將 3D 信息注入預訓練的 2D 模型,例如,通過多視角圖像微調 Stable Diffusion 模型,使其能夠生成穩定、一致的 3D 模型。

以困擾「2D 升 3D」路徑的「多頭」問題(Janus problem)為例,通過將多視角 Stable Diffusion 與大規模 3D 重建模型相結合,混合 3D 能夠有效解決模型 3D 幾何生成質量問題,解決多頭問題并提升模型生成速度。

(「混合」3D 大模型路徑代表研究,來自論文《A Comprehensive Survey on 3D Content Generation》)

除了昆侖萬維外,這前沿一思路的代表項目包括哥倫比亞大學的 Zero123、加州大學與 Adobe 等的 One-2-3-45、香港大學與騰訊游戲等的 SyncDreamer、香港大學與清華大學等的 Wonder3D、Adobe 的 Instant3D 等等。

這一技術路徑既利用了目前豐富的 2D 圖像資源,規避了 3D 數據不足問題,又一定程度上突破了 2D 升 3D 帶來的幾何等多項問題。

當前,昆侖萬維 3D 大模型團隊堅持自研混合 3D 技術路線,在 3D 大模型兩大核心領域(3D 幾何生成與 3D 紋理生成)均達到產業最領先水平。相較于同類產品,昆侖萬維 3D 大模型有著極強的模型優勢與數據壁壘,在 3D 大模型領域擁有三大產品技術亮點:

(1)模型生成速度更快;

(2)模型布線更加規則,方便接入游戲引擎;

(3)模型紋理更加可控。

例如,在 3D 紋理生成領域,今年 3 月,昆侖萬維聯合北京大學、浙江大學、南洋理工大學共同發布論文《InTeX: Interactive Text-to-texture Synthesis via Unified Depth-aware Inpainting》,該論文是 3D 大模型紋理生成領域的最前沿技術成果之一,其創造性地將深度信息(Depth)融入模型紋理生成環節,使得 3D 模型的紋理生成效果更穩定、更自然;項目的另一大亮點在于模型的可交互性,普通用戶只需要通過簡單的文字指令,就能實時改變 3D 模型的局部顏色、紋理,大幅降低 3D 大模型紋理生成的工業應用門檻。

(昆侖萬維 2024 年 3 月發布論文《InTeX: Interactive Text-to-texture Synthesis via Unified Depth-aware Inpainting》)

InTeX 是一款可交互的、文生紋理(Text-to-Texture)大模型,用戶可以通過簡單的文字指令實時改變 3D 模型的局部紋理。

該模型通過將深度信息(Depth)與 inpainting 紋理貼圖相結合,解決了目前常見的預訓練深度 Diffusion + inpainting 模型方案存在幾何-紋理不一致、不可控問題,提高了模型生成速度,并能夠允許用戶實現特定區域的重新繪制和精確的紋理編輯。

值得一提的是,在最新的 Meta 3D Gen 紋理生成研究中,引用了昆侖萬維團隊《InTeX: Interactive Text-to-texture Synthesis via Unified Depth-aware Inpainting》的研究內容。

結語

在過去半年甚至一年多的時間里,AI 3D 生成技術發展堪稱突飛猛進:3D 模型生成的質量更好、速度更快——部分情況下甚至能把原來以小時單位的 3D 模型生成時間壓縮到秒級,帶來驚人的效率提升。

與此同時,3D 大模型目前仍然面臨著訓練數據不足、模型幾何準確性不夠、精細度不足、模型幾何-紋理一致性不足等多項挑戰,暫時無法滿足 4A 大作、科幻電影中高度精細化的 3D 模型生成需求。

不過在大量中小型場景中,已經能夠滿足需求。在影視、游戲行業中,3D 大模型能夠快速生成 3D 原型,幫助設計師們實時具現化靈感,提高工作效率。而在工業設計、制造等場景中,3D 大模型還可以用于產品原型設計和仿真測試,減少研發成本和時間。此外,3D 大模型在 AI 視頻、元宇宙,甚至具身智能領域都有著廣闊的應用空間。隨著相關技術的快速發展,3D 大模型即將迎來更多突破性進展。

  • 推薦
  • 新聞
  • 觀點
  • IT/互聯網
  • 軟件信息
  • CIO
  • CDO
  • 數字經濟
  • 工業互聯網
  • 智能制造
  • 人工智能
  • 戰略
  • 研發
  • 生產制造
  • 運營
  • 市場營銷
  • 銷售
  • 財務
  • 人力資源
  • IT

推薦

我要評論

主站蜘蛛池模板: 九九热在线免费| 亚洲美女影院| 日韩av免费专区| 一区二区三区日韩在线| 欧美日韩国产高清一区二区三区| 亚洲一区久欠无码A片| 亚洲精品国产A久久久久久| 高清精品国内视频| 日韩一中文字无码不卡| 丰满女人ass硕大| 国产在线播放精品视频| 欧美国产区一区二区三在线观看| 色婷婷激情| 在线播放亚洲国产| 国产系列视频二区| 欧美国产在线一区| 久久精品女人天堂AV一个| 久久免费久久| 四虎网站| 日韩国产毛片| 免费观看的成年网站推荐| 国产免费A片好硬好爽好深小说 | 国内精品wwwwwww视频高清免费| 黄色一级毛毛片| 人妇乱理三级| 国产免费一区二区三区香蕉精 | 国产精品无码AV天天爽色欲| 无人区在线完整免费版| 国产成人狂喷潮在线观看2345| 伊人小视频| 国产精品久久无码人妻一区二区| 日韩免费无码专区精品观看| 久久精品国产三级不卡| 99久久精品免费看国产一区二区| 自拍亚洲欧美| 日韩一区二区三区免费体验| 亚洲区一区二区| 福利卡—卡二卡三卡四卡| 天天干福利导航| 免费观看久久精品视频| 丰满人妻少妇久久久久久|