NeurIPS 2024:機(jī)器人世界模型,TeleAI用少量數(shù)據(jù)完成訓(xùn)練
2024-10-17
來(lái)源:量子位
引言:TeleAI 李學(xué)龍團(tuán)隊(duì)提出具身世界模型,挖掘大量人類操作視頻和少量機(jī)器人數(shù)據(jù)的共同決策模式。
當(dāng)你在綠茵場(chǎng)上進(jìn)行一場(chǎng)緊張刺激的足球比賽時(shí),大腦會(huì)像一位精明的導(dǎo)演,不斷地在腦海中預(yù)演著比賽的下一步發(fā)展。你會(huì)想象如何帶球突破對(duì)方防線、如何與隊(duì)友配合制造進(jìn)球機(jī)會(huì)等。
這種內(nèi)心的想象是基于豐富的比賽經(jīng)驗(yàn)、對(duì)足球規(guī)則的深刻理解以及對(duì)隊(duì)友特點(diǎn)的熟悉。
大腦能夠迅速?gòu)挠洃浿刑崛⌒畔ⅲY(jié)合當(dāng)前的比賽狀況,預(yù)測(cè)未來(lái)可能出現(xiàn)的場(chǎng)景,并以 近乎動(dòng)畫(huà)的形式在腦海中迅速閃現(xiàn),幫助人類做出更好的決策 。
正如足球比賽中展現(xiàn)的一樣,大腦的預(yù)演能力實(shí)際上是一個(gè)精簡(jiǎn)版的 “世界模型” ,通過(guò)模擬未來(lái)可能發(fā)生的情景來(lái)指導(dǎo)人類行為。
受此啟發(fā), 具身智能研究中有望通過(guò)構(gòu)建類似的“視頻預(yù)測(cè)模型”作為機(jī)器人“世界模型” ,通過(guò)歷史序列和實(shí)時(shí)觀測(cè),預(yù)測(cè)未來(lái)可能發(fā)生的事件,形成對(duì)機(jī)器人未來(lái)行為的視頻預(yù)測(cè)。
世界模型給機(jī)器人提供了一個(gè)“內(nèi)心預(yù)演”的工具,能夠在實(shí)際采取行動(dòng)之前評(píng)估可能的行動(dòng)方案及后果,幫助機(jī)器人進(jìn)行決策。
近期,中國(guó)電信集團(tuán)CTO、首席科學(xué)家、中國(guó)電信人工智能研究院(TeleAI)院長(zhǎng)李學(xué)龍教授 帶領(lǐng)團(tuán)隊(duì)基于長(zhǎng)期以來(lái)在 擴(kuò)散噪聲、正激勵(lì)噪聲、張量噪聲 等噪聲分析的基礎(chǔ)上,對(duì)具身世界模型構(gòu)建中的樣本效率難題進(jìn)行了深入研究,在少樣本驅(qū)動(dòng)的具身世界模型構(gòu)建方面邁出了重要的一步。
這項(xiàng)工作提出了 全新的具身視頻噪聲擴(kuò)散模型的訓(xùn)練方法 ,通過(guò)充分挖掘大量人類操作視頻和機(jī)器人操作的共同模式,在僅使用少量具身數(shù)據(jù)的情況下訓(xùn)練高效的具身世界模型。
論文由 TeleAI院長(zhǎng)李學(xué)龍教授、TeleAI研究科學(xué)家白辰甲博士 聯(lián)合香港科技大學(xué)、上海交通大學(xué)、上海人工智能實(shí)驗(yàn)室等單位共同完成,近期被 國(guó)際人工智能頂會(huì)NeurIPS 2024錄用,HKUST在讀博士何浩然為該論文的第一作者 。
研究動(dòng)機(jī)
構(gòu)建通用的機(jī)器人世界模型是一項(xiàng)長(zhǎng)期的挑戰(zhàn)。盡管以Sora為代表的視頻生成模型在通用視頻生成中有出色的表現(xiàn),但依賴于對(duì)大規(guī)模視頻數(shù)據(jù)集學(xué)習(xí)。
然而,在具身智能領(lǐng)域,高質(zhì)量的機(jī)器人操作視頻的獲取是非常困難的,且不同類型的機(jī)器人數(shù)據(jù)難以通用。 具身世界模型的學(xué)習(xí)非常具有挑戰(zhàn)性,亟需一種通過(guò)少量數(shù)據(jù)學(xué)習(xí)的通用具身世界模型構(gòu)建方法 。
本研究提出, 能否利用在其他相似領(lǐng)域的大規(guī)模視頻數(shù)據(jù),特別是人類操作視頻來(lái)幫助學(xué)習(xí)具身世界模型? 人類在現(xiàn)實(shí)場(chǎng)景中第一視角的物體操作視頻和機(jī)器人操作任務(wù)具有高度的相似性,包含了物理世界的交互信息,并具有多元的任務(wù)場(chǎng)景、復(fù)雜的視覺(jué)背景、多樣的物體類型,能夠幫助具身世界模型學(xué)習(xí)物體操作的先驗(yàn)知識(shí)。
近期部分工作開(kāi)始利用人類操作數(shù)據(jù)來(lái)策略學(xué)習(xí),然而局限于從人類視頻中提取圖像表征或Affordance區(qū)域,忽略了人類操作視頻中蘊(yùn)含的豐富的時(shí)序信息的行為決策信息,不同于現(xiàn)有方法, 本研究提出構(gòu)建基于人類操作的視頻預(yù)測(cè)(video prediction)來(lái)進(jìn)行世界模型構(gòu)建,同時(shí)通過(guò)少量含有動(dòng)作的機(jī)器人數(shù)據(jù)獲得可執(zhí)行的策略,充分挖掘在人類操作視頻和機(jī)器人數(shù)據(jù)上統(tǒng)一的決策行為模式。
為了有效利用大量人類數(shù)據(jù),本方法設(shè)計(jì)了預(yù)訓(xùn)練(pre-training)和微調(diào)(fine-tuning)的框架,前者可以遵循scaling law快速擴(kuò)展到大規(guī)模的人類操作視頻數(shù)據(jù)集,后者可以利用少量機(jī)器人數(shù)據(jù)快速遷移至下游任務(wù)。整體框架如圖1所示。
△
本方法從 大規(guī)模人類操作數(shù)據(jù)集(如Ego4d) 中學(xué)習(xí)統(tǒng)一的視頻表征,使用大量無(wú)動(dòng)作視頻構(gòu)建自監(jiān)督的視頻預(yù)測(cè)擴(kuò)散模型作為預(yù)訓(xùn)練任務(wù),并在少量有動(dòng)作標(biāo)記的具身數(shù)據(jù)上進(jìn)行高效策略微調(diào),能夠使通用人類操作視頻中編碼的物理世界先驗(yàn)知識(shí)適應(yīng)于具身環(huán)境模型構(gòu)建,在下游任務(wù)中利用少量機(jī)器人軌跡即可在通用機(jī)械臂操作任務(wù)集合中獲得優(yōu)異的性能。
研究方法
- 本文方法從三個(gè)方面利用人類操作數(shù)據(jù)構(gòu)建具身世界模型,實(shí)現(xiàn)高效的具身策略學(xué)習(xí):
- 在大量人類操作數(shù)據(jù)和少量機(jī)器人數(shù)據(jù)中構(gòu)建統(tǒng)一的、可泛化、可遷移的視頻表征;
- 構(gòu)建自監(jiān)督預(yù)測(cè)任務(wù)進(jìn)行軌跡層面整體建模,實(shí)現(xiàn)人類和機(jī)器人通用的具身視頻預(yù)測(cè);
- 新穎的擴(kuò)散架構(gòu)實(shí)現(xiàn)可擴(kuò)展的人類視頻學(xué)習(xí),同時(shí)在小規(guī)模機(jī)器人數(shù)據(jù)上快速泛化。
人類和機(jī)器人數(shù)據(jù)的統(tǒng)一token化
為了從數(shù)據(jù)分布極廣的各類視頻數(shù)據(jù)中提取有效的信息輸入進(jìn)行世界模型構(gòu)建,提出構(gòu)建 人類視頻和機(jī)器人視頻統(tǒng)一的視頻編碼 。
使用VQ-VAE將高維視頻片段壓縮成信息豐富的離散化潛在token,不僅為混合視頻提供了統(tǒng)一的碼本,還減輕了人類和機(jī)器人視頻之間的域差異。通過(guò)將連續(xù)特征轉(zhuǎn)換為離散空間,提取出人類和機(jī)器人操作的共同模式。
此外,通過(guò)統(tǒng)一的動(dòng)作離散化方法將動(dòng)作空間的連續(xù)維度離散化成有序的整數(shù),使機(jī)器人的動(dòng)作可以通過(guò)離散的token來(lái)表示,為后續(xù)的預(yù)訓(xùn)練和微調(diào)階段提供了便利。
通過(guò)這種方式,能夠?qū)? 人類視頻中的動(dòng)態(tài)行為模式和機(jī)器人的動(dòng)作指令統(tǒng)一起來(lái) ,構(gòu)建出一個(gè)能夠處理大規(guī)模視頻數(shù)據(jù)并提取有用特征的框架。見(jiàn)圖2第一階段所示。
△
離散擴(kuò)散模型的視頻預(yù)測(cè)學(xué)習(xí)
在視頻預(yù)測(cè)模型的訓(xùn)練階段,利用離散擴(kuò)散模型從大量人類視頻中提取與物理交互有關(guān)的普適知識(shí)。具體的,給定一段歷史視頻和文本作為 prompts,利用大規(guī)模擴(kuò)散模型預(yù)測(cè)未來(lái)視頻 token 序列。
當(dāng)模型能很好地理解交互模式并預(yù)測(cè)到準(zhǔn)確的未來(lái)軌跡時(shí),智能體能夠 對(duì)未來(lái)可能發(fā)生的行為進(jìn)行預(yù)估 ,從而用該信息去指導(dǎo)下游任務(wù)的決策過(guò)程。
為了處理信息量豐富的離散視頻編碼,并且支持提出的預(yù)訓(xùn)練及微調(diào)的兩階段訓(xùn)練模式,提出表達(dá)力極強(qiáng)的離散擴(kuò)散模型(Discrete Diffusion)架構(gòu)進(jìn)行視頻建模。
模型訓(xùn)練中通過(guò)引入一個(gè)掩碼和替換的擴(kuò)散策略,能夠?qū)W習(xí)到視頻中的動(dòng)態(tài)變化規(guī)律,并 生成在潛在空間中具有連貫性的未來(lái)視頻token 。
這一過(guò)程不僅涉及對(duì)視頻內(nèi)容的理解,還包括對(duì)視頻上下文的深入分析,從而為機(jī)器人策略學(xué)習(xí)提供了豐富的先驗(yàn)知識(shí)。見(jiàn)圖2第二階段所示。
世界模型驅(qū)動(dòng)的具身策略學(xué)習(xí)
通過(guò)從大規(guī)模人類數(shù)據(jù)集中學(xué)習(xí)世界模型,模型已經(jīng)編碼了的普適的視頻預(yù)測(cè)模式,在下游機(jī)器人任務(wù)中僅需要依賴 少量機(jī)器人數(shù)據(jù)就能夠快速的學(xué)習(xí)策略 。
具體的,提出了基于少量樣本的微調(diào)策略,通過(guò)凍結(jié)預(yù)訓(xùn)練模型并僅調(diào)整動(dòng)作學(xué)習(xí)網(wǎng)絡(luò)的參數(shù),能夠在有限的機(jī)器人數(shù)據(jù)集上快速適應(yīng)并預(yù)測(cè)動(dòng)作序列。
在預(yù)訓(xùn)練階段模型使用Perceiver Transformer作為噪聲擴(kuò)散模型的主干網(wǎng)絡(luò),在微調(diào)階段使用 GPT2作為主干網(wǎng)絡(luò)以便于在小規(guī)模機(jī)器人數(shù)據(jù)集中進(jìn)行策略學(xué)習(xí)。
這一微調(diào)過(guò)程有效地將從人類視頻中學(xué)到的豐富視頻預(yù)測(cè)知識(shí)轉(zhuǎn)移到機(jī)器人控制任務(wù)中,顯著提高了機(jī)器人在多任務(wù)操作中的性能和樣本效率。見(jiàn)圖2第三階段所示。
實(shí)驗(yàn)結(jié)果
本方法在單視角視覺(jué)觀測(cè)的機(jī)械臂操作任務(wù)集和使用 多視角觀測(cè)的3D操作 任務(wù)集合中評(píng)估有效性。
結(jié)果發(fā)現(xiàn),論文提出的方法可以在人類物體操作和機(jī)器人物體操作中成功預(yù)測(cè)準(zhǔn)確的未來(lái)運(yùn)動(dòng)軌跡,無(wú)論是單視角還是多視角,這些都通過(guò)一個(gè)離散擴(kuò)散模型生成。
下方視頻顯示了方法在合成人類操作視頻方面的效果。在復(fù)雜的人類物體操作場(chǎng)景中,本文方法能夠精確的建模人類手部的運(yùn)動(dòng)細(xì)節(jié)和運(yùn)動(dòng)軌跡,從而在構(gòu)建世界模型中為機(jī)器人末端的運(yùn)動(dòng)提供指導(dǎo)。
進(jìn)而,通過(guò)人類視頻和機(jī)器人視頻的統(tǒng)一token編碼,人類操作視頻的預(yù)測(cè)學(xué)習(xí)能夠極大的幫助模型在少量機(jī)器人視頻中學(xué)習(xí)具身世界模型。下方視頻顯示了機(jī)器人操作任務(wù)中,本方法能夠準(zhǔn)確根據(jù)自然語(yǔ)言指令對(duì)機(jī)械臂未來(lái)的軌跡進(jìn)行預(yù)測(cè)和規(guī)劃,從而指導(dǎo)下一階段的機(jī)械臂動(dòng)作預(yù)測(cè)。
此外,通過(guò)對(duì)少量真實(shí)機(jī)械臂操作視頻的學(xué)習(xí),世界模型可以快速泛化到對(duì)真實(shí)機(jī)械臂視頻產(chǎn)生準(zhǔn)確的預(yù)測(cè),從而指導(dǎo)真實(shí)機(jī)械臂的策略學(xué)習(xí)。
通過(guò)具身世界模型的構(gòu)建,模型能夠在少量帶有動(dòng)作標(biāo)記的數(shù)據(jù)中進(jìn)行快速微調(diào),從而使模型能夠產(chǎn)生實(shí)際的機(jī)器人動(dòng)作決策序列,指導(dǎo)下游任務(wù)的學(xué)習(xí)。
下面顯示了在RLBench任務(wù)中的策略執(zhí)行效果。通過(guò)多視角的視頻預(yù)測(cè),世界模型能夠全方位預(yù)測(cè)機(jī)器人的周圍環(huán)境變化,從而指導(dǎo)機(jī)器人在三維空間中進(jìn)行復(fù)雜的任務(wù)決策。
研究總結(jié)
該成果提出了一種少樣本的高效具身世界模型架構(gòu)和訓(xùn)練方法,通過(guò)設(shè)計(jì)統(tǒng)一token編碼、離散噪聲擴(kuò)散模型為基礎(chǔ)的運(yùn)動(dòng)軌跡(視頻)預(yù)訓(xùn)練、以及少量機(jī)器人數(shù)據(jù)的知識(shí)遷移和泛化,能夠使用人類操作視頻的行為模式指導(dǎo)機(jī)器人進(jìn)行決策,從而解決了機(jī)器人數(shù)據(jù)代價(jià)昂貴的問(wèn)題。
提出的方法可以靈活地處理各種視頻輸入的機(jī)械臂操作任務(wù),包括單視角2D操作、多視角相機(jī)3D操作、真實(shí)機(jī)械臂操作等,為世界模型邁向機(jī)器人做出了重要貢獻(xiàn)。
團(tuán)隊(duì)負(fù)責(zé)人介紹: 李學(xué)龍,中國(guó)電信集團(tuán)CTO、首席科學(xué)家,中國(guó)電信人工智能研究院(TeleAI)院長(zhǎng)。主要關(guān)注人工智能、臨地安防、圖像處理、具身智能、噪聲分析。
論文名稱:Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training
論文鏈接:https://arxiv.org/abs/2402.14407
項(xiàng)目地址:https://video-diff.github.io
- 推薦
- 新聞
- IT/互聯(lián)網(wǎng)
- 科研/技術(shù)服務(wù)
- CEO
- CTO
- CDO
- 人工智能
- 研發(fā)
- IT
推薦
-
11月28日-30日,中國(guó)數(shù)字化年會(huì)將于成都正式開(kāi)幕,本屆年會(huì)以數(shù)智萬(wàn)象 無(wú)界新生”為主題,設(shè)置2場(chǎng)主論壇、1場(chǎng)高峰論壇、5場(chǎng)專題論壇、4項(xiàng)特色活動(dòng)、2場(chǎng)頒獎(jiǎng)典禮等14項(xiàng)活動(dòng),以及2天數(shù)字化轉(zhuǎn)型供需對(duì)接展。
-
零次方科技發(fā)布了其首款人形機(jī)器人,可以在多種不規(guī)則路面、復(fù)雜地形中長(zhǎng)時(shí)間穩(wěn)定行走,且具備優(yōu)秀的抗干擾性能,即使受到各方向的強(qiáng)沖擊也能保持穩(wěn)定站立。
-
近日,第四屆“青年科學(xué)家502論壇”在南方科技大學(xué)舉行,美國(guó)國(guó)家工程院外籍院士沈向洋做了《通用人工智能時(shí)代,我們應(yīng)該怎樣思考大模型》的主題演講,并給出了他對(duì)大模型的10個(gè)思考。
-
深度解析Meta Reality Labs的生態(tài)布局
-
TeleAI 李學(xué)龍團(tuán)隊(duì)提出具身世界模型
-
2024 年 10 月 14 日,第 44 屆中東海灣信息技術(shù)展(GITEX Global)在阿聯(lián)酋迪拜開(kāi)幕。紫光股份旗下新華三集團(tuán)重磅亮相展會(huì),以"精耕務(wù)實(shí),為時(shí)代賦智慧"為主題,全面展示了公司"云-網(wǎng)-安-算-存-端"的全棧技術(shù)能力與國(guó)際生態(tài)合作成果。
-
中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟 顏陽(yáng)-元宇宙產(chǎn)業(yè)的商業(yè)邏輯與技術(shù)壁壘研究
顏陽(yáng) 中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟副秘書(shū)長(zhǎng) ¥9.90 金錦囊免費(fèi)
-
《數(shù)智化敏捷組織》重構(gòu)、升級(jí)與進(jìn)化
肖利華 前阿里巴巴集團(tuán)副總裁、阿里云研究院 院長(zhǎng) 清華大學(xué)博士后、中科院管理學(xué)博士、教授 ¥9.90 金錦囊免費(fèi)
我要評(píng)論