強化學習訓(xùn)練一兩個小時,100%自主完成任務(wù):機器人ChatGPT時刻真來了?
2024-10-30
來源:機器之心
把平均成功率從 50% 拉到了 100%。
最近,AI 的進步有目共睹,現(xiàn)在這些進步已經(jīng)開始傳遞到機器人領(lǐng)域。強大的 AI 技術(shù)也能幫助機器人更好地理解其所處的物理世界并采取更合理的行動。
近日,UC 伯克利 BAIR 實驗室的 Sergey Levine 研究團隊提出了一個強化學習框架 HIL-SERL,可直接在現(xiàn)實世界中訓(xùn)練通用的基于視覺的機器人操作策略。HIL-SERL 的表現(xiàn)堪稱前所未有的卓越, 僅需 1-2.5 小時的訓(xùn)練就能在所有任務(wù)上實現(xiàn) 100% 的成功率。 要知道,基線方法的平均成功率還不到50%。 就算有外部干擾,機器人也能取得很好的表現(xiàn)。
論文一作 Jianlan Luo 的推文,他目前正在 UC 伯克利 BAIR 實驗室從事博士后研究
團隊導(dǎo)師 Sergey Levine 也發(fā)了推文宣傳這項研究,他是一位非常著名的 AI 和機器人研究科學家,曾是 2021 年發(fā)表相關(guān)論文最多的研究者,參閱機器之心報道《2021 年 ML 和 NLP 學術(shù)統(tǒng)計:谷歌斷層第一,強化學習大牛 Sergey Levine 位居榜首》
空口無憑,眼見為實,那就先讓機器人來煎個蛋吧。
在主板上安裝一塊固態(tài)硬盤?機器人也能與人類搭配,輕松完成。
插入 USB,問題也不大,看起來比人執(zhí)行這個操作還流暢,畢竟很多人插 USB 都要對準兩三次才能成功。
這么好的效果,不禁讓人懷疑,這不會是遠程操控吧?Nonono!這些任務(wù)都是機器人獨立完成的,這次人類的角色也不是站在身后發(fā)號施令,而是在它旁邊搗亂。
對于沒有獨立思考能力的機器人來說,任務(wù)執(zhí)行起來那是相當死板。一旦目標物體換了一個位置,它們就會迷失方向。但對于采取 HIL-SERL 框架的機器人,就算你強行奪走它手中這根 USB 線,它依然能自動定位,重新完成任務(wù)。
機器人如何變得如此厲害?下面我們就來看看 UC 伯克利的這項研究。
論文標題:Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning
論文地址:https://hil-serl.github.io/static/hil-serl-paper.pdf
項目地址:https://hil-serl.github.io/
簡而言之,他們設(shè)計了一個有人類參與的強化學習框架。在此之前,基于強化學習的技術(shù)已經(jīng)為機器人領(lǐng)域帶來了一些技術(shù)突破,使機器人已經(jīng)能夠熟練地處理一些簡單任務(wù)。但是,真實世界環(huán)境非常動態(tài)多變,而且非常復(fù)雜,如果能開發(fā)出某種基于視覺的通用方法,必定有助于機器人掌握更加復(fù)雜的技能。
這正是該團隊做出貢獻的地方,他們開發(fā)的基于視覺的強化學習系統(tǒng)可以讓機器人掌握大量不同的機器人技能。
他們將該系統(tǒng)命名為 Human-in-the-Loop Sample-Efficient Robotic Reinforcement Learning,即 有人類參與的樣本高效型機器人強化學習 ,簡稱 HIL-SERL。
為了解決優(yōu)化穩(wěn)定性問題,他們采用了預(yù)訓(xùn)練的視覺主干網(wǎng)絡(luò)來實現(xiàn)策略學習。
為了處理樣本復(fù)雜性問題,他們利用了基于 RLPD 的樣本高效型離策略強化學習算法,該算法還結(jié)合了人工演示和校正。
此外,為了確保策略訓(xùn)練期間的安全性,他們還納入了一個精心設(shè)計的低級控制器。
在訓(xùn)練時,該系統(tǒng)會向人類操作員詢問潛在的校正,然后以離策略的方式使用這些校正來更新策略。他們發(fā)現(xiàn),這種有人類參與的校正程序可讓策略從錯誤中學習并提高性能,尤其是對于這項研究中考慮的一些難以從頭開始學習的任務(wù)。
如圖 1 所示,該系統(tǒng)可解決的任務(wù)紛繁多樣,包括動態(tài)翻轉(zhuǎn)平底鍋中的物體、從積木塔中抽出一塊積木、在兩個機器臂之間遞交物體以及使用一個或兩個機械臂組裝復(fù)雜的設(shè)備,例如計算機主板、宜家置物架、汽車儀表板或正時皮帶。
這些任務(wù)復(fù)雜而精細,有著動態(tài)且高維的動作空間。 之前一些研究者甚至認為無法通過強化學習來學習其中一些技能,但 BAIR 這個團隊的研究證否了這個說法 。
研究和實驗表明,他們的系統(tǒng)能在相當短的時間(1-2.5 小時)內(nèi)在所有這些任務(wù)上都實現(xiàn)幾近完美的成功率。
使用同樣數(shù)量的人類數(shù)據(jù)(演示和校正的數(shù)量)時,他們訓(xùn)練的策略遠勝過模仿學習方法 —— 成功率平均超過 101%,周期時間平均快 1.8 倍。
這是個具有重大意義的結(jié)果,因為其表明 強化學習確實可以直接在現(xiàn)實世界中,使用實際可行的訓(xùn)練時間學會大量不同的基于視覺的復(fù)雜操作策略 。而之前的強化學習方法無法做到這一點。此外,強化學習還能達到超越人類的水平,遠遠勝過模仿學習和人工設(shè)計的控制器。
下面展示了一個超越人類水平的有趣示例:用一根鞭子將一塊積木抽打出去,同時保證積木塔整體穩(wěn)定。很顯然,這個任務(wù)對大多數(shù)人來說都非常困難,但這臺機器人通過強化學習掌握了這一技能。
有人類參與的強化學習系統(tǒng)
系統(tǒng)概況
HIL-SERL 系統(tǒng)由三個主要組件組成:actor 過程、learner 過程和位于 learner 過程中的重放緩存。它們都能以分布式的方式運行,如圖 2 所示。
actor 過程與環(huán)境交互的方式是在機器人上執(zhí)行當前策略,并將數(shù)據(jù)發(fā)送回重放緩存。
環(huán)境采用了模塊化設(shè)計,允許靈活配置各種設(shè)備,包括支持多個攝像頭、集成 SpaceMouse 等用于遠程操作的輸入設(shè)備。
為了評估任務(wù)是否成功,也需要一個獎勵函數(shù),而該獎勵函數(shù)是使用人類演示離線訓(xùn)練的。
在 actor 過程中,人類可使用 SpaceMouse 從強化學習策略接管機器人的控制權(quán),從而干預(yù)機器人的行動。
該團隊采用了兩種重放緩存,一種是為了存儲離線的人類演示(演示緩存),另一種則是為了存儲在策略數(shù)據(jù)(RL 緩存)。
learner 過程會從演示緩存和 RL 緩存平等地采樣數(shù)據(jù),使用 RLPD 優(yōu)化策略,并定期將更新后的策略發(fā)送到 actor 進程。
詳細的系統(tǒng)設(shè)計選擇這里不再贅述,請訪問原論文。
有人類參與的強化學習
此前,強化學習理論 (Jin et al., 2018; 2020; Azar et al., 2012; Kearns and Singh, 1998) 已經(jīng)證明了智能體能學會的難度和它要處理的信息量密切相關(guān)。具體來說,狀態(tài) / 動作空間的大小、任務(wù)的難度,這些變量不斷累加,會導(dǎo)致智能體在找到最優(yōu)策略時所需的樣本成倍增加。最終在超過某個閾值時,所需要的樣本量過多,智能體實在學不動了,擺爛了,在現(xiàn)實世界中訓(xùn)練 RL 策略也變得不切實際。
為了解決用強化學習訓(xùn)練真實機器人策略的難題,該團隊研究后發(fā)現(xiàn),人類反饋很好用 —— 可以引導(dǎo)學習過程,實現(xiàn)更高效的策略探索。具體來說,就是在訓(xùn)練期間監(jiān)督機器人,并在有必要時進行干預(yù),糾正其動作。如上圖 2 所示。
在該系統(tǒng)的設(shè)計中,干預(yù)數(shù)據(jù)會被同時存儲在演示緩存和 RL 緩存中,但僅有 RL 緩存帶有策略轉(zhuǎn)移(即干預(yù)前后的狀態(tài)和動作)。事實證明,這種方法可以提升策略的訓(xùn)練效率。
這種干預(yù)在以下情況下至關(guān)重要:
策略導(dǎo)致機器人處于不可恢復(fù)或不良狀態(tài)時;
當機器人陷入局部最優(yōu)狀態(tài)時 —— 如果沒有人工幫助,就可能需要大量時間才能克服。
在訓(xùn)練過程的開始階段,人類會更頻繁地干預(yù)以提供正確動作,隨著策略的改進,頻率會逐漸降低。根據(jù)該團隊的經(jīng)驗,相比于讓機器人自行探索,當人類操作員給出具體的糾正措施時,策略改進速度會更快。
研究團隊放出了任務(wù)訓(xùn)練過程的完整錄像
更具體的訓(xùn)練過程請訪問原論文。
實驗結(jié)果
研究團隊選擇了七個任務(wù)來測試 HIL-SERL。這些任務(wù)對應(yīng)著一系列挑戰(zhàn),比如操縱動態(tài)物體(在平底鍋中翻煎蛋)、精確操作(插 USB 線)、動態(tài)和精確操作相結(jié)合(在主板移動時插入組件)、操縱柔性物體(組裝正時皮帶)、包含多個子任務(wù)的多階段任務(wù)(組裝宜家書架)。
如上表所示,在幾乎所有任務(wù)上, HIL-SERL 在 1 到 2.5 小時的真實世界訓(xùn)練里達到了 100% 的成功率 。這比基線方法 HG-DAgger 的平均成功率 49.7% 有了顯著提高。對于抽積木、插入 RAM 條等,這種更復(fù)雜的任務(wù),HIL-SERL 的優(yōu)勢就更為明顯了。
上圖中顯示了采用 HIL-SERL 方法的機械臂在執(zhí)行任務(wù)時被人工干預(yù)的次數(shù)。為了便于統(tǒng)計,研究團隊計算了每次干預(yù)的時步數(shù)與單次嘗試中的總時步數(shù)之比(干預(yù)率),并統(tǒng)計了 20 次實驗的動態(tài)平均值。從圖表中不難看出,干預(yù)率隨著訓(xùn)練逐漸降低。這表明 HIL-SERL 策略會不斷優(yōu)化,越來越不需要人類操心了。
同時,人工干預(yù)的總時長也大幅度減少。策略不成熟時,機械臂犯錯,需要花較長時間糾正,隨著 HIL-SERL 不斷完善,較短的干預(yù)就足以減少錯誤。相比之下,HG-DAgger 需要更頻繁的干預(yù),亦不會因為策略逐漸完善減少犯錯的次數(shù)。
上圖展示了 HIL-SERL 的零樣本魯棒性。這證明新提出的策略能夠讓機器人靈活地適應(yīng)即時變化,有效地處理外部干擾。
比如有人故意地松開了齒輪上的皮帶,受 HIL-SERL 指導(dǎo)的兩個機械臂,一個把皮帶放回了原位,另一個配合著把滑輪恢復(fù)到了適當?shù)奈恢谩?/p>
在兩個機械臂對接時,研究人員有意讓其中一個機械臂「失誤」,放開了手中的物體。在 HIL-SERL 的加持下,兩個機械臂自主分工合作,又恢復(fù)了搬運物體的平衡。
參考鏈接:
https://x.com/jianlanluo/status/1850902348010557453
https://x.com/svlevine/status/1850934397090078948
- 新聞
- 制造
- IT/互聯(lián)網(wǎng)
- 科研/技術(shù)服務(wù)
- 通信
- 軟件信息
- CEO
- CTO
- CIO
- CDO
- 人工智能
- 研發(fā)
- 生產(chǎn)制造
- IT
推薦
-
11月28日-30日,中國數(shù)字化年會將于成都正式開幕,本屆年會以數(shù)智萬象 無界新生”為主題,設(shè)置2場主論壇、1場高峰論壇、5場專題論壇、4項特色活動、2場頒獎典禮等14項活動,以及2天數(shù)字化轉(zhuǎn)型供需對接展。
-
零次方科技發(fā)布了其首款人形機器人,可以在多種不規(guī)則路面、復(fù)雜地形中長時間穩(wěn)定行走,且具備優(yōu)秀的抗干擾性能,即使受到各方向的強沖擊也能保持穩(wěn)定站立。
-
近日,第四屆“青年科學家502論壇”在南方科技大學舉行,美國國家工程院外籍院士沈向洋做了《通用人工智能時代,我們應(yīng)該怎樣思考大模型》的主題演講,并給出了他對大模型的10個思考。
-
深度解析Meta Reality Labs的生態(tài)布局
-
TeleAI 李學龍團隊提出具身世界模型
-
2024 年 10 月 14 日,第 44 屆中東海灣信息技術(shù)展(GITEX Global)在阿聯(lián)酋迪拜開幕。紫光股份旗下新華三集團重磅亮相展會,以"精耕務(wù)實,為時代賦智慧"為主題,全面展示了公司"云-網(wǎng)-安-算-存-端"的全棧技術(shù)能力與國際生態(tài)合作成果。
-
中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟 顏陽-元宇宙產(chǎn)業(yè)的商業(yè)邏輯與技術(shù)壁壘研究
顏陽 中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟副秘書長 ¥9.90 金錦囊免費
我要評論