“大模型+機器人”,具身智能將開啟“智械時代”
2024-08-14
來源:科技云報道
從15世紀達芬奇繪制出世界上第一份人形機器人手稿,到如今波士頓動力、本田、特斯拉、Figure AI等企業相繼推出了人形機器人產品,機器人新物種持續衍生,人形機器人產業已經從萌芽概念階段進入產業化落地前期。
近日,由科技巨頭OpenAI、微軟、英偉達以及電商巨頭亞馬遜創始人杰夫·貝佐斯等重量級投資者共同支持的人工智能機器人初創公司Figure AI,正式揭開了其第二代人形機器人Figure 02的神秘面紗。
這款被譽為“地球上最先進的AI硬件”的機器人,不僅標志著人工智能技術的又一里程碑,也預示著以具身智能為內核的人形機器人向工業化、商業化應用邁出了堅實的一步。
01 超越想象的智能新物種
正如Figure名稱所暗示的那樣,這一堪稱目前最先進的人形機器人是2023年推出的Figure 01的后繼產品。
今年3月,Figure 01發布時,就曾引發市場高度關注。當時,Figure 01可以與人類進行全面對話,機器人的所有行為都是學到的,并非是遠程操作。
這背后不僅有Figure引以為傲的端到端神經網絡技術,還全面融入OpenAI所推出的多模態AI大模型,科技界普遍將這一人形機器人視為“行走的ChatGPT”,具備模仿人類行為、深度學習與思考以及與人類進行自然且高效率溝通等諸多強大能力。
Figure 02在大腦上,依然集成了OpenAI的GPT-4o多模態大模型,相比較于Figure 01使用GPT4,Figure 02將進一步地提升機器人的常識推理能力,使其能夠更好地理解和響應復雜指令,機載計算和AI推理能力提升3倍。
與特斯拉的Optimus以及波士頓動力的Atlas相比,與OpenAI大模型的深度集成也一直是Figure引以為傲的強項,該集成使其在多模態推理和任務執行方面更具智能性和適應性,提升其在視覺、聽覺和語言交互方面的能力,使其能夠執行復雜的端到端任務,適用于工業制造、倉庫物流等側重于輕載搬運和分揀轉移的混合任務場景。
在小腦上,Figure02延續使用類似01產品類似的RT-X機器人控制模型,使用模型預測控制器來確定腳步位置和保持平衡并遵循所需的機器人軌跡所需的力,結合步態控制以完成機機器人的基本運動,全身控制策略則確保了機器人在執行動作時的安全性和平衡性,未來將持續優化提升動作執行能力。
在對話推理方面,Figure 02可以通過內置麥克風和揚聲器與人類進行語音對話。這一核心功能依托于與OpenAI合作訓練的定制AI模型,能夠理解、處理并回應人類的語音輸入。機器人以語音作為默認操作界面,意味著用戶可以像跟人交談一樣自然地與Figure 02互動,而無需依賴傳統的按鈕或屏幕界面。
得益于機載視覺語言模型(VLM),Figure 02能通過攝像頭“看懂”周圍環境。進行快速的語義理解和常識性視覺推理,并做出智能判斷。例如物體識別、場景理解,甚至洞悉人類的行為意圖,顯著增強了機器人在復雜現實世界中的適應和交互能力。
此外,Figure 02機載CPU/GPU的計算和AI推理能力是上一代產品的3倍。這一重大提升使其能夠完全自主地執行現實世界中的AI任務,而無需依賴外部資源。
事實上,Figure 02只是具身智能的一個載體形式。 在ITF World 2023半導體大會上,英偉達創始人兼CEO黃仁勛直言,人工智能下一個浪潮將是具身智能,是能理解、推理、并與物理世界互動的智能系統,AI與機器人的融合,具有很好的想象空間。
特斯拉CEO馬斯克在近期舉行的2024特斯拉股東大會上表示,人形機器人將是今后特斯拉主要的長期價值來源,他也認為,以具身智能機器人為代表的產品有望成為AI的下一浪潮,并且將成為工業主力,數量有望超越人類,預計將達到100億至200億臺。特斯拉的目標是年產10億臺,占據市場10%以上的份額。
1950年,圖靈在他的一篇論文中首次提出了“具身智能”的概念,其是人工智能的一個重要分支,它強調智能體與其所處的物理環境緊密交互,通過人形機器人等智能實體實現感知、決策和行動。
這種結合讓人工智能可通過攝像頭、傳感器等理解環境,并通過機械臂、輪子等執行器作用于物理世界,在物理空間中學習、適應并完成指令任務。這是一個包含人工智能幾乎所有技術的領域,可以說是AI的集大成者。
從全球具身智能當前發展看,大致可以分為三個流派:實用派、性能派、學術派。
實用派——以特斯拉、Agility Robotic和1X Technologies為代表的實用派看重商業化落地的可能性,希望“讓一部分人先用起來”。 可以接受前期僅在部分場景中替代少量勞動力,在設計初期便擁有明確的商業化落地目標,著重于快速降低成本、推動量產落地。
特斯拉于2023年12月中旬發布了第二代人形機器人,提升了行走速度,可完成拿雞蛋等精細操作,給了市場更多的信心,預計2024年試產,2025年量產,最終目標售價期望低于每臺2萬美元。
性能派——以波士頓動力為代表的運動性能派,則擁有與軍方三十年之久的合作經驗,著重于挖掘現有人形形態機器人的運動潛力, 不太關注成本,Demo機已擁有完成諸如后空翻、跑酷等高難度動作的能力,有可能在未來戰爭中起到一定作用,但礙于成本過高,而影響了量產計劃。而Apptronik這類公司則擁有深海、太空等極端環境下的產品經驗,還與NASA有較多合作開發經驗,第一款通用機器人Demo只有上半身,計劃在2024年底前實現商業化。
學術派——以李飛飛教授和谷歌團隊為代表的學術派則非常追求大模型對于機器人的變革, 打造出“RobotGPT”的基座模型,實現零樣本或少樣本學習,在更復雜乃至陌生的環境中執行任務,實現人形機器人的智能涌現。
02 螺旋上升與曲折前進
具身智能這條長坡厚雪的賽道上從不缺少拓疆者。 從簡單的結構驅動到關節驅動,再到完成跑步、轉彎、識別特定人群面孔系統的高度集成,至目前能發揮自主決策等功能的高動態運動階段,早稻田大學WABOT-1、本田ASIMO、波士頓動力Atlas、特斯拉Optimus、小米CyberOne“鐵大”、優必選WalkerS等代表作,不斷突破著技術的邊界。
綜合來看,具身智能在其發展過程中目前仍面臨著多項挑戰,這些挑戰源自于其發展過程中的復雜性和不斷變化的需求。
首先,是要適應非結構化真實環境。 與預設規則和模式驅動的傳統AI系統不同,具身智能必須在一個充滿復雜性和不可預測性的非結構化環境中找到立足點。在這種環境中,信息的稀缺和場景的多變性,要求AI系統具備更加先進和靈活的計算能力,以便能夠適應環境的不斷變化和不確定性。這不僅是一個數據處理的問題,更是對AI系統感知和適應能力的全面考驗。
其次,是要發展更高級的認知策略。 在自然界中,生物體通過視覺、聽覺和觸覺等多種感覺途徑獲得復雜的感知信息,并在大腦中進行有效的多模態信息融合。具身智能同樣需要模仿這種高效的多模態融合過程,以更全面地理解和適應其所處的環境。這包括但不限于對三維空間中物體的精確識別和定位,以及對環境變化和內在聯系的動態捕捉。
此外,涌現式創新與突破的缺乏影響著具身智能的進化程度。 生物群體能夠展現出令人驚嘆的集體智慧,主要歸功于其中個體之間的協同作用。對具身智能來說,一個重要的挑戰是模仿這種群體智能系統。這意味著需要將智能分散到多個實體中,并通過它們之間的協作,實現更高級別的認知和決策能力。
生物群體所展現的自組織和適應性特征,允許它們根據環境的變化和個體之間的差異進行自我調整。具身智能需要發展類似的機制,以實現分工協作和動態任務分配,從而能夠更靈活地應對多種情境。
最后,具身智能在與真實環境進行交互并充分學習時,勢必會收集和處理大量數據。 這就引出了一個關鍵問題:如何在實時交互中確保這些數據的安全性和隱私性。保障數據安全和用戶隱私是具身智能發展中不可忽視的重要方面。此外,具身智能在決策時還需要考慮倫理和道德問題。
因此,未來的發展不僅需要技術創新,還需要建立更為健全和全面的倫理指南,以指導具身智能在復雜情境中的行為決策,確保其行為符合道德原則和社會價值觀。
具身智能的發展不僅是技術革新的過程,更是對人類理解、倫理道德和社會影響的深思,相關研究在推動科技邊界的同時,還將深刻影響人類社會的方方面面。
03 離我們還有多遠?
賽迪研究院發布的《2024中國人形機器人產業生態發展研究》顯示,2023年,我國人形機器人產業進入爆發期,產業規模增長至39.1億元,同比增長85.7%;預計2024年、2025年人形機器人產業將持續高速增長,2026年中國人形機器人產業規模將突破200億元。
根據高盛的預測,在技術得到革命性突破的理想情況下,2025年至2035年全球人形機器人銷量復合年均增長率可達94%,2035年市場規模將達1540億美元。
更樂觀的預測提出,在生成式人工智能技術大爆發的當下,人形機器人極有可能實現超預期增長,下一個萬億級“藍海”已呼之欲出。
從場景角度來看,人形機器人的目標應用場景包括商用、醫療康復、制造業、物流等。中短期內,更多廠商會把偏服務類的場景列為目標應用場景優先落地。中長期來看,隨著技術提升及結構化場景的開放,商業服務、工業制造與物流領域能獲得更多場景數據集進行訓練,實現局部場景落地。
從發展趨勢看,人形機器人是一個顛覆性產品的賽道,目前尚處于發展的導入期。接下來,在產品、產業和政策等條件的促進下,人形機器人的商業化落地還將提速。
根據工信部印發的《人形機器人創新發展指導意見》指出,人形機器人有望成為繼計算機、智能手機、新能源汽車后的顛覆性產品。Markets and Markets則預計到2027年,全球人形機器人市場規模將達173億美元,復合增長率為63.5%,市場發展廣闊。
此外,據國際機器人協會預測,2021年-2030年,全球人形機器人市場規模年復合增長率將高達71%。中國電子學會發布的數據則顯示,到2030年,我國人形機器人市場規模有望達8700億元。
這樣一個龐大的市場,自然引得巨頭紛紛押下重注。比如,谷歌依托其在AI領域強大的研究團隊,豐厚的多領域研究成果,引領著近年來機器人模型的發展。這主要集中體現在,Google DeepMind此前曾發布具備“自我完善”能力的“RoboCat”和融合大語言模型能力的VLA模型Robotic Transformer 2(RT-2)。
RT-2在訓練時模型就同時學習視覺、語言、機器人行為這三種數據,并將這些知識轉化為機器人控制的通用指令。RT-2一方面吸收了視覺語言模型的語義推理、問題解決、視覺解釋能力,另一方面能夠從真實的機器人動作中實現具身任務推理,且兩方面能夠相互促進。
在自然語言輸入后,通過模型的運算,直接產生動作的輸出,讓人類可以通過純語言命令優化機器人控制,進一步加速機器人的智能化進程。
此外,Meta推出在少量訓練數據情況下便能取得優異表現的MT-ACT模型。而微軟推出基于ChatGPT的機器人控制框架,將ChatGPT的“知識儲備”落實到現實場景中。可以說,人形機器人模型發展百家爭鳴,大有可為。
而在國內,小米、傅利葉、宇樹、智元、開普勒、追覓等廠商都相繼推出了人形機器人產品。科技企業研發進程的推進,也持續吸引著資本市場加碼。
這些入局者都非常清楚,軟硬融合方能打造出人形機器人的新高度。軟件決定人形機器人高度,算法需與硬件匹配。人形機器人本質是AI技術落地物理世界的最佳載體,算法是核心,需與硬件匹配。
身為軟硬件能力高度集成的實體,人形機器人商業化的核心突破點在于“AI大腦”。而AI大模型的高歌猛進為人形機器人的發展,帶來無限可能——使人形機器人具備更強的事物處理和自然語言交互等能力。
從發展趨勢看,人形機器人尚處產業化初期,但在AI技術突破、政策加碼、科技企業強勢入局的三重要素催化下,有望盡快迎來發展拐點。
智力革命已經打響,就像工業革命解放生產力,電力革命解決能源流通,是全新生態的構建。未來嵌入具身智能的機器人、自動駕駛汽車、自動化設備等,不僅是對人類智能的延伸,更是一個通用人工智能誕生和發展的舞臺,為超越人類智能水平的人工智能提供了理想的試驗場和成長空間。
這預示著,一個更加智能、更加互聯的未來正向我們走來。
- 推薦
- 新聞
- 觀點
- 制造
- IT/互聯網
- 軟件信息
- CIO
- CDO
- 人工智能
- 戰略
- 研發
- 生產制造
- 運營
- 市場營銷
- IT
- 供應鏈/生態
下一篇
推薦
-
11月28日-30日,中國數字化年會將于成都正式開幕,本屆年會以數智萬象 無界新生”為主題,設置2場主論壇、1場高峰論壇、5場專題論壇、4項特色活動、2場頒獎典禮等14項活動,以及2天數字化轉型供需對接展。
-
零次方科技發布了其首款人形機器人,可以在多種不規則路面、復雜地形中長時間穩定行走,且具備優秀的抗干擾性能,即使受到各方向的強沖擊也能保持穩定站立。
-
近日,第四屆“青年科學家502論壇”在南方科技大學舉行,美國國家工程院外籍院士沈向洋做了《通用人工智能時代,我們應該怎樣思考大模型》的主題演講,并給出了他對大模型的10個思考。
-
深度解析Meta Reality Labs的生態布局
-
TeleAI 李學龍團隊提出具身世界模型
-
2024 年 10 月 14 日,第 44 屆中東海灣信息技術展(GITEX Global)在阿聯酋迪拜開幕。紫光股份旗下新華三集團重磅亮相展會,以"精耕務實,為時代賦智慧"為主題,全面展示了公司"云-網-安-算-存-端"的全棧技術能力與國際生態合作成果。
我要評論