精品一级片内射视网站下载_免费国产激情自拍电影在线_国产成人综合亚洲日韩欧美_成人高清免费毛片_日韩av午夜免费观看_yase视频国产精品_黄色精品毛片少妇_日韩高清在线观看一二三区_午夜电影网写真在线观看_雷安ss劲爆车白色液体

登錄甲子光年
其他登錄方式
登錄即表示你已閱讀并同意
《甲子光年用戶注冊(cè)協(xié)議隱私政策
找回密碼
獲取驗(yàn)證碼
注冊(cè)甲子光年
獲取驗(yàn)證碼
注冊(cè)即表示你已閱讀并同意
《甲子光年用戶注冊(cè)協(xié)議隱私政策
綁定手機(jī)號(hào)
獲取驗(yàn)證碼
登錄即表示你已閱讀并同意
《甲子光年用戶注冊(cè)協(xié)議隱私政策
完善資料
登錄即表示你已閱讀并同意
《甲子光年用戶注冊(cè)協(xié)議隱私政策
微信登錄
掃描二維碼 | 授權(quán)登錄甲子光年
對(duì)話八位具身智能大咖:模型之爭(zhēng)、數(shù)據(jù)來(lái)源與第一性原理
作者:劉楊楠 2025-11-21

具身智能是通往AGI的必經(jīng)之路。

作者|劉楊楠

編輯|王博

“你認(rèn)為具身智能是通往AGI(通用人工智能)的必經(jīng)之路嗎?3、2、1——請(qǐng)舉牌!”

話音剛落,臺(tái)上的八位行業(yè)頂尖專家毫不猶豫,齊刷刷舉牌——全場(chǎng)一致同意。

這不僅是一次簡(jiǎn)單的共識(shí),更是當(dāng)前AI浪潮轉(zhuǎn)向物理世界的一個(gè)縮影。隨著大模型在虛擬世界的潛力被不斷挖掘,如何讓智能擁有身體,能夠理解、決策并改變真實(shí)的物理環(huán)境,已成為全球科技競(jìng)爭(zhēng)的下一個(gè)前沿。

具身智能,正從機(jī)器人產(chǎn)業(yè)的專屬,演進(jìn)為構(gòu)建下一代通用AI的基石。

在11月20日舉辦的智源具身OpenDay上,甲子光年創(chuàng)始人、CEO張一甲主持的這場(chǎng)BAAI具身模型會(huì)客廳,正是一次對(duì)這一前沿領(lǐng)域的集中叩問(wèn)。她與八位來(lái)自產(chǎn)業(yè)界與學(xué)術(shù)界的核心踐行者展開(kāi)對(duì)話,他們代表了推動(dòng)具身智能落地的關(guān)鍵力量:

  • 招商局集團(tuán)AI首席科學(xué)家 張家興

  • 清華大學(xué)助理教授、星海圖聯(lián)合創(chuàng)始人 趙行

  • 智元機(jī)器人合伙人、首席科學(xué)家,上海創(chuàng)智學(xué)院導(dǎo)師 羅劍嵐

  • 智源研究院院長(zhǎng) 王仲遠(yuǎn)

  • 北京大學(xué)助理教授、銀河通用創(chuàng)始人及首席技術(shù)官 王鶴

  • 加速進(jìn)化創(chuàng)始人&CEO 程昊

  • 自變量創(chuàng)始人&CEO 王潛

  • 中國(guó)科學(xué)院大學(xué)教授 趙冬斌

在這場(chǎng)深度討論中,共識(shí)是清晰的——具身智能是通往AGI的必經(jīng)之路。

但非共識(shí)是存在的,挑戰(zhàn)也是現(xiàn)實(shí)的。宏偉的愿景之下,是數(shù)據(jù)、模型與機(jī)器人本體之間相互掣肘的現(xiàn)實(shí)困境。全行業(yè)都在共同摸索:如何找到一條高效、低成本的道路,打破枷鎖,讓智能真正“身”“心”合一。

本文為“BAAI具身模型會(huì)客廳”對(duì)話實(shí)錄,經(jīng)「甲子光年」整理編輯,在不改變?cè)獾幕A(chǔ)上略有刪改。

1.世界模型是實(shí)現(xiàn)具身智能的關(guān)鍵嗎?

張一甲:今年世界模型概念很熱,和世界模型的結(jié)合是實(shí)現(xiàn)具身智能的關(guān)鍵嗎?

王鶴:我目前持中立態(tài)度。因?yàn)樗鋵?shí)取決于我們?nèi)绾味x“世界模型”。在強(qiáng)化學(xué)習(xí)里,世界模型最早是指根據(jù)當(dāng)前狀態(tài)和我采取的動(dòng)作,來(lái)預(yù)測(cè)下一步狀態(tài)的變化。但這一概念經(jīng)過(guò)Sora等視頻生成模型的不斷演變,如今已經(jīng)變得越來(lái)越模糊了。

今天我們常常希望用人類的視頻數(shù)據(jù)去訓(xùn)練模型,再教機(jī)器人像人一樣去“想象”人類的行為并照著做。但這并不完全成立。原因在于,機(jī)器人的本體,比如輪式、雙臂結(jié)構(gòu),都和人類身體存在很大差異。即便是最像人的人形機(jī)器人,在操作的靈巧度、手臂活動(dòng)范圍等方面,與真人動(dòng)作仍有明顯差距。因此,即使機(jī)器人能像人一樣“聯(lián)想”,這類數(shù)據(jù)也不一定對(duì)我們的具身智能有實(shí)質(zhì)幫助。

不過(guò)從長(zhǎng)遠(yuǎn)來(lái)看,具身機(jī)器人和人類一樣,都需要具備一種對(duì)未來(lái)狀態(tài)的預(yù)測(cè)和預(yù)判能力,都需要根據(jù)我想要達(dá)成的目標(biāo),反向推導(dǎo)現(xiàn)在該執(zhí)行什么動(dòng)作——既有前向推理,也有反向規(guī)劃。所以我認(rèn)為,世界模型作為一種對(duì)未來(lái)預(yù)測(cè)的機(jī)制,是不可或缺的。只不過(guò),它的訓(xùn)練數(shù)據(jù)中必須包含更多機(jī)器人本身的數(shù)據(jù),才能真正學(xué)出一個(gè)屬于機(jī)器人自己的世界模型。

王仲遠(yuǎn):我是認(rèn)同的。目前世界模型的定義確實(shí)還沒(méi)有形成完全的共識(shí)。如果世界模型僅僅指視頻生成,那它雖然可能對(duì)具身智能有一定作用,但未必是后者必須依賴的基座。

而我們所理解的世界模型,更多是指“下一個(gè)狀態(tài)預(yù)測(cè)”,也就是基于先前的時(shí)空狀態(tài),去預(yù)測(cè)下一個(gè)時(shí)空狀態(tài)。

舉個(gè)例子,剛才我要回答時(shí),需要基于一甲提出的問(wèn)題、王鶴老師的回應(yīng),來(lái)決定我如何回應(yīng)、是否要拿起話筒,這本身就是一個(gè)決策過(guò)程。我們所認(rèn)知的世界模型,需要基于已有的時(shí)空狀態(tài),理解現(xiàn)場(chǎng)的環(huán)境與上下文,進(jìn)而給出下一步的行動(dòng)與響應(yīng),這才是核心。

張一甲:Transformer這類統(tǒng)一架構(gòu)催生了ChatGPT這樣的爆款應(yīng)用。你們認(rèn)為具身智能未來(lái)也會(huì)收斂到某一種統(tǒng)一架構(gòu)之下嗎?換句話說(shuō),具身智能是否需要自己的“Transformer”?

(現(xiàn)場(chǎng)舉牌,除了趙冬斌,其他嘉賓都認(rèn)為“會(huì)收斂到某一種統(tǒng)一架構(gòu)之下”)

趙冬斌:我持觀望態(tài)度。目前來(lái)看,具身模型的訓(xùn)練方法比較多樣化。除了模型架構(gòu)本身的探索之外,我們也通過(guò)預(yù)訓(xùn)練、后訓(xùn)練以及思維鏈推理等方式來(lái)持續(xù)提升模型性能,在制作咖啡、擺放碟子、整理盒子、折疊衣物等中多個(gè)任務(wù)上展現(xiàn)出通用能力。隨著技術(shù)不斷發(fā)展,未來(lái)有可能會(huì)出現(xiàn)一個(gè)收斂的單一模型,但也可能繼續(xù)保持模型多樣化的路徑。兩者皆有可能。

張一甲:最有可能成為那個(gè)“Transformer”的技術(shù)路徑會(huì)是什么?

張家興:就像人類智能的演進(jìn)過(guò)程:我們是先有動(dòng)作能力,再發(fā)展出視覺(jué),最后才誕生語(yǔ)言。而今天的VLA結(jié)構(gòu),恰恰是在視覺(jué)和動(dòng)作之間插入了一個(gè)語(yǔ)言模塊,這其實(shí)并不符合我們?nèi)祟愒趯?shí)際操作中的本質(zhì)邏輯。比如當(dāng)我們開(kāi)車時(shí),可以一邊說(shuō)話一邊駕駛,這說(shuō)明視覺(jué)(Vision)和動(dòng)作(Action)之間本身就有直接通路,并不一定需要語(yǔ)言(Language)的全程參與。

因此,我們應(yīng)該思考構(gòu)建一個(gè)完全面向具身智能的、獨(dú)立的系統(tǒng)架構(gòu),而不必非得從當(dāng)前以語(yǔ)言模型為核心的技術(shù)體系中脫胎。

張一甲:你心目中那個(gè)理想的“具身智能Transformer”,目前出現(xiàn)了嗎?

張家興:目前還沒(méi)有真正出現(xiàn)。實(shí)際上,我們確實(shí)仍在期待大模型領(lǐng)域能帶來(lái)一些根本性的創(chuàng)新。目前硅谷的一些頂尖團(tuán)隊(duì)正在探索新型多模態(tài)大模型架構(gòu),在這些架構(gòu)中,語(yǔ)言(L)將不再占據(jù)那么核心的位置。這是一個(gè)重要的方向。

坦白說(shuō),目前確實(shí)是大模型團(tuán)隊(duì)在率先進(jìn)行這類探索,而他們的方向恰好與我們具身智能所追求的目標(biāo)不謀而合。本質(zhì)上,我們期待的是大模型領(lǐng)域能夠?qū)崿F(xiàn)一次范式轉(zhuǎn)換:從過(guò)去三年一直堅(jiān)持的“l(fā)anguage first”,轉(zhuǎn)向“vision first”或“vision-action first”

趙行:我非常同意這個(gè)觀點(diǎn)。我們確實(shí)需要一個(gè)與大語(yǔ)言模型平行的基礎(chǔ)模型,它更有可能是一個(gè)“大型行動(dòng)模型”(Large Action Model)。這個(gè)模型首先應(yīng)建立在視覺(jué)基礎(chǔ)上,因?yàn)橐曈X(jué)是世界上最通用的感知信息來(lái)源;隨后再融入語(yǔ)言能力。這與生物進(jìn)化的規(guī)律高度吻合——世界上先出現(xiàn)能夠運(yùn)動(dòng)的生物,隨后它們演化出視覺(jué),最終才誕生像人類這樣的高級(jí)智能生命。

因此,我們期待的是一種“行動(dòng)優(yōu)先、視覺(jué)隨后、語(yǔ)言最后”的模型構(gòu)建路徑。這個(gè)模型與大語(yǔ)言模型有一個(gè)關(guān)鍵區(qū)別,它必須是一個(gè)閉環(huán)系統(tǒng)。大語(yǔ)言模型更多是開(kāi)環(huán)的——用戶提問(wèn),模型給出回答,若答案正確,流程就結(jié)束了,中間的處理過(guò)程完全在模型內(nèi)部完成。

但具身智能不同。它不是經(jīng)過(guò)一番思考后執(zhí)行單一動(dòng)作,而是每執(zhí)行一個(gè)動(dòng)作,就立即獲得來(lái)自世界的反饋,隨即調(diào)整自身行為,并繼續(xù)執(zhí)行下一步。因此,我希望未來(lái)具身智能的“基礎(chǔ)行動(dòng)模型”是一個(gè)能夠與環(huán)境實(shí)時(shí)交互、持續(xù)調(diào)整的閉環(huán)模型。

羅劍嵐:目前還沒(méi)有出現(xiàn)一個(gè)能夠統(tǒng)一所有智能形態(tài)的“大一統(tǒng)模型”。智能問(wèn)題更可能被一個(gè)完整系統(tǒng)所解決,而非依賴單一模型。這個(gè)系統(tǒng)包括幾個(gè)核心要素。除了VLA,系統(tǒng)中還需要一個(gè)世界模型,能夠進(jìn)行反思、預(yù)測(cè),并在隱空間中進(jìn)行推演和想象。當(dāng)然,也離不開(kāi)強(qiáng)化學(xué)習(xí)。這些組件整合在一起,形成一個(gè)真正的閉環(huán)系統(tǒng),數(shù)據(jù)在其中流動(dòng),推動(dòng)系統(tǒng)不斷自我提升。

王仲遠(yuǎn):首先,智源研究院肯定相信,從終極狀態(tài)來(lái)看,一定要有一個(gè)相對(duì)統(tǒng)一架構(gòu)的模型,來(lái)解決預(yù)訓(xùn)練、世界模型等各種問(wèn)題。這也是我們?cè)诓季窒穸嗄B(tài)世界模型的一個(gè)很重要原因。

當(dāng)然,這種模型所需要的數(shù)據(jù)量顯然是非常非常大的,甚至不一定三年、五年就一定能夠完全實(shí)現(xiàn)。它可能需要等到更多機(jī)器人真正落地,開(kāi)始解決很具體的問(wèn)題,累積起足夠的數(shù)據(jù)量,出現(xiàn)“具身智能的互聯(lián)網(wǎng)”之后,有了這樣的數(shù)據(jù)基礎(chǔ),才有可能出現(xiàn)更好的大一統(tǒng)模型。

從架構(gòu)上來(lái)講,我們正在探索一系列具有潛力的大一統(tǒng)架構(gòu),當(dāng)然未來(lái)是否會(huì)出現(xiàn)別的架構(gòu),我們也樂(lè)見(jiàn)其成。所以從長(zhǎng)期來(lái)看,我相信這是一個(gè)我們必須突破、必須解決的關(guān)鍵問(wèn)題。

王鶴:關(guān)于“具身Transformer”這個(gè)問(wèn)題,其實(shí)它更偏向架構(gòu)層面。

具身智能的復(fù)雜性在于,人類擁有視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等多種感知方式,就像我們常說(shuō)的“眼耳口鼻舌”。從注意力機(jī)制的角度,所有這些感知信號(hào)理論上都可以被token化并輸入Transformer。目前主要的瓶頸在于輸出部分還不夠理想,動(dòng)作的生成與響應(yīng)還不夠自然。

因此,如果我們能逐步解決輸出層面的問(wèn)題,從架構(gòu)上講,是有可能形成一個(gè)統(tǒng)一范式的。但相比之下,數(shù)據(jù)問(wèn)題以及與之對(duì)應(yīng)的學(xué)習(xí)范式,才是更長(zhǎng)期、更根本的挑戰(zhàn)。

目前我們的數(shù)據(jù)還遠(yuǎn)遠(yuǎn)不夠。無(wú)論是視頻生成模型還是對(duì)話模型,本質(zhì)上都依賴海量的互聯(lián)網(wǎng)數(shù)據(jù)。而今天我們?nèi)粝胙邪l(fā)出一個(gè)“行動(dòng)優(yōu)先”的模型,面臨的核心問(wèn)題是:全球可能僅有約一千臺(tái)、甚至更少的人形機(jī)器人處于前沿場(chǎng)景中運(yùn)行。如此少的數(shù)量,遠(yuǎn)不足以支撐我們探索出一個(gè)成熟的“行動(dòng)優(yōu)先”架構(gòu)與模型。

因此我的看法是:短期內(nèi),我們更需要依靠仿真模擬與合成數(shù)據(jù)來(lái)推進(jìn)探索,這比受限于少量真實(shí)數(shù)據(jù)會(huì)走得更快;而從長(zhǎng)期來(lái)看,地球上的“人形機(jī)器人口”必須實(shí)現(xiàn)持續(xù)高速增長(zhǎng)。當(dāng)然,這也與其能力提升相輔相成。只有當(dāng)這個(gè)“人口基數(shù)”足夠大時(shí),才有可能孕育出真正強(qiáng)大的大模型。

程昊:過(guò)去一年多來(lái),幾乎所有人形機(jī)器人的運(yùn)動(dòng)控制都在朝著同一個(gè)方向努力:只要獲取到人體各種運(yùn)動(dòng)軌跡數(shù)據(jù),機(jī)器人就能夠復(fù)現(xiàn)執(zhí)行。相應(yīng)地,我們也希望能有一個(gè)具身模型,可以基于任務(wù)需求與環(huán)境狀態(tài),實(shí)時(shí)輸出未來(lái)數(shù)十幀內(nèi)機(jī)器人該如何動(dòng)作,就像在腦海中生成一段動(dòng)畫(huà),機(jī)器人隨之執(zhí)行,并自主判斷是該拿起鏟子、杯子,還是去開(kāi)門(mén)。一旦這樣的模型跑通,具身智能的落地就會(huì)順利很多,但目前來(lái)看,這樣的模型尚未出現(xiàn)。

我們之所以特別關(guān)注世界模型,核心原因之一就是“預(yù)測(cè)”能力——既要預(yù)測(cè)“我打算做什么”,也要預(yù)測(cè)“外部環(huán)境會(huì)發(fā)生什么”。當(dāng)然,團(tuán)隊(duì)內(nèi)部也認(rèn)為這個(gè)目標(biāo)挑戰(zhàn)很大、路徑較長(zhǎng),因此我們也在考慮分階段推進(jìn):先通過(guò)分層方法構(gòu)建一些智能體(agent),在相對(duì)簡(jiǎn)單的場(chǎng)景中實(shí)現(xiàn)落地,比如拿快遞、搬箱子這類任務(wù),而像做飯就是一件非常非常難的事情。

這樣做的好處是,一旦在真實(shí)場(chǎng)景中部署,就能采集到大量機(jī)器人實(shí)際運(yùn)行數(shù)據(jù)。正如剛才王鶴老師所說(shuō),一旦機(jī)器人真正落地創(chuàng)造價(jià)值,大家就會(huì)有意愿、有資源去部署更多機(jī)器人,形成“機(jī)器人公民”規(guī)模的擴(kuò)大。這些數(shù)據(jù)回流后,將反哺整個(gè)具身智能大模型的研發(fā)。

王潛:“Transformer”這個(gè)說(shuō)法可能稍微有些誤導(dǎo)性,因?yàn)樗举|(zhì)上是一種架構(gòu)。事實(shí)上,如今在語(yǔ)言模型中也不一定全都采用Transformer。由于超長(zhǎng)序列處理等需求,很多團(tuán)隊(duì)已經(jīng)開(kāi)始轉(zhuǎn)向類似狀態(tài)空間模型(State Space Model)等其他架構(gòu)。所以,語(yǔ)言模型領(lǐng)域也未必都是Transformer。

當(dāng)然,我理解這個(gè)問(wèn)題的實(shí)質(zhì)是:我們是否會(huì)形成一整套完整的方法論與模型體系,就像當(dāng)年GPT那樣成為基礎(chǔ)模型范式?從這個(gè)角度看,我認(rèn)為這樣的體系是可能出現(xiàn)的。至于它具體采用哪種架構(gòu)形式——是決策型、自回歸、狀態(tài)空間還是其他注意力變體——其實(shí)并沒(méi)有那么重要。就像建造一棟大樓,Transformer可能只是其中的磚塊或鋼筋,我們可以替換為其他材料,而不影響整體功能。更重要的是設(shè)計(jì)整座建筑的結(jié)構(gòu)、外觀與功能,并通入水電、完成內(nèi)裝,最終才能成為真正可用的建筑。

從語(yǔ)言模型的發(fā)展中,我們可以汲取幾點(diǎn)重要經(jīng)驗(yàn):

第一是數(shù)據(jù)規(guī)模的重要性。這一點(diǎn)剛才多位老師都提到了。但大家對(duì)“數(shù)據(jù)規(guī)模”可能存在一些誤解,第一反應(yīng)往往是“大力出奇跡”。確實(shí),我們需要海量數(shù)據(jù),但光有數(shù)量是不夠的。就像家興老師和仲遠(yuǎn)老師在大語(yǔ)言模型時(shí)代的實(shí)踐所證明的:?jiǎn)渭兌褦?shù)據(jù)未必能帶來(lái)理想結(jié)果,反而是更高效、更高質(zhì)量的數(shù)據(jù)才能實(shí)現(xiàn)突破。這也是為什么我們堅(jiān)持以物理世界真實(shí)數(shù)據(jù)為主——我們相信數(shù)據(jù)質(zhì)量?jī)?yōu)先于數(shù)據(jù)總量,這能在數(shù)據(jù)效率上帶來(lái)數(shù)量級(jí)的提升。

第二是通用模型(通才模型)的價(jià)值。這正是我開(kāi)場(chǎng)時(shí)提到的:我們正在構(gòu)建的是一個(gè)平行于虛擬世界的、屬于物理世界的基礎(chǔ)模型。根本原因在于虛擬世界與物理世界的基本屬性,或者說(shuō)“統(tǒng)一性原理”,差異太大。

核心差異在于,物理世界中存在大量的接觸、摩擦、碰撞等高度隨機(jī)的過(guò)程,這些過(guò)程通常難以用語(yǔ)言完整描述,也難以通過(guò)圖像準(zhǔn)確表達(dá)。盡管目前已有一些利用圖像進(jìn)行描述的嘗試,但在我看來(lái),這些嘗試效果有限,因?yàn)樗鼈冸y以捕捉其中涉及的大量精細(xì)物理現(xiàn)象。

正因如此,我們認(rèn)為在當(dāng)前階段,這方面仍存在不少障礙。最主要的原因在于,我們對(duì)這些物理過(guò)程的認(rèn)知與建模方法仍不成熟,對(duì)其內(nèi)在機(jī)制的理解尚不完善。因此,我們最終仍需要一個(gè)平行且獨(dú)立于虛擬世界的物理模型,來(lái)精確刻畫(huà)這些細(xì)致而復(fù)雜的物理過(guò)程。

這樣一個(gè)模型究竟應(yīng)該具備哪些功能?它當(dāng)然要能控制機(jī)器人,這一點(diǎn)毋庸置疑。但與此同時(shí),它還應(yīng)具備更多元的輸出能力。在我們看來(lái),世界模型、VLA等概念之爭(zhēng)意義有限,因?yàn)閺奈覀兊膶?shí)踐來(lái)看,所有這些能力都被集成在同一個(gè)模型中:它既能輸出動(dòng)作指令,也能生成視頻;既能做隱藏狀態(tài)的預(yù)測(cè),也能完成三維重建,甚至輸出體積信息等任意形式的內(nèi)容。

我們將其視為一個(gè)“物理世界的基礎(chǔ)模型”,背后的邏輯是什么?這源于我們從語(yǔ)言模型發(fā)展中獲得的啟示:為什么一定要做通用模型?關(guān)鍵在于,通用模型學(xué)習(xí)到的內(nèi)容與專用模型完全不同。它捕捉的是所有任務(wù)之間的交集,可稱為“共同結(jié)構(gòu)”、常識(shí),或是本質(zhì)規(guī)律。

因此,從語(yǔ)言模型中我們能夠習(xí)得邏輯推理能力、常識(shí)認(rèn)知等關(guān)鍵要素——這些確實(shí)是語(yǔ)言模型帶給我們的核心價(jià)值。但回到現(xiàn)實(shí)問(wèn)題:我們是否應(yīng)該直接繼承現(xiàn)有的多模態(tài)模型作為主干,將其作為基礎(chǔ)來(lái)推進(jìn)具身智能領(lǐng)域的工作?

對(duì)此我的看法可能與主流觀點(diǎn)相左。我認(rèn)為在不久的將來(lái),或許不用十年,甚至五年內(nèi),真正主導(dǎo)的多模態(tài)模型,反而會(huì)是由具身智能推動(dòng)發(fā)展的那類模型。當(dāng)前僅依靠從物理世界采集數(shù)據(jù)構(gòu)建的模型路徑可能難以走通,而基于具身智能發(fā)展的多模態(tài)體系,反而很可能反過(guò)來(lái)主導(dǎo)甚至取代我們今天所見(jiàn)的多模態(tài)范式。

這是一個(gè)符合發(fā)展規(guī)律的大趨勢(shì),也呼應(yīng)了人類認(rèn)知世界的基本方式。人類在學(xué)習(xí)理解物理世界這類“不靠堆數(shù)據(jù)”的領(lǐng)域時(shí),其實(shí)并不需要海量樣本。從進(jìn)化歷程來(lái)看,我們實(shí)際經(jīng)歷過(guò)的交互場(chǎng)景遠(yuǎn)不如今天AI模型訓(xùn)練的數(shù)據(jù)規(guī)模,卻依然能構(gòu)建出強(qiáng)大的認(rèn)知系統(tǒng)。

這其中最關(guān)鍵的一點(diǎn)在于“動(dòng)作”帶來(lái)的改變。行動(dòng)本身是一個(gè)關(guān)鍵信號(hào),它能幫助我們篩選出哪些信息是真正重要的。此外,正如剛才其他嘉賓提到的“交互感知”或“主動(dòng)感知”,我們通過(guò)與環(huán)境的實(shí)時(shí)互動(dòng),能夠從時(shí)間和因果維度更深入地把握物理世界的運(yùn)行規(guī)律。

這也就引回到我們今天討論的核心:什么才是真正的基礎(chǔ)模型?或者說(shuō),具身智能領(lǐng)域的“Transformer”應(yīng)該是什么?當(dāng)然,我仍堅(jiān)持之前的看法,Transformer這個(gè)比喻并不十分貼切,它終究只是一種架構(gòu)組件,就像磚塊或鋼筋,完全可以被更合適的結(jié)構(gòu)所替代。

趙冬斌:確實(shí),當(dāng)前我們對(duì)于模型規(guī)模的定義可能不是一成不變的。未來(lái)的大模型也不一定非要依賴海量數(shù)據(jù),就像人類學(xué)習(xí)一樣,也許只需少量樣本就能掌握,而不是單純依靠海量數(shù)據(jù)和算法堆砌。所以對(duì)于未來(lái)的發(fā)展方向,我個(gè)人還持觀望態(tài)度。

從模型架構(gòu)的角度來(lái)看,我們討論的重點(diǎn)往往在于輸入和輸出。在具身智能領(lǐng)域,輸入模態(tài)遠(yuǎn)比互聯(lián)網(wǎng)大模型豐富,不僅有文字和視覺(jué),還包括力矩、觸覺(jué)等物理交互信號(hào),這些都需要被處理,也必然會(huì)影響模型的架構(gòu)設(shè)計(jì)。

至于輸出方面,剛才多位嘉賓也提到了多種實(shí)現(xiàn)路徑,例如混合專家模型(MoE)、多模態(tài)生成等。有些場(chǎng)景可能并不需要復(fù)雜輸出。目前整個(gè)業(yè)界發(fā)展非常迅速,從學(xué)界角度來(lái)看,依然處于百花齊放的狀態(tài)。具體到機(jī)器人控制,如果場(chǎng)景相對(duì)簡(jiǎn)單,或許一個(gè)狀態(tài)空間模型就足夠應(yīng)對(duì)了。

2.數(shù)據(jù)的解法

張一甲:面對(duì)數(shù)據(jù)這種“既重要又難搞”的情況,你們各自采取了什么樣的應(yīng)對(duì)策略?目前實(shí)際在做的有哪些工作?

張家興:第一,我們堅(jiān)信要從真實(shí)物理世界中采集數(shù)據(jù),這最為關(guān)鍵。第二,在整個(gè)數(shù)字金字塔的構(gòu)建中,我們希望通過(guò)最低成本的方式,直接以人自身作為本體來(lái)采集數(shù)據(jù),這樣成本最低,也最容易實(shí)現(xiàn)規(guī)模效應(yīng)。這些數(shù)據(jù)主要用于人工智能領(lǐng)域。我們的目標(biāo),是構(gòu)建一個(gè)質(zhì)量最高、成本最低的數(shù)據(jù)金字塔。

趙行:我們同樣以真實(shí)數(shù)據(jù)為基礎(chǔ),主要從三個(gè)層面入手。首先,是保證數(shù)據(jù)的真實(shí)性,因此我們用真實(shí)機(jī)器人素材作為起點(diǎn)。其次,我們注重多樣性,這意味著數(shù)據(jù)采集不局限于自有工廠,而是深入各類真實(shí)場(chǎng)景。最后,我們?cè)僮非髷?shù)量,通過(guò)優(yōu)化方法(如從依賴機(jī)器人轉(zhuǎn)變?yōu)闊o(wú)機(jī)器人方案)來(lái)降低采集成本、擴(kuò)大規(guī)模。

羅劍嵐:我們也是堅(jiān)持真實(shí)數(shù)據(jù),并且非常重視數(shù)據(jù)質(zhì)量。有兩點(diǎn)我們想突出一下:第一,我們會(huì)去真實(shí)場(chǎng)景里采集,而不只是在數(shù)據(jù)工廠。第二,未來(lái)整個(gè)數(shù)據(jù)生態(tài)的構(gòu)建和運(yùn)轉(zhuǎn),將主要依靠機(jī)器人自主產(chǎn)生數(shù)據(jù)。具體來(lái)說(shuō),就是把大量機(jī)器人部署到真實(shí)場(chǎng)景中,讓它們與環(huán)境交互,從而產(chǎn)生范圍極廣、非常多樣化的數(shù)據(jù)。然后利用這些數(shù)據(jù),我們可以去獲取更多的機(jī)器人,這樣就形成了一個(gè)完整的正向反饋。

王仲遠(yuǎn):我們還是堅(jiān)持從海量的視頻數(shù)據(jù)中去進(jìn)行基座模型的學(xué)習(xí)。因?yàn)橐曨l數(shù)據(jù)既能夠海量獲得,又能模擬真實(shí)世界。然后,我們通過(guò)真機(jī)采集的數(shù)據(jù)做半自動(dòng)處理,再通過(guò)強(qiáng)化學(xué)習(xí)做反饋,來(lái)不斷提升它的能力。這套邏輯其實(shí)跟現(xiàn)在很多小朋友刷手機(jī)認(rèn)識(shí)世界是一個(gè)原理:他們通過(guò)視頻學(xué)習(xí)這個(gè)世界,再通過(guò)真實(shí)的交互體驗(yàn)來(lái)提升技能。

王鶴:在座各位中,我可能是很強(qiáng)調(diào)仿真的。這并不是說(shuō)我們故意要用仿真去替代真實(shí)世界的數(shù)據(jù),而是我們發(fā)現(xiàn),很多底層的控制都是通過(guò)大量的強(qiáng)化學(xué)習(xí)獲得的,而這在真實(shí)世界里進(jìn)行非常困難。比如,我們今天看到的所有人形機(jī)器人的足式行走、跳舞,包括各種復(fù)雜的身體控制,全都是通過(guò)仿真器習(xí)得的。真實(shí)數(shù)據(jù)在其中的作用,一是提取人類的行為形態(tài)(比如舞蹈),二是在真實(shí)世界進(jìn)行少量的微調(diào)。

我們最近與清華大學(xué)合作的靈巧手工作也印證了這點(diǎn)。至今為止,所有真正的手內(nèi)操作都是通過(guò)模仿學(xué)習(xí)實(shí)現(xiàn)的,而不是遙控。因?yàn)楫?dāng)你不清楚靈巧手的手指是否碰到物體、受力如何時(shí),連遙操作都無(wú)法進(jìn)行。

所以,仿真的意義并非否定真實(shí)世界,而是這些豐富的物理交互可以從仿真開(kāi)始。它能提供一個(gè)很好的基礎(chǔ)控制器,使我們?cè)谡鎸?shí)世界里能把“數(shù)據(jù)飛輪”轉(zhuǎn)起來(lái)。這就是合成數(shù)據(jù)的使命。

程昊:我們現(xiàn)在實(shí)際上用仿真數(shù)據(jù)確實(shí)比較多,因?yàn)樗容^快。但我們用仿真數(shù)據(jù)訓(xùn)練的一個(gè)目標(biāo),是讓機(jī)器人接下來(lái)能獲得更多真實(shí)數(shù)據(jù),有了真實(shí)數(shù)據(jù),整體能力才能再提升。

這很可能是一個(gè)螺旋上升的過(guò)程:落地后獲得真實(shí)數(shù)據(jù),會(huì)發(fā)現(xiàn)很多“corner case”搞不定,而真實(shí)世界又采不到那么多,那就可能又得回頭大量用仿真數(shù)據(jù)。

所以我們的大思路是,一定要讓機(jī)器人落地后能獲得真實(shí)數(shù)據(jù)。我們堅(jiān)信最終這些數(shù)據(jù)都得用上,大概率是一種融合的狀態(tài)。視頻數(shù)據(jù)長(zhǎng)遠(yuǎn)看肯定是最多的,只不過(guò)現(xiàn)在它的訓(xùn)練效果還不那么理想。總之,哪個(gè)階段哪個(gè)數(shù)據(jù)好用,我們就先用哪個(gè)。

張一甲:這可能不是應(yīng)不應(yīng)該的問(wèn)題,而是能不能做到的問(wèn)題。

王潛:我們是什么數(shù)據(jù)都用,但用的地方有側(cè)重點(diǎn)。就像我剛才說(shuō)的,不同數(shù)據(jù)本身的分布差異是很大的。

比如,我們用大量的互聯(lián)網(wǎng)數(shù)據(jù),基本上每晚能爬的都會(huì)爬一遍。這部分主要用來(lái)做知識(shí)鏈,學(xué)習(xí)一些常識(shí),這是大家現(xiàn)在普遍都在做的基礎(chǔ)工作。

再比如,我們仿真也做,但可能不會(huì)用它來(lái)做接觸式的抓取這類任務(wù),而是用來(lái)做智能體的決策、推理。那種物理抓取的遷移學(xué)習(xí),主要還是以物理世界的真實(shí)數(shù)據(jù)為主。

所以,所有數(shù)據(jù)本質(zhì)上都可以用起來(lái),但說(shuō)實(shí)話,把任何一種數(shù)據(jù)用好都挺難的,里面涉及大量核心的工程問(wèn)題,這才是我們?nèi)粘9ぷ骱妥⒁饬Φ闹攸c(diǎn)。數(shù)據(jù)肯定是多多益善,我們能從各種各樣的數(shù)據(jù)里都學(xué)到東西。

趙冬斌:我想,自動(dòng)駕駛應(yīng)該是具身智能一個(gè)非常重要的落地例子。從它的經(jīng)驗(yàn)來(lái)看,把車賣給C端用戶后,每個(gè)司機(jī)每天開(kāi)車就把數(shù)據(jù)收回來(lái)了,這個(gè)真實(shí)數(shù)據(jù)的反饋閉環(huán)用得非常好。

我其實(shí)一直在想,我們其他的機(jī)器人什么時(shí)候也能這樣?比如把服務(wù)機(jī)器人賣到旅館,讓它在無(wú)人環(huán)境下打掃衛(wèi)生、疊被子。這樣就能持續(xù)回收數(shù)據(jù),出了問(wèn)題可以遠(yuǎn)程接管,這些接管數(shù)據(jù)也非常重要。

再比如一個(gè)廚房機(jī)器人,如果能根據(jù)菜單做各種菜,隨著部署規(guī)模上去,數(shù)據(jù)量自然就起來(lái)了。我們期待的就是這種數(shù)據(jù)自然而然涌現(xiàn)的時(shí)刻。

3.決策的“第一性原理”

張一甲:具身智能這個(gè)問(wèn)題,真是越聊越覺(jué)得比我們想象中更復(fù)雜。就好像各位嘉賓在一個(gè)復(fù)雜的森林里,從不同的地點(diǎn)出發(fā)。我們不知道這個(gè)森林有多少物種,也不知道它的全貌,但我們知道大概會(huì)有寶藏。至于寶藏什么樣、在哪里,都需要我們?nèi)ッ鳌T诿鎸?duì)這么多開(kāi)放和復(fù)雜的問(wèn)題時(shí),你們做決策的“第一性原理”是什么?

張家興:我認(rèn)同去年圖靈獎(jiǎng)得主的理念——讓機(jī)器自己去發(fā)現(xiàn),讓機(jī)器自己去探索。

趙行:星海圖創(chuàng)立時(shí)就有一句格言:“In scaling law we trust.” 我們相信,數(shù)據(jù)的規(guī)模化將反向驅(qū)動(dòng)模型的進(jìn)化與智能的實(shí)現(xiàn)。

羅劍嵐:我們堅(jiān)持做正確的事,正所謂“風(fēng)物長(zhǎng)宜放眼量”。很多事情短期看是負(fù)擔(dān),長(zhǎng)期看卻會(huì)產(chǎn)生巨大價(jià)值。

王仲遠(yuǎn):人類如何學(xué)習(xí),機(jī)器人就可以如何學(xué)習(xí)。

王鶴:我們始終致力于讓“數(shù)據(jù)飛輪”轉(zhuǎn)起來(lái)。即便當(dāng)前所做的,未必是外界眼中最炫酷的事情。

程昊:我們決策時(shí)始終關(guān)注一件事:它能否真正落地。只要方向?qū)β涞赜袔椭覀兙蜁?huì)推進(jìn)。

王潛:我們的金標(biāo)準(zhǔn)是:能否長(zhǎng)期為客戶與消費(fèi)者創(chuàng)造真實(shí)價(jià)值。

張一甲:具身智能領(lǐng)域,大家是在“戴著鐐銬起舞”,它很吸睛,但也很花錢(qián)。如果你手里有100億元來(lái)推進(jìn)具身智能發(fā)展,這筆錢(qián)你會(huì)怎么花?

趙冬斌:這是錢(qián)的問(wèn)題,給他們來(lái)回答(笑)。

王潛:我首先把市場(chǎng)上能吸納的好人才都吸納過(guò)來(lái),這是第一位的。那其次肯定是算力和數(shù)據(jù)啊。

王鶴:100億其實(shí)并不重要,重要的是你怎么能夠用你的事業(yè)和你堅(jiān)定的進(jìn)步,吸引到人才加入。我們不希望大家為了錢(qián)每天睜開(kāi)眼睛,而是為了一個(gè)未來(lái)人與機(jī)器人共生的世界。

程昊:首先,100億不夠。如果我只有100億的話,我肯定不會(huì)自己埋頭落地,而是找更多的朋友一起,比如投到智源研究院,吸引全球的研究人才,讓他們可以心無(wú)旁騖地去搞比較長(zhǎng)期的技術(shù)突破。

王仲遠(yuǎn):我特別喜歡程昊總的這個(gè)回答。100個(gè)億其實(shí)也就聽(tīng)起來(lái)很多,實(shí)際上也不多,也就10億多美元。GPT-3真的要開(kāi)始訓(xùn)練的時(shí)候,微軟投資的規(guī)模也就是這個(gè)量級(jí),這正是一個(gè)關(guān)鍵研究周期所需要的。

羅劍嵐:我會(huì)去構(gòu)建世界上最大的能夠自我進(jìn)化、自我閉環(huán)的數(shù)據(jù)系統(tǒng)。100億可以說(shuō)很多,也可以說(shuō)不多,但關(guān)鍵是,第一個(gè)投入百億去做這件事的個(gè)人或機(jī)構(gòu),現(xiàn)在還不存在。

趙行:我也會(huì)去構(gòu)建一個(gè)最大的“data engine(數(shù)據(jù)引擎)”,目標(biāo)是把物理世界的信息全部數(shù)字化下來(lái)。

張家興:我是希望能夠設(shè)計(jì)出屬于我們自己的、具身智能的“黃金式模型”,然后進(jìn)行大規(guī)模預(yù)訓(xùn)練,讓能力真的能夠scale up上去,找到我們最正確的那條路徑。

(封面圖來(lái)源:智源研究院)



  • 104404
  • 10627
  • 1034
  • 0
評(píng)論