清華與星動紀元聯(lián)合發(fā)布首個 AIGC 機器人大模型 VPP

2025-05-08 小七 922 AIbase基地

近日，清華大學叉院的 ISRLab 與北京星動紀元科技有限公司攜手推出了首個 AIGC（人工智能生成內容）機器人大模型 ——VPP(視頻預測策略)。這一創(chuàng)新成果在2025年國際機器學習大會(ICML2025)上榮獲 Spotlight 論文獎，顯示出其在全球 AI 研究領域的前沿地位。

AIGC 技術近年來迅速崛起，從生成式文本模型到視頻生成技術，其應用范圍不斷擴大。而 VPP 的誕生標志著這一技術的應用邁向了具身智能機器人領域。VPP 的獨特之處在于其利用了海量互聯(lián)網視頻數(shù)據(jù)進行訓練，使得機器人能夠在接收到簡單指令后，實時預測未來場景并執(zhí)行相應動作。例如，用戶只需說出 “給我盛一碗熱騰騰的雞湯”，VPP 模型便能讓機器人完成這一任務。

根據(jù) ICML2025的統(tǒng)計，今年的 Spotlight 論文評選競爭激烈，投稿總數(shù)超過12000篇，而獲獎論文僅占2.6%。VPP 通過將視頻擴散模型的泛化能力引入機器人操作策略，創(chuàng)新性地解決了傳統(tǒng)推理速度的瓶頸，實現(xiàn)了機器人實時預測和動作執(zhí)行的能力，顯著提升了策略的泛化性。

VPP 的學習框架分為兩個階段，首先利用視頻擴散模型學習預測性視覺表征，然后通過 Video Former 和 DiT 擴散策略進行動作學習。這種方法使得機器人不僅能快速響應用戶指令，還能在不同的人形機器人平臺之間自如切換，極大降低了對高質量實機數(shù)據(jù)的依賴，推動了機器人技術的商業(yè)化進程。

在基準測試中，VPP 的表現(xiàn)也令人矚目。在 Calvin ABC-D 基準測試中，其任務完成平均長度達到4.33，成功率顯著高于現(xiàn)有技術，展現(xiàn)出其卓越的性能。此外，VPP 的多任務學習能力也在真實環(huán)境中得到了驗證，能夠完成100多種復雜的靈巧操作任務。

標簽：

本文地址： http://m.sdoldhj.cn/ai/20250508/209.html