人形机器人缺什么?,人形机器人不实用
时间: 2026-03-05 05:26作者: 禾景李飞飞的空间智能缺什么,宇树科技的人形机器人缺什么?本质上,二者都需要同一种关键因素。
李飞飞主推的二维照片变三维空间的“空间智能”,本质上是基于视觉图像处理的“大世界模型LWM”。这一研究方向,与李飞飞倡导的“视觉优先”的理念密不可分。李飞飞一个有名的举例是,婴幼儿通过视觉而非语言,率先建立了对世界的认识。三岁的小孩语言能力非常简单,但依然可以对外界的活动保持相当水准的互动。这种反差,意味着语言模型并非是认识世界的唯一窗口。李飞飞曾用图像识别引发了这轮AI浪潮,现在她希望用大世界模型把二维图像转成3D世界。然而尽管这里的空间尺寸、方位逻辑都可以定义清楚,但依然缺少“物体恒常性”。她的数字空间里,地面没有摩擦力,杯子没有重量。这是大世界模型,必须解决的问题。
为这个数字空间引入高价值的数据,是激活这个世界的关键成败点。人形机器人一直无法真正走进日常生活,最大的限制源自真实环境提供的可训练语料实在太少。对话机器人可以通过互联网的文字语料进行能力训练。丰富的互联网网页,让AI的进化日新月异。然而现实环境中,一个洗盘子的动作,很少有人为此保留模型。即使通过多模态VLA(视觉-语言-动作),将视觉和语言结合所形成的动作闭环,依然缺乏真实的物理定律支撑。图像里的视频流的趋势,并不能受到物理定律的约束。人形机器人一天不解决数据训练的问题,就要在实用场景之外多呆一天。前Meta首席技术官杨乐昆认为,人形机器人就是“骗局”,原因就在这里。他没有看到足够数据,能够支持人形机器人的训练。
人形机器人,目前只能通过真机训练,形成如影随形的“影子数据”。这其实借鉴于自动驾驶的办法。特斯拉汽车就是边行驶边采集数据,这种真实环境的影子数据为它的FSD自动驾驶提供了极大的优势。然而自动驾核心目标就是不要碰撞不要接触。驶相对更接近卡片式的二维空间,只有前后左右。然而,人形机器人要干的活可复杂得多。其核心在于“操作”能力。比如抓取、按压、搬运等动作,这要求它必须和物理世界发生真实的接触与交互。在移动方式上,它不仅需要实现前后行进,还要完成上下移动乃至斜向运动。它的运行轨迹相较于汽车而言,变化更加多样。这意味着真机训练,能够提供的样本数据还是一个高度匮乏的局面。没有足够的数据做养分,人形机器人的大脑就会一直处于营养不足的局面。因此,机器人目前的方法只能做些跳舞、迎宾等简单动作,而且关键场合还要采用提前编程。宇树机器人在春节晚会的人造武生“武Bot“在舞台上再能打,依然是提前编排的动作。它离感知现场环境、自行反馈还差的太远。这跟通过编程遥控一辆大号玩具汽车,差不太多。
很显然,约束人形机器人的最大瓶颈,在于源自物理世界的高质量数据的缺乏。
人形机器人可以归到具身智能这一个大类。而它们都要面临一个最大的挑战就是,理解物理世界的智能——物理智能。要理解物理世界运行机制,就来到各式各样的物理定律,从牛顿力学定律,到麦克斯韦电磁方程,再到傅里叶散热方程等。在这些物理定律面前,语言模型实在是苍白无力。基于图片图像的识别,则由于信息稀疏且易受干扰,也无法建立真正有效的物理约束。
李飞飞自己也认识到 “图像中心主义”的认知偏差,明白无法过度依赖视觉输入。因此也在强调引入外部仿真的数据。
实际上,人工智能,无论是大语言模型还是大世界模型,本质上都是“偷师人类”,向人类学习知识。而人类工程学最丰富的知识沉淀,就在工业软件里,尤其是仿真软件CAE。全世界没有任何一种软件或者硬件形态,可表达的知识密度能够超过仿真软件CAE。一台航空发动机的知识密度很高,然而它的知识表达就是肉眼所能看到的全部。而仿真软件则通过几十万甚至上百万行代码,清晰地展示了知识排列的阵容。CAE天生就是融合了结构力学、热、电磁和流体这四大物理场的所有物理定律,它天生就是用来模拟世界运行的规律。每一段代码,背后都站着牛顿、麦克斯韦、特斯拉、胡克,甚至薛定谔、费米、狄拉克等那些伟大的科学家。CAE仿真数据蕴含完整状态空间(位置、速度、力矩、能量等),是更高效的物理知识载体。
于是,新的窗户出现了,CAE软件最有可能为具身智能提供最好的“数据训练营”。CAE软件,天生就是提供数据的。过去,它为工程师提供预测世界的数据,现在它完全可以为数字空间,提供可靠的学习世界的数据。
在物理AI时代,高保真的物理仿真软件,将具有“数据软基础设施”的划时代战略意义。它所产生的高质量数据空间,成为滋养物理智能的最佳育婴室。每一条数据,都是营养充分符合物体恒常性的奶棒。具身智能,从而可以有了足够丰富而稳定供应的“数据训练营”。这正是李飞飞的空间智能,跟国内光轮智能合作的重大关切点。后者提供各种“手搓数据”,也拥有大量仿真数据。
对具身智能来说,在所有物理仿真软件中,最为迫切的软件莫过于多体动力学仿真,也就是“一堆组合的零件在空间里如何运动”。最常见的是模拟一个关节(如门框的铰链、滑块、齿轮)在空间里做各种动作,具身智能从简单如扫地机器人,中等如智能驾驶,复杂到人形机器人,都需要多体动力学的支撑。这方面最好的CAE软件是ADAMS。
ADAMS软件的一生都在忙于嫁娶。它在2002年就被仿真软件第二巨头MSC吞并,15年之后MSC被瑞典测量厂商海克斯康以8亿美元收购。而在2025年9月,全球芯片设计软件第二的CADENCE以约32亿美元从海克斯康手里买走了MSC,自然也获得了ADAMS。CADENCE收购MSC,是全球AI芯片大热所催化的工业软件大碰撞的结果。芯片设计软件公司正在疯狂收购仿真软件公司。芯片设计老大新思收购CAE老大ANSYS,排第三的西门子EDA(原Mentor软件)收购CAE软件第三的Altair。全是门当户对,CADENCE的做法也是顺理成章。这三起并购,让CAE的独立赛道显得空空荡荡。芯片赛道则越发拥挤与炽热。然而,ADAMS软件的特点,则呈现了与这三起并购,不太一致的新方向。
ADAMS作为多体动力学的鼻祖,天生就擅长处理多体运动,因此在机械和汽车制造领域都有着卓越表现。而具身智能,正是多体动力学的应用典范。多体动力学对物理准确性要求极高,数据一旦有一点点失真(如关节脱扣),极易被察觉。它比流体动力学等其他领域,更适合用来提供高质量AI训练数据。ADAMS的仿真数据,正是最好的数据来源。CADENCE在官宣收购半年之后,“终于发现”了这种新的价值。就在前几天(2026年2月),CADENCE正式官宣“物理智能PI”战略,除了用AI驱动设计,还要“用仿真喂养AI”。ADAMS这类软件,将成为催熟人形机器人的最佳帮手。国内CAE软件公司早就开始跟踪这样的趋势。北京云道智能,从2024年底就开始以四大物理场为基础,推动物理智能PI的战略,为具身智能提供高质量的仿真数据。
然而,ADAMS的仿真软件的商业化,已经是在近五十年前的事了。它原生的使命,跟今天具身智能的要求有着巨大鸿沟。具身智能对实时仿真的要求,要高得多。而且它需要高度适应并行计算。这两大新时代的要求,都远非“老古董架构”的ADAMS所能适应。它的数据合成过于缓慢,很难满足低成本、海量数据的需要。在兔子也疯狂的时代,乌龟速度意味着接近出局。当人们讨论“从仿真到现实”(Sim2Real)时,它有两层含义:一是直指高保真,同时还要达到实时的速度。
英伟达一直在强调“物理智能”,实际上黄仁勋在2026年CES演讲中17次提到这个概念。然而英伟达的 PhysX,并没有强大的多物理场能力。类似游戏引擎Unity的动作仿真技术依然过于简单。在游戏中,人的关节经常被简化为普通铰链,精度不够。这种简化的结果就是,游戏里的关节只算一个简单的转动角度。它不计算骨头之间复杂的摩擦力,没有韧带的拉扯力,也没有真实的重量分布。在游戏里,人物只要“看起来”像在跑跳就可以了,就算动作稍微穿模或者受力不符合现实,玩家也感觉不到。但在真实的物理世界里,人的关节(比如膝盖)非常复杂,它弯曲的时候不仅在转动,还在滑动,受力随时在变。如果人形机器人的大脑(AI)用游戏里这种“简单铰链”的粗糙数据来学习走路,到了现实中,面对真实的重力和摩擦力,机器人肯定会站不稳、摔倒,甚至损坏电机。因此,在人形机器人的仿真数据中,关节的运动需要更复杂的物理方程处理。即使人们广泛使用的谷歌开源多体仿真Mujoco引擎,依然是科研级的仿真。它与真正的工业级应用,还有距离。多体动力学,正在呼唤新的王者。
大语言模型,天生具有概率性。人类知识本身具有天然的“模糊性”,因此可用大语言模型进行描述。但在实时控制等关键场合,则必须严格排除模糊性。而物理仿真则是降低这种模糊性的关键手段。由于CAE仿真严格遵循牛顿定律、拉格朗日方程等物理规律,输出的数据几乎不含噪声或歧义。这是“最干净”的数据类型,适合训练需要高可靠性的AI模型。这正是北京云道智能的四大物理场仿真软件,或者南京远思智能的系统级仿真软件所推进的方向。他们正在推动仿真软件,演化出一个全新分支。这是仿真软件进化历史上,最新也可能是最有意义的一次分形。
在物理AI时代,掌控高保真度物理数据生成能力的技术,将成为新一代人工智能的基石。完整拥有四大物理场的仿真技术的CAE公司,将成为具身智能的“真理工厂”。李飞飞和人形机器人,其实都在寻找这样的“数据合成工厂”。这正是王兴兴们跨越“遥控玩具”阶段,踏入生活智能的必经之路。而对软件的物种分类而言,在所有的软件形态中,CAE软件产生了最大的变异。它增加了新的生命意义,让新生的AI符合物理学定律,从而回响牛顿、麦克斯韦那些伟大的物理科学家时代。人形机器人要真正跳起来,需要与牛顿有一次深度而有力的握手。