人形机器人缺什么？,人形机器人不实用

时间： 2026-03-05 05:26作者：禾景

李飞飞的空间智能缺什么，宇树科技的人形机器人缺什么？本质上，二者都需要同一种关键因素。

李飞飞主推的二维照片变三维空间的“空间智能”，本质上是基于视觉图像处理的“大世界模型LWM”。这一研究方向，与李飞飞倡导的“视觉优先”的理念密不可分。李飞飞一个有名的举例是，婴幼儿通过视觉而非语言，率先建立了对世界的认识。三岁的小孩语言能力非常简单，但依然可以对外界的活动保持相当水准的互动。这种反差，意味着语言模型并非是认识世界的唯一窗口。李飞飞曾用图像识别引发了这轮AI浪潮，现在她希望用大世界模型把二维图像转成3D世界。然而尽管这里的空间尺寸、方位逻辑都可以定义清楚，但依然缺少“物体恒常性”。她的数字空间里，地面没有摩擦力，杯子没有重量。这是大世界模型，必须解决的问题。

为这个数字空间引入高价值的数据，是激活这个世界的关键成败点。人形机器人一直无法真正走进日常生活，最大的限制源自真实环境提供的可训练语料实在太少。对话机器人可以通过互联网的文字语料进行能力训练。丰富的互联网网页，让AI的进化日新月异。然而现实环境中，一个洗盘子的动作，很少有人为此保留模型。即使通过多模态VLA（视觉-语言-动作），将视觉和语言结合所形成的动作闭环，依然缺乏真实的物理定律支撑。图像里的视频流的趋势，并不能受到物理定律的约束。人形机器人一天不解决数据训练的问题，就要在实用场景之外多呆一天。前Meta首席技术官杨乐昆认为，人形机器人就是“骗局”，原因就在这里。他没有看到足够数据，能够支持人形机器人的训练。

人形机器人，目前只能通过真机训练，形成如影随形的“影子数据”。这其实借鉴于自动驾驶的办法。特斯拉汽车就是边行驶边采集数据，这种真实环境的影子数据为它的FSD自动驾驶提供了极大的优势。然而自动驾核心目标就是不要碰撞不要接触。驶相对更接近卡片式的二维空间，只有前后左右。然而，人形机器人要干的活可复杂得多。其核心在于“操作”能力。比如抓取、按压、搬运等动作，这要求它必须和物理世界发生真实的接触与交互。在移动方式上，它不仅需要实现前后行进，还要完成上下移动乃至斜向运动。它的运行轨迹相较于汽车而言，变化更加多样。这意味着真机训练，能够提供的样本数据还是一个高度匮乏的局面。没有足够的数据做养分，人形机器人的大脑就会一直处于营养不足的局面。因此，机器人目前的方法只能做些跳舞、迎宾等简单动作，而且关键场合还要采用提前编程。宇树机器人在春节晚会的人造武生“武Bot“在舞台上再能打，依然是提前编排的动作。它离感知现场环境、自行反馈还差的太远。这跟通过编程遥控一辆大号玩具汽车，差不太多。

很显然，约束人形机器人的最大瓶颈，在于源自物理世界的高质量数据的缺乏。

人形机器人可以归到具身智能这一个大类。而它们都要面临一个最大的挑战就是，理解物理世界的智能——物理智能。要理解物理世界运行机制，就来到各式各样的物理定律，从牛顿力学定律，到麦克斯韦电磁方程，再到傅里叶散热方程等。在这些物理定律面前，语言模型实在是苍白无力。基于图片图像的识别，则由于信息稀疏且易受干扰，也无法建立真正有效的物理约束。

李飞飞自己也认识到 “图像中心主义”的认知偏差，明白无法过度依赖视觉输入。因此也在强调引入外部仿真的数据。

实际上，人工智能，无论是大语言模型还是大世界模型，本质上都是“偷师人类”，向人类学习知识。而人类工程学最丰富的知识沉淀，就在工业软件里，尤其是仿真软件CAE。全世界没有任何一种软件或者硬件形态，可表达的知识密度能够超过仿真软件CAE。一台航空发动机的知识密度很高，然而它的知识表达就是肉眼所能看到的全部。而仿真软件则通过几十万甚至上百万行代码，清晰地展示了知识排列的阵容。CAE天生就是融合了结构力学、热、电磁和流体这四大物理场的所有物理定律，它天生就是用来模拟世界运行的规律。每一段代码，背后都站着牛顿、麦克斯韦、特斯拉、胡克，甚至薛定谔、费米、狄拉克等那些伟大的科学家。CAE仿真数据蕴含完整状态空间（位置、速度、力矩、能量等），是更高效的物理知识载体。

于是，新的窗户出现了，CAE软件最有可能为具身智能提供最好的“数据训练营”。CAE软件，天生就是提供数据的。过去，它为工程师提供预测世界的数据，现在它完全可以为数字空间，提供可靠的学习世界的数据。

在物理AI时代，高保真的物理仿真软件，将具有“数据软基础设施”的划时代战略意义。它所产生的高质量数据空间，成为滋养物理智能的最佳育婴室。每一条数据，都是营养充分符合物体恒常性的奶棒。具身智能，从而可以有了足够丰富而稳定供应的“数据训练营”。这正是李飞飞的空间智能，跟国内光轮智能合作的重大关切点。后者提供各种“手搓数据”，也拥有大量仿真数据。

对具身智能来说，在所有物理仿真软件中，最为迫切的软件莫过于多体动力学仿真，也就是“一堆组合的零件在空间里如何运动”。最常见的是模拟一个关节（如门框的铰链、滑块、齿轮）在空间里做各种动作，具身智能从简单如扫地机器人，中等如智能驾驶，复杂到人形机器人，都需要多体动力学的支撑。这方面最好的CAE软件是ADAMS。

ADAMS软件的一生都在忙于嫁娶。它在2002年就被仿真软件第二巨头MSC吞并，15年之后MSC被瑞典测量厂商海克斯康以8亿美元收购。而在2025年9月，全球芯片设计软件第二的CADENCE以约32亿美元从海克斯康手里买走了MSC，自然也获得了ADAMS。CADENCE收购MSC，是全球AI芯片大热所催化的工业软件大碰撞的结果。芯片设计软件公司正在疯狂收购仿真软件公司。芯片设计老大新思收购CAE老大ANSYS，排第三的西门子EDA（原Mentor软件）收购CAE软件第三的Altair。全是门当户对，CADENCE的做法也是顺理成章。这三起并购，让CAE的独立赛道显得空空荡荡。芯片赛道则越发拥挤与炽热。然而，ADAMS软件的特点，则呈现了与这三起并购，不太一致的新方向。

ADAMS作为多体动力学的鼻祖，天生就擅长处理多体运动，因此在机械和汽车制造领域都有着卓越表现。而具身智能，正是多体动力学的应用典范。多体动力学对物理准确性要求极高，数据一旦有一点点失真（如关节脱扣），极易被察觉。它比流体动力学等其他领域，更适合用来提供高质量AI训练数据。ADAMS的仿真数据，正是最好的数据来源。CADENCE在官宣收购半年之后，“终于发现”了这种新的价值。就在前几天（2026年2月），CADENCE正式官宣“物理智能PI”战略，除了用AI驱动设计，还要“用仿真喂养AI”。ADAMS这类软件，将成为催熟人形机器人的最佳帮手。国内CAE软件公司早就开始跟踪这样的趋势。北京云道智能，从2024年底就开始以四大物理场为基础，推动物理智能PI的战略，为具身智能提供高质量的仿真数据。

然而，ADAMS的仿真软件的商业化，已经是在近五十年前的事了。它原生的使命，跟今天具身智能的要求有着巨大鸿沟。具身智能对实时仿真的要求，要高得多。而且它需要高度适应并行计算。这两大新时代的要求，都远非“老古董架构”的ADAMS所能适应。它的数据合成过于缓慢，很难满足低成本、海量数据的需要。在兔子也疯狂的时代，乌龟速度意味着接近出局。当人们讨论“从仿真到现实”（Sim2Real）时，它有两层含义：一是直指高保真，同时还要达到实时的速度。

英伟达一直在强调“物理智能”，实际上黄仁勋在2026年CES演讲中17次提到这个概念。然而英伟达的 PhysX，并没有强大的多物理场能力。类似游戏引擎Unity的动作仿真技术依然过于简单。在游戏中，人的关节经常被简化为普通铰链，精度不够。这种简化的结果就是，游戏里的关节只算一个简单的转动角度。它不计算骨头之间复杂的摩擦力，没有韧带的拉扯力，也没有真实的重量分布。在游戏里，人物只要“看起来”像在跑跳就可以了，就算动作稍微穿模或者受力不符合现实，玩家也感觉不到。但在真实的物理世界里，人的关节（比如膝盖）非常复杂，它弯曲的时候不仅在转动，还在滑动，受力随时在变。如果人形机器人的大脑（AI）用游戏里这种“简单铰链”的粗糙数据来学习走路，到了现实中，面对真实的重力和摩擦力，机器人肯定会站不稳、摔倒，甚至损坏电机。因此，在人形机器人的仿真数据中，关节的运动需要更复杂的物理方程处理。即使人们广泛使用的谷歌开源多体仿真Mujoco引擎，依然是科研级的仿真。它与真正的工业级应用，还有距离。多体动力学，正在呼唤新的王者。

大语言模型，天生具有概率性。人类知识本身具有天然的“模糊性”，因此可用大语言模型进行描述。但在实时控制等关键场合，则必须严格排除模糊性。而物理仿真则是降低这种模糊性的关键手段。由于CAE仿真严格遵循牛顿定律、拉格朗日方程等物理规律，输出的数据几乎不含噪声或歧义。这是“最干净”的数据类型，适合训练需要高可靠性的AI模型。这正是北京云道智能的四大物理场仿真软件，或者南京远思智能的系统级仿真软件所推进的方向。他们正在推动仿真软件，演化出一个全新分支。这是仿真软件进化历史上，最新也可能是最有意义的一次分形。

在物理AI时代，掌控高保真度物理数据生成能力的技术，将成为新一代人工智能的基石。完整拥有四大物理场的仿真技术的CAE公司，将成为具身智能的“真理工厂”。李飞飞和人形机器人，其实都在寻找这样的“数据合成工厂”。这正是王兴兴们跨越“遥控玩具”阶段，踏入生活智能的必经之路。而对软件的物种分类而言，在所有的软件形态中，CAE软件产生了最大的变异。它增加了新的生命意义，让新生的AI符合物理学定律，从而回响牛顿、麦克斯韦那些伟大的物理科学家时代。人形机器人要真正跳起来，需要与牛顿有一次深度而有力的握手。