
小鹏汽车创始人何小鹏在《罗永浩的十字路口》博客节目中,明确地勾勒出其长期AI投资规模:“我们最终要做物理世界,像自动驾驶的VLM就是汽车的大脑,还有机器人、还有芯片。500亿的总投入里,可能300亿在AI上,200亿在硬件和其他软件上。我认为这还是一个保守的数字。”
上周的GTC大会上,谈及物理AI,英伟达创始人黄仁勋分享了如何利用Omniverse数字孪生技术训练、打造机器人。这一想法可以追溯到今年初,当时他在CES 2025主题演讲中提到,世界模型是实现物理人工智能的关键,能够帮助AI理解物理世界的规律,从而实现机器人、自动驾驶汽车等设备的自主操控。
不久前,黄仁勋在与之江实验室主任、阿里云创始人王坚在“炉边谈话”时也表示,推理AI类似人类,可以把问题进行分解,解决我们之前没有遇过的问题。下一波浪潮就是物理AI,即所有的能力都能够融入到我们的物理世界,比如机器人。
基于相似的理念,10月26日,特斯拉发布了自研神经网络世界模型(World Simulator),并附上多个演示视频。其中一条视频以第一人称视角记录了机器人在3D数据合成环境中四处行走的过程。特斯拉表示,Optimus正在神经网络世界模型中进行训练,其能够在100%仿真环境下学习,将模拟训练的策略部署到真实世界。
马斯克则在最近的一次博客中,谈到了关于人工智能如何重塑人类文明的宏大愿景,不仅仅是技术升级。他详细阐述了三个核心基础设施:Grok,作为一个能理解意图并执行任务的行动系统,将取代传统的搜索模式;交互方式的革命,即在未来五年内,手机将取消应用程序和操作系统,只保留屏幕和语音功能,以对话形式驱动一切行动;以及Optimus机器人,作为AI进入物理世界的载体,负责执行体力劳动。马斯克认为,这套系统最终将创造一个物质富足的社会,工作不再是生存手段,而是个人选择,并强调确保AI追求最大限度的真相以保障人类安全的重要性。
什么是物理AI
AI不再只是屏幕后的数字工具,而是逐步成为物理世界中实实在在的参与者,对人们周围的实体系统与运行机制产生深远影响。AI将走出手机应用与电脑程序,走进家庭、工厂与办公场所,成为看得见、感知得到的现实存在。这些“物理AI”形态多样,共同构成智能实体网络,并将重新定义人类与技术之间的互动方式与依存关系。
物理AI是能够理解物理定律并与现实世界交互的智能实体系统,通常封装于机器人、自动驾驶汽车等自主机器中。2020年瑞士联邦材料科学与技术实验室Aslan Miriyev与伦敦帝国理工学院Mirko Kovač在《Nature Machine Intelligence》提出该概念,强调机体、控制、感知等要素的协同演进。
物理 AI 为什么至关重要?
以前,自主机器无法感知和察觉它们周围的世界。但是,借助物理 AI,就可以构建和训练机器人,与现实世界中的周围环境进行无缝交互并适应各种环境。
要构建物理 AI,团队需要基于物理的强大模拟,为训练自主机器提供安全的受控环境。这不仅提高了机器人在执行复杂任务时的效率和准确性,而且有利于人类与机器之间进行更自然的交互,从而提高现实世界应用的可访问性和功能性。
优傲机器人技术副总裁Anders Billesø Beck强调,物理AI最关键的就是可以解决任务的可变性难题。传统工程仅能应对可预测、一致性任务,而 AI 可处理物流托盘识别、小型零件装配等高度可变场景。同时,AI 模型支持软件更新,面对客户定制化需求,无需重构模型,仅需小幅优化,避免传统工程数月的定制开发。
物理 AI 正解锁将颠覆各行各业,例如:
机器人:借助物理 AI,机器人在各种环境下的操作能力显著增强。
利用来自机载传感器的直接反馈,仓库中的自主移动机器人 (AMR) 可以在复杂环境中导航,并避开包括人类在内的障碍物。
机械手可以根据传送带上物体的位姿调整他们的抓力和位置,展示根据物体类型量身定制的精细和粗大运动技能。
通过学习复杂的任务 (如穿针和执行缝合),手术机器人也可从这种技术中受益,凸显了物理 AI 在训练机器人执行专业任务时的精确性和适应能力。
人形机器人 (即通用型机器人) 需要具备粗大和精细动作技能,这些技能要求它们能够感知、理解、导航以及与物理世界进行交互,无论被赋予何种任务。
自动驾驶汽车 (AV):AV 可使用传感器感知并理解周围环境,以便在各种环境 (从开放式高速公路到城市景观) 中做出明智决策。通过基于物理 AI 对 AV 进行训练,AV 能够更准确地检测行人,对交通或天气条件做出响应并自动变换车道,从而有效适应各种意外情况。
智能空间:物理 AI 将增强大型室内空间(如工厂和仓库)的功能性和安全性,这些空间的日常活动涉及稳定的人流、车辆和机器人。使用固定摄像头和先进的计算机视觉模型,团队可以通过跟踪这些空间内的多种实体和活动来加强动态路线规划并优化运营效率。此外,他们还可通过准确感知和理解复杂的大规模环境来优先考虑人身安全。
物理 AI 如何工作?
将基于主要从互联网上收集的大量文本和图像数据来训练生成式 AI 模型,例如 GPT 和 Llama 等大语言模型。这些 AI 模型在生成人类语言和抽象概念方面能力惊人,但它们对物理世界了解有限,并受其规则约束。
由于物理 AI 能够理解我们居住的三维世界的空间关系和物理行为,因而扩展了当前的生成式 AI。它通过在 AI 训练过程中提供其他数据来实现上述理解,这些数据包含与现实世界的空间关系和物理规则有关的信息。
3D 训练数据由高度精确的计算机模拟生成,后者既充当数据源,也作为 AI 训练场。
基于物理的数据生成始于某个空间 (例如工厂) 的数字孪生。然后在这个虚拟空间中添加传感器和自主机器 (如机器人)。接着执行模拟以模仿现实世界场景,传感器会捕捉各种交互,如刚体动力学 (例如运动和碰撞) 或光在环境中的交互作用。
物理AI的关键三要素
物理AI的突破,离不开三个关键技术的协同:世界模型、物理仿真引擎和具身智能控制器。这三者就像AI的“大脑”“虚拟实验室”和“肌肉”,缺一不可。
世界模型是AI的“空间认知中心”。传统AI的图像模型只能识别“这是杯子”,而世界模型要构建完整的三维空间理解:杯子是圆柱形还是方形?陶瓷材质还是塑料?里面有没有水?水的重量会如何影响抓取角度?为了做到这一点,技术上需要用到神经辐射场(NeRF)或3D高斯溅射等黑科技,把二维图像转化为三维立体模型,同时让AI学习隐藏在数据背后的物理规律——比如重力加速度是9.8m/s²,摩擦力与物体材质相关。
区别于宽泛意义上的AI模型,世界模型并非通过可获取的语言、图像及视频来理解现实场景,而是通过大量数据学习现实世界的物理规则,实施因果推理,从而预测、生成合乎现实规律的未来。其终极目的在于,通过训练让人工智能适应现实世界而非理论世界,让AI进化为物理AI。
物理仿真引擎则是AI的“虚拟训练场”。现实中,让机器人反复试错成本太高:撞坏一个零件可能损失上万元,试错1000次就是百万级成本。物理仿真引擎相当于给AI打造了一个“数字孪生世界”,可以模拟各种物理场景:让机械臂在虚拟环境中练习抓取10万次,直到熟练掌握不同材质、形状物体的操作技巧。这个引擎不是简单的“游戏引擎”,而是基于复杂物理方程的计算系统,能实时模拟重力、碰撞、流体等现象——比如计算玻璃珠从斜面上滚落的轨迹,误差要控制在毫米级。
具身智能控制器是AI的“行动执行器”。它接收世界模型的“决策”和仿真引擎的“模拟结果”,最终驱动机械臂、机器人完成动作。这就像人类大脑发出“抬手”指令,肌肉需要精确控制力度和角度。技术上,控制器会用到深度强化学习:通过数百万次虚拟训练,AI会记住“抓塑料杯用2牛顿力,抓玻璃杯用5牛顿力”,并根据实时传感器数据动态调整——比如突然发现杯子里有水,会立即减小抓取力度。
这三大技术的融合,让AI第一次具备了“物理直觉”。就像人类看到杯子倾斜会下意识扶住,物理AI也能通过实时计算预判物体运动轨迹,做出符合物理规律的决策。
Arm 物联网业务高级副总裁兼总经理Paul Williamson另外强调,AI将增加安全复杂性,AI 的不可预测性与安全 “可预测性需求” 相悖,需重新定义机器人行为评估方式,而非依赖传统 “明确行为描述”。
安全措施需分层适配:无需所有机器人都搭载最高级安全系统,可通过“空间分隔”“急停开关” 等低成本方式保障安全,避免过度增加成本。
总 结
“物理AI”一词看似很抽象,实际就是指将人工智能大模型、物理引擎和多学科仿真技术深度融合,构建能够高精度模拟、预测和优化现实世界复杂物理现象的技术体系。通过使用先进的仿真和学习方法,帮助机器人和其他工业自动化设备更有效地感知、推理和探索周围环境。
物理AI突破了传统AI在虚拟数据中的局限,让AI真正理解并作用于物理世界,从而发挥出更大价值。