• 全新推出的先进模型、视频 tokenizer 和加速数据处理流水线针对 NVIDIA 数据中心 GPU 进行了优化,专门用于开发机器人和自动驾驶汽车
• 第一批开放模型现已提供给开发者社区
• 首批用户包括 1X、Agile Robots、Agility、Figure AI、Foretellix、Uber、Waabi 和小鹏汽车等全球物理 AI 领先企业
NVIDIA 今日宣布推出 NVIDIA Cosmos™,该平台由先进的生成式世界基础模型、高级 tokenizer、护栏和加速视频处理管线组成,将推动自动驾驶汽车(AV)和机器人等物理 AI系统的发展。
物理 AI 模型的开发成本很高并且需要大量真实数据和测试。Cosmos 世界基础模型(WFM)使开发者能够轻松生成大量基于物理学的逼真合成数据,以用于训练和评估其现有的模型。他们还可以通过微调 Cosmos WFM 构建自定义模型。
为了加速机器人和自动驾驶汽车行业的工作,Cosmos 模型将以开放模型许可证的方式提供。开发者可以在 NVIDIA API 目录中预览首批模型,也可以从 NVIDIA NGC™ 目录或 Hugging Face下载整个系列的模型和微调框架。
Cosmos 的首批用户包括 1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot,、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi 和小鹏汽车等领先机器人和汽车公司以及共享出行巨头 Uber。
NVIDIA 创始人兼首席执行官黄仁勋表示:“机器人技术的 ChatGPT 时刻即将到来。与大语言模型一样,世界基础模型是推动机器人和自动驾驶汽车开发的基础,但并非所有开发者都拥有自主训练模型所需的专业知识和资源。我们创建 Cosmos 是为了普及物理 AI,让每一位开发者都能接触到通用机器人技术。”
开放世界基础模型将加速下一轮 AI 热潮
借助 NVIDIA Cosmos 的开放模型套件,开发者可以根据目标应用的需要,使用数据集定制自动驾驶汽车旅行视频、机器人在仓库中的移动轨迹等 WFM。
Cosmos WFM 专为物理 AI 的研发而构建,可以根据文本、图像和视频等输入组合以及机器人传感器或运动数据生成基于物理学的视频。这些模型为实现基于物理学的交互、物体恒存性以及生成高质量的仿真工业环境(例如仓库或工厂)和驾驶环境(包括各种路况)而构建。
在 CES 主题演讲中,NVIDIA 创始人兼首席执行官黄仁勋展示了物理AI开发者如何使用 Cosmos模型,包括用于:
视频搜索和理解:使开发者能够从视频数据中轻松找到特定的训练场景,例如雪天路况或仓库拥堵等。
基于物理学的逼真合成数据生成:使用 Cosmos 模型从NVIDIA Omniverse™ 平台上开发的可控 3D 场景中生成逼真视频。
物理 AI 模型开发和评估:在基础模型上构建自定义模型,使用 Cosmos 进行强化学习以改进模型,或者测试模型在特定仿真场景中的表现。
预测与“多元宇宙”模拟:使用 Cosmos 和 Omniverse 生成 AI 模型所有未来可能实现的结果,以便帮助其选择最佳和最准确的路径。
先进的世界模型开发工具
构建物理 AI 模型需要数 PB(petabytes)的视频数据以及数万小时的计算来处理、整理和标记这些数据。为了帮助节省在数据整理、训练和模型定制方面的巨大成本,Cosmos 提供了以下功能:
NVIDIA NeMo™ Curator驱动的 NVIDIA AI 和 CUDA® 加速数据处理管线,使开发者能够使用 NVIDIA Blackwell 平台在 14 天内处理、整理和标记 2000 万小时的视频,而如果单纯使用 CPU 则需要 3 年以上。
NVIDIA Cosmos Tokenizer 是先进的可视化 tokenizer,可将图像和视频转换成 token。与当前领先的 tokenizer 相比,其总压缩率提高了 8 倍,处理速度提高了 12 倍。
NVIDIA NeMo框架可用于高效的模型训练、定制和优化。
全球各大物理 AI 行业纷纷采用 Cosmos
物理 AI 行业的领先者已开始使用 Cosmos 技术。
AI 和人形机器人公司 1X 使用 Cosmos Tokenizer 推出了 1X World Model Challenge 数据集。小鹏汽车将使用 Cosmos 加快其人形机器人的开发。Hillbot 和 Skild AI 正在使用 Cosmos 加速其通用机器人的开发。
Agility 首席技术官 Pras Velagapudi 表示:“数据的稀缺性和可变性是在机器人环境中成功学习的主要挑战。借助 Cosmos 的文本、图像和视频到世界的能力,我们能够在各种任务中生成和增强逼真的场景并利用这些场景训练模型,而不需要采集那么多昂贵的真实数据。”
交通运输领域的领先企业也在使用 Cosmos 构建适用于自动驾驶汽车的物理AI:
Waabi 是一家从自动驾驶汽车开始致力于开发物理世界生成式 AI 的先驱。该公司正在评估 Cosmos 在自动驾驶汽车软件开发和仿真中数据整理的应用。
Wayve 是一家致力于开发自动驾驶 AI 基础模型的公司。该公司正在评估使用 Cosmos 搜索用于提高安全性和验证的极端驾驶场景。
自动驾驶汽车工具链提供商 Foretellix 将使用 Cosmos 与 NVIDIA Omniverse Sensor RTX API 大规模评估和生成高保真测试场景与训练数据。
全球共享出行巨头 Uber 正在与 NVIDIA 合作,共同加速自动驾驶汽车的发展。Uber 丰富的驾驶数据集在与 Cosmos 平台和 NVIDIA DGX Cloud™ 的功能结合后,能够帮助自动驾驶汽车合作伙伴更加高效地构建更强大的 AI 模型。
Uber 首席执行官 Dara Khosrowshahi 表示:“生成式 AI 将驱动未来的移动出行,而这需要丰富的数据和非常强大的算力。相信在 NVIDIA 的助力下,我们能够帮助行业更快开发出安全、可扩展的自动驾驶解决方案。”
开发开放、安全和负责任的 AI
NVIDIA Cosmos 根据 NVIDIA 的可信 AI 原则开发而成,该原则将优先考虑隐私、安全、保障、透明和减少不必要的偏见。
可信 AI 对于促进开发者社区创新和维护用户信任至关重要。NVIDIA 致力于实现安全、可信的 AI,这与全球的各个 AI 安全倡议相吻合。
Cosmos 开放平台加入了专为减少有害文字和图像而设计的护栏,并提供了一个增强文字提示准确性的工具。使用 NVIDIA API 目录上的 Cosmos 自回归模型和扩散模型生成的视频会带有隐形水印,可识别 AI 生成的内容,这有助于减少错误信息和错误归属的可能性。
NVIDIA 鼓励开发者采用可信 AI 实践,并进一步改进其应用的护栏和水印解决方案。
供货情况
Cosmos WFM 现在可以通过 NVIDIA在 Hugging Face 和 NVIDIA NGC 目录上的开放模型许可证获得,并且很快将以经过全面优化的 NVIDIA NIM 微服务形式提供。
开发者可以使用 NVIDIA NeMo Curator 加速视频处理,并使用 NVIDIA NeMo 定制自己的世界模型。然后,他们可以通过 NVIDIA DGX Cloud 快速、简单地部署这些模型,并获得 NVIDIA AI Enterprise 软件平台提供的企业支持。
NVIDIA 还宣布推出全新 NVIDIA Llama Nemotron 大语言模型和 NVIDIA Cosmos Nemotron 视觉语言模型。开发者可将这些模型用于医疗、金融服务、制造等领域的企业 AI 用例。
关于NVIDIA
NVIDIA (NASDAQ: NVDA) 是加速计算领域的全球领导者。