RoboPulse 机器人学学术脉动

📅 2026-02-17 Tuesday

👋 早上好！今日 arXiv 涌现了 115 篇机器人学新论文。对于 VLA (Vision-Language-Action) 和 World Model 的关注持续升温，特别是Sergey Levine、Chelsea Finn 等顶级学者团队带来的关于 VLA 推理延迟优化及世界模型迭代增强的研究，直击当前具身智能落地的痛点。Sim2Real 方面，接触丰富任务（Contact-Rich Manipulation）的力控与触觉感知也迎来了新的突破。

🌟 重点关注：名校/名家实验室新作

[1]. ★ [VIP AUTHOR] AsyncVLA: An Asynchronous VLA for Fast and Robust Navigation on the Edge

Title: AsyncVLA: An Asynchronous VLA for Fast and Robust Navigation on the Edge
摘要介绍: Sergey Levine 团队针对 VLA 模型在边缘设备上推理延迟过高、导致控制回路断裂的问题，提出了一种异步 VLA 架构。该方法将视觉语言模型的慢速推理与快速的低层控制器解耦，在保证语义理解能力的同时，实现了动态环境下的实时鲁棒导航，有效解决了大模型落地机器人的“延迟瓶颈”。
关键词: Asynchronous Control, VLA, Edge Computing, Navigation

[2]. ★ [VIP AUTHOR] VLAW: Iterative Co-Improvement of Vision-Language-Action Policy and World Model

Title: VLAW: Iterative Co-Improvement of Vision-Language-Action Policy and World Model
摘要介绍: Chelsea Finn 与 Percy Liang 团队探讨了 VLA 与世界模型的协同进化。针对真实世界数据收集昂贵的问题，VLAW 提出利用动作条件视频生成模型作为模拟器来训练策略，并通过真实世界的反馈不断迭代优化模拟器（世界模型）和策略本身，形成闭环增强，大幅提升了 VLA 的可靠性。
关键词: VLA, World Model, Sim-to-Real, Iterative Learning

[3]. ★ [VIP AUTHOR] InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation

Title: InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation
摘要介绍: Jiangmiao Pang (上海 AI Lab) 等人推出的 InternVLA-A1 旨在弥补传统 VLA 缺乏物理动力学推理能力的短板。该模型统一了语义理解、生成和动作执行，不仅仅是适应物理任务，更是将物理世界动态融入了多模态大模型的原生能力中，为通用机器人操作提供了更强的基座。
关键词: VLA, MLLM, Physical Dynamics, Unified Architecture

[4]. ★ [VIP AUTHOR] Seeing the Bigger Picture: 3D Latent Mapping for Mobile Manipulation Policy Learning

Title: Seeing the Bigger Picture: 3D Latent Mapping for Mobile Manipulation Policy Learning
摘要介绍: Hao Su 团队提出了一种基于 3D 隐式地图 (3D Latent Map) 的端到端策略学习方法 SBP。相比于仅依赖 2D 图像的策略，利用 3D 地图能实现更强的时空推理能力，显著提升了移动操作（Mobile Manipulation）任务中的长程规划和泛化表现。
关键词: 3D Representation, Latent Map, Mobile Manipulation, Policy Learning

[5]. ★ [VIP AUTHOR] Direction Matters: Learning Force Direction Enables Sim-to-Real Contact-Rich Manipulation

Title: Direction Matters: Learning Force Direction Enables Sim-to-Real Contact-Rich Manipulation
摘要介绍: Yue Wang 团队针对 Sim-to-Real 中最难的接触丰富型操作（如插拔），指出单纯的视觉或盲从柔顺控制的不足。该研究强调了力方向 (Force Direction) 学习的重要性，通过在仿真中学习专家设计的力控策略并迁移到真机，有效克服了接触动力学的建模差异。
关键词: Sim-to-Real, Contact-Rich Manipulation, Force Control, Imitation Learning

🚀 具身智能与世界模型高价值论文

[6]. WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL

Title: WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL
摘要介绍: 针对 VLA 模型微调依赖海量真实数据的痛点，本文提出利用世界模型作为强化学习（RL）的模拟器。WoVR 通过学习环境动态，使得 VLA 策略可以在这一“神经模拟器”中进行低成本的 Trial-and-Error 训练，实现了 RL+VLA 的有效结合，突破了物理交互的限制。
关键词: Reinforcement Learning, World Model, VLA, Post-Training

[7]. VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model

Title: VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model
摘要介绍: 借鉴 JEPA 架构，本文为 VLA 引入了潜在世界模型 (Latent World Model)。不同于像素级预测，VLA-JEPA 专注于预测动作相关的状态转换，从而避免了对无关背景干扰的过拟合，提升了策略在复杂视觉场景下的鲁棒性和泛化能力。
关键词: JEPA, Latent World Model, VLA, Representation Learning

[8]. Beyond Imitation: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models

Title: Beyond Imitation: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models
摘要介绍: 传统的 Sim-Real 协同训练多基于监督微调（SFT），忽视了仿真的交互特性。本文提出基于 RL 的 Sim-Real 协同训练框架，不仅利用仿真数据做演示，更在仿真中进行强化学习探索，并将能力迁移至真机，大幅提升了 VLA 解决长程任务的能力。
关键词: Sim-Real Co-Training, Reinforcement Learning, VLA, Generalization

[9]. DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI

Title: DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI
摘要介绍: 这是一个具身原生 (Embodied-Native) 的 VLA 框架。作者认为物理 grounding 不应是后期微调的“补丁”，而应是预训练的核心。DM0 统一了具身操作与多模态理解，试图构建真正的“物理 AI”基座模型，而非仅仅是适配了动作输出的互联网 VLM。
关键词: Embodied AI, VLA, Physical Grounding, Foundation Model

📝 总结

今日 VLA 领域呈现出明显的“去像素化”和“模型化”趋势： 1. 世界模型 (World Model) 正成为连接 VLA 与 RL 的关键桥梁，无论是 VLAW、WoVR 还是 VLA-JEPA，都在尝试用生成或预测模型替代昂贵的真实物理交互。 2. 名家云集：Levine 解决延迟，Finn 解决数据闭环，Pang 和 Su 分别从多模态统一和 3D 空间推理角度推进，方向非常集中且互补。

建议重点阅读 AsyncVLA (工程落地参考) 和 VLAW (算法研究参考)。

📚 Selected Papers Deep Dive (深度拆解)

💡 VLAW: Iterative Co-Improvement of Vision-Language-Action Policy and World Model (Deep Dive)

一句话总结: 通过在真实世界数据与合成数据间建立迭代优化闭环，同步提升世界模型的物理保真度与 VLA 策略的操作成功率。

📖 背景与动机 (Background & Motivation)

在机器人学习中，收集真实世界的策略执行数据（Rollouts）成本极高。尽管动作条件视频生成模型（Action-Conditioned Video Generation Models）作为一种“学习型模拟器”具有潜力，但现有的世界模型往往缺乏策略改进所需的物理保真度（Physical Fidelity）。它们主要在有限的演示数据集上训练，缺乏对多样化物理交互（特别是失败案例）的覆盖，且难以精准建模接触密集型操作中的细微物理细节。

⚙️ 核心方法 (Core Methodology)

本文提出了一种简单的迭代式协同改进算法（Iterative Co-Improvement Algorithm），旨在解决上述问题： 1. 真实数据回流（Real-world Data Feedback）：利用策略在真实世界中产生的执行数据（Rollout Data），特别是包含失败和边界情况的数据，来微调和提升世界模型的物理保真度。 2. 合成数据增强（Synthetic Data Generation）：使用改进后的高保真世界模型生成大量补充性的合成数据（Synthetic Rollouts）。 3. 策略迭代优化（Policy Improvement）：将生成的合成数据用于 VLA 模型的训练，从而提升策略的性能和鲁棒性。 4. 闭环迭代：上述过程循环进行，世界模型和 VLA 策略在相互促进中共同进化。

📊 实验与结果 (Experiments & Results)

实验设置：在真实机器人（Real Robot）上进行了多项下游任务的评估。
关键指标：
- 相比基础策略（Base Policy），实现了 39.2% 的绝对成功率提升。
- 仅通过引入生成的合成数据进行训练，就带来了 11.6% 的性能提升。
主要发现：证明了通过真实交互数据修正后的世界模型，能够生成足以用于策略提升的高质量合成数据。

💭 结论与影响 (Conclusion & Impact)

该工作的核心价值在于验证了“学习型模拟器”（Learned Simulator）在解决数据匮乏问题上的有效性。它打破了静态数据集的限制，展示了如何通过迭代式的“Sim-to-Real”和“Real-to-Sim”循环，利用合成数据有效弥补真实世界数据昂贵且难以覆盖所有长尾情况（如失败场景）的短板，为具身智能的数据高效学习提供了新思路。

🏷️ 核心标签

Vision-Language-Action World Model Synthetic Data Sim-to-Real Robot Manipulation---

💡 InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation (Deep Dive)

一句话总结: 提出了一种基于 Mixture-of-Transformers 的统一架构，通过协同场景理解、视觉预测和动作执行三个专家模块，显著解决了传统 VLA 模型缺乏物理动态推理能力的问题，尤其在动态操作任务上取得了大幅提升。

📖 背景与动机 (Background & Motivation)

现有的视觉-语言-动作 (VLA) 模型大多建立在多模态大语言模型 (MLLM) 之上，虽然具备卓越的语义理解能力，但缺乏推断物理世界动态变化的能力。另一方面，基于视频预测的世界模型虽然能模拟动态，但往往缺乏语义落地 (Semantic Grounding) 且对预测误差非常敏感。该工作旨在打破这两者的界限，实现语义理解与动态预测能力的有机融合。

⚙️ 核心方法 (Core Methodology)

InternVLA-A1 采用了一种统一的 Mixture-of-Transformers 架构，其核心创新点如下： - 三位一体专家系统：协调三个专家模块分别负责 场景理解 (Scene Understanding)、视觉预见生成 (Visual Foresight Generation) 和 动作执行 (Action Execution)。 - 统一交互机制：各组件通过统一的 掩码自注意力机制 (Masked Self-Attention) 进行无缝交互，实现了理解、生成与行动的端到端协同。 - 基座与规模：基于 InternVL3 和 Qwen3-VL 构建，实例化了 2B 和 3B 两种参数规模的模型。 - 混合数据预训练：采用了包含 6.92 亿帧 的异构数据源（真实机器人数据、合成仿真数据、人类视频）进行预训练。这种混合策略有效利用了仿真数据的多样性，同时最小化了 Sim-to-Real 的差距。

📊 实验与结果 (Experiments & Results)

实验设置：在 12 个真实世界机器人任务 (Real-world robotic tasks) 和 RoboTwin 2.0 仿真基准上进行了评估。
关键指标：
- 相比领先模型 pi0.5，InternVLA-A1 表现出色。
- 静态操作任务：成功率提升 +4.4%。
- 仿真基准 (RoboTwin 2.0)：提升 +2.6%。
- 动态操作任务：提升最为显著，达到了 +26.7%，证明了其在处理动态物理交互方面的强大能力。

💭 结论与影响 (Conclusion & Impact)

InternVLA-A1 成功验证了将语义理解、视频生成和动作控制统一在同一架构下的可行性和优越性。其在动态任务上的巨大提升表明，引入生成式的“视觉预见”能力对于解决复杂的物理世界操作至关重要，为未来构建具备物理常识的通用机器人大模型提供了重要参考。

🏷️ 核心标签

VLA Model World Model Mixture-of-Transformers---

💡 Seeing the Bigger Picture: 3D Latent Mapping for Mobile Manipulation Policy Learning (Deep Dive)

一句话总结: 通过构建和利用 3D 隐式特征地图（Latent Map），赋予移动操作策略超越当前视场的全局空间推理能力与长时序记忆能力，显著提升了复杂任务的成功率。

📖 背景与动机 (Background & Motivation)

移动操作（Mobile Manipulation）任务通常需要在广阔的空间和较长的时间跨度内进行决策。传统的仅依赖图像（Image-based）的策略受限于机器人的当前视场（Field of View），难以捕捉全局上下文信息，且缺乏对历史观测的有效聚合机制，导致在处理长视序（Long-horizon）和需要全局空间推理的任务时表现不佳。该工作旨在解决这一“管中窥豹”的局限性。

⚙️ 核心方法 (Core Methodology)

本文提出了 Seeing the Bigger Picture (SBP)，这是一个端到端的策略学习框架，核心在于直接在 3D 隐式特征地图上进行操作：

3D 隐式地图构建 (3D Latent Mapping)：
- 采用增量式融合方法，将多视角的观测数据聚合到一个场景特定的 3D 隐式特征网格（Grid of Latent Features）中。
- 这种映射不仅扩展了机器人的感知范围（超越当前视野），还作为一种显式的记忆模块聚合了历史观测。
在线特征优化 (Online Optimization)：
- 引入一个预训练的、场景无关的解码器 (Scene-agnostic Decoder)。
- 该解码器用于从特征网格中重构目标嵌入（Target Embeddings），并允许在任务执行过程中对地图特征进行在线优化，确特征的鲁棒性和时效性。
基于地图的策略学习 (Map-based Policy Learning)：
- 策略网络（可通过行为克隆 BC 或强化学习 RL 训练）直接将 3D 隐式地图视为状态变量 (State Variable)。
- 使用 3D 特征聚合器 (3D Feature Aggregator) 从地图中提取全局上下文信息，使决策过程具备全局视野。

📊 实验与结果 (Experiments & Results)

实验设置：在场景级移动操作 (Scene-level Mobile Manipulation) 和 序列化桌面操作 (Sequential Tabletop Manipulation) 任务中进行了评估。
关键指标：
- 在序列化操作任务中，SBP 相比基线方法成功率提升了 15%。
- 在分布内（In-distribution）和新颖场景（Novel Scenes）中，均优于仅基于图像的策略。
核心发现：
- (i) Global Reasoning：SBP 能够基于全场景信息进行决策，而非局限于当前像素输入。
- (ii) Long-horizon Memory：证明了 3D 地图作为长时序记忆的有效性，解决了遗忘问题。

💭 结论与影响 (Conclusion & Impact)

该工作有力地证明了结构化的 3D 表征（Structured 3D Representations）在复杂机器人策略学习中的价值。它不仅突破了 2D 图像输入的局限，还为端到端系统引入了更强的物理和空间先验。这为未来将显式 3D 记忆与大模型或强化学习结合提供了重要的参考方向。

🏷️ 核心标签

3D Representation Learning Mobile Manipulation End-to-End Policy Spatial Reasoning---

💡 Direction Matters: Learning Force Direction Enables Sim-to-Real Contact-Rich Manipulation (Deep Dive)

一句话总结: 提出了一种通过学习鲁棒的“力方向”而非敏感的“力大小”来实现 Sim-to-Real 接触丰富操作的框架，仅需极少量的实机微调即可实现自适应柔顺控制。

📖 背景与动机 (Background & Motivation)

接触丰富（Contact-rich）的操作任务因仿真与现实之间接触动力学的固有差异（Sim-to-Real Gap），一直是机器人领域的难题。现有方法要么依赖昂贵的现实世界数据采集，要么使用固定控制器的“盲目”柔顺策略，缺乏对任务几何特性的利用。该工作旨在解决如何从不完美的仿真中提取鲁棒的接触策略，避免因仿真误差导致的实机部署失败。

⚙️ 核心方法 (Core Methodology)

该论文提出利用专家设计的控制器逻辑作为特权监督（Privileged Supervision），核心创新在于将力的“方向”与“大小”解耦：

基于专家的特权引导 (Expert Guidance)：在仿真环境中，使用基于人类设计的有限状态机（FSM）的位置/力控制器作为专家，生成用于训练的数据。
学习力的方向 (Learning Force Direction)：训练策略（Policy）去预测末端执行器的位姿、接触状态，以及至关重要的期望接触力方向。
- Insight：力的大小（Magnitude）对仿真参数极度敏感且难以迁移，而力的方向（Direction）编码了任务的高层几何约束，在 Sim-to-Real 转换中保持鲁棒。
力感知导纳控制器 (Force-Aware Admittance Controller)：在部署时，将策略预测的“方向意图”与一个手动调整的恒定低成本“力大小”相结合。
- 这种组合实现了任务对齐的自适应柔顺性。
轻量级微调 (Lightweight Tuning)：由于方向是学习得到的，实机上通常只需为每个接触状态微调一个标量（即力的大小），大大降低了部署难度。

📊 实验与结果 (Experiments & Results)

实验设置：在四个现实世界的接触丰富任务中进行了验证：微波炉开启、插孔（Peg-in-hole）、白板擦拭和开门。
关键指标：在成功率和对干扰的鲁棒性方面均显著优于强基线方法。
理论分析：通过理论分析证明了该方法的稳定性和对扰动的鲁棒性。

💭 结论与影响 (Conclusion & Impact)

该工作揭示了在 Sim-to-Real 迁移中，几何信息（力方向）比动力学参数（力大小）更具迁移价值。通过解耦这两者，不仅规避了接触动力学建模的难题，还提供了一种高效、低成本的从仿真到现实的部署范式，为解决复杂的接触操作任务提供了新的思路。

🏷️ 核心标签

Sim-to-Real Contact-Rich Manipulation Force Control---

💡 WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL (Deep Dive)

一句话总结: WoVR 通过显式调控强化学习与不完美世界模型的交互，利用关键帧初始化和协同进化机制有效抑制幻觉与长程误差，将世界模型转化为可靠的 VLA 策略训练模拟器。

📖 背景与动机 (Background & Motivation)

强化学习 (RL) 有望解锁视觉-语言-动作 (VLA) 模型超越模仿学习的能力，但其对海量真实世界交互的需求阻碍了在物理机器人上的直接部署。现有的学习型世界模型虽尝试作为模拟器用于策略优化，但闭环想象推演 (closed-loop imagined rollouts) 不可避免地遭遇幻觉 (hallucination) 和长程误差累积。这些误差不仅降低了视觉保真度，更破坏了优化信号，导致策略倾向于利用模型的不准确性（exploiting inaccuracies）而非真正推进任务。

⚙️ 核心方法 (Core Methodology)

WoVR 提出了一种可靠的基于世界模型的强化学习框架，专门用于 VLA 策略的后训练 (post-training)。其核心思想是不假设世界模型是完美的，而是显式规范 RL 如何与不完美的想象动力学进行交互： 1. 可控动作条件视频世界模型 (Controllable Action-Conditioned Video World Model): 通过改进模型结构，提高了推演 (rollout) 的稳定性，确保生成的视频动态受动作精准控制。 2. 关键帧初始化推演 (Keyframe-Initialized Rollouts): 通过使用关键帧初始化来重塑想象交互过程，有效减少了推演的“有效误差深度”，防止误差在长序列中无限放大。 3. 世界模型-策略协同进化 (World Model-Policy Co-evolution): 维护策略与模拟器之间的一致性，确保世界模型随着策略的更新而适应，保持对齐。

📊 实验与结果 (Experiments & Results)

实验设置：在 LIBERO 基准测试 和 真实世界机器人操作 (Real-world robotic manipulation) 任务中进行了广泛验证。
关键指标：
- LIBERO 基准：平均成功率从 39.95% 提升至 69.2% (+29.3%)。
- 真机实验：成功率从 61.7% 提升至 91.7% (+30.0%)。
核心发现：证明了当幻觉被显式控制时，学习型世界模型完全可以作为强化学习的实用模拟器。

💭 结论与影响 (Conclusion & Impact)

WoVR 的核心价值在于攻克了“世界模型幻觉阻碍 RL 优化”这一难题。它证明了不需要完美的世界模型，通过合理的交互机制设计（如关键帧重置和协同进化），就能利用有缺陷的模型实现高效的策略提升。这为未来在无需大量真实交互的情况下，利用生成式视频模型进行机器人策略的大规模缩放和优化指明了方向。

🏷️ 核心标签

World Models Reinforcement Learning VLA Policies Robotics---

💡 VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model (Deep Dive)

一句话总结: 提出了一种基于 JEPA 的 VLA 预训练框架，通过在潜在空间进行无泄漏的状态预测，使模型能够学习到对相机运动和背景变化鲁棒的动力学抽象，从而显著提升泛化能力。

📖 背景与动机 (Background & Motivation)

当前的 Vision-Language-Action (VLA) 策略在互联网规模视频上预训练时，往往学习到的是像素级的变化而非与动作相关的状态转移。这使得模型容易受到外观偏差、干扰运动（nuisance motion）和信息泄漏的影响。此外，现有的潜动作（latent-action）流水线通常具有多阶段的复杂性。

⚙️ 核心方法 (Core Methodology)

VLA-JEPA 引入了一种 JEPA 风格的预训练框架，旨在通过设计规避上述缺陷： - 无泄漏状态预测 (Leakage-free State Prediction)： - 目标编码器 (Target Encoder)：从未来帧生成潜在表示作为监督目标。 - 学生通路 (Student Pathway)：仅接收当前观测作为输入，未来信息仅用作目标，绝不作为输入，从而避免信息泄漏。 - 潜在空间预测 (Latent Space Prediction)：模型在潜在空间而非像素空间进行预测，这迫使模型学习动力学抽象，从而对相机运动和无关背景变化具有鲁棒性。 - 简化的两阶段配方 (Two-stage Recipe)：相比于之前复杂的多阶段流程，VLA-JEPA 仅需两步：1. JEPA 预训练；2. 动作头微调 (Action-head fine-tuning)。

📊 实验与结果 (Experiments & Results)

实验设置：在仿真环境 LIBERO, LIBERO-Plus, SimplerEnv 以及 真实世界机械臂操纵任务 (Real-world manipulation) 中进行了测试。
关键指标：在泛化能力和鲁棒性方面，VLA-JEPA 相比现有方法取得了一致的增益 (Consistent gains)。
核心优势：通过摆脱像素级重建的束缚，模型能够更好地处理视觉干扰和视角变化。

💭 结论与影响 (Conclusion & Impact)

VLA-JEPA 证明了在 VLA 模型中引入潜在世界模型（Latent World Model）的有效性。它通过简单的架构改进解决了信息泄漏和像素依赖问题，为利用大规模视频数据预训练更鲁棒的机器人策略提供了一个高效、可扩展的新范式。

🏷️ 核心标签

VLA JEPA World Model Representation Learning Robotics---

💡 Beyond Imitation: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models (Deep Dive)

一句话总结: 提出 RL-Co 框架，通过在仿真中引入强化学习并在微调阶段融合真实数据监督损失，解决了传统 SFT 共训练无法利用仿真闭环交互且易遗忘真实能力的痛点，显著提升了 VLA 模型的泛化性和数据效率。

📖 背景与动机 (Background & Motivation)

仿真虽然提供了低成本、可扩展的数据源，但目前的 Sim-Real 共训练（Co-training）方法大多局限于监督微调（SFT）。这种方式仅将仿真数据视为静态演示，无法利用仿真环境的大规模闭环交互能力，导致模型在真机上的性能增益和泛化能力往往受限。

⚙️ 核心方法 (Core Methodology)

本文提出了 RL-Co (Reinforcement Learning-based Sim-Real Co-training) 框架，旨在利用交互式仿真的同时保留真机能力。其核心包含一个通用的两阶段设计： 1. 混合数据热启动 (Warm-start with Mixed SFT): - 首先在真实世界演示和仿真演示的混合数据集上对策略进行 SFT 预训练，为模型提供基础的操作先验。 2. 带锚定的 RL 微调 (RL Fine-tuning with Real Anchor): - 仿真 RL 微调: 在仿真环境中使用强化学习（RL）进一步微调策略，以利用闭环交互反馈优化长视界任务性能。 - 真实数据辅助损失: 在 RL 更新的同时，增加一个基于真实世界数据的辅助监督损失（Auxiliary Supervised Loss）。这一机制起到“锚点”作用，防止策略在过拟合仿真环境时发生灾难性遗忘（Catastrophic Forgetting），确保真机能力的稳定性。

📊 实验与结果 (Experiments & Results)

实验设置：在 4 个真实世界的桌面操作任务上进行评估，使用了 OpenVLA 和 $\pi_{0.5}$ 两种代表性的 VLA（Vision-Language-Action）架构。
关键指标：
- 相比于仅使用真机数据的微调（Real-only FT）和基于 SFT 的共训练（SFT-based Co-training），RL-Co 取得了显著提升。
- OpenVLA 真机成功率提升 +24%。
- $\pi_{0.5}$ 真机成功率提升 +20%。
额外发现：RL 共训练不仅提高了成功率，还展现出对未见任务变体（Unseen Task Variations）更强的泛化能力，并大幅提升了真机数据的利用效率。

💭 结论与影响 (Conclusion & Impact)

该工作证明了将仿真中的闭环 RL 训练与真实数据的监督约束相结合，是提升 VLA 模型真机部署性能的一条实用且可扩展的路径。它突破了传统模仿学习的上限，为解决 Sim-to-Real 中的数据效率和泛化难题提供了新的范式。

🏷️ 核心标签

Sim-to-Real Reinforcement Learning VLA Models Co-Training---

💡 DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI (Deep Dive)

一句话总结: DM0 摒弃了将物理落地视为微调后修饰的传统范式，提出了一种具身原生（Embodied-Native）框架，通过从异构数据源中联合学习，实现了高层语义推理与底层物理控制的深度统一。

📖 背景与动机 (Background & Motivation)

传统的具身智能方法通常采用“适应”范式，即调整互联网预训练模型以适应物理任务，将物理落地视为一种“事后”的微调手段。这种方法难以有效融合语义知识与物理先验。DM0 旨在解决这一长期存在的问题，通过“具身原生”的方式，从一开始就统一学习操作（Manipulation）与导航（Navigation），打破了通用模型与物理世界之间的隔阂。

⚙️ 核心方法 (Core Methodology)

DM0 采用了一个全面的三阶段流水线（预训练、中训练、后训练），其核心创新点如下：

大规模联合预训练 (Unified Pretraining)：在视觉语言模型 (VLM) 上整合了网络文本、自动驾驶场景和具身交互日志等异构数据源，旨在联合获取通用的语义知识和特定的物理先验。
流匹配动作专家 (Flow-Matching Action Expert)：在 VLM 之上构建了一个基于流匹配（Flow Matching）的动作生成模块，用于处理连续的动作空间。
混合训练策略 (Hybrid Training Strategy)：为了协调高层推理与底层控制的冲突，采用了独特的梯度更新策略：对于具身数据，动作专家的梯度不反向传播回 VLM，以保留其泛化表征能力；而 VLM 仅在非具身数据上保持可训练状态。
具身空间脚手架 (Embodied Spatial Scaffolding)：引入了一种策略来构建空间思维链 (Spatial Chain-of-Thought, CoT) 推理。这种机制通过显式的空间推理步骤，有效地约束了动作生成的解空间，提高了规划的准确性。

📊 实验与结果 (Experiments & Results)

实验设置：在 RoboChallenge 基准测试平台上进行评估，具体聚焦于 Table30 任务集。
关键指标：实验结果表明，DM0 在 专家 (Specialist) 和 通用 (Generalist) 两种设置下均达到了最先进 (SOTA) 的性能水平。
核心贡献：证明了具身原生训练范式在处理复杂物理任务时的优越性，特别是在统一不同类型的具身数据方面。

💭 结论与影响 (Conclusion & Impact)

DM0 的核心价值在于它重新定义了具身模型的构建方式，从“适应”转向“原生”。通过混合训练策略巧妙地平衡了 VLM 的通用性与动作专家的专用性，并利用空间 CoT 桥接了推理与控制。这项工作为未来开发能够理解并物理交互的通用物理 AI (Physical AI) 提供了重要的架构参考。

🏷️ 核心标签

Vision-Language-Action (VLA) Embodied AI