InternVLA·N1是什么

InternVLA·N1是上海人工智能实验室开源的端到端双系统导航大模型。采用双系统架构,系统2负责理解语言指令并规划长程路径,系统1专注于高频响应和敏捷避障。模型完全基于合成数据训练,通过大规模数字场景资产和海量多模态语料,实现了低成本高效率的训练过程。在多个主流基准测试中,InternVLA·N1表现出色,得分达到国际领先水平,展现了强大的零样本泛化能力。能实现在真实场景中的“跨楼宇长距离”听令行走和密集障碍物间的敏捷避障。

InternVLA·N1 – 上海AI Lab开源的端到端双系统导航大模型插图

InternVLA·N1的主要功能

  • 语言理解与路径规划:系统2能理解自然语言指令,根据视觉观测在图像上预测下一步执行的目标像素,实现长程空间推理规划。
  • 敏捷避障与执行:系统1负责高频响应环境变化,实现敏捷避障,确保能准确到达目标点。
  • 合成数据驱动训练:完全基于合成数据进行训练,通过大规模数字场景资产和海量多模态语料,实现低成本高效率的训练过程。
  • 零样本泛化能力:仅使用合成数据训练,却能在真实场景中实现60Hz的“跨楼宇长距离”听令行走和密集障碍物间的敏捷避障,展现出强大的泛化能力。
  • 多场景适应性:在多个主流基准测试中表现出色,得分达到国际领先水平,适用于多种复杂场景和任务需求。

InternVLA·N1的技术原理

  • 双系统架构:采用系统1和系统2的双系统架构,系统2负责理解语言指令并进行长程空间推理规划,系统1则专注于高频响应和敏捷避障,二者协同工作实现高效导航。
  • 异步推理机制:系统1和系统2异步推理,系统1可以更频繁地响应环境变化,实现敏捷避障,而系统2则专注于长程空间推理规划,避免了同步推理带来的延迟和复杂性。
  • 纯合成数据驱动:完全基于合成数据进行训练,通过大规模数字场景资产和海量多模态语料,结合高效的数据合成技术,实现低成本高效率的训练。
  • 两阶段课程训练:训练分为预训练阶段和联调阶段,预训练阶段对系统2进行监督微调,使其能准确规划路径;联调阶段则让系统1和系统2协同工作,优化整体导航性能。
  • 多模态融合:模型能融合视觉和语言信息,通过多模态大模型实现对复杂环境的理解和导航任务的执行,提升了模型在真实场景中的适应性和准确性。

InternVLA·N1的项目地址

  • 项目官网:https://internrobotics.github.io/internvla-n1.github.io/
  • GitHub仓库:https://github.com/InternRobotics/InternNav
  • Hugging Face模型库:https://huggingface.co/InternRobotics/InternVLA-N1
  • 技术论文:https://internrobotics.github.io/internvla-n1.github.io/static/pdfs/InternVLA_N1.pdf

InternVLA·N1的应用场景

  • 智能机器人导航:为服务机器人、物流机器人等提供高效导航能力,能根据语音指令在复杂环境中自主行走、避障并完成任务。
  • 自动驾驶辅助:在自动驾驶领域,辅助车辆进行路径规划和障碍物避让,提升自动驾驶系统的安全性和可靠性。
  • 虚拟现实与增强现实:在虚拟现实(VR)和增强现实(AR)应用中,为用户提供更加自然和沉浸式的交互体验,例如在虚拟环境中根据语音指令导航。
  • 智能安防监控:在智能安防领域,通过视觉和语言指令的融合,实现对监控区域的智能巡逻和异常事件的快速响应。
  • 工业自动化:在工业环境中,为自动化设备提供导航和操作指导,提高生产效率和安全性。
  • 智能导览服务:在博物馆、展览馆等场所,为游客提供个性化的导航和讲解服务,提升参观体验。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。