Mano是什么
Mano 是明略科技推出的专有大模型,专注于图形用户界面(GUI)智能操作。模型基于多模态基础模型,通过在线强化学习和训练数据自动采集等创新技术,在 Mind2Web 和 OSWorld 两大基准测试中取得 SOTA 成绩。Mano 能精准识别和操作网页及桌面环境中的 GUI 元素,完成复杂任务,如填写表单、登录账号等,为自动化操作提供高效解决方案,推动 GUI 智能体领域的发展。
Mano的主要功能
- 自动化网页操作:模型能自动完成网页中的各种操作,如填写表单、点击按钮、输入文本、提交表单等,能应用在自动化数据采集、网页自动化测试等场景。
- 桌面应用操作:支持对桌面软件的操作,包括打开软件、进行菜单操作、输入文本、点击按钮等。
- 跨平台操作:兼容多种操作系统和浏览器,实现在不同平台上的自动化操作,满足多样化的自动化需求。
- 数据采集与分析:支持自动从网页或桌面应用中采集数据,进行初步分析,为后续的数据处理和决策提供支持。
- 错误检测与恢复:具备错误检测机制,能及时发现操作过程中的错误,尝试自动恢复,提高操作的可靠性和稳定性。
Mano的技术原理
- 多模态基础模型:基于多模态基础模型,能理解和处理视觉信息(如网页截图)和文本信息(如用户指令、网页文本),实现对 GUI 环境的感知和理解。
- 在线强化学习:通过在线强化学习,Mano 能在与真实环境的交互中不断学习和优化操作策略,提高在动态环境中的适应性和决策能力。
- 训练数据自动采集:设计训练数据自动采集模块,自动生成和采集高质量的交互数据,用在模型的训练和优化,降低人工标注成本。
- 监督微调(SFT):在训练的第一阶段,用监督学习对模型进行微调,能更好地理解和执行特定的 GUI 操作任务。
- 离线强化学习:在第二阶段,通过离线强化学习进一步优化模型的决策能力,能更好地完成多步操作任务。
- 在线强化学习:在第三阶段,模型在模拟环境中与真实环境进行交互,通过在线强化学习进一步提升模型适应性和灵活性。
- 验证模块:Mano 配备验证模块,用在验证每一步操作的正确性,及时发现、纠正错误,提高操作的准确性和可靠性。
Mano的项目地址
- 技术论文:https://www.mininglamp.com/wp-content/uploads/2025/09/%E6%98%8E%E7%95%A5%E7%A7%91%E6%8A%80-Mano-Technical-Report.pdf
Mano的应用场景
- 自动化数据采集:Mano 能自动从网页或桌面应用中采集数据,为数据分析和研究提供高效支持,节省人工采集时间。
- 网页自动化测试:模型自动完成网页的各种操作,如填写表单、点击按钮等,用在测试网页功能是否正常,提高测试效率和准确性。
- 企业自动化办公:支持对桌面软件的操作,实现企业内部办公流程的自动化,如自动填写报表、发送邮件等,提升工作效率。
- 软件自动化测试:模型用在对桌面软件进行自动化测试,包括打开软件、进行菜单操作等,帮助开发者快速发现软件问题。
- 智能客服辅助:模型能自动处理一些常见的客户咨询问题,如查询订单状态、解答常见疑问等,减轻客服人员的工作负担。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。