Manus

geepair

技术分享|2025-3-12|最后更新: 2025-3-26|
type
Post
status
Published
date
Mar 12, 2025
slug
summary
tags
开发
思考
工具
category
技术分享
icon
password

1、写在开头

1.1 介绍

Manus是首款通用AI智能体(GAIA),它能自主规划任务并实时调整。
推出Manus的公司名叫Monica,是这两年业内非常出名的AI公司。和其他AI公司不同的是,它们的核心业务并不是大模型本身,而是AI应用。
Manus真正展示的,是多智能体工具如何处理复杂任务,并且用了一种极具冲击力的交互方式。它的分享内容,不是传统的图片,而是AI处理任务的完整视频,让用户能直观看到AI一步步拆解和执行任务,带来极强的震撼感。
Agent = 自主性 + 环境交互 + 目标驱动
可以把它想象成一个打游戏时的NPC:它能感知周围环境(比如看到玩家位置),自己做决策(决定攻击还是逃跑),然后执行动作(移动或开火)。整个过程不需要玩家操控,完全自主。
核心特点:
  1. 感知 (Input):像传感器一样获取信息(比如摄像头数据、用户输入、数据库内容)。用到了计算机视觉(CNN、ViT),NLP(Transformer、RNN)等;
  1. 决策 (Process):根据输入的内容,决定下一步要做什么事。用到了强化学习(RL)、Q-Learning/DQN、知识图谱等;
  1. 行动 (Output):对环境产生影响(比如发消息、控制机器人、执行命令)。
  1. 目标导向:所有行为都是为了完成某个任务(比如赢游戏、优化物流路线)。
和普通程序的区别
普通程序: 输入 → 处理 → 输出 (一次性)
Agent: 持续感知 → 动态决策 → 循环行动 (有AI动态做反馈循环)
notion image

1.2 发展历程

时间阶段
关键事件与成果
技术/市场意义
2015-2022年
创始人肖弘连续创业,推出微信生态工具“微伴助手”等,积累产品经验与资本资源
奠定团队商业化能力,为AI领域转型提供基础
2022年
成立Monica项目,以浏览器插件形式整合多模型能力,用户突破1000万
初步验证AI工具市场潜力,完成底层技术探索
2023年
成立北京蝴蝶效应科技,转型开发“云端虚拟机+异步任务”架构,放弃AI浏览器方案
确立Manus核心技术路线,解决传统AI交互的同步性瓶颈
2024年
完成A轮融资,获头部基金投资;启动Manus研发,定位通用型智能体
资本注入加速技术研发,明确“任务执行优先”的产品定位
2025年3月6日
发布内测版,展示简历筛选、房产分析、股票研究等复杂任务能力,官网因流量崩溃
首次实现异步任务可视化(虚拟机界面),GAIA测试超越OpenAI同类产品20%,引发全球关注
2025年3月12日
宣布与阿里通义千问合作,计划开源部分技术
推动国产算力与模型适配,构建开发者生态

1.3 核心技术

  • 分层架构:采用“规划代理 + 执行代理”架构,规划代理负责拆解任务逻辑,执行代理调用工具(如代码编辑器、浏览器等)完成具体操作。
  • 大模型驱动:依赖底层大模型能力,结合知识图谱和自研的 Steiner 开源模型(复现 OpenAI lo1 架构)实现智能决策。
  • 测试表现:在 GAIA 基准测试中,Manus 的得分超过 OpenAI 同类模型,尤其在复杂任务执行和工具调用方面表现突出。

1.4 核心功能

  • 自动化执行:用户输入一句话指令(如“制作日本樱花季旅行攻略”),Manus 可自主完成数据收集、行程规划、预订建议等全流程,最终生成图文并茂的 HTML 文档。
  • 多场景覆盖:支持金融分析(股票研究)、教育(制作教学课件)、人力资源(简历筛选)等场景,展现跨领域通用性。
  • 异步处理:任务在云端独立运行,用户可关闭设备,完成后通过通知获取结果。

2、比较

2.1 性能

notion image

2.2 同类产品比较

国内同类产品对比
  1. DeepSeek
      • 定位差异:专注于知识整合与推理,擅长全网信息收集和逻辑分析,扮演"建议者"角色。
      • 功能特点:生成高质量文本(如报告、代码),但需用户自行执行后续操作。
      • 技术架构:依赖单一大模型,强调语言理解和生成能力。
  1. Monica(Manus前身)
      • 定位差异:浏览器插件形态的AI助手,提供翻译、文案处理等基础功能,依赖预设工作流。
      • 功能特点:集成多模型(如Claude、GPT-4),但无法自主规划复杂任务。
  1. 大模型厂商的智能体(如智谱、MiniMax、扣子、元器)
      • 定位差异:基于自有大模型开发,侧重垂直场景(如客服、营销),任务范围较窄。
      • 技术架构:通常采用单模型调用,执行能力受限于模型本身的工具调用接口。
国际竞品对比
  1. OpenAI/Anthropic(如Claude、GPT-4o)
      • 定位差异:基础模型提供商,需开发者二次开发才能实现复杂Agent功能。
      • 功能特点:生成代码或建议,但需人工介入执行(如手动运行代码、导出结果)。
  1. 谷歌Project Astra
      • 定位差异:多模态交互助手,强调实时视觉理解和语音对话,执行任务依赖谷歌生态工具。
      • 技术架构:与Gemini大模型深度绑定,任务类型偏向日常交互。
 
核心区别
维度
Manus
同类产品典型特征
任务执行
全流程自主完成(规划→调用工具→交付成果)
仅提供建议或需人工执行中间步骤
技术架构
多重签名系统(多模型动态调用)+虚拟环境操作
单一模型驱动或预设工作流
应用场景
覆盖复杂长尾任务(如股票分析、房产研究)
集中于标准化场景(如客服、文案生成)
数据权限
支持私有数据接入与企业级部署
多数仅处理公开数据或受限于平台生态

2.3 通用AI智能体/垂类AI智能体

通用型AI智能体具备跨领域任务处理能力,能够适应多种复杂场景,核心特点是多功能性自主学习能力
垂直类AI智能体聚焦特定领域,通过专业化训练和行业数据优化性能,核心特点是场景深度精准性
核心差异
维度
通用类AI智能体
垂直类AI智能体
应用场景
跨领域复杂任务(如报告生成、代码编写)
特定领域专业任务(如医疗诊断、法律咨询)
技术复杂度
依赖多智能体协作和大模型泛化能力
需结合领域知识库和专用工具链
数据需求
海量跨领域数据训练
高精度行业数据优化
商业化路径
面向企业级用户提供通用解决方案
针对行业痛点提供定制化服务

2.4 OpenAI的跟进

OpenAI现有的api
  1. Chat Completions API
  1. Assistants API⁠
  1. Responses API 的内置工具(new)
1 网络搜索
开发者现在可以从网络上获得快速、最新的答案,同时还带有清晰且相关的引文。在 Responses API 中,使用 gpt-4o 和 gpt-4o-mini 时,网络搜索可用作工具使用,并且可以与其他工具或函数调用搭配使用。
Responses API 中的网络搜索使用了 ChatGPT 搜索一样的模型。OpenAI 也发布了基准测试结果:在 SimpleQA 评估 LLM 回答简短事实问题的准确性的基准上,GPT-4o search preview 和 GPT-4o mini search preview 分别得分 90% 和 88%。
2 文件搜索
开发者现在可以使用经过改进的文件搜索工具轻松地从大量文档中检索相关信息。其支持多种文件类型、查询优化、元数据过滤和自定义重新排名,并能提供快速、准确的搜索结果。同样,使用 Responses API,只需几行代码即可完成集成。
3 Computer Use
为了构建能够在计算机上完成任务的智能体,开发者现在可以使用 Responses API 中的 Computer Use 工具,该工具使用了 Computer-Using Agent(CUA)模型 —— 与 Operator 一样。
而此研究预览版(research preview)模型创下了新的 SOTA 记录:在 OSWorld⁠ 的全 Computer Use 任务上实现了 38.1% 的成功率,在 WebArena⁠ 上实现 58.1% 的成功率,在 WebVoyager⁠ 的基于 Web 的交互任务上实现 87% 的成功率。
内置的 Computer Use 工具可捕获模型生成的鼠标和键盘操作,使开发者能够通过将这些操作直接转换为其环境中的可执行命令来自动执行 Computer Use 任务。
Agents SDK
除了构建智能体的核心逻辑并让它们能够访问有用的工具之外,开发者还需要编排智能体工作流。
OpenAI 开源发布的 Agents SDK 可简化多智能体工作流的编排,并且相比于 Swarm⁠ 有了显著的改进。
智能体 SDK 适用于各种实际应用,包括客户支持自动化、多步骤研究、内容生成、代码审查和销售潜在客户挖掘。
Agents SDK 可与 Responses API 和 Chat Completions API 配合使用。只要其他提供商提供 Chat Completions 样式的 API 端点,该 SDK 还可以与其他提供商的模型配合使用。

3、Manus面临的一些风险

技术壁垒争议:Manus被质疑为"套壳创新",其多模型调用和虚拟环境操作依赖现有技术栈,大厂可能快速跟进。
合规风险:使用未备案的国外大模型接口可能面临监管问题,需转向国产化技术底座。
隐私泄露:需解决数据安全、决策透明性等问题,例如Manus因涉及用户隐私和API调用面临合规风险。
商业模式:Manus尝试成为"AI应用商店",而DeepSeek等大模型厂商可能直接内化Agent能力。
运营成本:需降低开发成本(如多智能体协作的Token消耗),并提升跨系统兼容性。
数据准确性:使用大量网页数据,对数据来源的准确性要求比较高,容易产生AI幻觉等。

4、Manus复刻

MetaGPT 的团队成员在 3 小时内完成复刻 Manus 核心功能
OpenManus
mannaandpoemUpdated May 28, 2025
 
OWL 项目直接做到开源界 GAIA 性能天花板,达到了 57.7%,超越 Huggingface 提出的 Open Deep Research 55.15% 的表现
owl
camel-aiUpdated May 28, 2025
 

4.1 OpenManus

4.1.1 安装

安装 uv(快速 Python 包安装程序和解析器)
curl -LsSf https://astral.sh/uv/install.sh | sh
克隆存储库
git clone https://github.com/mannaandpoem/OpenManus.git cd OpenManus
创建一个新的虚拟环境并激活它
uv venv source .venv/bin/activate # On Unix/macOS # Or on Windows: # .venv\Scripts\activate
安装依赖项
uv pip install -r requirements.txt

4.1.2 配置

OpenManus 需要对其使用的 LLM API 进行配置
在目录中创建一个config.toml文件config
cp config/config.example.toml config/config.toml
编辑config/config.toml以添加您的 API 密钥并自定义设置
# Global LLM configuration [llm] model = "gpt-4o" base_url = "https://api.openai.com/v1" api_key = "sk-..." # Replace with your actual API key max_tokens = 4096 temperature = 0.0 # Optional configuration for specific LLM models [llm.vision] model = "gpt-4o" base_url = "https://api.openai.com/v1" api_key = "sk-..." # Replace with your actual API key

4.1.3 运行

python main.py python run_flow.py

4.2 OWL

 

5、manus样例演示

一些演示集合
其他

6、引用

 开启调试