AI Agent 开发要学什么

核心理解

只调用大模型 API，通常只能得到“建议”和“文本结果”。如果希望 AI 真正帮用户做事，就要给大模型扩展外部能力。

AI Agent 可以简单理解为：

text

AI Agent = 大模型 + Tool + Memory + RAG + 任务流程

大模型负责理解、推理、规划和生成；Agent 系统负责给它接入工具、记忆、知识库和任务执行流程。

大模型本身的限制

1. 不能长期记忆

模型上下文是有限的，无法天然记住长期历史、用户偏好和过去任务。

这需要 Memory 来管理：

哪些信息要保存
保存在哪里
什么时候召回
过期信息如何处理

2. 不能直接操作外部世界

大模型本身不能读写文件、执行命令、打开浏览器、调用业务系统。

Cursor 能改代码、Manus 能操作网页，是因为产品给模型提供了 Tool。

常见 Tool 包括：

文件读写
命令执行
浏览器操作
数据库查询
HTTP API 调用

3. 不知道私有知识

公司文档、业务规则、内部数据不会天然存在于模型里。

这需要 RAG：先从知识库检索相关内容，再把结果交给大模型生成回答。

Tool、Memory、RAG 的作用

能力	解决的问题	例子
Tool	让模型能执行动作	读写文件、执行命令、访问网页
Memory	让模型能记住重要信息	用户偏好、历史任务、长期上下文
RAG	让模型能使用私有知识	企业知识库、内部文档、业务数据

这三类能力，是 AI Agent 产品落地时最基础的扩展方向。

为什么 Cursor、Manus 是 Agent

Cursor 不只是把问题发给大模型，它还给模型提供了代码文件、项目结构、文件读写、命令执行等能力。

Manus 也是类似，它能打开网页、点击页面、读取内容、整理结果、写入文件，本质上是让模型通过工具连接真实环境。

可以概括为：

text

模型负责思考和决策，工具负责执行动作。

学习路线

1. 大模型调用

先学会调用模型 API，理解 Prompt、流式输出、结构化输出、模型参数等基础能力。

2. Tool 工具调用

Tool 是 Agent 能做事的关键。要学会把普通函数封装成工具，并让模型根据任务自动选择工具。

3. Memory 记忆管理

Memory 不是简单保存聊天记录，而是要设计信息保存、召回、更新和隐私边界。

4. RAG 知识库

RAG 主要用于让模型基于私有资料回答问题，常见流程包括文档切分、向量化、检索、重排和上下文拼接。

5. 多 Agent 编排

复杂任务可能需要多个 Agent 协作，比如一个负责理解需求，一个负责检索资料，一个负责执行操作，一个负责检查结果。

常用框架

LangChain：封装模型调用、Prompt、Tool、Memory、RAG 等能力，适合构建单个 Agent 或常见 AI 应用。
LangGraph：用于复杂任务流和多 Agent 协作，更适合处理状态流转和流程编排。

如果是前端开发者，从 Node.js 版本入门会更顺手。理解核心概念后，换成 Python 或其他语言实现并不困难。

后端能力也很重要

AI Agent 产品通常需要后端支持：

Redis：缓存、短期记忆
MySQL：业务数据、知识库元数据
对象存储：文件保存
队列：长任务处理
NestJS：组织后端服务
权限系统：控制工具和数据访问范围

所以学习 Agent 开发，最好结合后端一起学，做成真正可落地的 AI 全栈产品。

总结

AI Agent 的重点不是“会聊天”，而是让大模型具备做事能力。

核心方向就是：

用 Tool 扩展行动能力
用 Memory 扩展记忆能力
用 RAG 扩展知识能力
用流程编排扩展复杂任务处理能力

学会这些，才能从“使用 AI 工具”进一步走向“开发 AI 产品”。

AI Agent 开发要学什么 ​

核心理解 ​

大模型本身的限制 ​

1. 不能长期记忆 ​

2. 不能直接操作外部世界 ​

3. 不知道私有知识 ​

Tool、Memory、RAG 的作用 ​

为什么 Cursor、Manus 是 Agent ​

学习路线 ​

1. 大模型调用 ​

2. Tool 工具调用 ​

3. Memory 记忆管理 ​

4. RAG 知识库 ​

5. 多 Agent 编排 ​

常用框架 ​

后端能力也很重要 ​

总结 ​