Skip to content

AI Agent 开发要学什么

核心理解

只调用大模型 API,通常只能得到“建议”和“文本结果”。如果希望 AI 真正帮用户做事,就要给大模型扩展外部能力。

AI Agent 可以简单理解为:

text
AI Agent = 大模型 + Tool + Memory + RAG + 任务流程

大模型负责理解、推理、规划和生成;Agent 系统负责给它接入工具、记忆、知识库和任务执行流程。

大模型本身的限制

1. 不能长期记忆

模型上下文是有限的,无法天然记住长期历史、用户偏好和过去任务。

这需要 Memory 来管理:

  • 哪些信息要保存
  • 保存在哪里
  • 什么时候召回
  • 过期信息如何处理

2. 不能直接操作外部世界

大模型本身不能读写文件、执行命令、打开浏览器、调用业务系统。

Cursor 能改代码、Manus 能操作网页,是因为产品给模型提供了 Tool

常见 Tool 包括:

  • 文件读写
  • 命令执行
  • 浏览器操作
  • 数据库查询
  • HTTP API 调用

3. 不知道私有知识

公司文档、业务规则、内部数据不会天然存在于模型里。

这需要 RAG:先从知识库检索相关内容,再把结果交给大模型生成回答。

Tool、Memory、RAG 的作用

能力解决的问题例子
Tool让模型能执行动作读写文件、执行命令、访问网页
Memory让模型能记住重要信息用户偏好、历史任务、长期上下文
RAG让模型能使用私有知识企业知识库、内部文档、业务数据

这三类能力,是 AI Agent 产品落地时最基础的扩展方向。

为什么 Cursor、Manus 是 Agent

Cursor 不只是把问题发给大模型,它还给模型提供了代码文件、项目结构、文件读写、命令执行等能力。

Manus 也是类似,它能打开网页、点击页面、读取内容、整理结果、写入文件,本质上是让模型通过工具连接真实环境。

可以概括为:

text
模型负责思考和决策,工具负责执行动作。

学习路线

1. 大模型调用

先学会调用模型 API,理解 Prompt、流式输出、结构化输出、模型参数等基础能力。

2. Tool 工具调用

Tool 是 Agent 能做事的关键。要学会把普通函数封装成工具,并让模型根据任务自动选择工具。

3. Memory 记忆管理

Memory 不是简单保存聊天记录,而是要设计信息保存、召回、更新和隐私边界。

4. RAG 知识库

RAG 主要用于让模型基于私有资料回答问题,常见流程包括文档切分、向量化、检索、重排和上下文拼接。

5. 多 Agent 编排

复杂任务可能需要多个 Agent 协作,比如一个负责理解需求,一个负责检索资料,一个负责执行操作,一个负责检查结果。

常用框架

  • LangChain:封装模型调用、Prompt、Tool、Memory、RAG 等能力,适合构建单个 Agent 或常见 AI 应用。
  • LangGraph:用于复杂任务流和多 Agent 协作,更适合处理状态流转和流程编排。

如果是前端开发者,从 Node.js 版本入门会更顺手。理解核心概念后,换成 Python 或其他语言实现并不困难。

后端能力也很重要

AI Agent 产品通常需要后端支持:

  • Redis:缓存、短期记忆
  • MySQL:业务数据、知识库元数据
  • 对象存储:文件保存
  • 队列:长任务处理
  • NestJS:组织后端服务
  • 权限系统:控制工具和数据访问范围

所以学习 Agent 开发,最好结合后端一起学,做成真正可落地的 AI 全栈产品。

总结

AI Agent 的重点不是“会聊天”,而是让大模型具备做事能力。

核心方向就是:

  • 用 Tool 扩展行动能力
  • 用 Memory 扩展记忆能力
  • 用 RAG 扩展知识能力
  • 用流程编排扩展复杂任务处理能力

学会这些,才能从“使用 AI 工具”进一步走向“开发 AI 产品”。