Appearance
大语言模型及其核心概念
一、大语言模型的能力来源
大语言模型(Large Language Model,LLM)是一类基于海量文本数据训练出来的人工智能模型。
它能够完成:
- 文本理解
- 文本生成
- 问答对话
- 翻译润色
- 代码生成
- 信息总结
常见的大语言模型包括:
- GPT 系列
- Gemini
- DeepSeek
- Kimi
- 豆包
- 通义千问
- 文心一言
二、大语言模型的基础架构
1. Transformer 架构
大语言模型通常基于 Transformer 架构。
例如 GPT 系列,全称是:
text
Generative Pre-trained Transformer也就是:
text
生成式预训练 Transformer其中:
- Generative:生成式,表示模型可以生成文本内容
- Pre-trained:预训练,表示模型先通过大量数据进行训练
- Transformer:一种适合处理语言序列的深度学习架构
2. 自回归语言模型
GPT 这类模型属于自回归语言模型。
它的基本工作方式是:
text
根据前面的内容 → 预测下一个词 → 再继续预测下一个词例如:
text
今天的天气很模型可能预测下一个词是:
text
好于是形成:
text
今天的天气很好大语言模型就是通过不断预测下一个词,逐步生成完整回答。
三、大模型的训练目标
1. 通过海量文本学习语言规律
大语言模型的训练目标,是通过海量文本学习“下一个词”的概率分布。
也就是说,模型会不断学习:
text
在某段文字后面,最可能出现什么内容?例如:
text
中国的首都是模型经过训练后,会知道后面很可能是:
text
北京2. 输出方式:逐词生成
大语言模型不是一次性生成完整答案,而是逐词生成。
基本过程如下:
text
输入问题 → 模型预测第一个词 → 预测第二个词 → 继续生成 → 得到完整回答所以我们看到 AI 回答时,常常像“打字机”一样,一个词一个词地输出。
四、训练数据:无标注文本与有标注文本
1. 无标注文本
无标注文本指的是没有额外人工标签的原始文本。
例如:
text
今天北京天气很好。它只是普通文本,没有特别标注出其中的地名、情绪、人物等信息。
大模型在预训练阶段主要使用大量无标注文本,从中学习语言规律、知识结构和表达方式。
2. 有标注文本
有标注文本是在原始文本基础上添加了额外标识的数据。
例如:
text
今天[地名:北京]天气很好。或者:
text
这部电影太精彩了。[情绪:正面]常见标注内容包括:
- 地名
- 人名
- 情绪标签
- 分类标签
- 意图标签
3. 二者区别
| 类型 | 含义 | 示例 |
|---|---|---|
| 无标注文本 | 原始文本,没有额外标签 | 今天北京天气很好。 |
| 有标注文本 | 添加了人工或规则标签的数据 | 今天[地名:北京]天气很好。 |
| 主要作用 | 适合大规模预训练 | 适合分类、识别、监督学习等任务 |
五、Token:词元
1. Token 的定义
Token 可以理解为模型处理文本的最小单位。
原始文本不会直接被模型理解,而是要先通过分词器(Tokenizer)拆分成一个个 Token。
例如:
text
今天的天气很好可能会被拆分为:
text
今天 / 的 / 天气 / 很好这里每一段就是一个 Token。
2. Token 的组成
每个 Token 通常包含两个部分:
- Token 文本
- Token ID
例如:
text
天气 → 167823也就是说,模型真正处理的不是中文字符本身,而是这些 Token 对应的数字 ID。
可以理解为:
text
文本 → Token → Token ID → 模型计算3. Token 的切分逻辑
Token 的切分不是简单按照“字”或“词”来切,而是和词语出现频率、共现概率有关。
(1)高频共现词组更可能合并
如果某些字经常一起出现,就更可能被合并成一个 Token。
例如:
text
苹果因为“苹果”是高频词,所以更可能作为一个整体 Token。
(2)低频组合更可能被拆分
如果某些组合不常见,就可能被拆成多个 Token。
例如:
text
苹果西瓜可能被拆成:
text
苹果西 / 瓜或者其他组合形式。
这说明 Token 的切分受训练语料中的共现频率影响。
(3)常用介词、语气词可能单独成 Token
一些常见字或语气词也可能单独成为 Token。
例如:
text
也
哦
的
了这些词在语言中非常常见,模型可能会将它们单独处理。
六、Tokenizer 示例
1. 示例一
原句:
text
今天的天气很好可能被拆分为 4 个 Token:
text
今天 / 的 / 天气 / 很好该句共有 7 个中文字符。
2. 示例二
原句:
text
今天天气很好由于缺少“的”,分词结果可能发生变化。
例如可能被拆分为:
text
今天 / 天气 / 很好也可能出现其他组合,例如:
text
天天 / 气 / 很好这体现了 Token 切分会受到上下文和共现概率影响。
3. Token ID 一致性
相同词汇在同一分词器中通常会对应相同的 Token ID。
例如:
text
天气 → 167823如果多个句子中都出现“天气”,并且都被切分为同一个 Token,那么它们通常会对应同一个 Token ID。
七、主流大模型的 Token 规模
大语言模型训练时会使用海量 Token。
这些 Token 来自:
- 预训练语料库
- 网页文本
- 书籍
- 论文
- 代码
- 部分交互数据
1. 规模参考
主流大模型的训练 Token 数通常达到万亿级别。
例如:
| 模型 | 训练 Token 规模 |
|---|---|
| GPT-3 | 约 3000 亿 Tokens |
| GPT-4 | 约 1 万亿 Tokens |
| 其他主流 LLM | 通常也在千亿到万亿级别 |
模型 Token 规模仍在持续增长。
2. 查询工具
可以通过一些模型排行榜网站查看不同模型的能力、上下文长度和价格等信息。
例如:
text
artificialanalysis.ai这类网站通常会对比:
- 模型能力
- 推理速度
- 上下文窗口
- API 价格
- 综合排名
八、Parameters:参数
1. 参数的定义
参数(Parameters)是模型内部可以被学习和调整的变量。
在深度学习中,参数通常包括:
- 权重
- 偏置
它们决定了模型如何根据输入得到输出。
可以简单理解为:
text
Token 是模型吃进去的原材料
参数是模型内部形成的思考方式2. 用线性函数理解参数
可以用初中数学中的线性函数来类比参数。
线性函数公式:
text
y = ax + b其中:
- x:输入
- y:输出
- a:斜率
- b:截距
在这个例子中,a 和 b 就类似于模型的参数。
模型训练的过程,就是不断调整参数,让预测结果更接近真实结果。
3. 样本越多,参数越准确
如果只有少量样本,模型很难找到准确规律。
如果样本越来越多,模型就可以更好地拟合数据。
可以理解为:
text
样本越多 → 参数越准确 → 模型预测越接近真实情况拟合距离越小,说明模型越准确。
九、房价预测例题:理解参数优化
1. 简单模型
最简单的房价预测模型可以写成:
text
房价 = 20000 × 平方数这里的 20000 就是一个参数。
它表示每平方米大约 20000 元。
2. 加入地理位置因素
但房价并不只由面积决定。
例如,可以加入交通站点数量:
text
房价 = 20000 × 平方数 + 50000 × 交通站点数这里又增加了一个参数:
text
50000它表示每多一个交通站点,房价可能增加一定数值。
3. 引入更多特征
真实房价会受到更多因素影响,例如:
- 房龄
- 房间数
- 朝向
- 学区
- 楼层
- 装修情况
- 周边配套
因此,模型需要引入更多特征和更多参数。
可以理解为:
text
特征越多 → 参数越多 → 模型表达能力越强十、神经网络中的参数
1. 神经网络建模
当问题变得复杂时,可以使用神经网络建模。
例如一个三层神经网络结构:
text
输入层:2 个节点
隐藏层:5 个节点
输出层:1 个节点可以表示为:
text
2 - 5 - 12. 连接线就是参数
神经网络中,每一层节点之间的连接线都有对应的权重。
这些权重就是参数。
例如:
text
输入节点 → 隐藏节点 → 输出节点每条连接线都有自己的参数,模型训练就是不断调整这些参数。
3. 参数规模
现代大模型的参数规模非常庞大。
参数数量通常达到:
- 亿级
- 百亿级
- 千亿级
- 万亿级
例如:
| 模型 | 参数规模 |
|---|---|
| GPT-3 | 约 1750 亿参数 |
| GPT-4 | 约 1 万亿参数 |
| 现代主流大模型 | 通常在亿级至万亿级之间 |
十一、Token 与参数的关系
1. Token 是原材料
Token 是模型处理文本的基本单位。
用户输入的文字会先被拆分成 Token,再转换成 Token ID,最后送入模型计算。
可以理解为:
text
Token = 模型的原材料2. Parameters 是思考方式
参数是模型内部经过训练得到的权重和偏置。
它们决定模型如何理解输入、如何预测下一个 Token、如何生成回答。
可以理解为:
text
Parameters = 模型的思考方式3. 二者共同决定模型表现
Token 和参数不是同一个概念,但它们共同影响模型性能。
| 概念 | 本质 | 作用 |
|---|---|---|
| Token | 文本被切分后的最小处理单元 | 决定输入输出形式 |
| Parameters | 模型内部可学习变量 | 决定模型如何理解和生成 |
| 二者关系 | Token 是原材料,参数是处理方式 | 共同影响模型表现 |
十二、知识小结
| 知识点 | 核心内容 | 考试重点 / 易混淆点 | 难度系数 |
|---|---|---|---|
| LLM 大语言模型定义 | Large Language Model,基于 Transformer 的自回归语言模型,如 GPT 系列,通过海量数据和庞大参数实现类人语言理解与生成能力 | GPT 是 Generative Pre-trained Transformer | ⭐⭐ |
| 大模型训练目标 | 通过无标注文本学习下一个词的概率分布,输出为逐词生成 | 无标注文本 vs 有标注文本的区别 | ⭐⭐ |
| Token 概念 | 模型处理文本的最小单位,由分词器 Tokenizer 拆分,类似“词元” | Token 不是简单等于字或词 | ⭐⭐⭐ |
| 参数 Parameters | 深度学习模型中的可学习变量,如线性函数中的斜率 a 和截距 b | 参数规模与模型性能有关,但不是唯一决定因素 | ⭐⭐⭐⭐ |
| 神经网络类比 | 通过多层神经网络拟合复杂数据,如房价预测,参数为学习后的系数 | 连接线权重可以理解为参数 | ⭐⭐⭐ |
| 主流大模型对比 | GPT、Gemini、DeepSeek 等模型有不同上下文窗口和 API 计费方式 | Token 限制与 Token 收费标准 | ⭐⭐⭐ |
| 分词器 Tokenizer 示例 | 将“今天的天气很好”拆分为多个 Token | 相同 Token 通常对应固定 Token ID | ⭐⭐ |
| Prompt 工程预告 | 后续学习 Prompt 设计方法,也就是输入指令优化 | 科学使用 Prompt 可以提升模型输出质量 | ⭐⭐ |
十三、重点回顾
1. 大语言模型是什么?
大语言模型是基于 Transformer 架构,通过海量文本和大量参数训练出来的语言模型。
它可以理解和生成自然语言。
2. Token 是什么?
Token 是模型处理文本的最小单位。
一句话会先被 Tokenizer 拆分成 Token,再转换成数字 ID,最后送入模型计算。
3. 参数是什么?
参数是模型内部可学习的变量。
它类似线性函数中的斜率和截距,也类似房价预测公式中的各种系数。
在神经网络中,参数主要表现为权重和偏置。
4. Token 和参数有什么区别?
简单理解:
text
Token 是输入模型的原材料
参数是模型内部的思考方式二者共同决定模型的理解和生成能力。
5. 为什么大模型需要大量 Token 和参数?
因为语言和现实世界非常复杂。
模型需要通过大量 Token 学习语言规律,也需要大量参数存储和表达这些规律。
因此,大模型通常具有:
- 万亿级训练 Token
- 亿级到万亿级参数
十四、总结
大语言模型的能力主要来自两个方面:
text
海量 Token 数据 + 大规模模型参数Token 决定了模型如何接收和输出文本,参数决定了模型如何理解、推理和生成内容。
从线性函数到房价预测,再到神经网络,我们可以逐步理解参数的作用:
text
简单规律 → 多因素影响 → 神经网络拟合复杂关系GPT、Gemini、DeepSeek 等大模型,本质上都是通过海量数据和大量参数学习语言规律,然后根据上下文不断预测下一个 Token,最终生成看起来连贯、合理的回答。
下一步学习重点可以放在 Prompt 工程,也就是如何设计更好的输入指令,让大语言模型输出更准确、更符合需求的内容。