大语言模型及其核心概念

一、大语言模型的能力来源

大语言模型（Large Language Model，LLM）是一类基于海量文本数据训练出来的人工智能模型。

它能够完成：

文本理解
文本生成
问答对话
翻译润色
代码生成
信息总结

常见的大语言模型包括：

GPT 系列
Gemini
DeepSeek
Kimi
豆包
通义千问
文心一言

二、大语言模型的基础架构

1. Transformer 架构

大语言模型通常基于 Transformer 架构。

例如 GPT 系列，全称是：

text

Generative Pre-trained Transformer

也就是：

text

生成式预训练 Transformer

其中：

Generative：生成式，表示模型可以生成文本内容
Pre-trained：预训练，表示模型先通过大量数据进行训练
Transformer：一种适合处理语言序列的深度学习架构

2. 自回归语言模型

GPT 这类模型属于自回归语言模型。

它的基本工作方式是：

text

根据前面的内容 → 预测下一个词 → 再继续预测下一个词

例如：

text

今天的天气很

模型可能预测下一个词是：

text

好

于是形成：

text

今天的天气很好

大语言模型就是通过不断预测下一个词，逐步生成完整回答。

三、大模型的训练目标

1. 通过海量文本学习语言规律

大语言模型的训练目标，是通过海量文本学习“下一个词”的概率分布。

也就是说，模型会不断学习：

text

在某段文字后面，最可能出现什么内容？

例如：

text

中国的首都是

模型经过训练后，会知道后面很可能是：

text

北京

2. 输出方式：逐词生成

大语言模型不是一次性生成完整答案，而是逐词生成。

基本过程如下：

text

输入问题 → 模型预测第一个词 → 预测第二个词 → 继续生成 → 得到完整回答

所以我们看到 AI 回答时，常常像“打字机”一样，一个词一个词地输出。

四、训练数据：无标注文本与有标注文本

1. 无标注文本

无标注文本指的是没有额外人工标签的原始文本。

例如：

text

今天北京天气很好。

它只是普通文本，没有特别标注出其中的地名、情绪、人物等信息。

大模型在预训练阶段主要使用大量无标注文本，从中学习语言规律、知识结构和表达方式。

2. 有标注文本

有标注文本是在原始文本基础上添加了额外标识的数据。

例如：

text

今天[地名：北京]天气很好。

或者：

text

这部电影太精彩了。[情绪：正面]

常见标注内容包括：

地名
人名
情绪标签
分类标签
意图标签

3. 二者区别

类型	含义	示例
无标注文本	原始文本，没有额外标签	今天北京天气很好。
有标注文本	添加了人工或规则标签的数据	今天[地名：北京]天气很好。
主要作用	适合大规模预训练	适合分类、识别、监督学习等任务

五、Token：词元

1. Token 的定义

Token 可以理解为模型处理文本的最小单位。

原始文本不会直接被模型理解，而是要先通过分词器（Tokenizer）拆分成一个个 Token。

例如：

text

今天的天气很好

可能会被拆分为：

text

今天 / 的 / 天气 / 很好

这里每一段就是一个 Token。

2. Token 的组成

每个 Token 通常包含两个部分：

Token 文本
Token ID

例如：

text

天气 → 167823

也就是说，模型真正处理的不是中文字符本身，而是这些 Token 对应的数字 ID。

可以理解为：

text

文本 → Token → Token ID → 模型计算

3. Token 的切分逻辑

Token 的切分不是简单按照“字”或“词”来切，而是和词语出现频率、共现概率有关。

（1）高频共现词组更可能合并

如果某些字经常一起出现，就更可能被合并成一个 Token。

例如：

text

苹果

因为“苹果”是高频词，所以更可能作为一个整体 Token。

（2）低频组合更可能被拆分

如果某些组合不常见，就可能被拆成多个 Token。

例如：

text

苹果西瓜

可能被拆成：

text

苹果西 / 瓜

或者其他组合形式。

这说明 Token 的切分受训练语料中的共现频率影响。

（3）常用介词、语气词可能单独成 Token

一些常见字或语气词也可能单独成为 Token。

例如：

text

也
哦
的
了

这些词在语言中非常常见，模型可能会将它们单独处理。

六、Tokenizer 示例

1. 示例一

原句：

text

今天的天气很好

可能被拆分为 4 个 Token：

text

今天 / 的 / 天气 / 很好

该句共有 7 个中文字符。

2. 示例二

原句：

text

今天天气很好

由于缺少“的”，分词结果可能发生变化。

例如可能被拆分为：

text

今天 / 天气 / 很好

也可能出现其他组合，例如：

text

天天 / 气 / 很好

这体现了 Token 切分会受到上下文和共现概率影响。

3. Token ID 一致性

相同词汇在同一分词器中通常会对应相同的 Token ID。

例如：

text

天气 → 167823

如果多个句子中都出现“天气”，并且都被切分为同一个 Token，那么它们通常会对应同一个 Token ID。

七、主流大模型的 Token 规模

大语言模型训练时会使用海量 Token。

这些 Token 来自：

预训练语料库
网页文本
书籍
论文
代码
部分交互数据

1. 规模参考

主流大模型的训练 Token 数通常达到万亿级别。

例如：

模型	训练 Token 规模
GPT-3	约 3000 亿 Tokens
GPT-4	约 1 万亿 Tokens
其他主流 LLM	通常也在千亿到万亿级别

模型 Token 规模仍在持续增长。

2. 查询工具

可以通过一些模型排行榜网站查看不同模型的能力、上下文长度和价格等信息。

例如：

text

artificialanalysis.ai

这类网站通常会对比：

模型能力
推理速度
上下文窗口
API 价格
综合排名

八、Parameters：参数

1. 参数的定义

参数（Parameters）是模型内部可以被学习和调整的变量。

在深度学习中，参数通常包括：

权重
偏置

它们决定了模型如何根据输入得到输出。

可以简单理解为：

text

Token 是模型吃进去的原材料
参数是模型内部形成的思考方式

2. 用线性函数理解参数

可以用初中数学中的线性函数来类比参数。

线性函数公式：

text

y = ax + b

其中：

x：输入
y：输出
a：斜率
b：截距

在这个例子中，a 和 b 就类似于模型的参数。

模型训练的过程，就是不断调整参数，让预测结果更接近真实结果。

3. 样本越多，参数越准确

如果只有少量样本，模型很难找到准确规律。

如果样本越来越多，模型就可以更好地拟合数据。

可以理解为：

text

样本越多 → 参数越准确 → 模型预测越接近真实情况

拟合距离越小，说明模型越准确。

九、房价预测例题：理解参数优化

1. 简单模型

最简单的房价预测模型可以写成：

text

房价 = 20000 × 平方数

这里的 20000 就是一个参数。

它表示每平方米大约 20000 元。

2. 加入地理位置因素

但房价并不只由面积决定。

例如，可以加入交通站点数量：

text

房价 = 20000 × 平方数 + 50000 × 交通站点数

这里又增加了一个参数：

text

它表示每多一个交通站点，房价可能增加一定数值。

3. 引入更多特征

真实房价会受到更多因素影响，例如：

房龄
房间数
朝向
学区
楼层
装修情况
周边配套

因此，模型需要引入更多特征和更多参数。

可以理解为：

text

特征越多 → 参数越多 → 模型表达能力越强

十、神经网络中的参数

1. 神经网络建模

当问题变得复杂时，可以使用神经网络建模。

例如一个三层神经网络结构：

text

输入层：2 个节点
隐藏层：5 个节点
输出层：1 个节点

可以表示为：

text

2 - 5 - 1

2. 连接线就是参数

神经网络中，每一层节点之间的连接线都有对应的权重。

这些权重就是参数。

例如：

text

输入节点 → 隐藏节点 → 输出节点

每条连接线都有自己的参数，模型训练就是不断调整这些参数。

3. 参数规模

现代大模型的参数规模非常庞大。

参数数量通常达到：

亿级
百亿级
千亿级
万亿级

例如：

模型	参数规模
GPT-3	约 1750 亿参数
GPT-4	约 1 万亿参数
现代主流大模型	通常在亿级至万亿级之间

十一、Token 与参数的关系

1. Token 是原材料

Token 是模型处理文本的基本单位。

用户输入的文字会先被拆分成 Token，再转换成 Token ID，最后送入模型计算。

可以理解为：

text

Token = 模型的原材料

2. Parameters 是思考方式

参数是模型内部经过训练得到的权重和偏置。

它们决定模型如何理解输入、如何预测下一个 Token、如何生成回答。

可以理解为：

text

Parameters = 模型的思考方式

3. 二者共同决定模型表现

Token 和参数不是同一个概念，但它们共同影响模型性能。

概念	本质	作用
Token	文本被切分后的最小处理单元	决定输入输出形式
Parameters	模型内部可学习变量	决定模型如何理解和生成
二者关系	Token 是原材料，参数是处理方式	共同影响模型表现

十二、知识小结

知识点	核心内容	考试重点 / 易混淆点	难度系数
LLM 大语言模型定义	Large Language Model，基于 Transformer 的自回归语言模型，如 GPT 系列，通过海量数据和庞大参数实现类人语言理解与生成能力	GPT 是 Generative Pre-trained Transformer	⭐⭐
大模型训练目标	通过无标注文本学习下一个词的概率分布，输出为逐词生成	无标注文本 vs 有标注文本的区别	⭐⭐
Token 概念	模型处理文本的最小单位，由分词器 Tokenizer 拆分，类似“词元”	Token 不是简单等于字或词	⭐⭐⭐
参数 Parameters	深度学习模型中的可学习变量，如线性函数中的斜率 a 和截距 b	参数规模与模型性能有关，但不是唯一决定因素	⭐⭐⭐⭐
神经网络类比	通过多层神经网络拟合复杂数据，如房价预测，参数为学习后的系数	连接线权重可以理解为参数	⭐⭐⭐
主流大模型对比	GPT、Gemini、DeepSeek 等模型有不同上下文窗口和 API 计费方式	Token 限制与 Token 收费标准	⭐⭐⭐
分词器 Tokenizer 示例	将“今天的天气很好”拆分为多个 Token	相同 Token 通常对应固定 Token ID	⭐⭐
Prompt 工程预告	后续学习 Prompt 设计方法，也就是输入指令优化	科学使用 Prompt 可以提升模型输出质量	⭐⭐

十三、重点回顾

1. 大语言模型是什么？

大语言模型是基于 Transformer 架构，通过海量文本和大量参数训练出来的语言模型。

它可以理解和生成自然语言。

2. Token 是什么？

Token 是模型处理文本的最小单位。

一句话会先被 Tokenizer 拆分成 Token，再转换成数字 ID，最后送入模型计算。

3. 参数是什么？

参数是模型内部可学习的变量。

它类似线性函数中的斜率和截距，也类似房价预测公式中的各种系数。

在神经网络中，参数主要表现为权重和偏置。

4. Token 和参数有什么区别？

简单理解：

text

Token 是输入模型的原材料
参数是模型内部的思考方式

二者共同决定模型的理解和生成能力。

5. 为什么大模型需要大量 Token 和参数？

因为语言和现实世界非常复杂。

模型需要通过大量 Token 学习语言规律，也需要大量参数存储和表达这些规律。

因此，大模型通常具有：

万亿级训练 Token
亿级到万亿级参数

十四、总结

大语言模型的能力主要来自两个方面：

text

海量 Token 数据 + 大规模模型参数

Token 决定了模型如何接收和输出文本，参数决定了模型如何理解、推理和生成内容。

从线性函数到房价预测，再到神经网络，我们可以逐步理解参数的作用：

text

简单规律 → 多因素影响 → 神经网络拟合复杂关系

GPT、Gemini、DeepSeek 等大模型，本质上都是通过海量数据和大量参数学习语言规律，然后根据上下文不断预测下一个 Token，最终生成看起来连贯、合理的回答。

下一步学习重点可以放在 Prompt 工程，也就是如何设计更好的输入指令，让大语言模型输出更准确、更符合需求的内容。

大语言模型及其核心概念 ​

一、大语言模型的能力来源 ​

二、大语言模型的基础架构 ​

1. Transformer 架构 ​

2. 自回归语言模型 ​

三、大模型的训练目标 ​

1. 通过海量文本学习语言规律 ​

2. 输出方式：逐词生成 ​

四、训练数据：无标注文本与有标注文本 ​

1. 无标注文本 ​

2. 有标注文本 ​

3. 二者区别 ​

五、Token：词元 ​

1. Token 的定义 ​

2. Token 的组成 ​

3. Token 的切分逻辑 ​

（1）高频共现词组更可能合并 ​

（2）低频组合更可能被拆分 ​

（3）常用介词、语气词可能单独成 Token ​

六、Tokenizer 示例 ​

1. 示例一 ​

2. 示例二 ​

3. Token ID 一致性 ​

七、主流大模型的 Token 规模 ​

1. 规模参考 ​

2. 查询工具 ​

八、Parameters：参数 ​

1. 参数的定义 ​

2. 用线性函数理解参数 ​

3. 样本越多，参数越准确 ​

九、房价预测例题：理解参数优化 ​

1. 简单模型 ​

2. 加入地理位置因素 ​

3. 引入更多特征 ​

十、神经网络中的参数 ​

1. 神经网络建模 ​

2. 连接线就是参数 ​

3. 参数规模 ​

十一、Token 与参数的关系 ​

1. Token 是原材料 ​

2. Parameters 是思考方式 ​

3. 二者共同决定模型表现 ​

十二、知识小结 ​

十三、重点回顾 ​

1. 大语言模型是什么？ ​

2. Token 是什么？ ​

3. 参数是什么？ ​

4. Token 和参数有什么区别？ ​

5. 为什么大模型需要大量 Token 和参数？ ​

十四、总结 ​

大语言模型及其核心概念

一、大语言模型的能力来源

二、大语言模型的基础架构

1. Transformer 架构

2. 自回归语言模型

三、大模型的训练目标

1. 通过海量文本学习语言规律

2. 输出方式：逐词生成

四、训练数据：无标注文本与有标注文本

1. 无标注文本

2. 有标注文本

3. 二者区别

五、Token：词元

1. Token 的定义

2. Token 的组成

3. Token 的切分逻辑

（1）高频共现词组更可能合并

（2）低频组合更可能被拆分

（3）常用介词、语气词可能单独成 Token

六、Tokenizer 示例

1. 示例一

2. 示例二

3. Token ID 一致性

七、主流大模型的 Token 规模

1. 规模参考

2. 查询工具

八、Parameters：参数

1. 参数的定义

2. 用线性函数理解参数

3. 样本越多，参数越准确

九、房价预测例题：理解参数优化

1. 简单模型

2. 加入地理位置因素

3. 引入更多特征

十、神经网络中的参数

1. 神经网络建模

2. 连接线就是参数

3. 参数规模

十一、Token 与参数的关系

1. Token 是原材料

2. Parameters 是思考方式

3. 二者共同决定模型表现

十二、知识小结

十三、重点回顾

1. 大语言模型是什么？

2. Token 是什么？

3. 参数是什么？

4. Token 和参数有什么区别？

5. 为什么大模型需要大量 Token 和参数？

十四、总结