Skip to content

大语言模型及其核心概念

一、大语言模型的能力来源

大语言模型(Large Language Model,LLM)是一类基于海量文本数据训练出来的人工智能模型。

它能够完成:

  • 文本理解
  • 文本生成
  • 问答对话
  • 翻译润色
  • 代码生成
  • 信息总结

常见的大语言模型包括:

  • GPT 系列
  • Gemini
  • DeepSeek
  • Kimi
  • 豆包
  • 通义千问
  • 文心一言

二、大语言模型的基础架构

1. Transformer 架构

大语言模型通常基于 Transformer 架构。

例如 GPT 系列,全称是:

text
Generative Pre-trained Transformer

也就是:

text
生成式预训练 Transformer

其中:

  • Generative:生成式,表示模型可以生成文本内容
  • Pre-trained:预训练,表示模型先通过大量数据进行训练
  • Transformer:一种适合处理语言序列的深度学习架构

2. 自回归语言模型

GPT 这类模型属于自回归语言模型。

它的基本工作方式是:

text
根据前面的内容 → 预测下一个词 → 再继续预测下一个词

例如:

text
今天的天气很

模型可能预测下一个词是:

text

于是形成:

text
今天的天气很好

大语言模型就是通过不断预测下一个词,逐步生成完整回答。


三、大模型的训练目标

1. 通过海量文本学习语言规律

大语言模型的训练目标,是通过海量文本学习“下一个词”的概率分布。

也就是说,模型会不断学习:

text
在某段文字后面,最可能出现什么内容?

例如:

text
中国的首都是

模型经过训练后,会知道后面很可能是:

text
北京

2. 输出方式:逐词生成

大语言模型不是一次性生成完整答案,而是逐词生成。

基本过程如下:

text
输入问题 → 模型预测第一个词 → 预测第二个词 → 继续生成 → 得到完整回答

所以我们看到 AI 回答时,常常像“打字机”一样,一个词一个词地输出。


四、训练数据:无标注文本与有标注文本

1. 无标注文本

无标注文本指的是没有额外人工标签的原始文本。

例如:

text
今天北京天气很好。

它只是普通文本,没有特别标注出其中的地名、情绪、人物等信息。

大模型在预训练阶段主要使用大量无标注文本,从中学习语言规律、知识结构和表达方式。


2. 有标注文本

有标注文本是在原始文本基础上添加了额外标识的数据。

例如:

text
今天[地名:北京]天气很好。

或者:

text
这部电影太精彩了。[情绪:正面]

常见标注内容包括:

  • 地名
  • 人名
  • 情绪标签
  • 分类标签
  • 意图标签

3. 二者区别

类型含义示例
无标注文本原始文本,没有额外标签今天北京天气很好。
有标注文本添加了人工或规则标签的数据今天[地名:北京]天气很好。
主要作用适合大规模预训练适合分类、识别、监督学习等任务

五、Token:词元

1. Token 的定义

Token 可以理解为模型处理文本的最小单位。

原始文本不会直接被模型理解,而是要先通过分词器(Tokenizer)拆分成一个个 Token。

例如:

text
今天的天气很好

可能会被拆分为:

text
今天 / 的 / 天气 / 很好

这里每一段就是一个 Token。


2. Token 的组成

每个 Token 通常包含两个部分:

  • Token 文本
  • Token ID

例如:

text
天气 → 167823

也就是说,模型真正处理的不是中文字符本身,而是这些 Token 对应的数字 ID。

可以理解为:

text
文本 → Token → Token ID → 模型计算

3. Token 的切分逻辑

Token 的切分不是简单按照“字”或“词”来切,而是和词语出现频率、共现概率有关。

(1)高频共现词组更可能合并

如果某些字经常一起出现,就更可能被合并成一个 Token。

例如:

text
苹果

因为“苹果”是高频词,所以更可能作为一个整体 Token。


(2)低频组合更可能被拆分

如果某些组合不常见,就可能被拆成多个 Token。

例如:

text
苹果西瓜

可能被拆成:

text
苹果西 / 瓜

或者其他组合形式。

这说明 Token 的切分受训练语料中的共现频率影响。


(3)常用介词、语气词可能单独成 Token

一些常见字或语气词也可能单独成为 Token。

例如:

text



这些词在语言中非常常见,模型可能会将它们单独处理。


六、Tokenizer 示例

1. 示例一

原句:

text
今天的天气很好

可能被拆分为 4 个 Token:

text
今天 / 的 / 天气 / 很好

该句共有 7 个中文字符。


2. 示例二

原句:

text
今天天气很好

由于缺少“的”,分词结果可能发生变化。

例如可能被拆分为:

text
今天 / 天气 / 很好

也可能出现其他组合,例如:

text
天天 / 气 / 很好

这体现了 Token 切分会受到上下文和共现概率影响。


3. Token ID 一致性

相同词汇在同一分词器中通常会对应相同的 Token ID。

例如:

text
天气 → 167823

如果多个句子中都出现“天气”,并且都被切分为同一个 Token,那么它们通常会对应同一个 Token ID。


七、主流大模型的 Token 规模

大语言模型训练时会使用海量 Token。

这些 Token 来自:

  • 预训练语料库
  • 网页文本
  • 书籍
  • 论文
  • 代码
  • 部分交互数据

1. 规模参考

主流大模型的训练 Token 数通常达到万亿级别。

例如:

模型训练 Token 规模
GPT-3约 3000 亿 Tokens
GPT-4约 1 万亿 Tokens
其他主流 LLM通常也在千亿到万亿级别

模型 Token 规模仍在持续增长。


2. 查询工具

可以通过一些模型排行榜网站查看不同模型的能力、上下文长度和价格等信息。

例如:

text
artificialanalysis.ai

这类网站通常会对比:

  • 模型能力
  • 推理速度
  • 上下文窗口
  • API 价格
  • 综合排名

八、Parameters:参数

1. 参数的定义

参数(Parameters)是模型内部可以被学习和调整的变量。

在深度学习中,参数通常包括:

  • 权重
  • 偏置

它们决定了模型如何根据输入得到输出。

可以简单理解为:

text
Token 是模型吃进去的原材料
参数是模型内部形成的思考方式

2. 用线性函数理解参数

可以用初中数学中的线性函数来类比参数。

线性函数公式:

text
y = ax + b

其中:

  • x:输入
  • y:输出
  • a:斜率
  • b:截距

在这个例子中,a 和 b 就类似于模型的参数。

模型训练的过程,就是不断调整参数,让预测结果更接近真实结果。


3. 样本越多,参数越准确

如果只有少量样本,模型很难找到准确规律。

如果样本越来越多,模型就可以更好地拟合数据。

可以理解为:

text
样本越多 → 参数越准确 → 模型预测越接近真实情况

拟合距离越小,说明模型越准确。


九、房价预测例题:理解参数优化

1. 简单模型

最简单的房价预测模型可以写成:

text
房价 = 20000 × 平方数

这里的 20000 就是一个参数。

它表示每平方米大约 20000 元。


2. 加入地理位置因素

但房价并不只由面积决定。

例如,可以加入交通站点数量:

text
房价 = 20000 × 平方数 + 50000 × 交通站点数

这里又增加了一个参数:

text
50000

它表示每多一个交通站点,房价可能增加一定数值。


3. 引入更多特征

真实房价会受到更多因素影响,例如:

  • 房龄
  • 房间数
  • 朝向
  • 学区
  • 楼层
  • 装修情况
  • 周边配套

因此,模型需要引入更多特征和更多参数。

可以理解为:

text
特征越多 → 参数越多 → 模型表达能力越强

十、神经网络中的参数

1. 神经网络建模

当问题变得复杂时,可以使用神经网络建模。

例如一个三层神经网络结构:

text
输入层:2 个节点
隐藏层:5 个节点
输出层:1 个节点

可以表示为:

text
2 - 5 - 1

2. 连接线就是参数

神经网络中,每一层节点之间的连接线都有对应的权重。

这些权重就是参数。

例如:

text
输入节点 → 隐藏节点 → 输出节点

每条连接线都有自己的参数,模型训练就是不断调整这些参数。


3. 参数规模

现代大模型的参数规模非常庞大。

参数数量通常达到:

  • 亿级
  • 百亿级
  • 千亿级
  • 万亿级

例如:

模型参数规模
GPT-3约 1750 亿参数
GPT-4约 1 万亿参数
现代主流大模型通常在亿级至万亿级之间

十一、Token 与参数的关系

1. Token 是原材料

Token 是模型处理文本的基本单位。

用户输入的文字会先被拆分成 Token,再转换成 Token ID,最后送入模型计算。

可以理解为:

text
Token = 模型的原材料

2. Parameters 是思考方式

参数是模型内部经过训练得到的权重和偏置。

它们决定模型如何理解输入、如何预测下一个 Token、如何生成回答。

可以理解为:

text
Parameters = 模型的思考方式

3. 二者共同决定模型表现

Token 和参数不是同一个概念,但它们共同影响模型性能。

概念本质作用
Token文本被切分后的最小处理单元决定输入输出形式
Parameters模型内部可学习变量决定模型如何理解和生成
二者关系Token 是原材料,参数是处理方式共同影响模型表现

十二、知识小结

知识点核心内容考试重点 / 易混淆点难度系数
LLM 大语言模型定义Large Language Model,基于 Transformer 的自回归语言模型,如 GPT 系列,通过海量数据和庞大参数实现类人语言理解与生成能力GPT 是 Generative Pre-trained Transformer⭐⭐
大模型训练目标通过无标注文本学习下一个词的概率分布,输出为逐词生成无标注文本 vs 有标注文本的区别⭐⭐
Token 概念模型处理文本的最小单位,由分词器 Tokenizer 拆分,类似“词元”Token 不是简单等于字或词⭐⭐⭐
参数 Parameters深度学习模型中的可学习变量,如线性函数中的斜率 a 和截距 b参数规模与模型性能有关,但不是唯一决定因素⭐⭐⭐⭐
神经网络类比通过多层神经网络拟合复杂数据,如房价预测,参数为学习后的系数连接线权重可以理解为参数⭐⭐⭐
主流大模型对比GPT、Gemini、DeepSeek 等模型有不同上下文窗口和 API 计费方式Token 限制与 Token 收费标准⭐⭐⭐
分词器 Tokenizer 示例将“今天的天气很好”拆分为多个 Token相同 Token 通常对应固定 Token ID⭐⭐
Prompt 工程预告后续学习 Prompt 设计方法,也就是输入指令优化科学使用 Prompt 可以提升模型输出质量⭐⭐

十三、重点回顾

1. 大语言模型是什么?

大语言模型是基于 Transformer 架构,通过海量文本和大量参数训练出来的语言模型。

它可以理解和生成自然语言。


2. Token 是什么?

Token 是模型处理文本的最小单位。

一句话会先被 Tokenizer 拆分成 Token,再转换成数字 ID,最后送入模型计算。


3. 参数是什么?

参数是模型内部可学习的变量。

它类似线性函数中的斜率和截距,也类似房价预测公式中的各种系数。

在神经网络中,参数主要表现为权重和偏置。


4. Token 和参数有什么区别?

简单理解:

text
Token 是输入模型的原材料
参数是模型内部的思考方式

二者共同决定模型的理解和生成能力。


5. 为什么大模型需要大量 Token 和参数?

因为语言和现实世界非常复杂。

模型需要通过大量 Token 学习语言规律,也需要大量参数存储和表达这些规律。

因此,大模型通常具有:

  • 万亿级训练 Token
  • 亿级到万亿级参数

十四、总结

大语言模型的能力主要来自两个方面:

text
海量 Token 数据 + 大规模模型参数

Token 决定了模型如何接收和输出文本,参数决定了模型如何理解、推理和生成内容。

从线性函数到房价预测,再到神经网络,我们可以逐步理解参数的作用:

text
简单规律 → 多因素影响 → 神经网络拟合复杂关系

GPT、Gemini、DeepSeek 等大模型,本质上都是通过海量数据和大量参数学习语言规律,然后根据上下文不断预测下一个 Token,最终生成看起来连贯、合理的回答。

下一步学习重点可以放在 Prompt 工程,也就是如何设计更好的输入指令,让大语言模型输出更准确、更符合需求的内容。