LLM 学习笔记

一、核心思想与实现途径

（一）核心思想

尝试通过模拟人类大脑的工作流程来训练一个计算机模型。

人类大脑的工作流程：阅读时根据某个词的上下文来判断和理解这个词的意思，尽管每个词都会有不同的意思和语义，但一旦被放入一个句子中，几乎所有的词的意思和语义都会被固定下来。

（二）实现途径

理解语义

首先，模型将输入文本拆分为最小语义单位（token），并将每个 token 映射为高维空间中的一个向量。通过在海量语料上进行训练，模型调整其参数，为这些向量赋予丰富的语义。

例如，在句子 "The bank robber fled to the river bank." 中，bank 这个 token 的初始向量是由“河岸”与“银行”等所有语境下的用法共同决定的，使其在向量空间中处于 “river” 和 “money” 等相关概念构成的区域之间。

理解上下文

接着，为确定每个 token 在具体语境下的精确含义，模型采用自注意力机制。以上述 bank 为例，初始时两个 bank 向量完全相同。目标是通过数学变换，将与 robber 相邻的 bank 向量向“金融”语义区域移动，而将与 river 相邻的 bank 向量向“地理”语义区域移动。

实现方式如下：模型引入三个可训练的线性变换矩阵（ $W^Q, W^K, W^V$ ），将每个 token 向量分别投影至查询（Query）、键（Key）、值（Value）三个子空间。

查询与匹配：第一个 bank 的查询向量（）会与句中所有 token 的键向量（）进行点积运算，以计算相关性。由于提供了强烈的“金融”语境，训练好的模型会使得与的方向高度接近，其点积结果远大于与的点积。

LLM 学习笔记

一、核心思想与实现途径

（一）核心思想

（二）实现途径

理解语义

理解上下文

二、Transformer 架构的思想突破

（一）并行化与全局视野

（二）归纳偏置的极简主义

（三）迭代式精炼

（四）解耦的智慧

三、核心缺陷

（一）缺乏真实世界模型与推理能力

（二）自回归的“近视”与缺乏规划能力

（三）暴力美学与学习效率低下

（四）不可解释性与不可控性

四、注意力机制（Attention Mechanism）

（一）自注意力（Self-Attention）

（二）多头注意力（Multi-Head Attention）

五、Transformer 架构

（一）核心组件

编码器块（Encoder Block）

解码器块（Decoder Block）

（二）工作流程

训练（以翻译任务为例）

推理（生成文本）