Transformer 中的 “作弊”

#2025/12/25 #ai

在 Transformer 模型的训练中，所谓的“作弊”（学术用语叫信息泄露，Information Leakage），

本质上是模型走了一条“逻辑捷径”，导致它并没有真正学会理解语言，而只是学会了“偷看答案”。

1. 场景还原：考试时的“印刷错误”

想象一下，你正在参加一场英语填空考试，题目是：

题目：请根据前文，预测下一个单词：I ____ coding.

正常的逻辑：你需要根据 I 这个主语，去大脑里搜索动词，根据语境猜测可能是 love、hate 或 am。
“作弊”的情况：老师在发试卷时，不小心把完整的正确答案 I love coding 印在了题目的正下方。
模型的反应：
- AI 非常聪明且“懒惰”。它发现，只要往下瞄一眼，就能直接看到 I 后面跟着 love。
- 于是它根本不去学习语法，也不去思考逻辑，它只学会了一件事：“往右看一个位置，把那个词抄下来。”

你可能会问：模型训练时，为什么能看到后面的词？

这源于 Transformer 的核心优势——并行计算。

如果没有“掩码（Mask）”这块遮光板，当模型在计算 I 这个位置的注意力（Attention）时，它的扫描射线会扫过整句内存。它会发现 love 就在旁边。这就是“作弊”的物理基础。

如果允许模型在训练时作弊，会发生非常严重的事情：

训练分数（Accuracy）极高：
- 在训练阶段，模型预测的准确率接近 100%，Loss（误差）降得飞快。
推理能力（Inference）为零：
- 当你真正使用它（比如在对话框里输入 I）时，未来是不存在的。此时模型习惯性地想往右边偷看答案，结果发现右边是一片空白。
结果：模型彻底傻眼，开始胡言乱语，因为它在训练时从未学会“根据已有的词去推理”，它只学会了“根据后面的词去抄袭”。

为了防止这种“抄袭”行为，我们在训练时强制给模型带上一个“特殊的眼镜”：

这样，模型被迫只能利用左边的信息。当它在只有 I 的情况下成功猜出 love 时，它才算真正掌握了语言的规律。