🤖 AI / ML

LLM 在训练过程中如何变得更连贯How an LLM becomes more coherent as we train it

gilesthomas.com·2026-04-17

作者训练了一个拥有1.63亿参数的 GPT-2-small 风格语言模型，在约32亿 tokens（约12.8 GiB文本）上进行训练，观察其输出质量随训练轮次的变化。结果显示，随着训练进行，模型的输出逐渐变得更加连贯、逻辑清晰，验证了现代基于 Transformer 的 LLM 在训练过程中确实展现出类似 RNN 的渐进式改进模式。

阅读原文

Giles Thomas

归档

分类目录

友情链接

发布于 2026年4月17日在 AI

我记得当安德烈·卡帕西（Andrej Karpathy）在2015年发表关于循环神经网络（RNNs）的文章并举例说明训练过程中输出如何逐步改善时，我对此感到很有趣。那么，对于一个（相对）现代的基于 Transformer 的大型语言模型（LLM），这个过程会是什么样子的呢？

我最近训练了一个类似 GPT-2-small 的 LLM，拥有1.63亿参数，使用了来自 Hugging Face FineWeb 数据集的约32亿个词元（token）（大约相当于12.8 GiB的文本），在整个训练过程中，我定期保存当前模型——共保存了2天内生成的57个检查点（checkpoint）。

下面就是它的样子——包括开始、结束以及中间一些有趣的节点。

对于每个检查点，我让它生成对“Every effort moves you”这句话的续写。1 当模型刚创建时，尚未进行任何训练，它给出的结果是：

Every effort moves youhhhh esoteric Suns 1896ricia enormous initially
speculative arenaelse anth Zimmerman Insight Sketch demonstr despicable
capitalists clamp flung condemnation

如果你读过卡帕西的论文，你会注意到一个重要的区别——它里面已经包含了一些词语。他的 RNNs 在这个阶段还在生成完整的噪声。即使在第100次迭代时，他举的例子也像是这样：

tyntd-iafhatawiaoihrdemot  lytdws  e ,tfti, astai f ogoh eoase rrranbyne
'nhthnee e plia tklrgd t o idoe ns,smtt   h ne etie h,hregtrs nigtike,aoaenns lng

这与他所讨论的 RNNs 之间的一个重要区别在于，那些是基于字符的模型，需要学习词语等概念；而像这样的 LLM 则是将文本作为输入，然后逐词元（token）地输出结果。（更多信息请参见此处）。

尽管如此，尽管看起来像是词语，但它本质上仍然是一堆毫无结构和连贯性的内容空洞的词元沙拉。2 让我们看看如果继续训练会发生什么变化。

在我的训练循环中，每次处理96个长度为1,024词元的序列，然后根据损失值（即预测下一个词元出错程度的指标）更新模型，这意味着每一步涉及98,304个词元。经过617步之后，它似乎已经大致学会了哪些词元最常见：

Every effort moves you and to was, in the, a, The
 your of- and
| to the The

到下一个检查点（第1,234步），我们开始看到一些有意义的东西浮现出来。虽然整体上还不通顺，但隐约透露出某种含义：

Every effort moves you’ll take the rest of the mainstay in all of his team. This
year with a

就在不久之后，在第2,468步的检查点处，我们得到了一个实际上具有一定意义（至少开头部分如此！）的内容！

Every effort moves you to a different country. For all the most part, a world
map can only see the world map

现在，我所使用的训练数据是从互联网上抓取而来的，毫不奇怪的是，其中充斥着大量略显俗套的商业内容。到了第9,255步，我们开始频繁出现这类内容：

Every effort moves you forward and it is important to make sure that your
clients are satisfied. A number of people have

...甚至更多廉价的自助类内容（第10,489步）：

Every effort moves you to be the best that you will ever have. To be your best,
you should be able to

公平地说，“Every effort moves you”这个起始句本身可能也在一定程度上影响了结果偏向于此方向。

但我们必须明确一点：此时它已经见过1,031,110,656个词元——也就是说，它大概完成了三分之一的训练量。而且它已经开始生成相当连贯的文字了！其余的训练过程主要是对已有知识进行精细化调整——这次训练的运行损失图表如下所示：

粗略地说，损失数值越低表示模型性能越好，因此你可以看到大部分改进在此阶段已经完成。从这时起，我将只展示几个更有趣的结果样本：

到第14,191步时，它开始使用项目符号列表……

Every effort moves you towards your goals.
- Develop meaningful habits or habits that promote your business
- Keep personal and

第24,680步——更多励志性质的内容：

Every effort moves you forward and keeps you motivated. You make sure you don’t
leave it alone.
A

第25,297步——像这样的小型模型确实喜欢重复自己。你可能还记得在2023年左右看到过 ChatGPT 输出的某些带有此类习惯性表达的内容：

Every effort moves you from a simple position to a complex issue of complexity
and complexity.
As soon as the book takes

再次出现在第26,531步

Every effort moves you, the company, the company, the community and all those
involved. I will be pleased to say

在第27,765步时，它在仅生成几个单词后就决定停止，并试图开始一个新的文档：

Every effort moves you to the next level.<|endoftext|>Hip Hop: The New York
Times, April 23, 2017

但第28,382步的表现其实相当不错。我特别喜欢其中的“however”一词的使用：

Every effort moves you, however, towards a better future, and that’s what counts
as a win.

最后，训练在步骤33164时结束，并伴随着这些警示性的话语：

Every effort moves you, and you’re rewarded, but not to your potential. You’ve
got to

这确实值得铭记，我相信我们都同意这一点。我很好奇，如果当时让它生成超过20个新词元，我们是否能获得更深层的智慧……

我刚接触这类模型时最感意外的是，即便是简单的语言模型也能迅速达到能生成看似合理文本的阶段。仅仅完成了三分之一的训练量，这个模型就已经开始表达某种意义了。

当然，问题在于我们不仅需要生成看似合理的文本——我们希望它说得通、内容正确。正因如此，才值得花时间完成剩下的三分之二训练——希望当你问它“法国的首都是”时，它能回答“巴黎”，而不是给出诸如“鲁昂”这样逻辑通顺却错误百出的答案。

技术细节：基于初始文本生成了20个GPT-2词元，温度参数设为1。为方便阅读样例，我已加入换行符。↩

它提到了“可鄙的资本家”，但我怀疑这只是随机性所致，而非某种原始的政治意识体现。从开头空格算起，这是GPT-2分词器中的第47034和第32663个词元。↩

因此，共处理了60,653,568个词元。↩

需要完整排版与评论请前往来源站点阅读。