返回 2026-04-17
🤖 AI / ML

LLM 在训练过程中如何变得更连贯How an LLM becomes more coherent as we train it

gilesthomas.com·2026-04-17

作者训练了一个拥有1.63亿参数的 GPT-2-small 风格语言模型,在约32亿 tokens(约12.8 GiB文本)上进行训练,观察其输出质量随训练轮次的变化。结果显示,随着训练进行,模型的输出逐渐变得更加连贯、逻辑清晰,验证了现代基于 Transformer 的 LLM 在训练过程中确实展现出类似 RNN 的渐进式改进模式。

Giles Thomas

归档

分类目录

友情链接

发布于 2026年4月17日 在 AI

我记得当安德烈·卡帕西(Andrej Karpathy)在2015年发表关于循环神经网络(RNNs)的文章并举例说明训练过程中输出如何逐步改善时,我对此感到很有趣。那么,对于一个(相对)现代的基于 Transformer 的大型语言模型(LLM),这个过程会是什么样子的呢?

我最近训练了一个类似 GPT-2-small 的 LLM,拥有1.63亿参数,使用了来自 Hugging Face FineWeb 数据集的约32亿个词元(token)(大约相当于12.8 GiB的文本),在整个训练过程中,我定期保存当前模型——共保存了2天内生成的57个检查点(checkpoint)。

下面就是它的样子——包括开始、结束以及中间一些有趣的节点。

对于每个检查点,我让它生成对“Every effort moves you”这句话的续写。1 当模型刚创建时,尚未进行任何训练,它给出的结果是:

Every effort moves youhhhh esoteric Suns 1896ricia enormous initially
speculative arenaelse anth Zimmerman Insight Sketch demonstr despicable
capitalists clamp flung condemnation

如果你读过卡帕西的论文,你会注意到一个重要的区别——它里面已经包含了一些词语。他的 RNNs 在这个阶段还在生成完整的噪声。即使在第100次迭代时,他举的例子也像是这样:

tyntd-iafhatawiaoihrdemot  lytdws  e ,tfti, astai f ogoh eoase rrranbyne
'nhthnee e plia tklrgd t o idoe ns,smtt   h ne etie h,hregtrs nigtike,aoaenns lng

这与他所讨论的 RNNs 之间的一个重要区别在于,那些是基于字符的模型,需要学习词语等概念;而像这样的 LLM 则是将文本作为输入,然后逐词元(token)地输出结果。(更多信息请参见此处)。

尽管如此,尽管看起来像是词语,但它本质上仍然是一堆毫无结构和连贯性的内容空洞的词元沙拉。2 让我们看看如果继续训练会发生什么变化。

在我的训练循环中,每次处理96个长度为1,024词元的序列,然后根据损失值(即预测下一个词元出错程度的指标)更新模型,这意味着每一步涉及98,304个词元。经过617步之后,它似乎已经大致学会了哪些词元最常见:

Every effort moves you and to was, in the, a, The
 your of- and
| to the The

到下一个检查点(第1,234步),我们开始看到一些有意义的东西浮现出来。虽然整体上还不通顺,但隐约透露出某种含义:

Every effort moves you’ll take the rest of the mainstay in all of his team. This
year with a

就在不久之后,在第2,468步的检查点处,我们得到了一个实际上具有一定意义(至少开头部分如此!)的内容!

Every effort moves you to a different country. For all the most part, a world
map can only see the world map

现在,我所使用的训练数据是从互联网上抓取而来的,毫不奇怪的是,其中充斥着大量略显俗套的商业内容。到了第9,255步,我们开始频繁出现这类内容:

Every effort moves you forward and it is important to make sure that your
clients are satisfied. A number of people have

...甚至更多廉价的自助类内容(第10,489步):

Every effort moves you to be the best that you will ever have. To be your best,
you should be able to

公平地说,“Every effort moves you”这个起始句本身可能也在一定程度上影响了结果偏向于此方向。

但我们必须明确一点:此时它已经见过1,031,110,656个词元——也就是说,它大概完成了三分之一的训练量。而且它已经开始生成相当连贯的文字了!其余的训练过程主要是对已有知识进行精细化调整——这次训练的运行损失图表如下所示:

粗略地说,损失数值越低表示模型性能越好,因此你可以看到大部分改进在此阶段已经完成。从这时起,我将只展示几个更有趣的结果样本:

到第14,191步时,它开始使用项目符号列表……

Every effort moves you towards your goals.
- Develop meaningful habits or habits that promote your business
- Keep personal and

第24,680步——更多励志性质的内容:

Every effort moves you forward and keeps you motivated. You make sure you don’t
leave it alone.
A

第25,297步——像这样的小型模型确实喜欢重复自己。你可能还记得在2023年左右看到过 ChatGPT 输出的某些带有此类习惯性表达的内容:

Every effort moves you from a simple position to a complex issue of complexity
and complexity.
As soon as the book takes

再次出现在第26,531步

Every effort moves you, the company, the company, the community and all those
involved. I will be pleased to say

在第27,765步时,它在仅生成几个单词后就决定停止,并试图开始一个新的文档:

Every effort moves you to the next level.<|endoftext|>Hip Hop: The New York
Times, April 23, 2017

但第28,382步的表现其实相当不错。我特别喜欢其中的“however”一词的使用:

Every effort moves you, however, towards a better future, and that’s what counts
as a win.

最后,训练在步骤33164时结束,并伴随着这些警示性的话语:

Every effort moves you, and you’re rewarded, but not to your potential. You’ve
got to

这确实值得铭记,我相信我们都同意这一点。我很好奇,如果当时让它生成超过20个新词元,我们是否能获得更深层的智慧……

我刚接触这类模型时最感意外的是,即便是简单的语言模型也能迅速达到能生成看似合理文本的阶段。仅仅完成了三分之一的训练量,这个模型就已经开始表达某种意义了。

当然,问题在于我们不仅需要生成看似合理的文本——我们希望它说得通、内容正确。正因如此,才值得花时间完成剩下的三分之二训练——希望当你问它“法国的首都是”时,它能回答“巴黎”,而不是给出诸如“鲁昂”这样逻辑通顺却错误百出的答案。

  • 技术细节:基于初始文本生成了20个GPT-2词元,温度参数设为1。为方便阅读样例,我已加入换行符。↩
  • 它提到了“可鄙的资本家”,但我怀疑这只是随机性所致,而非某种原始的政治意识体现。从开头空格算起,这是GPT-2分词器中的第47034和第32663个词元。↩
  • 因此,共处理了60,653,568个词元。↩
  • 需要完整排版与评论请前往来源站点阅读。