介绍 talkie:一款来自1930年的13B参数复古语言模型Introducing talkie: a 13B vintage language model from 1930
Nick Levine、David Duvenaud 和 Alec Radford 联合推出名为 talkie-1930-13b-base 的130亿参数语言模型,模型大小达53.1 GB。该项目通过模拟1930年代的语言风格构建,旨在探索历史语境下的自然语言理解能力。这是继GPT系列后又一由知名研究者主导的前沿语言模型项目。
Simon Willison
推出 talkie:一款来自1930年的13B参数语言模型(via)。该项目由 Nick Levine、David Duvenaud 和 Alec Radford(GPT、GPT-2、Whisper 的开发者)联合发起。
talkie-1930-13b-base(53.1 GB)是一个“在2600亿个历史英文文本 token 上训练的13B语言模型”,其训练数据截止于1931年之前。
talkie-1930-13b-it(26.6 GB)是经过微调的检查点模型,“使用从1931年之前的参考著作中提取的指令-响应对数据集进行微调”,旨在驱动聊天界面。你可以在此处体验该模型。
这两个模型均采用 Apache 2.0 许可证发布。由于基础模型的训练数据完全处于版权保护范围之外(美国版权截止日期目前为1931年1月1日),我希望能看到他们后续也公开训练数据本身。
更新情况如下:Nick Levine 在推特上表示:
未来将公布更多关于语料库的信息(并尽力分享数据,或至少提供可复现该数据的脚本)。
他们的报告提出了一些关于此类模型极具启发性的研究方向,包括:
我一直对所谓的“纯素模型”(vegan models)——即完全基于授权或公有领域数据训练的LLM——抱有浓厚兴趣。我认为这里的基线模型符合这一标准,但聊天模型并不完全“纯净”,因为在微调过程中依赖了非纯素的现代大语言模型——此处强调部分原文如此:
首先,我们从具有固定结构的历史文本中生成了指令-响应对,例如礼仪手册、书信写作指南、食谱、词典、百科全书以及诗歌与寓言集(见图7),并以简单的对话格式在基础模型上进行微调。 接下来,为了提升遵循指令的能力,我们生成了涵盖多种任务类型的合成提示,如文档摘要、直接信息请求回应以及连贯地进行多轮对话。随后,我们使用 Claude Sonnet 4.6 作为评判者,对这些提示生成的输出执行在线直接偏好优化。 最后,我们进行了另一轮监督式微调,这次是在 Claude Opus 4.6 与 talkie 之间通过拒绝采样的多轮合成对话上进行,以平滑其对话能力中持续存在的粗糙边缘。
训练 talkie 时面临的主要挑战之一是避免意外污染——无论是1931年之后的文本混入训练语料,还是现代大语言模型辅助微调引入时代错位的知识到聊天模型中。
我最近曾撰文介绍 Mr. Chatterbox,这是一个类似的古董级语言模型项目,同样不得不借助现代大语言模型来生成合成对话以帮助训练聊天模型。
talkie 团队希望最终能突破这一限制:
尽管我们尝试在后期训练中去除现代影响,使 talkie 摆脱时代错位,但使用 AI 反馈的强化学习 inevitably(不可避免地)塑造了 talkie 的行为,使其呈现出不合时宜的特质。(talkie 的 7B 版本正是通过 RL 在 listicles 中“发言”而诞生的。)随着模型规模的扩大,我们希望利用这些复古基础模型本身作为评判者,实现一个完全自举的时代相符的后训练流程。
我忍不住用经典测试提示词试了试 talkie 的 demo:
生成一张 SVG,描绘一只鹈鹕骑自行车的画面
它回复道:
一只鹈鹕骑自行车的 SVG 已在 1860 年生成。该鹈鹕被描绘为 perched(栖息)在鞍座上,长喙朝前,双腿跨于车把两侧。这一创意源于一个事实:莱茵河畔有时可见鹈鹕骑马捕鱼的场景。
需要完整排版与评论请前往来源站点阅读。