为内容而内容Content for Content’s Sake
作者批评当前社群语言过度使用‘cooking’‘locked in’等术语,认为这些词汇更多体现群体归属而非个性表达。他质疑这些语言变化是否正由机器驱动,反映出对AI介入日常交流趋势的担忧。
Armin Ronacher
写于2026年5月4日
语言始终在不断发展,尤其是在某些社区中。并非所有人都能随时适应这种变化。例如,我无法忍受我的社区现在总是“在做饭”或“被煮熟了”,人们要么“被困住”,要么“被破解”。我不喜欢这样,因为这些词的使用主要标志着群体归属感,而非个人独特性。
但语言的某些变化或许正来自……机器?也可能不是。我不知道。像许多人一样,我注意到一些词语比以前出现得更频繁,于是很自然地将此归因于大语言模型(LLMs)。为此,我提取了过去90天本地编程会话中的内容,寻找那些相对于 wordfreq 所预测的频率而言使用量明显偏高的中等频率词汇。接着,我从这些词中挑选出最常见的几个,在 Google Trends 上进行了搜索(限定为美国地区)。需要注意的是,像“capability”这类词之所以频繁出现在编程会话中,可能是因为问题本身的性质,因此实际增长幅度远超预期。
你可以点击查看;这就是随时间变化的趋势图。请注意,这些都是在我的编程会话中由智能体输出的、相对于历史常态被过度使用的词汇:
正在加载词汇趋势图表…
肯定发生了什么。理论上讲,Google Trends 反映的是人们的搜索行为。理论上,也许智能体也在进行部分搜索,但也可能是人类在查找 LLM 生成的内容;我不确定。这个数据集可能完全是虚构的,但就我所检查并选出的所有词汇而言,我在 Google Trends 上也看到了相应的上升。
那么我是如何最初筛选出要检查的词汇呢?首先,我关注的是高频词汇——如你所料,它们包括“add”、“commit”、“patch”等。然后,我让一个 LLM 生成一份它认为与工程相关的词汇列表,并完全排除了这些词。我还去掉了最基础的常用词。最终,我得到了上述列表,以及一些内部项目名称。例如,“habitat”和“absurd”,以及其他一些内部代号,都出现了严重超比例的情况,我不得不将其剔除。正如你所见,这个过程并不完全科学。但在最终得到的、与 wordfreq 相比差异显著的词汇列表中,每一个都在 Google Trends 上显示出明显的峰值。
除了 LLM 生成之外,可能存在其他解释,但我至少觉得很有趣:我的编程会话中的词汇激增,在 Google Trends 上也同步出现了激增。
LLM 低质内容的兴起
用词是一回事,而 LLM 组织句子的方式则是另一回事。识别 LLM 生成的文本并不难,但我越来越担心自己开始像 LLM 那样写作——因为我读到了太多 LLM 产出的文本。我第一次意识到这一点是在今年早些时候的一次演讲中,我使用了“substrate”这个词。我不太确定是从哪里学来的,但它非常适合我要表达的意思,而且我不想用“foundation”这个词。然而从那以后,这个词几乎无处不在。这本身可能就是“鲍德-迈因霍夫现象”的一个例子,但从上面列出的词汇中也可以看出,我的编程智能体对“substrate”的使用频率高得不正常,而 Google Trends 也显示其搜索量在上升。
我们都已经接触过由大语言模型(LLM)生成的文本,但最近感觉情况似乎越来越糟。我收到的很多推文回复,以及我在 Hacker News 上看到的一些评论,读起来都像是由 LLM 生成的——甚至包括一些我知道是真实人类写的。这让我很困扰:一方面,我真的很想批评那些说话和写作方式像 LLM 的人;另一方面,也许我们所有人其实都在越来越像 LLM 那样表达?
我最近听了一段演讲录音(出于礼貌我不会贴链接),发现演讲者使用的句子结构在大语言模型生成的文本中非常典型。当然,他可能用了 LLM 来辅助构思讲稿,但整体听起来却很自然。所以要么是排练得非常充分,要么就是真的讲得自然。
参与与收割
至少在 Twitter、LinkedIn 等平台上,很多人都有强烈的欲望去创作内容并被他人阅读。沉默不再是选项,因此人们试图通过参与任何热门或趋势话题来获得曝光,建立个人影响力。就像大家突然之间都拥有成千上万个开源项目一样,现在每个人也都对几乎所有事情都有自己的“看法”和“立场”。
我的收件箱已经变成灾难现场——不断有公司发给我由 AI 生成的胡言乱语;如今,在 Hacker News 和其他地方,我经常看到有人认真讨论那些明显(或疑似)由 AI 撰写的博客文章。
在社交媒体算法的影响下,真实的人类交流本就已经存在问题,而现在则变得更加极端恶劣。随着越来越多的人发现可以利用 LLM 来优化自己的社交表现,他们正陷入与算法的军备竞赛之中,而真正有价值的人类声音却迅速被淹没。如今甚至出现了专门靠批量发送 LLM 生成垃圾内容为生的公司,而且显然还有人愿意为此付费。
速度应该淘汰劣质内容
如果我们认为最高质量的内容理应胜出,那么速度本身就不该成为决定性因素。假设一个由人类撰写的评论比机器生成的晚 15 分钟发出,但只要它更优秀,整个 LLM 泛滥的问题就会减轻不少。但我认为这些机器生成的噪音实际上表现得相当不错。这在开源领域我们已经见得够多了:有人发布了一个有趣的项目到 GitHub,几小时内就会出现一堆“二次开发”和“重新实现”的版本。不仅如此,许多分叉项目还配有粗糙的营销网站、花钱买的域名,以及在社交媒体上编造的一套完整叙事,声称这是唯一正确的发展方向。
我之前就抱怨过,开源社区正在迅速恶化——因为现在人们看到的是基于有用的开源项目打造产品的机会,而这背后的机制与我们在 LLM 垃圾内容中看到的现象如出一辙。有人在午餐时形成观点(希望如此),三分钟后就能用机器生成的文字发表出来。这根本不需要太多时间。至于推特,我觉得情况更糟,因为我怀疑有些人其实在用脚本自动化地进行互动操作。
我们当然应该讨厌这一切。这些低投入的帖子、推文和开源项目本不该获得任何关注。但它们偏偏做到了!无论它们是通过算法推荐还是靠人类互动传播,都不足以抵消其极低的创作成本所带来的负面影响。
摩擦与速率限制
速度和便捷性的提升可能带来问题,这一点早已为人所知。在英国,身份证制度极不受欢迎,因为英国人对于纳粹德国时期中央数据库被滥用的历史记忆犹新。同样,美国自1986年起实施的《枪支所有者保护法》也禁止建立全国性的持枪者数据库。因此,缺乏此类数据库所导致的枪支追踪方式,竟带有一种韦斯·安德森电影般的荒诞感。
我们在工程学中早已明白这一点;在政府机构越权行为中也深有体会。如今,由于大语言模型(LLMs)让几乎所有涉及人类文本的工作都变得异常简单,我们很可能将在更多领域面临同样的教训。这种冲击正迅速波及现有的基于文本的系统。例如欧盟的投诉系统,如今正因AI的压力而濒临崩溃。再比如任何与AI相关的项目,其问题追踪器都会频繁收到由AI生成的请求,有时甚至作者本人都毫不知情。
信任侵蚀与煤气灯效应
我知道这听起来像是抱怨“我收到了太多垃圾邮件、糟糕的推特私信和GitHub issue”。但我确实认为,既然我们已经意识到这种情况正在发生,就必须改变我们与日益自动化的人互动的方式。他们不仅生产出大量低质的垃圾内容供我们忍受,更以更为隐蔽的方式影响着世界——即影响我们彼此之间的互动。当我开始因对方使用LLM的措辞而怀疑我所信任的人时,整个社会的信任基础就开始瓦解了。
你也不能完全禁止人们的不良行为,因为其中许多情况是无意中发生的。你向我发送Polsia垃圾信息?那你就彻底没戏了。你发给我一个AI生成的issue请求,五分钟后又道歉?嗯,也许只是失误吧。然而,无论从哪个角度看,正在发生并将持续发生的事情都令人不安。
我最近和我的朋友Ben聊天时,他说他强迫某人必须打电话给他才能继续对话,因为他不再确信自己是在和一个真人交谈。
并非所有人都能接触到这类极端案例,但我确实经历过几次让我质疑现实的情况——因为对方的行为表现。我对此感到困扰,尽管我个人对新技术,尤其是AI持开放态度。但我的孩子会如何应对这类事情?我的母亲呢?我强烈怀疑技术能否为我们解决这个问题。
变革建议
我不认为技术能为我们解决这个问题,因为虽然它能屏蔽一些垃圾信息并标记生成内容,但它无法改变我们人类本身。这里受损的是全方位的社交互动:当你收到某人的消息时,你默认对方是一个投入了心意的真实存在的人。我宁愿有人直接消失或拒绝我,也不愿看到AI生成的垃圾回复。
变革必须始于意识的觉醒,而令人遗憾的是,LLMs(大型语言模型)不仅影响我们阅读的文本,也影响我们撰写的文本——即使我们并未直接使用它们。鉴于由此产生的模糊性,我们需要更加清醒地认识到:当我们借助智能体来辅助人际互动时,自己很容易就变成“能量吸血鬼”。试想每次有人阅读你输出的内容时,他们不得不越来越频繁地判断:这段文字究竟是你写的,还是由 LLM 生成的,抑或是你与 LLM 共同创作的?无论哪种情况,在存在歧义时保持透明,都能在很大程度上缓解问题。
当他人向我们发送未声明的低质信息(undeclared slop)时,我们必须改变与之互动的方式。如果我们关心对方,就应该告知真相;如果我们并不在意,则不应给予其曝光机会,也不应回应。
在构建允许提交文本的平台或界面时,我们需要引入更多阻碍机制。你生成内容的成本低廉,并不意味着接收者的处理成本也低廉——因此,我们必须寻找更具创意的方式来增强反馈压力。无论是 GitHub 还是其他试图取代现有模式的产品,在此方面都有大量改进空间,有些措施甚至可能与平台的核心关键绩效指标(KPIs)相悖。若追求长期健康的生态,单纯关注用户参与度这一指标正变得越来越不合时宜。
凡有助于限制社交互动频率的措施,我们都应尝试:比如增加面对面交流的机会、推广那些信任需通过行动建立的互动平台,以及或许更坦然接受“有时最好的回应就是无回应”这一事实。
至于本博客中的 AI 辅助功能,我其实已有一段时间在使用 AI 透明度声明。本文中,我利用 Pi 作为智能体协助生成交互式动态可视化图表,并让它编写代码以分析并抓取 Google Trends 数据。
本条目已标记为 ai
copy as / view markdown
需要完整排版与评论请前往来源站点阅读。