💡 观点 / 杂谈

为内容而内容Content for Content’s Sake

lucumr.pocoo.org·2026-05-04

作者批评当前社群语言过度使用‘cooking’‘locked in’等术语，认为这些词汇更多体现群体归属而非个性表达。他质疑这些语言变化是否正由机器驱动，反映出对AI介入日常交流趋势的担忧。

Armin Ronacher

写于2026年5月4日

语言始终在不断发展，尤其是在某些社区中。并非所有人都能随时适应这种变化。例如，我无法忍受我的社区现在总是“在做饭”或“被煮熟了”，人们要么“被困住”，要么“被破解”。我不喜欢这样，因为这些词的使用主要标志着群体归属感，而非个人独特性。

但语言的某些变化或许正来自……机器？也可能不是。我不知道。像许多人一样，我注意到一些词语比以前出现得更频繁，于是很自然地将此归因于大语言模型（LLMs）。为此，我提取了过去90天本地编程会话中的内容，寻找那些相对于 wordfreq 所预测的频率而言使用量明显偏高的中等频率词汇。接着，我从这些词中挑选出最常见的几个，在 Google Trends 上进行了搜索（限定为美国地区）。需要注意的是，像“capability”这类词之所以频繁出现在编程会话中，可能是因为问题本身的性质，因此实际增长幅度远超预期。

你可以点击查看；这就是随时间变化的趋势图。请注意，这些都是在我的编程会话中由智能体输出的、相对于历史常态被过度使用的词汇：

正在加载词汇趋势图表…

肯定发生了什么。理论上讲，Google Trends 反映的是人们的搜索行为。理论上，也许智能体也在进行部分搜索，但也可能是人类在查找 LLM 生成的内容；我不确定。这个数据集可能完全是虚构的，但就我所检查并选出的所有词汇而言，我在 Google Trends 上也看到了相应的上升。

那么我是如何最初筛选出要检查的词汇呢？首先，我关注的是高频词汇——如你所料，它们包括“add”、“commit”、“patch”等。然后，我让一个 LLM 生成一份它认为与工程相关的词汇列表，并完全排除了这些词。我还去掉了最基础的常用词。最终，我得到了上述列表，以及一些内部项目名称。例如，“habitat”和“absurd”，以及其他一些内部代号，都出现了严重超比例的情况，我不得不将其剔除。正如你所见，这个过程并不完全科学。但在最终得到的、与 wordfreq 相比差异显著的词汇列表中，每一个都在 Google Trends 上显示出明显的峰值。

除了 LLM 生成之外，可能存在其他解释，但我至少觉得很有趣：我的编程会话中的词汇激增，在 Google Trends 上也同步出现了激增。

LLM 低质内容的兴起

用词是一回事，而 LLM 组织句子的方式则是另一回事。识别 LLM 生成的文本并不难，但我越来越担心自己开始像 LLM 那样写作——因为我读到了太多 LLM 产出的文本。我第一次意识到这一点是在今年早些时候的一次演讲中，我使用了“substrate”这个词。我不太确定是从哪里学来的，但它非常适合我要表达的意思，而且我不想用“foundation”这个词。然而从那以后，这个词几乎无处不在。这本身可能就是“鲍德-迈因霍夫现象”的一个例子，但从上面列出的词汇中也可以看出，我的编程智能体对“substrate”的使用频率高得不正常，而 Google Trends 也显示其搜索量在上升。

我们都已经接触过由大语言模型（LLM）生成的文本，但最近感觉情况似乎越来越糟。我收到的很多推文回复，以及我在 Hacker News 上看到的一些评论，读起来都像是由 LLM 生成的——甚至包括一些我知道是真实人类写的。这让我很困扰：一方面，我真的很想批评那些说话和写作方式像 LLM 的人；另一方面，也许我们所有人其实都在越来越像 LLM 那样表达？

我最近听了一段演讲录音（出于礼貌我不会贴链接），发现演讲者使用的句子结构在大语言模型生成的文本中非常典型。当然，他可能用了 LLM 来辅助构思讲稿，但整体听起来却很自然。所以要么是排练得非常充分，要么就是真的讲得自然。

参与与收割

至少在 Twitter、LinkedIn 等平台上，很多人都有强烈的欲望去创作内容并被他人阅读。沉默不再是选项，因此人们试图通过参与任何热门或趋势话题来获得曝光，建立个人影响力。就像大家突然之间都拥有成千上万个开源项目一样，现在每个人也都对几乎所有事情都有自己的“看法”和“立场”。

我的收件箱已经变成灾难现场——不断有公司发给我由 AI 生成的胡言乱语；如今，在 Hacker News 和其他地方，我经常看到有人认真讨论那些明显（或疑似）由 AI 撰写的博客文章。

在社交媒体算法的影响下，真实的人类交流本就已经存在问题，而现在则变得更加极端恶劣。随着越来越多的人发现可以利用 LLM 来优化自己的社交表现，他们正陷入与算法的军备竞赛之中，而真正有价值的人类声音却迅速被淹没。如今甚至出现了专门靠批量发送 LLM 生成垃圾内容为生的公司，而且显然还有人愿意为此付费。

速度应该淘汰劣质内容

如果我们认为最高质量的内容理应胜出，那么速度本身就不该成为决定性因素。假设一个由人类撰写的评论比机器生成的晚 15 分钟发出，但只要它更优秀，整个 LLM 泛滥的问题就会减轻不少。但我认为这些机器生成的噪音实际上表现得相当不错。这在开源领域我们已经见得够多了：有人发布了一个有趣的项目到 GitHub，几小时内就会出现一堆“二次开发”和“重新实现”的版本。不仅如此，许多分叉项目还配有粗糙的营销网站、花钱买的域名，以及在社交媒体上编造的一套完整叙事，声称这是唯一正确的发展方向。

我之前就抱怨过，开源社区正在迅速恶化——因为现在人们看到的是基于有用的开源项目打造产品的机会，而这背后的机制与我们在 LLM 垃圾内容中看到的现象如出一辙。有人在午餐时形成观点（希望如此），三分钟后就能用机器生成的文字发表出来。这根本不需要太多时间。至于推特，我觉得情况更糟，因为我怀疑有些人其实在用脚本自动化地进行互动操作。

我们当然应该讨厌这一切。这些低投入的帖子、推文和开源项目本不该获得任何关注。但它们偏偏做到了！无论它们是通过算法推荐还是靠人类互动传播，都不足以抵消其极低的创作成本所带来的负面影响。

摩擦与速率限制

速度和便捷性的提升可能带来问题，这一点早已为人所知。在英国，身份证制度极不受欢迎，因为英国人对于纳粹德国时期中央数据库被滥用的历史记忆犹新。同样，美国自1986年起实施的《枪支所有者保护法》也禁止建立全国性的持枪者数据库。因此，缺乏此类数据库所导致的枪支追踪方式，竟带有一种韦斯·安德森电影般的荒诞感。

我们在工程学中早已明白这一点；在政府机构越权行为中也深有体会。如今，由于大语言模型（LLMs）让几乎所有涉及人类文本的工作都变得异常简单，我们很可能将在更多领域面临同样的教训。这种冲击正迅速波及现有的基于文本的系统。例如欧盟的投诉系统，如今正因AI的压力而濒临崩溃。再比如任何与AI相关的项目，其问题追踪器都会频繁收到由AI生成的请求，有时甚至作者本人都毫不知情。

信任侵蚀与煤气灯效应

我知道这听起来像是抱怨“我收到了太多垃圾邮件、糟糕的推特私信和GitHub issue”。但我确实认为，既然我们已经意识到这种情况正在发生，就必须改变我们与日益自动化的人互动的方式。他们不仅生产出大量低质的垃圾内容供我们忍受，更以更为隐蔽的方式影响着世界——即影响我们彼此之间的互动。当我开始因对方使用LLM的措辞而怀疑我所信任的人时，整个社会的信任基础就开始瓦解了。

你也不能完全禁止人们的不良行为，因为其中许多情况是无意中发生的。你向我发送Polsia垃圾信息？那你就彻底没戏了。你发给我一个AI生成的issue请求，五分钟后又道歉？嗯，也许只是失误吧。然而，无论从哪个角度看，正在发生并将持续发生的事情都令人不安。

我最近和我的朋友Ben聊天时，他说他强迫某人必须打电话给他才能继续对话，因为他不再确信自己是在和一个真人交谈。

并非所有人都能接触到这类极端案例，但我确实经历过几次让我质疑现实的情况——因为对方的行为表现。我对此感到困扰，尽管我个人对新技术，尤其是AI持开放态度。但我的孩子会如何应对这类事情？我的母亲呢？我强烈怀疑技术能否为我们解决这个问题。

变革建议

我不认为技术能为我们解决这个问题，因为虽然它能屏蔽一些垃圾信息并标记生成内容，但它无法改变我们人类本身。这里受损的是全方位的社交互动：当你收到某人的消息时，你默认对方是一个投入了心意的真实存在的人。我宁愿有人直接消失或拒绝我，也不愿看到AI生成的垃圾回复。

变革必须始于意识的觉醒，而令人遗憾的是，LLMs（大型语言模型）不仅影响我们阅读的文本，也影响我们撰写的文本——即使我们并未直接使用它们。鉴于由此产生的模糊性，我们需要更加清醒地认识到：当我们借助智能体来辅助人际互动时，自己很容易就变成“能量吸血鬼”。试想每次有人阅读你输出的内容时，他们不得不越来越频繁地判断：这段文字究竟是你写的，还是由 LLM 生成的，抑或是你与 LLM 共同创作的？无论哪种情况，在存在歧义时保持透明，都能在很大程度上缓解问题。

当他人向我们发送未声明的低质信息（undeclared slop）时，我们必须改变与之互动的方式。如果我们关心对方，就应该告知真相；如果我们并不在意，则不应给予其曝光机会，也不应回应。

在构建允许提交文本的平台或界面时，我们需要引入更多阻碍机制。你生成内容的成本低廉，并不意味着接收者的处理成本也低廉——因此，我们必须寻找更具创意的方式来增强反馈压力。无论是 GitHub 还是其他试图取代现有模式的产品，在此方面都有大量改进空间，有些措施甚至可能与平台的核心关键绩效指标（KPIs）相悖。若追求长期健康的生态，单纯关注用户参与度这一指标正变得越来越不合时宜。

凡有助于限制社交互动频率的措施，我们都应尝试：比如增加面对面交流的机会、推广那些信任需通过行动建立的互动平台，以及或许更坦然接受“有时最好的回应就是无回应”这一事实。

至于本博客中的 AI 辅助功能，我其实已有一段时间在使用 AI 透明度声明。本文中，我利用 Pi 作为智能体协助生成交互式动态可视化图表，并让它编写代码以分析并抓取 Google Trends 数据。

本条目已标记为 ai

copy as / view markdown

需要完整排版与评论请前往来源站点阅读。