关于 ChatGPT 为什么喜欢用破折号,这个问题的原因似乎现在还没有定论,不过刚看到一篇博客分析这个问题,还挺有趣。
先说一个有趣的问题是 AI 特别喜欢用 "delve"(深入探究)这个词。
这个现象的答案是已知的:RLHF(人类反馈强化学习)。
简单说,AI 模型训练的最后一步,是雇佣大量的人类“导师”来给它的回答打分。OpenAI 雇佣的导师很多在肯尼亚、尼日利亚等非洲国家。而在这些地区的“非洲英语”中,"delve" 是一个非常常用且得体的词汇。
于是,当 AI 用 "delve" 时,非洲的导师们觉得“这话说得不错”,就给了高分。AI 就此学会了:“哦,客户喜欢我用‘delve’。”
那么,破折号也是因为这个原因吗?
作者顺着这个思路去查证:是不是非洲英语里也特别爱用破折号?
结果,并不是!
尼日利亚英语破折号的出现频率(每词 0.022%)远低于普通英语的平均水平(0.25% 到 0.275%)。
这说明,“深入探究”(delve)和“破折号”(—)这两个 AI “口音”,来源并不相同。
作者最终发现了一个决定性的线索:时间。
大家回忆一下,2022 年底的 GPT-3.5,其实并没有这个毛病。这个“破折号上瘾症”是在 GPT-4 和 GPT-4o 身上才集中爆发的。
不只是 OpenAI,谷歌和 Anthropic 的模型,包括一些中国的大模型,都开始用破折号。
那么,从 2022 年到 2024 年,所有 AI 实验室的训练数据,到底发生了什么共同的变化?
答案是:AI 公司的“数据荒”来了,它们开始疯狂“喂”AI 吃书——特别是“旧书”。
在 2022 年,AI 主要吃的是互联网上的公开数据、盗版电子书(比如 LibGen 上的)。但很快,这些数据就不够用了,而且质量良莠不齐。
为了让模型变得更“有文化”、更“高质量”,AI 公司们(法庭文件显示 Anthropic 在 2024 年 2 月开始了这项工作,OpenAI 只会更早)启动了一个庞大的工程:大规模扫描实体书,把纸质书数字化,作为训练数据。
好了,破案的最后一块拼图来了。
既然 AI 吃了大量(可能是几百万册)扫描的纸质书,那么这些书是什么年代的呢?
盗版电子书网站上的书,大多是当代流行读物。而 AI 公司为了“填饱肚子”并绕开版权,扫描的书中,有很大一部分是更古老的、已进入公共领域的作品。
作者找到了一个关于英语标点符号使用频率的研究,它显示:
破折号在英语文学中的使用频率,在 1860 年左右达到了顶峰(约 0.35%),在 19 世纪末和 20 世纪初的使用率,远高于当代英语。
作者举了个例子:著名的《白鲸记》(Moby-Dick,1851年出版)一书中,破折号出现了 1728 次!
真相至此水落石出:
我们现在用的最先进的 AI,它的“标点符号观”并不是从 2020 年的互联网学来的,而是从 1890 年的旧小说里继承的。
AI 公司们为了获取“高质量”的语料,把大量 19 世纪末、20 世纪初的文学作品喂给了模型。AI 忠实地学习了那个年代的写作风格——其中就包括对“破折号”的狂热喜爱。
当然,作者也承认,这仍然是一个基于证据的推测,还有一些小疑问没解决:
1. 为什么 AI 只学会了用破折号,却没有学会像《白鲸记》的船长那样说话? 也许模型只是吸收了标点符号这种“潜意识”的风格,而没有吸收具体的用词?
2. 有没有更简单的解释? 比如,Sam Altman 曾随口提过,他们发现 RLHF 的人类导师“似乎更喜欢”带破折号的回答,觉得那样更“口语化”,所以就“多加了点”。
不过,综合来看,“扫描旧书”这个理论目前是最有说服力的。它完美地解释了为什么 GPT-3.5 不会,而 GPT-4 之后的模型(它们都大量训练了新的书籍数据),然后集体对破折号“上瘾”了。
有兴趣可以看看原文:seangoedecke.com/em-dashes/
教程:如何去掉ChatGPT臭名昭著的:破折号
以及让GPT 不再一味奉承你...
ChatGPT 痴迷破折号
而要让它不再使用破折号——真的很难。
难到什么程度?
它几乎成了 ChatGPT 的象征。
破折号已经成了人们一眼就能判断一篇文章是否由 AI 写的标志😂
你可能以为只要告诉它:“别再用破折号”,就行。
但事实并非如此。
你必须给 ChatGPT 一个替代方案。
否则它会继续用。
🪄 让我们来做个分步教程:去掉破折号
1️⃣ 打开 ChatGPT 左下角的菜单。
2️⃣ 进入 “个性化设置(Personalization)”。
3️⃣ 启用 “自定义指令(Custom Instructions)”。
然后,在自定义指令中输入这个神奇提示:
"Systematically replace em-dashes (“—”) with a dot (“.”) to start a new sentence, or a comma (“,”) to continue the sentence."
Nov 3, 2025 · 4:47 AM UTC





















