关于 ChatGPT 为什么喜欢用破折号,这个问题的原因似乎现在还没有定论,不过刚看到一篇博客分析这个问题,还挺有趣。 先说一个有趣的问题是 AI 特别喜欢用 "delve"(深入探究)这个词。 这个现象的答案是已知的:RLHF(人类反馈强化学习)。 简单说,AI 模型训练的最后一步,是雇佣大量的人类“导师”来给它的回答打分。OpenAI 雇佣的导师很多在肯尼亚、尼日利亚等非洲国家。而在这些地区的“非洲英语”中,"delve" 是一个非常常用且得体的词汇。 于是,当 AI 用 "delve" 时,非洲的导师们觉得“这话说得不错”,就给了高分。AI 就此学会了:“哦,客户喜欢我用‘delve’。” 那么,破折号也是因为这个原因吗? 作者顺着这个思路去查证:是不是非洲英语里也特别爱用破折号? 结果,并不是! 尼日利亚英语破折号的出现频率(每词 0.022%)远低于普通英语的平均水平(0.25% 到 0.275%)。 这说明,“深入探究”(delve)和“破折号”(—)这两个 AI “口音”,来源并不相同。 作者最终发现了一个决定性的线索:时间。 大家回忆一下,2022 年底的 GPT-3.5,其实并没有这个毛病。这个“破折号上瘾症”是在 GPT-4 和 GPT-4o 身上才集中爆发的。 不只是 OpenAI,谷歌和 Anthropic 的模型,包括一些中国的大模型,都开始用破折号。 那么,从 2022 年到 2024 年,所有 AI 实验室的训练数据,到底发生了什么共同的变化? 答案是:AI 公司的“数据荒”来了,它们开始疯狂“喂”AI 吃书——特别是“旧书”。 在 2022 年,AI 主要吃的是互联网上的公开数据、盗版电子书(比如 LibGen 上的)。但很快,这些数据就不够用了,而且质量良莠不齐。 为了让模型变得更“有文化”、更“高质量”,AI 公司们(法庭文件显示 Anthropic 在 2024 年 2 月开始了这项工作,OpenAI 只会更早)启动了一个庞大的工程:大规模扫描实体书,把纸质书数字化,作为训练数据。 好了,破案的最后一块拼图来了。 既然 AI 吃了大量(可能是几百万册)扫描的纸质书,那么这些书是什么年代的呢? 盗版电子书网站上的书,大多是当代流行读物。而 AI 公司为了“填饱肚子”并绕开版权,扫描的书中,有很大一部分是更古老的、已进入公共领域的作品。 作者找到了一个关于英语标点符号使用频率的研究,它显示: 破折号在英语文学中的使用频率,在 1860 年左右达到了顶峰(约 0.35%),在 19 世纪末和 20 世纪初的使用率,远高于当代英语。 作者举了个例子:著名的《白鲸记》(Moby-Dick,1851年出版)一书中,破折号出现了 1728 次! 真相至此水落石出: 我们现在用的最先进的 AI,它的“标点符号观”并不是从 2020 年的互联网学来的,而是从 1890 年的旧小说里继承的。 AI 公司们为了获取“高质量”的语料,把大量 19 世纪末、20 世纪初的文学作品喂给了模型。AI 忠实地学习了那个年代的写作风格——其中就包括对“破折号”的狂热喜爱。 当然,作者也承认,这仍然是一个基于证据的推测,还有一些小疑问没解决: 1. 为什么 AI 只学会了用破折号,却没有学会像《白鲸记》的船长那样说话? 也许模型只是吸收了标点符号这种“潜意识”的风格,而没有吸收具体的用词? 2. 有没有更简单的解释? 比如,Sam Altman 曾随口提过,他们发现 RLHF 的人类导师“似乎更喜欢”带破折号的回答,觉得那样更“口语化”,所以就“多加了点”。 不过,综合来看,“扫描旧书”这个理论目前是最有说服力的。它完美地解释了为什么 GPT-3.5 不会,而 GPT-4 之后的模型(它们都大量训练了新的书籍数据),然后集体对破折号“上瘾”了。 有兴趣可以看看原文:seangoedecke.com/em-dashes/
教程:如何去掉ChatGPT臭名昭著的:破折号 以及让GPT 不再一味奉承你... ChatGPT 痴迷破折号 而要让它不再使用破折号——真的很难。 难到什么程度? 它几乎成了 ChatGPT 的象征。 破折号已经成了人们一眼就能判断一篇文章是否由 AI 写的标志😂 你可能以为只要告诉它:“别再用破折号”,就行。 但事实并非如此。 你必须给 ChatGPT 一个替代方案。 否则它会继续用。 🪄 让我们来做个分步教程:去掉破折号 1️⃣ 打开 ChatGPT 左下角的菜单。 2️⃣ 进入 “个性化设置(Personalization)”。 3️⃣ 启用 “自定义指令(Custom Instructions)”。 然后,在自定义指令中输入这个神奇提示: "Systematically replace em-dashes (“—”) with a dot (“.”) to start a new sentence, or a comma (“,”) to continue the sentence."

Nov 3, 2025 · 4:47 AM UTC

Replying to @dotey
"The Elements of Style" by Strunk & White says, "a dash is a mark of separation stronger than a comma, less formal than a colon, and more relaxed than parentheses," and "use a dash only when a more common mark of punctuation seems inadequate." 破折号是一种比逗号强、比冒号非正式、比括号更宽松的分离标点,但只因在常见标点不足时使用(不然写作可能会显得过于随意或冗余)。 但是在现代非正式写作、尤其是网络写作中,由于 em-dash 的高度灵活性(可以替换逗号、括号或冒号,用于插入解释性从句/扩展或转折子句、强调突发想法或引导列表),以及构建复杂句式时的作用(创造节奏感和张力,帮助作者在长句中嵌入额外信息或强调关键点而不打断整体流畅性),在数字时代快速阅读的环境下其实是广受欢迎的。 宝玉老师的个人观点是?
1
2
1
我觉得是后训练的影响,以前确实没这问题
1
Replying to @dotey
为了更方便使用破折号, 刚刚在输入法中特意加了个编码. 果然我的大脑是源自非洲的. ... 😅
1
3
哈哈,非洲影响了 LLM,然后影响了我们
2
Replying to @dotey
哈哈哈,太有意思了,历史就是这么不经意间被翻出来了。
2
Replying to @dotey
Chatgpt是所有模型中的“文科生”。 因为Chatgpt训练的语料库有很多文学作品。 但是真正令我疑惑的是,Codex改代码的能力像一个精准的外科医生。难以想象这么优雅的模型改Bug也能这么优雅。
1
4
Replying to @dotey
宝玉老师,如何让Gemini停止滥用引号?我在它的memory里加了禁止滥用引号,它还是不听话。
2
3
Replying to @dotey
其實我寫或看文章,尤其是小說,很喜歡用破折號或括號,可能跟寫作風格有關。譬如: 他說:「今天日落得好早。」「也是,和喜歡的人相處,感覺時間就會變快。」我看著他說——其實這句有點突兀——但我實在不喜歡他,一切都是為了家族壯大。
3
Replying to @dotey
可是破折号本身是重要标点——我也喜欢用它...🌚
3
Replying to @dotey
AI最爱滥用比喻,辞藻搞得很复杂。 而且是这样的句式: 这不是XXXX(一个比喻)……,而是一场XXXX(另一个比喻)。 而且这个比喻还很夸张,动不动就“颠覆”,“革命”,“宣言”,不知道这些风格哪里学的。
1
3
Replying to @dotey
破折号在一些巨型中特别好用,即可以丰富一句话里的信息,又不破坏整体结构。
2
Replying to @dotey
有趣的推测,解答了我长期以来的一个困惑。LLM不但喜欢用破折号,还喜欢用引号强调或突出概念和术语。人类似乎不喜欢用这么多引号。不知道这个现象(也可能是我的错觉)有没有人研究过。
2
Replying to @dotey
我说个自己的判断:在模型推理的时候,破折号起到了“解释-转折-归纳-反转-因果-对比—纠正—界定”一系列作用。为了增强模型输出的准确性,这些系列的作用在逻辑推理中权重更高,而这种逻辑上的强化,出现概率很高的就是破折号,自然也增加了权重。
2
Replying to @dotey
我就很喜歡用破折號,我寫的很多東西讓現在一些人肉眼分辨應該會說是AI寫的,其實這——比如翻翻商業印書館的彩虹書就可以印證——應該算是國外專業文章的“翻譯腔”,比如AI超喜歡用的“至關重要”也是
2
Replying to @dotey
原来不是科技进步,是文化返古😂
1
Replying to @dotey
很好奇,o3 开始到 GPT-5,中文文风剧变,也是从老文学作品中习得的吗?
1
Replying to @dotey
这也能扒出来😂
1
Replying to @dotey
我这gpt特别爱说チェット,你们的也是吗?
Replying to @dotey
这个分析很有意思,期待更多关于AI语言使用的探索!
Replying to @dotey
还有超级喜欢用冒号
Replying to @dotey
ChatGPT 是文科生