宝玉 · Nov 3, 2025 · 4:47 AM UTC

宝玉 · Nov 3, 2025 · 4:47 AM UTC

宝玉

宝玉

@dotey

Nov 3

关于 ChatGPT 为什么喜欢用破折号，这个问题的原因似乎现在还没有定论，不过刚看到一篇博客分析这个问题，还挺有趣。先说一个有趣的问题是 AI 特别喜欢用 "delve"（深入探究）这个词。这个现象的答案是已知的：RLHF（人类反馈强化学习）。简单说，AI 模型训练的最后一步，是雇佣大量的人类“导师”来给它的回答打分。OpenAI 雇佣的导师很多在肯尼亚、尼日利亚等非洲国家。而在这些地区的“非洲英语”中，"delve" 是一个非常常用且得体的词汇。于是，当 AI 用 "delve" 时，非洲的导师们觉得“这话说得不错”，就给了高分。AI 就此学会了：“哦，客户喜欢我用‘delve’。” 那么，破折号也是因为这个原因吗？作者顺着这个思路去查证：是不是非洲英语里也特别爱用破折号？结果，并不是！尼日利亚英语破折号的出现频率（每词 0.022%）远低于普通英语的平均水平（0.25% 到 0.275%）。这说明，“深入探究”（delve）和“破折号”（—）这两个 AI “口音”，来源并不相同。作者最终发现了一个决定性的线索：时间。大家回忆一下，2022 年底的 GPT-3.5，其实并没有这个毛病。这个“破折号上瘾症”是在 GPT-4 和 GPT-4o 身上才集中爆发的。不只是 OpenAI，谷歌和 Anthropic 的模型，包括一些中国的大模型，都开始用破折号。那么，从 2022 年到 2024 年，所有 AI 实验室的训练数据，到底发生了什么共同的变化？答案是：AI 公司的“数据荒”来了，它们开始疯狂“喂”AI 吃书——特别是“旧书”。在 2022 年，AI 主要吃的是互联网上的公开数据、盗版电子书（比如 LibGen 上的）。但很快，这些数据就不够用了，而且质量良莠不齐。为了让模型变得更“有文化”、更“高质量”，AI 公司们（法庭文件显示 Anthropic 在 2024 年 2 月开始了这项工作，OpenAI 只会更早）启动了一个庞大的工程：大规模扫描实体书，把纸质书数字化，作为训练数据。好了，破案的最后一块拼图来了。既然 AI 吃了大量（可能是几百万册）扫描的纸质书，那么这些书是什么年代的呢？盗版电子书网站上的书，大多是当代流行读物。而 AI 公司为了“填饱肚子”并绕开版权，扫描的书中，有很大一部分是更古老的、已进入公共领域的作品。作者找到了一个关于英语标点符号使用频率的研究，它显示：破折号在英语文学中的使用频率，在 1860 年左右达到了顶峰（约 0.35%），在 19 世纪末和 20 世纪初的使用率，远高于当代英语。作者举了个例子：著名的《白鲸记》（Moby-Dick，1851年出版）一书中，破折号出现了 1728 次！真相至此水落石出：我们现在用的最先进的 AI，它的“标点符号观”并不是从 2020 年的互联网学来的，而是从 1890 年的旧小说里继承的。 AI 公司们为了获取“高质量”的语料，把大量 19 世纪末、20 世纪初的文学作品喂给了模型。AI 忠实地学习了那个年代的写作风格——其中就包括对“破折号”的狂热喜爱。当然，作者也承认，这仍然是一个基于证据的推测，还有一些小疑问没解决： 1. 为什么 AI 只学会了用破折号，却没有学会像《白鲸记》的船长那样说话？也许模型只是吸收了标点符号这种“潜意识”的风格，而没有吸收具体的用词？ 2. 有没有更简单的解释？比如，Sam Altman 曾随口提过，他们发现 RLHF 的人类导师“似乎更喜欢”带破折号的回答，觉得那样更“口语化”，所以就“多加了点”。不过，综合来看，“扫描旧书”这个理论目前是最有说服力的。它完美地解释了为什么 GPT-3.5 不会，而 GPT-4 之后的模型（它们都大量训练了新的书籍数据），然后集体对破折号“上瘾”了。有兴趣可以看看原文：seangoedecke.com/em-dashes/

Why do AI models use so many em-dashes?

If you asked most people to name a defining feature of AI-generated writing, they’d probably say the em-dash — like this. Language models use em-dashes so much…

seangoedecke.com

小互

@imxiaohu

Nov 3

教程：如何去掉ChatGPT臭名昭著的：破折号以及让GPT 不再一味奉承你... ChatGPT 痴迷破折号而要让它不再使用破折号——真的很难。难到什么程度？它几乎成了 ChatGPT 的象征。破折号已经成了人们一眼就能判断一篇文章是否由 AI 写的标志😂 你可能以为只要告诉它：“别再用破折号”，就行。但事实并非如此。你必须给 ChatGPT 一个替代方案。否则它会继续用。 🪄 让我们来做个分步教程：去掉破折号 1️⃣ 打开 ChatGPT 左下角的菜单。 2️⃣ 进入 “个性化设置（Personalization）”。 3️⃣ 启用 “自定义指令（Custom Instructions）”。然后，在自定义指令中输入这个神奇提示： "Systematically replace em-dashes (“—”) with a dot (“.”) to start a new sentence, or a comma (“,”) to continue the sentence."

Nov 3, 2025 · 4:47 AM UTC

291

LPK · Nov 3, 2025 · 8:46 AM UTC

LPK

@luopk

Nov 3

Replying to @dotey

"The Elements of Style" by Strunk & White says, "a dash is a mark of separation stronger than a comma, less formal than a colon, and more relaxed than parentheses," and "use a dash only when a more common mark of punctuation seems inadequate." 破折号是一种比逗号强、比冒号非正式、比括号更宽松的分离标点，但只因在常见标点不足时使用（不然写作可能会显得过于随意或冗余）。但是在现代非正式写作、尤其是网络写作中，由于 em-dash 的高度灵活性（可以替换逗号、括号或冒号，用于插入解释性从句/扩展或转折子句、强调突发想法或引导列表），以及构建复杂句式时的作用（创造节奏感和张力，帮助作者在长句中嵌入额外信息或强调关键点而不打断整体流畅性），在数字时代快速阅读的环境下其实是广受欢迎的。宝玉老师的个人观点是？

宝玉 · Nov 3, 2025 · 3:42 PM UTC

宝玉

@dotey

Nov 3

我觉得是后训练的影响，以前确实没这问题

hahagood · Nov 3, 2025 · 4:53 AM UTC

hahagood

@hahagood

Nov 3

Replying to @dotey

为了更方便使用破折号, 刚刚在输入法中特意加了个编码. 果然我的大脑是源自非洲的. ... 😅

宝玉 · Nov 3, 2025 · 5:14 AM UTC

宝玉

@dotey

Nov 3

哈哈，非洲影响了 LLM，然后影响了我们

向阳乔木 · Nov 3, 2025 · 7:29 AM UTC

向阳乔木

@vista8

Nov 3

Replying to @dotey

哈哈哈，太有意思了，历史就是这么不经意间被翻出来了。

Pluviobyte | 出海 · Nov 3, 2025 · 11:37 AM UTC

Pluviobyte | 出海

@Pluvio9yte

Nov 3

Replying to @dotey

Chatgpt是所有模型中的“文科生”。因为Chatgpt训练的语料库有很多文学作品。但是真正令我疑惑的是，Codex改代码的能力像一个精准的外科医生。难以想象这么优雅的模型改Bug也能这么优雅。

BirdyGrant · Nov 3, 2025 · 6:20 AM UTC

BirdyGrant @folkloresling

Nov 3

Replying to @dotey

宝玉老师，如何让Gemini停止滥用引号？我在它的memory里加了禁止滥用引号，它还是不听话。

極深空天體引力波觀測員 · Nov 3, 2025 · 8:57 AM UTC

極深空天體引力波觀測員 @enchichou_0428

Nov 3

Replying to @dotey

其實我寫或看文章，尤其是小說，很喜歡用破折號或括號，可能跟寫作風格有關。譬如：他說：「今天日落得好早。」「也是，和喜歡的人相處，感覺時間就會變快。」我看著他說——其實這句有點突兀——但我實在不喜歡他，一切都是為了家族壯大。

喵爸有毒 · Nov 3, 2025 · 10:52 PM UTC

喵爸有毒 @Tresmort

Nov 3

Replying to @dotey

可是破折号本身是重要标点——我也喜欢用它...🌚

newgreatbelt-kelake · Nov 4, 2025 · 1:08 AM UTC

newgreatbelt-kelake

@newgreatbelt

Nov 4

Replying to @dotey

AI最爱滥用比喻，辞藻搞得很复杂。而且是这样的句式：这不是XXXX（一个比喻）……，而是一场XXXX（另一个比喻）。而且这个比喻还很夸张，动不动就“颠覆”，“革命”，“宣言”，不知道这些风格哪里学的。

ATom · Nov 3, 2025 · 5:16 AM UTC

ATom @zack80349105

Nov 3

Replying to @dotey

破折号在一些巨型中特别好用，即可以丰富一句话里的信息，又不破坏整体结构。

Free Wind · Nov 3, 2025 · 6:08 AM UTC

Free Wind @a4free

Nov 3

Replying to @dotey

有趣的推测，解答了我长期以来的一个困惑。LLM不但喜欢用破折号，还喜欢用引号强调或突出概念和术语。人类似乎不喜欢用这么多引号。不知道这个现象（也可能是我的错觉）有没有人研究过。

素人极客-Amateur Geek · Nov 3, 2025 · 3:02 PM UTC

素人极客-Amateur Geek @changli71829684

Nov 3

Replying to @dotey

我说个自己的判断：在模型推理的时候，破折号起到了“解释-转折-归纳-反转-因果-对比—纠正—界定”一系列作用。为了增强模型输出的准确性，这些系列的作用在逻辑推理中权重更高，而这种逻辑上的强化，出现概率很高的就是破折号，自然也增加了权重。

jason · Nov 3, 2025 · 5:30 PM UTC

jason @disunlimited

Nov 3

Replying to @dotey

我就很喜歡用破折號，我寫的很多東西讓現在一些人肉眼分辨應該會說是AI寫的，其實這——比如翻翻商業印書館的彩虹書就可以印證——應該算是國外專業文章的“翻譯腔”，比如AI超喜歡用的“至關重要”也是

港港 · Nov 3, 2025 · 5:40 AM UTC

港港 @gangg2021

Nov 3

Replying to @dotey

原来不是科技进步，是文化返古😂

摩尔 · Nov 3, 2025 · 6:37 AM UTC

摩尔

@jijiamoer113397

Nov 3

Replying to @dotey

很好奇，o3 开始到 GPT-5，中文文风剧变，也是从老文学作品中习得的吗？

云归 · Nov 3, 2025 · 10:52 AM UTC

云归

@yungui_ml

Nov 3

Replying to @dotey

这也能扒出来😂

G博 · Nov 3, 2025 · 11:12 PM UTC

G博 @gvg3131

Nov 3

Replying to @dotey

我这gpt特别爱说チェット，你们的也是吗？

BTC八戒 | MemeMax⚡️ | .edge🦭 · Nov 3, 2025 · 11:44 AM UTC

BTC八戒 | MemeMax⚡️ | .edge🦭

@btcbajie

Nov 3

Replying to @dotey

这个分析很有意思，期待更多关于AI语言使用的探索！

aaron · Nov 4, 2025 · 7:07 AM UTC

aaron @google0890

Nov 4

Replying to @dotey

还有超级喜欢用冒号

Jackie · Nov 3, 2025 · 8:39 AM UTC

Jackie @robertmaurerfan

Nov 3

Replying to @dotey

ChatGPT 是文科生