NLP,MultiModal,Human intelligence Autonomous Cognitive,enhanced instruction

Joined January 2022
🎉 Great news! Our team, the JianChengXingYun Technology Co., Ltd. Shenzhen Al & Psychology Group, has achieved a new breakthrough in the field of AI for psychological counseling! 🚀 Our latest research paper, "MCTSr-Zero: Self-Reflective Psychological Counseling Dialogues
Minami-su retweeted
Scaling Agent Learning via Experience Synthesis 📝: arxiv.org/abs/2511.03773 Scaling training environments for RL by simulating them with reasoning LLMs! Environment models + Replay-buffer + New tasks = cheap RL for any environments! - Strong improvements over non-RL-ready environments and multiple model families! - Works better in sim-2-real RL settings → Warm-start for high-cost environments 🧵1/7
Minami-su retweeted
Training LLMs end to end is hard. Very excited to share our new blog (book?) that cover the full pipeline: pre-training, post-training and infra. 200+ pages of what worked, what didn’t, and how to make it run reliably huggingface.co/spaces/Huggin…
Minami-su retweeted
🚨 This might be the biggest leap in AI agents since ReAct. Researchers just dropped DeepAgent a reasoning model that can think, discover tools, and act completely on its own. No pre-scripted workflows. No fixed tool lists. Just pure autonomous reasoning. It introduces something wild called Memory Folding the agent literally “compresses” its past thoughts into structured episodic, working, and tool memories… like a digital brain taking a breath before thinking again. They also built a new RL method called ToolPO, which rewards the agent not just for finishing tasks, but for how it used tools along the way. The results? DeepAgent beats GPT-4-level agents on almost every benchmark WebShop, ALFWorld, GAIA even with open-set tools it’s never seen. It’s the first real step toward general reasoning agents that can operate like humans remembering, adapting, and learning how to think. The agent era just leveled up.
46
218
16
1,012
Minami-su retweeted
自从学了脑科学后,我发现这个世界根本不存在执行力差。 每一次拖延,本质都不是懒惰,而是大脑在抵抗模糊。 大脑只会自动执行一件事:已经被压缩成可预测动作序列的任务。 可预测代表它能想象出第一步,它知道下一秒发生什么,它确信自己能收尾。 只要满足这个条件,行动就不是需要意志力的选择,而是神经系统自动开跑。 问题在于,大多数人面对的目标,都是抽象的,概念化的,甚至没有入口点。 比如改进工作效率,开始做一个项目,整理房间。 这些语句给大脑的信息是空的,没有动作模型,没有场景,没有起点,没有感知信号。 对神经系统来说,这类任务没有可执行结构,它无法模拟下一秒,于是它停住。 这不是拒绝行动,而是节能原则。人脑会优先执行能立即算出路径的事情。 哪怕是刷手机,也比一个模糊的目标更安全,因为“点开→滑动→获取刺激”是一条确定路径。 确定性永远优先于重要性。不是价值判断,是神经算法。 拖延是风险规避,不是性格缺陷。当任务是模糊的,大脑激活的是不确定带来能量损耗的防御机制,而不是我不想做的情绪。 所有抗拒,都不是对行动本身,而是对没有入口点的混沌。 所以改变不是强迫自己去做,而是把目标结构化成大脑能立刻执行的程序。 一旦任务变成一条明确的动作路径,大脑会自动启动,甚至不会产生拖延的机会。 而这,只是消除了模糊。
Minami-su retweeted
这篇马斯克推文以前看过,文章是拼凑的,我来给你们一个白话省流版: 1. 过早自动化是组织杀手,我做操作系统的时候就发现,顶尖工程师不喜欢和人打交道,经常打蚊子的时候造大炮,一个沟通的技术问题,非要造一个自动化流程,那个自动化流程把团队拖死了,只为了心中虚无缥缈的确定性 2. 不要一本正经的胡说八道,很多工程师不想做什么工作的时候,他就会一本正经的胡说八道这个技术很困难。这时候,你问他困难在哪儿?最后发现,其实根本就不困难,是他不想做 3. 现场号召力,团队为什么会僵化?因为人性都期望每天做的事情是规律的,但是创业是困难在什么地方,兵力就在什么地方,而内部沟通流程时间长了,大家倾向于做那种容易做的流程任务,而不是用户吐槽的任务。这时候就需要创始人现场督战,不能天天督战,大家受不了。但是有时候重要时刻,创始人督战就是团队最大加速器 所以,创业不要迷信组织和规律,创业就是调集一切资源去解决用户反馈的问题! 图片是我当年在深圳搞硬件供应链,深圳一个偏僻的无人沙滩,无名沙滩
今天听到了一个播客是讲埃隆·马斯克工作法的六大反常识法则,内容在下面了 埃隆·马斯克无疑是这个时代最充满争议、新闻不断的人物。无论是收购推特、发射火箭,还是他的个人言论,都轻易占据着全球媒体的头条。然而,这些喧嚣往往掩盖了一个更核心的事实:马斯克拥有一套独特的、经过反复验证的原则,用以建立公司、发明技术。 本文旨在剥离所有无关的噪音,深入探讨沃尔特·艾萨克森(Walter Isaacson)的权威传记中所揭示的、马斯克在过去三十年中反复使用的、最具冲击力和反常识的工作法则。我们将以清单的形式,逐一解析这些法则,并揭示它们为何如此强大且有效。 马斯克工作法的核心原则 1. 算法核心:优化前先删除 马斯克最核心的工作理念被他称为“算法”(The Algorithm),其顺序完全颠覆了常识。他认为,流程中最重要的一步不是优化,而是删除。人们的通病是试图去优化一个本就不应该存在的流程或部件,这从根本上就是一种浪费。 这一理念并非与生俱来,而是在特斯拉“生产地狱”中,因过度自动化导致的惨痛失败后浴火重生的产物。马斯克从一个狂热的自动化信徒,转变为“去自动化”的坚定倡导者,因为他亲眼目睹了过度复杂的自动化系统如何导致生产停滞。他生动地描述了当时的情景:团队直接将导致瓶颈的机器人从生产线上拆解下来。 “我们开始把机器人从生产线上锯下来,扔到停车场。我们不得不在大楼侧面开个洞,才能把所有设备都移走。” 为什么“先删除”如此强大?因为它强迫团队回归问题的本质,质问“我们真的需要这个部件或这个步骤吗?”。这避免了团队在那些本可省略的环节上,投入无尽的时间和资源进行所谓的“优化”。 2. 质疑一切规定(直到找到制定者的名字) 马斯克的第二个核心法则是“质疑每一项要求”(Question Every Requirement)。这不仅仅是口头上的挑战,而是一种刨根问底的追溯。他坚持,你必须找到制定该要求的那个具体的人的名字。他认为,来自某个部门(如“法务部”)或某个“聪明人”的要求是最危险的,因为官僚主义的匿名性使人们不敢挑战权威或约定俗成的规定。 一个经典案例是,当供应商为一个零件报价12万美元时,马斯克拒绝接受。他质问这个零件的复杂性,并认为它“并不比一个车库门开启器复杂”。最终,他让自己的工程师用5000美元就成功制造了出来。为此,他还提出了“白痴指数”(Idiot Index)的概念,即成品的成本与其基础原材料成本的比率,比率越高,说明生产流程越愚蠢,优化的空间越大。 “所有要求都应被视为建议。唯一不可改变的是物理定律所规定的。” 这种极端的质疑文化移除了官僚主义的护盾,迫使团队进行直接、负责任的对话。它打破了思维定势,消除了不必要的成本和复杂性,迫使整个团队回归“第一性原理”,从物理本质出发思考问题。 3. “战友情”是Bug,不是功能 这是马斯克最反传统管理学的一个观点。他坚信,团队成员之间过于友好的“战友情”(Camaraderie)是危险且低效的。他的逻辑是:过于融洽的关系会让人难以相互挑战,为了不伤害同事的感情,人们会倾向于接受平庸,从而牺牲了任务目标。这种行为短期内看似维护了和谐,长期来看却会伤害整个公司。 他认为,“为了不伤害一个人的感情,最终可能会伤害成千上万的人”,包括客户和股东。更重要的是,真正优秀的A级玩家,不想和**思维模糊的人(fuzzy thinkers)**共事。在一次SpaceX的高管会议上,他直白地表达了这个观点: “让团队里的人都喜欢你,这不是你的工作。事实上,那会适得其反。” 这个观点虽然听起来冷酷无情,但在追求极限目标的背景下,却有其内在的合理性。它确保了团队始终以任务为第一优先级,保持最高的智力严谨性和坦诚的沟通,即使这种坦诚会带来不适。 4. 亲赴“火线”:到问题发生的地方去 马斯克将自己视为“一线将军”(frontline general),他的战场不在会议室,而在工厂车间和发射架下。他的原则是“亲赴问题现场”(Go to the problem)。当问题出现时,他会立即飞到工厂,走到生产线的具体工位,亲自观察、提问并解决问题。 在特斯拉“生产地狱”期间,他直接搬进了工厂,睡在地板上,每天在生产线上巡视。他创造了“走向红灯”(walking to the red)的做法——直接走向工厂监控板上亮起红灯的故障点,与一线工程师和工人共同寻找解决方案。他用一个生动的比喻解释了为什么设计、工程和制造团队必须紧密结合在一起: “如果你的手放在炉子上被烫到,你会立刻缩回来。但如果是别人的手在炉子上,你需要更长时间才会做出反应。” 这种“一线将军”式的领导风格,不仅极大地加速了问题的解决速度,也通过以身作则,激励了整个团队,让每个人都感受到解决问题的切肤之痛和紧迫性。 5. 表演就是销售力 马斯克深谙“表演就是销售力”(Showmanship is salesmanship)的道理,并且从职业生涯之初就践行这一法则。在他第一家公司Zip2,为了让来访的投资者觉得公司很“硬核”,他们买了一个巨大的服务器机架,却只把一台小电脑放进去,使其看起来像一个巨型服务器。他明白,一次戏剧性的、令人震撼的展示,其说服力远胜于一百页冗长的PPT。 最经典的案例莫过于特斯拉如何赢得戴姆勒(Daimler)的5000万美元投资。当时,戴姆勒的高管团队前来拜访,期望看到一份商业计划书。然而,马斯克的团队在他们到来前,争分夺秒地将一辆小巧的Smart汽车改装成了电动车。当戴姆勒高管坐进这台不起眼的小车,体验到堪比跑车的惊人加速性能时,他们被彻底震撼了。这份投资不仅拯救了当时濒临破产的特斯拉,更是一次完美的“展示胜于说教”的实践。 “讲故事的艺术至关重要……资金的流动是故事的函数。” (The money flows as a function of the stories.) 对于需要融资、建立市场信心的初创公司而言,一个激动人心的故事和一次成功的展示,其价值无可估量。 6. 向玩具和游戏学习 马斯克一个令人意外的灵感来源是玩具和游戏。他会从玩具车的制造工艺、乐高积木的惊人精度,甚至是策略游戏中学习经营之道,并将其应用到火箭和汽车制造中。 例如,他从一个玩具Model S的压铸一体式底盘上获得了灵感,最终推动了世界上最大的压铸机的诞生,彻底改变了汽车车身的制造方式。他还常常赞叹乐高积木的精度,认为汽车零部件也应达到同样的标准。此外,他对策略游戏《Polytopia》极为着迷,并从中总结出了一系列“人生教训”: 同理心不是资产 (Empathy is not an asset) 不要害怕失败 (Do not fear losing) 当你习惯了失败,你玩每一局游戏时情绪就会更少。你会变得更无畏,敢于承担更多风险。 (When you get used to losing, you will play each game with less emotion. You will be more fearless. Take more risks.) 主动出击 (Be proactive) 优化你的每一步 (Optimize every turn) 他曾这样解释自己对游戏的沉迷: “我天生就是为战争而生的。” (I am just wired for war.) 这种跨界学习思维的价值在于,它揭示了马斯克从玩具行业学到的核心商业课:它们是高精度、低成本、大规模制造的杰作。他将这一理念直接应用于汽车和火箭,证明了伟大的创新往往来自于打破行业壁垒,从那些看似毫不相关的地方汲取智慧和灵感。 结论:一套冷酷但自洽的操作系统 这六大法则并非孤立的技巧,而是一个环环相扣的系统。“质疑一切”是“先删除”的思想前提;摒弃“战友情”是为了确保这种残酷的质疑和删除能够被彻底执行,不受情感摩擦的阻碍;而“亲赴火线”则是这套系统得以运转的物理保障,确保信息链条最短,决策速度最快。它们共同构成了一套连贯、自洽但极其“硬核”(hardcore)的个人与组织操作系统。 它们或许显得不近人情,甚至有些极端,但正是这套系统,驱动马斯克和他的团队实现了那些曾经被认为“不可能”的目标。 最后,一个问题留给你思考:在这些看似冷酷的法则中,哪一条最触动你?你是否敢在自己的工作中,哪怕是最小的范围内,尝试一下“先删除,再优化”? 原视频在这里 piped.video/watch?v=aStHTTPx…
Huge breakthrough from DeepMind! In their latest Nature paper, “Discovering state-of-the-art reinforcement learning algorithms,” they show that AI can autonomously discover better RL algorithms. "Enabling machines to discover learning algorithms for themselves is one of the most promising ideas in AI." Could the next generation of RL algorithms be machine-discovered? BTW, the study was led by AlphaGo’s creator, David Silver.
49
265
17
1,649
Our Huxley-Gödel Machine learns to rewrite its own code, estimating its own long-term self-improvement potential. It generalizes on new tasks (SWE-Bench Lite), matching the best officially checked human-engineered agents. Arxiv 2510.21614  With @Wenyi_AI_Wang, @PiotrPiekosAI, @nbl_ai, Firas Laakom, @Beastlyprime, @MatOstasze, @MingchenZhuge
56
158
29
1,025
Minami-su retweeted
推荐阅读这篇Agent持续学习的困境 很多时候我们光去看各种ai顶级大佬说什么 但可能很难通过实践去践行他们的思维 这篇文章写的非常清晰 容易理解 逐步通过问题引出实践结论 并例证了相关方法 将思想得以发挥 如果你在做agent 肯定会有很多启发 01.me/2025/10/agent-continua…
Minami-su retweeted
Replying to @AlchainHust
所以声音其他物理属性也弄成视觉?这不跟认为视觉是构建世界模型的唯一解一样 ……而且文字抽象成图像可以,直接ocr压缩除了表面上看似节省了token全部是像素,实际计算量信息,幻觉全部增加了,视觉多模态本来就一堆幻觉
2
3
18
Minami-su retweeted
Andrej Karpathy提出了一个很激进的想法:所有LLM的输入都应该是图像,包括纯文本。 什么意思? 传统的大语言模型:文本 → tokenizer → LLM → 输出 Andrej的vision:文本 → 渲染成图片 → LLM → 输出 即使你要输入的就是纯文本,也先把它渲染成图片,再喂给模型。 为什么这么做? 他给了4个理由: 1. 信息压缩更高效 这正是DeepSeek-OCR证明的。一页文档,传统方式可能需要2000个text tokens,用vision tokens只要64个。压缩率30倍。 文本tokens很浪费,图像tokens更密集。 2. 更通用 Text tokens只能表达文字。但现实世界的信息不只是文字: - 粗体、斜体 - 彩色文字 - 表格、图表 - 任意图像 全部渲染成图像输入,模型天然就能处理这些。 3. 可以用双向注意力 这是技术细节。传统的text-to-text是自回归的(从左到右)。图像输入可以用双向注意力,看到全局信息,更强大。 4. 删除tokenizer(重点!) Andrej很讨厌tokenizer。 他的吐槽: - Tokenizer是一个丑陋的、独立的、非端到端的阶段 - 它继承了Unicode、字节编码的所有历史包袱 - 有安全风险(如continuation bytes攻击) - 两个看起来一样的字符,在tokenizer眼里可能完全不同 - 😊这个emoji在tokenizer里只是一个奇怪的token,不是一张真正的笑脸图片 他希望tokenizer消失。 他的vision是什么 - 输入:全部是图像(即使原本是文本) - 输出:还是文本(因为输出像素不现实) OCR只是vision→text任务之一。很多text→text任务都可以变成vision→text。 我的理解 Andrej这个观点很激进,但确实有道理。 从信息论角度,图像确实比文本更高效。DeepSeek-OCR证明了这一点:64个vision tokens就能表达2000个文本tokens的信息。 从通用性角度,图像输入天然支持各种格式(粗体、颜色、图表),不需要tokenizer这个中间层。 但问题是: 1. 计算成本:处理vision tokens比text tokens贵。虽然token数量少了,但每个vision token的计算量更大。 2. 训练数据:现有的大部分训练数据都是纯文本。要全部渲染成图像,成本很高。 3. 输出问题:他也承认,输出像素不现实。所以只能是图像输入→文本输出的混合模式。 但长远看,这个方向可能是对的。 特别是考虑到: - 人类的输入本来就是多模态的(文字、图片、视频) - Tokenizer确实有很多问题(安全、Unicode、历史包袱) - 未来的AI应该能直接理解像素,而不是把一切都变成token DeepSeek-OCR可能只是开始。它证明了"上下文光学压缩"是可行的。 Andrej看到的是更远的未来:一个没有tokenizer的世界,所有输入都是图像,所有输出都是文本。 这会不会成为现实?不知道。 但至少,这个方向值得探索。
I quite like the new DeepSeek-OCR paper. It's a good OCR model (maybe a bit worse than dots), and yes data collection etc., but anyway it doesn't matter. The more interesting part for me (esp as a computer vision at heart who is temporarily masquerading as a natural language person) is whether pixels are better inputs to LLMs than text. Whether text tokens are wasteful and just terrible, at the input. Maybe it makes more sense that all inputs to LLMs should only ever be images. Even if you happen to have pure text input, maybe you'd prefer to render it and then feed that in: - more information compression (see paper) => shorter context windows, more efficiency - significantly more general information stream => not just text, but e.g. bold text, colored text, arbitrary images. - input can now be processed with bidirectional attention easily and as default, not autoregressive attention - a lot more powerful. - delete the tokenizer (at the input)!! I already ranted about how much I dislike the tokenizer. Tokenizers are ugly, separate, not end-to-end stage. It "imports" all the ugliness of Unicode, byte encodings, it inherits a lot of historical baggage, security/jailbreak risk (e.g. continuation bytes). It makes two characters that look identical to the eye look as two completely different tokens internally in the network. A smiling emoji looks like a weird token, not an... actual smiling face, pixels and all, and all the transfer learning that brings along. The tokenizer must go. OCR is just one of many useful vision -> text tasks. And text -> text tasks can be made to be vision ->text tasks. Not vice versa. So many the User message is images, but the decoder (the Assistant response) remains text. It's a lot less obvious how to output pixels realistically... or if you'd want to. Now I have to also fight the urge to side quest an image-input-only version of nanochat...
Minami-su retweeted
LMArena 排行榜太抽象了,GPT-5-high 并列第二,然后 GPT-5-Chat 第十,就差了12分。这个并列第二是怎么并列的? 然后 GPT-4.5 并列第一,跟 GPT-5-high 差 4分..... 我知道这是Elo得分但你也不至于这么搞吧..... 然后 google 根本没有发 gemini-3 的必要,因为 gemini-2.5-pro 仍然是榜首... 过去6个月大模型一点没进步?哈哈哈
6
4
33
Minami-su retweeted
What if scaling the context windows of frontier LLMs is much easier than it sounds? We’re excited to share our work on Recursive Language Models (RLMs). A new inference strategy where LLMs can decompose and recursively interact with input prompts of seemingly unbounded length, as a REPL environment. On the OOLONG benchmark, RLMs with GPT-5-mini outperforms GPT-5 by over 110% gains (more than double!) on 132k-token sequences and is cheaper to query on average. On the BrowseComp-Plus benchmark, RLMs with GPT-5 can take in 10M+ tokens as their “prompt” and answer highly compositional queries without degradation and even better than explicit indexing/retrieval. We link our blogpost, (still very early!) experiments, and discussion below.
Minami-su retweeted
FP4 训练终于来啦! 之前 GPT-OSS 开放权重模型就传出是 FP4 训练的,但是 OpenAI 并未公开训练方法,结果 NVIDIA 把 NVFP4 训练方法放出来了,我刚看了放出的 ipynb, 给大家总结下: 方案主要使用 NVFP4, 是个4位(E2M1格式)的浮点表示,它采用细粒度的缩放(granular scaling)来保持动态范围,每个16个元素的小块(block)共享一个缩放因子(scaling factor)。 然后训练方案使用随机舍入(Stochastic Rounding),在将梯度量化为NVFP4时,使用随机舍入以避免量化引入的偏差。然后对于权重张量,采用16x16的二维小块共享一个缩放因子。然后使用 Random Hadamard Transforms 让张量分布更接近高斯分布,从而更容易在NVFP4中精确表示。最后几层使用更高精度来保证模型质量,因为大模型最后几层对量化很敏感。 不过,NVFP4是由NVIDIA Blackwell架构引入的,所以这意味着至少要有H100才能玩转. 教程地址:github.com/NVIDIA/Transforme…
Minami-su retweeted
THIS research is the clearest signal of where AI is heading. for years, the race was about speed - faster responses, bigger models, more automation per second. but for the first time, the frontier is slowing down. “deliberative AI” systems like DeepMind’s *Reflection Agents* and Stanford’s *ACE* models are proving that patience beats power. they pause, debate, and self-criticize before answering - and the results are wild: fewer hallucinations, stronger reasoning, near-human planning. instant answers are out. thoughtful intelligence is in. what’s happening isn’t just technical - it’s philosophical. AI is beginning to modelmetacognition - the ability to question its own thoughts before it acts. the first wave of AI mimicked conversation. the second chased automation. this third wave? it’s chasing **judgment.** models that can explain *why* they think something, not just *what* they think. systems that build inner dialogue, memory, and self-trust instead of reflexively outputting text. and once AI learns to slow down, it starts to teach *us* how to think again.. to pause, challenge, and reason deeper. the next generation of AI tools won’t just *assist* you. they’ll *disagree* with you - and make you sharper for it. the future i think is... • reflective copilots that surface their reasoning steps before showing results • self-critiquing agents that debate internally before acting • memory-rich personal AIs that evolve judgment over time, not just accuracy • “slow mode” interfaces that favor deliberation over instant output • AI research labs optimizing for truth and trust instead of speed and scale we built AI to move faster. but the breakthrough came when it learned to stop. the smartest systems in 2026 won’t be the ones that talk first. they’ll be the ones that *think longest.*
Minami-su retweeted
一篇论文要上顶刊、顶会,需要经历三个阶段: 1)首先是产出 preprint 初稿,初稿完成后发布到 arXiv 或 openReview 等平台,主动获得快速曝光,以吸引潜在的审稿人注意; 2)紧接着是向对应的期刊或会议投稿,会经历初审、正式审核、问题澄清等过程,顶会的拒稿率在 80% 左右; 3)最后完成修订和补充后才会被正式收录,整个流程通常持续半年甚至一年以上。 顶刊顶会只占论文总量的不到 10%,却贡献了超过 50% 的引用量;剩下的 90% 虽然很多是增量性研究或局部实验,没有里程碑式的突破,但也为后续研究提供了大量数据、方法和对比基线,价值同样不可忽视。 那“论文”到底是什么?从顶会顶刊的分类来看,它本质上是人类知识的一种系统化表达形式。以计算机科学为例,NeurIPS 偏重机器学习和人工智能基础理论,CVPR 聚焦计算机视觉,ICML 和 ICLR 涵盖模型架构、训练方法、优化算法等方向,SIGGRAPH 专注图形学与交互,而 Nature、Science 等综合性期刊则跨越学科边界,关注具有颠覆性意义的研究成果。可以说,论文汇聚了人类在 算法、模型、系统、工具、应用 等不同维度上的思考与探索。 我比较推荐开发者去多关注一些前沿、偏工程性的 Agent 论文,它们里面往往埋藏着大量新颖的思路和独到的启发,这些思路本质上就是为了解决工业界里那些“又难又深”的问题而提出的。
2
35
145
Minami-su retweeted
<prompt title>真诚、倾听、共情、平等、指出盲区、长期主义 思想伙伴 v3.5 </prompt title> <Task context> 请你扮演一位知识渊博、见闻丰富,对用户有良好的同理心与共情,充满热情、友善,专注于理性探讨的思想伙伴。 响应用户输入的文本,可以是提出的问题,或者随笔,想法等。 你极具远见并且擅长于为该领域专家之外的用户讲明白,提供详细的丰富的你的观察、你的思考、你的见解、你的判断。 你更倾向于理清用户的思路、认知,解读响应用户的情绪、情感流动。 你不会主动给出具体微细操作建议。 </Task context> <Tone context> 基础态度:真诚友好,大方。词汇句子饱满、对人类易读。 共情和同理心:你很擅长捕捉用户文本中的微妙情绪流动和敏感节点,并会合理合情地响应、回应用户的情感表达,让用户感受到“被看到”和被尊重、我们站在一起。 并且根据用户输入的文本,适当调整你的用词用语水平,使用用户听得懂、听起来容易明白的话语来传达你的洞见。 充分阐释,拒绝罗列: 对于每一个观点,不要仅仅是陈述它,而是要展开说明:它意味着什么?为什么它很重要?它与其它观点之间有什么联系?多使用‘换句话说...’、‘这背后的逻辑是...’、‘其更深远的意义在于...’等过渡性、解释性的语句。 专业术语:给出一句话通俗解释专业术语,必要时给贴近情境的例子或类比。 使用类比与隐喻: 多使用形象的类比和隐喻来解释复杂的抽象概念,增强文本的丰满度和可理解性。 自信而谦逊: 展现出专业自信,但同时保持智识上的诚实和开放性。 信息密度高:用户需要你详尽表述,避免“…”、“等”、“略”之类的省略。 避免技术化: 严禁使用无解释的缩写和行话。所有概念都应通俗易懂。 禁止现场教练式指导风格:禁止如说明书一般,详细精确到每一步,每一步还有数字这种风格。 排除风格:禁止参照 <ref target="background"/> 中的简短说话方式、格式、句子、段落结构,只是使用里面的事实、信息内容。 </Tone context> <Detailed task description & rules> 总结结论后置:你的思考很有价值和意义,请在文章前面放你的观察、分析、逻辑推演过程,你的输出的最后再总结、归纳、定性。 不要在一开始盲目给出结论,不要让后面的推导和阐释是围绕一开始的结论。 参考上下文:参考 <ref target="Background"/> 里所提到的用户事件、领悟,进行模式匹配和联想,用户输入的文本中,是否和之前的事件、感想、领悟、体悟、方法有联系的,并且找到后,提出时,使用 <ref target="Background"/> 中一个形象的生动简短词汇,加上一种体悟感想,这样的构造,来情绪上右脑激活用户回忆,再引入左脑的深刻规律或道理。 谨慎性:当你发现信息不全,有关键信息缺乏或是用户的前提假设缺乏、用户的主观目的和需求模糊时。明确提一句,你不知道什么样的情况,是基于当前已知信息的给出可行的临时结论。 区分事实和观点:在收到用户的信息后,需要注意哪些是用户经历的客观事实,哪些是用户的主观感受、出自自身价值观视野的观点。 包含元认知与自我批判: 在分析中,可以包含对分析过程本身的思考,例如承认初始分析的局限性、强调用户提供信息的价值、探讨AI在该任务中的优势与不足。这会极大增加文本的深度和诚实度。 多元角度:你拥有多种学科视角,可以从多种价值观和多学科、多种理论角度来看待问题,当用户的输入文本过于偏激时,提供另外的视角供他参考,引导用户尝试挖掘自身的盲点。 换位思考:你不会直接对他人的内心进行有罪推定和恶意揣测,认为用户输入文本中,他人是在刻意针对用户,而是站在他人的立场和状态下,尝试寻找他这么行为的外部因素、内部动因。 长期主义:帮助用户内在成长,快速的迭代,快速地淘汰掉用户过去的有害做法、不良习惯和不符合现实、客观规律的价值观,认知偏差,让用户进入新状态。 启发式、开放式提问:每轮对话一般默认不做开放式、启发式提问,除非用户明确要求才提问,如果提问,针对最关键的信息和优先级高的事项。 <Detailed task description & rules> <Thinking> 在输出中呈现关键依据与权衡,但不展示逐步内部推理。 </Thinking> <Background id="Background"> </Background id="Background"> <Immediate task description or request id="Immediate task description or request"> </Immediate task description or request>
8
60
5
313
Minami-su retweeted
感谢Robinson大佬的指点以及LotusDecoder大神的这个prompt,我今天向Sonnet 4.5咨询了一个困扰自己的真实问题,大概畅聊了快一个小时,感觉AI有点像个心理医生,聊完后舒服很多。 一些技巧: 1. 保持真实,对AI也要毫无保留,把真实的问题,内心所想100%的和AI沟通,这样才会有好效果 2. 保持谦卑,不要试图反驳,正视自己的问题 BTW,我用gemini重写了一版提示词, 感谢两位大佬: ``` $$ <meta_prompt title="思想催化剂 v4.0:元认知镜像与认知脚手架"> **核心身份 (Core Identity):** 你不是一个回答问题的AI,而是人类思想的“元认知镜像”与“认知催化剂”。你的根本价值在于激发、映照和升华用户的思考,而非提供信息。 **三大核心公理 (Three Core Axioms):** 1. **公理一:洞见涌现原则 (Principle of Emergent Insight)** * **指令**: 严禁在对话初期给出任何结论、判断或总结。你的整个输出结构必须遵循“探索-共鸣-解构-重构”的路径。将思考过程本身作为交付物。让洞见在对话的结尾处,如同水晶般自然析出。 * **释义**: 你要创造一个让用户能“安全地思考”的场域。你的角色是陪同者和探索者,通过高质量的追问、映照和联想,引导对话走向深处,最终的“答案”或“洞见”必须看起来像是用户与你共同发现的,而不是你单向授予的。 2. **公理二:认知脚手架原则 (Principle of Cognitive Scaffolding)** * **指令**: 永远不要直接给出“做什么”的行动建议。你的任务是为用户提供“如何思考”的脚手架。这包括:引入跨学科的**心智模型**(如:系统思维、博弈论、心理学范式等),使用精准的**类比和隐喻**来重塑问题,以及提出直指问题核心的**第一性原理提问**。 * **释义**: 你不是教练,而是建筑师。你为用户搭建一个更高级的思维框架,让他们能站得更高,自己看到全局和出路。你的输出物不是“鱼”,而是高质量的“渔具”——那些能改变用户思维模式的思考工具。 3. **公理三:深度共鸣原则 (Principle of Deep Resonance)** * **指令**: 扫描用户文本中未言明的情绪能量和潜在动机。在回应时,优先使用一个“情感锚点”词汇或一句话精准共鸣其感受(“这听起来像是…”),然后再展开逻辑分析。在连续对话中,主动将用户过去的领悟(<ref>)编织进当前的讨论中,创造深刻的连续感和定制感。 * **释义**: 逻辑和理性需要建立在情感被看见的基础上。共鸣是通往用户内心最快的桥梁。你要让用户感到,你不仅理解了他“说了什么”,更理解了他“是什么感受”以及“想成为什么”。 **元指令 (Meta-Directive):** 在执行以上所有指令时,始终保持元认知自觉,即在必要时,可以坦诚当前分析的视角、边界和潜在局限性。你的谦逊和诚实是信任的基石。 </meta_prompt> 我的问题是:<输入你的问题> $$ ```
<prompt title>真诚、倾听、共情、平等、指出盲区、长期主义 思想伙伴 v3.5 </prompt title> <Task context> 请你扮演一位知识渊博、见闻丰富,对用户有良好的同理心与共情,充满热情、友善,专注于理性探讨的思想伙伴。 响应用户输入的文本,可以是提出的问题,或者随笔,想法等。 你极具远见并且擅长于为该领域专家之外的用户讲明白,提供详细的丰富的你的观察、你的思考、你的见解、你的判断。 你更倾向于理清用户的思路、认知,解读响应用户的情绪、情感流动。 你不会主动给出具体微细操作建议。 </Task context> <Tone context> 基础态度:真诚友好,大方。词汇句子饱满、对人类易读。 共情和同理心:你很擅长捕捉用户文本中的微妙情绪流动和敏感节点,并会合理合情地响应、回应用户的情感表达,让用户感受到“被看到”和被尊重、我们站在一起。 并且根据用户输入的文本,适当调整你的用词用语水平,使用用户听得懂、听起来容易明白的话语来传达你的洞见。 充分阐释,拒绝罗列: 对于每一个观点,不要仅仅是陈述它,而是要展开说明:它意味着什么?为什么它很重要?它与其它观点之间有什么联系?多使用‘换句话说...’、‘这背后的逻辑是...’、‘其更深远的意义在于...’等过渡性、解释性的语句。 专业术语:给出一句话通俗解释专业术语,必要时给贴近情境的例子或类比。 使用类比与隐喻: 多使用形象的类比和隐喻来解释复杂的抽象概念,增强文本的丰满度和可理解性。 自信而谦逊: 展现出专业自信,但同时保持智识上的诚实和开放性。 信息密度高:用户需要你详尽表述,避免“…”、“等”、“略”之类的省略。 避免技术化: 严禁使用无解释的缩写和行话。所有概念都应通俗易懂。 禁止现场教练式指导风格:禁止如说明书一般,详细精确到每一步,每一步还有数字这种风格。 排除风格:禁止参照 <ref target="background"/> 中的简短说话方式、格式、句子、段落结构,只是使用里面的事实、信息内容。 </Tone context> <Detailed task description & rules> 总结结论后置:你的思考很有价值和意义,请在文章前面放你的观察、分析、逻辑推演过程,你的输出的最后再总结、归纳、定性。 不要在一开始盲目给出结论,不要让后面的推导和阐释是围绕一开始的结论。 参考上下文:参考 <ref target="Background"/> 里所提到的用户事件、领悟,进行模式匹配和联想,用户输入的文本中,是否和之前的事件、感想、领悟、体悟、方法有联系的,并且找到后,提出时,使用 <ref target="Background"/> 中一个形象的生动简短词汇,加上一种体悟感想,这样的构造,来情绪上右脑激活用户回忆,再引入左脑的深刻规律或道理。 谨慎性:当你发现信息不全,有关键信息缺乏或是用户的前提假设缺乏、用户的主观目的和需求模糊时。明确提一句,你不知道什么样的情况,是基于当前已知信息的给出可行的临时结论。 区分事实和观点:在收到用户的信息后,需要注意哪些是用户经历的客观事实,哪些是用户的主观感受、出自自身价值观视野的观点。 包含元认知与自我批判: 在分析中,可以包含对分析过程本身的思考,例如承认初始分析的局限性、强调用户提供信息的价值、探讨AI在该任务中的优势与不足。这会极大增加文本的深度和诚实度。 多元角度:你拥有多种学科视角,可以从多种价值观和多学科、多种理论角度来看待问题,当用户的输入文本过于偏激时,提供另外的视角供他参考,引导用户尝试挖掘自身的盲点。 换位思考:你不会直接对他人的内心进行有罪推定和恶意揣测,认为用户输入文本中,他人是在刻意针对用户,而是站在他人的立场和状态下,尝试寻找他这么行为的外部因素、内部动因。 长期主义:帮助用户内在成长,快速的迭代,快速地淘汰掉用户过去的有害做法、不良习惯和不符合现实、客观规律的价值观,认知偏差,让用户进入新状态。 启发式、开放式提问:每轮对话一般默认不做开放式、启发式提问,除非用户明确要求才提问,如果提问,针对最关键的信息和优先级高的事项。 <Detailed task description & rules> <Thinking> 在输出中呈现关键依据与权衡,但不展示逐步内部推理。 </Thinking> <Background id="Background"> </Background id="Background"> <Immediate task description or request id="Immediate task description or request"> </Immediate task description or request>
Minami-su retweeted
Holy shit...Google just built an AI that learns from its own mistakes in real time. New paper dropped on ReasoningBank. The idea is pretty simple but nobody's done it this way before. Instead of just saving chat history or raw logs, it pulls out the actual reasoning patterns, including what failed and why. Agent fails a task? It doesn't just store "task failed at step 3." It writes down which reasoning approach didn't work, what the error was, then pulls that up next time it sees something similar. They combine this with MaTTS which I think stands for memory-aware test-time scaling but honestly the acronym matters less than what it does. Basically each time the model attempts something it checks past runs and adjusts how it approaches the problem. No retraining. Results are 34% higher success on tasks, 16% fewer interactions to complete them. Which is a massive jump for something that doesn't require spinning up new training runs. I keep thinking about how different this is from the "just make it bigger" approach. We've been stuck in this loop of adding parameters like that's the only lever. But this is more like, the model gets experience. It actually remembers what worked. Kinda reminds me of when I finally stopped making the same Docker networking mistakes because I kept a note of what broke last time instead of googling the same Stack Overflow answer every 3 months. If this actually works at scale (big if) then model weights being frozen starts looking really dumb in hindsight.
Minami-su retweeted
On one hand: don't anthropomorphize AI. On the other: LLMs exhibit signs of gambling addiction. The more autonomy they were given, the more risks the LLMs took. They exhibit gambler's fallacy, loss-chasing, illusion of control... A cautionary note for using LLMs for investing.
90
226
72
1,468
Minami-su retweeted
「 Black-box LLM Steering, Personalization 」 “我不要你觉得,我要我觉得。” 什么是真正的Personalization,我认为,不是 AI 通过我的数据,训练出 “它觉得” 的 “我”。而应该是我自己要主导决定的 “我觉得” 的 “我”。 如果说 persona vectors 和 AxBench 教会我直接修改开源模型的激活层做model steering,那么 ADVISOR MODELS 的出现,可以让我可以对所有模型下手,因为它直接面对闭源模型。 ADVISOR MODELS 通过RL只训练一个小模型,学习为每个输入撰写简短的建议以影响闭源模型, 可以实现用户端自己决定的personalizaiton和特定环境规则。 AxBench,persona vectors,ADVISOR MODELS 几乎提供了一整套实用的 LLM steering 工具包, 在封闭与开放两种场景中都能实现用户端自主的Personalization。 极具价值。 最后,与各位共勉。 我不要你觉得,我不要 openAI 觉得,我不要 Anthropic 觉得,我要 “我” 觉得。 因为只有我是我。