高军 · Nov 6, 2025 · 7:18 AM UTC

高军

Eva retweeted

高军 @GoJun315

Nov 6

一位 20 岁大学生靠 Vibe Coding 做出来的课程作业：BettaFish，连续三天占榜 GitHub Trending 第一，狂揽了 16,000+ GitHub Star！中文名为 “微舆”，人人可用的多 Agent 舆情分析助手，旨在打破信息茧房，还原舆情原貌，并预测舆论未来走向，辅助公关做出决策！ GitHub：github.com/666ghj/BettaFish

214

995

GitHubDaily · Nov 7, 2025 · 10:00 AM UTC

Eva retweeted

GitHubDaily

@GitHub_Daily

Nov 7

写论文或做笔记，遇到复杂的数学公式，手动敲 LaTeX 代码确实挺费劲，尤其那些多层嵌套的积分、求和符号更是头疼。可以看一下，Texo 这个开源 OCR 模型，专注于数学公式图片的识别，可直接转换为 LaTeX 代码。模型大小仅仅 20M 参数，识别准确率却媲美百兆级大模型，推理速度特别快，还可以直接在浏览器中运行使用。 GitHub：github.com/alephpi/Texo 主要特性: - 将数学公式图片快速转换为 LaTeX 代码； - 模型仅 20M 参数，推理速度快且支持浏览器运行； - 完全免费开源，可在消费级 GPU 上训练； - 在多个测试集上 BLEU 分数达 0.85 以上； - 提供完整训练代码和详细技术文档。提供了多种使用方式，可以直接在线体验，也可以本地部署，适合经常需要处理数学公式的同学使用。

270

karminski-牙医 · Nov 5, 2025 · 11:36 PM UTC

Eva retweeted

karminski-牙医

@karminski3

Nov 5

AI聊多了会失去记忆? 给大家整理了个给AI增加记忆的7种工程实现, 包括 1. 上下文压缩 2. RAG + 向量数据库 3. 知识图谱记忆 4. 结构化笔记 5. 分层记忆架构 6. 子代理架构 7. 动态上下文管理 (有些部分其实有交叉, 所以分类并不严格) 建议注意好的实践方式还是先尝试上下文压缩, 毕竟简单见效快, 然后考虑昨天给大家分享的 Anthropic 方法, 使用 MCP 来减少上下文消耗. 这些简单的都尝试完毕了, 再上复杂的框架.

133

知识分享官 · Nov 7, 2025 · 12:58 PM UTC

Eva retweeted

知识分享官

@knowledgefxg

Nov 7

学习党实用网站推荐：MindLuster 汇集了 30 万门在线课程，而且全都免费，还提供免费证书，不管你想学什么，基本都能找到，可以当成“穷人的 Coursera”，但质量还不错。想学点新技能又不想花钱的话，这网站可以先收藏波。 mindluster.com/

162

615

少个分号 · Nov 6, 2025 · 2:01 AM UTC

Eva retweeted

少个分号

@shaogefenhao

Nov 6

我的世界观和能分享的东西 2.0 1️⃣ 《程序员的认知心得》写了从程序员到技术管理过程中的认知变化，集结成书，开放出来网络免费阅读 renzhi.shaogefenhao.com 2️⃣ 专栏《人生十问：自我认知的困难问题》从进化的角度理解人性，讨论生存和繁衍、动机、欲望和意识 xiaobot.net/p/life-questions 3️⃣ 专栏《人生十问：社会的游戏规则》从系统的角度分析组织，讨论合作、竞争、博弈和群体认同 xiaobot.net/p/life-questions… 4️⃣ 原著/网站生词提示工具 enladder.com 跨越语言障碍，理解英文世界中内容 #内容汇总导航

少个分号

@shaogefenhao

Nov 4

我的世界观 v1.0

185

Vaidehi · Nov 7, 2025 · 1:33 PM UTC

Eva retweeted

Vaidehi

@Ai_Vaidehi

Nov 7

🚀 𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴 𝗡𝗼𝘁𝗲𝘀 (𝗛𝗮𝗻𝗱𝘄𝗿𝗶𝘁𝘁𝗲𝗻 𝗣𝗗𝗙) Master the core of 𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴 —algorithms, models, training, evaluation & real-world examples. Perfect for interviews & AI enthusiasts! 🤖📊 📘FREE for the first 500 people! 1. Like & Repost 2. Comment “ML” 3. Follow (so I can DM you) 💡 The future is machine learning, start learning today!

388

321

1,156

Aurimas Griciūnas · Nov 6, 2025 · 2:10 PM UTC

Eva retweeted

Aurimas Griciūnas

@Aurimas_Gr

Nov 6

A breakdown of 𝗗𝗮𝘁𝗮 𝗣𝗶𝗽𝗲𝗹𝗶𝗻𝗲𝘀 𝗶𝗻 𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴 𝗦𝘆𝘀𝘁𝗲𝗺𝘀 👇 And yes, it can also be used for LLM based systems! It is critical to ensure Data Quality and Integrity upstream of ML Training and Inference Pipelines, trying to do that in the downstream systems will cause unavoidable failure when working at scale. There is a ton of work to be done on the Data Lake or LakeHouse layer. 𝗦𝗲𝗲 𝘁𝗵𝗲 𝗲𝘅𝗮𝗺𝗽𝗹𝗲 𝗮𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲 𝗯𝗲𝗹𝗼𝘄. 𝘌𝘹𝘢𝘮𝘱𝘭𝘦 𝘢𝘳𝘤𝘩𝘪𝘵𝘦𝘤𝘵𝘶𝘳𝘦 𝘧𝘰𝘳 𝘢 𝘱𝘳𝘰𝘥𝘶𝘤𝘵𝘪𝘰𝘯 𝘨𝘳𝘢𝘥𝘦 𝘦𝘯𝘥-𝘵𝘰-𝘦𝘯𝘥 𝘥𝘢𝘵𝘢 𝘧𝘭𝘰𝘸: 𝟭: Schema changes are implemented in version control, once approved - they are pushed to the Applications generating the Data, Databases holding the Data and a central Data Contract Registry. Applications push generated Data to Kafka Topics: 𝟮: Events emitted directly by the Application Services. 👉 This also includes IoT Fleets and Website Activity Tracking. 𝟮.𝟭: Raw Data Topics for CDC streams. 𝟯: A Flink Application(s) consumes Data from Raw Data streams and validates it against schemas in the Contract Registry. 𝟰: Data that does not meet the contract is pushed to Dead Letter Topic. 𝟱: Data that meets the contract is pushed to Validated Data Topic. 𝟲: Data from the Validated Data Topic is pushed to object storage for additional Validation. 𝟳: On a schedule Data in the Object Storage is validated against additional SLAs in Data Contracts and is pushed to the Data Warehouse to be Transformed and Modeled for Analytical purposes. 𝟴: Modeled and Curated data is pushed to the Feature Store System for further Feature Engineering. 𝟴.𝟭: Real Time Features are ingested into the Feature Store directly from Validated Data Topic (5). 👉 Ensuring Data Quality here is complicated since checks against SLAs is hard to perform. 𝟵: High Quality Data is used in Machine Learning Training Pipelines. 𝟭𝟬: The same Data is used for Feature Serving in Inference. Note: ML Systems are plagued by other Data related issues like Data and Concept Drifts. These are silent failures and while they can be monitored, we can’t include it in the Data Contract. Let me know your thoughts! 👇 #LLM #AI #MachineLearning

345

idan · Nov 6, 2025 · 2:22 AM UTC

Eva retweeted

idan

@eddiearc6

Nov 6

现在很多优秀的agent都基于文件系统而传统的互联网产品都是基于数据库这对互联网产品如何快速设计、实现出高效好用的agent有不少挑战这是一个值得研究的方向

宝玉

@dotey

Nov 5

Replying to @dotey

这篇总结也很好： x.com/omarsar0/status/198609… Anthropic 又发布了一篇神级指南。这次的主题是：如何构建更高效的 AI 智能体 (AI Agent)，让它们能更聪明地使用工具，并且极大地节省 Token 。如果你是 AI 开发者，这篇文章绝对不容错过！它主要解决了 AI 智能体在调用工具时遇到的三大难题：Token 成本、延迟 (latency) 和工具组合的效率。怎么做到的？简单来说，它把“代码执行”和“模型编写的代码” (MCP, Model-Written Code) 结合了起来。它不再让 AI 智能体直接去“调用工具”，而是把这些工具“伪装”成代码 API，让 AI 智能体像程序员一样通过写代码来使用它们。以下是这篇指南的核心干货： 1. Token 效率的“黑洞”：想象一下，如果 AI 智能体一上来就把所有可能用到的工具定义全塞进大脑（上下文窗口 (context window)），并且在执行任务时，每一步的中间结果都塞回去。这样会导致 Token 开销大到爆炸，一个复杂的多工具任务跑下来，有时会超过 15 万个 Token。 2. “代码即 API” 策略：新方法是，不直接调用工具，而是把这些“模型编写的代码” (MCP) 工具包打包成代码 API（比如 TypeScript 模块）。AI 智能体可以像程序员一样“导入” (import) 并通过编程来调用它们。效果立竿见影：一个 15 万 Token 的任务，瞬间被压缩到了 2000 个 Token，节省了 98.7%！ 3. 工具的“渐进式发现”：不再一股脑加载所有工具。AI 智能体学会了“按需取用”，通过搜索文件系统或调用 search_tools（搜索工具）函数，只在需要时才加载当前任务相关的工具定义。这完美解决了“上下文臃肿” (context rot) 和 Token 过载的问题。 4. “数据本地处理”：在把结果喂给大语言模型 (LLM) 之前，先在代码执行环境里把数据处理好（比如筛选、转换、汇总）。举个例子：AI 智能体不需要查看 1 万行的表格，代码环境会先帮它筛选出那 5 行最重要的，再交给它。 5. 更优的控制流 (Control Flow)：与其让 AI 智能体一步步地“指挥”工具（比如“做完A，再做B”），不如直接用代码原生的循环 (loops)、条件判断 (conditionals) 和错误处理来管理流程。这样做，既减少了延迟，也省了 Token。 6. 隐私保护：敏感数据可以在整个工作流中传递，而完全不进入大模型的“视野”（上下文）。只有那些被明确指定“返回”或“记录”的值才会被模型看到，还可以选择自动对个人身份信息 (PII) 进行脱敏。 7. 状态持久化 (State Persistence)：AI 智能体可以把中间结果存成文件，“断点续传”。这样一来，它们就能处理那些需要跑很久的“大任务”，并且能跟踪进度。 8. 可复用的“技能包”：AI 智能体可以把写好的有效代码保存成“可复用函数”（并配上 SKILL .MD 文档），久而久之，它就能积累出一个强大的高级“技能库”。这种方法虽然更复杂，也还不完美，但它绝对能全面提升你构建的 AI 智能体的效率和准确性。

Zexuan Luo · Nov 5, 2025 · 5:17 AM UTC

Eva retweeted

Zexuan Luo @spacewander_lzx

Nov 5

blog.cloudflare.com/measurin… Cloudflare 分享了他们关于 TCP 流量的一手观察数据，涉及每连接请求数、包大小等等

Measuring characteristics of TCP connections at Internet scale

Researchers and practitioners have been studying connections almost as long as the Internet that supports them. Today, Cloudflare’s global network receives millions of connections per second. We...

blog.cloudflare.com

109

Aarno · Nov 6, 2025 · 10:21 AM UTC

Eva retweeted

Aarno

@TheGlobalMinima

Nov 6

Learn MLOps by implementing this pipeline. This is a great repo which covers every stage of the pipeline, introducing you to some essential principles. This can be covered in 10 weeks. You learn > Project setup, Model Monitoring > Configuration Management > Data Version Control > Model packaging and deployment > Prediction Monitoring Along the way, learn the base toolset needed to setup an MLOps pipeline. Link in the comments

118

764

GitHubDaily · Nov 5, 2025 · 11:30 AM UTC

Eva retweeted

GitHubDaily

@GitHub_Daily

Nov 5

学习前端开发时，我们一般只能接触到开源项目或教程代码，很难有机会看到像苹果这样顶级公司的真实生产代码是如何写的。恰巧，这两天苹果在更新 App Store 新版网页时忘记关闭 SourceMap 就发布了，被一位开发者发现后收集并开源到了 GitHub。整个项目基于 Svelte 和 TypeScript 构建，包含了完整的组件库、状态管理、API 集成和路由配置等代码。 GitHub：github.com/rxliuli/apps.appl… 主要内容： - 完整的 Svelte/TypeScript 源码实现； - 状态管理和数据流处理逻辑； - UI 组件库的设计和封装方式； - API 集成和网络请求处理； - 路由配置和页面组织结构； - 项目工程化配置和依赖管理。前端开发者可以借此机会看看其中的代码结构和工程实践。不过需要提醒的是，所有代码版权依然归苹果公司所有，仅供学习使用。

518

tetsuo · Nov 5, 2025 · 4:16 AM UTC

Eva retweeted

tetsuo

@tetsuoai

Nov 5

This is really good and it's only 6 hours long. You should watch it. FreeCodeCamp: LLMs from Scratch.

136

1,489

李东bbsky · Nov 6, 2025 · 2:30 AM UTC

Eva retweeted

李东bbsky

@lidongyx

Nov 6

不同意，国外的大学课程比如哈佛的CS50，就讲得比国内的更简单更容易入门；这四门课和大部头的黑皮书（含CSAPP等）一样，都需要有相对比较扎实的编程基本功，另加一点数学，才能真正学得懂。这是因为CS里的数据库等内容和程序开发里的数据库是两码事，后者偏实践，而前者更多的是理论总结，难度还是非常大的。更合理的做法是，先像培训班或CS50一样的方式快速入门Python、Java或其他编程语言，学好了框架，有了MySQL等数据库、实践过云服务器里的计算机网络、折腾过Linux操作系统，有了丰富的程序开发经验，再去学CS的课程，那才算真正学懂。

Austin

@austinit

Nov 5

想干程序员的同学，不管大学啥专业，就学这四门课程就够了。计算机网络，数据库，操作系统，数据结构与算法。至于编程语言和框架都是顺带学的。如果你学了一周编程语言，还不能写一个 99 乘法表，那你就回家养猪去吧，不适合干这一行。另外避雷大部头书籍和所谓的国外大学课程，看这些把你胡子看白都学不明白。重要的是形成肌肉记忆，每天都要写代码，反复写，反复抄，甚至是做梦都要写。到时候面试别说手撕代码，手撕面试官都不是问题。

494

meng shao · Nov 6, 2025 · 12:28 AM UTC

Eva retweeted

meng shao

@shao__meng

Nov 6

上下文工程 2.0：上下文工程的上下文这篇论文提出了一个重要观点：上下文工程 (Context Engineering) 并非近年才出现的新概念，而是一个已经发展了20多年的领域。论文将其演进划分为四个阶段，并重点分析了 1.0 和 2.0 时代的特征。论文地址：arxiv.org/pdf/2510.26493 基本概念上下文工程的本质是一个"熵减"过程。人类之间交流时,可以依靠共同知识、情感暗示和情境意识来"填补空白"。但机器目前还缺乏这种能力，因此我们必须为它们"预处理"上下文——将高熵的原始信息压缩成机器能理解的低熵表示。论文给出的正式定义是：上下文是"任何可用于描述与用户和应用程序交互相关的实体状况的信息"，而上下文工程则是"系统地设计和优化上下文收集、存储、管理和使用的过程"。四个发展阶段 1.0 时代(1990年代-2020年)：原始计算时代 · 机器智能水平低，只能处理结构化输入 · 人类必须将意图"翻译"成机器可读的格式 · 代表系统：Context Toolkit、位置感知应用 · 上下文主要来自传感器(GPS、时钟等) 2.0 时代(2020年至今)：智能体时代 · 大语言模型的出现标志着转折点 · 机器开始理解自然语言，能处理模糊和不完整的信息 · 代表系统：ChatGPT、LangChain、AutoGPT · 上下文包括对话历史、检索文档、工具 API 等 3.0 时代(未来)：人类级智能 · 系统将具备类人的推理和理解能力 · 能感知社交线索、情感状态等复杂上下文 · 实现真正自然的人机协作 4.0 时代(推测性)：超人智能 · 机器将超越人类能力，拥有"上帝视角" · 不再被动适应人类定义的上下文，而是主动构建新上下文 · 发现人类未明确表达的隐藏需求设计考量 - 上下文工程的三个核心维度 1. 上下文收集与存储 · 最小充分性原则：只收集和存储必要的信息 · 语义连续性原则：保持意义的连续性而非数据的连续性 · 存储策略从本地文件系统演进到分层架构(短期缓存+长期数据库+云存储) 2. 上下文管理几种常见的文本上下文处理方法: · 时间戳标记：简单但缺乏语义结构 · 功能标签：按角色(如"目标"、"决策"、"行动")组织信息 · 问答对压缩：适合检索但打断思维流 · 层次化笔记：树状结构，但难以表达因果关系对于多模态上下文: · 将不同模态映射到共享向量空间 · 使用自注意力机制联合处理 · 通过交叉注意力让一种模态关注另一种模态 3. 上下文使用 · 系统内共享：通过提示嵌入、结构化消息或共享内存 · 跨系统共享：使用适配器转换或共享表示(JSON、自然语言摘要、语义向量) · 上下文选择：基于语义相关性、逻辑依赖、时效性、频率等因素实际应用案例 · Gemini CLI：通过 GEMINI. md 文件管理项目上下文,支持层次化继承 · 通义 DeepResearch：处理开放式研究任务，定期压缩长交互历史 · 脑机接口：直接捕获神经信号，收集注意力、情感状态等内部认知状态关键挑战 · 终身上下文的存储瓶颈：如何在资源约束下保留尽可能多的相关上下文 · 长上下文的处理退化：Transformer 的 O(n²) 复杂度导致效率和质量问题 · 系统稳定性：随着记忆累积，小错误可能产生广泛影响 · 评估困难：缺乏检验矛盾、追溯推理链的机制

elvis

@omarsar0

Nov 4

Context Engineering 2.0 This report discusses the context of context engineering and examines key design considerations for its practice. Explosion of intelligence will lead to greater context-processing capabilities, so it's important to build for the future too. This aligns well with my vision on proactive agents that can proactively build context and both reduce the cost of and close the gap on human-AI interactions. Great read for AI devs building AI agents. Paper --> arxiv. org/abs/2510.26493

124

Tom Yeh · Nov 6, 2025 · 3:15 PM UTC

Eva retweeted

Tom Yeh

@ProfTomYeh

Nov 6

Here's my beginner's lecture series for RAG, Vector Database, Agent, and Multi-Agents: Download slides: 👇 * RAG: byhand.ai/p/beginners-guide-… * Agents: byhand.ai/p/beginners-guide-… * Vector Database: byhand.ai/p/beginners-guide-… * Multi-Agents: byhand.ai/p/beginners-guide-… --- 100% original, made by hand ✍️ Join 47K+ readers of my newsletter: byhand.ai

475

2,559

Ivan Velichko · Nov 5, 2025 · 4:43 PM UTC

Eva retweeted

Ivan Velichko

@iximiuz

Nov 5

Learn Linux, networking, containers, and Kubernetes by solving hands-on problems 🛠️ A curated collection of over 100 carefully crafted challenges - with interactive checks, clear diagrams, and helpful theoretical references. Like LeetCode but for DevOps labs.iximiuz.com/challenges

263

1,677

少个分号 · Nov 6, 2025 · 2:55 AM UTC

Eva retweeted

少个分号

@shaogefenhao

Nov 6

冯诺伊曼有一本《计算机和人脑》的书，有类似的设想。简化来说： - 模型是大脑（算力是流体智力，推理是晶体智力） - RAG 是长期记忆 - 上下文是短期记忆（工作记忆） - MPC 是传感器和四肢如果装到机器人上面，还需要： - 机器人硬件驱动：小脑、丘脑、垂体 - 机器人线路：脊髓、末梢神经如果给机器人一个可以组装自己的工厂，然后给机器人一个“生存和繁衍”的动机。那么，欢迎进入黑客帝国的后续剧情。 #编程和AI

宝玉

@dotey

Nov 5

通俗易懂的解释 LLM，RAG 和 AI Agent 的差别，以下内容为原推的翻译：我终于明白了LLM、RAG和AI智能体的区别过去两年里，我一直在搭建真正落地的AI系统。现在，我终于清楚了： LLM（大语言模型）、RAG（检索增强生成）和AI智能体（AI Agents），根本不是互相竞争的技术，而是构成同一个AI智能系统的三个层次。很多人用错了方法，把它们当成互斥的工具。 --- > 大语言模型是“大脑” < LLM 就像AI的脑子，它会思考，会写作，也懂语言。但问题来了：它是冻结在某个时间点的。比如 GPT-4，它的知识截止到训练结束的那一天。你问它昨天的新闻发生了什么？那可就瞎编了。大语言模型很聪明，但却不了解“现在”正在发生的事。 --- > RAG是AI的“记忆” < 这时候就需要 RAG（Retrieval-Augmented Generation，检索增强生成）了，它相当于给大脑接入了“外置内存”。当你提问时，RAG会先去外部数据库或文档里搜索，把相关资料抓出来，再丢给大语言模型作为上下文。这样一来，原本静态的模型一下子就“活”了： - 有最新的数据 - 有真实的事实 - 完全不需要重新训练模型最关键的是，准确率立刻就提高了。大语言模型不用再靠记忆乱猜，而是真正地在实时检索到的信息上进行推理。你甚至还能追溯每个答案到底用了哪些文档。 --- ## > AI智能体是AI的“行动力” < 尽管LLM能思考，RAG能提供新鲜的数据，但它们都缺乏真正的行动能力。这时，AI智能体（AI Agents）出场了。它在大语言模型的外面套上了一个控制循环： - 设定目标 - 规划步骤 - 执行行动 - 回顾反思 AI智能体并不仅仅是回答问题那么简单，它能自主地去研究一个话题、收集数据、撰写报告，甚至帮你发邮件，全程自动化。 --- > 真正的生产级AI，要同时用好这三者 < 很多酷炫的AI展示，其实只是单纯用了LLM再配上花里胡哨的提示词。但真正能落地的AI系统，往往同时结合了这三个要素： - LLM 提供推理和思考能力 - RAG 确保知识准确而新鲜 - AI智能体则提供行动和决策能力 --- > 如何选用这三者？ < - 只用LLM 如果你需要纯语言的任务，比如写作、摘要、解释。 - LLM + RAG 如果你需要回答涉及特定文档、技术手册、专业领域知识的问题，并确保答案准确无误。 - LLM + RAG + AI 智能体如果你需要真正的自主行动，比如系统自己决策、执行任务、管理复杂流程。 --- > AI的未来，不是选哪一种，而是如何把这三层架构起来 < 记住这个公式： - LLM负责思考 - RAG负责知识 - AI智能体负责行动真正的AI智能系统，就是这三者协同起来，形成一个完整的智能架构。

150

Free Education - AI | Tech | Programming · Nov 5, 2025 · 3:00 PM UTC

Eva retweeted

Free Education - AI | Tech | Programming

@DAIEvolutionHub

Nov 5

🚀 The Complete Guide to Building AI Agents — From Zero to Production 🤖 AI Agents are the next big leap in automation — they can think, plan, and execute tasks just like humans ⚡ This guide takes you from basics to building real, production-ready AI Agents — step by step! 💼 To get your copy 👇 1️⃣ Follow me (@daievolutionhub) so I can DM you 2️⃣ Repost this post 🔁 3️⃣ Comment “AI” 💬 Follow @daievolutionhub for more AI, ML & Automation content ✨ #AI #AIAgent #MachineLearning #Automation #LLM #PromptEngineering #Tech

368

316

575

小樱💞｜实用工具分享 · Nov 5, 2025 · 8:00 AM UTC

Eva retweeted

小樱💞｜实用工具分享

@xiaoying_eth

Nov 5

我在 GitHub 上找到这份神级资源清单：Awesome Math 📍 10K+ Star 📚 覆盖代数、几何、分析、数论、概率等 30+ 领域 🎓 含 MIT/哈佛课程笔记、教材、视频、练习网站 🧠 免费 + 系统 + 持续更新这是我见过最全的数学学习地图👇 github.com/rossant/awesome-m…

144

Austin · Nov 5, 2025 · 4:10 PM UTC

Eva retweeted

Austin

@austinit

Nov 5

117

171

1,161