meng shao · Nov 8, 2025 · 3:20 AM UTC

meng shao

yadot retweeted

meng shao

@shao__meng

Nov 8

[开源推荐] DeepOCR: 基于 VILA 框架复现 DeepSeek-OCR 模型，核心创新在于通过视觉压缩技术实现文本的高效处理核心问题与解决方案 · 痛点：大语言模型处理长文本时，计算复杂度随序列长度平方级增长，导致效率低下。 · 创新思路：将文本渲染成图像，用视觉编码器压缩处理，实现 7-20 倍的压缩率。这相当于把"读文字"变成"看图片"，用更少的信息量传达相同内容。技术架构项目采用三层设计，总参数约 380M： 1. DeepEncoder（视觉编码核心） · SAM 编码器（80M 参数）：使用窗口注意力机制处理 1024×1024 高分辨率图像，输出 4096 个特征标记 · 16× 卷积压缩器：通过两层卷积将标记数从 4096 压缩到 256，大幅降低计算量 · CLIP 编码器（300M 参数）：对压缩后的特征进行全局语义理解设计巧妙之处：先用 SAM 的窗口注意力控制内存开销，压缩后再用 CLIP 的全局注意力提取语义，避免了直接处理高分辨率图像导致的内存爆炸。 2. 多模态投影器 · 将 2048 维视觉特征映射到语言模型空间 · 通过换行符和分隔符标记帮助模型理解文档的空间结构 3. 语言解码器采用 Qwen2-7B 模型（原版使用 DeepSeek-3B-MoE），负责最终的文本生成。训练方法采用两阶段训练策略：阶段 1：视觉-语言对齐（1 轮） · 数据：59.5 万通用图像-文本对 · 训练目标：仅训练投影器，学习基础的视觉到语言映射阶段 2：OCR 专项预训练（1 轮） · 数据：26 万 PDF 文档和图像 · 训练目标：微调投影器和语言模型，冻结视觉编码器性能表现 1. 优势领域： · 英文文本识别：编辑距离 0.093，表现优秀 · 简单文档处理：准确率达 99.5% · 表格结构解析：得分 70.3，空间理解能力强 · 标记效率：仅用约 250 个视觉标记，比传统方法节省 15 倍 2. 改进空间： · 复杂布局文档（如多栏学术论文）：51.2 分 · 数学公式识别：性能较弱，训练数据中数学内容不足 · 中文文档：与英文相比存在差距实用价值项目为研究者提供了： · 完整的开源实现：包括训练脚本、评估工具和预训练检查点 · 架构验证：证明视觉压缩技术在 OCR 任务中的可行性 · 即用工具：支持文本提取、Markdown 转换、图表解析等多种应用场景局限与未来方向当前限制主要源于训练资源和数据： · 仅训练 1 轮，未充分收敛 · 训练数据（26 万样本）相比顶尖模型（100 万+）偏少 · 缺少数学内容和历史扫描文档 · 改进方向包括数据增强、引入强化学习、优化提示词工程等，理论上可将性能提升 17 个百分点。项目地址 pkulium.github.io/DeepOCR_we…

Shilong Liu @atasteoff

Nov 6

Discover DeepOCR: a fully open-source reproduction of DeepSeek-OCR, complete with training & evaluation code! #DeepLearning #OCR

Mengdi Wang · Nov 6, 2025 · 5:05 PM UTC

zuxfoucault retweeted

Mengdi Wang

@MengdiWang10

Nov 6

Can’t believe it — our Princeton AI^2 postdoc Shilong Liu @atasteoff re-built DeepSeek-OCR from scratch in just two weeks 😳 — and open-sourced it. This is how research should be done 🙌 #AI #LLM #DeepSeek #MachineLearning #Princeton @omarsar0 @PrincetonAInews @akshay_pachaar

Shilong Liu @atasteoff

Nov 6

Discover DeepOCR: a fully open-source reproduction of DeepSeek-OCR, complete with training & evaluation code! #DeepLearning #OCR

418