Filter
Exclude
Time range
-
Near
📚 AI Native 每日论文摘要 - 2025-11-06🌟 关注我们 @AINativeF_zh,获取AI原生领域的最新洞察。 本期介绍下图中来自Hugging Face的AI研究论文,帮助您及时了解最新研究趋势,让我们一起探索AI的未来! #AI #HuggingFace #AIPaper #AINative #AINF — 附录:今日AI研究论文 — 1. 扩散语言模型是超强数据学习者 2. UniAVGen:具有不对称跨模态交互的统一音频和视频生成 3. LEGO-Eval:通过工具增强实现对3D具身环境合成的细粒度评估 4. TabTune: 用于推理和微调表格基础模型的统一库 5. Orion-MSP:用于表格上下文中学习的多尺度稀疏注意力 6. Kinematify: 开放词汇合成高自由度关节物体 7. MME-CC: 认知能力的多模态评估基准挑战 8. LiveTradeBench: 使用大语言模型寻找现实世界的阿尔法 9. 序列优势:逆熵投票在匹配计算中胜过并行自洽 10. 让多模态嵌入器通过自适应查询增强学习何时增强查询 11. 不对称对话中的基础误解:用于 MapTask 的视角主义标注方案
📚 AI Native 每日论文摘要 - 2025-10-31🌟 关注我们 @AINativeF_zh,获取AI原生领域的最新洞察。 本期介绍下图中来自Hugging Face的AI研究论文,帮助您及时了解最新研究趋势,让我们一起探索AI的未来! #AI #HuggingFace #AIPaper #AINative #AINF — 附录:今日AI研究论文 — 1. 手动解码的终结:迈向真正的端到端语言模型 2. Emu3.5: 原生多模态模型是世界学习者 3. Kimi Linear: 一种表达力强且高效的注意力架构 4. 探讨机器人控制中扩散模型的条件 5. 代理能征服网络吗?探索ChatGPT Atlas Agent在网页游戏中的前沿 6. 视频模型准备好作为零样本推理器了吗?使用MME-CoF基准的实证研究 7. Surfer 2: 跨平台计算机使用代理人的下一代 8. AMO-Bench: 大型语言模型在高中数学竞赛中仍然表现不佳 9. 通用运动生成的探索:数据、模型和评估 10. 监督强化学习:从专家轨迹到逐步推理 11. 代理组织时代:学习用语言模型进行组织 12. OmniX:从统一的全景生成和感知到图形就绪的3D场景 13. MIRO:多重奖励条件预训练提高文本到图像的质量和效率
📚 AI Native 每日论文摘要 - 2025-10-30🌟 关注我们 @AINativeF_zh,获取AI原生领域的最新洞察。 本期介绍下图中来自Hugging Face的AI研究论文,帮助您及时了解最新研究趋势,让我们一起探索AI的未来! #AI #HuggingFace #AIPaper #AINative #AINF — 附录:今日AI研究论文 — 1. JanusCoder: 迈向代码智能的基础视觉编程接口 2. 视频思考者:通过强化学习激发“视频中的思考” 3. 通过循环语言模型扩展潜在推理 4. ReForm: 反思性自动形式化与前瞻性有界序列优化 5. 使用过程挖掘的推理感知GRPO 6. 工具十项全能:用于多样化、现实和长期任务执行的语言代理基准测试 7. VFXMaster:通过上下文学习解锁动态视觉效果生成 8. 明-闪电-全能: 一种稀疏的、统一的多模态感知与生成架构 9. RegionE: 自适应区域感知生成用于高效图像编辑 10. 扩散模型的原理 11. ODesign: 用于生物分子相互作用设计的世界模型 12. ChronoPlay: 游戏RAG基准中建模双重动态性和真实性的框架 13. 大模型时代的多模态空间推理:调查与基准测试
📚 AI Native 每日论文摘要 - 2025-10-29🌟 关注我们 @AINativeF_zh,获取AI原生领域的最新洞察。 本期介绍下图中来自Hugging Face的AI研究论文,帮助您及时了解最新研究趋势,让我们一起探索AI的未来! #AI #HuggingFace #AIPaper #AINative #AINF — 附录:今日AI研究论文 — 1. InteractComp: 使用模糊查询评估搜索代理 2. 通义DeepResearch技术报告 3. AgentFold: 具有主动上下文管理的长视距网络代理 4. RoboOmni:多模态上下文中的前瞻性机器人操作 5. Game-TARS: 可拓展的通用多模态游戏代理的预训练基础模型 6. 具有度量路径的视频生成的均匀离散扩散 7. OSWorld-MCP:在计算机使用代理中评估MCP工具调用 8. 重新利用合成数据以进行细粒度搜索代理监督 9. 图像编辑的组相对注意力引导 10. AgentFrontier: 通过ZPD引导的数据合成扩展LLM代理的能力边界 11. WebLeaper: 通过增强信息丰富的搜索提升WebAgent的效率和效能 12. ParallelMuse: 代理人平行思维用于深度信息搜索 13. VisCoder2: 构建多语言可视化编码代理
1
1
📚 AI Native 每日论文摘要 - 2025-10-28🌟 关注我们 @AINativeF_zh,获取AI原生领域的最新洞察。 本期介绍下图中来自Hugging Face的AI研究论文,帮助您及时了解最新研究趋势,让我们一起探索AI的未来! #AI #HuggingFace #AIPaper #AINative #AINF — 附录:今日AI研究论文 — 1. Concerto:联合2D-3D自监督学习中涌现空间表示 2. ReCode: 统一计划和行动以实现通用粒度控制 3. 数据代理的调查:新兴范式还是夸大的炒作? 4. FARMER: 基于像素的流自回归Transformer 5. VITA-E:自然的具身交互,结合视觉、听觉、言语和行动的同时进行 6. 前瞻锚定:在音频驱动的人体动画中保持角色身份 7. ACG: 用于基于流的VLA模型的动作一致性指导 8. 开放多模态检索增强的事实图像生成 9. IGGT:实例基础的几何变换器用于语义3D重建 10. E^2Rank: 你的文本嵌入也可以是高效的列表式重新排序器 11. 全能奖励:面向全能通用模式奖励建模的自由形式偏好 12. 敲头注意力 13. PixelRefer: 用于任意粒度时空对象指代的统一框架
📚 AI Native 每日论文摘要 - 2025-10-24🌟 关注我们 @AINativeF_zh,获取AI原生领域的最新洞察。 本期介绍下图中来自Hugging Face的AI研究论文,帮助您及时了解最新研究趋势,让我们一起探索AI的未来! #AI #HuggingFace #AIPaper #AINative #AINF — 附录:今日AI研究论文 — 1. 人机协作的论文到页面制作,成本低于0.1美元 2. AdaSPEC: 用于高效推测解码器的选择性知识蒸馏 3. 开放o3视频:利用显式时空证据进行扎实的视频推理 4. HoloCine:电影多镜头长视频叙事的整体生成 5. 绕过离散扩散:确定性绕过采样瓶颈 6. DyPE:用于超高分辨率扩散的动态位置外推 7. 大规模法律嵌入基准(MLEB) 8. 每个问题都有其自身的价值:具有明确人类价值的强化学习 9. 研究大型语音语言模型在说话者情感变化下的安全漏洞 10. SAKE:致力于编辑大型音频-语言模型的听觉属性知识 11. 搜索自博弈:在无监督情况下推动智能体能力的前沿 12. Seed3D 1.0: 从图像到高保真模拟就绪3D资产 13. 柯南: 逐步学习像侦探一样推理多尺度视觉证据
7
6
📚 AI Native 每日论文摘要 - 2025-10-23🌟 关注我们 @AINativeF_zh,获取AI原生领域的最新洞察。 本期介绍下图中来自Hugging Face的AI研究论文,帮助您及时了解最新研究趋势,让我们一起探索AI的未来! #AI #HuggingFace #AIPaper #AINative #AINF — 附录:今日AI研究论文 — 1. 每个注意力都很重要:一种用于长上下文推理的高效混合架构 2. BAPO: 通过自适应裁剪的平衡策略优化来稳定用于大型语言模型的离线策略强化学习 3. 语言模型是单射的,因此是可逆的 4. LoongRL:用于长上下文高级推理的强化学习 5. 注意力在扩散语言模型中的沉降 6. GigaBrain-0: 一种由世界模型驱动的视觉-语言-动作模型 7. 视觉-语言模型的统一强化与模仿学习 8. VideoAgentTrek:从无标签视频中预训练计算机使用 9. DaMo:移动手机代理多模态大型语言模型微调中的数据混合优化器 10. Pico-Banana-400K:用于文本引导图像编辑的大规模数据集 11. olmOCR 2:文档OCR的单元测试奖励 12. 面向方向性推理的多模态大模型微调方法 13. FinSight: 迈向现实世界的金融深度研究
📚 AI Native 每日论文摘要 - 2025-10-22🌟 关注我们 @AINativeF_zh,获取AI原生领域的最新洞察。 本期介绍下图中来自Hugging Face的AI研究论文,帮助您及时了解最新研究趋势,让我们一起探索AI的未来! #AI #HuggingFace #AIPaper #AINative #AINF — 附录:今日AI研究论文 — 1. LightMem: 轻量且高效的内存增强生成 2. 世界中的世界:闭环世界中的世界模型 3. 通过核心注意力分离实现高效长上下文语言模型训练 4. UniGenBench++:用于文本到图像生成的统一语义评估基准 5. Chem-R: 学习像化学家一样推理 6. MoGA:基于组混合注意机制的端到端长视频生成 7. 抓取任意区域:面向多模态大语言模型的精准、具上下文的像素理解 8. IF-VidCap: 视频字幕模型能否遵循指令? 9. GAS:通过广义对抗求解器改进扩散常微分方程的离散化 10. 每一步都在进化:扩大强化学习以适应万亿规模的思维模型 11. 通过批判后编辑强化学习实现可靠且可控的个性化研究 12. 多语言大语言模型水印是否真正支持多语言?一种简单的反向翻译解决方案 13. MT-Video-Bench:用于评估多模态大型语言模型在多轮对话中的整体视频理解基准
1
1
📚 AI Native 每日论文摘要 - 2025-10-21🌟 关注我们 @AINativeF_zh,获取AI原生领域的最新洞察。 本期介绍下图中来自Hugging Face的AI研究论文,帮助您及时了解最新研究趋势,让我们一起探索AI的未来! #AI #HuggingFace #AIPaper #AINative #AINF — 附录:今日AI研究论文 — 1. PICABench:我们距离物理现实主义图像编辑有多远? 2. DeepAnalyze:用于自主数据科学的自主大型语言模型 3. Glyph:通过视觉-文本压缩扩展上下文窗口 4. TrajSelector: 利用潜在表示在大型推理模型中实现高效且有效的最佳N选择 5. FineVision: 只需开放数据 6. 面向通用检索增强生成的混合模态检索探索 7. 何时进行集成:识别令牌级别点以实现稳定和快速的LLM集成 8. QueST: 激励大型语言模型生成困难问题 9. 视觉自回归模型在推理时间缩放上击败扩散模型 10. 强化学习使多模态大语言模型比指令微调看得更好 11. 注释高效的通用诚实性对齐 12. Uniworld-V2: 通过扩散负面感知微调和MLLM隐式反馈加强图像编辑 13. ConsistEdit: 高度一致且精确的无需训练的视觉编辑
📚 AI Native 每日论文摘要 - 2025-10-20🌟 关注我们 @AINativeF_zh,获取AI原生领域的最新洞察。 本期介绍下图中来自Hugging Face的AI研究论文,帮助您及时了解最新研究趋势,让我们一起探索AI的未来! #AI #HuggingFace #AIPaper #AINative #AINF — 附录:今日AI研究论文 — 1. 关于弥合内部概率与LLM推理自洽性的理论研究 2. OmniVinci:增强架构和数据以实现全模态理解的LLM 3. NANO3D: 一种无需训练和蒙版的高效3D编辑方法 4. 通过上下文学习产生的紧急不对齐:狭窄的上下文示例可能导致广泛不对齐的大型语言模型 5. 利用高质量合成数据集扩展基于指令的视频编辑 6. Skyfall-GS:从卫星影像合成沉浸式3D城市场景 7. 无需变分自编码器的潜在扩散模型 8. Paper2Web:让你的论文活起来! 9. LightsOut: 基于扩散的外绘法增强太阳耀斑去除 10. A^2FM: 一种用于工具感知混合推理的自适应智能体基础模型 11. MorphoBench: 一个具有适应性难度用于模型推理的基准 12. 语言模型模拟语言 13. BLIP3o-NEXT: 原生图像生成的下一个前沿
📚 AI Native 每日论文摘要 - 2025-10-17🌟 关注我们 @AINativeF_zh,获取AI原生领域的最新洞察。 本期介绍下图中来自Hugging Face的AI研究论文,帮助您及时了解最新研究趋势,让我们一起探索AI的未来! #AI #HuggingFace #AIPaper #AINative #AINF — 附录:今日AI研究论文 — 1. 当模型撒谎时,我们学习:使用PsiloQA进行多语言跨度级幻觉检测 2. 代理熵平衡策略优化 3. WithAnyone: 走向可控的和身份一致的图像生成 4. 服务中的人工智能:通过AI眼镜提供主动帮助 5. 从像素到文字——迈向大规模的原生视觉-语言基础 6. ImagerySearch:视频生成中超越语义依赖约束的自适应测试时搜索 7. LaSeR:使用末位令牌自我奖励进行强化学习 8. 基于信息增益的策略优化:一种简单而有效的多轮大语言模型代理方法 9. BitNet 蒸馏 10. TokDrift: 当大型语言模型使用子词时代码使用语法 11. 注意力机制是扩散大型语言模型中KV缓存所需的一切 12. PaddleOCR-VL:通过0.9B超紧凑视觉-语言模型提升多语言文档解析 13. 大型语言模型并不真正知道它们不知道什么
4
3
📚 AI Native 每日论文摘要 - 2025-10-09🌟 关注我们 @AINativeF_zh,获取AI原生领域的最新洞察。 本期介绍下图中来自Hugging Face的AI研究论文,帮助您及时了解最新研究趋势,让我们一起探索AI的未来! #AI #HuggingFace #AIPaper #AINative #AINF — 附录:今日AI研究论文 — 1. 缓存到缓存:大型语言模型之间的直接语义通信 2. Ming-UniVision:使用统一的连续分词器进行图像理解与生成的联合 3. Lumina-DiMOO:用于多模态生成和理解的全能扩散大型语言模型 4. SHANKS: 用于口语模型的同时听觉和思考 5. RLinf-VLA: 一个统一且高效的VLA+RL训练框架 6. MATRIX: 用于交互感知视频生成的遮罩轨迹对齐 7. Vibe Checker: 使代码评估与人类偏好保持一致 8. 多智能体工具集成策略优化 9. 非洲语言实验室:推进低资源非洲自然语言处理的协作方法 10. 风暴前的宁静:解锁本地推理以进行优化建模 11. 为什么低精度Transformer训练失败:对Flash Attention的分析 12. 用于高效长上下文建模的人工海马体网络 13. 推动多语种推理模型与语言混合推理链
1
1
📚 AI Native 每日论文摘要 - 2025-10-02🌟 关注我们 @AINativeF_zh,获取AI原生领域的最新洞察。 本期介绍下图中来自Hugging Face的AI研究论文,帮助您及时了解最新研究趋势,让我们一起探索AI的未来! #AI #HuggingFace #AIPaper #AINative #AINF — 附录:今日AI研究论文 — 1. DeepSearch: 通过蒙特卡罗树搜索以可验证奖励克服强化学习的瓶颈 2. VLA-RFT:在世界模拟器中结合验证奖励的视觉-语言-动作强化微调 3. GEM: 一个用于智能大型语言模型的健身房 4. 背包强化学习:通过优化预算分配解锁大语言模型的探索 5. PIPer:通过在线强化学习进行设备环境设置 6. SINQ: Sinkhorn标准化量化用于无校准的低精度LLM权重 7. ACON:优化长视域大型语言模型代理的上下文压缩 8. Code2Video: 一种以代码为中心的教育视频生成范式 9. 两者缺一不可:你的GRPO其实是DPO 10. 为什么Transformer无法学习乘法?逆向工程揭示了远程依赖的陷阱 11. BiasFreeBench:用于缓解大型语言模型响应偏见的基准测试 12. EditReward: 一种面向人类的奖励模型用于指导指令的图像编辑 13. Flash-Searcher:基于DAG的并行执行实现快速高效的网页代理
1
1
📚 AI Native 每日论文摘要 - 2025-10-01🌟 关注我们 @AINativeF_zh,获取AI原生领域的最新洞察。 本期介绍下图中来自Hugging Face的AI研究论文,帮助您及时了解最新研究趋势,让我们一起探索AI的未来! #AI #HuggingFace #AIPaper #AINative #AINF — 附录:今日AI研究论文 — 1. MCPMark:用于压力测试真实且全面的MCP使用的基准 2. 龙的幼崽:连接变压器和大脑模型的缺失环节 3. 零愿景:通过战略游戏化自我博弈实现可扩展的VLM自我改进 4. 赢得剪枝博弈:一种统一的方法用于高效监督微调中的样本和标记剪枝 5. TruthRL:通过强化学习激励大型语言模型说真话 6. 学会在看之前观察:从语言预训练中揭示LLM视觉先验 7. OceanGym: 水下具身智能体的基准环境 8. 更多思考,更少准确性?关于视觉语言模型中推理的双重特性 9. DC-VideoGen:使用深度压缩视频自动编码器进行高效视频生成 10. 无需思考的策略初始化使蒸馏推理模型成为更有效且更高效的推理者 11. 谁是你的评判者?关于大型语言模型生成判断的可检测性 12. 思维火花!推理模型中在训练后出现的注意力头 13. dParallel: 可学习的 dLLMs 并行解码
1
1
📚 AI Native 每日论文摘要 - 2025-09-29🌟 关注我们 @AINativeF_zh,获取AI原生领域的最新洞察。 本期介绍下图中来自Hugging Face的AI研究论文,帮助您及时了解最新研究趋势,让我们一起探索AI的未来! #AI #HuggingFace #AIPaper #AINative #AINF — 附录:今日AI研究论文 — 1. LongLive: 实时交互式长视频生成 2. 用于熵安全推理的分位数优势估计 3. MinerU2.5:一种高效高分辨率文档解析的解耦视觉-语言模型 4. EPO: 针对大型语言模型代理的熵正则化策略优化强化学习 5. ReviewScore: 使用大型语言模型检测误导性同行评审 6. 语言模型的变分推理 7. 语言模型可以从口头反馈中学习,而无需标量奖励 8. CapRL: 通过强化学习激发密集图像描述能力 9. 不让任何提示被遗忘:通过熵引导的优势塑造在大模型强化学习中利用零方差提示 10. MesaTask:通过3D空间推理实现任务驱动的桌面场景生成 11. PromptCoT 2.0: 大规模提示合成用于大型语言模型推理 12. UltraHorizon:在超长时间跨度场景中基准测试代理能力 13. COSPADI: 通过校准引导的稀疏字典学习压缩大型语言模型
1
1
📚 AI Native 每日论文摘要 - 2025-09-26🌟 关注我们 @AINativeF_zh,获取AI原生领域的最新洞察。 本期介绍下图中来自Hugging Face的AI研究论文,帮助您及时了解最新研究趋势,让我们一起探索AI的未来! #AI #HuggingFace #AIPaper #AINative #AINF — 附录:今日AI研究论文 — 1. VCRL: 基于方差的课程强化学习用于大型语言模型 2. SciReasoner: 跨学科建立科学推理基础 3. MMR1: 使用方差感知采样和开放资源增强多模态推理 4. 面向LLM代理强化学习的树搜索 5. Seedream 4.0:迈向下一代多模态图像生成 6. Hunyuan3D-Omni: 一个用于可控生成3D资产的统一框架 7. AutoIntent: 文本分类的自动机器学习 8. 信任判官:作为法官的LLM的不一致性及其缓解方法 9. CE-GPPO:通过梯度保护裁剪策略优化控制强化学习中的熵 10. 用于微调行为克隆策略的残差离政策强化学习 11. CHARM: 基于控制点的3D动画发型自回归建模 12. 思维增强预训练 13. Recon-Act:通过网络侦察、工具生成和任务执行的自我进化多代理浏览器使用系统
📚 AI Native 每日论文摘要 - 2025-09-25🌟 关注我们 @AINativeF_zh,获取AI原生领域的最新洞察。 本期介绍下图中来自Hugging Face的AI研究论文,帮助您及时了解最新研究趋势,让我们一起探索AI的未来! #AI #HuggingFace #AIPaper #AINative #AINF — 附录:今日AI研究论文 — 1. 视频模型是零样本学习者和推理者 2. SIM-CoT: 有监督的隐式思维链 3. EmbeddingGemma: 强大而轻量的文本表示 4. 通过GRPO推动语音感知语言模型的语音理解进展 5. EditVerse:使用上下文学习统一图像和视频编辑与生成 6. LLMs4All: 大型语言模型在学术学科研究和应用中的综述 7. Lavida-O: 弹性大型掩码扩散模型用于统一多模态理解与生成 8. PhysCtrl: 生成式物理,用于可控且基于物理的视频生成 9. SimpleFold: 折叠蛋白质比你想象的更简单 10. 逻辑解析技术报告 11. ATLAS:通过协调的海关编码分类对全球贸易的大型语言模型进行基准测试和适应 12. 关于代理编码的使用:GitHub 上拉取请求的实证研究 13. kh2d-solver: 一个用于理想化二维不可压缩开尔文-亥姆霍兹不稳定性的Python库
1
1
📚 AI Native 每日论文摘要 - 2025-09-24🌟 关注我们 @AINativeF_zh,获取AI原生领域的最新洞察。 本期介绍下图中来自Hugging Face的AI研究论文,帮助您及时了解最新研究趋势,让我们一起探索AI的未来! #AI #HuggingFace #AIPaper #AINative #AINF — 附录:今日AI研究论文 — 1. Baseer:用于阿拉伯文档到Markdown的OCR视觉语言模型 2. 预训练数据上的强化学习 3. 视觉运动策略中是否需要本体感觉状态? 4. MiniCPM-V 4.5:通过架构、数据和训练方法制作高效的多模态大模型 5. MAPO: 混合优势策略优化 6. Hyper-Bagel:用于多模态理解和生成的统一加速框架 7. VolSplat: 重新思考具有体素对齐预测的前馈3D高斯喷涂 8. 有效推理的特征是什么?重新审视CoT的长度、评审和结构 9. Lyra: 通过视频扩散模型自蒸馏生成3D场景重建 10. 大型语言模型歧视德语方言使用者 11. 软标记,硬道理 12. HyRF: 用于内存高效和高质量新视图合成的混合辐射场 13. OpenGVL - 为数据整理进行视觉时间进度基准测试
📚 AI Native 每日论文摘要 - 2025-09-23🌟 关注我们 @AINativeF_zh,获取AI原生领域的最新洞察。 本期介绍下图中来自Hugging Face的AI研究论文,帮助您及时了解最新研究趋势,让我们一起探索AI的未来! #AI #HuggingFace #AIPaper #AINative #AINF — 附录:今日AI研究论文 — 1. LIMI:更少即是更多的代理 2. Qwen3-Omni技术报告 3. OmniInsert: 通过扩散变换器模型实现任意参考视频的无掩码插入 4. OnePiece: 将上下文工程与推理引入工业级级联排序系统 5. TempSamp-R1: 使用强化微调的视频大型语言模型中的有效时间采样 6. DiffusionNFT: 使用正向过程的在线扩散强化 7. GeoPQA:弥合多模态大模型中用于几何推理的视觉感知差距 8. SWE-Bench Pro:AI代理能否解决长期的软件工程任务? 9. EpiCache: 面向长对话问答的情节KV缓存管理 10. ByteWrist:能够在狭小空间中实现灵活和拟人化运动的并联机器人腕 11. ARE: 扩展代理环境与评估 12. FlagEval 研究报告:大型推理模型在自动验证的文本和视觉问题上的初步评估 13. VideoFrom3D: 通过互补图像和视频扩散模型生成3D场景视频
📚 AI Native 每日论文摘要 - 2025-09-22🌟 关注我们 @AINativeF_zh,获取AI原生领域的最新洞察。 本期介绍下图中来自Hugging Face的AI研究论文,帮助您及时了解最新研究趋势,让我们一起探索AI的未来! #AI #HuggingFace #AIPaper #AINative #AINF — 附录:今日AI研究论文 — 1. RPG: 用于统一和可扩展代码库生成的存储库规划图 2. MANZANO:一种简单且可扩展的混合视觉标记器的统一多模态模型 3. 潜在分区网络:生成建模、表示学习和分类的统一原理 4. BaseReward: 强大的多模态奖励模型基线 5. SPATIALGEN: 布局引导的三维室内场景生成 6. Lynx:迈向高保真个性化视频生成 7. 用于机器人真实环境强化学习的视觉-语言-动作-评论模型 8. BTL-UI: 面向GUI代理的眨眼-思考-链接推理模型 9. 动态场景中仅RGB监督的相机参数优化 10. 你听懂我的意思了吗?量化指导性表达文本转语音系统中的指令感知差距 11. WhisTLE:深度监督的、仅文本的预训练语音识别转换器领域自适应 12. Video2Roleplay: 一个用于视频引导角色扮演代理的多模态数据集和框架 13. 提出澄清:通过多轮对话解决指令歧义问题
1
1