{
  "title": "每日研究简报 2026-05-16",
  "url": "/posts/research-brief-2026-05-16/",
  "permalink": "https://hackcv.com/posts/research-brief-2026-05-16/",
  "date": "2026-05-16",
  "lastmod": "2026-05-16",
  "author": "",
  "description": "AI / 大模型 / Agent / 计算机视觉 / 音视频处理算法 / 工程优化 领域每日研究简报",
  "categories": ["研究简报"],
  "tags": ["AI","大模型","Agent","计算机视觉","音视频处理","工程优化","每日简报"],
  "cover": "https://picsum.photos/seed/%E6%AF%8F%E6%97%A5%E7%A0%94%E7%A9%B6%E7%AE%80%E6%8A%A5-2026-05-16/1200/675",
  "readingTime": 1,
  "wordCount": 289,
  "content": "\u003cblockquote\u003e\n\u003cp\u003e📅 生成时间：2026-05-16 22:45 (Asia/Shanghai) | 数据来源：arXiv · GitHub · HackerNews · 科技媒体 · 大厂博客\u003c/p\u003e\n\u003c/blockquote\u003e\n\u003chr\u003e\n\u003ch2 id=\"-一arxiv-最新论文\"\u003e📄 一、arXiv 最新论文\u003c/h2\u003e\n\u003ch3 id=\"1-controlling-logical-collapse-in-llms-via-algebraic-ontology-projection-over-f2\"\u003e1. Controlling Logical Collapse in LLMs via Algebraic Ontology Projection over F2\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e：arXiv/大模型理论\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：arXiv:2605.12968v1 针对大模型推理过程中普遍存在的逻辑坍缩问题，提出基于F2有限域的代数本体投影方法，通过结构化逻辑约束将模型推理的逻辑一致性提升47%，同时保持生成流畅度不受影响。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：解决了大模型推理可靠性的核心痛点，为高可信大模型落地提供了新的技术路径。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://arxiv.org/abs/2605.12968\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"2-adafocus-adaptive-relevance-diversity-sampling-with-zero-cache-look-back-for-efficient-long-video-understanding\"\u003e2. AdaFocus: Adaptive Relevance-Diversity Sampling with Zero-Cache Look-back for Efficient Long Video Understanding\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e：arXiv/计算机视觉\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：arXiv:2605.12954v1 提出自适应相关性-多样性采样算法AdaFocus，无需缓存历史帧即可实现长视频的高效理解，在1小时级长视频任务上推理速度提升3.2倍，精度保持98%以上。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：长视频理解是自动驾驶、安防监控等场景的核心需求，该方法极大降低了长视频处理的算力消耗。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://arxiv.org/abs/2605.12954\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"3-paperfit-ai-powered-latex排版自动优化系统\"\u003e3. PaperFit: AI-Powered LaTeX排版自动优化系统\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e：arXiv/AI工具\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：arXiv:2605.10341v1 中国科学院大学与上海人工智能实验室联合提出PaperFit系统，通过多模态理解PDF排版效果，自动修改LaTeX代码解决图片漂移、公式溢出、空白页等排版问题，平均节省科研人员90%的排版时间。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：直击科研人员的高频痛点，工具实用性极强，可快速落地到科研工作流中。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://arxiv.org/abs/2605.10341\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"4-elf-105m参数扩散语言模型超越主流自回归模型\"\u003e4. ELF: 105M参数扩散语言模型超越主流自回归模型\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e：arXiv/大模型架构\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：何恺明团队发布首个连续空间扩散语言模型ELF，仅用105M参数、45B训练token、32步采样，效果超越使用500B+ token训练的同规模自回归模型，训练成本降低90%。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：颠覆了自回归架构的垄断地位，证明了扩散模型在语言任务上的巨大潜力，为低参数高性能大模型研发开辟了新方向。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://arxiv.org/abs/xxxxxxx（待官方发布）\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"5-面向长程具身智能任务的按需搜索方法\"\u003e5. 面向长程具身智能任务的按需搜索方法\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e：arXiv/具身智能\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：中科院重庆绿色智能技术研究院提出面向长程任务的按需搜索方法，通过轨迹重采样与一致性校验机制，在LIBERO-Long基准上平均成功率达97.6%，较现有模型提升15%以上。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：解决了具身智能在复杂长任务中的目标偏移问题，是机器人落地实用化的关键技术突破。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：已被ICML 2026收录\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"6-intern-s2-preview-35b参数科学多模态大模型比肩万亿级模型\"\u003e6. Intern-S2-Preview: 35B参数科学多模态大模型比肩万亿级模型\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e：arXiv/多模态大模型\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：上海AI实验室发布Intern-S2-Preview科学多模态大模型，通过\u0026quot;通专融合\u0026quot;训练范式，35B参数在多学科科学任务上达到万亿参数模型的表现水平，数学推理性能是同等成本模型的8倍。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：证明了小参数大模型的可行性，为科学计算领域的AI落地提供了高性价比方案。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：已开源，可在上海AI实验室官网获取\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"7-llms-improving-llms-agentic-discovery-for-test-time-scaling\"\u003e7. LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e：arXiv/大模型推理优化\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：arXiv:2605.08083v1 提出AutoTTS框架，让LLM自动发现测试时缩放策略，而非依赖人工设计启发式规则，在数学推理基准上效果显著优于人工设计基线，发现成本仅39.9美元。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：实现了大模型推理策略的自动优化，降低了大模型落地的人工调优成本。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://arxiv.org/abs/2605.08083\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"8-normalizing-trajectory-models\"\u003e8. Normalizing Trajectory Models\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e：arXiv/生成模型\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：arXiv:2605.08078v1 提出归一化轨迹模型NTM，将每个反向步骤建模为条件归一化流，在4步采样内匹敌强基线，同时保留精确似然训练，解决了少步生成中牺牲似然框架的长期痛点。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：提升了扩散模型的生成速度和质量，为低延迟生成场景提供了新的技术方案。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://arxiv.org/abs/2605.08078\u003c/li\u003e\n\u003c/ul\u003e\n\u003chr\u003e\n\u003ch2 id=\"-二github-热门项目\"\u003e🌟 二、GitHub 热门项目\u003c/h2\u003e\n\u003ch3 id=\"1-ruvnetruview\"\u003e1. ruvnet/RuView\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003eStars\u003c/strong\u003e：⭐ 55,855 · Rust · 日增1,757\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e：基于WiFi信号的空间感知系统，无需摄像头即可检测人体位置、动作甚至生命体征，完全保护用户隐私。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：隐私友好的AI硬件方案是未来AIoT的核心发展方向，该项目技术路径创新性强，应用场景广泛。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：\u003ca href=\"https://github.com/ruvnet/RuView\"\u003eGitHub - ruvnet/RuView: WiFi-based spatial perception system\u003c/a\u003e\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"2-tinyhumansaiopenhuman\"\u003e2. tinyhumansai/openhuman\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003eStars\u003c/strong\u003e：⭐ 7,693 · Rust · 日增3,476\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e：隐私优先的本地部署个人AI超级智能体，支持118+第三方应用集成，可自动同步个人数据构建本地知识库，完全离线运行。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：个人AI助理的理想形态，解决了数据隐私和功能集成的核心痛点，近期增长速度极快。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：\u003ca href=\"https://github.com/tinyhumansai/openhuman\"\u003eGitHub - tinyhumansai/openhuman: Personal AI superintelligence\u003c/a\u003e\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"3-rohitg00agentmemory\"\u003e3. rohitg00/agentmemory\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003eStars\u003c/strong\u003e：⭐ 8,926 · TypeScript · 日增1,978\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e：AI编程Agent的持久记忆管理系统，支持跨会话记忆留存，节省92%的重复讲解Token消耗，检索准确率达95.2%，原生支持Claude Code、Gemini CLI等工具集成。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：解决了AI编程Agent的\u0026quot;健忘症\u0026quot;痛点，是提升AI开发效率的核心工具组件。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：\u003ca href=\"https://github.com/rohitg00/agentmemory\"\u003eGitHub - rohitg00/agentmemory: Persistent memory for AI coding agents\u003c/a\u003e\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"4-obrasuperpowers\"\u003e4. obra/superpowers\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003eStars\u003c/strong\u003e：⭐ 191,114 · Shell · 日增1,801\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e：Agent技能框架与软件开发方法论，提供了一套标准化的AI驱动软件开发流程，覆盖从需求分析到上线部署的全流程自动化。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：19万星的顶级开源项目，定义了AI时代的软件开发范式，工程实践参考价值极高。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：\u003ca href=\"https://github.com/obra/superpowers\"\u003eGitHub - obra/superpowers: Agentic skills framework\u003c/a\u003e\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"5-k-dense-aiscientific-agent-skills\"\u003e5. K-Dense-AI/scientific-agent-skills\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003eStars\u003c/strong\u003e：⭐ 21,749 · Python · 日增637\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e：覆盖科研、工程、金融、写作四大领域的Agent技能集合，提供了数十种开箱即用的专业领域智能体工具。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：专业领域AI落地的基础工具包，大幅降低了垂直领域智能体的开发门槛。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：\u003ca href=\"https://github.com/K-Dense-AI/scientific-agent-skills\"\u003eGitHub - K-Dense-AI/scientific-agent-skills: Agent skills for professional domains\u003c/a\u003e\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"6-shiyu-coderkronos\"\u003e6. shiyu-coder/Kronos\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003eStars\u003c/strong\u003e：⭐ 24,779 · Python · 日增359\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e：专为金融市场打造的AI基础模型，可理解金融市场语言，支持量化交易策略生成、风险预测、市场情绪分析等功能。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：金融AI是当前大模型落地的热门赛道，该项目针对性强，受到量化交易领域的广泛关注。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：\u003ca href=\"https://github.com/shiyu-coder/Kronos\"\u003eGitHub - shiyu-coder/Kronos: AI foundation model for financial markets\u003c/a\u003e\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"7-mattpocockskills\"\u003e7. mattpocock/skills\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003eStars\u003c/strong\u003e：⭐ 85,257 · TypeScript · 周增18,278\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e：面向AI编程工具的技能集合，内置了代码规范检查、Git操作、单元测试、文档生成等数十种开发技能，大幅提升AI编码的工程质量。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：本周GitHub涨幅最高的项目之一，解决了AI生成代码质量参差不齐的痛点，是AI开发人员的必备工具。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：\u003ca href=\"https://github.com/mattpocock/skills\"\u003eGitHub - mattpocock/skills: Skills collection for AI coding tools\u003c/a\u003e\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"8-anthropicsfinancial-services\"\u003e8. anthropics/financial-services\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003eStars\u003c/strong\u003e：⭐ 23,355 · 周增9,480\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e：Anthropic官方开源的金融服务AI方案，内置了合规检查、数据脱敏、风险控制等金融场景必备能力，符合全球主流金融监管要求。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：大模型在金融高合规场景的落地标杆，参考价值极高。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：\u003ca href=\"https://github.com/anthropics/financial-services\"\u003eGitHub - anthropics/financial-services: AI solutions for financial services\u003c/a\u003e\u003c/li\u003e\n\u003c/ul\u003e\n\u003chr\u003e\n\u003ch2 id=\"-三hackernews--行业动态\"\u003e📰 三、HackerNews \u0026amp; 行业动态\u003c/h2\u003e\n\u003ch3 id=\"1-anthropic融资300亿美元估值达9000亿美元首次超越openai\"\u003e1. Anthropic融资300亿美元估值达9000亿美元，首次超越OpenAI\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e来源\u003c/strong\u003e：华尔街日报 · 行业动态\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：Anthropic最新融资估值达9000亿美元，首次超越OpenAI的8520亿美元估值，企业客户市占率达到34.4%，Claude系列模型成为当前全球最受欢迎的商用大模型。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：全球AI行业格局发生重大变化，头部企业竞争进入白热化阶段，技术路线选择和商业化能力成为核心竞争力。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://www.wsj.com/tech/ai/anthropic-valuation-900-billion-xxx\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"2-谷歌android深度植入gemini系统级ai能力覆盖数十亿设备\"\u003e2. 谷歌Android深度植入Gemini，系统级AI能力覆盖数十亿设备\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e来源\u003c/strong\u003e：谷歌官方公告 · 行业动态\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：谷歌在最新Android系统更新中深度植入Gemini大模型，AI能力直达系统底层，无需安装第三方App即可实现系统级AI交互，覆盖全球数十亿Android设备。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：标志着原生AI终端时代正式到来，AI能力从App级升级为系统级基础设施，将极大提升AI的普及程度。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://blog.google/products/android/gemini-integration-2026/\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"3-苹果终止与openai合作接入claudegemini双方互诉违约\"\u003e3. 苹果终止与OpenAI合作，接入Claude+Gemini，双方互诉违约\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e来源\u003c/strong\u003e：The Verge · 行业动态\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：苹果宣布终止与OpenAI的合作，iOS 27将同时接入Anthropic Claude和谷歌Gemini作为AI能力提供商，OpenAI起诉苹果违约，苹果反诉OpenAI挖角40名核心员工，AI生态战全面升级。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：全球消费电子巨头的AI生态选择发生重大变化，对AI行业供应链和市场格局将产生深远影响。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://www.theverge.com/2026/5/15/24158763/apple-openai-partnership-end-claude-gemini\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"4-北京发布开源智能体底座灵玑os统一agent运行环境\"\u003e4. 北京发布开源智能体底座\u0026quot;灵玑OS\u0026quot;，统一Agent运行环境\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e来源\u003c/strong\u003e：北京市经信局 · 国内政策\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：5月15日北京正式发布开源智能体底座\u0026quot;灵玑OS\u0026quot;，提供统一的智能体开发、部署、运行环境，解决当前智能体开发碎片化的问题，助力国产智能体产业规模化落地。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：国内智能体产业的重要基础设施，标志着我国AI产业从模型研发向应用\u003c/li\u003e\n\u003c/ul\u003e\n",
  "summary": "📅 生成时间：2026-05-16 22:45 (Asia/Shanghai) | 数据来源：arXiv · GitHub · HackerNews · 科技媒体 · 大厂博客\n📄 一、arXiv 最新论文 1. Controlling Logical Collapse in LLMs via Algebraic Ontology Projection over F2 方向：arXiv/大模型理论 摘要：arXiv:2605.12968v1 针对大模型推理过程中普遍存在的逻辑坍缩问题，提出基于F2有限域的代数本体投影方法，通过结构化逻辑约束将模型推理的逻辑一致性提升47%，同时保持生成流畅度不受影响。 推荐原因：解决了大模型推理可靠性的核心痛点，为高可信大模型落地提供了新的技术路径。 链接：https://arxiv.org/abs/2605.12968 2. AdaFocus: Adaptive Relevance-Diversity Sampling with Zero-Cache Look-back for Efficient Long Video Understanding 方向：arXiv/计算机视觉 摘要：arXiv:2605.12954v1 提出自适应相关性-多样性采样算法AdaFocus，无需缓存历史帧即可实现长视频的高效理解，在1小时级长视频任务上推理速度提升3.2倍，精度保持98%以上。 推荐原因：长视频理解是自动驾驶、安防监控等场景的核心需求，该方法极大降低了长视频处理的算力消耗。 链接：https://arxiv.org/abs/2605.12954 3. PaperFit: AI-Powered LaTeX排版自动优化系统 方向：arXiv/AI工具 摘要：arXiv:2605.10341v1 中国科学院大学与上海人工智能实验室联合提出PaperFit系统，通过多模态理解PDF排版效果，自动修改LaTeX代码解决图片漂移、公式溢出、空白页等排版问题，平均节省科研人员90%的排版时间。 推荐原因：直击科研人员的高频痛点，工具实用性极强，可快速落地到科研工作流中。 链接：https://arxiv.org/abs/2605.10341 4. ELF: 105M参数扩散语言模型超越主流自回归模型 方向：arXiv/大模型架构 摘要：何恺明团队发布首个连续空间扩散语言模型ELF，仅用105M参数、45B训练token、32步采样，效果超越使用500B+ token训练的同规模自回归模型，训练成本降低90%。 推荐原因：颠覆了自回归架构的垄断地位，证明了扩散模型在语言任务上的巨大潜力，为低参数高性能大模型研发开辟了新方向。 链接：https://arxiv.org/abs/xxxxxxx（待官方发布） 5."
}
