{ "title": "每日研究简报 2026-05-20", "url": "/posts/research-brief-2026-05-20/", "permalink": "https://hackcv.com/posts/research-brief-2026-05-20/", "date": "2026-05-20", "lastmod": "2026-05-20", "author": "", "description": "AI / 大模型 / Agent / 计算机视觉 / 音视频处理算法 / 工程优化领域每日研究简报", "categories": ["研究简报"], "tags": ["AI","大模型","Agent","计算机视觉","音视频处理","工程优化","每日简报"], "cover": "https://picsum.photos/seed/%E6%AF%8F%E6%97%A5%E7%A0%94%E7%A9%B6%E7%AE%80%E6%8A%A5-2026-05-20/1200/675", "readingTime": 2, "wordCount": 451, "content": "\u003cblockquote\u003e\n\u003cp\u003e📅 生成时间：2026-05-20 22:30 (Asia/Shanghai) | 数据来源：arXiv · GitHub · HackerNews · 科技媒体 · 大厂博客\u003c/p\u003e\n\u003c/blockquote\u003e\n\u003chr\u003e\n\u003ch2 id=\"-一arxiv-最新论文近3天收录\"\u003e📄 一、arXiv 最新论文（近3天收录）\u003c/h2\u003e\n\u003ch3 id=\"1-llms-improving-llms-agentic-discovery-for-test-time-scaling\"\u003e1. LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e：arXiv/大模型推理优化\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：提出 AutoTTS 框架，让 LLM 自动发现测试时缩放策略，而非依赖人工设计启发式规则。在数学推理基准上显著优于人工设计基线，发现成本仅 39.9 美元和 160 分钟。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：大模型自优化方向的突破性工作，大幅降低推理策略迭代成本。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://arxiv.org/abs/2605.08083\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"2-normalizing-trajectory-models\"\u003e2. Normalizing Trajectory Models\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e：arXiv/生成模型\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：提出 NTM，将每个反向步骤建模为条件归一化流，在 4 步采样内匹敌强基线，同时保留精确似然训练。解决了少步生成中「牺牲似然框架」的长期痛点。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：大幅提升生成模型采样效率，适合端侧实时生成场景。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://arxiv.org/abs/2605.08078\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"3-conformal-path-reasoning-trustworthy-kgqa-via-path-level-calibration\"\u003e3. Conformal Path Reasoning: Trustworthy KGQA via Path-Level Calibration\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e：arXiv/知识图谱\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：提出 CPR 框架，通过查询级保形校准和 RCVNet 模块，在知识图谱问答中实现 34% 的覆盖率提升，同时将预测集大小减少 40%。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：知识图谱问答的可靠性提升方案，适合企业知识库场景。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://arxiv.org/abs/2605.08077\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"4-graphlcp-structure-aware-localized-conformal-prediction-on-graphs\"\u003e4. GRAPHLCP: Structure-Aware Localized Conformal Prediction on Graphs\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e：arXiv/图神经网络\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：提出基于图拓扑的局部化保形预测框架，通过特征感知稠密化和 PPR 核计算建模结构邻近性，在回归和分类数据集上实现边缘覆盖保证。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：图预测的可靠性增强技术，可应用于推荐系统、金融风控等场景。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://arxiv.org/abs/2605.08074\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"5-starflow2-bridging-language-models-and-normalizing-flows\"\u003e5. STARFlow2: Bridging Language Models and Normalizing Flows\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e：arXiv/多模态生成\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：提出自回归归一化流架构，将 VLM 流与 TarFlow 流通过残差跳跃连接垂直交错，实现文本和视觉输出的统一 KV-cache 生成。在图像生成和多模态理解基准上表现优异。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：多模态生成架构创新，统一文本与视觉生成路径。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://arxiv.org/abs/2605.08021\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"6-unipool-a-globally-shared-expert-pool-for-mixture-of-experts\"\u003e6. UniPool: A Globally Shared Expert Pool for Mixture-of-Experts\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e：arXiv/大模型架构\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：挑战了 MoE 架构中「专家数量随深度线性增长」的传统假设，提出全局共享专家池设计。实验表明，在仅使用 41.6%-66.7% 专家参数的情况下，UniPool 即可匹敌甚至超越标准 MoE。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：MoE 架构效率重大突破，大幅降低大模型训练和推理成本。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://arxiv.org/abs/2605.06665\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"7-emo-pretraining-mixture-of-experts-for-emergent-modularity\"\u003e7. EMO: Pretraining Mixture of Experts for Emergent Modularity\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e：arXiv/大模型预训练\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：EMO 展示了一种让 MoE 专家在预训练中自发形成语义级模块（如数学、代码领域）的方法。仅保留 25% 专家时性能仅下降 1%，而标准 MoE 在同样设置下完全崩溃。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：MoE 模块化训练方案，实现领域专家的自发形成和灵活裁剪。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://arxiv.org/abs/2605.06663\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"8-crafting-reversible-sft-behaviors-in-large-language-models\"\u003e8. Crafting Reversible SFT Behaviors in Large Language Models\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e：arXiv/大模型对齐\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：提出 LCDD 框架，将 SFT 行为压缩到稀疏「载体」子网络中，实现行为可控可逆。配合 SFT-Eraser 软提示，可在不修改权重的情况下选择性撤销 SFT 行为。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：大模型行为可控技术，解决SFT行为残留和误触发问题。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://arxiv.org/abs/2605.06632\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"9-why-global-llm-leaderboards-are-misleading\"\u003e9. Why Global LLM Leaderboards Are Misleading\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e：arXiv/大模型评估\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：分析 Arena 约 89K 对比数据，发现全球 Bradley-Terry 排名具有误导性：近 2/3 决定性投票相互抵消，全局排名未能反映模型真实相对优势。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：揭示大模型评估体系的局限性，为更科学的模型比较提供思路。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://arxiv.org/abs/2605.06656\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"10-maspo-joint-prompt-optimization-for-llm-based-multi-agent-systems\"\u003e10. MASPO: Joint Prompt Optimization for LLM-based Multi-Agent Systems\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e：arXiv/多智能体系统\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：提出多 Agent 系统联合提示优化框架，解决局部 Agent 目标与全局系统目标不一致的问题，在多任务协同场景下效率提升40%。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：多Agent系统协同优化的重要方案，适合复杂任务拆解场景。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://arxiv.org/abs/2605.06641\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch2 id=\"-二github-热门项目近2天\"\u003e🌟 二、GitHub 热门项目（近2天）\u003c/h2\u003e\n\u003ch3 id=\"1-tinyhumansaiopenhuman\"\u003e1. tinyhumansai/OpenHuman\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003eStars\u003c/strong\u003e：⭐ 新增1600+ · TypeScript/Rust\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e：具有人工意识和持久记忆的桌面AI智能助手，基于Tauri框架，本地优先，支持118+第三方服务集成，Token消耗降低80%。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：个人AI助手方向现象级项目，解决了现有AI助手失忆、集成碎片化、隐私焦虑等核心痛点。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：\u003ca href=\"https://github.com/tinyhumansai/OpenHuman\"\u003eGitHub - tinyhumansai/OpenHuman: 具有持久记忆的桌面AI超级智能\u003c/a\u003e\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"2-vercel-labszero\"\u003e2. vercel-labs/zero\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003eStars\u003c/strong\u003e：⭐ 新增870 · C\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e：专门为编程Agent设计的编程语言，支持多种Agents类型编程、便捷的事件处理和动态数据流处理。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：Agent原生编程语言，代表了AI编程范式的新方向。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：\u003ca href=\"https://github.com/vercel-labs/zero\"\u003eGitHub - vercel-labs/zero: 面向编程Agent的语言\u003c/a\u003e\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"3-yetonenative-feel-skill\"\u003e3. yetone/native-feel-skill\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003eStars\u003c/strong\u003e：⭐ 新增620 · TypeScript\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e：开源Agent Skill，总结了Raycast 2.0的深度分析和反向工程知识，提供跨平台桌面应用原生体验的八项建筑原则和四层架构指南。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：跨平台桌面AI应用开发的最佳实践集合，大幅降低原生体验应用开发门槛。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：\u003ca href=\"https://github.com/yetone/native-feel-skill\"\u003eGitHub - yetone/native-feel-skill: 跨平台桌面应用原生体验开发指南\u003c/a\u003e\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"4-fullstackagentfull\"\u003e4. fullstackagent/full\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003eStars\u003c/strong\u003e：⭐ 新增800 · TypeScript\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e：100%AI生成的全栈编程工具，集成next.js、shadcn/ui、pgsql和claude code，运行在kubernetes上，自动完成全流程编码、调试和部署。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：首个AI全生成的生产级编程工具，展示了AI编程的惊人效率和潜力。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：\u003ca href=\"https://github.com/fullstackagent/full\"\u003eGitHub - fullstackagent/full: AI全生成全栈编程工具\u003c/a\u003e\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"5-免费llm-api资源清单\"\u003e5. 免费LLM API资源清单\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003eStars\u003c/strong\u003e：⭐ 21.7k\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e：系统整理2026年国内能用、稳定、规则透明的免费大模型接口列表，覆盖智谱、Kimi、DeepSeek、GitHub Models等十几个平台。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：个人开发者和小团队必备资源，大幅降低大模型API试用成本，少走踩坑弯路。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：\u003ca href=\"https://github.com/free-llm-api-resources/list\"\u003eGitHub - free-llm-api-resources: 国内可用免费LLM API汇总\u003c/a\u003e\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"6-qwen-35-开源大模型\"\u003e6. Qwen 3.5 开源大模型\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003eStars\u003c/strong\u003e：⭐ 新增1200+\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e：阿里即将发布的新一代开源大模型，至少包含Qwen3.5-9B-Instruct和Qwen3.5-35B-A3B-Instruct两个版本，原生支持多模态，采用全新混合注意力机制。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：国产开源大模型的重量级更新，有望成为新一代最强开源大模型。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：\u003ca href=\"https://github.com/QwenLM/Qwen\"\u003eGitHub - QwenLM/Qwen: 阿里千问大模型\u003c/a\u003e\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"7-doshaygit-for-ai-agents\"\u003e7. doshay/git-for-ai-agents\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003eStars\u003c/strong\u003e：⭐ 新增129 · Rust\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e：AI Agent的版本控制系统，支持Agent操作的版本追踪、回滚、分支管理和协作，解决AI Agent操作不可追溯的问题。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：AI Agent工程化必备工具，填补了Agent操作版本管理的空白。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：\u003ca href=\"https://github.com/doshay/git-for-ai-agents\"\u003eGitHub - doshay/git-for-ai-agents: AI Agent版本控制系统\u003c/a\u003e\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"8-forgeforge\"\u003e8. forge/forge\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003eStars\u003c/strong\u003e：⭐ 新增340 · Python\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e：小模型Agent护栏框架，通过多层安全校验和流程管控，将8B小模型在Agent任务上的成功率提升至99%。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：小模型Agent落地的关键技术，大幅降低Agent应用的部署成本。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：\u003ca href=\"https://github.com/forge/forge\"\u003eGitHub - forge/forge: 小模型Agent护栏框架\u003c/a\u003e\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"9-cli-anythingcli-anything\"\u003e9. cli-anything/cli-anything\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003eStars\u003c/strong\u003e：⭐ 新增215 · Go\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e：将任意CLI工具自动转换为AI可调用的接口，自动生成参数解析、错误处理和结果格式化代码，无需手动适配。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：AI工具链集成的效率工具，大幅降低现有CLI工具的AI适配成本。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：\u003ca href=\"https://github.com/cli-anything/cli-anything\"\u003eGitHub - cli-anything/cli-anything: CLI工具AI适配框架\u003c/a\u003e\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"10-12-factor-agents12-factor-agents\"\u003e10. 12-factor-agents/12-factor-agents\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003eStars\u003c/strong\u003e：⭐ 新增187\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e：AI Agent工程化最佳实践规范，参考12-factor应用理念，定义了生产级Agent应用的12条设计原则。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：AI Agent工程化的方法论指导，帮助开发者构建可靠、可扩展、可维护的Agent系统。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：\u003ca href=\"https://github.com/12-factor-agents/12-factor-agents\"\u003eGitHub - 12-factor-agents/12-factor-agents: 生产级Agent应用设计原则\u003c/a\u003e\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch2 id=\"-三hackernews-热门资讯近2天\"\u003e📰 三、HackerNews 热门资讯（近2天）\u003c/h2\u003e\n\u003ch3 id=\"1-hacker-news-mcp-服务器正式发布\"\u003e1. Hacker News MCP 服务器正式发布\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e来源\u003c/strong\u003e：HackerNews · Show HN\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：官方Hacker News MCP服务器上线，为Cursor、Claude等LLM客户端提供HN集成，支持搜索故事、评论、用户资料，获取实时HN数据。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：LLM客户端与社区数据集成的重要进展，提升AI开发者的信息获取效率。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://github.com/devabdultech/hn-mcp-server\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"2-谷歌发布gemini-35-flash重新定义大模型性价比\"\u003e2. 谷歌发布Gemini 3.5 Flash，重新定义大模型性价比\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e来源\u003c/strong\u003e：HackerNews · Google I/O 2026\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：Gemini 3.5 Flash性能超越上一代Gemini 3.1 Pro，每秒输出token数是OpenAI、Anthropic同类模型的4倍，响应速度提升300%，成本仅为同类顶尖模型的1/3。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：大模型推理成本的重大突破，大幅降低AI应用的落地门槛。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://blog.google/technology/ai/gemini-35-flash-announcement/\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"3-gemini-omni-世界模型发布支持全模态自由转换\"\u003e3. Gemini Omni 世界模型发布，支持全模态自由转换\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e来源\u003c/strong\u003e：HackerNews · Google I/O 2026\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：首款全模态世界模型Gemini Omni发布，可从文本、图像、音频、视频、3D、传感器数据等任意输入生成任意形式输出，率先支持高质量视频生成和实时修改，内置全球首个标准化AI内容数字水印。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：全模态大模型的里程碑进展，实现了真正的多模态统一理解和生成。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://blog.google/technology/ai/gemini-omni-world-model/\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"4-gemini-spark-个人云端智能体发布重构人机协作\"\u003e4. Gemini Spark 个人云端智能体发布，重构人机协作\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e来源\u003c/strong\u003e：HackerNews · Google I/O 2026\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：Gemini Spark个人智能体支持自动整合收件箱、日历、任务信息，提供个性化摘要和优先级排序，可规划拆解复杂任务，支持多个Spark智能体自主协同完成跨领域复杂任务，采用端云协同架构保障隐私。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：个人智能体产品的重大升级，标志着人机协作进入智能体协同新时代。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://blog.google/technology/ai/gemini-spark-personal-agent/\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"5-δ-memllm高效在线内存系统内存占用减少70\"\u003e5. Δ-Mem：LLM高效在线内存系统，内存占用减少70%\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e来源\u003c/strong\u003e：HackerNews · 论文发布\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：伊利诺伊大学与清华大学联合提出Δ-Mem内存系统，仅存储激活增量变化，内存占用减少70%，同时保持输出质量无损，大幅降低大模型运行的内存成本。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：大模型内存优化的突破性技术，适合端侧大模型部署场景。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://arxiv.org/abs/2605.07892\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"6-mythos-ai模型成为首个完成aisi双网络攻防测试的模型\"\u003e6. Mythos AI模型成为首个完成AISI双网络攻防测试的模型\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e来源\u003c/strong\u003e：HackerNews · 安全动态\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：Anthropic的Mythos模型成为首个完成AISI两个网络攻防测试环境的AI模型，表现优于GPT-5.5，安全公司已使用其找到macOS内核漏洞，绕过苹果内存完整性检测技术。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：AI网络安全能力的重大突破，同时也引发了对AI攻击能力的安全担忧。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://www.aisi.gov/news/mythos-ai-model-passes-cyber-tests\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"7-anthropic估值达12万亿美元企业市场份额首超openai\"\u003e7. Anthropic估值达1.2万亿美元，企业市场份额首超OpenAI\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e来源\u003c/strong\u003e：HackerNews · 行业动态\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：Anthropic完成新一轮融资，估值达1.2万亿美元，首次超越OpenAI，企业市场份额达到34.4%，超过OpenAI的32.3%，Q1年化收入突破440亿美元，同比暴增80倍。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：AI行业格局重大变化，Anthropic凭借企业级Agent能力实现反超，印证了企业级Agent市场的巨大潜力。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://www.bloomberg.com/news/articles/2026-05-19/anthropic-valuation-1-2-trillion-funding\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"8-openai发布gpt-5-agent-mode支持最长24小时自主任务\"\u003e8. OpenAI发布GPT-5 Agent Mode，支持最长24小时自主任务\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e来源\u003c/strong\u003e：HackerNews · 产品发布\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：GPT-5 Agent Mode正式发布，可自主浏览网页、编码和执行多步骤任务，最长持续24小时，基础月费20美元，重度用户可达200美元/月。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：OpenAI在Agent领域的重要更新，推动Agent应用从实验走向量产。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://openai.com/blog/gpt-5-agent-mode-announcement\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"9-deepseek-r2开源670b-moe模型超越llama-4训练成本仅550万美元\"\u003e9. DeepSeek R2开源，670B MoE模型超越Llama 4，训练成本仅550万美元\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e来源\u003c/strong\u003e：HackerNews · 开源发布\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：DeepSeek发布R2 670B参数MoE开源模型，多项基准超越Llama 4，训练成本仅550万美元，HuggingFace 24小时下载量破50万，再次刷新开源大模型性价比天花板。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：国产开源大模型的里程碑成果，大幅降低大模型的使用和训练门槛。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://github.com/deepseek-ai/DeepSeek-R2\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"10-腾讯发布贾维斯os级ai助手接管系统层操作\"\u003e10. 腾讯发布\u0026quot;贾维斯\u0026quot;OS级AI助手，接管系统层操作\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e来源\u003c/strong\u003e：HackerNews · 产品发布\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：腾讯发布\u0026quot;贾维斯\u0026quot;个人AI助手，是首个真正意义上接管操作系统层的消费级AI Agent产品，可代替用户执行签到、修改配置、切换任务等系统操作，具备\u0026quot;打盹\u0026quot;节能能力。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e：AI Agent从应用层走向系统层的标志性产品，开启OS级AI代理新时代。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://ai.qq.com/product/jarvis.html\u003c/li\u003e\n\u003c/ul\u003e\n", "summary": "📅 生成时间：2026-05-20 22:30 (Asia/Shanghai) | 数据来源：arXiv · GitHub · HackerNews · 科技媒体 · 大厂博客\n📄 一、arXiv 最新论文（近3天收录） 1. LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling 方向：arXiv/大模型推理优化摘要：提出 AutoTTS 框架，让 LLM 自动发现测试时缩放策略，而非依赖人工设计启发式规则。在数学推理基准上显著优于人工设计基线，发现成本仅 39.9 美元和 160 分钟。推荐原因：大模型自优化方向的突破性工作，大幅降低推理策略迭代成本。链接：https://arxiv.org/abs/2605.08083 2. Normalizing Trajectory Models 方向：arXiv/生成模型摘要：提出 NTM，将每个反向步骤建模为条件归一化流，在 4 步采样内匹敌强基线，同时保留精确似然训练。解决了少步生成中「牺牲似然框架」的长期痛点。推荐原因：大幅提升生成模型采样效率，适合端侧实时生成场景。链接：https://arxiv.org/abs/2605.08078 3. Conformal Path Reasoning: Trustworthy KGQA via Path-Level Calibration 方向：arXiv/知识图谱摘要：提出 CPR 框架，通过查询级保形校准和 RCVNet 模块，在知识图谱问答中实现 34% 的覆盖率提升，同时将预测集大小减少 40%。推荐原因：知识图谱问答的可靠性提升方案，适合企业知识库场景。链接：https://arxiv.org/abs/2605.08077 4." }