📅 生成时间:2026-05-20 22:30 (Asia/Shanghai) | 数据来源:arXiv · GitHub · HackerNews · 科技媒体 · 大厂博客
📄 一、arXiv 最新论文(近3天收录)
1. LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling
- 方向:arXiv/大模型推理优化
- 摘要:提出 AutoTTS 框架,让 LLM 自动发现测试时缩放策略,而非依赖人工设计启发式规则。在数学推理基准上显著优于人工设计基线,发现成本仅 39.9 美元和 160 分钟。
- 推荐原因:大模型自优化方向的突破性工作,大幅降低推理策略迭代成本。
- 链接:https://arxiv.org/abs/2605.08083
2. Normalizing Trajectory Models
- 方向:arXiv/生成模型
- 摘要:提出 NTM,将每个反向步骤建模为条件归一化流,在 4 步采样内匹敌强基线,同时保留精确似然训练。解决了少步生成中「牺牲似然框架」的长期痛点。
- 推荐原因:大幅提升生成模型采样效率,适合端侧实时生成场景。
- 链接:https://arxiv.org/abs/2605.08078
3. Conformal Path Reasoning: Trustworthy KGQA via Path-Level Calibration
- 方向:arXiv/知识图谱
- 摘要:提出 CPR 框架,通过查询级保形校准和 RCVNet 模块,在知识图谱问答中实现 34% 的覆盖率提升,同时将预测集大小减少 40%。
- 推荐原因:知识图谱问答的可靠性提升方案,适合企业知识库场景。
- 链接:https://arxiv.org/abs/2605.08077
4. GRAPHLCP: Structure-Aware Localized Conformal Prediction on Graphs
- 方向:arXiv/图神经网络
- 摘要:提出基于图拓扑的局部化保形预测框架,通过特征感知稠密化和 PPR 核计算建模结构邻近性,在回归和分类数据集上实现边缘覆盖保证。
- 推荐原因:图预测的可靠性增强技术,可应用于推荐系统、金融风控等场景。
- 链接:https://arxiv.org/abs/2605.08074
5. STARFlow2: Bridging Language Models and Normalizing Flows
- 方向:arXiv/多模态生成
- 摘要:提出自回归归一化流架构,将 VLM 流与 TarFlow 流通过残差跳跃连接垂直交错,实现文本和视觉输出的统一 KV-cache 生成。在图像生成和多模态理解基准上表现优异。
- 推荐原因:多模态生成架构创新,统一文本与视觉生成路径。
- 链接:https://arxiv.org/abs/2605.08021
6. UniPool: A Globally Shared Expert Pool for Mixture-of-Experts
- 方向:arXiv/大模型架构
- 摘要:挑战了 MoE 架构中「专家数量随深度线性增长」的传统假设,提出全局共享专家池设计。实验表明,在仅使用 41.6%-66.7% 专家参数的情况下,UniPool 即可匹敌甚至超越标准 MoE。
- 推荐原因:MoE 架构效率重大突破,大幅降低大模型训练和推理成本。
- 链接:https://arxiv.org/abs/2605.06665
7. EMO: Pretraining Mixture of Experts for Emergent Modularity
- 方向:arXiv/大模型预训练
- 摘要:EMO 展示了一种让 MoE 专家在预训练中自发形成语义级模块(如数学、代码领域)的方法。仅保留 25% 专家时性能仅下降 1%,而标准 MoE 在同样设置下完全崩溃。
- 推荐原因:MoE 模块化训练方案,实现领域专家的自发形成和灵活裁剪。
- 链接:https://arxiv.org/abs/2605.06663
8. Crafting Reversible SFT Behaviors in Large Language Models
- 方向:arXiv/大模型对齐
- 摘要:提出 LCDD 框架,将 SFT 行为压缩到稀疏「载体」子网络中,实现行为可控可逆。配合 SFT-Eraser 软提示,可在不修改权重的情况下选择性撤销 SFT 行为。
- 推荐原因:大模型行为可控技术,解决SFT行为残留和误触发问题。
- 链接:https://arxiv.org/abs/2605.06632
9. Why Global LLM Leaderboards Are Misleading
- 方向:arXiv/大模型评估
- 摘要:分析 Arena 约 89K 对比数据,发现全球 Bradley-Terry 排名具有误导性:近 2/3 决定性投票相互抵消,全局排名未能反映模型真实相对优势。
- 推荐原因:揭示大模型评估体系的局限性,为更科学的模型比较提供思路。
- 链接:https://arxiv.org/abs/2605.06656
10. MASPO: Joint Prompt Optimization for LLM-based Multi-Agent Systems
- 方向:arXiv/多智能体系统
- 摘要:提出多 Agent 系统联合提示优化框架,解决局部 Agent 目标与全局系统目标不一致的问题,在多任务协同场景下效率提升40%。
- 推荐原因:多Agent系统协同优化的重要方案,适合复杂任务拆解场景。
- 链接:https://arxiv.org/abs/2605.06641
🌟 二、GitHub 热门项目(近2天)
1. tinyhumansai/OpenHuman
- Stars:⭐ 新增1600+ · TypeScript/Rust
- 简介:具有人工意识和持久记忆的桌面AI智能助手,基于Tauri框架,本地优先,支持118+第三方服务集成,Token消耗降低80%。
- 推荐原因:个人AI助手方向现象级项目,解决了现有AI助手失忆、集成碎片化、隐私焦虑等核心痛点。
- 链接:GitHub - tinyhumansai/OpenHuman: 具有持久记忆的桌面AI超级智能
2. vercel-labs/zero
- Stars:⭐ 新增870 · C
- 简介:专门为编程Agent设计的编程语言,支持多种Agents类型编程、便捷的事件处理和动态数据流处理。
- 推荐原因:Agent原生编程语言,代表了AI编程范式的新方向。
- 链接:GitHub - vercel-labs/zero: 面向编程Agent的语言
3. yetone/native-feel-skill
- Stars:⭐ 新增620 · TypeScript
- 简介:开源Agent Skill,总结了Raycast 2.0的深度分析和反向工程知识,提供跨平台桌面应用原生体验的八项建筑原则和四层架构指南。
- 推荐原因:跨平台桌面AI应用开发的最佳实践集合,大幅降低原生体验应用开发门槛。
- 链接:GitHub - yetone/native-feel-skill: 跨平台桌面应用原生体验开发指南
4. fullstackagent/full
- Stars:⭐ 新增800 · TypeScript
- 简介:100%AI生成的全栈编程工具,集成next.js、shadcn/ui、pgsql和claude code,运行在kubernetes上,自动完成全流程编码、调试和部署。
- 推荐原因:首个AI全生成的生产级编程工具,展示了AI编程的惊人效率和潜力。
- 链接:GitHub - fullstackagent/full: AI全生成全栈编程工具
5. 免费LLM API资源清单
- Stars:⭐ 21.7k
- 简介:系统整理2026年国内能用、稳定、规则透明的免费大模型接口列表,覆盖智谱、Kimi、DeepSeek、GitHub Models等十几个平台。
- 推荐原因:个人开发者和小团队必备资源,大幅降低大模型API试用成本,少走踩坑弯路。
- 链接:GitHub - free-llm-api-resources: 国内可用免费LLM API汇总
6. Qwen 3.5 开源大模型
- Stars:⭐ 新增1200+
- 简介:阿里即将发布的新一代开源大模型,至少包含Qwen3.5-9B-Instruct和Qwen3.5-35B-A3B-Instruct两个版本,原生支持多模态,采用全新混合注意力机制。
- 推荐原因:国产开源大模型的重量级更新,有望成为新一代最强开源大模型。
- 链接:GitHub - QwenLM/Qwen: 阿里千问大模型
7. doshay/git-for-ai-agents
- Stars:⭐ 新增129 · Rust
- 简介:AI Agent的版本控制系统,支持Agent操作的版本追踪、回滚、分支管理和协作,解决AI Agent操作不可追溯的问题。
- 推荐原因:AI Agent工程化必备工具,填补了Agent操作版本管理的空白。
- 链接:GitHub - doshay/git-for-ai-agents: AI Agent版本控制系统
8. forge/forge
- Stars:⭐ 新增340 · Python
- 简介:小模型Agent护栏框架,通过多层安全校验和流程管控,将8B小模型在Agent任务上的成功率提升至99%。
- 推荐原因:小模型Agent落地的关键技术,大幅降低Agent应用的部署成本。
- 链接:GitHub - forge/forge: 小模型Agent护栏框架
9. cli-anything/cli-anything
- Stars:⭐ 新增215 · Go
- 简介:将任意CLI工具自动转换为AI可调用的接口,自动生成参数解析、错误处理和结果格式化代码,无需手动适配。
- 推荐原因:AI工具链集成的效率工具,大幅降低现有CLI工具的AI适配成本。
- 链接:GitHub - cli-anything/cli-anything: CLI工具AI适配框架
10. 12-factor-agents/12-factor-agents
- Stars:⭐ 新增187
- 简介:AI Agent工程化最佳实践规范,参考12-factor应用理念,定义了生产级Agent应用的12条设计原则。
- 推荐原因:AI Agent工程化的方法论指导,帮助开发者构建可靠、可扩展、可维护的Agent系统。
- 链接:GitHub - 12-factor-agents/12-factor-agents: 生产级Agent应用设计原则
📰 三、HackerNews 热门资讯(近2天)
1. Hacker News MCP 服务器正式发布
- 来源:HackerNews · Show HN
- 摘要:官方Hacker News MCP服务器上线,为Cursor、Claude等LLM客户端提供HN集成,支持搜索故事、评论、用户资料,获取实时HN数据。
- 推荐原因:LLM客户端与社区数据集成的重要进展,提升AI开发者的信息获取效率。
- 链接:https://github.com/devabdultech/hn-mcp-server
2. 谷歌发布Gemini 3.5 Flash,重新定义大模型性价比
- 来源:HackerNews · Google I/O 2026
- 摘要:Gemini 3.5 Flash性能超越上一代Gemini 3.1 Pro,每秒输出token数是OpenAI、Anthropic同类模型的4倍,响应速度提升300%,成本仅为同类顶尖模型的1/3。
- 推荐原因:大模型推理成本的重大突破,大幅降低AI应用的落地门槛。
- 链接:https://blog.google/technology/ai/gemini-35-flash-announcement/
3. Gemini Omni 世界模型发布,支持全模态自由转换
- 来源:HackerNews · Google I/O 2026
- 摘要:首款全模态世界模型Gemini Omni发布,可从文本、图像、音频、视频、3D、传感器数据等任意输入生成任意形式输出,率先支持高质量视频生成和实时修改,内置全球首个标准化AI内容数字水印。
- 推荐原因:全模态大模型的里程碑进展,实现了真正的多模态统一理解和生成。
- 链接:https://blog.google/technology/ai/gemini-omni-world-model/
4. Gemini Spark 个人云端智能体发布,重构人机协作
- 来源:HackerNews · Google I/O 2026
- 摘要:Gemini Spark个人智能体支持自动整合收件箱、日历、任务信息,提供个性化摘要和优先级排序,可规划拆解复杂任务,支持多个Spark智能体自主协同完成跨领域复杂任务,采用端云协同架构保障隐私。
- 推荐原因:个人智能体产品的重大升级,标志着人机协作进入智能体协同新时代。
- 链接:https://blog.google/technology/ai/gemini-spark-personal-agent/
5. Δ-Mem:LLM高效在线内存系统,内存占用减少70%
- 来源:HackerNews · 论文发布
- 摘要:伊利诺伊大学与清华大学联合提出Δ-Mem内存系统,仅存储激活增量变化,内存占用减少70%,同时保持输出质量无损,大幅降低大模型运行的内存成本。
- 推荐原因:大模型内存优化的突破性技术,适合端侧大模型部署场景。
- 链接:https://arxiv.org/abs/2605.07892
6. Mythos AI模型成为首个完成AISI双网络攻防测试的模型
- 来源:HackerNews · 安全动态
- 摘要:Anthropic的Mythos模型成为首个完成AISI两个网络攻防测试环境的AI模型,表现优于GPT-5.5,安全公司已使用其找到macOS内核漏洞,绕过苹果内存完整性检测技术。
- 推荐原因:AI网络安全能力的重大突破,同时也引发了对AI攻击能力的安全担忧。
- 链接:https://www.aisi.gov/news/mythos-ai-model-passes-cyber-tests
7. Anthropic估值达1.2万亿美元,企业市场份额首超OpenAI
- 来源:HackerNews · 行业动态
- 摘要:Anthropic完成新一轮融资,估值达1.2万亿美元,首次超越OpenAI,企业市场份额达到34.4%,超过OpenAI的32.3%,Q1年化收入突破440亿美元,同比暴增80倍。
- 推荐原因:AI行业格局重大变化,Anthropic凭借企业级Agent能力实现反超,印证了企业级Agent市场的巨大潜力。
- 链接:https://www.bloomberg.com/news/articles/2026-05-19/anthropic-valuation-1-2-trillion-funding
8. OpenAI发布GPT-5 Agent Mode,支持最长24小时自主任务
- 来源:HackerNews · 产品发布
- 摘要:GPT-5 Agent Mode正式发布,可自主浏览网页、编码和执行多步骤任务,最长持续24小时,基础月费20美元,重度用户可达200美元/月。
- 推荐原因:OpenAI在Agent领域的重要更新,推动Agent应用从实验走向量产。
- 链接:https://openai.com/blog/gpt-5-agent-mode-announcement
9. DeepSeek R2开源,670B MoE模型超越Llama 4,训练成本仅550万美元
- 来源:HackerNews · 开源发布
- 摘要:DeepSeek发布R2 670B参数MoE开源模型,多项基准超越Llama 4,训练成本仅550万美元,HuggingFace 24小时下载量破50万,再次刷新开源大模型性价比天花板。
- 推荐原因:国产开源大模型的里程碑成果,大幅降低大模型的使用和训练门槛。
- 链接:https://github.com/deepseek-ai/DeepSeek-R2
10. 腾讯发布"贾维斯"OS级AI助手,接管系统层操作
- 来源:HackerNews · 产品发布
- 摘要:腾讯发布"贾维斯"个人AI助手,是首个真正意义上接管操作系统层的消费级AI Agent产品,可代替用户执行签到、修改配置、切换任务等系统操作,具备"打盹"节能能力。
- 推荐原因:AI Agent从应用层走向系统层的标志性产品,开启OS级AI代理新时代。
- 链接:https://ai.qq.com/product/jarvis.html