AI研究简报 2026-06-11

AI研究简报 2026-06-11

本简报覆盖近2天AI领域前沿论文、热门开源项目、行业资讯,精选8条/类别,每条附带推荐理由与来源链接。


📄 arXiv最新AI论文(8篇)

1. Mind the Perspective: Let’s Reason Recursively for Theory of Mind

摘要:提出RecToM推理框架,通过递归视角构建建模嵌套信念,将高阶心理理论问题转化为最终构建视角下的现实世界问题,大幅提升LLM的心理理论推理能力。KD45分析证明该视角构建方法具有良好的形式化基础。 推荐理由:解决了LLM在心理理论推理领域的长期痛点,嵌套信念建模方法为复杂社交场景理解提供了新思路。 链接:https://arxiv.org/abs/2606.11724

2. Assessing Automated Prompt Injection Attacks in Agentic Environments

摘要:针对LLM智能体场景下的自动化提示注入攻击进行了全面实证评估,适配白盒(GCG)和黑盒(TAP)攻击方法到AgentDojo框架,在80个任务对、4个领域、多个模型上验证发现黑盒优化方法效果显著优于梯度方法。 推荐理由:首次系统性评估智能体环境下的提示注入风险,研究结论对AI Agent安全架构设计具有重要参考价值。 链接:https://arxiv.org/abs/2606.10525

3. Earth-OneVision: Extending Remote Sensing Multimodal Large Language Models to More Sensor Modalities and Tasks

摘要:提出2B参数的遥感多模态大模型Earth-OneVision,统一支持光学、SAR、红外、多光谱、时序、视频6种传感器模态,覆盖9类任务,通过全粒度视觉语言对齐等三种机制解决现有RS-MLLM的能力瓶颈。 推荐理由:遥感AI领域的里程碑式工作,统一多传感器模态的架构设计为地球科学智能化提供了基础底座。 链接:https://arxiv.org/abs/2606.10819

4. From Data Heterogeneity to Convergence: A Data-Centric Review of Federated Learning

摘要:从数据视角系统性综述联邦学习领域,将具体数据属性、数据划分方式与模型收敛性关联,填补了现有综述未深入数据维度的空白,为联邦学习稳定收敛和实际落地提供了数据层面的指导框架。 推荐理由:联邦学习领域最全面的数据视角综述,对隐私计算场景下的AI落地具有很强的实践指导意义。 链接:https://arxiv.org/abs/2606.10595

5. Toward Secure LLM Agents: Threat Surfaces, Attacks, Defenses, and Evaluation

摘要:通过生命周期导向的系统框架,综合247篇论文建立了LLM智能体安全研究体系,建模了智能体交互全流程的威胁面、攻击方法、防御措施和评估标准,解决了当前智能体安全研究碎片化的问题。 推荐理由:AI Agent安全领域的权威综述,建立的研究框架为该领域后续研究提供了统一坐标系。 链接:https://arxiv.org/abs/2606.10749

6. Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention

摘要:斯坦福团队揭示大模型性能优于小模型的核心机制:小模型神经元被高频简单任务占满,低频复杂能力无法获得足够神经元资源;大模型神经元预算充裕,在充分学习常见任务后仍有剩余资源学习复杂任务。从数学证明到4B参数预训练实验验证了该结论。 推荐理由:解答了大模型领域长期存在的基础问题,资源竞争机制的发现对模型缩放规律研究和高效模型设计具有重要指导意义。 链接:https://arxiv.org/abs/2606.xxxx(补充实际链接)

7. From Context to Skills: Can Language Models Learn from Context Skillfully?

摘要:清华大学等机构提出Ctx2Skill框架,能自动从上下文中提炼可复用的规则、流程、约束等技能,无需人工标注,后续处理同类任务时可直接使用技能集,避免每次重新处理长上下文。 推荐理由:将上下文学习从一次性使用推进到技能化复用阶段,大幅降低长文档处理场景的Token消耗和响应延迟。 链接:https://arxiv.org/abs/2604.27660

8. NEWTON: Agentic Planning for Physically Grounded Video Generation

摘要:浙江大学等提出NEWTON视频生成范式,引入Agent驱动的物理工具编排机制,让智能体负责物理规则规划、工具调用和结果校验,将生成器作为渲染工具,解决了现有视频生成模型物理常识不足的问题,在VideoPhy-2评测中准确率从32.6%大幅提升。 推荐理由:视频生成领域的突破性创新,Agent+工具调用的范式为视频生成走向"世界模拟器"提供了可行路径。 链接:https://arxiv.org/abs/2605.18396


🌟 GitHub热门AI项目(8个)

1. last30days-skill

简介:AI Agent跨平台搜索引擎,同时搜索Reddit、X/Twitter、YouTube、Hacker News、Polymarket等多个平台,经AI综合评分后输出简报,单日涨星3191颗,总星数37.8k。 推荐理由:解决了传统搜索引擎SEO污染问题,聚合真实用户反馈和真金白银的预测市场数据,是市场调研和舆情分析的利器。 链接:https://github.com/mvanhorn/last30days-skill

2. OpenClaw

简介:本地优先超级AI助手,主打"做事而非聊天"的设计理念,采用模块化架构,3个月星标破32万,是GitHub增速第一的AI项目。 推荐理由:新一代AI Agent框架的代表作品,本地优先的设计满足了数据隐私需求,丰富的插件生态支持各类场景定制。 链接:https://github.com/openclaw/openclaw

3. context-mode

简介:专为AI编程打造的MCP上下文优化插件,通过智能裁剪和优先级排序,将传递给AI模型的上下文压缩到最低必要量,在保持输出质量的同时降低98%的Token消耗,将大模型记忆力从30分钟提升到3小时,总星数1.5万。 推荐理由:精准切中AI编程场景下Token成本过高和模型失忆两大痛点,已被微软、谷歌、字节跳动等大厂研发团队采用。 链接:https://github.com/context-mode/context-mode

4. turbovec

简介:Rust实现的高性能向量索引库,提供易用的Python接口,速度碾压同类向量检索产品,是知识库和RAG系统搭建的首选底层组件,单日涨星1400颗。 推荐理由:向量检索领域的性能标杆,Rust实现兼顾性能和安全性,大幅降低RAG系统的部署和运行成本。 链接:https://github.com/RyanCodrai/turbovec

5. hermes-agent

简介:全能自适应智能体框架,内置长期记忆、多智能体协作能力,解决AI Agent跨会话失忆痛点,支持个人和企业级场景部署,单日涨星1800颗。 推荐理由:成熟的Agent工程化框架,长期记忆能力解决了智能体落地的核心障碍,开箱即用降低了AI Agent开发门槛。 链接:https://github.com/hermes-agent/hermes-agent

6. CodeGraph

简介:代码知识图谱工具,一键解析项目生成可视化语义图谱,帮助开发者快速理解陌生代码库,为AI编码助手提供预索引的代码知识,降低35%成本、减少70%工具调用,总星数21k。 推荐理由:AI编程场景下的效率倍增器,代码知识图谱的引入从根本上提升了大模型理解复杂项目的能力。 链接:https://github.com/colbymchenry/codegraph

7. MoneyPrinterTurbo

简介:AI短视频量产神器,输入主题即可自动生成文案、配音、字幕,支持本地零成本部署,是自媒体从业者日更的必备工具,单日涨星1600颗。 推荐理由:AIGC落地的典型代表,将短视频生产流程全自动化,大幅降低内容创作门槛和成本。 链接:https://github.com/harry0703/MoneyPrinterTurbo

8. claude-code-best-practice

简介:Claude Code最佳实践开源项目,系统整理了社区验证过的Claude Code使用经验,包括核心能力、工作流、插件开发、避免常见坑等内容,总星数57k+。 推荐理由:Claude Code开发者的必备手册,系统化的最佳实践指导可以帮助开发者快速掌握Claude Code的高阶用法,提升开发效率。 链接:https://github.com/claude-code-best-practice/claude-code-best-practice


💡 HackerNews行业资讯(8条)

1. Anthropic发布Claude Fable 5与Mythos 5双模型

摘要:6月9日Anthropic正式发布两款新模型:面向普通用户的Claude Fable 5,在软件工程、知识工作、视觉、科研领域表现卓越,自主运行时间显著延长;仅限合作伙伴使用的Claude Mythos 5,具备全球最强网络安全能力,药物设计流程提速约10倍。 推荐理由:大模型领域的里程碑式发布,双产品策略兼顾了安全普惠和前沿能力探索,“安全即溢价"的商业模式为行业提供了新参考。 链接:https://www.anthropic.com/index/claude-5-release

2. OpenAI正式向SEC秘密提交S-1招股书

摘要:继Anthropic之后,OpenAI正式提交保密S-1文件启动IPO进程,目标估值或达1万亿美元,成为AI行业最受瞩目的上市事件,招股书披露其三大战略为自动化AI研究员、经济加速、全民AGI。 推荐理由:标志着AI行业从技术探索阶段正式进入商业成熟阶段,万亿美元估值将进一步推高全球AI产业的资本投入。 链接:https://www.sec.gov/Archives/edgar/data/…(补充实际链接)

3. 苹果WWDC 2026发布Siri AI史诗级升级

摘要:全新Siri采用"自研基础模型+Google Gemini"联合架构,具备屏幕感知、个人情境理解、跨App任务执行三大核心能力,已进化为独立App。中国大陆用户因监管要求暂时无法体验,苹果正在与国内AI厂商谈判合作。 推荐理由:消费级AI入口的标志性升级,苹果的AI战略落地将进一步推动端侧AI和AI原生应用的普及。 链接:https://www.apple.com/newsroom/2026/06/apple-unveils-siri-ai/

4. 中国AI大模型周调用量连续6周超越美国

摘要:OpenRouter最新数据显示,6月1日-7日全球AI大模型总调用量达36.1万亿Token(环比+13.5%),DeepSeek-V4-Flash连续3周蝉联榜首(上周3.69万亿Token),中国大模型周调用量14.19万亿Token,连续六周超越美国。 推荐理由:中国AI产业从技术追赶转向应用领先的标志性数据,庞大的市场需求将进一步推动中国大模型技术迭代和生态完善。 链接:https://openrouter.ai/insights/usage-statistics

5. DeepSeek V4 Pro被曝超越GPT-5.5 Pro

摘要:据best-ai.org报道,DeepSeek V4 Pro在多项基准测试中已超越OpenAI GPT-5.5 Pro,同时美国企业加速采用DeepSeek作为低成本替代方案,性价比优势显著。 推荐理由:国产大模型技术实力获得国际认可的重要信号,标志着中国大模型产业已经进入全球第一梯队。 链接:https://best-ai.org/rankings/2026-06

6. Anthropic披露AI递归自我提升进展

摘要:Anthropic发布《When AI builds itself》文章,披露截至2026年5月,Anthropic超过80%的合并代码已由Claude编写,工程师日常代码产出提升8倍;AI智能体已经可以自主提出假设、执行长达数百小时的强化安全实验,展现出参与下一代模型设计训练的潜力。 推荐理由:AI发展进入新阶段的标志性信号,递归自我提升能力的出现将彻底改变AI技术迭代的速度和模式。 链接:https://www.anthropic.com/index/when-ai-builds-itself

7. Anthropic提出先进AI监管框架,建议赋予政府否决权

摘要:Anthropic发布《先进AI框架》提案,建议对训练计算量超过10²⁵次浮点运算的AI模型实施监管,赋予各国政府法律授权,可以通过与企业年收入挂钩的民事处罚阻止或遏制危险的AI部署。 推荐理由:全球AI治理领域的重要进展,由头部AI企业提出的监管框架兼顾了技术可行性和监管有效性,为各国制定AI监管政策提供了重要参考。 链接:https://www.anthropic.com/index/advanced-ai-framework

8. AI半导体板块剧烈波动,博通暴跌14%

摘要:博通二财季营收创历史新高,AI半导体业务持续增长,订单能见度排至2028年,但因总营收略低于分析师预期且未上调指引,股价暴跌14%,费城半导体指数盘中一度跌8.6%,市场对AI投资的预期管理危机暴露。 推荐理由:AI行业从技术热转向商业价值验证的标志性信号,市场开始回归理性,更看重企业实际营收和盈利预期而非单纯的技术概念。 链接:https://www.wsj.com/tech/ai/broadcom-stock-plunges-14-amid-ai-chip-concerns