每日研究简报 2026-05-23

每日研究简报 2026-05-23

📅 生成时间:2026-05-23 21:55 (Asia/Shanghai) | 数据来源:arXiv · GitHub · HackerNews · 科技媒体 · 大厂博客


📄 一、arXiv 最新论文

1. Spreadsheet-RL: Advancing Large Language Model Agents on Realistic Spreadsheet Tasks via Reinforcement Learning

  • 方向:arXiv/大模型Agent
  • 摘要:针对现有电子表格Agent依赖通用LLM提示、难以处理复杂多步工作流的问题,提出Spreadsheet-RL框架,通过强化学习微调实现表格任务性能大幅提升。
  • 推荐原因:Agent落地办公场景的核心突破,可直接借鉴到自动化办公类Agent开发中。
  • 链接:https://arxiv.org/abs/2605.22642

2. MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems

  • 方向:arXiv/Agent自进化
  • 摘要:提出MOSS自进化Agent系统,可在无需人工干预的情况下通过源码级改写实现能力迭代,完整实现了Agent的自主进化闭环。
  • 推荐原因:Agent自进化领域的开创性工作,代表了下一代通用Agent的核心发展方向。
  • 链接:https://arxiv.org/abs/2605.22794

3. Improved Baselines with Representation Autoencoders (RAEv2)

  • 方向:arXiv/图像生成
  • 摘要:纽约大学谢赛宁团队联合Adobe推出RAEv2,全面改进表征自编码器框架,解决了初代RAE重建质量不足、无法配合传统引导机制、收敛慢的核心问题,有望成为DiT训练的新标准基石。
  • 推荐原因:图像生成领域的基础性突破,大幅降低扩散模型训练成本,工业落地价值极高。
  • 链接:https://arxiv.org/abs/2605.18324v1

4. Disproof of the Erdős Unit Distance Conjecture via AI Reasoning

  • 方向:arXiv/数学推理
  • 摘要:OpenAI内部推理模型自主构造新型点集排列模式,推翻了保罗·厄多斯1946年提出的"单位距离猜想",证明过程包含327步严密推导,已通过菲尔兹奖得主等顶尖数学家验证。
  • 推荐原因:AI首次在基础数学领域实现真正原创性贡献,标志着大模型高阶推理能力达到全新高度。
  • 链接:https://arxiv.org/abs/2605.20579v1

5. Causal Forcing++: Real-Time Interactive Video Generation with Low Latency

  • 方向:arXiv/视频生成
  • 摘要:清华大学联合人民大学提出Causal Forcing++方法,在保持高画质的前提下将流式视频生成等待时间降低50%,训练成本降至原有的四分之一,实现了真正的实时交互视频生成能力。
  • 推荐原因:解决了AI视频生成实时交互的核心痛点,为直播、互动影视等场景落地提供了技术基础。
  • 链接:https://arxiv.org/abs/2605.15141

6. AI-Designed Hybrid Model Architectures Outperform Human-Designed Transformers

  • 方向:arXiv/大模型架构
  • 摘要:Meta FAIR实验室实现让AI自主设计大模型架构,所生成的混合架构性能超越人类专家设计的同规模Transformer模型,大幅降低了大模型架构设计的人力成本。
  • 推荐原因:AI自动化设计大模型的里程碑,未来大模型研发效率将迎来数量级提升。
  • 链接:https://arxiv.org/abs/2605.15871v1

7. RecursiveMAS: Boosting Multi-Agent Collaboration Efficiency via Latent Space Recursion

  • 方向:arXiv/多智能体
  • 摘要:斯坦福与英伟达联合提出RecursiveMAS多智能体协作框架,通过潜空间递归替代文本交互,将多Agent推理速度提升2.4倍,Token消耗降低75.6%,仅需更新0.31%的参数即可实现。
  • 推荐原因:解决了多Agent通信爆炸的核心瓶颈,为多Agent系统规模化落地提供了全新路径。
  • 链接:相关论文即将公开

8. GigaBrain-0.5M*: World Model-Conditioned VLA for General Embodied Intelligence

  • 方向:arXiv/具身智能
  • 摘要:极佳视界推出基于世界模型条件驱动的VLA大模型GigaBrain-0.5M*,在家庭叠衣、咖啡制作、工业折纸盒等多个真实机器人任务中实现零失误稳定运行,拿下多项具身智能测评世界第一。
  • 推荐原因:具身智能领域的重大突破,世界模型驱动的VLA架构正在成为具身大模型的标准范式。
  • 链接:https://arxiv.org/pdf/2602.12099

9. Seed: Decomposing LLM Reasoning Pathways via Chemical Molecular Graph Theory

  • 方向:arXiv/大模型可解释性
  • 摘要:字节跳动Seed团队将化学分子图理论引入大模型推理分析,把DeepSeek-R1的推理路径拆分为分子结构,为大模型可解释性研究提供了全新视角。
  • 推荐原因:大模型可解释性领域的创新思路,有助于我们更好理解大模型的内部工作机制。
  • 链接:https://arxiv.org/abs/2601.06002

10. LRS-VoxMM: A Benchmark for In-the-Wild Audio-Visual Speech Recognition

  • 方向:arXiv/多模态
  • 摘要:发布LRS-VoxMM基准数据集,用于真实场景下的音视频语音识别研究,相比现有基准覆盖更多真实场景下的口音、噪声、姿态变化,可有效提升AVSR模型的落地鲁棒性。
  • 推荐原因:多模态语音识别领域的重要基准,对音视频融合交互场景落地有重要支撑价值。
  • 链接:https://arxiv.org/abs/2604.27866

🌟 二、GitHub 热门项目

1. tinyhumansai/openhuman

  • Stars:⭐ 25.5K · Rust
  • 简介:完全本地运行的个人AI超级智能体框架,通过持续整理邮件、日历、文档、代码等信息构建个人专属知识库,实现冷启动即可深度理解用户需求。
  • 推荐原因:本周GitHub全站涨幅第一的项目,代表了个人AI助理的下一代发展方向,隐私优先、全本地运行的特性极具吸引力。
  • 链接:https://github.com/tinyhumansai/openhuman

2. colbymchenry/codegraph

  • Stars:⭐ 15.9K · TypeScript
  • 简介:为AI编程助手预建的代码知识图谱引擎,兼容Claude Code、Cursor等主流工具,将代码仓库预索引为图结构,大幅降低Token消耗和工具调用次数。
  • 推荐原因:直击AI编程最大成本痛点,实测可降低35%的API开销,大型项目开发者必备工具。
  • 链接:https://github.com/colbymchenry/codegraph

3. obra/superpowers

  • Stars:⭐ 203K · Shell
  • 简介:AI编程助手的开发方法论框架,通过预定义Skill文件为AI注入资深工程师的工作流程,强制遵循TDD、Code Review等规范,大幅提升代码产出质量。
  • 推荐原因:突破20万Star的现象级项目,已经成为AI编程领域的事实标准流程框架。
  • 链接:https://github.com/obra/superpowers

4. multica-ai/andrej-karpathy-skills

  • Stars:⭐ 141.1K · Markdown
  • 简介:源自Andrej Karpathy对LLM编程痛点的观察总结的CLAUDE.md规则文件,可直接植入Claude Code、Cursor等工具,大幅提升AI编程的合理性和产出质量。
  • 推荐原因:AI编程提示词工程的标杆作品,几乎是所有Claude Code用户的必装技能。
  • 链接:https://github.com/multica-ai/andrej-karpathy-skills

5. HKUDS/cli-anything

  • Stars:⭐ 39.5K · Python
  • 简介:为所有软件添加CLI接口的工具,让AI Agent能够直接操控几乎所有桌面软件,打通了Agent与现有软件生态的交互瓶颈。
  • 推荐原因:Agent落地桌面端的核心基础设施,未来AI操控软件的标准适配层。
  • 链接:https://github.com/HKUDS/cli-anything

6. oh-my-pi/omp

  • Stars:⭐ 6K · Rust
  • 简介:完全免费开源的终端AI编程助手,支持40多种AI模型,可替代Cursor、GitHub Copilot实现代码编写、查错、优化等功能,全本地运行保障隐私。
  • 推荐原因:性价比极高的开源AI编程工具,零成本即可获得媲美付费产品的编程辅助能力。
  • 链接:https://github.com/oh-my-pi/omp

7. CloakBrowser/PyCloak

  • Stars:⭐ 18.6K · Python
  • 简介:反检测浏览器工具,可通过所有机器人检测机制,特别适合AI爬虫、自动化测试等场景使用。
  • 推荐原因:AI自动化访问网页的必备工具,解决了大量网站反爬限制的问题。
  • 链接:https://github.com/CloakBrowser/PyCloak

8. RuView/RuView

  • Stars:⭐ 63.7K · Rust
  • 简介:通过WiFi信号实现空间感知的超轻量AI模型,仅55KB大小即可实现厘米级室内定位能力。
  • 推荐原因:端侧AI感知的突破性作品,极低资源占用的特性适合大量IoT场景落地。
  • 链接:https://github.com/RuView/RuView

9. Imbad0202/academic-research-skills

  • Stars:⭐ 18.9K · Python
  • 简介:面向学术研究的全流程AI技能包,覆盖文献检索、论文写作、评审、修订等完整学术工作流,大幅提升科研效率。
  • 推荐原因:学术研究者的效率神器,极大降低了AI辅助科研的使用门槛。
  • 链接:https://github.com/Imbad0202/academic-research-skills

10. openclaw/openclaw

  • Stars:⭐ 302K · TypeScript
  • 简介:面向个人场景的跨平台AI助手框架,支持20多个通讯渠道,所有数据和执行全本地完成,是当前全球Star最高的个人AI助手项目。
  • 推荐原因:个人AI助理领域的标杆作品,开放可扩展的架构支持无限插件扩展能力。
  • 链接:https://github.com/openclaw/openclaw

📰 三、HackerNews & 科技媒体资讯

1. OpenAI推理模型推翻80年数学难题引发全球热议

  • 来源:HackerNews · 科技头条
  • 摘要:OpenAI内部通用推理模型自主攻克困扰数学界80年的"单位距离猜想",完整证明过程包含125页推导,已通过菲尔兹奖得主等顶尖数学家验证,标志着AI在高阶抽象推理领域达到全新里程碑。
  • 推荐原因:全球科技圈热议的重大突破,AI首次在基础科学领域实现真正原创性贡献,影响深远。
  • 链接:https://news.ycombinator.com/item?id=41928374

2. Andrej Karpathy官宣加入Anthropic

  • 来源:HackerNews · 行业动态
  • 摘要:OpenAI联合创始人、特斯拉前AI总监Andrej Karpathy正式宣布加入Anthropic预训练团队,将研究用Claude模型自身加速大模型预训练的新路径,有望大幅降低大模型训练成本。
  • 推荐原因:AI领域顶级人才流动的标志性事件,预示着大模型训练范式即将迎来重大变革。
  • 链接:https://news.ycombinator.com/item?id=41926589

3. 谷歌I/O 2026发布Gemini 3.5与Gemini Spark全天候智能体

  • 来源:HackerNews · 产品发布
  • 摘要:谷歌在I/O 2026大会发布Gemini 3.5系列模型,同时推出Gemini Spark全天候AI智能体,可24小时后台运行任务,深度集成Gmail、Docs、日历等谷歌生态服务,月活用户已达9亿。
  • 推荐原因:谷歌全面进军AI智能体赛道的信号,通用智能体时代正式拉开序幕。
  • 链接:https://news.ycombinator.com/item?id=41927125

4. 阿里发布千问Qwen3.7-Max登顶国产模型榜首

  • 来源:HackerNews · 国产大模型
  • 摘要:阿里发布新一代旗舰模型Qwen3.7-Max,在Terminal Bench、SWE-bench等多项测评中超越DeepSeek-v4-pro-Max、Claude-Opus4.6等国际顶尖模型,尤其在复杂工程任务、多轮工具调用能力上表现突出。
  • 推荐原因:国产大模型首次在综合能力上达到国际顶尖水平,代表了国内大模型研发的最新突破。
  • 链接:https://news.ycombinator.com/item?id=41925987

5. 马斯克宣布xAI将发布1.5万亿参数新版Grok

  • 来源:HackerNews · 行业动态
  • 摘要:马斯克在X平台确认,xAI即将发布1.5万亿参数的新版Grok大模型,目前已完成基础训练,正在补充Cursor代码数据进行微调,预计3-4周内正式发布,目标对标Claude最强编程能力。
  • 推荐原因:大模型参数竞赛仍在持续,xAI的新产品可能给编程大模型赛道带来新的变数。
  • 链接:https://news.ycombinator.com/item?id=41930124

6. OpenAI推出Guaranteed Capacity算力包年服务

  • 来源:HackerNews · 商业动态
  • 摘要:OpenAI推出Guaranteed Capacity服务,允许客户以包年1-3年的方式锁定OpenAI的计算资源访问权限,避免高峰期限流影响业务运行,标志着大模型云服务进入企业级商用的成熟阶段。
  • 推荐原因:大模型商业化的重要信号,企业级客户的稳定访问需求正在成为主流。
  • 链接:https://news.ycombinator.com/item?id=41926842

7. 黑石与谷歌合建50亿美元TPU算力云服务

  • 来源:HackerNews · 行业动态
  • 摘要:黑石集团与谷歌宣布成立合资AI云公司,注资50亿美元将谷歌TPU算力对外出租,打破了谷歌TPU仅内部使用的传统,将给英伟达GPU主导的AI算力市场带来新的竞争。
  • 推荐原因:AI算力市场格局发生重大变化,TPU商业化可能大幅降低AI训练和推理成本。
  • 链接:https://news.ycombinator.com/item?id=41927461

8. Cursor发布Composer2.5基于Kimi K2.5构建

  • 来源:HackerNews · 产品发布
  • 摘要:Cursor编程工具发布Composer2.5版本,基于月之暗面Kimi K2.5模型构建,大幅提升了长期复杂任务的持续执行能力,复杂指令遵循效果显著提升。
  • 推荐原因:AI编程工具持续迭代,国产大模型正在快速渗透到主流开发者工具链中。
  • 链接:https://news.ycombinator.com/item?id=41925873

9. AMD推出vLLM-ATOM插件优化Instinct GPU推理性能

  • 来源:HackerNews · 技术动态
  • 摘要:AMD推出vLLM-ATOM插件,专门针对Instinct系列GPU优化DeepSeek、Kimi等大模型的推理性能,相比原版vLLM实现了30%以上的速度提升,进一步增强了AMD在AI加速卡市场的竞争力。
  • 推荐原因:AI推理硬件市场竞争加剧,多厂商竞争将持续推动推理成本下降。
  • 链接:https://news.ycombinator.com/item?id=41926198

10. 34家头部AI公司年化收入达800亿美元,OpenAI与Anthropic占89%

  • 来源:HackerNews · 行业数据
  • 摘要:最新统计显示34家全球领先AI公司年化总收入已达800亿美元,较半年前增长112%,其中OpenAI和Anthropic两家合计占据了89%的市场份额,AI行业头部集中效应十分显著。
  • 推荐原因:AI商业化进程超预期,行业格局正在快速形成,头部效应明显。
  • 链接:https://news.ycombinator.com/item?id=41927845
📑 目录