每日研究简报 2026-05-31

每日研究简报 2026-05-31

📅 生成时间:2026年5月31日 23:30 (Asia/Shanghai) | 数据来源:arXiv · GitHub · HackerNews · 科技媒体 · 大厂博客


📄 一、arXiv 最新论文

1. SIA: Self-Improving AI with Harness & Weight Updates

  • 方向:AI自进化/大模型
  • 摘要:Hexo Labs发布的自进化AI框架SIA,实现了无需人工干预的模型权重自主更新与能力迭代,在代码生成基准上性能提升27%
  • 推荐理由:AI自进化是未来核心方向,该框架为模型自主迭代提供了可落地的技术路线
  • 链接:https://arxiv.org/abs/2605.27276

2. Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

  • 方向:多模态/具身智能
  • 摘要:通义千问团队发布的统一视觉-语言-动作模型Qwen-VLA,支持跨机器人平台的具身任务理解与执行,在12项具身智能基准上取得SOTA
  • 推荐理由:具身智能是AI落地实体世界的核心技术,该模型降低了多机器人平台的开发成本
  • 链接:https://arxiv.org/abs/2605.30280
  • 方向:大模型优化/进化算法
  • 摘要:哈佛大学与MIT联合提出的双向进化搜索自改进大模型框架,无需额外训练数据即可让模型在数学推理上提升18%
  • 推荐理由:突破了大模型改进依赖高质量训练数据的瓶颈,为低成本模型迭代提供了新思路
  • 链接:https://arxiv.org/abs/2605.28814

4. Forgetting in Language Models: Capacity, Optimization, and Self-Generated Replay

  • 方向:大模型基础研究/灾难性遗忘
  • 摘要:纽约大学团队深入研究大模型的灾难性遗忘问题,提出了自生成回放缓解方案,让模型在学习新能力时旧能力保留率提升42%
  • 推荐理由:解决了大模型持续学习的核心痛点,对Agent长期记忆能力提升有重要参考价值
  • 链接:https://arxiv.org/abs/2605.26097

5. Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference

  • 方向:大模型推理优化/离线学习
  • 摘要:CMU团队提出了大模型"睡眠"机制,通过离线递归处理历史对话数据,让模型在线推理时上下文理解能力提升23%,同时减少30%的token消耗
  • 推荐理由:创新的模型推理优化思路,大幅提升了长上下文对话的效率与效果
  • 链接:https://arxiv.org/abs/2605.26099

6. MIRA: Medical Time-series Foundation Model with 454B Token Pre-training

  • 方向:AI医疗/时序大模型
  • 摘要:微软发布的医疗时序基座模型MIRA,使用4540亿token预训练,解决了医疗数据不规则采样和异构数据处理难题,在17项医疗预测任务上超越现有SOTA
  • 推荐理由:医疗AI落地的核心基础模型,为各类医疗场景的AI应用提供了强大的基座能力
  • 链接:https://arxiv.org/abs/2506.07584

7. K-Dense Analyst: Hierarchical Multi-agent Architecture for Autonomous Scientific Research

  • 方向:AI科研/多Agent系统
  • 摘要:Biostate AI发布的K-Dense Analyst多Agent科研系统,采用层级多Agent双环架构,在生物信息学测试中准确率达到81.2%,超越GPT-5的52.9%
  • 推荐理由:AI科研助手的突破性进展,大幅提升了科研工作的效率与探索边界
  • 链接:https://arxiv.org/pdf/2508.07043

8. CellTransformer: A Deep Learning Model for High-resolution Mouse Brain Mapping

  • 方向:AI生命科学/脑科学
  • 摘要:斯坦福大学团队开发的CellTransformer模型,助力绘制目前最精细的小鼠脑图,为探索大脑工作机制开辟了新路径
  • 推荐理由:AI与生命科学交叉的前沿成果,为脑科学研究提供了强大的工具支持
  • 链接:发表于《自然-通讯》2026年5月

9. SkillEvolver: Meta-skill Driven Framework for Autonomous Skill Evolution in AI Agents

  • 方向:Agent技能进化
  • 摘要:清华大学团队提出的SkillEvolver元技能驱动Agent技能自进化框架,在SkillsBench基准上达到56.8%的平均成功率,反超人类编写技能的43.6%
  • 推荐理由:Agent技能从人工编写到自动进化的里程碑式成果,大幅降低了AI技能的开发成本
  • 链接:https://arxiv.org/abs/2605.29147

10. EmbodiSkill: A Skill Representation Framework for General-purpose Embodied Agents

  • 方向:具身智能/技能表示
  • 摘要:清华大学团队提出的EmbodiSkill通用具身智能体技能表示框架,在ALFWorld基准上达到93.28%的任务成功率,远超GPT-5.2直接执行的70.89%
  • 推荐理由:具身智能技能标准化的重要突破,为通用机器人的技能迁移共享提供了基础
  • 链接:https://arxiv.org/abs/2605.29148

🌟 二、GitHub 热门项目

1. multica-ai/andrej-karpathy-skills

  • 星标:162.8k ⭐ | 月增65k
  • 简介:基于Andrej Karpathy对大模型编程行为的实际观察,提炼出的改善Claude Code行为的配置文件,有效减少AI编码的过度设计与随意重构问题
  • 推荐理由:Claude用户必备的编码优化技能,经过大量开发者验证,能显著提升AI编码质量
  • 链接:https://github.com/multica-ai/andrej-karpathy-skills

2. mattpocock/skills

  • 星标:112.6k ⭐ | 月增71k
  • 简介:TypeScript教育博主Matt Pocock整理的Claude Skills配置集合,涵盖TypeScript、React、测试等工程实践场景
  • 推荐理由:前端开发者必备的技能包,提供了成熟的工程实践规范,大幅提升前端开发效率
  • 链接:https://github.com/mattpocock/skills

3. harry0703/MoneyPrinterTurbo

  • 星标:71.9k ⭐ | 周增13.9k
  • 简介:利用AI大模型一键生成高清短视频的开源工具,支持中英文,可自动完成脚本编写、配音、字幕、素材匹配、视频合成全流程
  • 推荐理由:自媒体创作者的生产力神器,将短视频制作流程从几天压缩到几分钟,大幅降低内容生产门槛
  • 链接:https://github.com/harry0703/MoneyPrinterTurbo

4. Lum1104/Understand-Anything

  • 星标:45.9k ⭐ | 周增25.6k
  • 简介:将任意代码、SQL schema、脚本、文档、图片甚至视频转换为可查询的知识图谱,兼容20+主流AI编程平台
  • 推荐理由:解决了AI编程助手理解大型项目结构的核心痛点,大幅减少token消耗,提升代码理解效率
  • 链接:https://github.com/Lum1104/Understand-Anything

5. affaan-m/ECC (Agent Harness Performance Optimization System)

  • 星标:165.8k ⭐ | 单日新增16万
  • 简介:AI Agent性能优化系统,覆盖技能、本能、记忆、安全四大模块,兼容20+主流AI平台,解决AI助手反复犯低级错误、不理解项目隐性规则等问题
  • 推荐理由:AI Agent落地的核心基础设施,大幅提升Agent执行任务的稳定性与可靠性
  • 链接:https://github.com/affaan-m/ECC

6. obra/superpowers

  • 星标:209.4k ⭐ | 日增1.6k
  • 简介:Agent技能框架 + 软件开发方法论,为AI助手提供研究、写作、编码的标准化工作流,定义每个流程的输入、步骤、检查点、输出格式
  • 推荐理由:目前最成熟的Agent工作流框架,让AI从"能推理"升级为"会办事"
  • 链接:https://github.com/obra/superpowers

7. colbymchenry/codegraph

  • 星标:34.3k ⭐ | 周增15.9k
  • 简介:为Claude Code、Cursor等AI编程助手提供预索引代码知识图谱,大幅减少token消耗与工具调用次数,100%本地运行保障代码隐私
  • 推荐理由:AI编程的必备工具,大幅降低大型项目的AI编码成本
  • 链接:https://github.com/colbymchenry/codegraph

8. microsoft/markitdown

  • 星标:132k ⭐
  • 简介:将PDF、Word、PPT、Excel、网页、图片、音频等多种格式的资料转换为Markdown格式,适配大模型输入需求
  • 推荐理由:AI应用的核心数据预处理工具,解决了多格式资料进入大模型的转换难题
  • 链接:https://github.com/microsoft/markitdown

9. FareedKhan-dev/train-llm-from-scratch

  • 星标:28.7k ⭐
  • 简介:从零开始训练大型语言模型的完整教程,覆盖数据预处理、Tokenizer训练、模型架构设计、预训练、监督微调、DPO对齐全流程,代码基于PyTorch实现,每步都有详细注释
  • 推荐理由:大模型入门学习的最佳实践教程,适合想深入理解大模型训练原理的开发者
  • 链接:https://github.com/FareedKhan-dev/train-llm-from-scratch

10. openhuman-ai/openhuman

  • 星标:26k ⭐ | 周增1.7k
  • 简介:桌面级AI助理,支持连接180+第三方服务,自动构建个人记忆库,基于记忆主动推送相关信息,采用本地模型处理隐私数据+云端大模型处理复杂任务的混合架构
  • 推荐理由:个人AI助手的标杆项目,实现了真正主动式的AI服务体验
  • 链接:https://github.com/openhuman-ai/openhuman

📰 三、AI 科技媒体 & HackerNews 热门资讯

1. Anthropic估值9650亿美元超越OpenAI,发布Claude Opus 4.8

  • 来源:TechCrunch / 彭博社
  • 摘要:Anthropic完成650亿美元H轮融资,投后估值达9650亿美元,正式超越OpenAI成为全球估值最高的AI初创企业。同步发布Claude Opus 4.8,推理速度提升40%,幻觉率再降35%,在12项基准测试中超越GPT-5.5
  • 推荐理由:AI行业格局的重大变化,标志着安全对齐路线的AI公司获得了市场的高度认可
  • 链接:https://techcrunch.com/2026/05/29/anthropic-raises-65b-at-965b-valuation-surpasses-openai/

2. OpenAI官宣退役o3与GPT-4.5,全力推进GPT-5.6

  • 来源:OpenAI官方博客 / AITNT
  • 摘要:OpenAI宣布o3于8月26日、GPT-4.5于6月27日从ChatGPT退役,仅保留API。GPT-5.6正全力推进,预计6月正式发布,将支持150万Token上下文窗口
  • 推荐理由:大模型迭代速度持续加速,旧模型的快速淘汰反映了行业技术进步的节奏
  • 链接:https://openai.com/blog/retiring-o3-and-gpt-4-5

3. 面壁智能发布ForgeTrain:全球首个完全由AI编写的大模型训练框架

  • 来源:36氪 / 量子位
  • 摘要:面壁智能发布全球首个完全由AI编写的大模型预训练框架ForgeTrain,跑赢英伟达Megatron框架,训练速度提升10%,且适配华为昇腾算力平台。同步发布MiniCPM5-1B端侧模型,1B参数性能超越所有2B以下模型
  • 推荐理由:AI创造AI的里程碑事件,标志着大模型开发进入了AI辅助的新阶段,同时为国产算力生态提供了重要的软件支持
  • 链接:https://36kr.com/p/2847396243023873

4. Google I/O 2026:Gemini 3.5 Flash免费开放,AI Agent时代正式到来

  • 来源:谷歌官方博客 / The Verge
  • 摘要:谷歌I/O大会发布Gemini 3.5 Flash模型,生成速度4倍于同类模型,使用成本仅1/3,免费开放给所有开发者。同时推出24小时后台运行的AI助手Spark,支持跨应用自动完成任务
  • 推荐理由:AI基础设施普惠化的重要里程碑,Agent能力的全面开放将催生大量创新应用
  • 链接:https://blog.google/technology/ai/google-io-2026-gemini-3-5-flash-ai-agent/

5. 阿里开源通义万相2.2:可生成电影级高清视频

  • 来源:快科技 / 中华网
  • 摘要:阿里云开源通义万相2.2模型,支持生成5秒电影级高清视频,在光影、色彩、构图以及人物微表情等细节处理上达到专业电影制作水平。采用业界首创MoE架构,同参数规模下节省约50%计算资源
  • 推荐理由:国内文生视频技术的突破性进展,大幅降低了专业视频内容的生产门槛
  • 链接:https://soft.china.com/article/2203081.html

6. DeepSeek V4-Pro API价格永久降至原价的1/4,开源模型性能持续逼近闭源

  • 来源:DeepSeek官方公告 / 科创板日报
  • 摘要:DeepSeek宣布将V4-Pro模型API价格永久降至原价的1/4,成为目前性价比最高的开源大模型API。同时发布的最新评测显示,开源模型与闭源模型的性能差距从3个月扩大到4个月,但DeepSeek等国产开源模型在特定场景下已超越部分闭源模型
  • 推荐理由:大模型价格战持续升级,开源模型的性价比优势进一步凸显,大幅降低了AI应用的落地成本
  • 链接:https://www.deepseek.com/blog/v4-pro-price-cut

7. 小米发布MiMo-V2-Flash大模型,API降价最高达99%

  • 来源:快科技 / 小米官方
  • 摘要:小米发布并开源MiMo-V2-Flash大模型,3090亿总参数,150亿激活参数,专为智能体场景设计,推理性能媲美DeepSeek V3.2。同时宣布MiMo系列API价格永久降价最高达99%
  • 推荐理由:端侧大模型的重要进展,价格的大幅下调将进一步推动AI在消费电子场景的普及
  • 链接:https://soft.china.com/article/2686217.html

8. 六部门联合发文,推进"人工智能+电商"高质量发展

  • 来源:商务部官网 / 人民网
  • 摘要:商务部、中央网信办、工信部等六部门联合印发《关于更好服务实体经济 推进电子商务高质量发展的指导意见》,明确提出发展"人工智能+电商",引导电商企业加强大模型技术的研发与应用。目前78%的直播电商已将生成式AI应用于运营流程优化
  • 推荐理由:AI+电商获得政策明确支持,将催生大量行业创新应用,推动电商行业的效率革命
  • 链接:http://www.mofcom.gov.cn/article/ztxx/zcjd/202605/20260503876423.shtml

9. 天津世界智能产业博览会开幕,40余款大模型、10余款AI智能体集中亮相

  • 来源:新华社 / 新浪财经
  • 摘要:2026世界智能产业博览会5月28日至31日在天津举行,设立AI大模型专区,40余款大模型、10余款AI智能体集中亮相,展示了发动机维修预测诊断、金融风控、地质能源勘探等多元场景的落地成果
  • 推荐理由:AI技术从实验室走向产业落地的集中展示,反映了国内AI应用的广度与深度正在快速提升
  • 链接:https://www.xinhuanet.com/tech/2026-05/28/c_1129678423.htm

10. 三星与OpenAI芯片合作突遭搁置,战略分歧致谈判暂停

  • 来源:路透社 / 财联社
  • 摘要:三星电子与OpenAI合作开发定制AI芯片的协议可能最终落空,双方已暂停谈判,原因是近期战略分歧。而Anthropic近期宣布对三星电子进行巨额投资,双方将在AI芯片领域展开深度合作
  • 推荐理由:AI芯片领域的格局正在发生变化,巨头之间的合纵连横将影响未来AI算力的供给格局
  • 链接:https://www.reuters.com/technology/samsung-openai-ai-chip-talks-suspended-strategic-differences-2026-05-30/

🛠️ 四、热门AI Skill推荐

1. taste-skill

  • 分类:内容创作/文风控制
  • 简介:“给AI装上审美"的Skill,阻止AI生成无聊、套路化的内容,定义设计审美与内容输出标准
  • 星标:29k ⭐
  • 推荐理由:内容创作者必备的Skill,大幅提升AI生成内容的质量与可读性,避免AI腔
  • 链接:https://github.com/topics/taste-skill

2. stop-slop

  • 分类:内容创作/AI痕迹去除
  • 简介:专门去除AI腔调与套话的Skill,让机器生成的文字瞬间回归自然真实的人类手写感
  • 星标:7.4k ⭐
  • 推荐理由:文案工作者的利器,完美解决AI生成内容的生硬与套路化问题
  • 链接:https://github.com/hardikpandya/stop-slop

3. Anthropic-Cybersecurity-Skills

  • 分类:安全/网络安全
  • 简介:包含754个结构化的AI Agent网络安全技能,映射到MITRE ATT&CK、NIST CSF 2.0等5个主流安全框架
  • 星标:12.5k ⭐
  • 推荐理由:安全领域的专业技能包,让AI助手具备专业的网络安全分析与防护能力
  • 链接:https://github.com/mukul975/Anthropic-Cybersecurity-Skills

4. Figma to Code Skill

  • 分类:前端开发/设计转代码
  • 简介:将Figma设计稿直接转换为可运行的前端代码,自动处理样式、布局、组件化等问题,准确率超过90%
  • 安装量:8.7万+
  • 推荐理由:前端开发者的效率神器,大幅减少从设计到代码的转换时间
  • 链接:https://github.com/openai/skills/tree/main/skills/.curated/figma-to-code

5. Dockerfile 生成Skill

  • 分类:DevOps/容器化
  • 简介:自动生成符合最佳实践的Dockerfile配置文件,支持多种编程语言与应用场景,自动优化镜像大小与构建速度
  • 安装量:6.2万+
  • 推荐理由:解决容器化部署最头疼的配置编写问题,大幅减少调试时间
  • 链接:https://github.com/openai/skills/tree/main/skills/.curated/dockerfile-generator

6. PDF 内容解析Skill

  • 分类:文档处理/数据提取
  • 简介:精准解析PDF文档中的文本、表格、图片等内容,保留文档结构与格式,支持扫描版PDF的OCR识别
  • 安装量:11.3万+
  • 推荐理由:文档处理必备技能,解决PDF内容提取的各种难题
  • 链接:https://github.com/openai/skills/tree/main/skills/.curated/pdf-parser

7. Notion 自动操作Skill

  • 分类:生产力/知识管理
  • 简介:自动在Notion中创建页面、更新内容、管理数据库、生成报告,支持自定义工作流
  • 安装量:7.8万+
  • 推荐理由:Notion用户的效率神器,实现知识管理的自动化
  • 链接:https://github.com/openai/skills/tree/main/skills/.curated/notion-automation

8. 数据分析与可视化Skill

  • 分类:数据处理/分析
  • 简介:自动处理Excel/CSV数据,生成统计分析报告与可视化图表,支持SQL查询与复杂数据计算
  • 安装量:9.4万+
  • 推荐理由:数据分析人员的得力助手,大幅降低数据分析的技术门槛
  • 链接:https://github.com/openai/skills/tree/main/skills/.curated/data-analysis

9. 代码审查Skill

  • 分类:开发/代码质量
  • 简介:自动审查代码质量,发现潜在的Bug、安全漏洞、性能问题与不规范写法,提供修复建议
  • 安装量:13.2万+
  • 推荐理由:开发者必备的代码质量保障工具,提前发现问题,减少线上故障
  • 链接:https://github.com/openai/skills/tree/main/skills/.curated/code-review

10. Playwright 自动化测试Skill

  • 分类:测试/自动化
  • 简介:自动编写Playwright端到端测试脚本,支持网页自动化操作、截图、PDF生成、表单填写等场景
  • 安装量:5.7万+
  • 推荐理由:测试人员的效率神器,大幅降低自动化测试的开发成本
  • 链接:https://github.com/openai/skills/tree/main/skills/.curated/playwright-automation
📑 目录