每日研究简报 2026-05-31

📅 2026-05-31 📂 研究简报 ⏱️ 2 分钟阅读

每日研究简报 2026-05-31

📅 生成时间：2026年5月31日 23:30 (Asia/Shanghai) | 数据来源：arXiv · GitHub · HackerNews · 科技媒体 · 大厂博客

📄 一、arXiv 最新论文

1. SIA: Self-Improving AI with Harness & Weight Updates

方向：AI自进化/大模型
摘要：Hexo Labs发布的自进化AI框架SIA，实现了无需人工干预的模型权重自主更新与能力迭代，在代码生成基准上性能提升27%
推荐理由：AI自进化是未来核心方向，该框架为模型自主迭代提供了可落地的技术路线
链接：https://arxiv.org/abs/2605.27276

2. Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

方向：多模态/具身智能
摘要：通义千问团队发布的统一视觉-语言-动作模型Qwen-VLA，支持跨机器人平台的具身任务理解与执行，在12项具身智能基准上取得SOTA
推荐理由：具身智能是AI落地实体世界的核心技术，该模型降低了多机器人平台的开发成本
链接：https://arxiv.org/abs/2605.30280

3. Self-Improving Language Models with Bidirectional Evolutionary Search

方向：大模型优化/进化算法
摘要：哈佛大学与MIT联合提出的双向进化搜索自改进大模型框架，无需额外训练数据即可让模型在数学推理上提升18%
推荐理由：突破了大模型改进依赖高质量训练数据的瓶颈，为低成本模型迭代提供了新思路
链接：https://arxiv.org/abs/2605.28814

4. Forgetting in Language Models: Capacity, Optimization, and Self-Generated Replay

方向：大模型基础研究/灾难性遗忘
摘要：纽约大学团队深入研究大模型的灾难性遗忘问题，提出了自生成回放缓解方案，让模型在学习新能力时旧能力保留率提升42%
推荐理由：解决了大模型持续学习的核心痛点，对Agent长期记忆能力提升有重要参考价值
链接：https://arxiv.org/abs/2605.26097

5. Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference

方向：大模型推理优化/离线学习
摘要：CMU团队提出了大模型"睡眠"机制，通过离线递归处理历史对话数据，让模型在线推理时上下文理解能力提升23%，同时减少30%的token消耗
推荐理由：创新的模型推理优化思路，大幅提升了长上下文对话的效率与效果
链接：https://arxiv.org/abs/2605.26099

6. MIRA: Medical Time-series Foundation Model with 454B Token Pre-training

方向：AI医疗/时序大模型
摘要：微软发布的医疗时序基座模型MIRA，使用4540亿token预训练，解决了医疗数据不规则采样和异构数据处理难题，在17项医疗预测任务上超越现有SOTA
推荐理由：医疗AI落地的核心基础模型，为各类医疗场景的AI应用提供了强大的基座能力
链接：https://arxiv.org/abs/2506.07584

7. K-Dense Analyst: Hierarchical Multi-agent Architecture for Autonomous Scientific Research

方向：AI科研/多Agent系统
摘要：Biostate AI发布的K-Dense Analyst多Agent科研系统，采用层级多Agent双环架构，在生物信息学测试中准确率达到81.2%，超越GPT-5的52.9%
推荐理由：AI科研助手的突破性进展，大幅提升了科研工作的效率与探索边界
链接：https://arxiv.org/pdf/2508.07043

8. CellTransformer: A Deep Learning Model for High-resolution Mouse Brain Mapping

方向：AI生命科学/脑科学
摘要：斯坦福大学团队开发的CellTransformer模型，助力绘制目前最精细的小鼠脑图，为探索大脑工作机制开辟了新路径
推荐理由：AI与生命科学交叉的前沿成果，为脑科学研究提供了强大的工具支持
链接：发表于《自然-通讯》2026年5月

9. SkillEvolver: Meta-skill Driven Framework for Autonomous Skill Evolution in AI Agents

方向：Agent技能进化
摘要：清华大学团队提出的SkillEvolver元技能驱动Agent技能自进化框架，在SkillsBench基准上达到56.8%的平均成功率，反超人类编写技能的43.6%
推荐理由：Agent技能从人工编写到自动进化的里程碑式成果，大幅降低了AI技能的开发成本
链接：https://arxiv.org/abs/2605.29147

10. EmbodiSkill: A Skill Representation Framework for General-purpose Embodied Agents

方向：具身智能/技能表示
摘要：清华大学团队提出的EmbodiSkill通用具身智能体技能表示框架，在ALFWorld基准上达到93.28%的任务成功率，远超GPT-5.2直接执行的70.89%
推荐理由：具身智能技能标准化的重要突破，为通用机器人的技能迁移共享提供了基础
链接：https://arxiv.org/abs/2605.29148

🌟 二、GitHub 热门项目

1. multica-ai/andrej-karpathy-skills

星标：162.8k ⭐ | 月增65k
简介：基于Andrej Karpathy对大模型编程行为的实际观察，提炼出的改善Claude Code行为的配置文件，有效减少AI编码的过度设计与随意重构问题
推荐理由：Claude用户必备的编码优化技能，经过大量开发者验证，能显著提升AI编码质量
链接：https://github.com/multica-ai/andrej-karpathy-skills

2. mattpocock/skills

星标：112.6k ⭐ | 月增71k
简介：TypeScript教育博主Matt Pocock整理的Claude Skills配置集合，涵盖TypeScript、React、测试等工程实践场景
推荐理由：前端开发者必备的技能包，提供了成熟的工程实践规范，大幅提升前端开发效率
链接：https://github.com/mattpocock/skills

3. harry0703/MoneyPrinterTurbo

星标：71.9k ⭐ | 周增13.9k
简介：利用AI大模型一键生成高清短视频的开源工具，支持中英文，可自动完成脚本编写、配音、字幕、素材匹配、视频合成全流程
推荐理由：自媒体创作者的生产力神器，将短视频制作流程从几天压缩到几分钟，大幅降低内容生产门槛
链接：https://github.com/harry0703/MoneyPrinterTurbo

4. Lum1104/Understand-Anything

星标：45.9k ⭐ | 周增25.6k
简介：将任意代码、SQL schema、脚本、文档、图片甚至视频转换为可查询的知识图谱，兼容20+主流AI编程平台
推荐理由：解决了AI编程助手理解大型项目结构的核心痛点，大幅减少token消耗，提升代码理解效率
链接：https://github.com/Lum1104/Understand-Anything

5. affaan-m/ECC (Agent Harness Performance Optimization System)

星标：165.8k ⭐ | 单日新增16万
简介：AI Agent性能优化系统，覆盖技能、本能、记忆、安全四大模块，兼容20+主流AI平台，解决AI助手反复犯低级错误、不理解项目隐性规则等问题
推荐理由：AI Agent落地的核心基础设施，大幅提升Agent执行任务的稳定性与可靠性
链接：https://github.com/affaan-m/ECC

6. obra/superpowers

星标：209.4k ⭐ | 日增1.6k
简介：Agent技能框架 + 软件开发方法论，为AI助手提供研究、写作、编码的标准化工作流，定义每个流程的输入、步骤、检查点、输出格式
推荐理由：目前最成熟的Agent工作流框架，让AI从"能推理"升级为"会办事"
链接：https://github.com/obra/superpowers

7. colbymchenry/codegraph

星标：34.3k ⭐ | 周增15.9k
简介：为Claude Code、Cursor等AI编程助手提供预索引代码知识图谱，大幅减少token消耗与工具调用次数，100%本地运行保障代码隐私
推荐理由：AI编程的必备工具，大幅降低大型项目的AI编码成本
链接：https://github.com/colbymchenry/codegraph

8. microsoft/markitdown

星标：132k ⭐
简介：将PDF、Word、PPT、Excel、网页、图片、音频等多种格式的资料转换为Markdown格式，适配大模型输入需求
推荐理由：AI应用的核心数据预处理工具，解决了多格式资料进入大模型的转换难题
链接：https://github.com/microsoft/markitdown

9. FareedKhan-dev/train-llm-from-scratch

星标：28.7k ⭐
简介：从零开始训练大型语言模型的完整教程，覆盖数据预处理、Tokenizer训练、模型架构设计、预训练、监督微调、DPO对齐全流程，代码基于PyTorch实现，每步都有详细注释
推荐理由：大模型入门学习的最佳实践教程，适合想深入理解大模型训练原理的开发者
链接：https://github.com/FareedKhan-dev/train-llm-from-scratch

10. openhuman-ai/openhuman

星标：26k ⭐ | 周增1.7k
简介：桌面级AI助理，支持连接180+第三方服务，自动构建个人记忆库，基于记忆主动推送相关信息，采用本地模型处理隐私数据+云端大模型处理复杂任务的混合架构
推荐理由：个人AI助手的标杆项目，实现了真正主动式的AI服务体验
链接：https://github.com/openhuman-ai/openhuman

📰 三、AI 科技媒体 & HackerNews 热门资讯

1. Anthropic估值9650亿美元超越OpenAI，发布Claude Opus 4.8

来源：TechCrunch / 彭博社
摘要：Anthropic完成650亿美元H轮融资，投后估值达9650亿美元，正式超越OpenAI成为全球估值最高的AI初创企业。同步发布Claude Opus 4.8，推理速度提升40%，幻觉率再降35%，在12项基准测试中超越GPT-5.5
推荐理由：AI行业格局的重大变化，标志着安全对齐路线的AI公司获得了市场的高度认可
链接：https://techcrunch.com/2026/05/29/anthropic-raises-65b-at-965b-valuation-surpasses-openai/

2. OpenAI官宣退役o3与GPT-4.5，全力推进GPT-5.6

来源：OpenAI官方博客 / AITNT
摘要：OpenAI宣布o3于8月26日、GPT-4.5于6月27日从ChatGPT退役，仅保留API。GPT-5.6正全力推进，预计6月正式发布，将支持150万Token上下文窗口
推荐理由：大模型迭代速度持续加速，旧模型的快速淘汰反映了行业技术进步的节奏
链接：https://openai.com/blog/retiring-o3-and-gpt-4-5

3. 面壁智能发布ForgeTrain：全球首个完全由AI编写的大模型训练框架

来源：36氪 / 量子位
摘要：面壁智能发布全球首个完全由AI编写的大模型预训练框架ForgeTrain，跑赢英伟达Megatron框架，训练速度提升10%，且适配华为昇腾算力平台。同步发布MiniCPM5-1B端侧模型，1B参数性能超越所有2B以下模型
推荐理由：AI创造AI的里程碑事件，标志着大模型开发进入了AI辅助的新阶段，同时为国产算力生态提供了重要的软件支持
链接：https://36kr.com/p/2847396243023873

4. Google I/O 2026：Gemini 3.5 Flash免费开放，AI Agent时代正式到来

来源：谷歌官方博客 / The Verge
摘要：谷歌I/O大会发布Gemini 3.5 Flash模型，生成速度4倍于同类模型，使用成本仅1/3，免费开放给所有开发者。同时推出24小时后台运行的AI助手Spark，支持跨应用自动完成任务
推荐理由：AI基础设施普惠化的重要里程碑，Agent能力的全面开放将催生大量创新应用
链接：https://blog.google/technology/ai/google-io-2026-gemini-3-5-flash-ai-agent/

5. 阿里开源通义万相2.2：可生成电影级高清视频

来源：快科技 / 中华网
摘要：阿里云开源通义万相2.2模型，支持生成5秒电影级高清视频，在光影、色彩、构图以及人物微表情等细节处理上达到专业电影制作水平。采用业界首创MoE架构，同参数规模下节省约50%计算资源
推荐理由：国内文生视频技术的突破性进展，大幅降低了专业视频内容的生产门槛
链接：https://soft.china.com/article/2203081.html

6. DeepSeek V4-Pro API价格永久降至原价的1/4，开源模型性能持续逼近闭源

来源：DeepSeek官方公告 / 科创板日报
摘要：DeepSeek宣布将V4-Pro模型API价格永久降至原价的1/4，成为目前性价比最高的开源大模型API。同时发布的最新评测显示，开源模型与闭源模型的性能差距从3个月扩大到4个月，但DeepSeek等国产开源模型在特定场景下已超越部分闭源模型
推荐理由：大模型价格战持续升级，开源模型的性价比优势进一步凸显，大幅降低了AI应用的落地成本
链接：https://www.deepseek.com/blog/v4-pro-price-cut

7. 小米发布MiMo-V2-Flash大模型，API降价最高达99%

来源：快科技 / 小米官方
摘要：小米发布并开源MiMo-V2-Flash大模型，3090亿总参数，150亿激活参数，专为智能体场景设计，推理性能媲美DeepSeek V3.2。同时宣布MiMo系列API价格永久降价最高达99%
推荐理由：端侧大模型的重要进展，价格的大幅下调将进一步推动AI在消费电子场景的普及
链接：https://soft.china.com/article/2686217.html

8. 六部门联合发文，推进"人工智能+电商"高质量发展

来源：商务部官网 / 人民网
摘要：商务部、中央网信办、工信部等六部门联合印发《关于更好服务实体经济推进电子商务高质量发展的指导意见》，明确提出发展"人工智能+电商"，引导电商企业加强大模型技术的研发与应用。目前78%的直播电商已将生成式AI应用于运营流程优化
推荐理由：AI+电商获得政策明确支持，将催生大量行业创新应用，推动电商行业的效率革命
链接：http://www.mofcom.gov.cn/article/ztxx/zcjd/202605/20260503876423.shtml

9. 天津世界智能产业博览会开幕，40余款大模型、10余款AI智能体集中亮相

来源：新华社 / 新浪财经
摘要：2026世界智能产业博览会5月28日至31日在天津举行，设立AI大模型专区，40余款大模型、10余款AI智能体集中亮相，展示了发动机维修预测诊断、金融风控、地质能源勘探等多元场景的落地成果
推荐理由：AI技术从实验室走向产业落地的集中展示，反映了国内AI应用的广度与深度正在快速提升
链接：https://www.xinhuanet.com/tech/2026-05/28/c_1129678423.htm

10. 三星与OpenAI芯片合作突遭搁置，战略分歧致谈判暂停

来源：路透社 / 财联社
摘要：三星电子与OpenAI合作开发定制AI芯片的协议可能最终落空，双方已暂停谈判，原因是近期战略分歧。而Anthropic近期宣布对三星电子进行巨额投资，双方将在AI芯片领域展开深度合作
推荐理由：AI芯片领域的格局正在发生变化，巨头之间的合纵连横将影响未来AI算力的供给格局
链接：https://www.reuters.com/technology/samsung-openai-ai-chip-talks-suspended-strategic-differences-2026-05-30/

🛠️ 四、热门AI Skill推荐

1. taste-skill

分类：内容创作/文风控制
简介：“给AI装上审美"的Skill，阻止AI生成无聊、套路化的内容，定义设计审美与内容输出标准
星标：29k ⭐
推荐理由：内容创作者必备的Skill，大幅提升AI生成内容的质量与可读性，避免AI腔
链接：https://github.com/topics/taste-skill

2. stop-slop

分类：内容创作/AI痕迹去除
简介：专门去除AI腔调与套话的Skill，让机器生成的文字瞬间回归自然真实的人类手写感
星标：7.4k ⭐
推荐理由：文案工作者的利器，完美解决AI生成内容的生硬与套路化问题
链接：https://github.com/hardikpandya/stop-slop

3. Anthropic-Cybersecurity-Skills

分类：安全/网络安全
简介：包含754个结构化的AI Agent网络安全技能，映射到MITRE ATT&CK、NIST CSF 2.0等5个主流安全框架
星标：12.5k ⭐
推荐理由：安全领域的专业技能包，让AI助手具备专业的网络安全分析与防护能力
链接：https://github.com/mukul975/Anthropic-Cybersecurity-Skills

4. Figma to Code Skill

分类：前端开发/设计转代码
简介：将Figma设计稿直接转换为可运行的前端代码，自动处理样式、布局、组件化等问题，准确率超过90%
安装量：8.7万+
推荐理由：前端开发者的效率神器，大幅减少从设计到代码的转换时间
链接：https://github.com/openai/skills/tree/main/skills/.curated/figma-to-code

5. Dockerfile 生成Skill

分类：DevOps/容器化
简介：自动生成符合最佳实践的Dockerfile配置文件，支持多种编程语言与应用场景，自动优化镜像大小与构建速度
安装量：6.2万+
推荐理由：解决容器化部署最头疼的配置编写问题，大幅减少调试时间
链接：https://github.com/openai/skills/tree/main/skills/.curated/dockerfile-generator

6. PDF 内容解析Skill

分类：文档处理/数据提取
简介：精准解析PDF文档中的文本、表格、图片等内容，保留文档结构与格式，支持扫描版PDF的OCR识别
安装量：11.3万+
推荐理由：文档处理必备技能，解决PDF内容提取的各种难题
链接：https://github.com/openai/skills/tree/main/skills/.curated/pdf-parser

7. Notion 自动操作Skill

分类：生产力/知识管理
简介：自动在Notion中创建页面、更新内容、管理数据库、生成报告，支持自定义工作流
安装量：7.8万+
推荐理由：Notion用户的效率神器，实现知识管理的自动化
链接：https://github.com/openai/skills/tree/main/skills/.curated/notion-automation

8. 数据分析与可视化Skill

分类：数据处理/分析
简介：自动处理Excel/CSV数据，生成统计分析报告与可视化图表，支持SQL查询与复杂数据计算
安装量：9.4万+
推荐理由：数据分析人员的得力助手，大幅降低数据分析的技术门槛
链接：https://github.com/openai/skills/tree/main/skills/.curated/data-analysis

9. 代码审查Skill

分类：开发/代码质量
简介：自动审查代码质量，发现潜在的Bug、安全漏洞、性能问题与不规范写法，提供修复建议
安装量：13.2万+
推荐理由：开发者必备的代码质量保障工具，提前发现问题，减少线上故障
链接：https://github.com/openai/skills/tree/main/skills/.curated/code-review

10. Playwright 自动化测试Skill

分类：测试/自动化
简介：自动编写Playwright端到端测试脚本，支持网页自动化操作、截图、PDF生成、表单填写等场景
安装量：5.7万+
推荐理由：测试人员的效率神器，大幅降低自动化测试的开发成本
链接：https://github.com/openai/skills/tree/main/skills/.curated/playwright-automation

📑 目录