每日研究简报 2026-05-19

每日研究简报 2026-05-19

📅 生成时间:2026-05-19 22:53 (Asia/Shanghai) | 数据来源:arXiv · GitHub · HackerNews · 科技媒体


📄 一、arXiv 最新论文

1. Robo-Cortex: A Self-Evolving Embodied Agent via Dual-Grain Cognitive Memory and Autonomous Knowledge Induction

  • 方向:arXiv/机器人学/具身智能
  • 摘要:arXiv:2605.18729(2026-05-18提交)提出Robo-Cortex自进化具身智能体框架,通过双粒度认知记忆和自主知识归纳机制,解决了现有策略在未知环境导航中的"经验失忆"问题,能将成功模式和失败陷阱抽象为自然语言启发式规则,实现从被动执行到主动适应的跃迁。
  • 推荐原因:具身智能是当前AI落地机器人、自动驾驶领域的核心方向,自主知识归纳机制为通用机器人的环境适应能力提供了新的技术路径。
  • 链接:https://arxiv.org/abs/2605.18729

2. Beyond SFT-to-RL: PRISM Alignment Framework for Multimodal Large Models

  • 方向:arXiv/多模态大模型
  • 摘要:arXiv:2604.28123来自香港科技大学、清华大学等团队的研究发现,多模态大模型SFT到RL的训练范式存在被忽视的分布断层,提出PRISM对齐框架修复SFT带来的副作用,在7个主流多模态基准测试中平均提升4.4~6.0个点,实现全局分布校准。
  • 推荐原因:直击多模态大模型后训练的核心痛点,为现有模型的性能提升提供了低成本的优化方案,工程参考价值极高。
  • 链接:https://arxiv.org/abs/2604.28123

3. Pixel-Searcher: Knowledge-Guided Visual Perception for Complex Scenes

  • 方向:arXiv/计算机视觉
  • 摘要:arXiv:2605.12497(2026-05-19发布)由香港中文大学、武汉大学等团队提出,首次将"先查资料再看图"的人类认知模式引入计算机视觉,构建WebEyes数据集和两阶段推理框架,在复杂场景目标识别任务中,将Qwen3-VL-8B的IoU指标提升23%。
  • 推荐原因:突破了传统视觉模型仅依赖静态特征的局限,为动态知识与视觉感知的融合提供了全新范式,可应用于安防、自动驾驶等复杂场景。
  • 链接:https://arxiv.org/abs/2605.12497

4. World Model for Robot Learning: A Comprehensive Survey

  • 方向:arXiv/机器人学/综述
  • 摘要:arXiv:2605.00080由南洋理工大学、加州大学伯克利分校、斯坦福等全球顶尖机构联合发布,系统梳理了世界模型在机器人学习中的定义、架构范式、应用场景和未来挑战,配套维护了涵盖所有主流工作的GitHub资源库。
  • 推荐原因:世界模型是当前机器人学习领域最受关注的方向,这篇综述是该领域最全面的参考资料,适合快速了解前沿进展。
  • 链接:https://arxiv.org/abs/2605.00080

5. OHP-RL: Online Human Preference as Guidance in Reinforcement Learning for Robot Manipulation

  • 方向:arXiv/机器人学/强化学习
  • 摘要:arXiv:2605.15971(2026-05-18提交)由香港科技大学广州分校团队提出,将在线人类偏好作为强化学习的引导信号,在机器人操作任务中,无需大规模标注数据即可实现策略的快速迭代,成功率提升47%。
  • 推荐原因:解决了机器人强化学习数据成本高的痛点,人机协作的训练模式为机器人快速落地提供了可行路径。
  • 链接:https://arxiv.org/list/cs.RO/pastweek?skip=7

6. Constrained MPC-Based Motion Planning for Morphing Quadrotors in Ultra-Narrow Passages

  • 方向:arXiv/机器人学/运动规划
  • 摘要:arXiv:2605.15999(2026-05-18提交)提出了适用于变形四旋翼无人机在超狭窄通道中的约束模型预测控制运动规划算法,在有限感知条件下的通过率达到92%,远超现有方案的68%。
  • 推荐原因:可直接应用于工业巡检、应急救援等场景的无人机自主导航,工程落地价值突出。
  • 链接:https://arxiv.org/list/cs.RO/pastweek?skip=7

7. PosterReward: Preference Alignment for High-Quality Graphic Design Generation

  • 方向:arXiv/多模态生成
  • 摘要:CVPR 2026录用论文,针对现有奖励模型难以捕捉字体、布局等精细平面设计元素的问题,构建多模态大模型自动生成偏好对的流程,提出的PosterReward模型在电商及影视海报的打分性能上显著优于现有方案。
  • 推荐原因:AIGC在设计领域的落地一直缺乏有效的评估机制,该研究为高质量生成式设计提供了可靠的奖励信号。
  • 链接:https://alexlai2860.github.io/mypaper/posterreward/PosterReward_Arxiv_official.pdf

8. UniComp: Rethinking Video Compression Through Informational Uniqueness

  • 方向:arXiv/多媒体/视频压缩
  • 摘要:CVPR 2026录用论文,从信息论角度重构视频压缩范式,提出UniComp框架,仅需两个超参数即可跨架构通用,在5%极端压缩率下仍能保留关键语义细节,相比H.265节省37%的带宽。
  • 推荐原因:视频传输是当前流媒体、VR/AR、云渲染等领域的核心瓶颈,该技术的落地将显著降低端侧视频传输成本。
  • 链接:https://arxiv.org/pdf/2512.03575

🌟 二、GitHub 热门项目

1. HKUDS/RAG-Anything

  • Stars:⭐ 快速增长中 · Python
  • 简介:基于LightRAG构建的全栈多模态RAG系统,支持处理包含文本、图像、表格、公式、图表的多样化文档,用户可以通过统一界面对复杂多模态文档进行查询。
  • 推荐原因:解决了传统RAG仅支持文本的核心痛点,是当前企业知识管理、学术研究场景的刚需工具,落地价值极高。
  • 链接GitHub - HKUDS/RAG-Anything: All-in-One RAG Framework

2. openhuman-ai/openhuman

  • Stars:⭐ 15,674 (+3,945 今日) · Rust
  • 简介:定位为"私人AI超级大脑"的本地化AI助手,所有数据和推理全部在本地运行,支持导入笔记、文档、浏览记录、日程等个人数据,打造完全隐私的个性化推理引擎。
  • 推荐原因:数据隐私是当前AI用户的核心关切,本地化部署的个人AI助手是今年的热门赛道,该项目采用Rust开发性能优异,适合对隐私有要求的用户。
  • 链接:GitHub搜索openhuman即可获取

3. colbymchenry/codegraph

  • Stars:⭐ 3,926 (+1,935 周增) · TypeScript
  • 简介:为Claude Code、Cursor等AI编程工具提供项目全局视野的代码知识图谱工具,预先索引整个代码库构建依赖关系和调用链路,AI写代码时无需重复读取文件,节省token同时避免"迷路"问题,100%本地运行。
  • 推荐原因:解决了AI编程工具处理大型项目时的上下文限制问题,是中大型项目开发者的必备提效工具。
  • 链接:GitHub搜索codegraph即可获取

4. K-Dense-AI/scientific-agent-skills

  • Stars:⭐ 快速增长中 · Python
  • 简介:面向科研场景的Agent技能集合,将各学科的科研流程、工具调用方法、领域知识编码为可复用的技能,让Agent可以一键完成复杂的科研数据处理、仿真、论文写作等任务,全部技能支持本地运行。
  • 推荐原因:AI赋能科研是当前的热门方向,该项目直接面向科研人员的实际痛点,能大幅提升科研工作效率。
  • 链接GitHub - K-Dense-AI/scientific-agent-skills

5. mattpocock/skills

  • Stars:⭐ 快速增长中 · TypeScript
  • 简介:TypeScript大神开源的AI Agent技能实战集合,包含大量生产级的Agent能力配置,正在成为AI Agent开发的新标准范式,本周Star增长超过1.5万。
  • 推荐原因:AI Agent开发正在从"玩具时代"进入工程化时代,Skills范式取代MCP是明确的行业趋势,该项目是学习Agent技能开发的最佳参考资料。
  • 链接:GitHub搜索mattpocock/skills即可获取

6. openhuman/opensquilla

  • Stars:⭐ 快速增长中 · Rust
  • 简介:可自托管的开源AI智能体运行时,采用Apache-2.0协议,专为长时序企业级工作负载设计,通过智能模型路由、多层内存管理和系统级沙箱机制,实现60%-80%的令牌成本降低,支持Windows便携安装。
  • 推荐原因:企业级Agent部署的核心基础设施,解决了当前Agent运行时成本高、不稳定、不安全的痛点,商业化前景广阔。
  • 链接:GitHub搜索opensquilla即可获取

7. 500-AI-Agents-Projects

  • Stars:⭐ 快速增长中
  • 简介:汇集了超过500个基于AutoGen、LangGraph、CrewAI等框架的AI智能体项目与应用案例,按行业和技术分类,涵盖医疗、金融、教育、零售、法律等多个领域的落地方案。
  • 推荐原因:想要了解AI Agent在各行业的落地实践,这个合集是最全面的参考资料,能快速找到适合自己业务场景的解决方案。
  • 链接:GitHub搜索500-AI-Agents-Projects即可获取

8. Agents Towards Production

  • Stars:⭐ 19.9K+ · 综合
  • 简介:从AI Agent原型到企业级部署的完整实战教程,包含28+生产级教程,覆盖状态管理、向量记忆、实时搜索、安全防护、容器化部署、可观测性等全链路能力,提供可直接运行的代码和Notebook。
  • 推荐原因:解决了Agent落地难的核心痛点,是目前最系统的生产级Agent开发指南,适合想要将Agent落地到生产环境的开发者。
  • 链接:GitHub搜索Agents Towards Production即可获取

📰 三、AI 科技媒体 & HackerNews 资讯

1. Cerebras纳斯达克上市首日暴涨68%,市值达950亿美元

  • 来源:TechCrunch / HackerNews · AI行业
  • 摘要:AI芯片公司Cerebras于2026年5月17日在纳斯达克上市,首日股价上涨68%,市值达到950亿美元,IPO前数周拒绝了软银和ARM的收购意向。该公司的晶圆级芯片专为大模型训练设计,单芯片算力远超传统GPU集群。
  • 推荐原因:AI算力是行业发展的基础,Cerebras的上市标志着专用AI芯片厂商已经获得资本市场的高度认可,算力行业的竞争将进入新阶段。
  • 链接:https://c.m.163.com/news/a/KT5C39P105118BEE.html

2. Anthropic Claude Mythos模型解禁,漏洞破解能力碾压GPT-5.5

  • 来源:HackerNews / 新智元 · AI安全
  • 摘要:Anthropic的绝密大模型Claude Mythos近期在谷歌云悄悄解禁,CMU实测显示它在41个真实V8引擎高危漏洞破解任务中,全自主模式得分9.55/16,远超GPT-5.5的4.30/16,甚至解决了人类安全研究员耗时1年未解决的漏洞。
  • 推荐原因:AI在网络安全领域的能力已经达到新的高度,既为安全防护提供了强大工具,也带来了新的安全风险,值得全行业关注。
  • 链接:http://m.toutiao.com/group/7640709341770973759/

3. OpenAI启动IPO前重组,全面转向AI Agent战略

  • 来源:HackerNews / 华尔街见闻 · 企业动态
  • 摘要:OpenAI在IPO前宣布大规模组织重组,将ChatGPT、Codex、API三大产品线合并为统一产品组织,联合创始人Greg Brockman全面接管产品战略,明确未来核心方向为AI Agent,同步推出手机端Codex远程控制功能,目前ChatGPT周活用户已达9亿。
  • 推荐原因:OpenAI的战略转向是行业风向标,标志着AI从对话时代正式进入Agent时代,未来2年企业级Agent市场将迎来爆发式增长。
  • 链接:http://m.toutiao.com/group/7641020356056138275/

4. 图灵奖得主LeCun炮轰LLM路线,称5年内JEPA模型全面统治

  • 来源:HackerNews / 网易科技 · 行业观点
  • 摘要:图灵奖得主、AI教父杨立昆在最新播客中表示,大语言模型不是通往通用人工智能的正确道路,像素预测本质是死路,5年内JEPA(联合嵌入预测架构)将全面统治智能系统,世界模型才是机器人、自动驾驶、工业AI的唯一出路。
  • 推荐原因:LeCun的观点代表了AI领域另一大技术路线的声音,对于了解行业技术演进方向、避免路线踩坑具有重要参考价值。
  • 链接:http://m.163.com/dy/article/KT3OLVJK05566SCS.html

5. 中国大模型周调用量达7.94万亿Token,连续两周全球第一

  • 来源:HackerNews / CSDN · 行业数据
  • 摘要:根据OpenRouter测算,2026年5月第二周中国大模型周调用量达到7.94万亿Token,是美国的2.11倍,连续两周位居全球第一,占全球总调用量的30.9%。同时国内云厂商密集发布Agent套餐和工具链产品,AI应用生态成熟速度超出预期。
  • 推荐原因:中国AI应用市场的增长速度远超全球,国内AI产业已经从"模型竞赛"进入"平台化服务竞赛"阶段,应用层创业机会巨大。
  • 链接:https://forum.trae.cn/t/topic/18131

6. 谷歌I/O大会明日开幕,Gemini 4.0将带来200万上下文窗口

  • 来源:HackerNews / 新浪财经 · 产品动态
  • 摘要:2026年5月19日谷歌I/O大会正式开幕,Gemini 4.0将首次亮相,核心突破包括200万上下文窗口(支持直接输入整本代码库或书籍),以及Gemini Intelligence系统方案,将AI从"问答助手"升级为"主动执行者",同时将发布Android 17和新一代XR眼镜产品。
  • 推荐原因:谷歌I/O是全球AI产业年度风向标,Gemini 4.0的发布将推动多模态大模型的能力边界进一步拓展,AI生态竞争正式进入全栈落地新阶段。
  • 链接:https://www.163.com/dy/article/KT5J2Q2M0531G0IB.html

7. Anthropic估值达1.2万亿美元,15个月ARR增长30倍

  • 来源:HackerNews / IT之家 · 企业融资
  • 摘要:Anthropic近期完成300亿美元融资,投后估值达到9000亿美元,隐含估值已达1.2万亿美元,从2025年初10亿美元ARR到2026年4月的300亿美元ARR,仅用15个月实现30倍增长,创AI公司收入增速纪录,目前企业客户份额34.4%已经超过OpenAI的32.3%。
  • 推荐原因:Anthropic的快速崛起标志着AI行业格局正在发生变化,“安全优先+平台化"的商业模式获得市场广泛认可,为AI创业公司提供了可参考的成长路径。
  • 链接:https://www.163.com/dy/article/KT5J2Q2M0531G0IB.html

8. 苹果WWDC将发布智能体商店,iOS 27全面AI化

  • 来源:HackerNews / 腾讯科技 · 产品动态
  • 摘要:苹果计划在2026年WWDC大会上发布iOS 27系统,Siri将重塑为独立App形态,支持多任务指令,允许用户自选第三方AI模型(ChatGPT/Claude/Gemini等),同时推出类似App Store模式的智能体商店,确保第三方Agent的安全和隐私。
  • 推荐原因:苹果的入局将推动AI Agent正式进入消费级市场,智能体商店模式可能会像当年App Store一样,开创一个全新的AI应用生态。
  • 链接:https://view.inews.qq.com/hotEvent/UTR2025110111614400
📑 目录