📄 arXiv 最新论文(Top 5)
1. UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation
- 统一文本与图像(自回归 + flow matching)的联合生成,提出统一策略优化方法 UniGRPO,用于推理驱动的视觉内容生成。
- 🔗 http://arxiv.org/abs/2603.23500v1
2. OccAny: Generalized Unconstrained Urban 3D Occupancy
- 突破现有 3D 占用预测依赖域内标注和精确传感器标定的瓶颈,提出泛化性更强的无约束城市场景 3D 占用预测。
- 🔗 http://arxiv.org/abs/2603.23502v1
3. Foveated Diffusion: Efficient Spatially Adaptive Image and Video Generation
- 借鉴人眼中央凹视觉机制,实现空间自适应的高效扩散/流匹配图像与视频生成,显著降低计算开销。
- 🔗 http://arxiv.org/abs/2603.23491v1
4. VISion On Request: Enhanced VLLM Efficiency with Sparse Dynamic Vision-Language Interactions
- 提出按需视觉交互机制,替代传统视觉 token 裁剪方法,在信息保真的前提下大幅提升 LVLM 推理效率。
- 🔗 http://arxiv.org/abs/2603.23495v1
5. AgentRVOS: Reasoning over Object Tracks for Zero-Shot Referring Video Object Segmentation
- 利用 MLLM 对目标轨迹进行推理,实现零样本的 referring video object segmentation,无需训练。
- 🔗 http://arxiv.org/abs/2603.23489v1
🔥 GitHub 热门项目(Top 5)
| 项目 | ⭐ | 说明 |
|---|---|---|
| karpathy/autoresearch | ⭐ 55.6k | AI Agent 自动化研究框架——在单 GPU 上自动运行 nanochat 训练实验,Karpathy 出品 |
| garrytan/gstack | ⭐ 46.9k | Garry Tan 的 Claude Code 配置集:15 个工具角色(CEO、设计、工程经理、QA 等),开箱即用 |
| paperclipai/paperclip | ⭐ 33.0k | 开源零人类公司编排框架,Agent 驱动的全自动化业务流程 |
| HKUDS/CLI-Anything | ⭐ 23.0k | 把任何软件变成 Agent 原生 CLI——通用工具接口化方案,港大出品 |
| googleworkspace/cli | ⭐ 22.5k | Google Workspace 官方 CLI,覆盖 Drive/Gmail/Calendar/Sheets 等,内置 AI Agent skills |
🗞️ HackerNews 热帖(Top 5)
1. [455pts/256c] A real time AI video agent with under 1 second of latency
- 实时 AI 视频对话 Agent,延迟 <1s,HN 上的现象级项目。
- 🔗 https://news.ycombinator.com/item?id=41710227
2. [32pts/18c] Why are so many rolling out their own AI/L…
📋 深读推荐
| 优先级 | 内容 | 链接 |
|---|---|---|
| 🌟 | UniGRPO — 统一视觉生成推理策略优化 | arxiv |
| 🌟 | karpathy/autoresearch — AI Agent 自动化研究 | GitHub |
| 💡 | Foveated Diffusion — 中央凹机制的高效生成 | arxiv |