每日研究简报 2026-03-30

每日研究简报 2026-03-30

🌾 每日研究简报 · 2026-03-30

领域:AI / 大模型 / Agent / 计算机视觉 / 音视频处理算法 / 工程优化


📄 arxiv 最新论文(5篇)

1. GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation

  • 方向:3D生成 / 计算机视觉
  • 摘要:提出基于 Transformer 的自回归 3D 高斯场景生成模型,通过 next-token prediction 直接生成 3D Gaussians。使用稀疏 3D 卷积自编码器 + 向量量化压缩高斯原语,支持场景补全、外绘、可控采样。与扩散模型互补,天然支持 context-aware 3D 生成。
  • 链接:https://arxiv.org/abs/2603.26661

2. VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward

  • 方向:视频生成 / 工程优化
  • 摘要:提出 VGGRPO,在 latent 空间用 GRPO 做几何一致性视频后训练。引入 Latent Geometry Model(LGM)直接从 latent 解码场景几何,避免昂贵的 VAE 解码。支持动态场景,用相机运动平滑奖励 + 几何重投影一致性奖励双重约束。
  • 链接:https://arxiv.org/abs/2603.26599

3. PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning

  • 方向:多模态大模型 / 视频理解
  • 摘要:提出 PerceptionComp,一个需要多时间段视觉证据 + 组合逻辑推理的视频 benchmark(1114题/279视频)。最强模型 Gemini-3-Flash 仅达 45.96%,开源模型低于 40%,揭示感知中心长时序推理仍是瓶颈。
  • 链接:https://arxiv.org/abs/2603.26653

4. GeoSR: Make Geometry Matter for Spatial Reasoning

  • 方向:VLM / 空间推理
  • 摘要:提出 GeoSR 框架,通过 Geometry-Unleashing Masking(遮蔽 2D 视觉 token 迫使模型依赖几何 token)和 Geometry-Guided Fusion(门控路由自适应放大几何贡献),让 VLM 真正利用 3D 几何信息做空间推理,在静态和动态 benchmark 上 SOTA。
  • 链接:https://arxiv.org/abs/2603.26639

5. Zero-Shot Depth from Defocus (FOSSA)

  • 方向:计算摄影 / 深度估计
  • 摘要:提出 FOSSA,基于 Transformer 的零样本焦距散焦深度估计网络,核心是带焦距距离嵌入的 stack attention layer,实现焦点堆栈间高效信息交换。同时发布 ZEDD benchmark(比前作多 8.3x 场景),误差降低最高 55.7%。
  • 链接:https://arxiv.org/abs/2603.26658

🔥 GitHub 热门项目(5个)

1. AutoGPT ⭐ 182.9k

  • 语言:Python
  • 简介:自主 AI Agent 平台,支持 agentic workflow 构建与部署,持续活跃更新中。

2. ollama/ollama ⭐ 166.5k

  • 语言:Go
  • 简介:本地运行大模型的标准工具,最新支持 Kimi-K2.5、GLM-5、MiniMax、DeepSeek、Qwen 等主流模型。

3. huggingface/transformers ⭐ 158.6k

  • 语言:Python
  • 简介:SOTA 模型定义框架,覆盖文本/视觉/音频/多模态,持续集成最新模型(Gemma3、GLM、Qwen 等)。

4. langflow-ai/langflow ⭐ 146.4k

  • 语言:Python
  • 简介:可视化 AI Agent 和 workflow 构建平台,低代码拖拽式搭建多 Agent 应用。

5. langgenius/dify ⭐ 135k

  • 语言:TypeScript/Python
  • 简介:生产级 agentic workflow 开发平台,支持 RAG、MCP、多模型编排,今日仍在活跃推送。

🗞️ HackerNews 热帖(5条)

1. Show HN: Muscle-Mem — AI Agent 的行为缓存 ⭐ 226分 · 51评论

像 JIT 编译器一样缓存 Agent 的 tool-calling 轨迹,重复任务走确定性回放,遇到边缘情况再切回 Agent 模式。解决纯视觉 Agent $40/hr token 成本问题的实用方案。

2. Show HN: Magnitude — AI 原生 Web 测试框架 ⭐ 179分 · 44评论

用纯视觉 VLM(Moondream)替代 set-of-marks 方案,双 Agent 架构(规划器 + 执行器),比 browser-use 更快更便宜的 E2E 测试框架。

3. Show HN: AI agents 36小时 $270 端到端开发并上线了一个 App ⭐ 热帖

4个 AI Agent 协作,从选技术栈到部署全自动,构建了一个新闻转短视频平台(Sora 2 Pro + Veo 3.1)。揭示了多 Agent 协作中 groupthink、幻觉、视频质量不稳定等真实问题。

4. Show HN: 如何在 48 小时内红队测试你的 AI Agent

4阶段框架:侦察→自动扫描→手动利用→验证报告。核心洞察:prompt injection → tool abuse → 数据泄露是最常见攻击链,间接注入(RAG/web)被严重低估。

5. Show HN: Running AI agents across environments needs a proper solution

用 Rust 构建的 Agent 运行时 Odyssey,解决 Python Agent 内存占用大、Docker 启动慢、Agent 难以复用等工程问题,支持 bundle-first 打包和跨环境部署。


📋 深读推荐

类型 标题 推荐理由 链接
论文 VGGRPO Latent 空间 GRPO 做视频几何一致性,工程价值高,避免 VAE 解码开销 https://arxiv.org/abs/2603.26599
论文 GeoSR VLM 空间推理的系统性解法,几何 token 利用率问题值得深思 https://arxiv.org/abs/2603.26639
论文 PerceptionComp 视频多模态推理的新 benchmark,当前最强模型仅 46%,研究空间巨大 https://arxiv.org/abs/2603.26653
项目 Muscle-Mem Agent 工程化的务实方案,RPA + Agent 混合执行思路值得借鉴 https://github.com/pig-dot-dev/muscle-mem
文章 AI Agent 红队测试方法论 生产级 Agent 安全的系统性框架,工程落地必读 https://tachyonicai.com/blog/how-to-red-team-ai-agent/

📅 生成时间:2026-03-30 22:11 CST | 数据来源:arxiv API · GitHub API · HackerNews Algolia API