{ "title": "每日研究简报 2026-04-05", "url": "/posts/research-brief-2026-04-05/", "permalink": "https://hackcv.com/posts/research-brief-2026-04-05/", "date": "2026-04-05", "lastmod": "2026-04-05", "author": "", "description": "AI / 大模型 / Agent / 计算机视觉 / 音视频处理算法 / 工程优化领域每日研究简报", "categories": ["研究简报"], "tags": ["AI","大模型","Agent","计算机视觉","音视频处理","工程优化","每日简报"], "cover": "https://picsum.photos/seed/%E6%AF%8F%E6%97%A5%E7%A0%94%E7%A9%B6%E7%AE%80%E6%8A%A5-2026-04-05/1200/675", "readingTime": 2, "wordCount": 551, "content": "\u003ch1 id=\"每日研究简报-2026-04-05\"\u003e每日研究简报 2026-04-05\u003c/h1\u003e\n\u003cblockquote\u003e\n\u003cp\u003e数据来源：arXiv 最新论文 / GitHub 热门项目 / HackerNews 热帖\u003c/p\u003e\n\u003c/blockquote\u003e\n\u003chr\u003e\n\u003ch2 id=\"-arxiv-最新论文计算机视觉--大模型--ai--音频信号处理\"\u003e📄 arXiv 最新论文（计算机视觉 / 大模型 / AI / 音频信号处理）\u003c/h2\u003e\n\u003ch3 id=\"1-eventhub-data-factory-for-generalizable-event-based-stereo-networks-without-active-sensors\"\u003e1. EventHub: Data Factory for Generalizable Event-Based Stereo Networks without Active Sensors\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e：计算机视觉 · 事件相机（Event Camera）· 立体匹配\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：EventHub 是一个无需主动传感器即可训练深度事件立体网络的框架，通过标准彩色图像生成代理标注和代理事件，借助新颖视角合成技术将 RGB 领域的立体模型迁移到事件数据，在夜间等挑战性场景下表现出色。CVPR 2026。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://arxiv.org/abs/2604.02331v1\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"2-actionparty-multi-subject-action-binding-in-generative-video-games\"\u003e2. ActionParty: Multi-Subject Action Binding in Generative Video Games\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e：计算机视觉 · 视频扩散模型 · 世界模型 · Agent\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：提出 ActionParty，一个可控多主体世界模型，用于生成式视频游戏。通过 subject state tokens 持久捕捉场景中各主体状态，解决视频扩散模型中动作与主体绑定的根本问题，在 Melting Pot 基准上首次实现同时控制 7 名玩家。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://arxiv.org/abs/2604.02330v1\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"3-generative-world-renderer\"\u003e3. Generative World Renderer\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e：计算机视觉 · 逆渲染 · 神经渲染 · AAA 游戏数据\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：从 AAA 游戏提取 4M 连续帧（RGB + 5 路 G-buffer），提出双屏拼接采集方法 bridle 域差距，支持野外几何材质分解和 G-buffer 引导的高保真视频生成，并提出 VLM 评估协议验证逆渲染泛化能力。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://arxiv.org/abs/2604.02329v1\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"4-modulate-and-map-crossmodal-feature-mapping-with-cross-view-modulation-for-3d-anomaly-detection\"\u003e4. Modulate-and-Map: Crossmodal Feature Mapping with Cross-View Modulation for 3D Anomaly Detection\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e：计算机视觉 · 3D 异常检测 · 多模态 · 多视角\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：ModMap 是原生的多视角多模态 3D 异常检测框架，通过跨模态特征映射和跨视角调制学习视角相关性。在 SiM3D 基准上大幅超越现有方法（CVPR Findings 2026）。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://arxiv.org/abs/2604.02328v1\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"5-steerable-visual-representations\"\u003e5. Steerable Visual Representations\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e：计算机视觉 · 视觉表征 · 视觉语言模型 · 可控特征\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：提出可 steerable 视觉表征，通过 early fusion 将文本直接注入视觉编码器各层，实现用自然语言引导全局和局部视觉特征聚焦任意目标，在异常检测和个性化目标识别上达到 SOTA。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://arxiv.org/abs/2604.02327v1\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"6-grounded-token-initialization-for-new-vocabulary-in-lms-for-generative-recommendation\"\u003e6. Grounded Token Initialization for New Vocabulary in LMs for Generative Recommendation\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e：大模型 · 语言模型 · 生成式推荐 · Token 初始化\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：系统性分析 LLM 新词汇 token 初始化策略，发现均值初始化会导致 token 崩溃，提出 GTI（Grounded Token Initialization）在微调前将新 token 语义锚定到预训练嵌入空间，显著提升生成式推荐效果。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://arxiv.org/abs/2604.02324v1\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"7-beyond-referring-expressions-scenario-comprehension-visual-grounding\"\u003e7. Beyond Referring Expressions: Scenario Comprehension Visual Grounding\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e：计算机视觉 · 视觉定位 · 场景理解 · 基准测试\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：提出 RSC（Referring Scenario Comprehension）基准，评估基于角色、意图和关系上下文而非显式命名的视觉定位任务，并提出 ScenGround 方法结合课程推理和难度感知强化学习。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://arxiv.org/abs/2604.02323v1\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"8-batched-contextual-reinforcement-a-task-scaling-law-for-efficient-reasoning\"\u003e8. Batched Contextual Reinforcement: A Task-Scaling Law for Efficient Reasoning\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e：大模型 · 推理效率 · 强化学习 · 工程优化\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：提出 BCR，通过在共享上下文窗口内同时解决 N 个问题来隐式创建 token 预算，发现新型任务扩展定律：N 增大时每问题 token 消耗单调下降，精度衰减极为平缓，在 1.5B/4B 模型上 token 减少 15.8%~62.6% 同时保持/提升精度。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://arxiv.org/abs/2604.02322v1\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"9-large-scale-codec-avatars-the-unreasonable-effectiveness-of-large-scale-avatar-pretraining\"\u003e9. Large-scale Codec Avatars: The Unreasonable Effectiveness of Large-scale Avatar Pretraining\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e：计算机视觉 · 3D Avatar · 音视频处理 · 大规模预训练\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：LCA 首次提出 3D Avatar 的预训练/后训练范式：在 100 万野外视频上预训练学习广泛外观和几何先验，再在高质量数据上后训练提升表现力，实现零样本泛化到重光照和宽松衣物。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://arxiv.org/abs/2604.02320v1\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"10-stop-wandering-efficient-vision-language-navigation-via-metacognitive-reasoning\"\u003e10. Stop Wandering: Efficient Vision-Language Navigation via Metacognitive Reasoning\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e：Agent · 视觉语言导航 · 元认知 · 机器人\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e：MetaNav 集成空间记忆、历史感知规划和反思校正，解决 VLN 代理的局部振荡和冗余重访问题。在 GOAT-Bench、HM3D-OVON、A-EQA 上达到 SOTA，VLM 查询量减少 20.7%。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://arxiv.org/abs/2604.02318v1\u003c/li\u003e\n\u003c/ul\u003e\n\u003chr\u003e\n\u003ch2 id=\"-github-热门项目\"\u003e🐙 GitHub 热门项目\u003c/h2\u003e\n\u003ch3 id=\"1-significant-gravitasautogpt\"\u003e1. Significant-Gravitas/AutoGPT\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e⭐ Stars\u003c/strong\u003e：183,132｜🍴 Forks: 46,212\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e：让每个人都能使用和构建 AI 的愿景项目，聚焦 agentic AI 和自主 Agent，集成 GPT/LLaMA/Claude 等多模型支持。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://github.com/Significant-Gravitas/AutoGPT\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"2-huggingfacetransformers\"\u003e2. huggingface/transformers\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e⭐ Stars\u003c/strong\u003e：158,806｜🍴 Forks: 32,730\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e：🤗 Transformers 是文本、视觉、音频和多模态 SOTA 模型的核心框架，兼顾推理和训练，支持 DeepSeek、Gemma、GLM、Qwen 等主流模型。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://github.com/huggingface/transformers\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"3-opencvopencv\"\u003e3. opencv/opencv\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e⭐ Stars\u003c/strong\u003e：86,918｜🍴 Forks: 56,543\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e：OpenCV 开源计算机视觉库，是工业界和学术界最广泛使用的 CV 基础库，支持传统 CV 和深度学习推理。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://github.com/opencv/opencv\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"4-oobaboogatext-generation-webui\"\u003e4. oobabooga/text-generation-webui\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e⭐ Stars\u003c/strong\u003e：46,401｜🍴 Forks: 5,903\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e：原生的本地 LLM 界面，支持文本、视觉、工具调用和训练，100% 离线运行，是本地大模型推理的重要入口。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://github.com/oobabooga/text-generation-webui\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"5-mudlerlocalai\"\u003e5. mudler/LocalAI\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e⭐ Stars\u003c/strong\u003e：44,886｜🍴 Forks: 3,860\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e：开源 AI 引擎，支持在任意硬件上运行 LLMs、视觉、语音、图像、视频模型，无需 GPU，集成 MCP 协议。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://github.com/mudler/LocalAI\u003c/li\u003e\n\u003c/ul\u003e\n\u003chr\u003e\n\u003ch2 id=\"-hackernews-热帖\"\u003e📰 HackerNews 热帖\u003c/h2\u003e\n\u003ch3 id=\"1-ask-hn-why-are-so-many-rolling-out-their-own-aillm-agent-sandboxing-solution\"\u003e1. Ask HN: Why are so many rolling out their own AI/LLM agent sandboxing solution?\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e🔥 热度\u003c/strong\u003e：32 points · 18 comments\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e：作者观察到许多团队为 Claude Code 等编码 Agent 自建 Docker/VM/firejail 沙箱，好奇现有方案缺失什么，以及\u0026quot;够用\u0026quot;的标准沙箱应该是什么样。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://news.ycombinator.com/item?id=46699324\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"2-show-hn-mirror-ai--llm-agent-that-takes-action-not-just-chat\"\u003e2. Show HN: Mirror AI – LLM agent that takes action, not just chat\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e🔥 热度\u003c/strong\u003e：5 points · 4 comments\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e：跨平台桌面 Action-oriented LLM Agent，可执行终端命令、操作文件、发送邮件/消息、查询数据库、调用 GitHub/AWS API 等，支持 MCP 扩展，所有逻辑本地运行。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://themirrorai.com\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"3-practical-tips-to-optimize-documentation-for-llms-ai-agents-and-chatbots\"\u003e3. Practical tips to optimize documentation for LLMs, AI agents, and chatbots\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e🔥 热度\u003c/strong\u003e：4 points\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e：从人类作为工具而非终端的视角出发，系统性梳理为 LLM/AI Agent 优化技术文档的实战技巧。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://biel.ai/blog/optimizing-docs-for-ai-agents-complete-guide\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"4-bending-emacs-episode-10-ai--llm-agent-shell-video\"\u003e4. Bending Emacs Episode 10: AI / LLM agent-shell [video]\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e🔥 热度\u003c/strong\u003e：2 points\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e：Emacs 爱好者系列视频第 10 集，探索如何将 AI/LLM Agent 能力集成进 Emacs shell 环境。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://www.youtube.com/watch?v=R2Ucr3amgGg\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"5-awesome-agent-learning--curated-resources-to-learn-and-build-aillm-agents\"\u003e5. Awesome-Agent-Learning – curated resources to learn and build AI/LLM agents\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e🔥 热度\u003c/strong\u003e：2 points\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e：精选 AI/LLM Agent 学习资源合集，涵盖论文、工具、框架和实战项目。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e：https://github.com/artnitolog/awesome-agent-learning\u003c/li\u003e\n\u003c/ul\u003e\n\u003chr\u003e\n\u003ch2 id=\"-深读推荐\"\u003e🔖 深读推荐\u003c/h2\u003e\n\u003ctable\u003e\n\u003cthead\u003e\n\u003ctr\u003e\n\u003cth\u003e序号\u003c/th\u003e\n\u003cth\u003e类型\u003c/th\u003e\n\u003cth\u003e标题\u003c/th\u003e\n\u003cth\u003e推荐理由\u003c/th\u003e\n\u003cth\u003e链接\u003c/th\u003e\n\u003c/tr\u003e\n\u003c/thead\u003e\n\u003ctbody\u003e\n\u003ctr\u003e\n\u003ctd\u003e1\u003c/td\u003e\n\u003ctd\u003e论文\u003c/td\u003e\n\u003ctd\u003eEventHub\u003c/td\u003e\n\u003ctd\u003eCVPR 2026，事件相机 + 零样本泛化，视角合成数据蒸馏方法值得借鉴\u003c/td\u003e\n\u003ctd\u003e\u003ca href=\"https://arxiv.org/abs/2604.02331v1\"\u003ehttps://arxiv.org/abs/2604.02331v1\u003c/a\u003e\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e2\u003c/td\u003e\n\u003ctd\u003e论文\u003c/td\u003e\n\u003ctd\u003eActionParty\u003c/td\u003e\n\u003ctd\u003e多主体世界模型，7 玩家同时控制，视频生成 + Agent 交叉方向\u003c/td\u003e\n\u003ctd\u003e\u003ca href=\"https://arxiv.org/abs/2604.02330v1\"\u003ehttps://arxiv.org/abs/2604.02330v1\u003c/a\u003e\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e3\u003c/td\u003e\n\u003ctd\u003e论文\u003c/td\u003e\n\u003ctd\u003eBatched Contextual Reinforcement\u003c/td\u003e\n\u003ctd\u003e推理效率新范式，\u0026ldquo;免费午餐\u0026quot;现象，工程优化必读\u003c/td\u003e\n\u003ctd\u003e\u003ca href=\"https://arxiv.org/abs/2604.02322v1\"\u003ehttps://arxiv.org/abs/2604.02322v1\u003c/a\u003e\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e4\u003c/td\u003e\n\u003ctd\u003e论文\u003c/td\u003e\n\u003ctd\u003eSteerable Visual Representations\u003c/td\u003e\n\u003ctd\u003e早期融合新范式，可控视觉表征潜力大\u003c/td\u003e\n\u003ctd\u003e\u003ca href=\"https://arxiv.org/abs/2604.02327v1\"\u003ehttps://arxiv.org/abs/2604.02327v1\u003c/a\u003e\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e5\u003c/td\u003e\n\u003ctd\u003e论文\u003c/td\u003e\n\u003ctd\u003eMetaNav (Stop Wandering)\u003c/td\u003e\n\u003ctd\u003e元认知 + VLN，VLM 查询减少 20.7% 实用性很强\u003c/td\u003e\n\u003ctd\u003e\u003ca href=\"https://arxiv.org/abs/2604.02318v1\"\u003ehttps://arxiv.org/abs/2604.02318v1\u003c/a\u003e\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e6\u003c/td\u003e\n\u003ctd\u003e工具\u003c/td\u003e\n\u003ctd\u003eLocalAI\u003c/td\u003e\n\u003ctd\u003e本地运行多模态模型的标杆工程，MCP 集成值得研究\u003c/td\u003e\n\u003ctd\u003e\u003ca href=\"https://github.com/mudler/LocalAI\"\u003ehttps://github.com/mudler/LocalAI\u003c/a\u003e\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e7\u003c/td\u003e\n\u003ctd\u003e工具\u003c/td\u003e\n\u003ctd\u003eAutoGPT\u003c/td\u003e\n\u003ctd\u003eAgent 架构参考，工具调用和自主决策流程完整\u003c/td\u003e\n\u003ctd\u003e\u003ca href=\"https://github.com/Significant-Gravitas/AutoGPT\"\u003ehttps://github.com/Significant-Gravitas/AutoGPT\u003c/a\u003e\u003c/td\u003e\n\u003c/tr\u003e\n\u003c/tbody\u003e\n\u003c/table\u003e\n\u003chr\u003e\n\u003cp\u003e📊 本次调用消耗：input_tokens: 1517，output_tokens: 528，total_tokens: 2045\u003c/p\u003e\n", "summary": "每日研究简报 2026-04-05 数据来源：arXiv 最新论文 / GitHub 热门项目 / HackerNews 热帖\n📄 arXiv 最新论文（计算机视觉 / 大模型 / AI / 音频信号处理） 1. EventHub: Data Factory for Generalizable Event-Based Stereo Networks without Active Sensors 方向：计算机视觉 · 事件相机（Event Camera）· 立体匹配摘要：EventHub 是一个无需主动传感器即可训练深度事件立体网络的框架，通过标准彩色图像生成代理标注和代理事件，借助新颖视角合成技术将 RGB 领域的立体模型迁移到事件数据，在夜间等挑战性场景下表现出色。CVPR 2026。链接：https://arxiv.org/abs/2604.02331v1 2. ActionParty: Multi-Subject Action Binding in Generative Video Games 方向：计算机视觉 · 视频扩散模型 · 世界模型 · Agent 摘要：提出 ActionParty，一个可控多主体世界模型，用于生成式视频游戏。通过 subject state tokens 持久捕捉场景中各主体状态，解决视频扩散模型中动作与主体绑定的根本问题，在 Melting Pot 基准上首次实现同时控制 7 名玩家。链接：https://arxiv.org/abs/2604.02330v1 3." }