{
  "title": "每日研究简报 2026-04-16",
  "url": "/posts/research-brief-2026-04-16/",
  "permalink": "https://hackcv.com/posts/research-brief-2026-04-16/",
  "date": "2026-04-16",
  "lastmod": "2026-04-16",
  "author": "",
  "description": "AI / 大模型 / Agent / 计算机视觉 / 音视频处理算法 / 工程优化 领域每日研究简报",
  "categories": ["研究简报"],
  "tags": ["AI","大模型","Agent","计算机视觉","音视频处理","工程优化","每日简报"],
  "cover": "https://picsum.photos/seed/%E6%AF%8F%E6%97%A5%E7%A0%94%E7%A9%B6%E7%AE%80%E6%8A%A5-2026-04-16/1200/675",
  "readingTime": 2,
  "wordCount": 353,
  "content": "\u003ch1 id=\"每日研究简报-2026-04-16\"\u003e每日研究简报 2026-04-16\u003c/h1\u003e\n\u003cblockquote\u003e\n\u003cp\u003e涵盖领域：AI / 大模型 / Agent / 计算机视觉 / 音视频处理算法 / 工程优化\u003c/p\u003e\n\u003c/blockquote\u003e\n\u003chr\u003e\n\u003ch2 id=\"-arxiv-最新论文\"\u003e📚 ArXiv 最新论文\u003c/h2\u003e\n\u003ch3 id=\"1-one-token-per-highly-selective-frame-towards-extreme-compression-for-long-video-understanding\"\u003e1. One Token per Highly Selective Frame: Towards Extreme Compression for Long Video Understanding\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e: 计算机视觉 (cs.CV)\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e: 长视频理解对视觉语言模型(VLM)具有挑战性，因为帧数众多，每帧通常扩展为数十到数百个token。本文提出极端视频token压缩方法，实现每帧仅一个token。采用token级压缩(LP-Comp)和问题条件压缩(QC-Comp)，在LVBench上准确率从42.9%提升至46.2%。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e: \u003ca href=\"https://arxiv.org/abs/2604.14149v1\"\u003ehttps://arxiv.org/abs/2604.14149v1\u003c/a\u003e\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e: 突破长视频上下文长度限制的创新压缩方法，对视频理解领域有重要参考价值\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"2-seedance-20-advancing-video-generation-for-world-complexity\"\u003e2. Seedance 2.0: Advancing Video Generation for World Complexity\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e: 计算机视觉 (cs.CV)\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e: Seedance 2.0是新一代原生多模态音视频生成模型，支持文本、图像、音频、视频四种输入模态，直接生成4-15秒、480p/720p分辨率的音视频内容，在专家评估和用户测试中表现出色。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e: \u003ca href=\"https://arxiv.org/abs/2604.14148v1\"\u003ehttps://arxiv.org/abs/2604.14148v1\u003c/a\u003e\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e: 字节跳动发布的重磅视频生成模型，代表当前音视频生成领域最高水平\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"3-rose-retrieval-oriented-segmentation-enhancement\"\u003e3. ROSE: Retrieval-Oriented Segmentation Enhancement\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e: 计算机视觉 (cs.CV) - CVPR 2026 Findings\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e: 针对多模态大语言模型(MLLM)无法识别新出现实体的难题，提出ROSE框架，包括互联网检索增强生成、文本提示增强器、视觉提示增强器和WebSense模块。在NEST基准上比Gemini-2.0 Flash基线提升19.2 gIoU。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e: \u003ca href=\"https://arxiv.org/abs/2604.14147v1\"\u003ehttps://arxiv.org/abs/2604.14147v1\u003c/a\u003e\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e: CVPR 2026 Findings论文，解决分割模型对新实体的识别难题\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"4-spatialevo-self-evolving-spatial-intelligence-via-deterministic-geometric-environments\"\u003e4. SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e: 计算机视觉 (cs.CV)\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e: 3D空间推理是具身智能的核心能力。SpatialEvo利用确定性几何环境(DGE)实现自进化训练，绕过模型共识构建伪标签的局限性，在16类空间推理任务上取得突破。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e: \u003ca href=\"https://arxiv.org/abs/2604.14144v1\"\u003ehttps://arxiv.org/abs/2604.14144v1\u003c/a\u003e\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e: 自进化范式在3D空间推理领域的重要突破\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"5-from-pyx-to-py-investigating-reinforcement-learning-in-pre-train-space\"\u003e5. From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e: 机器学习 (cs.LG)\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e: RLVR通过优化P(y|x)增强LLM推理，但受限于基础模型的输出分布。本文提出PreRL直接在预训练空间优化P(y)，发现负样本强化(NSR)是推理能力的异常有效驱动因素。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e: \u003ca href=\"https://arxiv.org/abs/2604.14142v1\"\u003ehttps://arxiv.org/abs/2604.14142v1\u003c/a\u003e\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e: 探索预训练空间强化学习的新范式，对LLM推理能力提升有重要启示\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"6-geometric-context-transformer-for-streaming-3d-reconstruction\"\u003e6. Geometric Context Transformer for Streaming 3D Reconstruction\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e: 计算机视觉 (cs.CV)\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e: 提出LingBot-Map，基于几何上下文Transformer(GCT)架构的流式3D重建模型。约20 FPS稳定推理，支持超过10,000帧的长序列，在多种基准测试中优于现有方法。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e: \u003ca href=\"https://arxiv.org/abs/2604.14141v1\"\u003ehttps://arxiv.org/abs/2604.14141v1\u003c/a\u003e\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e: SLAM与深度学习结合的创新工作，实现高效流式3D重建\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"7-longcot-benchmarking-long-horizon-chain-of-thought-reasoning\"\u003e7. LongCoT: Benchmarking Long-Horizon Chain-of-Thought Reasoning\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e: 机器学习 (cs.LG)\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e: LongCoT是长链推理的可扩展基准，包含2,500个专家设计的问题，涵盖化学、数学、计算机科学、象棋和逻辑。最佳模型准确率不足10%(GPT 5.2: 9.8%)，揭示当前模型在长程推理方面的显著差距。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e: \u003ca href=\"https://arxiv.org/abs/2604.14140v1\"\u003ehttps://arxiv.org/abs/2604.14140v1\u003c/a\u003e\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e: 首个长程推理能力基准，对评估和提升LLM规划能力有重要价值\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"8-dont-let-the-video-speak-audio-contrastive-preference-optimization\"\u003e8. Don\u0026rsquo;t Let the Video Speak: Audio-Contrastive Preference Optimization\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e方向\u003c/strong\u003e: 计算机视觉 (cs.CV)\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e摘要\u003c/strong\u003e: 音视频语言模型(AVLM)常因视觉捷径产生音频幻觉。提出音频对比偏好优化(ACPO)，通过输出对比和输入对比双重目标惩罚视觉描述伪装成音频事实，显著减轻音频幻觉。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e: \u003ca href=\"https://arxiv.org/abs/2604.14129v1\"\u003ehttps://arxiv.org/abs/2604.14129v1\u003c/a\u003e\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e: 解决多模态模型跨模态幻觉的创新方法\u003c/li\u003e\n\u003c/ul\u003e\n\u003chr\u003e\n\u003ch2 id=\"-github-热门项目\"\u003e🐙 GitHub 热门项目\u003c/h2\u003e\n\u003ch3 id=\"1-autogpt\"\u003e1. AutoGPT\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003eStars\u003c/strong\u003e: 183,479 ⭐\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e: AutoGPT致力于为每个人提供可访问的AI，让每个人都能使用和构建AI工具。是最具影响力的开源自主Agent框架之一。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e: \u003ca href=\"https://github.com/Significant-Gravitas/AutoGPT\"\u003ehttps://github.com/Significant-Gravitas/AutoGPT\u003c/a\u003e\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e: 开源Agent领域的标杆项目，推动了AI Agent技术的普及\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"2-hugging-face-transformers\"\u003e2. Hugging Face Transformers\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003eStars\u003c/strong\u003e: 159,481 ⭐\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e: Transformers是文本、视觉、音频和多模态模型的state-of-the-art机器学习模型框架，支持推理和训练。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e: \u003ca href=\"https://github.com/huggingface/transformers\"\u003ehttps://github.com/huggingface/transformers\u003c/a\u003e\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e: ML领域最核心的基础库，几乎所有大模型项目的依赖基础\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"3-opencv\"\u003e3. OpenCV\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003eStars\u003c/strong\u003e: 约80,000+ ⭐\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e: 开源计算机视觉库，支持图像和视频处理、特征检测、相机校准等，是CV领域的事实标准。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e: \u003ca href=\"https://github.com/opencv/opencv\"\u003ehttps://github.com/opencv/opencv\u003c/a\u003e\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e: CV领域不可或缺的基础设施\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"4-llamacpp\"\u003e4. llama.cpp\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003eStars\u003c/strong\u003e: 约70,000+ ⭐\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e: 在C/C++中运行LLaMA等大语言模型的推理框架，支持多种量化方法，可在消费级硬件高效运行。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e: \u003ca href=\"https://github.com/ggerganov/llama.cpp\"\u003ehttps://github.com/ggerganov/llama.cpp\u003c/a\u003e\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e: 本地部署LLM的首选方案，推动大模型民主化\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"5-langchain\"\u003e5. LangChain\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003eStars\u003c/strong\u003e: 约100,000+ ⭐\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e: 开发由LLM驱动的应用程序的框架，提供模块化组件和Agent抽象，简化LLM应用开发。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e: \u003ca href=\"https://github.com/langchain-ai/langchain\"\u003ehttps://github.com/langchain-ai/langchain\u003c/a\u003e\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e: LLM应用开发的事实标准框架\u003c/li\u003e\n\u003c/ul\u003e\n\u003chr\u003e\n\u003ch2 id=\"-hackernews-热帖\"\u003e📱 HackerNews 热帖\u003c/h2\u003e\n\u003ch3 id=\"1-ask-hn-why-are-so-many-rolling-out-their-own-aillm-agent-sandboxing-solution\"\u003e1. Ask HN: Why are so many rolling out their own AI/LLM agent sandboxing solution?\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e热度\u003c/strong\u003e: 32 points | 18 comments\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e: 讨论为何许多人选择自己开发AI/LLM Agent沙箱解决方案，包括使用Docker/VM、firejail/bubblewrap等，以及\u0026quot;足够好\u0026quot;的标准应该是什么。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e: \u003ca href=\"https://news.ycombinator.com/item?id=46699324\"\u003ehttps://news.ycombinator.com/item?id=46699324\u003c/a\u003e\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e: 反映当前AI Agent开发中的安全隔离痛点\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"2-show-hn-mirror-ai--llm-agent-that-takes-action-not-just-chat\"\u003e2. Show HN: Mirror AI – LLM agent that takes action, not just chat\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e热度\u003c/strong\u003e: 5 points | 4 comments\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e: Mirror AI是一个跨平台桌面Action-Oriented LLM，可以运行终端命令、移动文件、发送邮件、查询数据库等，所有操作本地运行，需用户审批。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e: \u003ca href=\"https://themirrorai.com\"\u003ehttps://themirrorai.com\u003c/a\u003e\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e: 展示本地运行AI Agent的新范式\u003c/li\u003e\n\u003c/ul\u003e\n\u003ch3 id=\"3-practical-tips-to-optimize-documentation-for-llms-ai-agents-and-chatbots\"\u003e3. Practical tips to optimize documentation for LLMs, AI agents, and chatbots\u003c/h3\u003e\n\u003cul\u003e\n\u003cli\u003e\u003cstrong\u003e简介\u003c/strong\u003e: 优化文档以提升LLM和AI Agent理解能力的实用技巧指南。\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e链接\u003c/strong\u003e: \u003ca href=\"https://biel.ai/blog/optimizing-docs-for-ai-agents-complete-guide\"\u003ehttps://biel.ai/blog/optimizing-docs-for-ai-agents-complete-guide\u003c/a\u003e\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e推荐原因\u003c/strong\u003e: RAG和文档优化实践者的实用参考\u003c/li\u003e\n\u003c/ul\u003e\n\u003chr\u003e\n\u003ch2 id=\"-深读推荐\"\u003e🔗 深读推荐\u003c/h2\u003e\n\u003ctable\u003e\n\u003cthead\u003e\n\u003ctr\u003e\n\u003cth\u003e类型\u003c/th\u003e\n\u003cth\u003e标题\u003c/th\u003e\n\u003cth\u003e链接\u003c/th\u003e\n\u003c/tr\u003e\n\u003c/thead\u003e\n\u003ctbody\u003e\n\u003ctr\u003e\n\u003ctd\u003e论文\u003c/td\u003e\n\u003ctd\u003eLongCoT: 长程链式思考推理基准\u003c/td\u003e\n\u003ctd\u003e\u003ca href=\"https://arxiv.org/abs/2604.14140v1\"\u003ehttps://arxiv.org/abs/2604.14140v1\u003c/a\u003e\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e论文\u003c/td\u003e\n\u003ctd\u003eROSE: 面向分割的检索增强\u003c/td\u003e\n\u003ctd\u003e\u003ca href=\"https://arxiv.org/abs/2604.14147v1\"\u003ehttps://arxiv.org/abs/2604.14147v1\u003c/a\u003e\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e论文\u003c/td\u003e\n\u003ctd\u003eSeedance 2.0: 音视频生成\u003c/td\u003e\n\u003ctd\u003e\u003ca href=\"https://arxiv.org/abs/2604.14148v1\"\u003ehttps://arxiv.org/abs/2604.14148v1\u003c/a\u003e\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e论文\u003c/td\u003e\n\u003ctd\u003ePreRL: 预训练空间强化学习\u003c/td\u003e\n\u003ctd\u003e\u003ca href=\"https://arxiv.org/abs/2604.14142v1\"\u003ehttps://arxiv.org/abs/2604.14142v1\u003c/a\u003e\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e工具\u003c/td\u003e\n\u003ctd\u003eHugging Face Transformers\u003c/td\u003e\n\u003ctd\u003e\u003ca href=\"https://github.com/huggingface/transformers\"\u003ehttps://github.com/huggingface/transformers\u003c/a\u003e\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e工具\u003c/td\u003e\n\u003ctd\u003ellama.cpp 本地推理\u003c/td\u003e\n\u003ctd\u003e\u003ca href=\"https://github.com/ggerganov/llama.cpp\"\u003ehttps://github.com/ggerganov/llama.cpp\u003c/a\u003e\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e讨论\u003c/td\u003e\n\u003ctd\u003eAI Agent 沙箱解决方案\u003c/td\u003e\n\u003ctd\u003e\u003ca href=\"https://news.ycombinator.com/item?id=46699324\"\u003ehttps://news.ycombinator.com/item?id=46699324\u003c/a\u003e\u003c/td\u003e\n\u003c/tr\u003e\n\u003c/tbody\u003e\n\u003c/table\u003e\n\u003chr\u003e\n\u003cblockquote\u003e\n\u003cp\u003e📊 本次调用消耗：input_tokens: 64000，output_tokens: 4300，total_tokens: 68300\u003c/p\u003e\n\u003c/blockquote\u003e\n",
  "summary": "每日研究简报 2026-04-16 涵盖领域：AI / 大模型 / Agent / 计算机视觉 / 音视频处理算法 / 工程优化\n📚 ArXiv 最新论文 1. One Token per Highly Selective Frame: Towards Extreme Compression for Long Video Understanding 方向: 计算机视觉 (cs.CV) 摘要: 长视频理解对视觉语言模型(VLM)具有挑战性，因为帧数众多，每帧通常扩展为数十到数百个token。本文提出极端视频token压缩方法，实现每帧仅一个token。采用token级压缩(LP-Comp)和问题条件压缩(QC-Comp)，在LVBench上准确率从42.9%提升至46.2%。 链接: https://arxiv.org/abs/2604.14149v1 推荐原因: 突破长视频上下文长度限制的创新压缩方法，对视频理解领域有重要参考价值 2. Seedance 2.0: Advancing Video Generation for World Complexity 方向: 计算机视觉 (cs.CV) 摘要: Seedance 2.0是新一代原生多模态音视频生成模型，支持文本、图像、音频、视频四种输入模态，直接生成4-15秒、480p/720p分辨率的音视频内容，在专家评估和用户测试中表现出色。 链接: https://arxiv.org/abs/2604.14148v1 推荐原因: 字节跳动发布的重磅视频生成模型，代表当前音视频生成领域最高水平 3. ROSE: Retrieval-Oriented Segmentation Enhancement 方向: 计算机视觉 (cs.CV) - CVPR 2026 Findings 摘要: 针对多模态大语言模型(MLLM)无法识别新出现实体的难题，提出ROSE框架，包括互联网检索增强生成、文本提示增强器、视觉提示增强器和WebSense模块。在NEST基准上比Gemini-2."
}
