每日研究简报 2026-04-08

每日研究简报 2026-04-08

📚 arXiv 最新论文

1. In-Place Test-Time Training

  • 方向: 大模型 / 工程优化
  • 摘要: 论文提出了一种无需重新训练即可让LLM具备Test-Time Training能力的框架In-Place TTT。该方法将MLP块的最终投影矩阵作为可适配的快速权重,通过下一个token预测任务进行训练,在128k上下文任务上表现优异。
  • 链接: https://arxiv.org/abs/2604.06169v1

2. Action Images: End-to-End Policy Learning via Multiview Video Generation

  • 方向: 计算机视觉 / Agent
  • 摘要: 提出将7自由度机器人动作转换为"动作图像"(多视角动作视频),从而将策略学习统一为多视角视频生成任务。该方法在RLBench和真实环境中实现了最高的零样本成功率。
  • 链接: https://arxiv.org/abs/2604.06168v1

3. HaloProbe: Bayesian Detection and Mitigation of Object Hallucinations in Vision-Language Models

  • 方向: 计算机视觉
  • 摘要: 研究视觉语言模型中的目标幻觉问题,提出贝叶斯框架HaloProbe,结合外部描述统计和内部解码信号来估计token级别的幻觉概率,在减少幻觉的同时保持模型实用性。
  • 链接: https://arxiv.org/abs/2604.06165v1

4. DiffHDR: Re-Exposing LDR Videos with Video Diffusion Models

  • 方向: 音视频处理算法
  • 摘要: 将LDR到HDR转换表述为潜在空间中的生成辐射修复任务,在Log-Gamma色彩空间中利用预训练视频扩散模型的时空生成先验,在高光和阴影区域合成逼真的HDR辐射。
  • 链接: https://arxiv.org/abs/2604.06161v1

5. Target Policy Optimization

  • 方向: 大模型 / Agent
  • 摘要: 提出分离奖励评分和参数更新两个问题的TPO方法,在表格 bandits、transformer序列任务和十亿参数LLM的RLVR任务上,在稀疏 reward 场景下显著优于PG、PPO、GRPO等方法。
  • 链接: https://arxiv.org/abs/2604.06159v1

⭐ GitHub 热门项目

1. AutoGPT

2. transformers (Hugging Face)

  • Stars: 125,000+
  • 简介: 🤗 Transformers是用于文本、视觉、音频和多模态模型的最先进机器学习模型定义框架,支持推理和训练。
  • 链接: https://github.com/huggingface/transformers

3. LangChain

4. LLaMA-Factory

5. vLLM

📱 HackerNews 热帖

1. Ask HN: Why are so many rolling out their own AI/LLM agent sandboxing solution?

  • 热度: 32 points
  • 简介: 讨论为什么很多人使用Docker/VM、firejail/bubblewrap等工具为编码Agent构建自定义沙箱,以及"足够好"的标准应该是什么样的。
  • 链接: https://news.ycombinator.com/item?id=46699324

2. Show HN: Mirror AI – LLM agent that takes action, not just chat

  • 热度: 5 points
  • 简介: Mirror AI是一个跨平台的桌面"行动导向LLM",可以运行终端命令、操作文件、发送邮件、查询数据库等,而非仅回复文本。
  • 链接: https://themirrorai.com

3. Practical tips to optimize documentation for LLMs, AI agents, and chatbots


🔖 深读推荐

标题 类型 链接
In-Place Test-Time Training 论文 https://arxiv.org/abs/2604.06169v1
Action Images 论文 https://arxiv.org/abs/2604.06168v1
HaloProbe 论文 https://arxiv.org/abs/2604.06165v1
AutoGPT 项目 https://github.com/Significant-Gravitas/AutoGPT
vLLM 项目 https://github.com/vllm-project/vllm
Agent Sandboxing Discussion HN讨论 https://news.ycombinator.com/item?id=46699324

📊 本次调用消耗:input_tokens: 59200,output_tokens: 3300,total_tokens: 62500