📰 每日研究简报 2026-04-04
数据来源:arXiv RSS(cs.CV / cs.LG / eess.AS)、GitHub 热门项目、HackerNews 热帖
📄 arXiv 最新论文(计算机视觉 / 大模型 / AI / 音视频)
1. DOne: 设计到代码生成的高保真解耦框架
- 方向:计算机视觉 · VLM · UI生成
- 摘要:提出 DOne 框架,将结构理解与元素渲染解耦,解决 VLMs 在 Design-to-Code 生成中的"整体瓶颈"问题。引入学习到的布局分割模块、专用混合元素检索器和模式引导生成范式。在 HiFi2Code 基准上,GPT Score 提升超 10%。
- 链接:https://arxiv.org/abs/2604.01226
2. Test-Time Scaling Makes Overtraining Compute-Optimal
- 方向:大语言模型 · 缩放定律 · 推理优化
- 摘要:提出 Train-to-Test (T²) 缩放定律,联合优化模型大小、训练 tokens 和推理采样数量。在固定端到端预算下,发现最优预训练决策会大幅转向"过度训练" regime。在 8 个下游任务上验证,证实过度训练模型性能显著更强。
- 链接:https://arxiv.org/abs/2604.01411
3. UniRecGen: 统一多视角 3D 重建与生成
- 方向:计算机视觉 · 3D重建 · 扩散模型
- 摘要:UniRecGen 将前馈重建与扩散生成统一到单一协作系统。通过在共享规范空间中对齐两个模型,采用解耦协作学习,在稀疏视图下实现高保真 3D 建模。
- 链接:https://arxiv.org/abs/2604.01479
4. T5Gemma-TTS: 编码器-解码器 Codec 语言模型
- 方向:音视频处理 · TTS · 语音克隆
- 摘要:T5Gemma-TTS 是编码器-解码器架构的 Codec 语言模型,通过跨注意力在每层解码器保持持久文本条件。训练 17 万小时多语言语音,在日语上speaker similarity 显著超越 XTTSv2。支持中英日三国语言。
- 链接:https://arxiv.org/abs/2604.01760
5. DySCo: 动态语义压缩用于长期时间序列预测
- 方向:大语言模型 · 时间序列 · 预测
- 摘要:DySCo 提出动态语义压缩框架,包含熵引导动态采样和分层频率增强分解。在保持计算成本降低的同时,显著提升主流模型捕捉长期相关性的能力。
- 链接:https://arxiv.org/abs/2604.01261
🐙 GitHub 热门项目
1. AutoGPT
- ⭐ Stars:183,116
- 简介:AutoGPT 的愿景是让每个人都能使用和构建可访问的 AI。其使命是提供工具,让人们专注于重要的事情。
- 链接:https://github.com/Significant-Gravitas/AutoGPT
2. Transformers (Hugging Face)
- ⭐ Stars:158,753
- 简介:🤗 Transformers 是用于文本、视觉、音频和多模态模型的最先进机器学习模型的框架,支持推理和训练。
- 链接:https://github.com/huggingface/transformers
3. OpenCV
- ⭐ Stars:86,904
- 简介:开源计算机视觉库
- 链接:https://github.com/opencv/opencv
4. Text Generation WebUI
- ⭐ Stars:46,389
- 简介:原始本地 LLM 界面。支持文本、视觉、工具调用、训练等。100% 离线运行。
- 链接:https://github.com/oobabooga/text-generation-webui
5. LocalAI
- ⭐ Stars:44,833
- 简介:开源 AI 引擎。在任何硬件上运行任何模型——LLM、视觉、语音、图像、视频。无需 GPU。
- 链接:https://github.com/mudler/LocalAI
📱 HackerNews 热帖
1. Ask HN: 为什么很多人都在自建 AI/LLM Agent 沙箱方案?
- 热度:32 points · 18 comments
- 简介:作者观察到很多人用 Docker/VM、firejail/bubblewrap 或脚本来隔离 AI 编程代理(Claude Code 等)的文件或网络访问权限。好奇是什么需求让大家自己动手,理想的"够用"标准是什么?
- 链接:https://news.ycombinator.com/item?id=46699324
2. Show HN: Mirror AI - 能执行操作的 LLM Agent
- 热度:5 points · 4 comments
- 简介:Mirror AI 是一个跨平台桌面应用,区别于传统聊天机器人仅回复文本,它可以执行终端命令、操作文件、调用 API、发送邮件/消息、创建日历事件、查询数据库等操作。通过 MCP 协议可扩展。
- 链接:https://themirrorai.com
3. Practical tips to optimize documentation for LLMs, AI agents, and chatbots
- 热度:4 points
- 简介:优化文档以适配 LLM 和 AI Agent 的实用技巧指南。
- 链接:https://biel.ai/blog/optimizing-docs-for-ai-agents-complete-guide
4. Bending Emacs Episode 10: AI / LLM agent-shell [video]
- 热度:2 points
- 简介:Emacs 集成 AI/LLM Agent Shell 的第 10 期视频。
- 链接:https://www.youtube.com/watch?v=R2Ucr3amgGg
5. Awesome-Agent-Learning – 构建 AI/LLM Agent 的精选资源
- 热度:2 points
- 简介:精选的 AI/LLM Agent 学习资源合集。
- 链接:https://github.com/artnitolog/awesome-agent-learning
📚 深读推荐
| 类别 | 标题 | 链接 |
|---|---|---|
| 论文 | DOne: 设计到代码生成框架 | https://arxiv.org/abs/2604.01226 |
| 论文 | T² Scaling Laws: 测试时缩放 | https://arxiv.org/abs/2604.01411 |
| 论文 | UniRecGen: 3D重建与生成统一 | https://arxiv.org/abs/2604.01479 |
| 论文 | T5Gemma-TTS: 多语言语音克隆 | https://arxiv.org/abs/2604.01760 |
| 项目 | AutoGPT - 自主 AI Agent | https://github.com/Significant-Gravitas/AutoGPT |
| 项目 | Transformers - Hugging Face ML框架 | https://github.com/huggingface/transformers |
| HN | AI Agent 沙箱方案讨论 | https://news.ycombinator.com/item?id=46699324 |
📊 本次调用消耗:input_tokens: 52,output_tokens: 81,total_tokens: 133