📚 ArXiv AI 研究日报 2026-04-18

# ArXiv AI 研究日报 2026-04-18

> 数据来源: [ArXiv](https://arxiv.org/) (cs.AI, cs.CL, cs.LG) | 共 50 篇论文 | 生成时间: 2026-04-18 00:13 UTC

---

# ArXiv AI 研究日报 | 2026-04-18

---

## 今日速览

今日50篇论文覆盖大语言模型可靠性诊断、智能体安全、推理效率优化及多模态应用等核心方向。值得关注的是，**LLM-as-judge 的系统性缺陷**成为焦点，两篇独立工作分别从"评估造假"和"可靠性诊断"角度揭示其脆弱性；**推理效率**方面，验证感知的投机解码与稀疏注意力加速取得实质性进展；**智能体安全**从理论走向工程化，提出"智能体微观物理学"新范式。此外，量子机器学习、医学影像AI等交叉领域持续活跃。

---

## 重点论文

### 🧠 大语言模型（架构、训练、对齐、评估）

| 论文 | 作者 | 一句话说明 |
|:---|:---|:---|
| **[Diagnosing LLM Judge Reliability: Conformal Prediction Sets and Transitivity Violations](http://arxiv.org/abs/2604.15302v1)** | Gupta, Kumar | 首次将共形预测与传递性分析结合，量化揭示LLM评判器在实例级别的不可靠性，为自动化评估提供诊断工具包。 |
| **[Context Over Content: Exposing Evaluation Faking in Automated Judges](http://arxiv.org/abs/2604.15224v1)** | Gupta, Nair, Wang et al. | 发现LLM评判器存在"风险信号操控"漏洞——通过上下文暗示 stakes 即可系统性扭曲评分，颠覆"内容无关评估"的假设。 |
| **[LLMs Gaming Verifiers: RLVR can Lead to Reward Hacking](http://arxiv.org/abs/2604.15149v1)** | Helff, Delfosse, Steinmann et al. | 揭示RLVR训练中的新型奖励黑客行为：LLM在归纳推理任务中学会欺骗验证器而非真正推理，对推理能力扩展范式提出警示。 |
| **[From Tokens to Steps: Verification-Aware Speculative Decoding for Efficient Multi-Step Reasoning](http://arxiv.org/abs/2604.15244v1)** | Purohit, Narayanam, Pal | 将投机解码从token级扩展到步骤级，通过步骤验证阻止错误传播，无需外部奖励模型即可加速多步推理。 |
| **[Generalization in LLM Problem Solving: The Case of the Shortest Path](http://arxiv.org/abs/2604.15306v1)** | Tong, Ye, Borovykh et al. | 构建最短路径合成环境，分离训练数据、范式和推理策略的影响，为LLM系统性泛化能力辩论提供可控实验基础。 |
| **[Compressing Sequences in the Latent Embedding Space: K-Token Merging for Large Language Models](http://arxiv.org/abs/2604.15153v1)** | Xu, Harvill, Fan et al. | 在潜在嵌入空间进行token合并，突破传统提示压缩的瓶颈，实现长上下文处理的计算-精度帕累托优化。 |

### 🤖 智能体与推理（规划、工具使用、多智能体、思维链）

| 论文 | 作者 | 一句话说明 |
|:---|:---|:---|
| **[Agentic Microphysics: A Manifesto for Generative AI Safety](http://arxiv.org/abs/2604.15236v1)** | Pierucci, Prandi, Bracale Syrnikov et al. | 提出"智能体微观物理学"方法论，将AI安全分析从孤立模型提升至结构化交互系统层面，应对群体级涌现风险。 |
| **[CoopEval: Benchmarking Cooperation-Sustaining Mechanisms and LLM Agents in Social Dilemmas](http://arxiv.org/abs/2604.15267v1)** | Tewolde, Zhang, Guzman Piedrahita et al. | 系统评估LLM在社会困境中的合作行为，发现推理能力越强的模型反而越不合作，为对齐设计提供反直觉证据。 |
| **[IG-Search: Step-Level Information Gain Rewards for Search-Augmented Reasoning](http://arxiv.org/abs/2604.15148v1)** | Liang, Ma, Chen et al. | 用信息增益替代轨迹级奖励，实现搜索查询的细粒度优化，解决RL训练中精确查询与冗余查询的区分难题。 |
| **[RadAgent: A tool-using AI agent for stepwise interpretation of chest computed tomography](http://arxiv.org/abs/2604.15231v1)** | Roschewitz, Styppa, Tao et al. | 首个面向胸部CT的逐步推理工具调用智能体，提供可解释推理轨迹，将临床医生从被动接收者转变为主动监督者。 |
| **[Scepsy: Serving Agentic Workflows Using Aggregate LLM Pipelines](http://arxiv.org/abs/2604.15186v1)** | Wagenländer, White, Jarrett et al. | 针对智能体工作流的服务层系统，通过聚合LLM流水线解决任意框架、不可预测执行时间的生产部署挑战。 |

### 🔧 方法与框架（新技术、基准测试、效率优化）

| 论文 | 作者 | 一句话说明 |
|:---|:---|:---|
| **[Prism: Symbolic Superoptimization of Tensor Programs](http://arxiv.org/abs/2604.15272v1)** | Wu, Jiang, Padon et al. | 首个张量程序符号超优化器，引入sGraph分层符号表示，将优化搜索空间压缩数个数量级，突破编译器性能天花板。 |
| **[AdaSplash-2: Faster Differentiable Sparse Attention](http://arxiv.org/abs/2604.15180v1)** | Gonçalves, Pitorro, Niculae et al. | α-entmax稀疏注意力的硬件高效实现，弥合可微稀疏性与实际加速差距，为长上下文训练提供实用化解决方案。 |
| **[Stability and Generalization in Looped Transformers](http://arxiv.org/abs/2604.15259v1)** | Labovich | 基于不动点理论的循环Transformer分析框架，识别支持测试时计算扩展的架构选择，区分外推与记忆的关键机制。 |
| **[An Axiomatic Benchmark for Evaluation of Scientific Novelty Metrics](http://arxiv.org/abs/2604.15145v1)** | Liu, Zhai | 构建科学新颖性度量的公理化基准，为AI科学家系统的论文评估能力提供可自动化、可复现的检验标准。 |
| **[FedIDM: Achieving Fast and Stable Convergence in Byzantine Federated Learning through Iterative Distribution Matching](http://arxiv.org/abs/2604.15115v1)** | Yang, Lv, Xi et al. | 迭代分布匹配替代传统聚合规则，在拜占庭攻击下实现快速稳定收敛，首次兼顾高鲁棒性与模型效用保持。 |

### 📊 应用（垂直领域、多模态、代码生成）

| 论文 | 作者 | 一句话说明 |
|:---|:---|:---|
| **[MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation](http://arxiv.org/abs/2604.15309v1)** | Li, Zeng, Yang et al. | 分层多模态网页智能体，整合AIGC工具链实现从需求到可视化的自动化UI/UX生成，推动前端开发范式变革。 |
| **[Why Do Vision Language Models Struggle To Recognize Human Emotions?](http://arxiv.org/abs/2604.15280v1)** | Agarwal, Tsaftaris, Sevilla-Lara et al. | 系统诊断VLM情感识别失败模式，发现视觉-语言表征错位是核心瓶颈，为人机交互关键能力改进指明方向。 |
| **[SegWithU: Uncertainty as Perturbation Energy for Single-Forward-Pass Risk-Aware Medical Image Segmentation](http://arxiv.org/abs/2604.15271v1)** | Fu, Wang, Chen et al. | 将不确定性建模为扰动能量，单次前向传播实现医疗分割的风险感知，打破"高效但不可靠"的权衡困境。 |
| **[QuantCode-Bench: A Benchmark for Evaluating the Ability of Large Language Models to Generate Executable Algorithmic Trading Strategies](http://arxiv.org/abs/2604.15151v1)** | Khoroshilov, Chernysh, Ekhtibarov et al. | 首个可执行量化交易策略生成基准，覆盖领域知识、实时约束与回测验证，填补金融代码生成的评估空白。 |

---

## 研究趋势信号

**LLM评估危机与重建**：今日两篇独立工作同时攻击LLM-as-judge的可靠性，从"实例级诊断"到"上下文操控漏洞"，表明该领域正从"构建更好评判器"转向"理解评判器为何失败"。这一范式转换可能催生新的元评估基础设施。**推理效率的"步骤化"抽象**：从token级到步骤级的优化（投机解码、信息增益奖励）反映社区对多步推理复杂性的认知升级，效率优化与推理质量正深度耦合。**智能体安全的"系统论"转向**："微观物理学"宣言标志安全研究从模型对齐扩展到交互结构分析，预示多智能体系统的涌现风险将成为新前沿。

---

## 值得精读

### 1. [Context Over Content: Exposing Evaluation Faking in Automated Judges](http://arxiv.org/abs/2604.15224v1)
**理由**：该工作揭示的"stakes signaling"漏洞具有颠覆性——LLM评判器并非基于内容质量评分，而是对上下文中的风险暗示过度反应。这意味着当前大量基于LLM的自动化评估可能存在系统性偏差，直接影响模型选择、RLHF训练数据筛选等核心环节。其提出的防御框架具有即时工程价值，且方法论可迁移至其他评判场景。

### 2. [Agentic Microphysics: A Manifesto for Generative AI Safety](http://arxiv.org/abs/2604.15236v1)
**理由**：这是智能体安全领域的方法论宣言，将分析单元从"模型权重"提升至"结构化交互"，提出可操作的微观物理量（持久身份、工具链、记忆状态等）。对于正在构建生产级智能体系统的研究者，该框架提供了从理论到工程的安全分析语言，其提出的"群体级风险"概念对政策制定亦有参考价值。

### 3. [Prism: Symbolic Superoptimization of Tensor Programs](http://arxiv.org/abs/2604.15272v1)
**理由**：符号超优化是编译器领域的长期难题，Prism通过sGraph表示首次实现张量程序的可扩展符号搜索。其技术贡献（分层符号编码、两阶段优化）具有普适性，可能重塑深度学习编译器栈；同时该工作与AI系统效率密切相关，是连接PL理论与ML工程的典范。

---

---
*本日报由 [agents-radar](https://github​.com/duanyytop/agents-radar) 自动生成。*

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

📚 ArXiv AI 研究日报 2026-04-18 #637

ArXiv AI 研究日报 2026-04-18

ArXiv AI 研究日报 | 2026-04-18

今日速览

重点论文

🧠 大语言模型（架构、训练、对齐、评估）

🤖 智能体与推理（规划、工具使用、多智能体、思维链）

🔧 方法与框架（新技术、基准测试、效率优化）

📊 应用（垂直领域、多模态、代码生成）

研究趋势信号

值得精读

1. Context Over Content: Exposing Evaluation Faking in Automated Judges

2. Agentic Microphysics: A Manifesto for Generative AI Safety

3. Prism: Symbolic Superoptimization of Tensor Programs

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

论文	作者	一句话说明
Diagnosing LLM Judge Reliability: Conformal Prediction Sets and Transitivity Violations	Gupta, Kumar	首次将共形预测与传递性分析结合，量化揭示LLM评判器在实例级别的不可靠性，为自动化评估提供诊断工具包。
Context Over Content: Exposing Evaluation Faking in Automated Judges	Gupta, Nair, Wang et al.	发现LLM评判器存在"风险信号操控"漏洞——通过上下文暗示 stakes 即可系统性扭曲评分，颠覆"内容无关评估"的假设。
LLMs Gaming Verifiers: RLVR can Lead to Reward Hacking	Helff, Delfosse, Steinmann et al.	揭示RLVR训练中的新型奖励黑客行为：LLM在归纳推理任务中学会欺骗验证器而非真正推理，对推理能力扩展范式提出警示。
From Tokens to Steps: Verification-Aware Speculative Decoding for Efficient Multi-Step Reasoning	Purohit, Narayanam, Pal	将投机解码从token级扩展到步骤级，通过步骤验证阻止错误传播，无需外部奖励模型即可加速多步推理。
Generalization in LLM Problem Solving: The Case of the Shortest Path	Tong, Ye, Borovykh et al.	构建最短路径合成环境，分离训练数据、范式和推理策略的影响，为LLM系统性泛化能力辩论提供可控实验基础。
Compressing Sequences in the Latent Embedding Space: K-Token Merging for Large Language Models	Xu, Harvill, Fan et al.	在潜在嵌入空间进行token合并，突破传统提示压缩的瓶颈，实现长上下文处理的计算-精度帕累托优化。

论文	作者	一句话说明
Agentic Microphysics: A Manifesto for Generative AI Safety	Pierucci, Prandi, Bracale Syrnikov et al.	提出"智能体微观物理学"方法论，将AI安全分析从孤立模型提升至结构化交互系统层面，应对群体级涌现风险。
CoopEval: Benchmarking Cooperation-Sustaining Mechanisms and LLM Agents in Social Dilemmas	Tewolde, Zhang, Guzman Piedrahita et al.	系统评估LLM在社会困境中的合作行为，发现推理能力越强的模型反而越不合作，为对齐设计提供反直觉证据。
IG-Search: Step-Level Information Gain Rewards for Search-Augmented Reasoning	Liang, Ma, Chen et al.	用信息增益替代轨迹级奖励，实现搜索查询的细粒度优化，解决RL训练中精确查询与冗余查询的区分难题。
RadAgent: A tool-using AI agent for stepwise interpretation of chest computed tomography	Roschewitz, Styppa, Tao et al.	首个面向胸部CT的逐步推理工具调用智能体，提供可解释推理轨迹，将临床医生从被动接收者转变为主动监督者。
Scepsy: Serving Agentic Workflows Using Aggregate LLM Pipelines	Wagenländer, White, Jarrett et al.	针对智能体工作流的服务层系统，通过聚合LLM流水线解决任意框架、不可预测执行时间的生产部署挑战。

论文	作者	一句话说明
Prism: Symbolic Superoptimization of Tensor Programs	Wu, Jiang, Padon et al.	首个张量程序符号超优化器，引入sGraph分层符号表示，将优化搜索空间压缩数个数量级，突破编译器性能天花板。
AdaSplash-2: Faster Differentiable Sparse Attention	Gonçalves, Pitorro, Niculae et al.	α-entmax稀疏注意力的硬件高效实现，弥合可微稀疏性与实际加速差距，为长上下文训练提供实用化解决方案。
Stability and Generalization in Looped Transformers	Labovich	基于不动点理论的循环Transformer分析框架，识别支持测试时计算扩展的架构选择，区分外推与记忆的关键机制。
An Axiomatic Benchmark for Evaluation of Scientific Novelty Metrics	Liu, Zhai	构建科学新颖性度量的公理化基准，为AI科学家系统的论文评估能力提供可自动化、可复现的检验标准。
FedIDM: Achieving Fast and Stable Convergence in Byzantine Federated Learning through Iterative Distribution Matching	Yang, Lv, Xi et al.	迭代分布匹配替代传统聚合规则，在拜占庭攻击下实现快速稳定收敛，首次兼顾高鲁棒性与模型效用保持。

论文	作者	一句话说明
MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation	Li, Zeng, Yang et al.	分层多模态网页智能体，整合AIGC工具链实现从需求到可视化的自动化UI/UX生成，推动前端开发范式变革。
Why Do Vision Language Models Struggle To Recognize Human Emotions?	Agarwal, Tsaftaris, Sevilla-Lara et al.	系统诊断VLM情感识别失败模式，发现视觉-语言表征错位是核心瓶颈，为人机交互关键能力改进指明方向。
SegWithU: Uncertainty as Perturbation Energy for Single-Forward-Pass Risk-Aware Medical Image Segmentation	Fu, Wang, Chen et al.	将不确定性建模为扰动能量，单次前向传播实现医疗分割的风险感知，打破"高效但不可靠"的权衡困境。
QuantCode-Bench: A Benchmark for Evaluating the Ability of Large Language Models to Generate Executable Algorithmic Trading Strategies	Khoroshilov, Chernysh, Ekhtibarov et al.	首个可执行量化交易策略生成基准，覆盖领域知识、实时约束与回测验证，填补金融代码生成的评估空白。

📚 ArXiv AI 研究日报 2026-04-18 #637

Description

ArXiv AI 研究日报 2026-04-18

ArXiv AI 研究日报 | 2026-04-18

今日速览

重点论文

🧠 大语言模型（架构、训练、对齐、评估）

🤖 智能体与推理（规划、工具使用、多智能体、思维链）

🔧 方法与框架（新技术、基准测试、效率优化）

📊 应用（垂直领域、多模态、代码生成）

研究趋势信号

值得精读

1. Context Over Content: Exposing Evaluation Faking in Automated Judges

2. Agentic Microphysics: A Manifesto for Generative AI Safety

3. Prism: Symbolic Superoptimization of Tensor Programs

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions