让 AI 解释电路，最难的不是猜，而是验证 (2026)

本期精读 arXiv:2606.24026「Can Language Model Agents be Helpful Circuit Explainers in Mechanistic Interpretability?」。这篇论文把自动化 mechanistic interpretability 的问题从「怎么找电路」推进到「找到之后怎么解释电路」，并提出 AgenticInterpBench 与 HyVE 来评测语言模型 agent 的解释能力。

本期导览

为什么 localization 之后的 circuit explanation 仍然高度依赖人工。
AgenticInterpBench 如何用 84 个半合成 transformer circuits 和 163 个组件标注，把解释任务做成可评分问题。
HyVE 的 observe → hypothesize → validate 循环为什么像一个受控的电路分析研究助理。
四个模型 backbone 的差异：会提出假设，不代表会设计好验证，也不代表代码能跑通。
Llama-3-8B 三数相加电路案例里，agent 为什么容易把答案相关信号误读成因果机制。

核心判断

这篇论文没有证明「AI 可以自动完成 mechanistic interpretability」，它更重要的贡献是：自动解释电路这件事开始可以被认真评测。一个解释不只要听起来合理，还要能拆成假设、验证计划、执行结果和最终说明；其中验证环节仍是最大瓶颈。

让 AI 解释电路，最难的不是猜，而是验证

本期导览

核心判断

主要来源

Related content