让 AI 解释电路,最难的不是猜,而是验证1×0:008:520:07开场:找到了电路,还没真正看懂1:12论文补的是解释阶段2:08AgenticInterpBench:把解释做成可评分任务3:21HyVE:观察、假设、验证4:23结果:会猜,不等于会验证6:05真实模型案例:Llama 三八 B 的加法电路7:16为什么这篇值得读0:07主持人欢迎收听「LLM Interpretability 前沿精读」。今天精读的是 arXiv 二六零六点二四零二六,题目是「Can Language Model Agents be Helpful Circuit Explainers in Mechanistic Interpretability?」。它问的是:电路已经被找出来以后,语言模型 agent 能不能解释每个组件到底在干什么?0:29研究员这个问题很实际。很多 mechanistic interpretability 方法能把范围缩小到一组 attention head 和 MLP,但下一步常常又回到人工:看激活、做 patching、写机制解释。论文想测试,agent 能不能接手这段最耗人的工作。0:48主持人先说结论:可以帮忙,但还不能放心托管。论文提出 benchmark AgenticInterpBench,又提出框架 HyVE,也就是 Hypothesize, Validate, Explain。实验显示,强模型通常能提出有观察支撑的假设,真正容易出问题的是后面的验证计划和代码执行。1:12研究员据这篇 arXiv 论文介绍,过去自动化 MI 多集中在 localization,也就是找出哪些子网络影响某个行为。ACDC、EAP、attribution patching 这类方法都在解决「看哪里」的问题。1:29主持人但「看哪里」不等于「看懂了」。一个组件被定位出来以后,我们还要知道它是在检测 token 属性、聚合前文信息,还是把某个值从一个位置搬到另一个位置。作者把任务限定得很清楚:给定 localized circuit,agent 只负责解释组件角色和电路整体任务。1:52研究员这个限定反而让问题更干净。它不把「找不到电路」和「解释不好电路」混在一起,而是专门评测 post-localization 的解释能力。对今天的 circuit analysis 来说,这正是很多工作卡住的地方。2:08主持人论文的第一个贡献是 AgenticInterpBench。它包含八十四个半合成 transformer circuits,一百六十三个组件级标注。数据来自 InterpBench 和 Tracr 这条线:用 RASP 程序生成可追踪 transformer,再用 SIIT 训练,让模型更接近自然训练模型,同时保留可恢复的 ground truth。2:33研究员每个组件都有功能标签和自然语言说明。标签一共五类:Indicator,检测当前 token 的某种属性;Aggregator,对一组位置做汇总;Router,把信息从一个位置搬到另一个位置;Mapper,对每个位置做变换;Combiner,把多个上游信号合起来。2:56主持人评分也分层。agent 要预测组件标签,写组件角色描述,还要从组件解释合成整个任务描述。描述质量和任务准确率由两个 LLM judge 打分,再取较低分;作者还用人工标注子集做校验。论文特意排除了经典 IOI 任务,避免模型只是背出训练语料里的名案例。3:21研究员第二个贡献是 HyVE。它一次处理一个组件,先 observe,收集 attention pattern、activation 等证据;再 hypothesize,提出组件功能假设;最后 validate,用 ablation、activation patching 或 interchange intervention 去支持或反驳假设。3:46主持人如果验证反驳了当前假设,HyVE 会把被反驳内容放回上下文,再开下一轮。每个组件最多三轮。等所有组件处理完,它再分类、写组件说明,并合成电路级解释。4:01研究员作者公开的 GitHub 仓库也对应这个流程。仓库说明里写,HyVE 包含 agent package、示例 circuits、bring-your-own 示例和 InterpBench case data;它可以跑 benchmark case,也可以接一个自定义 circuit spec。这说明它不是只停在论文图里的流程。4:23主持人论文用四个 backbone 跑 HyVE:GPT 五点四、Claude Sonnet 四点六、Gemini 三点一 Pro、Qwen 三 Coder 三十 B A 三 B Instruct。在 AgenticInterpBench 上,Claude 的组件标签准确率最高,达到百分之七十九;Gemini 的任务级准确率最高,达到百分之八十三;Claude 的代码执行成功率最高,是百分之九十三。4:52研究员但没有一个模型全胜。GPT 五点四的验证计划 soundness 最高,人工评分是一点七一,说明它比较会设计能检验假设的实验;问题是代码执行成功率只有百分之五十二。Claude 正好相反,代码跑得稳,但验证计划评分不如 GPT。Gemini 比较均衡,所以 judged explanation score 很好。5:18主持人这把「解释能力」拆开了。第一步,假设有没有被观察支撑;第二步,验证计划是不是能测试这个假设;第三步,代码能不能跑通;第四步,结果能不能被正确总结。论文在十个任务、十七个组件子集上发现,闭源模型的 observation-to-hypothesis grounding 平均分是一点九四,几乎不是一上来胡猜。5:44研究员失败更常发生在验证循环后半段:验证计划不完整、tensor shape 写错、TransformerLens API 用错、offset 处理错,或者工具协议里漏掉要求的 result 变量。换句话说,agent 最像研究助理的地方,也是最容易出错的地方。6:05主持人为了不只测半合成电路,论文还做了真实模型案例:Llama 三八 B 里 A 加 B 加 C 的 All-for-One 电路。这个 circuit 有十个组件,包括 operand-transfer attention heads、后层 MLP,以及一些 logit lens 看起来显眼但因果性较弱的组件。6:28研究员结果很有意思。Claude Sonnet 四点六解释对八个组件,另外两个部分正确;GPT 五点四解释对六个,三个部分正确,一个错误。它们大体能恢复 operand transfer 结构,也能区分一些 causally redundant 的组件。Gemini 在这个案例里只对一个,两个部分正确,七个错误。6:52主持人论文指出,主要失败模式是过度解读 answer-correlated evidence。也就是看到某些信号和答案相关,比如位置特征或 logit lens 信号,就把它当成因果机制。但 MI 最怕的正是这个:相关不是机制,能读出答案线索,也不等于那个组件真的在计算答案。7:16研究员我会把这篇论文放在「自动化 MI」这条线里看。它不是继续问能不能自动找 circuit,而是问找出来以后,能不能自动解释它,而且解释要经得起因果验证。这个问题比自动 feature 命名更接近 mechanistic interpretability 的核心。7:36主持人局限也明确。HyVE 被给定 localized circuit,所以它不是端到端自动科学家;AgenticInterpBench 的电路更小、更结构化,和真实大模型里的 messy circuit 还有距离。结果也依赖这套 prompt、agent 设计和 helper library。7:56研究员但它给了一个很有用的评测框架。一个漂亮解释如果没有好的 intervention 支撑,就只是故事;一个能跑通、能反驳的验证计划,才开始接近科学证据。下一步也许不是让 agent 更会写解释,而是给它更可靠、更受约束的实验接口。8:16主持人所以本期的 takeaway 是:这篇论文没有证明 AI 可以自动完成 mechanistic interpretability;它证明的是,自动解释电路这件事已经可以被认真评测了。假设、验证计划、执行错误和最终解释都能拆开打分。论文和代码仓库链接在节目说明里。我们下期继续精读 LLM interpretability 前沿。
Add more perspectives or context around this Post.