LLM Interpretability 前沿精读

Public

聚焦 LLM interpretability 前沿，每期深入解读一篇高质量论文或研究成果，覆盖 arXiv 新论文、顶会发表与头部实验室博客，帮你跟上 mechanistic interpretability、circuit analysis 等方向的最新进展

LLM Interpretability 前沿精读07/02/2026, 12:30:39 AM

让 AI 解释电路，最难的不是猜，而是验证

本期精读 arXiv:2606.24026，拆解 HyVE 与 AgenticInterpBench 如何评测语言模型 agent 的电路解释能力，并说明为什么「会提出假设」还不等于「会完成因果验证」。

0:00 / 8:52

LLM Interpretability 前沿精读07/01/2026, 12:34:59 AM

几百万个 SAE 特征，真的能拿来用吗？

本期精读 arXiv:2606.26620，讨论 Qwen3-Instruct SAE 如何把稀疏自编码器推进到 Qwen3 指令模型族的大规模特征基础设施。

0:00 / 8:03

LLM Interpretability 前沿精读06/30/2026, 12:29:34 AM

给 SAE 特征起名，能不能不靠事后猜？

本期精读 VASAE：它把 SAE feature 的命名从事后解释推进到训练时词表锚定，讨论 GPT-2 与 Llama 实验结果，以及为什么 token 名字只是几何锚点、还不是机制证据。

0:00 / 8:17

LLM Interpretability 前沿精读06/29/2026, 12:34:40 AM

模型遇到错别字，为什么会突然想太多？

本期精读 arXiv:2606.26396，讨论一篇把 OOD 从输入分布推进到模型内部表示流形的工作：作者用 SAE 发现，错别字、越狱提示和 ASR 噪声会让模型激活更多离题概念，并尝试用 SAE 引导的 LoRA 把这些内部激活拉回更稳的区域。

0:00 / 12:21

LLM Interpretability 前沿精读06/27/2026, 12:35:30 AM

同一个事实，模型为什么会答成几套版本？

本期精读 arXiv:2606.27237，讨论语言模型里的事实知识为什么可能不是一份共享数据库，而是按任务格式分布在不同参数路径里。节目会讲行为共现、参数定位和 Chain of Thought 三条证据，以及它对 factuality 评测和知识编辑的影响。

0:00 / 12:22

LLM Interpretability 前沿精读06/26/2026, 12:34:47 AM

会识别幻觉，为什么还管不住幻觉？

本期精读 arXiv:2606.24952，讨论检测方向和控制方向为什么会在幻觉问题上几乎正交。

0:00 / 11:46

LLM Interpretability 前沿精读06/25/2026, 12:34:16 AM

SAE 把概念拆碎，是不是因为概念本来就不是一根向量？

本期精读 arXiv:2606.06333：SASA 把 SAE 的 feature splitting 解释为向量假设与多维概念结构之间的错配，并用子空间组减少碎片化与 absorption。

0:00 / 14:54

LLM Interpretability 前沿精读06/24/2026, 12:38:11 AM

SAE 的解释，什么时候才算可信？

本期精读 arXiv:2606.18383，讨论一篇给 SAE 解释加上「可证书」的新论文：它把问题从 feature 是否可读，推进到 sparse proxy 是否能保真原模型行为。

0:00 / 12:12

LLM Interpretability 前沿精读06/22/2026, 12:30:16 AM

DiffusionGemma 还会把思考写在明面上吗？

本期精读 arXiv:2606.20560。论文把 DiffusionGemma 的透明度拆成变量透明度、算法透明度和 monitorability：中间向量可被少量 token 近似，整体监控性接近 Gemma 4，但非自回归去噪暴露出回改答案、token smearing 和 intermediate-context reasoning 等新现象。

0:00 / 10:19

LLM Interpretability 前沿精读06/21/2026, 12:34:29 AM

SAE 控住了特征，为什么行为还能回来？

本期精读 arXiv:2606.18322。论文提出 post-intervention recovery，用受约束的 residual-space 优化测试 SAE feature clamp 是否真能形成行为瓶颈。结论很尖锐：SAE feature 可以是有用的因果把手，但不能直接等同于完整的行为控制。

0:00 / 10:51

LLM Interpretability 前沿精读06/20/2026, 12:28:34 AM

SAE 为什么会把字典名额浪费在「大号 token」上？

arXiv:2606.15054 指出，标准 SAE 的内积打分会把 token 范数混进 feature 激活；在 BatchTopK 下，高范数 token 抢走稀疏名额，让大量字典槽位变成 norm detector。cosine-scored SAE 在重建质量相当时，把 Qwen3-8B 上的 single-feature probing top-one 从 0.667 提升到 0.815。

0:00 / 9:45

LLM Interpretability 前沿精读06/19/2026, 12:37:09 AM

音频模型为什么宁愿相信错字幕，也不相信耳朵？

KAIST 的 arXiv:2606.18924 用电路分析研究 Audio LLM 在文本和音频冲突时的文本偏置：Qwen2-Audio 和 Ultravox 会系统性相信文字提示；消融文本电路后，音频正确率大幅回升；back-patching 把晚层音频表征回灌到早层，能把平均音频准确率从约三成五推到四成六附近。

0:00 / 9:24