LLM Interpretability 前沿精读07/02/2026, 12:30:39 AM让 AI 解释电路,最难的不是猜,而是验证本期精读 arXiv:2606.24026,拆解 HyVE 与 AgenticInterpBench 如何评测语言模型 agent 的电路解释能力,并说明为什么「会提出假设」还不等于「会完成因果验证」。1×0:00 / 8:52
让 AI 解释电路,最难的不是猜,而是验证本期精读 arXiv:2606.24026,拆解 HyVE 与 AgenticInterpBench 如何评测语言模型 agent 的电路解释能力,并说明为什么「会提出假设」还不等于「会完成因果验证」。1×0:00 / 8:52
LLM Interpretability 前沿精读07/01/2026, 12:34:59 AM几百万个 SAE 特征,真的能拿来用吗?本期精读 arXiv:2606.26620,讨论 Qwen3-Instruct SAE 如何把稀疏自编码器推进到 Qwen3 指令模型族的大规模特征基础设施。1×0:00 / 8:03
几百万个 SAE 特征,真的能拿来用吗?本期精读 arXiv:2606.26620,讨论 Qwen3-Instruct SAE 如何把稀疏自编码器推进到 Qwen3 指令模型族的大规模特征基础设施。1×0:00 / 8:03
LLM Interpretability 前沿精读06/30/2026, 12:29:34 AM给 SAE 特征起名,能不能不靠事后猜?本期精读 VASAE:它把 SAE feature 的命名从事后解释推进到训练时词表锚定,讨论 GPT-2 与 Llama 实验结果,以及为什么 token 名字只是几何锚点、还不是机制证据。1×0:00 / 8:17
给 SAE 特征起名,能不能不靠事后猜?本期精读 VASAE:它把 SAE feature 的命名从事后解释推进到训练时词表锚定,讨论 GPT-2 与 Llama 实验结果,以及为什么 token 名字只是几何锚点、还不是机制证据。1×0:00 / 8:17
LLM Interpretability 前沿精读06/29/2026, 12:34:40 AM模型遇到错别字,为什么会突然想太多?本期精读 arXiv:2606.26396,讨论一篇把 OOD 从输入分布推进到模型内部表示流形的工作:作者用 SAE 发现,错别字、越狱提示和 ASR 噪声会让模型激活更多离题概念,并尝试用 SAE 引导的 LoRA 把这些内部激活拉回更稳的区域。1×0:00 / 12:21
模型遇到错别字,为什么会突然想太多?本期精读 arXiv:2606.26396,讨论一篇把 OOD 从输入分布推进到模型内部表示流形的工作:作者用 SAE 发现,错别字、越狱提示和 ASR 噪声会让模型激活更多离题概念,并尝试用 SAE 引导的 LoRA 把这些内部激活拉回更稳的区域。1×0:00 / 12:21
LLM Interpretability 前沿精读06/27/2026, 12:35:30 AM同一个事实,模型为什么会答成几套版本?本期精读 arXiv:2606.27237,讨论语言模型里的事实知识为什么可能不是一份共享数据库,而是按任务格式分布在不同参数路径里。节目会讲行为共现、参数定位和 Chain of Thought 三条证据,以及它对 factuality 评测和知识编辑的影响。1×0:00 / 12:22
同一个事实,模型为什么会答成几套版本?本期精读 arXiv:2606.27237,讨论语言模型里的事实知识为什么可能不是一份共享数据库,而是按任务格式分布在不同参数路径里。节目会讲行为共现、参数定位和 Chain of Thought 三条证据,以及它对 factuality 评测和知识编辑的影响。1×0:00 / 12:22
LLM Interpretability 前沿精读06/26/2026, 12:34:47 AM会识别幻觉,为什么还管不住幻觉?本期精读 arXiv:2606.24952,讨论检测方向和控制方向为什么会在幻觉问题上几乎正交。1×0:00 / 11:46
LLM Interpretability 前沿精读06/25/2026, 12:34:16 AMSAE 把概念拆碎,是不是因为概念本来就不是一根向量?本期精读 arXiv:2606.06333:SASA 把 SAE 的 feature splitting 解释为向量假设与多维概念结构之间的错配,并用子空间组减少碎片化与 absorption。1×0:00 / 14:54
SAE 把概念拆碎,是不是因为概念本来就不是一根向量?本期精读 arXiv:2606.06333:SASA 把 SAE 的 feature splitting 解释为向量假设与多维概念结构之间的错配,并用子空间组减少碎片化与 absorption。1×0:00 / 14:54
LLM Interpretability 前沿精读06/24/2026, 12:38:11 AMSAE 的解释,什么时候才算可信?本期精读 arXiv:2606.18383,讨论一篇给 SAE 解释加上「可证书」的新论文:它把问题从 feature 是否可读,推进到 sparse proxy 是否能保真原模型行为。1×0:00 / 12:12
SAE 的解释,什么时候才算可信?本期精读 arXiv:2606.18383,讨论一篇给 SAE 解释加上「可证书」的新论文:它把问题从 feature 是否可读,推进到 sparse proxy 是否能保真原模型行为。1×0:00 / 12:12
LLM Interpretability 前沿精读06/22/2026, 12:30:16 AMDiffusionGemma 还会把思考写在明面上吗?本期精读 arXiv:2606.20560。论文把 DiffusionGemma 的透明度拆成变量透明度、算法透明度和 monitorability:中间向量可被少量 token 近似,整体监控性接近 Gemma 4,但非自回归去噪暴露出回改答案、token smearing 和 intermediate-context reasoning 等新现象。1×0:00 / 10:19
DiffusionGemma 还会把思考写在明面上吗?本期精读 arXiv:2606.20560。论文把 DiffusionGemma 的透明度拆成变量透明度、算法透明度和 monitorability:中间向量可被少量 token 近似,整体监控性接近 Gemma 4,但非自回归去噪暴露出回改答案、token smearing 和 intermediate-context reasoning 等新现象。1×0:00 / 10:19
LLM Interpretability 前沿精读06/21/2026, 12:34:29 AMSAE 控住了特征,为什么行为还能回来?本期精读 arXiv:2606.18322。论文提出 post-intervention recovery,用受约束的 residual-space 优化测试 SAE feature clamp 是否真能形成行为瓶颈。结论很尖锐:SAE feature 可以是有用的因果把手,但不能直接等同于完整的行为控制。1×0:00 / 10:51
SAE 控住了特征,为什么行为还能回来?本期精读 arXiv:2606.18322。论文提出 post-intervention recovery,用受约束的 residual-space 优化测试 SAE feature clamp 是否真能形成行为瓶颈。结论很尖锐:SAE feature 可以是有用的因果把手,但不能直接等同于完整的行为控制。1×0:00 / 10:51
LLM Interpretability 前沿精读06/20/2026, 12:28:34 AMSAE 为什么会把字典名额浪费在「大号 token」上?arXiv:2606.15054 指出,标准 SAE 的内积打分会把 token 范数混进 feature 激活;在 BatchTopK 下,高范数 token 抢走稀疏名额,让大量字典槽位变成 norm detector。cosine-scored SAE 在重建质量相当时,把 Qwen3-8B 上的 single-feature probing top-one 从 0.667 提升到 0.815。1×0:00 / 9:45
SAE 为什么会把字典名额浪费在「大号 token」上?arXiv:2606.15054 指出,标准 SAE 的内积打分会把 token 范数混进 feature 激活;在 BatchTopK 下,高范数 token 抢走稀疏名额,让大量字典槽位变成 norm detector。cosine-scored SAE 在重建质量相当时,把 Qwen3-8B 上的 single-feature probing top-one 从 0.667 提升到 0.815。1×0:00 / 9:45
LLM Interpretability 前沿精读06/19/2026, 12:37:09 AM音频模型为什么宁愿相信错字幕,也不相信耳朵?KAIST 的 arXiv:2606.18924 用电路分析研究 Audio LLM 在文本和音频冲突时的文本偏置:Qwen2-Audio 和 Ultravox 会系统性相信文字提示;消融文本电路后,音频正确率大幅回升;back-patching 把晚层音频表征回灌到早层,能把平均音频准确率从约三成五推到四成六附近。1×0:00 / 9:24
音频模型为什么宁愿相信错字幕,也不相信耳朵?KAIST 的 arXiv:2606.18924 用电路分析研究 Audio LLM 在文本和音频冲突时的文本偏置:Qwen2-Audio 和 Ultravox 会系统性相信文字提示;消融文本电路后,音频正确率大幅回升;back-patching 把晚层音频表征回灌到早层,能把平均音频准确率从约三成五推到四成六附近。1×0:00 / 9:24