2023-10-27-insights 发表于 2023-10-27 更新于 2024-08-09 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 220 阅读时长 ≈ 1 分钟 Codebook Features: Sparse and Discrete Interpretability for Neural Networks Anthropic、FAR AI、Stanford的联合作品,探索了一个好玩的问题:大家都想要给hidden state去掉任何的约束,作者觉得这样会使得解释性下降。作者联系了传统软件的特性,尝试把hidden state对齐到一个codebook空间。作者发现这样子模型的表现基本没什么变化,但提高了可解释性。 相关文章 本月更新(Recent Update) arxiv-insights 2024-11-22-insights 2024-11-21-insights 2024-11-20-insights