2023-12-13-insights 发表于 2023-12-13 更新于 2024-08-09 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 225 阅读时长 ≈ 1 分钟 Alignment for Honesty 刘鹏飞的论文,现在在上交。作者探索了一个有趣的问题:语言模型的可以关于"诚实"做对齐吗?具体来说作者用了论语里的定义: To say “I know” when you know, and “I don’t know” when you don’t, that is wisdom. – The Analects of Confucius 诚实的训练需要模型知道自己不会的知识是什么,这个和模型是绑定的,SFT恐怕不行,因此需要额外的设计 相关文章 本月更新(Recent Update) arxiv-insights 2024-11-21-insights 2024-11-20-insights 2024-11-19-insights