0%

2023-10-18-insights

今天论文不多,只有83篇,其中3篇感觉挺好玩。(其实还有几篇也挺有意思,但是每天最多三篇,只能优中选优了)

BitNet: Scaling 1-bit Transformers for Large Language Models

Furu Wei团队的作品。很有意思的观点,现在大家都在做模型的Quantization,希望换成位数更小的同时效果不掉。他们从相反的角度去思考:如果直接从预训练就用1 bit呢?

他们训了一系列模型,发现随着模型越来越大,和16bit的差距越来越小,同时和16位模型的表现越来越接近。

CoTFormer: More Tokens With Attention Make Up For Less Depth

作者发现了一个有趣的观点:做CoT类似于增加计算资源,和换用一个更deep的transformer有类似之处。由此,作者提出了一个自带CoT结构的transformer,发现训完以后做推理任务的表现更好。

Large Language Model Unlearning

字节的论文,作者尝试能不能只使用负例(harmless样本)做对齐,让模型忘记去回答这种问题,发现

  • 效率更高,需要的计算资源更少
  • 可解释性更好
  • 在研究了harmless样本问题以后针对性优化效果很明显

感觉是一个很"大厂"的需求……