Llama-Nemotron: Efficient Reasoning Models
nvidia的工作,表面上看起来是o1,但其实是一个模型结构发现的工作。作者从llama-archi出发,用自动模型结构发现的方式做了各种组合,最后找到了一个很好的模型结构,由此训练多个不同大小的模型。在推理速度快的同时,又可以保证效果很好
Improving Large Language Model Planning with Action Sequence Similarity
这篇工作中,作者探索了一个具体的问题:在agent场景的icl中,什么样本对提升效果最明显?作者发现,用query找相似的query其实没用,因为会找到很多”看着类似但plan完全不同“的样本。不过,作者发现先让模型对test-query生成一个plan,再根据所有query的plan去找到plan最像的样本,可以极大地提高效果
这里抽象一层:模型看到query以后做了一些testtime-compute,然后调用了一个retrieve工具找到了对应的东西,最后提高了效果。