Inference-Aware Fine-Tuning for Best-of-N Sampling in Large Language Models
很有洞见性的工作!作者发现,目前的 o1 类模型一般都要套个 best-of-N 的壳,但是我们训练的时候模型其实不知道外面有这个 inferencetime-scaling 的壳。如果我们在训练的时候就让模型适应有个壳呢?比如让模型学着说的 diverse 一点,因为他知道一会要投票。作者发现这样训完,模型的 inference-time-scaling 能力被进一步激发了
有意思!
WebLLM: A High-Performance In-Browser LLM Inference Engine
乍一看,以为是 GUI Agent 操作网页,仔细一看:是在网页里面跑 llm infer。不愧是 tianqi
v1.5.2