2024-12-23-insights

发表于 2024-12-23 更新于 2024-12-30 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 352 阅读时长 ≈ 1 分钟

Inference-Aware Fine-Tuning for Best-of-N Sampling in Large Language Models

很有洞见性的工作！作者发现，目前的o1类模型一般都要套个best-of-N的壳，但是我们训练的时候模型其实不知道外面有这个inferencetime-scaling的壳。如果我们在训练的时候就让模型适应有个壳呢？比如让模型学着说的diverse一点，因为他知道一会要投票。作者发现这样训完，模型的inference-time-scaling能力被进一步激发了

有意思！

WebLLM: A High-Performance In-Browser LLM Inference Engine

乍一看，以为是GUI Agent操作网页，仔细一看：是在网页里面跑llm infer。不愧是tianqi