2024-11-11-insights

发表于 2024-11-11 更新于 2024-11-15 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 531 阅读时长 ≈ 1 分钟

今天是个值得纪念的日子，我的引用次数终于超过了我的高考分数🤔

Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning

Berkeley的工作。感觉还挺强的，作者发现q-learning在多轮决策里效果很好，但是没办法在LLM里用起来。作者改了改算法，然后把Q-learning和SFT的优势结合起来，发现在LLM里能跑了。

推荐小组的工作：之前我们做了一篇ProAgent的工作，让GPT去生成工作流来完成任务，但是没训模型。这次focus在，能否让LLM获得生成工作流的能力，进而去直接对有模式性的任务生成工作流来一劳永逸呢？测试了让模型直接去生成apple shortcut的场景，发现还真可以。

worlkflow是一个很有意义的方向，目前学界的研究并不多。之前和来也科技也交流过，实际上世界上有非常多的、真实的Workflow正在并行地跑着。用Workflow解决问题，是比类claude computer use这样用ReAct解决问题更稳定、更安全的方式。