今天是个值得纪念的日子,我的引用次数终于超过了我的高考分数🤔
Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning
Berkeley的工作。感觉还挺强的,作者发现q-learning在多轮决策里效果很好,但是没办法在LLM里用起来。作者改了改算法,然后把Q-learning和SFT的优势结合起来,发现在LLM里能跑了。
WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models
推荐小组的工作:之前我们做了一篇ProAgent的工作,让GPT去生成工作流来完成任务,但是没训模型。这次focus在,能否让LLM获得生成工作流的能力,进而去直接对有模式性的任务生成工作流来一劳永逸呢?测试了让模型直接去生成apple shortcut的场景,发现还真可以。
worlkflow是一个很有意义的方向,目前学界的研究并不多。之前和来也科技也交流过,实际上世界上有非常多的、真实的Workflow正在并行地跑着。用Workflow解决问题,是比类claude computer use这样用ReAct解决问题更稳定、更安全的方式。