今天是个值得纪念的日子,我的引用次数终于超过了我的高考分数🤔
Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning
Berkeley 的工作。感觉还挺强的,作者发现 q-learning 在多轮决策里效果很好,但是没办法在 LLM 里用起来。作者改了改算法,然后把 Q-learning 和 SFT 的优势结合起来,发现在 LLM 里能跑了。
WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models
推荐小组的工作:之前我们做了一篇 ProAgent 的工作,让 GPT 去生成工作流来完成任务,但是没训模型。这次 focus 在,能否让 LLM 获得生成工作流的能力,进而去直接对有模式性的任务生成工作流来一劳永逸呢?测试了让模型直接去生成 apple shortcut 的场景,发现还真可以。
worlkflow 是一个很有意义的方向,目前学界的研究并不多。之前和来也科技也交流过,实际上世界上有非常多的、真实的 Workflow 正在并行地跑着。用 Workflow 解决问题,是比类 claude computer use 这样用 ReAct 解决问题更稳定、更安全的方式。
v1.5.2