0%

2025-01-06-insights

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

之前vita是做得比较早的4o类工作,最近更新了1.5版本

AgentRefine: Enhancing Agent Generalization through Refinement Tuning

之前有篇工作叫Agent-FLAN,把几个Agent数据集merge在一起做sft。这篇工作推广成了AgentRefine主要瞄准错误纠正,作者设计了一套框架来合成reflection数据,对比AgentFLAN涨点不少