0%

2025-01-06-insights

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

之前 vita 是做得比较早的 4o 类工作,最近更新了 1.5 版本

AgentRefine: Enhancing Agent Generalization through Refinement Tuning

之前有篇工作叫 Agent-FLAN,把几个 Agent 数据集 merge 在一起做 sft。这篇工作推广成了 AgentRefine 主要瞄准错误纠正,作者设计了一套框架来合成 reflection 数据,对比 AgentFLAN 涨点不少

Powered By Valine
v1.5.2