0%

2025-01-06-insights

发表于 2025-01-06 更新于 2025-01-09 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 264 阅读时长 ≈ 1 分钟

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

之前vita是做得比较早的4o类工作，最近更新了1.5版本

之前有篇工作叫Agent-FLAN，把几个Agent数据集merge在一起做sft。这篇工作推广成了AgentRefine主要瞄准错误纠正，作者设计了一套框架来合成reflection数据，对比AgentFLAN涨点不少