2024-09-11-insights

发表于 2024-09-11 更新于 2024-09-17 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 216 阅读时长 ≈ 1 分钟

LLaMA-Omni: Seamless Speech Interaction with Large Language Models

OpenAI的Her离职了，开源版本的倒是等到了。架构类似于llava，是一个speech encoder，再把embedding丢进llama生成文本，同时后面有个声音decoder根据llama的输出实时说话，把不同的声音映射到了一个声音词表。实现了语调、延迟之类的语音功能，作者开源了一个220k的sft数据集