0%

2024-09-11-insights

LLaMA-Omni: Seamless Speech Interaction with Large Language Models

OpenAI的Her离职了,开源版本的倒是等到了。架构类似于llava,是一个speech encoder,再把embedding丢进llama生成文本,同时后面有个声音decoder根据llama的输出实时说话,把不同的声音映射到了一个声音词表。实现了语调、延迟之类的语音功能,作者开源了一个220k的sft数据集