2024-09-11-insights 发表于 2024-09-11 更新于 2024-09-17 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 216 阅读时长 ≈ 1 分钟 LLaMA-Omni: Seamless Speech Interaction with Large Language ModelsOpenAI的Her离职了,开源版本的倒是等到了。架构类似于llava,是一个speech encoder,再把embedding丢进llama生成文本,同时后面有个声音decoder根据llama的输出实时说话,把不同的声音映射到了一个声音词表。实现了语调、延迟之类的语音功能,作者开源了一个220k的sft数据集 相关文章 本月更新(Recent Update) arxiv-insights 2024-10-08-insights 2024-10-07-insights 2024-10-04-insights