2025-08-27-insights

发表于 2025-09-02 更新于 2025-09-15 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 235 阅读时长 ≈ 1 分钟

VIBEVOICE Technical Report

一篇speech synthesis领域的文章。和之前的工作不同在于，他直接用diffusion生成latent，然后不解码到离散词表，而是直接让autodecoder转换成声音。同时下一个timestep输入的也是latent。

Latent in latent out明显是更直觉的方案，但是之前好像大家都是输入离散token。不知道这里面的难点在哪里？是不是模型生成的latent分布有累积误差？这个是latent-o1的障碍