Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation
最近看到很多图片生成领域的工作,他们都想要把 next-token predicton 这里的 token 定义做探索。我感觉这里面其实有个大的问题:对于图片这类没有 intrinsic casuality 的 object,我们似乎缺少一种通用的办法将他们表示成具有 Autoregressive 关系的一系列原子
感觉这个 open problem,是一个和 seq2seq 一样重要的问题。毕竟…… 先得有 sequence 才能才 seq2seq 吧
v1.5.2