最近是ICLR投稿,论文质量看起来都不错
Seedream 4.0: Toward Next-generation Multimodal Image Generation
seedream的迭代版本。现在基本已经标配了text2image和image-edit两个场景

Tree Search for LLM Agent Reinforcement Learning
之前seed有篇工作,让rl rollout中,从entropy比较大的位置叉出去做成一个类似树结构的rollout。这篇工作做得更深刻一些,直接在rollout时就变成树,用相同的token-prefix作为树路径,叶子节点是不同的EOS。然后作者想了一些招数来对这种rollout结构产生的不同样本做adv
