今天回了趟姥姥家,早上起的很早,晚上就很困,所以十点就睡了。
换了几种方法,效果还是不好,打算溯源一下。
最近一段几天从老家回来了,干劲明显不如前几周高了。暑假就是这样,每过一天,就摆似一天。
今天晚上出门了一趟,看了看夜景
这篇论文探索了DDPM对于NLL指标效果不好的原因,并且从实际训练的角度给出了很多可行的改进。
这篇讲了一种借鉴Discrete Diffusion model来建模一个order-agnostic autoregressive模型的方法,在text8数据集取得不错的效果。
MLSys 22中编译优化方向的论文都看完了,今天看一个别的主题,分布式训练。这篇文章是一篇分析性文章,讲了分布式训练中梯度压缩算法在实际场景中的效果不好,分析原因,并且提出了一个和真实场景效果接近的performance model。