今日科研,模型效果不好,要想办法改改,又有好多代码要写了w
今日观赛:
- TT打TES:挺精彩的,团战处理都挺好,tt拉的挺满的,可惜没打过。
最近一段几天从老家回来了,干劲明显不如前几周高了。暑假就是这样,每过一天,就摆似一天。
今天晚上出门了一趟,看了看夜景
这篇论文探索了DDPM对于NLL指标效果不好的原因,并且从实际训练的角度给出了很多可行的改进。
这篇讲了一种借鉴Discrete Diffusion model来建模一个order-agnostic autoregressive模型的方法,在text8数据集取得不错的效果。
MLSys 22中编译优化方向的论文都看完了,今天看一个别的主题,分布式训练。这篇文章是一篇分析性文章,讲了分布式训练中梯度压缩算法在实际场景中的效果不好,分析原因,并且提出了一个和真实场景效果接近的performance model。
我理解这篇论文就是torch.fx的论文,作者是站在设计torch.fx的角度思考“我们为什么要这么做”,把他们的一系列实现整理成了论文发了出来。