MLSys 22 中编译优化方向的论文都看完了,今天看一个别的主题,分布式训练。这篇文章是一篇分析性文章,讲了分布式训练中梯度压缩算法在实际场景中的效果不好,分析原因,并且提出了一个和真实场景效果接近的 performance model。
论文阅读 [精读]-TORCH.FX: PRACTICAL PROGRAM CAPTURE AND TRANSFORMATION FOR DEEP LEARNING IN PYTHON
我理解这篇论文就是 torch.fx 的论文,作者是站在设计 torch.fx 的角度思考 “我们为什么要这么做”,把他们的一系列实现整理成了论文发了出来。
7-13 总结
今日读两篇论文,遗憾的是,没有编译方面的。
明天就要进度同步了,show me your work! 不能这样下去了,现在就赶 w
据了解,今日时隔一个月召开组会,又感觉到了上进的气息。
论文阅读 [粗读]-Diffusion models beat gans on image synthesis
这篇工作是 Diffusion Model 关注度高起来的第二篇重要文献。在此之前,DDPM 证明 Diffusion model 可以生成 diversity,但 score 上,比起 “专门造假” 的 GAN 还是略显不足,但 OpenAI 这片新作,证明了 Diffusion model 有实力生成比 GAN 优秀的结果。
论文阅读 [粗读]-GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models
这篇工作其实就是有名的 DALL.E 2 的模型结构,只是规模是 3.5B (DALL.E 是 12B)。本篇工作是第一个用 diffusion model 来做 text2image 任务的。
7-12 总结
今天去北医三院看牙,来回单程只需要 40min 的高铁,倒是很快。应该是最后一次根管治疗,再观察一段时间就可以做牙冠了。
论文阅读 [粗读]-THE CORA TENSOR COMPILER: COMPILATION FOR RAGGED TENSORS WITH MINIMAL PADDING
陈天奇在 MLSys 22 发的另一篇文章,讲的是如何提高输入不对齐时的表现。
7-10 总结
论文阅读 [粗读]-APOLLO: AUTOMATIC PARTITION-BASED OPERATOR FUSION THROUGH LAYER BY LAYER OPTIMIZATION
今天来读一篇 MLSys 的文章,作者提出了 JIT 的 APOLLO 框架,可以同时考虑 memory- /compute-bound 的算子优化,比 XLA,TensorFlow 原生要快不少。
论文阅读 [精读]-ANALYTIC-DPM: AN ANALYTIC ESTIMATE OF THE OPTIMAL REVERSE VARIANCE IN DIFFUSION PROBABILISTIC MODELS
22 年 ICLR outstanding paper,讲了 DPM 的逆过程最优均值和方差竟有解析形式?