这一篇工作和前两篇是另一种思路,对模型结构不做任何改变,只是在fine-tune时改变一点点参数:bias
论文阅读[粗读]-COMPACTER: Efficient Low-Rank Hypercomplex Adapter Layers
今天分享一篇上次adpter tuning的后文,进一步提升了效果、减小了参数量,发表在NeurlPS 2021上。了解这篇工作,需要先了解 Adpter Tuning笔记
论文阅读[精读]-Parameter-Efficient Transfer Learning for NLP
今天分享一篇delta tuning方向的经典论文Adpter tuning,是一篇比较早的工作,2019年的ICML。
10-11总结
不知不觉又过去了快一周。随着这学期几门课程进度的深入和作业、实验的布置,以及科研的推进,逐渐感觉到压力上来了。
10-5总结
北京没有春天和秋天的渐变,只会在冷和热中切换。这两天降温很多,瞬间从30度变成了3度。前几天还穿着短袖出门,现在已经要穿帽衫+羊绒外套了。
10-3总结
今天是十一假期的最后一天。
9-29总结
今天去参加了popping与locking的队训,读了2篇论文。
论文阅读[精读]-LEARNING TO LEARN WITH GENERATIVE MODELS OF NEURAL NETWORK CHECKPOINTS
今天分享一篇最近挂arXiv的很有意思的工作,是讲用diffusion模型来做optimizer优化的。
9-27总结
队训,与传染
9-25/26总结
25号晚上,我参加了街舞社的迎新活动。虽然已经是第三次去了,但还是感觉很开心很激动,觉得自己又能跳街舞了。之前的locking队长小崔已经毕业了,之前的popping队鞋神也已经毕业了,我却又一次成为了新社员。新入社的同学们每一年都一样,都洋溢着对街舞的热情和热爱:自己好像又年轻了起来,不像是大四的油条,也不像是把清华每一寸都丈量清楚的老狗,而像个新生一样加入新社团,认识新朋友。我喜欢这种感觉。