0%

2024-07-02-insights

这周二的155篇比起上上周的310篇,只能说是远远不及

Granite-Function Calling Model: Introducing Function Call- ing Abilities via Multi-task Learning of Granular Tasks

IBM的工作,现在好像挺少看到他们的工作:作者目标是OpenAI的json-mode,搞了一大堆数据,开源了一个20B模型,基本达到了json-mode水平,可以理解json-format,进行function call,甚至还有parallel function call功能

AGENTLESS:Demystifying LLM-based Software Engineering Agents

又是一篇反套路文,可能也没那么反套路?作者研究了一下SWE-Bench,发现目前大家卷这个bench都是很多复杂pipeline设计,他们想:能不能化简这些框架,搞成简单的code repair任务呢?结果去掉了一堆pipeline设计以后,acc反而达到了27%,而且只花0.34$就能完成任务。同时,作者研究了一下SWE-Bench的case,发现里面有些case是错的、或者又问题,就搞了个新的benchmark SWE-Bench Lite-S

遇到科研实在人了……

REGMIX: Data Mixture as Regression for Language Model Pre-training

pretrain data selection相关的论文,这个方向的祖师爷是DoReMi。作者这次考虑了一个基本假设:不同大小的模型应该享有相同的”最优数据配比”,即最优数据配比下训练小模型和大模型应该都是最优的。所以作者用不同数据配比训了一堆小模型,在performance上训了一个回归模型,然后找到最优配比,再由此训大模型。作者发现这样搜出来的配比比人工挑出来的配比效果要更好

感觉挺有实用价值的,但是这个假设不一定对:现在有些人觉得小模型capability不够,有些mixture学了也是白学,如果承认这个理论,那这个论文的假设可能不够好?

……话说我本科有个大作业就是这么刷榜的……