这周二的 155 篇比起上上周的 310 篇,只能说是远远不及
Granite-Function Calling Model: Introducing Function Call- ing Abilities via Multi-task Learning of Granular Tasks
IBM 的工作,现在好像挺少看到他们的工作:作者目标是 OpenAI 的 json-mode,搞了一大堆数据,开源了一个 20B 模型,基本达到了 json-mode 水平,可以理解 json-format,进行 function call,甚至还有 parallel function call 功能
AGENTLESS:Demystifying LLM-based Software Engineering Agents
又是一篇反套路文,可能也没那么反套路?作者研究了一下 SWE-Bench,发现目前大家卷这个 bench 都是很多复杂 pipeline 设计,他们想:能不能化简这些框架,搞成简单的 code repair 任务呢?结果去掉了一堆 pipeline 设计以后,acc 反而达到了 27%,而且只花 0.34$ 就能完成任务。同时,作者研究了一下 SWE-Bench 的 case,发现里面有些 case 是错的、或者又问题,就搞了个新的 benchmark SWE-Bench Lite-S
遇到科研实在人了……
REGMIX: Data Mixture as Regression for Language Model Pre-training
pretrain data selection 相关的论文,这个方向的祖师爷是 DoReMi。作者这次考虑了一个基本假设:不同大小的模型应该享有相同的 "最优数据配比",即最优数据配比下训练小模型和大模型应该都是最优的。所以作者用不同数据配比训了一堆小模型,在 performance 上训了一个回归模型,然后找到最优配比,再由此训大模型。作者发现这样搜出来的配比比人工挑出来的配比效果要更好
感觉挺有实用价值的,但是这个假设不一定对:现在有些人觉得小模型 capability 不够,有些 mixture 学了也是白学,如果承认这个理论,那这个论文的假设可能不够好?
…… 话说我本科有个大作业就是这么刷榜的……
v1.5.2