0%

2024-09-20-insights

最近ICLR快截稿了,各种iclr风格的论文都来了,很多内容还挺好玩的

MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines

作者设计了一个benchmark,来测试不同模型作为搜索引擎的效果。发现4o效果最好,超过perplexity

你说得对,但jackeylove真会卡莉斯塔吗?

CODEPLAN: UNLOCKING REASONING POTENTIAL IN LARGE LANGUAGE MODELS BY SCALING CODE-FORM PLANNING

黄民烈老师的工作,大图致敬ReAct的论文图:作者觉得模型代码能力很强,能不能用代码语言做planning呢?找到了一种方案从预训练语料里自动抽取这种code类型的planning。

想起来前几天Scale AI那个 planning in NL。这两拨人是不是得先打一架……

LANGUAGE MODELS LEARN TO MISLEAD HUMANS VIA RLHF

作者发现了一个好玩的现象:在rlhf以后的模型,学会了怎么样说服人类,即使本身的准确率没有提升,但人类更难发现模型输出中的错误了。

所以:在模型的智力超越人类之前,可能说服力会先超越人类?