0%

2025-06-09-insights

PUZZLEWORLD: A Benchmark for Multimodal, Open-Ended Reasoning in Puzzlehunts

最近出了几篇puzzle的工作,但这篇和之前的不一样。他不是手动构造的,而是从一个叫puzzlehunt的地方爬下来的。作者标注了答案、思考过程,由此做成了一个667道题的测试集。

dots.llm1 Technical Report

小红书出的LLM,11T训练量、140B激活14B的MoE、开源、没有用合成数据

这还是小红书吗