2025-06-09-insights

发表于 2025-06-13 更新于 2025-06-16 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 229 阅读时长 ≈ 1 分钟

PUZZLEWORLD: A Benchmark for Multimodal, Open-Ended Reasoning in Puzzlehunts

最近出了几篇puzzle的工作，但这篇和之前的不一样。他不是手动构造的，而是从一个叫puzzlehunt的地方爬下来的。作者标注了答案、思考过程，由此做成了一个667道题的测试集。

小红书出的LLM，11T训练量、140B激活14B的MoE、开源、没有用合成数据

这还是小红书吗