2025-06-09-insights 发表于 2025-06-13 更新于 2025-06-15 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 229 阅读时长 ≈ 1 分钟 PUZZLEWORLD: A Benchmark for Multimodal, Open-Ended Reasoning in Puzzlehunts 最近出了几篇puzzle的工作,但这篇和之前的不一样。他不是手动构造的,而是从一个叫puzzlehunt的地方爬下来的。作者标注了答案、思考过程,由此做成了一个667道题的测试集。 dots.llm1 Technical Report 小红书出的LLM,11T训练量、140B激活14B的MoE、开源、没有用合成数据 这还是小红书吗 相关文章 本月更新(Recent Update) arxiv-insights 2025-06-11-insights 2025-06-10-insights 2025-06-06-insights