2025-08-26-insights

发表于 2025-08-31 更新于 2025-09-10 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 512 阅读时长 ≈ 1 分钟

Proximal Supervised Fine-Tuning

很有意思的工作，起名就很有pengfei老师的风格。前几天qwen出了一个在rl中掺入sft的工作，今天这篇是更近一步。直接把sft数据当成一种“比较offpolicy”的数据，然后一样地做重要性采样。这样可以在sft时候每隔几个mini-batch做个old_pi sync。作者发现这样的一个改进，竟然提高了sft的泛化性

我隐约记得我在几年前见过类似的工作……当时可能是ppo出来比较火

4D Visual Pre-training for Robot Learning

许老师的工作，作者提了一个next-point-cloud prediction任务，称为4d预训练。然后由此利用起已有的cloud-point数据

InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

intern-vl系列的最新工作，一口气开源了一堆size。230B-A28B的超大vlm，vit都有6B参数，好像第一次见到这么大的vit。各个benchmark都效果很好

这才是solid