0%

2025-08-26-insights

Proximal Supervised Fine-Tuning

很有意思的工作,起名就很有pengfei老师的风格。前几天qwen出了一个在rl中掺入sft的工作,今天这篇是更近一步。直接把sft数据当成一种“比较offpolicy”的数据,然后一样地做重要性采样。这样可以在sft时候每隔几个mini-batch做个old_pi sync。作者发现这样的一个改进,竟然提高了sft的泛化性

我隐约记得我在几年前见过类似的工作……当时可能是ppo出来比较火

4D Visual Pre-training for Robot Learning

许老师的工作,作者提了一个next-point-cloud prediction任务,称为4d预训练。然后由此利用起已有的cloud-point数据

InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

intern-vl系列的最新工作,一口气开源了一堆size。230B-A28B的超大vlm,vit都有6B参数,好像第一次见到这么大的vit。各个benchmark都效果很好

这才是solid