0%

2025-10-28-insights

Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation

前几天讲了蚂蚁的新rl模型,今天这个是基模的technique report。作者做了很完善的scaling prediction实验,整体感觉很solid

BrowseConf: Confidence-Guided Test-Time Scaling for Web Agents

qwen新出的search agent工作,作者发现,如果简单得让模型输出自己的confidence,然后尝试多次来提交信心最高的,这种test time scaling方法效果其实不错

之前deepresearch其实报告了一个他们的confident select的bc_en 70分结果,但是大家好像不太关注这个方向