0%

2024-12-20-insights

LongBench v2: Towards Deeper Understanding and Reasoning on Realistic Long-context Multitasks

智谱出的新工作,把longbench做了一个v2版本。专门做过难度平衡,让这个数据集上人在15min的准确率也只有50%。