0%

2024-06-26-insights

Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models

作者找了一堆dense text场景的源数据,找GPT-4v标了360k的q-a pair,在上面训了一个llava,然后发现在VLM math和MMMU上涨分巨多。

只能说,不如叫metamath-v

The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale

前两天挂的博客,今天终于挂论文了,huggingface在commoncrawl上清洗了15T token的数据,对于各种筛子做了消融实验,发现了相对较好的数据清洗方法。另外,还附赠了1.2T token的质量更高的fineweb-edu数据。

再讲讲数据重写,就把llama3破解完了