机器学习的进展很大程度上由数据的大幅增长推动。然而,像LAION这样的大规模网络数据集在除了精确重复项的搜索之外基本上没有被筛选,可能留下了很多重复的数据。在此,我们介绍SemDeDup,这是一种利用预训练模型中的嵌入来识别和删除语义重复项的方法:即语义上相似但不完全相同的数据对。删除语义重复项可以保持性能并加快学习速度。我们在分析LAION的子集时表明,SemDeDup 可以删除50%的数据而几乎不损失性能,有效地将训练时间减半。此外,性能提高了。另外,我们在分析C4上训练的语言模型时表明,SemDeDup 提高了之前的方法,同时提供了效率上的增益。SemDeDup提供了一个例子,展示了如何利用优质的嵌入来简单地使模型更快地学习更少的数据。
论文链接:http://arxiv.org/pdf/2303.09540v1
更多计算机论文:http://cspaper.cn/