智慧印刷工坊

智慧印刷工坊

23所机构发布DCLM基准测试,高质量数据集能否撼动Scaling Laws?

admin 50 137

OpenAI于2020年在论文「ScalingLawsforNeuralLanguageModels」中首次提出ScalingLaws,它被看作是大语言模型的摩尔定律。其释义可简要总结为:随着模型大小、数据集大小、(用于训练的)计算浮点数的增加,模型的性能会提高。

在ScalingLaws的影响下,不少追随者始终认为「大」依然是提高模型性能的第一性原理。尤其是「财大气粗」的大厂,更加依赖于大型、多样化的语料数据集。

对此,清华大学计算机系博士秦禹嘉指出,「LLaMA3告诉大家一个悲观的现实:模型架构不用动,把数据量从2T加到15T就可以暴力出奇迹。这一方面告诉大家基座模型长期来看就是大厂的机会;另一方面,考虑到ScalingLaws的边际效应,我们想继续看到下一代模型能够有GPT3到GPT4的提升,很可能需要再洗出至少10个数量级的数据(例如150T)」。

秦禹嘉社交网络截图

针对语言模型训练所需数据量持续提升,以及数据质量等问题,华盛顿大学、斯坦福大学、苹果等23所机构联手,提出了一个实验测试平台DataCompforLanguageModels(DCLM),其核心是来自CommonCrawl的240T新候选词库,通过固定训练代码,鼓励研究人员提出新的训练集来进行创新,对于语言模型的训练集改进具有重大意义。

相关研究已经以「DataComp-LM:Insearchofthenextgenerationoftrainingsetsforlanguagemodels」为题,发表于学术平台上。

研究亮点

*DCLM基准测试的参与者,可以在412M到7B参数的模型尺度上试验数据管理策略

*基于模型的过滤是构建高质量训练集的关键,生成的数据集DCLM-BASELINE支持使用2.6T训练tokens在MMLU上从头开始训练7B参数语言模型,达到64%的5-shot准确性

*DCLM的基础模型在MMLU上与和Llama38B表现相当

论文地址:


开源项目「awesome-ai4s」汇集了百余篇AI4S论文解读,并提供海量数据集与工具:

DCLM基准:从400M到7B多尺度设计,实现不同计算规模需求

DCLM是一个用于改进语言模型的数据集实验平台,是语言模型训练数据管理的第一个基准。

如下图所示,DCLM的工作流主要由4个步骤构成:选择计算规模(Selectascale)、建立数据集(Buildadataset)、训练模型(Trainamodel)、基于53个下游任务上进行模型评估(Evaluate)。

DCLM工作流

选择计算规模

首先,在计算规模方面,研究人员创建了跨越3个数量级计算规模的5个不同竞赛级别。每个级别(即400M-1x、1B-1x、1B-5x、7B-1x和7B-2x)指定了模型参数量(例如7B)和一个Chinchilla乘数(例如1x)。每个规模的训练tokens数是参数数量的20倍乘以Chinchilla乘数。

研究人员创建的5个不同计算规模

建立数据集

其次,确定参数规模后,在建立数据集的过程中,参与者可以通过过滤(Filter)或混合(Mix)数据来创建数据集。

在过滤轨道(Filteringtrack)中,研究人员从未经过滤的爬虫网站CommonCrawl上提取了240Ttokens的标准化语料库,构建了DCLM-Pool,并根据计算规模划分了5个数据池。参与者提出算法,并从数据池中选择训练数据。

训练模型

OpenLM是一个以PyTorch为基础的代码库,专注于FSDP模块进行分布式训练。为了排除数据集干扰的影响,研究人员在每个数据规模上使用固定的方法进行模型训练。

基于之前对模型架构和训练的消融研究,研究人员采用像GPT-2、Llama这样的仅解码器的Transformer架构,最终在OpenLM中进行模型训练。

模型评估

最后,研究人员通过LLM-Foundry工作流程,以53个适合基础模型评估的下游任务为标准,进行了模型评估。这些下游任务包含了问答、开放式生成的形式,涵盖了编码、教科书知识和常识推理等各种领域。

数据集:使用DCLM构建高质量的训练数据集

DCLM是如何构建高质量数据集DCLM-BASELINE,并量化数据管理方法的效果的呢?

基于DCLM-Pool构建高质量数据集DCLM-BASELINE

在启发式数据清洗(Heuristiccleaning)阶段,研究人员使用RefinedWeb的方法进行数据清洗,具体操作包括移除URL(URLfilter)、英文过滤(Englishfilter)、页面长度过滤(Pagelengthfilter)、重复内容过滤(Repetitionfilter)等。

在重复数据删除(Deduplication)阶段,研究人员使用Bloom过滤器对提取到的文本数据进行重复数据的删除,同时还发现,修改后的Bloom过滤器更容易扩展到10TB的数据集。

为进一步提高数据的质量,在基于模型的过滤(Model-basedfiltering)阶段,研究人员比较了7种基于模型的过滤方式,包括使用PageRank得分进行过滤、语义去重(SemDedup)、fastText二元分类器等,发现基于fastText的过滤优于所有其他方法。

7种过滤方式与RefinedWeb的对比

随后,研究人员利用文本分类消融实验(Textclassifierablations),进一步研究了基于fastText进行数据过滤的局限性。研究人员训练了多个不同的变体,探索了参考数据、特征空间和过滤阈值的不同选择,如下图所示。对于参考数据,研究人员选择了常用的Wikipedia、OpenWebText2、RedPajama-books,这些都是GPT-3使用的参考数据。

fastText消融实验(7B-1x规模)

同时,研究人员还创新性地使用了指令格式的数据,从()和r/ExplainLikeImFive(ELI5)subreddit的高分帖子中提取示例。结果显示,+ELI5的方法相较常用参考数据,在CORE上提升了3.5%。

此外,研究人员发现,严格的阈值(即Threshold为10%)能够获得更好的性能。所以,研究人员使用+ELI5分类器得分来进行数据过滤,保留前10%的文档便得到了DCLM-BASELINE。

研究结果:生成高质量数据集,基于模型的过滤是关键

首先,研究人员分析了未经评估的预训练数据污染,是否会影响研究结果。

MMLU作为衡量大语言模型性能的基准测试,旨在更全面考察模型对不同语言的理解能力。因此,研究人员将MMLU作为评估集,并从MMLU中检测、删除DCLM-BASELINE中存在的问题。随后,研究人员基于DCLM-BASELINE训练了一个7B-2x模型,而不使用检测到的MMLU重叠。

结果如下图显示,污染样品的去除,并不会导致模型的性能下降。由此可见,DCLM-BASELINE在MMLU测试基准上的性能提升,并不是因为其数据集中包含MMLU中的数据。

MMLU重叠去除结果

除此之外,研究人员还在和FineWeb-Edu上应用了上述去除策略,以测量DCLM-BASELINE与这些数据集之间的污染差异。结果发现DLCM-BASELINE的污染统计数据,和其他高性能数据集大致相似。

MMLU重叠去除比较

其次,研究人员还将训练的新模型,与7B-8B参数规模下的其他模型进行了比较。结果显示,基于DCLM-BASELINE数据集生成的模型优于在开源数据集上训练的模型,并且比在闭源数据集上训练的模型具有竞争力。

模型比较

大量的实验结果表明,基于模型的过滤是组成高质量数据集的关键,并且数据集设计对语言模型的训练十分重要。生成的数据集DCLM-BASELINE支持使用2.6T训练tokens在MMLU上从头开始训练7B参数语言模型,达到64%的5-shot准确性。

与之前最先进的开放数据语言模型MAP-Neo相比,生成的数据集DCLM-BASELINE在MMLU上提高了6.6%,同时训练所需的计算量减少了40%。

DCLM的基础模型在MMLU上与和Llama38B相当(63%和66%),并且在53个自然语言理解任务上表现相似,但训练所需的计算量比Llama38B少6.6倍。

ScalingLaws未来走向莫衷一是,寻找用于语言模型的下一代训练集

总结来看,DCLM的核心是鼓励研究人员,通过基于模型的过滤来组建高质量训练集,进而提升模型性能。而这也在「以大为美」的模型训练趋势下,提供了全新的解题思路。

正如清华大学计算机系博士秦禹嘉所言,「是时候把数据scaledown了」。通过分析总结多篇论文,他发现「清洗后的干净数据+更小的模型能够更加逼近脏数据+大模型的效果」。

7月初,比尔·盖茨在最新一期NextBigIdea播客中提到了AI技术范式变革的话题,他认为ScalingLaws快要走到尽头了。AI对于计算机交互的革命还没来到,但它的真正进步在于实现更接近人类的元认知能力,而非仅扩大模型规模。

比尔盖茨做客NextBigIdea播客

在此之前,多位国内行业大咖也曾在2024北京智源大会上,就ScalingLaws未来走向的问题,展开了深度探讨。

零一万物CEO李开复表示,ScalingLaw已被验证有效并且尚未达到顶峰,但利用缩放定律不能盲目堆GPU,仅仅依靠堆砌更多算力提升模型效果,只会导致那些GPU足够多的公司或国家才能胜出。

清华大学智能产业研究院的院长张亚勤则表示,ScalingLaw的实现主要得益于对海量数据的利用以及算力的显著提升。未来5年内仍是产业发展的主要方向。

李开复、张亚勤出席2024北京智源大会圆桌论坛

月之暗面CEO杨植麟认为,ScalingLaw没有本质问题,只要有更多算力、数据,模型参数变大,模型就能持续产生更多智能。他认为ScalingLaw会持续演进,只是在这个过程中ScalingLaw的方法可能会发生很大变化。

百川智能CEO王小川认为,在ScalingLaw之外,一定要寻找算力、算法、数据等范式上的新转化,而不只是简单变成知识压缩,走出这个体系才有机会走向AGI。

大模型的成功很大程度上要归因于ScalingLaws的存在,它在一定程度上为模型开发、资源分配和选择合适的训练数据提供了宝贵的指导。对于「ScalingLaws的尽头是什么」我们现在或许还无从得知,但DCLM基准测试为提升模型性能提供了一种新的思考范式和可能。

参考资料: