NVIDIA揭幕了Nemotron-CC:用于增强LLM培训的数万亿个数据集

NVIDIA Unveils Nemotron-CC: A Trillion-Token Dataset for Enhanced LLM Training

Joerg Hiller May 07, 2025 15:38

NVIDIA introduces Nemotron-CC, a trillion-token dataset for large language models, integrated与Nemo策展人。这种创新的管道优化了高级AI模型培训的数据质量和数量。

nvidia已将其Nemotron-CC管道整合到Nemo策展人中,为策划大型语言模型(LLMS)的高质量数据集提供了突破性的方法。 Nemotron-CC数据集利用Common Crawl的6.3亿英语英语系列,旨在提高准确性O根据NVIDIA。 By employing classifier ensembling and synthetic data rephrasing, the pipeline generates 2 trillion tokens of high-quality synthetic data, recovering up to 90% of content lost by filtering.

Innovative Pipeline Features

The pipeline's data curation process begins with HTML-to-text extraction using tools like jusText and FastText for language identification.然后,它应用重复数据删除以删除冗余数据,并利用Nvidia Rapids库进行有效的处理。该过程包括28个启发式过滤器,以确保数据质量和一个pyplexityFilter模块以进一步完善。

质量标签是通过一组分类器来实现的,该分类器将文档评估和分类为质量水平,从而促进焦油获得合成数据生成。这种方法可以从文本中创建各种QA对,蒸馏内容和有组织的知识列表。

对LLM培训的影响

使用Nemotron-CC数据集的培训LLM会产生重大改进。例如,与在传统数据集中训练的模型相比,在1万亿个Nemotron-CC子集上接受训练的Llama 3.1模型的MMLU得分提高了5.6分。此外,在包括Nemotron-CC在内的长期训练的模型中,基准分数的5分提升。

开始使用Nemotron-CC

Nemotron-CC管道开始,可用于开发人员,旨在为开发人员提供旨在在各个领域中识别域名模型或跨各个领域的开发人员。 NVIDIA为自定义提供了一个分步教程和API,使用户能够优化特定需求的管道。 NEMO策展人的集成允许无缝开发预处理和微调数据ETS。

有关更多信息,请访问NVIDIA博客。

图像来源:Shutterstock
Previous Post比特币(BTC)市场面临着冷却动量,在未实现的收益上升中
Next Post没有了