LLaVA-One-Vision 85M多模态数据集6大源已就绪
【免费下载链接】LLaVA-One-Vision-1.5-Mid-Training-85M项目地址: https://ai.gitcode.com/hf_mirrors/lmms-lab/LLaVA-One-Vision-1.5-Mid-Training-85M
多模态大模型领域再添重要进展,LLaVA-One-Vision项目宣布其1.5版本训练中的85M规模数据集(LLaVA-One-Vision-1.5-Mid-Training-85M)已完成六大核心数据源的准备工作,为开源多模态模型训练提供关键基础设施支持。
近年来,多模态大模型已成为人工智能领域的核心发展方向,其能力边界的拓展高度依赖高质量、大规模的训练数据。据行业研究显示,2024年全球多模态数据集市场规模同比增长超过70%,但开源高质量数据集的稀缺性仍制约着技术创新的普惠性。在此背景下,LLaVA-One-Vision项目的数据集建设进展备受关注。
根据项目最新披露的信息,此次完成准备的六大数据源包括ImageNet-21k、LAIONCN、DataComp-1B、Zero250M、COYO700M和SA-1B,覆盖了通用图像识别、互联网图像文本对、数据压缩优化样本等多种类型的数据资源。这些数据集各具特色:ImageNet-21k作为计算机视觉领域的经典数据集,提供了丰富的类别标注;LAIONCN专注于中文场景下的图像文本对;SA-1B则以10亿级别的大规模数据著称,有助于模型学习更广泛的视觉特征。
该85M规模数据集的就绪,将为LLaVA-One-Vision-1.5模型的训练提供坚实基础。从行业价值来看,这一开源数据集的构建具有多重意义:首先,它整合了不同场景、不同规模的数据源,有助于提升模型的泛化能力;其次,完全开源的特性将降低多模态模型研究的准入门槛,促进学术界和产业界的协同创新;再者,中文相关数据源的纳入(如LAIONCN),将有助于提升模型在中文语境下的理解和应用能力。
目前,该数据集的上传工作已完成上述六大源,Obelics和MINT两个数据源仍在处理中。项目团队表示,LLaVA-One-Vision-1.5旨在构建一个"完全开放的多模态训练框架",而高质量数据集的公开是实现这一目标的关键一步。随着数据集的逐步完善和模型训练的推进,我们有理由期待开源多模态模型在通用能力和垂直领域应用上的进一步突破,为人工智能的民主化发展注入新的动力。
【免费下载链接】LLaVA-One-Vision-1.5-Mid-Training-85M项目地址: https://ai.gitcode.com/hf_mirrors/lmms-lab/LLaVA-One-Vision-1.5-Mid-Training-85M
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考