高质量、多维度、大规模的数据是支撑大模型训练、应用的关键
基础。当训练数据存在样本过少、错值、缺失、偏差等异常时,模型训练输出会产生偏见和错误,因此准确、可靠且涵盖各类场景的高质量数据对大模型训练必不可少。同时,不同模态数据的共同作用能够有效提升模型使用效果,一方面,将同一场景的图片、文本、音视频、知识库等同时作为训练数据能够增强大模型的理解能力;另一方面,当基于文本数据的训练出现偏差时,其他模态数据可以辅助大模型进行错误纠正,减少“幻觉”。如何对多模态数据进行高效存储、计算、治理已逐渐成为数据智能领域的重要技术方向。
当前多模态数据的存储治理仍存在以下突出问题:
一是多模态数据整合处理难度大,读取效率有待提升。多模态数据包括结构化、非结构化及半结构化数据,数据来源多样、数据量大、格式不一,因此整合难度较大。此外,在模型训练过程中需要对海量数据进行读取操作,对多模态数据的缓存加速能力也提出更高要求。
二是面向模型训练,数据质量治理环节亟需前置。在模型训练过程中,数据质量治理环节需前置,在数据收集阶段同步并行,以保证 训练数据集的准确、合规、完整。但当前数据治理流程通常是在数据应用过程中发现问题,从末端到源端,层层梳理数据血缘,定位问题
点,进行数据的改进和补充,造成数据治理环节后置,难以满足需求。
未来,多模数据存储与治理领域呈现出三大趋势:
一是支撑多模数据的高并发高吞吐存取需求。底层存储将更加注重性能优化与扩展性,支持统一管理多个命名空间,避免单点瓶颈,以解决多中心集群数据统一存储与共享问题;兼容多种存储协议,如POSIX、HDFS、S3 及 CSI 等;支持分布式缓存,通过多级缓存加速,提高热点数据命中率,持续提升存储集群性能。
二是构建多模态数据标准,促进数据的整合、共享、交换。通过构建一个多层次、可扩展的多模态数据标准体系,为不同来源和类型的数据提供统一的处理和分析方法,有效解决多模态数据不均衡、难对齐、存在语义鸿沟等问题,降低多模态数据的整合难度,减少数据转换和清洗工作量,助力多模态数据的有效利用。
三是依托各类技术工具实现数据质量治理环节前置。当前,如英伟达、微软、谷歌和 OpenAI 等厂商已经开始基于多模态元数据和多模态数据标准,制定多模态数据质量检测指标并构建检测任务的技术实践,在数据汇聚阶段保障数据质量。未来,数据质量治理环节前置将成为提升模型训练效率,增强数据融合水平的关键。
本文暂时没有评论,来添加一个吧(●'◡'●)