大模型时代需要什么样的存储？

浏览： ℃

字体：大中小

发布时间：2023-07-19 08:19:31

来源：环球网

【环球网报道记者张阳】随着科技的飞速发展，我们正日益步入一个以大数据、人工智能、云计算等新技术为代表的时代。尤其是在“大模型”盛行的今天，人工智能技术作为关键变量，如今已然成为推动新一轮科技革命、产业变革和社会发展的战略抓手，赋能各行各业深刻改变着人们的社会生活、产业结构、工作方式和科技趋向。

只不过我们今天密切关注大模型的发展多少有些“空中楼阁”的意味，在这则成语故事中，富豪只想要第三层楼，而不想让工人修建一二两层。“大模型”就像这第三层楼，尤其是行业大模型聚焦特定领域、针对特定场景、解决特定问题，为行业赋能，吸引了大众的目光。

但是要想这第三层楼不在一夜之间轰然倒塌，甚至还想让其向更高层拔节生长就要格外重视一二两层的稳固。算力、算法、存储、框架、人才等各个层面都决定了大厦如何成就之大。

存储成为大模型发展的基石

这其中算力、算法、数据在发展人工智能过程中的重要性早已为人所熟知。但是作为数据的承载，存储却往往被忽略。其实人工智能的发展与计算机系统的发展有一定相似之处，都符合典型木桶理论，任何部分存在短板都会严重制约整体性能。在训练大模型过程中，往往需要大量数据的交换，如果存储性能不强，那么可能需要耗费大量时间才能完成一次训练，这就会严重制约大模型的发展迭代。

事实上不少企业在开发及实施大模型应用过程中，已经开始意识到存储系统所面临的巨大挑战。

首先，数据准备时间长，数据来源分散，归集慢。数据归集需从跨地域的多个数据源拷贝原始数据。多种数据格式、协议的数据源，造成了数据归集流程复杂、耗时长；另一方面，传统硬盘邮递方式时间长达数周，公共网络传输方式费用高昂。如何打通数据孤岛、缩短归集时长是大模型时代存储系统面临的第一个挑战；

其次，是数据预处理周期长。因为网络上收集的原始数据是不能直接用于AI模型训练的，需要将多样化、多格式的数据进行清洗、去重、过滤、加工，行业内称其为“数据预处理”。与传统单模态小模型训练相比，多模态大模型所需的训练数据量是其1000倍以上，一个典型的百TB级大模型数据集，预处理时长超过10天，占比AI数据挖掘全流程的30%。同时，数据预处理伴随高并发处理，对算力消耗巨大。如何以最经济的手段，缩短数据预处理的时长是当前亟需解决的第二个问题；

再次，是训练集加载慢；训练易中断，数据恢复时间长。相较于传统学习模型，大模型训练参数、训练数据集指数级增加，如何实现海量小文件数据集快速加载，降低 GPU等待时间是关键。目前，主流预训练模型已经有千亿级参数，而频繁的参数调优、网络不稳定、服务器故障等多种因素带来训练过程不稳定，易中断返工，需要Checkpoints机制来确保训练回退到还原点，而不是初始点。当前，由于Checkpoints需要天级的恢复时长，导致大模型整体训练周期陡增，而面对单次超大的数据量和未来小时级的频度要求，需要认真考虑如何降低Checkpoints恢复时长；

最后，大模型实施门槛高，系统搭建繁杂，推理实时性和精准度低。当大模型用于推理时，为了提升推理数据的实时性和精准度，避免大模型出现幻觉，需要将最新数据和企业私有数据连接到大模型。如果用最新的数据在GPU训练集群进行再次的训练和微调，训练时间长，而且成本高昂。因此需要寻找更高效的方法，实现模型数据的动态更新；

数据决定AI智能高度

针对这些挑战，华为顺应大模型时代AI发展趋势，针对不同行业、不同场景大模型应用，在7月14日发布了OceanStor A310深度学习数据湖存储和FusionCube A3000训/推超融合一体机。

在华为看来，企业在大模型开发过程中面临的挑战，正是可以有的放矢解决存储问题的标靶。首先，针对数据归集难，华为数据存储构建数据编织能力，通过全局文件系统Global File System，可以实现跨系统、跨地域、跨云的全局统一数据视图和调度的能力，使得数据归集从天级缩短到小时级。提升数据传输效率，打破数据孤岛，使得所有这些数据就好比在一个设备中存储一样，能够很好地支持大模型使用数据。

针对预处理周期长难题，华为通过近存计算，数据在存储完成数据准备，减少数据搬移；存储支持配置算力，加速数据准备，释放训练集群CPU、GPU资源。

面对训练集加载慢以及训练易中断，数据恢复时间长的问题，华为通过预处理加速、高性能高带宽加速训练集加载等手段降低数据恢复时间。

而就此打造的两款AI存储新品，专门为基础模型训练、行业模型训练，细分场景模型训练推理等场景提供存储解决方案。

其中，OceanStor A310深度学习数据湖存储，面向基础/行业大模型数据湖场景，实现从数据归集、预处理到模型训练、推理应用的AI全流程海量数据管理。OceanStor A310单框5U支持业界最高的400GB/s带宽以及1200万IOPS的最高性能，可线性扩展至4096节点，实现多协议无损互通。全局文件系统GFS实现跨地域智能数据编织，简化数据归集流程；通过近存计算实现近数据预处理，减少数据搬移，预处理效率提升30%。

FusionCube A3000训/推超融合一体机，面向行业大模型训练/推理场景，针对百亿级模型应用，集成OceanStor A300高性能存储节点、训/推节点、交换设备、AI平台软件与管理运维软件，为大模型伙伴提供拎包入住式的部署体验，实现一站式交付。开箱即用，2小时内即可完成部署。训/推节点与存储节点均可独立水平扩展，以匹配不同规模的模型需求。同时FusionCube A3000通过高性能容器实现多个模型训练推理任务共享GPU，将资源利用率从40%提升到70%以上。FusionCube A3000支持两种灵活的商业模

模式，包括华为昇腾一站式方案，以及开放计算、网络、AI平台软件的第三方伙伴一站式方案。

华为数据存储产品线总裁周跃峰表示：“大模型时代，数据决定AI智能的高度。作为数据的载体，数据存储成为AI大模型的关键基础设施。华为数据存储未来将持续创新，面向AI大模型时代提供多样化的方案与产品，携手伙伴共同推进AI赋能千行百业。”

将目光投向更长远，大模型时代存储、计算、网络等IT基础设施势必会根据新需求进一步重塑。当AI产业具有了坚实的地基和一二层楼，届时才能再上层楼，登高远望，看见AI时代更美的风景。

>更多相关文章