突破瓶颈!华为两大AI存储新品推进AI赋能千行百业
- +1 你赞过了
【雷竞技须安全稳定 DIY硬件频道】2023年,AI大模型的爆发成功引起连锁反应,头部厂商纷纷入局,推出自家的大模型。根据科技部新一代人工智能发展研究中心5月底发布的《中国人工智能大模型地图研究报告》显示,我国10亿参数规模以上的大模型已发布79个,“百模齐放”近在眼前。
来到大模型时代,AI不仅加速赋能千行百业,更对IT基础设施提出了新诉求。比如算力升级,调研机构TrendForce将2023年AI服务器预计出货量增幅调升超过1倍。为了加强算力,有更适合AI的GPU、加速器持续更新,数据中心与算力网络构建也在快速推进。但值得关注的是,面对AI大模型中更复杂的数据归集、预处理、训练、推理等过程,存力也迫切需要优化升级,避免数据存储成为系统瓶颈和算力资源闲置、浪费等局面。
“大模型时代,数据决定AI智能的高度。作为数据的载体,数据存储成为AI大模型的关键基础设施。”在7月14日举办的大模型时代华为AI存储新品发布会上,华为数据存储产品线总裁周跃峰这样说道。
华为苏黎士研究所数据存储首席科学家张霁在分享中也提到,AI大模型与此前火热的深度学习相比,除模型自身的部分变化外,最大的特点就是数据量变得更大,也更加重要。高质量数据在很大程度上决定了AI模型的上限,算法和算力只是去无限逼近这个上限。
华为认为当前企业在开发及实施大模型应用过程中将面临四大挑战:
首先,数据准备时间长,数据来源分散,归集慢。周跃峰提到,百TB级的数据预处理需要10天左右时间,十分不利于整个系统高效运作。
其次,多模态大模型以海量文本、图片为训练集,数据量可能达到千亿、万亿参数级,对于系统小文件读写能力的需求相当严苛,但当前海量小文件的加载速度不足100MB/s,训练集加载效率低。
第三,大模型参数频繁调优,训练平台不稳定,平均约2天出现一次训练中断,需要Checkpoint机制恢复训练,故障恢复耗时超过一天。
第四,大模型实施门槛高,系统搭建繁杂,维护成本高,资源调度难,GPU资源利用率通常不到40%。
为了解决这些挑战,突破数据存力瓶颈,华为针对不同行业、场景大模型应用诉求推出了两款存储新品——OceanStor A310深度学习数据湖存储与FusionCube A3000训/推超融合一体机。
全球性能密度最高的存储:OceanStor A310
OceanStor A310提供5U 96盘位,带宽可以达到400G/s和1200万IOPS。OceanStor A310具备出色的可扩展性,最高支持4096个节点横向扩展,还有极高密度性能,每U带宽可以达到80G,是业界标准的1.6倍,并拥有240万IOPS。
周跃峰介绍到,OceanStor A310是“为智能数据而生”,可以实现从数据归集、预处理到模型训练、推理的整体存储支撑。重点来了,除了卓越的性能,这款深度学习数据湖存储还支持存内计算。
OceanStor A310内置全局文件系统GFS具备智能数据编制能力,可以接入AI大模型分散的原始数据、实现跨系统、跨地域、跨多云的全局统一数据视图和调度,简化数据的归集流程。同时,OceanStor A310基于近存计算还可以通过内嵌的算力实现数据的预处理,避免数据的无效搬移,也降低处理服务器等待时间,预处理效率可以提升至少30%以上。
降低AI大模型部署门槛——FusionCube A3000训/推超融合一体机
尽管已经“百模齐放”,但AI大模型落地到不同企业、场景中仍旧存在很高的门槛,无论是来自数据准备、数据断点续接等难题,还是系统构建部署,都成为更多企业进军大模型的拦路虎。
为了降低实施AI大模型门槛,解决这个复杂数据系统中来自工程、集成、运维等方方面面的难题,华为推出了FusionCube A3000训/推超融合一体机。周跃峰表示,华为希望通过训/推超融合一体机等解决方案助力AI普惠,不仅是头部企业、大厂能够使用的先进更具,更是具备普适性的工具。
FusionCube A3000集成OceanStor A300高性能AI存储节点(支持50GB/s带宽、180万IOPS)、训/推节点、交换设备、AI平台软件与管理运维软件。不仅能够支持百亿级参数规模的模型,针对通用大模型、行业模型、中小规模模型等多样性行业及场景需求,可以通过水平扩展来完成适配。FusionCube A3000在硬件层面具备算力、存力、运力,同时还有管理及虚拟化容器等软件支持,为大模型伙伴提供拎包入住式的部署体验,实现一站式交付。做到开箱即用,2小时内即可完成部署;支持5秒故障监测、5分钟故障恢复。
FusionCube A3000的亮点不仅在于高性能、高集成、可扩展性,还可以提升算力资源的利用效率。通过高性能容器软件,FusionCube A3000可以实现CPU、GPU资源池化共享。面对多场景训练、推理应用,或者模型调优、大小模型融合调度等业务需求,通过容器实现资源共享,将资源利用率从40%提升至70%以上。
除此之外,FusionCube A3000提供两种商业模式选择,更符合不同企业多样性需求,实现灵活部署,敏捷高效。一种是全国产化昇腾一站式方案,集成自研存储、网络、昇腾计算与管理运维软件。另一种模式为开放计算、网络、AI平台软件的第三方伙伴一站式方案。
写在最后
在复杂的AI大模型系统中,任何一个环节出现短板都可能成为瓶颈。周跃峰提到,在AI大模型整个生命周期中,从投入成本来看,存储的比重在增加,不仅是因为数据量变大导致数据存储、处理越发重要,更是因为AI大模型系统中对于数据处理更加复杂,在此过程中对于性能要求更高。
华为分布式存储领域副总裁韩振兴也表示,在AI大模型领域,堆叠算力并不一定能提升性能,甚至可能由于存力无法满足数据归集、预处理、训练/推理等高性能需求,而导致算力等待,资源限制。未来,在建设系统时一定会更加重视最佳的整体算存比。
华为发力AI存储可挖掘的市场以及突破的瓶颈不仅是大模型,大模型只是AI赋能千行百业的的冰山一角。有数据显示,2023年上班年AI领域月均融资打到48起,设计自然语言处理、计算机视觉、机器人、集成电路、自动驾驶等众多领域。不难预料,作为先进工具的AI大模型可以加快AI渗透到更多领域,这也必然会进一步要求底层IT基础设施,特别是算力、存储等关键基础设施的升级创新。
对于华为及其合作伙伴而言,这是巨大的机遇。目前来看,华为在AI存储领域的布局早已展开,本次亮相的产品也是华为筹备多年的成果。同时在洞察市场趋势及布局未来方面,华为存储也有所行动,包括助力企业更加高效的实施AI大模型,提升大模型训练效率以及更受关注的数据安全等领域。例如围绕数据安全流转挑战,张霁提到华为正在研究称为“数据方舱”的技术。他表示,在流转的过程中,数据及其访问权限、凭证信息都被封装在一起,而数据到达归集地后,将在“数据方舱”安全执行环境中被安全地使用,从而保证数据的安全访问。
未来华为存储也将持续创新,周跃峰表示:“面向AI大模型时代提供多样化的方案与产品,携手伙伴共同推进AI赋能千行百业。”
最新资讯
热门视频
新品评测