若是说2023年是人人对生成式AI(GenAI)初步强壮的阶段,那么2024年则是人人各大组织/企业长远探索东说念主工智能买卖价值的要津之年。
跟着生成式AI等东说念主工智能本领被越来越多的用户接纳,存储等数据基础门径正濒临着前所未有的挑战,用户愈发坚决到存储系统必须满足东说念主工智能数据考试与推理在性能、延时、容量、彭胀性等方面的严格要求。
近期,在最新发布的MLPerf AI存储基准评测中,海潮信息的分散式存储平台AS13000G7凭借其翻新本领,显贵提高了数据处理驱散,在8项测试中取得了5项最好性能收获,终显明集群带宽360GB/s、单节点带宽达120GB/s的超卓发扬,充分展示了其在满足AI场景下高性能存储需求方面的坚强智力,为大范围数据处理和AI应用提供了坚实的基础。
不仅是“容器”,如故“加快器”
在传统不雅念里,存储等数据基础门径就像一个存储数据的“容器”;参预到AI时期,在各式AI应用场景中,存储则苍狗白衣,成为股东AI应用和股东AI产业化的“加快器”。
以这次MLPerf测试为例,通过驱动一个分散式AI考试测试范例,模拟GPU计算历程,要求在GPU运用率高达90%或70%的要求下,以存储带宽和复古的模拟 GPU (模拟加快器)数目为要津性能目标,来评估AI考试场景下存储的性能发扬,从而考证存储对GPU算力的加快智力。
张开剩余85%若是把计算节点比作“数据工场”,存储介质则相配于数据仓库。提高存储性能,意味着用户大约在兼并时辰内通过“存储高速”在“数据工场”和“数据仓库”之间更高效地存取“数据物料”。
举例,东说念主工智能的大模子考试数据加载、PB级检讨点断点续训(其中,检讨点联系支拨平均可占考试总时辰的12%,致使高达43%)和高并发推理问答等场景下,存储系统的性能平直关乎通盘这个词考试与推理历程中GPU的有用运用率。尤其是在万卡集群范围下,相配于范围浩瀚“数据工场”,“坐褥机器”GPU一朝开动,若是莫得实时输送“数据物料”,约即是让GPU闲置。稀有据夸耀,存储系统1小时的支拨,在千卡集群中就意味着将浮滥1000卡时,形成计算资源的损成仇业务老本剧增。
那么,要终了“数据物料”的快速高效运送,不错从存储哪些标的动手?
其一,减少中转站--数控分离。通过软件层面的翻新,将抑止面(数据工场)和数据面(介质仓库)分离,减少数据中转,镌汰传输旅途,提高存储单节点及集群的全体性能。
其二,增多车说念数--硬件升级。硬件层面礼聘新一代的高性能硬件,通过DDR5和PCIe5.0等,升级存储带宽,增多传输通说念数目,提高存储性能的上限。
其三,物料就近存储--软硬协同。在软硬协同层面,基于数控分离架构,自主抑止数据页缓存(储备仓)分拨政策,生动诊治内核数据移动,数据就近得回,从而终了快速I/O。
接下来,咱们将逐个先容这三大性能提高妙技背后的终了旨趣稀奇主要价值。
软件优化
数控分离,责怪80%节点间数据转发量
在传统分散式文献系统中,数据和元数据高度耦合,导致数据读写信息的分发、传输和元数据处理齐需要经过主存储节点。在AI应用场景下,跟着客户端数目激增和带宽需求扩大,CPU、内存、硬盘和汇集I/O的处贤慧力濒临严峻锤真金不怕火。尽管数控一体的分散式文献系统在幽静性方面发扬优异,但在面对AI考试等大I/O、高带宽需求时,其性能瓶颈逐步涌现。数据需通过主节点在集群里面进行转发,这不仅占用了多数的CPU、内存、带宽和汇集资源,还导致了数据传输的蔓延。
为惩办该问题,业界曾尝试通过RDMA本领来提高存储带宽。RDMA允许外部成就绕过CPU和操作系统平直拜访内存,从而责怪了数据传输蔓延并松开了CPU负载,进而提高了汇集通讯驱散。然则,这种模样并未从根底上惩办数据中转带来的蔓延问题。
基于此布景,海潮信息翻新自研分散式软件栈,礼聘全新数控分离架构,将文献系统的数据面和抑止面澈底解耦。抑止面主要认真管制数据的属性信息,如位置、大小等,通过优化逻辑抑止和数据管制算法来提高存储系统的拜访驱散和数据一致性。而数据面则平直认真数据的读写操作,排斥中间法子的数据处理蔓延,从而镌汰“数据物料”的存取时辰。
这种数控分离的模样显贵减少数据流在节点间的转发次数,责怪80%的东西向(节点间)数据转发量,充分清楚硬盘带宽,稀奇是全闪存储性能。以海潮信息分散式存储平台AS13000G7为例,在换取配置下,比较于单一TCP和单一RDMA决策,数控分离架构大约带来60%读带宽提高和110%写带宽提高。
硬件升级
拓宽传输通路,终了有储性能翻倍
在AI应用场景下,“数据物料”的快速运送依赖于高效的“存储高速”通说念。跟着CPU、内存、硬盘等硬件本领的束缚翻新,升级“存储高速”通说念的硬件成为提高存储性能的进犯蹊径。
海潮信息分散式存储平台AS13000G7礼聘业界最新高端处理器芯片,如Intel第五代至强可拓展处理器,单颗最大复古60核,复古Intel 最新2.0版块睿频加快本领、超线程本领以及高档矢量拓展教唆集512(AVX-512)。同期,复古DDR5内存,如三星、海力士的32G、64G高性能、大容量内存,单根内存在1DPC1情况下,不错复古5600MHz频率,比较与DDR4的3200MHz的内存,性能提高75%。
基于最新处理器的硬件平台,AS13000G7还是复古PCIe5.0尺度,并在此基础上复古NVDIA最新的CX7系列400G IB卡及海潮信息自研PCIe5.0 NVMe。相较于上一代AS13000G6的PCIe4.0的I/O带宽,终了带宽提高100%。
在狡计上,G7一代硬件平台将硬件模块化狡计理念最大化,将处理器的I/O沿路扇出,礼聘线缆、转接卡等尺度狡计,终了配置的生动性。最大可复古4张PCIe5.0 X16的FHHL卡,通盘后端的SSD成就均通过直连终了,取消了AS13000G6 的PCIe Switch狡计,从而排斥了数据链路上的瓶颈点。前端IO的性能及后端IO的表面性能均提高了4倍。
为测试性能发扬,海潮信息将两种软件栈分别部署在两代硬件上并进行读写测试。驱散夸耀,与上一代硬件平台比较,在不同软件栈上AS13000G7的性能可提高170%-220%,有用保险了AI应用场景下的存储性能。
软硬协同
内核亲和力诊治,内存拜访驱散提高4倍
在刻下的AI基础门径平台中,计作为事器配置相配高,更高性能的CPU和更多的插槽数带来了NUMA(Non-Uniform Memory Access)节点数据的增多。在NUMA架构中,系统内存被分离为多个区域,每个区域属于一块特定的NUMA节点,每个节点齐有我方的土产货内存。因此,每个处理器拜访土产货内存的速率远快于拜访其他节点内存的速率。
然则,在多核处理器环境下,会产生多数的跨NUMA远端拜访。在分散式存储系统中,由于IO央求会经过用户态、内核态和远端存储集群,中间时常的高下文切换会带来内存拜访蔓延。如下图,在未经过NUMA平衡的存储系统中,存储的缓存空间勾通在单个NUMA节点内存内。当IO央求量增大时,通盘其他NUMA节点的CPU核的数据拜访均勾通在单个Socket内,形成了多数跨Socket 、跨NUMA拜访。这不仅导致了CPU核的超负荷运送和多数闲置,还使得不同Socket上的内存带宽严重不平衡,单次远端NUMA节点拜访形成的狭窄时延积存将进一步增大全体时延,导致存储系统团员带宽严重下落。
为了责怪跨NUMA拜访带来的时延,海潮信息通过内核亲和力诊治本领,在全新数控分离架构下,使内核客户端可自主抑止数据页缓存分拨政策并主动罗致用户下发的IO任务。这种模样大约愈加生动地终了千般客户端内核态到远端存储池的数据移动政策。其中,针对不同的IO线程进行NUMA感知优化,将业务读线程与数据自动分拨到换取的NUMA节点上,这么,所稀有据均在土产货NUMA内存射中,有用减少了高并发下NUMA节点间数据传输,责怪了IO链路时延,4倍提高内存拜访驱散,保证负载平衡。
要而论之,在AI时期,存储性能关于东说念主工智能考试、推理和应用的驱散至关进犯。海潮信息分散式存储平台AS13000G7凭借其软件优化、硬件升级和软硬协同的三大上风,展现了极致的性能发扬,成为了AI时期各大用户的理念念存储弃取。海潮信息将络续努力于本领翻新,为用户提供愈加高效、可靠的存储惩办决策,股东东说念主工智能产业的快速发展。
发布于:湖北省