B体育·(中国)官方网站-BSPORTS

b体育大模型基础设施如何建？首先要搭万卡规模的网络架构—新闻—科学网来源：B企业

发表时间: 2024-04-12

“天生式AI是一个超过式的技能，以及本来的技能有了很是年夜的厘革，可以说是划时代的技能。它最年夜的特色就是模子年夜，已往几年以每一年10倍参数目的速率于增加。以前AI运用里，许多练习的使命都是单卡或者单机就能完成，但于年夜模子时代，需要千卡、万卡来完成一个使命。”5月23日，baidu卓异体系架构师王雁鹏于深圳进行的文心年夜模子技能交流会上说道。

于王雁鹏看来，于如许的算力要求下，智算根蒂根基举措措施的设计范式演进已经经发生改变。要构建如许万卡范围的年夜模子根蒂根基举措措施，焦点需要存眷的有四点：

第一，需要构建智算集群，可以或许撑持万卡级另外高速互联，而且撑持各类异构算力，包孕CPU（中心处置惩罚器）、GPU（图形处置惩罚器）等算力的高速互联。

第二，光有硬件威力还很难有好的效果，好比要阐扬一张GPU或者AI芯片的机能，很是难，以是要把软件栈优化好，这终极会表现于练习以及推理的机能加快优化上。

第三是高性价比，构建如许一个体系需要有更合理的技能选择，最贵的工具也不克不及满意全数需求，做存储分层、计较分层，重要是要到达更高性价比。

于这个根蒂根基上，易用性是史无前例的应战，好比万卡范围的运算需要不变的运转，弹性的容错，而且可以或许于易用平台上一站式运用。

据baidu智能云副总裁朱勇吐露，自3月16日“文心一言”b��内测以来，经由过程算法以及模子的连续优化，于企业办事中，“文心一言”于高频场景下的推理机能已经年夜幅晋升50倍。

怎样实现这一成果？于演讲中，王雁鹏从技能角度注释了这一个月的事情，和新的技能范式演进下的思绪转换。

如下为彭湃科技（www.thepaper.cn）收拾整顿的演讲实录，有删减：

天生式AI是一个超过式的技能，以及本来的技能有了很是年夜的厘革，可以说是划时代的技能。它最年夜的特色就是模子年夜，已往几年以每一年10倍参数目的速率于增加。以前AI的运用里，许多练习的使命都是单卡或者者单机就能完成，可是于年夜模子时代，需要千卡、万卡完成一个使命。

光增长模子范围，其实不能很好晋升模子的效果以及机能，还要同比去增加数据量级。以是把模子范围乘以数据量级，基本可以看到，数据量也因此指数级晋升的。

这以及摩尔定律很是像。以前常常说摩尔定律是需要一年半翻一番，新的人工智能时代年夜模子的“摩尔定律”也有如许的纪律，以至比本来的摩尔定律还要快，基本上每一8-10个月就要翻一番。但以及本来的摩尔定律又有素质上的差别，本来的摩尔定律基本是半导体的纪律，是工艺以及半导体出产的纪律。对于在年夜模子，光有芯片威力很难阐扬出来，还需要芯片、框架、体系全栈的总体优化。

于这么年夜的算力需求下，智算根蒂根基举措措施的设计范式演进发生了甚么改变？

直不雅理解，起首是计较范围年夜。根据GPT-3的范围来计较，假如用一张此刻开始进的A100卡，需要跑32年。从模子参数来看，350G的存储空间，再加之运转时有年夜量的参数存储，多是几个T（1T=1024G）的数据量。假如相识GPU会知道，单卡是80G显存容量。假如跑几个T的模子，象征着需要上千张卡同时运转，终极折算于成本上，跑一次年夜模子的练习成本需要几万万，以致在上亿元人平易近币。假如日后看，推理成本占比更年夜。

这个暗地里映照到几点技能的厘革。

一个是漫衍式架构的演进。此刻互联网漫衍式架构实在是一种比力松耦合（提供了更好的可扩大性以及可维护性，同时降低了体系之间的依靠性）的体式格局。此刻的数据中央也会有几万台呆板，以至十几万台呆板连于一路，但更可能是每一一台完成本身的使命，它的通讯以及容错威力都比力低。但千张卡、万张卡年夜范围同步运转，有年夜量的数据交互，以是这需要漫衍式架构的演进。

第二是计较精度，总体向低精度迁徙，混淆精度是常态。

再向后看，存储也带来更年夜的瓶颈，光有计较的晋升是不敷的，还要有年夜量的数据于体系里流动。像芯片技能中，数据的搬运耗损远高在数据计较，以是于芯片层面，于整个体系层面，如何解决存储问题，也长短常年夜的应战。

于这个模式下，要构建一个年夜模子根蒂根基举措措施，咱们最存眷的有四点：

第一，需要构建智算集群，可以或许撑持万卡级另外高速互联，而且撑持各类异构算力，包孕CPU、GPU等算力的高速互联。

再接着是高性价比。构建如许一个体系也不克不及甚么工具都用最贵的，最贵的工具也不克不及满意全数需求，咱们需要有更合理的技能选择，做存储分层、计较分层也好，重要是要到达更高性价比。

于这个根蒂根基上，易用性是史无前例的应战，好比用万卡的时辰需要不变的运转，弹性的容错，而且可以或许于易用平台上一站式运用。

从技能栈上，我重点分享一些焦点技能以及要害点。

第一，怎么构建万卡范围的收集架构？于这么年夜范围下，要包管收集的扩大性，和没有堵塞，长短常坚苦的事。年夜模子的通讯特色是，有许多调集通讯的操作，调集通讯可以分化成于同号卡之间的调集通讯。也就是说，单机要8张卡，多机并行只需要同号卡之间做调集通讯。于此根蒂根基上，咱们优化了收集架构，于同号卡之间构建高速的通讯通道，如许可以包管任何通讯都能解决，年夜年夜晋升总体收集的吞吐，和消弭各类收集堵塞以及冲突的可能性。

除了了计较侧，存储侧是别的一个重点。咱们既需要容量年夜，也需要速率快，以是设计了多级存储体系，对于在年夜量数据照旧存于对于象存储BOS（云存储办事)体系里，它可以撑持很是年夜范围的容量。于高速练习的时辰，就需要它饰演相称在缓存体系的脚色。

再向上看就是加快层，尤为对于在AI练习来讲，这个流程很是长，包孕了IO预处置惩罚（对于计较机输入输出数据举行预处置惩罚，包孕查抄数占有效性、正当性、完备性以及一致性），IO读取（输入/输出、Input/Output的简写），另有各类算子高机能的实现，或者算子的交融等技能，还包孕通讯的优化，显存哄骗率。要把整个软件栈的一整套工具，集成于练习加快套件里。日后看，推理加快套件是更值患上存眷之处。对于年夜模子来讲，推理会孕育发生很是年夜的坚苦。为何baidu于文心一言发布后的一个月时间里，让推理机能晋升50倍，咱们相称在做了集中攻关以及整套软件的优化。

再往上是框架侧，就是所谓的4D混淆并行（于呆板进修练习历程中，同时使用模子并行、数据并行、流水线并行以及漫衍式并行等四种并行计谋）。对于这么年夜的计较，怎么样拆到各个GPU里，有差别的并行计谋，这类并行计谋的目的是获得更优的计较效能。光有并行计谋还不敷，并行计谋如何跟计较的集群硬件去映照，这是更要害之处。假如只是一个模子，可以不停测验考试并行计谋，基本上能获得相对于好的效果，但若撑持更多的模子，就需要做纷歧样的测验考试，这也很可贵到比力优的效果。咱们于这块投入很年夜精神，基本上可以做到全主动的并行，不论是甚么样的硬件拓扑以及硬件的组合，都可以或许于漫衍式层做到主动。

这些根蒂根基打好了，接下来容错就长短常要害的点，基本上于万卡范围下，不成能不堕落。调集通讯的通讯模式，生成也是容错性比力差的。咱们这块也做了年夜量事情，此刻基本上于通讯库层、框架层、调理层可以做到差别条理的容错，获得千亿参数年夜模子练习可以不中止的效果。

（原标题：年夜模子的根蒂根基举措措施怎样建？起首要搭千卡万卡范围的收集架构）

出格声明：本文转载仅仅是出在流传信息的需要，其实不象征着代表本消息网不雅点或者证明其内容的真实性；如其他媒体、消息网或者小我私家从本消息网转载使用，须保留本消息网注明的“来历”，并自大版权等法令义务；作者假如不但愿被转载或者者接洽转载稿费等事宜，请与咱们联系。/b体育