Friday, March 20, 2026
ENG
  • About
  • Advertise
  • Careers
  • Contact
Money Compass CN
  • Home
  • Financial News
  • Investment News
  • Other News
    • Bursa News
    • Government News
    • Listing Companies News
    • Oversea Financial & Investment News
  • Interviews
    • Corporate Interviews
    • Features Interviews
  • Financial & Investment Articles
  • PR Newswire
  • Login
No Result
View All Result
Money Compass CN
Home PR Newswire

详解:本土AI超节点元脑SD200如何率先实现token生成速度8.9ms

by
November 10, 2025
in PR Newswire
0
详解:本土AI超节点元脑SD200如何率先实现token生成速度8.9ms
0
SHARES
7
VIEWS
Share on FacebookShare on Twitter

北京
2025年11月10日 /美通社/ — 近日,在2025人工智能计算大会上,浪潮信息公布,基于元脑SD200超节点AI服务器,DeepSeek R1大模型token生成速度仅需8.9毫秒,创造国内大模型最快token生成速度。

元脑SD200
创新设计满足低延迟推理需求

Related posts

Mondevo Group宣布成立全新国际传媒合作企业Phiphen International

Mondevo Group宣布成立全新国际传媒合作企业Phiphen International

March 20, 2026
百事可乐®全球推出百事可乐足球之国–一个在90分钟之外庆祝足球文化的全新全球平台

百事可乐®全球推出百事可乐足球之国–一个在90分钟之外庆祝足球文化的全新全球平台

March 20, 2026

智能体时代的标志性特征是多模型协同与实时决策,每个智能体具备感知-决策-执行的闭环能力,涉及复杂的、多步骤的工作流,需要任务分解、自主决策以及持续的规划和执行。在智能体推理的过程中,即使是单个推理步骤中的延迟也会在多步骤任务中被指数级放大,导致用户体验迟滞。因此,token生成速度正成为影响用户评价的一个关键指标。

元脑SD200超节点AI服务器基于高带宽、低延时、原生内存语义的开放总线协议,通过构建高性能交换单元打造3D Mesh高性能互连超扩展系统,支持64张本土AI芯片高密度算力扩展,能够很好地满足DeepSeek等大模型的低延迟推理需求,加快token生成速度。

精简互连协议:采用事务层-数据链路层-物理层三层精简互连协议,事务层天然支持Load/Store内存语义;数据链路层支持基于信用的流控机制和链路级错误重传保障;物理层建立10-12低误码率的高可靠物理通道,报文有效数据利用率达成96%以上。

全局统一编址:为解决跨主机域通信难题,设计独立于主机域的交换域全局地址空间,将多个独立主机域下的GPU在交换域进行统一的显存编址,为GPU互访提供基础保障。

全局地址映射与数据路由:创新研发影子设备技术,通过影子设备将远端GPU映射到本地主机域,实现所有独立主机对全局GPU的显存访问,通过端口高效转发技术实现跨主机P2P访问。

定制通信算法深度适配元脑SD200

除了硬件方面的创新,浪潮信息AI团队也针对DeepSeek、Kimi等模型的计算特征和元脑SD200的硬件架构特征,完成了通信库、计算框架层面等多方面的优化,充分发挥了元脑SD200的计算性能,最终实现了低延迟推理。同时,也支持预填充-解码 (Prefill-Decode) 分离推理,在满足客户业务场景SLO需求的基础上提供更高性能。

通信库层面,针对Allreduce、Allgather、Alltoall等典型通信算子,浪潮信息制定了与元脑SD200深度适配的通信算法。例如,对于Allreduce,为了充分发挥元脑SD200的低延迟优势,专为Allreduce设计了分层算法策略:针对小数据量,采用全量收集,本地规约的低延迟定制One-Shot算法,旨在最小化GPU间的同步与通信开销;针对大数据量,采用高吞吐的定制化环形算法,以彻底解决带宽瓶颈并实现最优带宽利用率。而对于模型应用中最常见的中等数据量,则采用兼顾延迟与带宽的定制Two-Shot算法。浪潮信息更结合芯片缓存特性对此核心场景进行了深度优化:对中小数据量启用无缓存方案以追求极致延迟;对中大数据量则启用缓存方案,从而最大化吞吐效率。

实测数据表明,在64 GPU集群上进行DeepSeek R1 671B模型的BF16推理时,针对Batch Size为1的decode阶段(其Allreduce数据量约为14 KB),优化后的算法将通信时延降低了5.8倍。此外,在16 KB至16 MB这一核心数据量区间内,定制优化算法的通信时延相较于未优化前的实现降低了1.6至5.8倍;与传统scale-out系统相比,时延降低幅度则进一步扩大至4.5至12.7倍。

全方位框架优化保障计算低延迟

框架层面,浪潮信息AI团队完成了并行方式、算子融合、多流水线等多方面优化,来保证计算的低延迟。

首先,在并行方式上,选择了整网的张量并行。在此并行模式下,通过模型均匀切分实现了设备间计算负载的完全均衡、各个计算板卡之间计算的完全并行和同步,消除了流水线气泡与负载不均衡问题。同时,元脑SD200的高带宽、低延迟确保了AllReduce、AllGather等通信算子性能的大幅提升,使得通信时间大幅下降,从而实现了超低延迟的推理性能。

其次,在算子上,实现了极致的算子融合等优化。GPU的计算速度远远超过了内存带宽的访问速度,从内存中读写数据的时间成本,大部分时候比实际进行计算的时间成本还要高。算子融合可以通过减少不必要的内存读写和计算开销,来显著提升推理速度、降低延迟并减少内存占用,所以基于SGlang框架的已有实现,进行了多个算子的融合。

对MLA模块中attn_mla计算前的算子进行融合,该融合算子以Query和Key向量进行RMSnorm计算后的输出为输入,以attn_mla计算的输入q_input、k_input、v_input等为输出,包含bmm计算、rotary_emb计算以及向量拆分转置等计算;

RMSNorm和add计算融合;

实现int8精度的量化和RMSNorm、silu等激活函数的融合;

将路由专家分组选择中多个算子的融合为一个算子。

最后,也进行了多stream的优化。多个算子计算时,默认在单stream模式下,所有操作都排成一条队,一个接一个地执行。当算子本身的计算量不是很大时,会导致GPU的部分硬件单元在计算时处于空闲状态,也就浪费了计算资源。多stream优化就是为了让这些硬件单元”同时忙起来”,对于相互之间没有依赖关系的操作,可以放到不同的stream中并行执行,提高硬件的利用效率,同时减小整体的计算时间。在多stream并行优化方面,浪潮信息实现了MLA层的多个layernorm计算的并行,并实现了MoE阶段和共享专家计算和路由专家分组选择的并行等,实现了约10%的性能提升。

预填充-
解码分离软件提高整体计算性能

此外,浪潮信息开发了预填充-解码 (Prefill-Decode) 分离软件,针对预填充与解码不同的计算特性,使用不同的并行计算策略、硬件配置等,提高系统整体的计算性能。同时在业务部署中,支持节点服务的动态扩展;支持利用负载均衡和键值缓存(KV cache)命中率进行任务分配,把任务下发到键值缓存匹配度相对较高、任务负载相对较小的节点,减少重复计算,同时最大化计算资源利用率。另外,PD分离软件还实现了键值缓存offload技术,可把键值缓存到CPU端内存与分布式存储系统上,增大缓存空间。

元脑SD200超节点AI服务器通过高带宽和超低延迟通信、超大显存池、智能路由优化、PD分离推理等创新技术,大幅提升了DeepSeek、Kimi等大模型的推理输出速度。元脑SD200搭载64张本土AI芯片运行DeepSeek R1大模型,当输入长度为4096、输出长度为1024时,单用户token生成达到112 tokens/s,每token生成时间仅为8.9ms,率先实现国内AI服务器token生成速度低于10ms,将推动万亿参数大模型在金融、科研、智能制造等领域快速落地。

SOURCE 浪潮信息

Previous Post

联想电讯盈科企业方案携18家新伙伴成立”自主创新技术生态圈”

Next Post

进博热度爆表 | 布勒携首发技术”硬核”出圈,数字化体验引爆全场

Next Post
进博热度爆表 | 布勒携首发技术”硬核”出圈,数字化体验引爆全场

进博热度爆表 | 布勒携首发技术"硬核"出圈,数字化体验引爆全场

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

BROWSE BY CATEGORIES

  • Blog
  • Bursa News
  • Corporate Interviews
  • Features Interviews
  • Financial & Investment Articles
  • Financial News
  • Government News
  • Investment News
  • Listing Companies News
  • Oversea Financial & Investment News
  • PR Newswire

BROWSE BY TOPICS

2018 League Balinese Culture Bali United Budget Travel Champions League Chopper Bike Doctor Terawan Istana Negara Market Stories National Exam Visit Bali

Recent News

  • Mondevo Group宣布成立全新国际传媒合作企业Phiphen International
  • 百事可乐®全球推出百事可乐足球之国–一个在90分钟之外庆祝足球文化的全新全球平台
  • 高频上新创新产品 汤臣倍健2025年净利润同比增长19.81%

Category

  • Blog
  • Bursa News
  • Corporate Interviews
  • Features Interviews
  • Financial & Investment Articles
  • Financial News
  • Government News
  • Investment News
  • Listing Companies News
  • Oversea Financial & Investment News
  • PR Newswire
  • About
  • Advertise
  • Careers
  • Contact

Copyright © 2024 Money Compass Media (M) Sdn Bhd. All Rights Reserved

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • Features Interviews
  • Government News
  • Financial News
  • Investment News
  • Listing Companies News
  • Corporate Interviews
  • Bursa News
  • Financial & Investment Articles
  • Oversea Financial & Investment News

Copyright © 2024 Money Compass Media (M) Sdn Bhd. All Rights Reserved