万亿参数!元脑企智一体机率先支持Kimi K2大模型
北京2025年7月21日 /美通社/ -- 浪潮信息宣布元脑企智一体机已率先完成对Kimi K2 万亿参数大模型的适配支持,并实现单用户70 tokens/s的流畅输出速度,为企业客户高效部署应用大模型提供高处理性能和完善的软件工具平台支持。 Kimi K2是月之暗面推出的开源万亿参数大模型,创新使用了MuonClip优化器进行训练,大幅提升了模型的学习效率。K2在代码生成、数学推理、Agent多步骤任务上展现出领先能力,评测指标达到业界领先水平。自发布以来,K2在开发者和研究社区引起广泛关注,迅速获得在编码辅助和Agent驱动自动化任务中的部署应用。 Kimi K2的模型总参数量达1万亿,激活参数为320亿。K2使用混合专家(MoE)模型结构,较DeepSeek V3采用了更大的参数量和更多的专家数。K2模型1万亿的参数量对AI计算系统提出至少1TB的显存容量需求,384个路由专家所带来的专家负载不均衡性对推理速度有很大影响。目前业界可公开访问的K2 API的输出速度一般低于20 tokens/s,这样较低的性能对于编程或Agent类场景很不友好,会严重影响用户体验。Kimi K2凭借其为智能体任务设计的架构和优秀的智能体验,展现出巨大的应用潜力,但提升推理速度和输出稳定性是其成为可信赖的生产力工具需要解决的核心挑战。 元脑企智一体机采用元脑服务器NF5688G7作为算力底座,其搭载FP8计算引擎,配备1128GB HBM3e高速显存,单台服务器即可支持K2 万亿参数全量模型部署。NF5688G7服务器具备900GB/s的GPU P2P带宽,为Kimi K2提供了专家间高速并行通信,最大化并行效率。该服务器可支持3200Gbps的RDMA扩展网络,为预填充-解码分离部署和大规模专家并行预留了充足的扩展空间。 浪潮信息已完成元脑企智一体机对K2的适配,支持64K上下文长度和多路用户实时并发访问。基于SGLang推理框架,通过减少MoE对齐块大小内核的小批量模式开销和fused_moe的内存消耗,并复用deepGEMM等高效算子,实现单用户并发下输出速度超过70 ...








