AI推理进入“10毫秒、1块钱”时代！浪潮信息发布面向智能体优化AI计算系统

在2025人工智能计算大会上，浪潮信息宣布，基于元脑SD200超节点AI服务器，DeepSeek R1大模型token生成速度仅需8.9毫秒，创造国内大模型最快token生成速度。最新发布的元脑HC1000超扩展AI服务器，实现每百万token成本首次击破1元。

随着Scaling Law持续推动模型能力跃升，以DeepSeek为代表的开源模型极大降低了创新门槛，加速智能体产业化的到来。智能体产业化的核心三要素是能力、速度和成本。其中，模型能力决定了智能体的应用上限，交互速度决定了智能体的商业价值，token成本决定了智能体的盈利能力。

浪潮信息对AI计算架构的持续创新，旨在解决智能体产业化面临的交互速度和token成本两大瓶颈，为多智能体协同与复杂任务推理的规模化落地，提供高速度、低成本的算力基础设施。

仅需8.9毫秒！元脑SD200引领token生成速度率先进入“10毫秒时代”

浪潮信息最新公布，基于元脑SD200超节点AI服务器运行DeepSeek R1大模型，单token生成速度低至8.9毫秒，带动国内AI服务器token生成速度率先进入“10毫秒时代”。

元脑SD200基于创新研发的多主机低延迟内存语义通信架构，在单机内实现了64路本土AI芯片的高速统一互连，单机可承载4万亿参数单体模型，或部署多个万亿参数模型组成的智能体应用，实现多模型协同执行复杂任务。

为实现极低的通信延迟，元脑SD200采用精简高效的三层协议栈，原生支持多种内存语义操作，避免冗余数据拷贝，将基础通信延迟降至百纳秒级，硬件化链路层重传与分布式预防式流控进一步适配高吞吐、低延迟的 AI 推理场景。

元脑HC1000，推理成本首次击破1元/每百万token

浪潮信息发布元脑HC1000超扩展AI服务器，基于全新开发的全对称DirectCom极速架构，无损超扩展设计聚合海量本土AI芯片、支持极大推理吞吐量，推理成本首次击破1元/每百万token，为智能体突破token成本瓶颈提供极致性能的创新算力系统。

元脑HC1000通过全面优化降本和软硬协同增效，创新16卡计算模组设计、单卡“计算-显存-互连”均衡设计，大幅降低单卡成本和每卡系统分摊成本。同时，全对称的系统拓扑设计支持超大规模无损扩展。据测算，元脑HC1000通过算网深度协同、全域无损技术，实现推理性能相比传统RoCE提升1.75倍，单卡模型算力利用率最高提升5.7倍。

未来，智能体带来的推理算力需求将呈现出指数级的爆发式增长。浪潮信息方面透露，将通过软硬件协同设计与深度优化，持续推动AI计算架构的创新与突破，不断实现token生成“提速降本”，积极促进大模型、智能体等人工智能技术与实体经济的深度融合，让人工智能成为千行百业的生产力和创新力。

浪潮服务器浪潮机架式服务器浪潮代理商浪潮总代理四川浪潮服务器代理商成都浪潮服务器经销商咨询电话：18380340551

成都强川科技有限公司

联系我们

在线咨询

电话咨询