根据外媒《The Information》报导,中国人工智能(AI)企业DeepSeek即将推出的新一代大语言模型V4,并已基于包括华为在内的最新国产AI芯片进行了优化。为应对基于该模型云服务上线需求,包括阿里巴巴、字节跳动与腾讯等中国科技巨头,已提前下单华为新一代AI芯片,订单规模达数十万颗。
今年3月21日,在华为中国合作伙伴大会2026上,华为重磅发布并展出了搭载全新昇腾950PR(Ascend 950PR)处理器的AI训练推理加速卡Atlas 350,并宣布该加速卡正式上市。
根据华为此前公布的资料显示,昇腾950PR芯片于今年一季度推出,基于SIMD架构,算力达到1PFLOPS(FP8)/ 2PFLOPS(FP4),支持FP32/HF32/FP16/BF16/FP8/MXFP8 /HiF8/MXFP4/HiF4等数据格式,互联带宽为2TB/s。内存容量和带宽上,昇腾950PR为128GB、1.6TB/s。与前一代昇腾芯片相比,昇腾950PR在低精度数据格式、向量算力、互联带宽及自研HBM等方面实现大幅提升。与英伟达H20相比,该芯片的HBM(高带宽内存)容量是H20的1.16倍,达到了112GB,多模态生成速度可以提升60%;内存访问颗粒度从512字节减少到128字节,小算子访存效率提升4倍。

△Atlas 350加速卡
针对基于昇腾950PR芯片的Atlas 350加速卡的硬件参数,华为公布的数据是:FP4精度算力为1.56P,带宽达到了1.4TB/s;功耗为600W,是H20的1.5倍。
报道指出,DeepSeek-V4预计将于未来数周内发布。为确保新模型能在国产硬件上顺利运行,DeepSeek过去数月已与华为及寒武纪(Cambricon)密切合作,针对模型底层程序进行调整与重写,并同步进行测试验证。
相较于过往AI模型开发通常会与美国芯片大厂合作进行性能优化,DeepSeek此次并未向美系AI芯片供应商开放测试,而是优先提供本土芯片厂参与。此外,该公司亦同步开发两款V4衍生版本,分别针对不同应用场景优化,并同样以中国芯片为基础设计。
市场之所以高度关注DeepSeek-V4,主要来自其前代产品的影响力。先前推出的V3与R1以低成本构架切入市场,曾引发全球科技股震荡,并让投资人重新评价AI发展是否需要持续大规模投入算力资本支出。