新型完全可编程神经处理单元 (NPU) 结合了 CPU、矢量和张量处理,可为 LLM、深度学习和推荐系统提供高达 256 TOPS 的计算能力。
完全可定制 RISC-V 处理器 IP 的唯一供应商 Semidynamics 宣布推出基于 RISC-V 的可扩展、完全可编程神经处理单元 (NPU)--Cervell™。Cervell 将 CPU、矢量和张量功能整合到一个统一的一体化架构中,在从边缘 AI 到数据中心级 LLM 的各种应用中实现零延迟 AI 计算。
Cervell 可在 2GHz 频率下提供高达 256 TOPS(每秒泰拉运算)的性能,可从 C8 扩展到 C64 配置,允许设计人员根据应用需求调整性能--从紧凑型边缘部署中 1GHz 频率下的 8 TOPS INT8 到高端人工智能推理中的 256 TOPS INT4。
Semidynamics 首席执行官 Roger Espasa 说:“Cervell专为人工智能计算的新时代而设计--在这个时代,现成的解决方案是不够的。作为一个 NPU,它能提供从边缘推理到大型语言模型等一切所需的可扩展性能。但真正让它与众不同的是它的构建方式:完全可编程,得益于开放的 RISC-V ISA,没有锁定,可深度定制到指令级。结合我们的 Gazillion Misses™ 内存子系统,Cervell 消除了传统的数据瓶颈,为芯片设计人员构建差异化、高性能的人工智能解决方案奠定了坚实的基础。
NPU 为何重要
人工智能正迅速成为各行各业的核心差异化因素,但传统的计算架构却无法满足人工智能的需求。NPU 专为加速人工智能最依赖的操作类型而设计,可实现更快的洞察力、更低的延迟和更高的能效。对于部署大型模型或扩展边缘智能的公司来说,NPU 是不折不扣地释放性能的关键。
Cervell NPU 专用于加速矩阵繁重的操作,从而实现更高的吞吐量、更低的功耗和实时响应。通过将 NPU 功能与标准 CPU 和矢量处理集成到统一架构中,设计人员可以消除延迟,最大限度地提高从推荐系统到深度学习管道等各种人工智能任务的性能。
释放高带宽人工智能性能
Cervell 与 Semidynamics 的突破性内存管理子系统 Gazillion Misses™ 紧密集成。这使得
同时发出多达 128 个内存请求,消除延迟停滞现象
超过 60 字节/周期的持续数据流
大规模并行访问片外内存,这对大型模型推理和稀疏数据处理至关重要
因此,即使在推荐系统和深度学习等高带宽应用中,NPU 架构也能保持完整的流水线饱和度。
按客户规格打造
与所有 Semidynamics 内核一样,Cervell 可完全定制,客户可以
添加标量或矢量指令
配置刮板存储器和自定义 I/O FIFO
定义存储器接口和同步方案
要求定制适合您应用的功能
随着对差异化人工智能硬件需求的增长,芯片设计人员越来越多地寻求将专有功能直接嵌入其处理器内核的方法。许多 IP 提供商通过固定选项集提供有限的可配置性,而 Semidynamics 则采取了不同的方法--在 RTL 层面实现深度定制,包括插入客户定义的指令。这使公司能够将其独特的 “秘诀 ”直接集成到解决方案中,保护其 ASIC 投资免受模仿,并确保设计在功耗、性能和面积方面得到充分优化。Semidynamics 采用灵活的开发模式,包括早期 FPGA 投片和并行验证,帮助客户加快产品上市时间,同时降低项目风险。
这种灵活性与 RISC-V 开放性相结合,确保客户永远不会被束缚,始终处于掌控之中。
Cervell 一览
配置 |
INT8 @ 1GHz |
INT4 @ 1GHz |
INT8 @ 2GHz |
INT4 @ 2GHz |
C8 |
8 TOPS |
16 TOPS |
16 TOPS |
32 TOPS |
C16 |
16 TOPS |
32 TOPS |
32 TOPS |
64 TOPS |
C32 |
32 TOPS |
64 TOPS |
64 TOPS |
128 TOPS |
C64 |
64 TOPS |
128 TOPS |
128 TOPS |
256 TOPS |
关于 Semidynamics
Semidynamics是唯一一家提供完全可定制RISC-V处理器IP的公司。凭借在高带宽架构、矢量/张量扩展和开创性内存系统方面的专业知识,Semidynamics使客户能够为人工智能、高性能计算和其他性能关键型工作负载准确设计所需的内核。Semidynamics 总部位于巴塞罗那,正在重新定义 RISC-V 的可能性。