4万亿个晶体管，90万个AI核心，Cerebras第三代晶圆级AI芯片来了

芯智讯 | 2024-03-15 23:30:09 阅读：328

3月14日消息，面对火爆的AI市场，新创AI芯片公司Cerebras Systems近日推出了其第三代的晶圆级AI芯片WSE-3，性能达到了上一代WSE-2的两倍，将用于训练业内一些最大的人工智能模型。

据介绍，WSE-3依然是采用了一整张12英寸晶圆来制作，基于台积电5nm制程，芯片面积为46225平方毫米，拥有的晶体管数量达到了4万亿个，拥有90万个AI核心，44GB片上SRAM，整体的内存带宽为21PB/s，结构带宽高达214PB/s。使得WSE-3具有125 FP16 PetaFLOPS的峰值性能，相比上一代的WSE-2提升了1倍。

作为对比，WSE-2芯片面积同样是46225平方毫米，基于台积电7nm制程，晶体管数量为2.6万亿个，AI内核数量为85万个，片上内存SRAM为40GB，内存带宽为20PB/s，结构带宽高达220PB/s。

如果将其与英伟达的H100相比，WSE-3面积将是H100的57倍，内核数量是H100的52倍，片上内存是H100的880倍，内存带宽是H100的7000倍，结构带宽是H100的3715倍。

与此同时，Cerebras还推出了基于WSE-3的CS-3超级计算机，可用于训练参数高达24万亿的人工智能模型，这比相比基于WSE-2和其他现代人工智能处理器的超级计算机有了重大飞跃。该超级计算机可以支持1.5TB、12TB或1.2PB的外部内存，这使它能够在单个逻辑空间中存储大量模型，而无需分区或重构，从而简化了训练过程，提高了开发人员的效率。

最新的 Cerebras 软件框架可以为PyTorch 2.0 和最新的 AI 模型和技术（如多模态模型、视觉转换器、专家混合和扩散）提供原生支持。Cerebras 仍然是唯一为动态和非结构化稀疏性提供本机硬件加速的平台，相比英伟达的DGX-100计算机系统，将训练速度提高了8 倍。

Cerebras还强调了CS-3卓越的电源效率和易用性。尽管性能翻了一番，CS-3仍保持着与前代产品相同的功耗。它还简化了大型语言模型（LLM）的训练，与GPU相比，所需代码减少了97%。例如，该公司表示，GPT-3大小的模型在Cerebras平台上只需要565行代码。

就可扩展性而言，CS-3可以配置在多达2048个系统的集群中。这种可扩展性使其能够在四个系统的设置下，在一天内微调700亿个参数模型，并在同一时间段内全面从头开始训练Llama 70B模型。

Cerebras表示，该公司已经看到了外界对CS-3的巨大兴趣，并有来自各个行业的大量订单积压，包括企业、政府和公有云厂商。Cerebras还与美国阿贡国家实验室和梅奥诊所等机构合作，强调了CS-3在医疗保健方面的潜力。

Cerebras和G42之间的战略合作伙伴关系也将随着Condor Galaxy 3的建设而扩大，这是一款人工智能超级计算机，拥有64个CS-3系统（拥有57600000个核心）。这两家公司已经共同创建了世界上最大的两台人工智能超级计算机：Condor Galaxy 1 （CG-1）和Condor Galaxy 2（CG-2），它们位于加利福尼亚州，综合性能为8个ExaFLOP。这一合作伙伴关系的目标是在全球范围内提供数十个exaFLOP的人工智能计算。

G42集团首席技术官Kiril Evtimov表示：“我们与Cerebras的战略合作伙伴关系有助于推动G42的创新，并将有助于加速全球范围内的人工智能革命。”。“Condor Galaxy 3是我们的下一台人工智能超级计算机，拥有8个exaFLOP，目前正在建设中，很快将使我们系统的人工智能计算总产量达到16个exafloP。”

相关文章：《Cerebras推出全球最强AI超算：5400万个AI内核，算力高达4 exaFLOPS！》

编辑：芯智讯-浪客剑

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。