终于官宣！寒武纪推出云端AI芯片「思元270」，峰值性能提升4倍

【新智元导读】寒武纪正式宣布推出云端ai芯片中文品牌“思元”、第二代云端ai芯片思元270（mlu270）及板卡产品。寒武纪官宣显示，产品参数在低精度训练领域实现重大突破，印证之前知乎网友的爆料。
前段时间，知乎突然出现了一个劲爆提问 “如何看待寒武纪新一代人工智能芯片（疑似思元/mlu270）规格？”，提问者以匿名方式贴出了疑似寒武纪下一代云端ai芯片mlu270的相关信息，包括芯片外观以及某些具体参数，引发热议，截止到现在已经被浏览了近5万次。
知乎链接：
/question/322886889
知乎用户曝光的寒武纪下一代云端ai芯片——思元270(mlu270)
新智元也在第一时间对此新闻进行了报道——《知乎爆料！寒武纪新一代ai芯片“思元270”遭提前泄露》。
而就在昨天（6月20日），寒武纪正式宣布推出云端ai芯片中文品牌“思元”、第二代云端ai芯片思元270（mlu270）及板卡产品。从名称到特征，都印证之前知乎网友的爆料！
思元270芯片：速度更快、功耗更低、性价比更高最新发布的思元270芯片集成了寒武纪在处理器架构领域的一系列创新性技术，在低精度训练领域实现了重大突破，主要包含5大亮点：
采用tsmc 16nm工艺制造。架构代号从上一代的mluv01升级到了mluv02，理论峰值性能提升4倍。同时兼容int4和int16运算，理论峰值分别达到256tops和64tops。支持视觉、语音、自然语言处理以及传统机器学习等高度多样化的ai应用。提供速度更快、功耗更低、性价比更高的ai加速解决方案。 tsmc 16nm工艺：
思元270芯片采用tsmc 16nm工艺制造，其板卡产品可以通过pcie接口快速部署在服务器和工作站内。
作为面向人工智能推断任务的产品，思元270板卡在resnet50上推理性能超过10000fps。mlu270-s4 型板卡（半高半长）面向数据中心部署，集成16gb ddr4 内存，支持ecc；mlu270-f4型板卡（全高全长）采用主动散热设计，面向非数据中心部署场景，集成16gb ddr4 内存，支持ecc。据悉，面向人工智能训练任务的思元270训练版板卡产品将于今年第四季度推出。
理论峰值性能提升4倍：
处理非稀疏深度学习模型的理论峰值性能提升至上一代mlu100的4倍，达到128tops（int8）。
定点训练领域取得关键性突破：
寒武纪在定点训练领域已实现关键性突破，思元270训练版板卡将可通过8位或16位定点运算提供卓越的人工智能训练性能，该技术有望成为ai芯片发展的重要里程碑。
兼容int4和int16、浮点运算和混合精度运算：
同时兼容int4和int16运算，理论峰值分别达到256tops和64tops；支持浮点运算和混合精度运算。
多样化ai应用：
思元270采用寒武纪公司自主研发的mluv02指令集，可支持视觉、语音、自然语言处理以及传统机器学习等高度多样化的人工智能应用，更为视觉应用集成了充裕的视频和图像编解码硬件单元。
便于开发：
在系统软件和工具链方面，思元270继续支持寒武纪neuware软件工具链，支持业内各主流编程框架。此外，为方便开发者更好地挖掘思元270超强的运算能力、开拓更多的应用领域，寒武纪将在近期向社区和开发者开放专用编程语言。
保持每年一代的产品迭代速度据了解，寒武纪在过去三年一直保持每年一代的产品迭代速度。在终端领域：
2016年推出寒武纪1a处理器ip；2017年推出双核的寒武纪1h；2018年推出寒武纪1m。迄今已经服务于数千万台终端设备。
mlu100到今年的mlu270性能对比
寒武纪ceo陈天石曾表示，寒武纪的云端智能芯片产品，迭代速度会和终端产品一样快。现实证明寒武纪做到了：从去年5月发布的第一代云端ai芯片mlu100到今年的mlu270，寒武纪保持了一年一代的研发速度，还同时研发多款高复杂度的芯片，这证明寒武纪已经具备非常完备的芯片研发能力，在国内是数一数二的。
是的，从ai芯片初创企业迈向ai芯片新巨头的道路上，寒武纪今年又前进了一步。
中文品牌“思元”同步推出
除了芯片和板卡产品外，寒武纪还正式宣布推出云端ai芯片中文品牌“思元”。这回不仅有中文名思元270，还有专门的商标。
寒武纪曾于去年正式推出云端ai芯片品牌“mlu”（machine learning unit），此次推出中文品牌“思元”是对mlu品牌的补充，“思元”的含义是“思考的基本单元”。
据悉，思元商标的字体来自于中国元代书法家赵孟頫，他诸体兼擅，这与寒武纪追求人工智能芯片的通用性不谋而合。今年初，寒武纪已经为旗下芯片注册两大中文商标名，分别是「思元」、「玄思」。