解析鲲云科技发布全球首款数据流AI芯片CAISA，定位于高性能AI推理

6月23日，鲲云科技在举行产品发布会，发布全球首款数据流ai芯片caisa。该款芯片定位于高性能ai推理，目前已完成量产。据介绍，鲲云通过自主研发的数据流技术在芯片实测算力上实现了技术突破，较同类产品在芯片利用率上提升了10倍。第三方测试数据显示仅用13的峰值算力，caisa芯片可以实现英伟达同类产品最高391倍的实测性能。外呼机器人会根据关键词把客户分为a到e五种分类，可以针对客户制定更精准的方案，提高成交量。相对于而工作效率相比电销人员提高了将近十倍。
鲲云科技是一家高性能人工智能芯片，由数据流定制计算领域院士的团队创立，致力于提供下一代人工智能计算平台，加速人工智能落地。此次，鲲云通过自主研发的数据流技术在芯片实测算力上实现了技术突破，较同类产品在芯片利用率上提升了10倍。第三方测试数据显示，仅用13的峰值算力，caisa芯片可以实现英伟达同类产品最高391倍的实测性能。鲲云科技的定制数据流技术不依靠更大的芯片面积和制程工艺，而是通过数据流动控制计算顺序来提升实测性能，为用户提供了更高的算力性价比。
鲲云科技创始人兼ceo牛昕宇博士发布数据流caisa芯片
超高芯片利用率，完成30升级
此次发布的caisa芯片采用鲲云自研的定制数据流芯片架构caisa 30。相较于上一代芯片架构，caisa30在架构效率和实测性能方面有了大幅的提升，并在算子支持上更加具有通用性，支持绝大多数神经网络模型快速实现检测、分类和语义分割部署。caisa30在多引擎支持上提供了4倍更高的并行度选择，大大提高了架构的可拓展性。在ai芯片内，每一个caisa都可以同时处理ai工作负载，进一步提升了caisa架构的性能，在峰值算力提升6倍的同时，保持了高达954%的芯片利用率，提升了实测性能线性。同时，新一代caisa架构对编译器rainbuilder的支持更加友好，软硬件协作进一步优化，在系统级别上为用户提供了更好的端到端性能。
caisa30架构图
caisa30架构继续保持在数据流技术路线的全球领先地位，指令集架构采用冯诺依曼计算方式，通过指令执行次序控制计算顺序，并通过分离数据搬运与数据计算提供计算通用性。caisa架构依托数据流流动次序控制计算次序，采用计算流和数据流重叠运行方式消除空闲计算单元，并采用动态配置方式保证对于人工智能算法的通用支持，突破指令集技术对于芯片算力的限制。此次升级，caisa架构解决了数据流架构作为人工智能计算平台的三大核心挑战：
1 高算力性价比：在保持计算正确前提下，通过不断压缩每个空闲时钟推高芯片实测性能以接近芯片物理极限，让芯片内的每个时钟、每个计算单元都在执行有效计算；
2 高架构通用性：在保证每个算法在caisa上运行能够实现高芯片利用率的同时，caisa30架构通用支持所有主流cnn算法；
3 高软件易用性：通过专为caisa定制的编译工具链实现算法端到端自动部署，用户无需底层数据流架构背景知识，简单两步即可实现算法迁移和部署，降低使用门槛。
具体来讲，鲲云caisa30架构的三大技术突破主要通过以下的技术方式实现：
1 高算力性价比：时钟级准确的计算
caisa30架构由数据流来驱动计算过程，无指令操作，可以实现时钟级准确的计算，最大限度的减少硬件计算资源的空闲时间。caisa30架构通过数据计算与数据流动的重叠，压缩计算资源的每一个空闲时钟；通过算力资源的动态平衡，消除流水线的性能瓶颈；通过数据流的时空映射，最大化复用芯片内的数据流带宽，减少对外部存储带宽的需求。上述设计使cnn算法的计算数据在caisa30内可以实现不间断的持续运算，最高可实现954%的芯片利用率，在同等峰值算力条件下，可获得相对于gpu 3倍以上的实测算力，从而为用户提供更高的算力性价比。
2 高架构通用性：流水线动态重组
caisa30架构可以通过流水线动态重组实现对不同深度学习算法的高性能支持。通过caisa架构层的数据流引擎、全局数据流网、全局数据流缓存，以及数据流引擎内部的人工智能算子模块、局部数据流网、局部数据流缓存的分层设计，在数据流配置器控制下，caisa架构中的数据流连接关系和运行状态都可以被自动化动态配置，从而生成面向不同ai算法的高性能定制化流水线。在保证高性能的前提下，支持用户使用基于caisa30架构的计算平台实现如目标检测、分类及语义分割等广泛的人工智能算法应用。
3 高软件易用性：算法端到端自动化部署
rainbuilder编译工具链
专为caisa30架构配备的rainbuilder编译工具链支持从算法到芯片的端到端自动化部署，用户和开发者无需了解架构的底层硬件配置，简单两步即可实现算法快速迁移和部署。rainbuilder编译器可自动提取主流ai开发框架（tensorflow、caffe、pytorch、onnx等）中开发的深度学习算法的网络结构和参数信息，并面向caisa结构进行优化；工具链中的运行时（runtime）和驱动（driver）模块负责硬件管理并为用户提供标准的api接口，运行时可以基于精确的caisa性能模型，实现算法向caisa架构的自动化映射，同时提供可以被高级语言直接调用的api接口；最底层的驱动可以实现对用户透明的硬件控制。rainbuilder工具链使用简单，部署方便，通用性强，可以让用户快速和低成本的部署和迁移已有算法到caisa硬件平台上。
首款量产数据流ai芯片，带来研发新方向
caisa-定制数据流ai芯片
作为全球首款采用数据流技术的ai芯片，caisa搭载了四个caisa30引擎，具有超过16万个mac（乘累加）单元，峰值性能可达109tops。该芯片采用28nm工艺，通过pcie30×4接口与主处理器通信，同时具有双d通道，可为每个caisa引擎提供超过340gbps的带宽。
caisa芯片架构图
作为一款面向边缘和云端推理的人工智能芯片，caisa可实现最高954%的芯片利用率，为客户提供更高的算力性价比。caisa芯片具有良好的通用性，可支持所有常用ai算子，通过数据流网络中算子的不同配置和组合，caisa芯片可支持绝大多数的cnn算法。针对caisa芯片，鲲云提供rainbuilder30工具链，可实现推理模型在芯片上的端到端部署，使软件工程师可以方便的完成caisa芯片在ai应用系统中的集成。
高算力性价比的ai计算平台
发布会上，鲲云科技创始人兼ceo牛昕宇博士还发布了基于caisa芯片的星空系列边缘和数据中心计算平台——x3加速卡和x9加速卡，并公布了由人工智能产业技术联盟（aiia）测试的包括resnet-50、yolo v3等在内的主流深度学习网络的实测性能。
星空x3加速卡发布
星空x3加速卡是搭载单颗caisa 芯片的数据流架构深度学习推断计算平台，为工业级半高半长单槽规格的pcie板卡。得益于其轻量化的规格特点，x3加速卡可以与不同类型的计算机设备进行适配，包括个人电脑、工业计算机、网络视频录像机、工作站、服务器等，满足边缘和高性能场景中的ai计算需求。相较于英伟达边缘端旗舰产品xavier，x3可实现148-412倍的实测性能提升。
*模型参考：githubcompushyamiyolov3-caffeblobmasterdeployprototxt
星空x9加速卡发布
星空x9加速卡为搭载4颗caisa 芯片的深度学习推断板卡，峰值性能436tops，主要满足高性能场景下的ai计算需求。同英伟达旗舰产品t4相对，x9在resnet-50、yolo v3等模型上的芯片利用率提升284-1164倍。在实测性能方面，x9在resnet50可达5240fps，与t4性能接近，在yolo v3、unet industrial等检测分割网络，实测性能相较t4有183-391倍性能提升。在达到最优实测性能下，x9处理延时相比于t4降低183-32倍。实测性能以及处理延时的大幅领先，让数据流架构为ai芯片的发展提供了提升峰值性能之外的另一条技术路线。
*模型参考：githubcompushyamiyolov3-caffeblobmasterdeployprototxt
鲲云科技通过caisa数据流架构提高芯片利用率，同样的实测性能，对芯片峰值算力的要求可大幅降低3-10倍，从而降低芯片的制造成本，为客户提供更高的算力性价比。目前，星空x3加速卡已经实现量产，星空x9加速卡将于今年8月推出市场。鲲云科技成为国内首家在发布会现场披露benchmark的ai芯片。
作为技术驱动的ai芯片，鲲云科技自成立以来一直注重商业落地，目前鲲云科技已与多家行业巨头达成战略合作，成为英特尔全球旗舰fpga合作伙伴，在技术培训、营销推广以及应用部署等方面进行合作；与浪潮、戴尔达成战略签约，在ai计算加速方面开展深入合作；与山东产业技术研究院共建山东产研鲲云人工智能研究院，推进人工智能芯片及应用技术的规模化落地。明星产品“星空”加速卡已在电力、教育、航空航天、智能制造、智慧城市等领域落地。自2016年成立至今，鲲云科技已经完成了天使轮，pre-a轮及a轮融资，设有、山东、伦敦研发中心。2018年成立人工智能创新应用研究院，定位于建立人工智能产业化技术平台，支持人工智能最新技术在各垂直领域快速实际落地，启动鲲云高校计划，开展人工智能课程培训和科研合作。除与intel合作进行人工智能课程培训外，鲲云人工智能应用创新研究院已同帝国理工学院、哈尔滨工业大学、北京航空航天大学、天津大学、香港城市大学等成立联合实验室，在定制计算、ai芯片安全、工业智能等领域开展前沿研究合作。