又到了每年一届的isc top500榜单的公布时刻,由于众所周知的疫情原因,此次top500的榜单采用线上直播发布。
isc top500榜单公布 nvidia为hpc按下“加速键”
透过最新的榜单,我们看到全球排名前十的超级计算机中有8台采用了nvidia gpu、infiniband网络技术,或同时采用了两种技术。其中包括美国、欧洲和中国最强大的超级计算机系统。而在2017年6月发布的榜单上,采用两家公司的系统占比总和还不到一半(203套)。
isc top500榜单公布 nvidia为hpc按下“加速键”
在top500榜单的所有系统中,有三分之二的系统(333套)采用了nvidia的技术。而榜单上有将近四分之三(74%)的全新infiniband系统采用了nvidia mellanox hdr 200g infiniband。自2019年11月以来,榜单上使用hdr infiniband的top500系统数量几乎增加了一倍。共有141台超级计算机使用了infiniband,自2019年6月以来增长了12%。
凭借快速数据传输、极低延迟和智能网络计算引擎等技术上的优势,infiniband成为众多行业加速研究和应用的标准。比如许多全球领先的气象服务机构都选择nvidia mellanox infiniband网络加速其超级计算平台,这些气象服务机构包括西班牙气象局、中国气象局、芬兰气象局、nasa和荷兰皇家气象局。
从上述榜单数据可以看到nvidia gpu加速计算和mellanox infiniband网络技术在高性能计算hpc中不可动摇的地位,同时这也从侧面显示出了nvidia大价钱收购mellanox的前瞻性,而随着整合的加速,相信两者会给整个hpc市场带来前所未有的变革作用。
对抗covid-19
2020年的新冠病毒疫情给全球造成了不可估量的影响。为了有效对抗病毒,全球各地的科学家和研究人员都在竞相寻找治愈covid-19的方法,而nvidia科学计算平台在其中发挥了至关重要的作用。此前nvidia就宣布加入covid-19 hpc联盟(covid-19 hpc consortium),携手各界一起查清新冠病毒的本质和来源。
isc top500榜单公布 nvidia为hpc按下“加速键”
在基因组学领域,oxford nanopore technologies使用nvidia gpu在短短7个小时内完成了病毒基因组测序。
在感染分析和预测领域,nvidia rapids团队使用gpu加速的plotly dash(一种数据可视化工具)为实时感染率分析提供更清晰的洞见。
在结构生物学领域,美国国立卫生研究院(u.s. national institutes of health)和德克萨斯大学奥斯汀分校(university of texas, austin)正在使用gpu加速软件cryosparc和低温电子显微镜重建首个病毒蛋白3d结构。
在治疗领域,nvidia与美国国立卫生研究院合作构建了一个ai,该ai可以根据肺部扫描对covid-19感染进行准确分类,从而制定有效的治疗方案。
在新药研究领域,橡树岭国家实验室在gpu加速的summit超级计算机上运行了scripps研究所的autodock ,只用了短短12小时对十亿种潜在药物组合进行了筛选。
在机器人技术领域,初创企业kiwi正在制造自动提供医疗用品的机器人。
在边缘检测领域,whiteboard coordinator inc.建立了一个可以自动测量和筛查人员体温升高的ai系统,每小时可筛查2000多名医护人员。
从以上信息可以看到,面对空前凶残的新冠病毒,各种科技力量迅速团结起来,积极应对。而nvidia在其中扮演了“穿针引线”的作用,不管是其gpu硬件产品还是软件产品,nvidia在帮助全球应对covid-19方面尽到了自身的社会责任。
nvidia selene
isc top500榜单公布 nvidia为hpc按下“加速键”
虽然hpc和ai的价值日渐凸显,但是众所周知,hpc是耗电大户,如何优化能耗成为突出的问题,nvidia gpu在能耗控制方面做了很多工作。与不使用nvidia gpu的系统相比,其能效(以gigaflops/watt为单位)平均高出2.8倍。这也是为何排在top500榜单前25的超级计算机中有20台系统都选择采用nvidia gpu的原因之一。
isc top500榜单公布 nvidia为hpc按下“加速键”
在今年的top500榜单中,我们看到一个新面孔——selene,这是nvidia内部研究集群的新成员。该系统在linpack基准测试中以27.5petaflops的性能表现,在最新green500榜单中排名第二,在整个top500榜单中排名第七。
selene的功耗为20.5gigaflops/watt,与green500榜单上的第一名相差甚微,但排名第一的系统体积更小,其性能表现仅排在第394位。selene是排名前100系统中唯一突破20gigaflops/watt能效表现大关的系统,同时也是全球性能排名第二的工业超级计算机。
在能效方面,相比于未使用nvidia gpu的其它top500系统的平均能效表现,selene的能效高出了6.8倍。除了出色的能效表现,selene的快速部署能力也是令人刮目相看。工程师们可以使用nvidia的模块化参照架构,在不到四周的时间内就能快速构建selene。4名操作人员仅需不到1个小时,就能组装起一套由20台系统组成的dgx a100集群,创建出一套性能可以达到2petaflops的系统。
通过添加nvidia mellanox infiniband交换机层,工程师将14套分别配置有20台dgx a100系统的模块组的相连接,从而创造出了selene。selene系统具有:280台dgx a100系统;2240颗nvidia a100 gpu;494台nvidia mellanox quantum 200g infiniband交换机;56tb/s的网络架构;7pb的高性能全闪存。
selene可以提供超过1exaflops的ai性能。此外,在tpcx-bb关键数据分析基准测试中,其仅使用了16台dgx a100系统就创造了新纪录,其性能表现高出其他系统20倍。selene之所以有如此上佳表现,这得益于其架构设计和打造的nvidia dgx a100系统。
nvidia selene的参考架构其实是nvidia的dgx superpod,其基于nvidia dgx a100系统。nvidia dgx a100在一台6u服务器中集成了8颗a100 gpu以及nvidia mellanox hdr infiniband网络技术,可以为高性能计算、数据分析和ai工作(包括训练和推理)等多种组合提供加速,并实现快速部署。
nvidia a100
本计划在今年gtc上发布的nvidia ampere架构的gpu由于疫情原因并没有出现gtc digital上,但是在北京时间5月14日,nvidia ceo黄仁勋在其厨房中揭开了nvidia a100的神秘面纱。
nvidia ampere gpu采用了7纳米制程工艺,包含超过540亿个晶体管,这样的数据足以令人乍舌。而nvidia广泛采用的tensor core核心也获得了更新,具有tf32的第三代tensor core核心能在无需更改任何代码的情况下,使fp32精度下的ai性能提高多达20倍。此外,tensor core核心现在支持fp64精度,相比于前代,其为hpc应用所提供的计算力比之前提高了多达2.5倍。
同时,全新ampere架构搭载了多实例gpu(mig)、第三代nvidia nvlin、结构化稀疏等技术。其中mig技术可以将单个a100 gpu分割为多达七个独立的gpu,为不同规模的工作提供不同的计算力,以此实现最佳利用率和投资回报率的最大化。而第三代nvidia nvlink使gpu之间的高速联接增加至原来的两倍,实现服务器的高效性能扩展。第三代nvidia nvlink互联技术能够将多个a100 gpu合并成一个巨大的gpu来执行更大规模的训练任务。
得益于其诸多创新,nvidia a100集合了ai训练和推理,其性能相比于前代产品提升了高达20倍。目前,包括思科、dell technologies、hpe、浪潮、联想、supermicro等已经发布多款内置nvidia a100的系统。
isc top500榜单公布 nvidia为hpc按下“加速键”
为了补充完善上月发布的四卡和八卡nvidia hgx a100配置,nvidia还发布了pcie版本的a100。新增的pcie版本a100使服务器制造商能够为客户提供丰富的产品组合——从内置单个a100 gpu的系统到内置10个或10个以上gpu的服务器等。
据悉,目前有6台在建系统虽然没有出现在此次top500榜单中,但它们都采用了nvidia于上月发布的a100 gpu。所以可以预计的是在明年的top500榜单中,我们将会看到更多搭载nvidia a100 gpu的系统。
nvidia mellanox ufm cyber-ai平台
诚如文章开始所说的,nvidia已经开始全面整合mellanox,相关成果也逐渐问世。例如nvidia mellanox ufm cyber-ai平台运用ai分析技术检测安全威胁和运行问题并预测网络故障,能够大幅减少infiniband数据中心的停机时间。
isc top500榜单公布 nvidia为hpc按下“加速键”
ufm平台产品系列已管理infiniband系统近十年,此次扩展将使用ai学习数据中心的运行节奏和网络工作负载模式。它能根据这一基准追踪系统的运行状况和网络修改并检测性能下降、使用情况和配置文件更改。
该全新平台可发出警报,提示系统和应用异常行为、潜在系统故障以及威胁,并执行纠正措施。它还能在系统遭受黑客攻击,安装恶意应用(例如加密币挖币软件)时发出安全警报。
ufm cyber-ai平台对ufm enterprise平台进行了补充。ufm enterprise平台提供网络监视、管理、性能优化、配置检查和安全电缆管理功能。nvidia还发布了ufm系列的第三款产品 —— ufm telemetry平台。这款工具能够捕获实时网络遥测数据,该数据将被传输到本地或云端数据库,用于监视网络性能和验证网络配置。
nvidia在hpc和ai加速计算方面实力雄厚,而mellanox在网络加速技术方面不容小视。两者的结合将会让计算与网络更加融合,这直接带来的就是突破hpc和ai的瓶颈,实现真正意义上的加速。
重新定义科学计算
如今,ai和分析已成为科学计算中的新需求,ai、数据分析和边缘串流正在重新定义科学计算。nvida除了提供丰富的硬件产品外,也在积极发展软件,从而让软硬件更加协同。
isc top500榜单公布 nvidia为hpc按下“加速键”
这些软件包括cuda 11;50多个cuda-x库的新版本;多模式对话式ai服务框架nvidia jarvis;深度推荐应用框架 nvidia merlin;rapids开源数据科学软件库套件;nvidia hpc sdk,其中内含编译器、库和软件工具,可最大程度地提高开发者的工作效率以及hpc应用的性能和可移植性。凭借这些功能强大的软件工具,开发者们能够构建并加速hpc、基因组学、5g、数据科学、机器人学等领域的应用。
nvidia为700多种hpc应用提速,其中包括所有使用最广泛的科学应用。nvidia能够为所有ai框架提速,为科学计算3000ok用户在各代架构上的应用提供无缝性能提升,比如从volta到ampere等。
在数据分析领域,nvidia使用用于数据分析的特定领域cuda-x库(例如cudf、cuml和cugraph)以及来自magnum io的io加速技术为spark3.0、rapids和dask等关键框架提速,无论这些应用是在数据中心、边缘计算机、超级计算机还是云端。
isc top500榜单公布 nvidia为hpc按下“加速键”
采用rapids开源数据科学软件库套件,并使用由16台nvidia dgx a100系统组成的集群,nvidia仅用了短短14.5分钟就完成了标准大数据分析基准(tpcx-bb)测试,而目前在cpu系统上运行的记录是4.7小时。
需要特别是指出是今年top500榜单的第一名是日本fugaku超级计算机,而其采用了arm作为高性能的可行选择。而nvidia在去年就已经宣布为arm处理器架构提供cuda加速计算软件。
结语
2020年是一个极为特殊的一年,对于hpc市场也是如此。从最新的top500榜单,我们可以看到当下hpc发展的新趋势。虽然疫情对于我们的工作和生活造成了很大的影响,但是科技界并没有被病毒吓倒。他们正在联合起来用科技对抗病毒,而以nvidia为代表的企业不断赋能科学研究,帮助整个积极应对危机。