开始为hadoop创建了一个完整的解决方案,而不是将hadoop的支持作为事后或连接器添加到现有的可视化产品中。这意味着可视化是由分析师的工作而不是开发人员的工作(产生恐慌开发人员资源的拐杖)驱动的,也不是真正想象出真实的大数据(很少有意义)的一些不恰当的尝试。关键是以可扩展和可管理的方式支持完整的数据流水线,让知道数据最好的人(领域分析师)将智能应用于将信号发现和汇总到小数量的信息中。投掷大数据 没有一些人或机器的智能应用是徒劳的,会导致令人失望的结果,或者实际上会降低你的工具。也就是说,分析的下一个阶段是视觉引导的数据挖掘,需要较少(但仍然是一些)人力的工作,并将精心应用的部分提升到分析人员工具包中,这在其中是有意义的(例如聚类)。但最终,大数据供应商生态系统和开源社区正在解决的算法(人机或机器生成,简单而复杂)是更大更有趣的问题空间。哦,我们用d3.js :) 分析的下一个阶段是视觉引导的数据挖掘,需要较少(但仍然是一些)人力的工作,并将仔细的应用程序提升到分析人员工具包中,这在其中是有意义的(例如聚类)。但最终,大数据供应商生态系统和开源社区正在解决的算法(人机或机器生成,简单而复杂)是更大更有趣的问题空间。哦,我们用d3.js :) 分析的下一个阶段是视觉引导的数据挖掘,需要较少(但仍然是一些)人力的工作,并将仔细的应用程序提升到分析人员工具包中,这在其中是有意义的(例如聚类)。但最终,大数据供应商生态系统和开源社区正在解决的算法(人机或机器生成,简单而复杂)是更大更有趣的问题空间。我们用d3.js :)
实际上,大数据的唯一类型是像科学可见这些。
对于其余的大数据,无论是可视化的,现实中都是小数据 - 以某种方式进行汇总,过滤或变换。人的视觉感知和认知不能真正处理大量数据,它的全部荣耀 - 它通常是概述或套件迭代视觉查询和认知建模。
简而言之,除非您正在考虑尝试渲染巨大物理模拟等的利基视觉化,否则您可能正在查看任何标准的可视化工具。
d3 及其任何衍生图书馆都非常受欢迎,适用于小到中等大小(尺寸与交互式视觉工件数量)。
当您需要可视化大量动态视觉工件时,webgl或opengl是典型的方法。一些webgl框架或库是threejs [2],babylon [3]或者处。
但是,这些通常是通用工具。您使用的lib或框架也取决于vis的类型。例如,为了渲染大图(节点和链接),您可能会使用像sigmajs一样的lib 。或mapboxgl ,用于高性能渲染地理空间数据。
同样,平台也会影响您使用的工具。对于那些在python jupyter笔记本上工作的人,他们使用像matplotlib这样的软件包,例如seaborn,仅举几例:在r中,ggplot2似乎是可行的。
所以,有没有一个最流行的大数据可视化框架?请加我们的大数据沙龙8群640193172,与bat专家一对一深入交流,带你了解大数据可视化最流行框架。