一个TB的数据有多大?

一个tb的规模是巨大的。我们很难从这个角度来看待这个问题,所以让我们试着从空间和时间两个角度来理解它。一英里不长,一立方英里相对于整个地球来说并不算大。 所以,如果听说全世界的人口都能容纳一立方英里的空间,你可能会感到惊讶。 荷兰裔美国作家亨德里克·威廉·范·龙(hendrik willem van loon)曾在他的一本书中写过这篇文章。teradata是一个著名的数据库仓储产品供应商。在处理大量数据时,品牌名称的设计令人印象深刻。那是20年前的事了。今天,用户以及供应商正在谈论数据量为tb的数据。 通常有数十甚至将近100tb的数据量,甚至是pb级的数据量都是很常见的,因此,一个tb的数据变得不寻常,而且有几个或几十个tb级的数据看起来一点都不吓人。实际上,一个tb和一个立方英里的规模是巨大的。 我们很难从这个角度来看待这个问题,所以让我们从两个角度去理解它。
首先,我们来看空间。大部分的数据分析和计算是在结构化数据上进行的,其中不断增加的事务数据占用最大的空间。 每笔交易数据的大小不大, 它可以从几十个字节到大约100个字节。 例如,银行交易信息将包括账户,日期和金额; 而电信的通话记录将包括电话号码,时间和持续时间。 假设每个记录占用100个字节,或者0.1kb,一个tb容量可以容纳10g行,或者100亿个记录。这个是什么意思?一年有超过3000万秒,一年累积1 tb数据需要在时钟上每秒生成超过300条记录。这不是一个荒谬的巨大规模。 在美国这样的大国,像国家电信运营商,国家银行和互联网巨头这样的企业很容易达到这个规模。 但是,对于全市乃至全州的一些机构来说,获得1tb的数据是非常困难的。 地方税务局收集的税务信息,本地连锁店的购买数据或城市商业银行的交易数据每秒都可以成倍增长。此外,许多组织的数据只在工作日或工作日生成。有几十个甚至100百万兆字节数据,业务量应该是一个或两个数量级更大的。一个tb的数据可能太抽象了,我们无法理解它。 但通过将其翻译成业务量,我们可以得到一个更清晰的想法。 数据量和大数据分析和计算产品所采用的技术之间有着密切的联系,因此组织对其数据量进行精确的评估对于构建大数据平台至关重要。如果音频和视频数据等非结构化数据被卡住,或者用于备份原始数据,则一兆兆字节的空间会变得很小。 但通常我们只执行存储管理任务或者搜索这些数据。 由于不需要进行直接的分析和计算,大数据平台是不必要的。 网络文件系统足以执行这些操作,这可以大大降低成本。
我们要看的第二种方法是基于时间的。处理1tb数据需要多长时间?一些厂商声称他们的产品可以在几秒钟内处理它。这是用户所期望的。但是有可能吗?在操作系统下从硬盘检索数据的速度约为每秒150mb(硬盘制造商提供的技术参数不能完全实现)。 ssd的数据检索速度更快,每秒钟的加倍速度为300mb。 检索1tb数据需要花费将近一个小时的时间,而不需要执行任何其他操作。 1tb的数据如何在数秒内处理? 这只需要添加更多的硬盘即可完成。 使用1000个硬盘,可以在3秒钟内检索1tb的数据。这是一个理想的估计。在大多数情况下,在现实中,数据并没有被整齐地存储--当从硬盘中检索到不连续的数据时,性能就会变得很糟糕。对于集群,显然,1000个硬盘不能安装在一台机器上--这是网络延迟。有些计算可能需要重写操作(分组使用大型结果集和排序操作)。而且,几秒钟内的数据访问常常伴随着并发请求。考虑到所有这些因素,数据检索可能会慢几倍也就不足为奇了。现在我们意识到,tb级的数据意味着需要数小时的数据检索,或者1000个硬盘。你可以想象几十兆或100兆兆字节的数据会带来什么。您可能会认为,由于硬盘太慢,所以我们应该使用内存来代替。实际上,内存比硬盘快得多,适合执行并行处理。但是拥有大内存的机器也很贵(成本不会线性增加)。更糟的是,通常内存使用率较低。对于通常使用的基于java的计算平台来说,如果没有使用数据压缩技术,jvm的内存使用率只有20%左右。这意味着从硬盘上装载1tb的数据需要5tb的内存。那将会太贵,因为需要很多机器。有了关于1tb数据的一些知识,我们可以在遇到多tb数据时,对交易类型,节点数量和部署成本有一个快速和相当好的想法,并且能够在规划计算平台或选择产品时做出明智的决定。 即使在今天,“teradata”这个词仍然具有生动的意义。
更多阅读
课课家 word2016 论文排版精讲教程-毕业必学篇
课课家2018软考之密码学基础与应用课程
双十二又双叒叕来袭!