分解大数据,推动数据流基础架构

2014 年,IDC 估测全世界每人每分钟产生 1.7MB 的数据。在接下来的十年,年度数据生成量预计以每天 40% 的速度增长,到 2020 年达到 44 ZB(1ZB 等于一百万兆 GB)!企业为提供客户简介和决策制定收集和分析数据,因此又产生更多数据和大数据,形成了指数增长的循环。

从庞大且数量几乎无法想象的数据中提取价值的创新方法需要数据中心的巨大进步和再平衡,并且正推动从运算为中心的基础架构向数据流基础架构过渡。

这种转变需要对存储基础架构进行相应的重新思考。为帮助理解存储基础架构的前路如何,需要将分析分解为三个关键阶段,以说明各阶段的独特要求并指出基础架构存在相似性的地方。

  1. 获取 (Capture) 阶段,需要收集多种类型、大小和格式的原数据:对数据进行收入、重订格式或者转换,因为需要为后续的使用和分析做准备,并且将数据在多个地点存储,以确保可靠性。除了低成本和低功耗之外,此阶段的存储要求通常需要高带宽。
  2. 持有 (Hold) 阶段,数据在数据中心级别存储,这样可以以汇总的方式分析数据,以确定相关性。这就需要高密度、大容量且低成本的存储解决方案,这些解决方案能耗低且在集合或者数据中心级别非常可靠。
  3. 分析 (Analyze) 阶段,从数据中提取价值,通常从两种通用分析类型中选用一种。基于带宽的分析包含大量数据,通过对这些数据进行线性横向绕程确定用于最初商业决定的模式(例如 Hadoop)。基于延迟的分析设计对大量单个、潜在少量数据进行横向绕程,读取这些数据并寻找相关性(例如交易工作量)。
big-data-rack-architecture

今天,用于大数据的服务器、存储和网络解决方案根据所完成的分析类型,利用现有的基础架构或者部署具有特定目的的平台。提供能够解决三个阶段所有问题同时符合带宽、安全性、延迟、资源收集和成本需求的单一解决方案是机架扩展存储基础架构的目标。​