实时大数据

中文名 实时大数据
特点 许多机构需要面对的首要挑战
目录导航

开源大数据的发展情况

谷歌,于2003年起发布一系列论文:

1. 《The Google File System 》

2. 《MapReduce: Simplified Data Processing onLarge Clusters》

3.《Bigtable: A Distributed Storage System for Structured Data》

Hadoop HDFS、HadoopMapReduce, HBase、Hive 渐次诞生,早期Hadoop 生态圈逐步形成。

Hadoop MapReduce不适合实时计算:

1. 任务分配Server不会将信息Push到计算Node,而是让计算Node通过心跳去Pull任务。

2. 基于框架的通用性,MapReduce代码也会在HDFS中传送,在各计算Node展开,再通过启动新JVM进程装载并运行。

3. 类似的JVM进程启停有5、6次之多。

4. Reduce Task只能在所有Map Task完成之后才能启动。

在HadoopMapReduce框架之外,衍生出了一批低延迟的大数据分析项目:Cloudera Impala, MapR Drill, HBase Coprocessor, Spark。

实时大数据工具

一体机数据库/数据仓库: 

IBM PureData(Netezza), OracleExadata, SAP Hana等等

数据仓库:

Teradata AsterData, EMC GreenPlum, HP Vertica 等等

数据集市:

QlikView、 Tableau、Yonghong Data Mart 等等

实时大数据技术

1. 分布式计算

2. 分布式通信

3. 内存计算

4. 列存储

5. 库内计算

相关百科
返回顶部
产品求购 求购