谷歌,于2003年起发布一系列论文:
1. 《The Google File System 》
2. 《MapReduce: Simplified Data Processing onLarge Clusters》
3.《Bigtable: A Distributed Storage System for Structured Data》
Hadoop HDFS、HadoopMapReduce, HBase、Hive 渐次诞生,早期Hadoop 生态圈逐步形成。
Hadoop MapReduce不适合实时计算:
1. 任务分配Server不会将信息Push到计算Node,而是让计算Node通过心跳去Pull任务。
2. 基于框架的通用性,MapReduce代码也会在HDFS中传送,在各计算Node展开,再通过启动新JVM进程装载并运行。
3. 类似的JVM进程启停有5、6次之多。
4. Reduce Task只能在所有Map Task完成之后才能启动。
在HadoopMapReduce框架之外,衍生出了一批低延迟的大数据分析项目:Cloudera Impala, MapR Drill, HBase Coprocessor, Spark。
一体机数据库/数据仓库:
IBM PureData(Netezza), OracleExadata, SAP Hana等等
数据仓库:
Teradata AsterData, EMC GreenPlum, HP Vertica 等等
数据集市:
QlikView、 Tableau、Yonghong Data Mart 等等
1. 分布式计算
2. 分布式通信
3. 内存计算
4. 列存储
5. 库内计算