大数据分析
hadoop就是一个生态圈,它是HDFS 、MapReduce 、Hive和ZooKeeper等组成,一系列的运行就像一条生态链。
1)Pig:一个基于Hadoop的大规模数据分析平台,为海量数据的并行计算,提供了一个简单的操作和编程接口
2)Hive:就是一个工具,有完整的SQL查询的功能,可以将sql语句转换为MapReduce任务进行运行 ,当然也要基于hadoop
3)ZooKeeper:高效的,可拓展的协调系统,存储和协调关键共享状态
4)HBase:一个开源的,基于列存储模型的分布式数据库
5)HDFS:一个分布式文件系统,有着高容错性的特点,适合那些超大数据集的应用程序;
6)MapReduce:一种编程模型,用于大规模数据集(大于1TB)的并行运算