大数据国内外研究现状这些数据不仅数据量巨大,种类繁多,而且实时性强,商业价值非常大但隐藏很深,同时对这些数据的存储和挖掘也是一个巨大的挑战。针对这些挑战,人们研究各种分布式存储和分布式计算的方法解决大数据的存储、搜索、分析、共享以及可视化问题,2005年谷歌发布了第一篇关于大数据存储的文章,接下来又发布了关于Nosql的分布式数据库和MapReduce并行计算框架,这三篇文章加速了hadoop的诞生。《The Google File System》[5]、《MapReduce_Simplified Data Processing on Large Clusters》[6]、《Bigtable_A Distributed Storage System for Structured Data》[7]。2006年Hadoop基于三大论文的基础上,正式发布了第一个版本,今年正好是hadoop发布十周年,如今hadoop的性能已经越来越强大,可以很好的处理百PB级的数据,百度每天使用hadoop集群处理200T的数据,现在hadoop正越来越走进生产,互联网、金融、医疗、政府、交通、旅游等行业都开始运用hadoop进行开发自己的大数据平台。来挖掘行业内大数据的价值[8]。52407
Hadoop相对于传统服务器存储和传统型数据库分析有很多优点[9-11]。第一,从成本的角度上考虑,hadoop是apache旗下的顶级开源项目,面向用户完全免费,而且,hadoop对于硬件的要求并不高,只要能够运行linux系统的设备都可以安装hadoop框架,对于公司的使用成本大大降低。第二,hadoop使用非常灵活,不仅能够处理结构化数据,对于非结构化数据支持也非常好,并且能够很容易的处理GB、TB、PB以上的数据,以前只能使用单机处理相同数据需要花费几小时或者几天,现在使用hadoop只需要几小时或者几十分钟即可完成,而且开发者可以根据自己的需求编写MapReduce程序,并且设置启用更多的map节点和reduce节点,以达到更快速处理数据的要求,通过调用多台或几十台机器的cpu和内存进行计算,理论上说,通过增加节点数量,可以处理任意大的数据。并行计算,并且使用方便,成本低廉,这也就是hadoop的最大优点。
根据各种业务的需求,越来越多的分布式框架基于hadoop开发,Hadoop已经形成了一个完整的生态圈,不仅仅解决了大文件分布式存储、分布式计算,还解决了结构化数据存储、非结构数据存储、数据分析、数据挖掘、实时计算等问题。图1.1表达了完整的hadoop生态圈。从图1.1中很清晰的理解到,hadoop生态圈首先是有两个最基本的成员,HDFS和MapReduce,这两个属于hadoop的地基,hadoop其他组件功能也都是基于这两个组件功能的基础上开发出来。第三个重要的组件是HBase,Hbase是类似数据库,架构于HDFS上,决定了它可以无限扩展,列式数据库决定了它伸缩性强,可以随意伸缩列的内容,存放不同的数据。另外还有Hive,Sqoop,Flume,Mahout,Hue等组件,本文第二章将详细介绍各个组件的功能和应用。
hadoop生态圈核心框架简介
Hadoop生态圈 主要功能和特点
HDFS Hadoop云计算的分布式存储系统,具有高可靠性,高并发,可扩展等特点MapReduce Hadoop云计算的分布式计算框架,具有分布式,高并发,可定制化等特点HBase Hbase是一个列式数据库,存放于HDFS上,可以随意扩展列的内容,任意存放Hive Hive可以通过类是SQL的语句进行分析,论文网每一个语句都能够转换为分布式计算任务Pig 运行于HDFS上的数据流语言,适合做数据分析和数据挖掘Zookeeper Zookeeper主要用于主节点的调节,还有HBase中的元数据信息存储等功能Sqoop