菜单
  

    大数据国内外研究现状这些数据不仅数据量巨大,种类繁多,而且实时性强,商业价值非常大但隐藏很深,同时对这些数据的存储和挖掘也是一个巨大的挑战。针对这些挑战,人们研究各种分布式存储和分布式计算的方法解决大数据的存储、搜索、分析、共享以及可视化问题,2005年谷歌发布了第一篇关于大数据存储的文章,接下来又发布了关于Nosql的分布式数据库和MapReduce并行计算框架,这三篇文章加速了hadoop的诞生。《The Google File System》[5]、《MapReduce_Simplified Data Processing on Large Clusters》[6]、《Bigtable_A Distributed Storage System for Structured Data》[7]。2006年Hadoop基于三大论文的基础上,正式发布了第一个版本,今年正好是hadoop发布十周年,如今hadoop的性能已经越来越强大,可以很好的处理百PB级的数据,百度每天使用hadoop集群处理200T的数据,现在hadoop正越来越走进生产,互联网、金融、医疗、政府、交通、旅游等行业都开始运用hadoop进行开发自己的大数据平台。来挖掘行业内大数据的价值[8]。52407

    Hadoop相对于传统服务器存储和传统型数据库分析有很多优点[9-11]。第一,从成本的角度上考虑,hadoop是apache旗下的顶级开源项目,面向用户完全免费,而且,hadoop对于硬件的要求并不高,只要能够运行linux系统的设备都可以安装hadoop框架,对于公司的使用成本大大降低。第二,hadoop使用非常灵活,不仅能够处理结构化数据,对于非结构化数据支持也非常好,并且能够很容易的处理GB、TB、PB以上的数据,以前只能使用单机处理相同数据需要花费几小时或者几天,现在使用hadoop只需要几小时或者几十分钟即可完成,而且开发者可以根据自己的需求编写MapReduce程序,并且设置启用更多的map节点和reduce节点,以达到更快速处理数据的要求,通过调用多台或几十台机器的cpu和内存进行计算,理论上说,通过增加节点数量,可以处理任意大的数据。并行计算,并且使用方便,成本低廉,这也就是hadoop的最大优点。

    根据各种业务的需求,越来越多的分布式框架基于hadoop开发,Hadoop已经形成了一个完整的生态圈,不仅仅解决了大文件分布式存储、分布式计算,还解决了结构化数据存储、非结构数据存储、数据分析、数据挖掘、实时计算等问题。图1.1表达了完整的hadoop生态圈。从图1.1中很清晰的理解到,hadoop生态圈首先是有两个最基本的成员,HDFS和MapReduce,这两个属于hadoop的地基,hadoop其他组件功能也都是基于这两个组件功能的基础上开发出来。第三个重要的组件是HBase,Hbase是类似数据库,架构于HDFS上,决定了它可以无限扩展,列式数据库决定了它伸缩性强,可以随意伸缩列的内容,存放不同的数据。另外还有Hive,Sqoop,Flume,Mahout,Hue等组件,本文第二章将详细介绍各个组件的功能和应用。

    hadoop生态圈核心框架简介

    Hadoop生态圈 主要功能和特点

    HDFS Hadoop云计算的分布式存储系统,具有高可靠性,高并发,可扩展等特点MapReduce Hadoop云计算的分布式计算框架,具有分布式,高并发,可定制化等特点HBase Hbase是一个列式数据库,存放于HDFS上,可以随意扩展列的内容,任意存放Hive Hive可以通过类是SQL的语句进行分析,论文网每一个语句都能够转换为分布式计算任务Pig 运行于HDFS上的数据流语言,适合做数据分析和数据挖掘Zookeeper Zookeeper主要用于主节点的调节,还有HBase中的元数据信息存储等功能Sqoop

  1. 上一篇:焊接工装设备国内外研究现状
  2. 下一篇:EHD强化沸腾换热研究现状
  1. 超大规模集成电路技术国内外研究现状

  2. 大学生方程式赛车上车架研究现状和发展趋势

  3. 大学生医保满意度影响因素研究

  4. 制造业大数据国内外研究现状

  5. 大气颗粒物实时监测系统国内外研究现状

  6. 大型体育赛事对经济社会影响国内外研究现状

  7. MEMS封装技术研究现状概述

  8. 中考体育项目与体育教学合理结合的研究

  9. 当代大学生慈善意识研究+文献综述

  10. 乳业同业并购式全产业链...

  11. 河岸冲刷和泥沙淤积的监测国内外研究现状

  12. 杂拟谷盗体内共生菌沃尔...

  13. 十二层带中心支撑钢结构...

  14. 酸性水汽提装置总汽提塔设计+CAD图纸

  15. java+mysql车辆管理系统的设计+源代码

  16. 大众媒体对公共政策制定的影响

  17. 电站锅炉暖风器设计任务书

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回