Hadoop学习笔记(1):概念和整体架构

转载 2018年01月14日 10:21:53
转载自https://www.cnblogs.com/kubixuesheng/p/5525306.html
  • Hadoop简介和历史
  • Hadoop架构体系
  • Master和Slave节点
  • 数据分析面临的问题和Hadoop思想

 

  由于工作原因,必须学习和深入一下Hadoop,特此记录笔记。

 

  什么是hadoop?

  Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成。

  Hadoop框架透明地为应用提供可靠性和数据移动。它实现了名为MapReduce的编程范式:应用程序被分割成许多小部分,而每个部分都能在集群中的任意节点上执行或重新执行。此外,Hadoop还提供了分布式文件系统,用以存储所有计算节点的数据,这为整个集群带来了非常高的带宽。MapReduce和分布式文件系统的设计,使得整个框架能够自动处理节点故障。它使应用程序与成千上万的独立计算的电脑和PB级的数据。  

 

  hadoop历史

  Hadoop由 Apache Software Foundation 于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。

  2006 年 3 月份,Map/Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。Hadoop 是最受欢迎的在 Internet 上对搜索关键字进行内容分类的工具,但它也可以解决许多要求极大伸缩性的问题。例如,如果您要 grep 一个 10TB 的巨型文件,会出现什么情况?在传统的系统上,这将需要很长的时间。但是 Hadoop 在设计时就考虑到这些问题,采用并行执行机制,因此能大大提高效率。

  • Hadoop Common:在0.20及以前的版本中,包含HDFS、MapReduce和其他项目公共内容,从0.21开始HDFS和MapReduce被分离为独立的子项目,其余内容为Hadoop Common
  • HDFS:Hadoop分布式文件系统(Distributed File System)-HDFS(Hadoop Distributed File System)
  • MapReduce:并行计算框架,0.20前使用org.apache.hadoop.mapred旧接口,0.20版本开始引入org.apache.hadoop.mapreduce的新API
  • Apache HBase:分布式NoSQL列数据库,类似谷歌公司BigTable。
  • Apache Hive:构建于hadoop之上的数据仓库,通过一种类SQL语言HiveQL为用户提供数据的归纳、查询和分析等功能。Hive最初由Facebook贡献。
  • Apache Mahout:机器学习算法软件包。
  • Apache Sqoop:结构化数据(如关系数据库)与Apache Hadoop之间的数据转换工具。
  • Apache ZooKeeper:分布式锁设施,提供类似Google Chubby的功能,由Facebook贡献。
  • Apache Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。

 

  hadoop平台子项目

  现在普遍认为整个Apache Hadoop“平台”包括Hadoop内核、MapReduce、Hadoop分布式文件系统(HDFS)以及一些相关项目,有Apache Hive和Apache HBase等等。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

  如图,最下面一层就是hadoop的核心代码,核心代码之上实现了两个最核心的功能:MapReduce和HDFS,这是hadoop的两大支柱!因为hadoop是Java写的,为了方便其他对Java语言不熟悉的程序员,在这之上又有Pig,这是一个轻量级的语言,用户可以使用Pig用于数据分析和处理,系统会自动把它转化为MapReduce程序。

  还有一个Hive,很重要!这是一个传统的SQL到MapReduce的映射器,面向传统的数据库工程师。但是不支持全部SQL。还有一个子项目叫HBase,一个非关系数据库,NoSQL数据库,数据是列存储的,提高响应速度,减少IO量,可以做成分布式集群。

  ZooKeeper负责服务器节点和进程间的通信,是一个协调工具,因为Hadoop的几乎每个子项目都是用动物做logo,故这个协调软件叫动物园管理员。

 

  Hadoop架构

  如图,两个服务器机柜,每个圆柱代表一个物理机,各个物理节点通过网线连接,连接到交换机,然后客户端通过互联网来访问。其中各个物理机上都运行着Hadoop的一些后台进程。

 

  Namenode

  

  也叫名称节点,是HDFS的守护程序(一个核心程序),对整个分布式文件系统进行总控制,会纪录所有的元数据分布存储的状态信息,比如文件是如何分割成数据块的,以及这些数据块被存储到哪些节点上,还有对内存和I/O进行集中管理,用户首先会访问Namenode,通过该总控节点获取文件分布的状态信息,找到文件分布到了哪些数据节点,然后在和这些节点打交道,把文件拿到。故这是一个核心节点。

  不过这是个单点,发生故障将使集群崩溃。

 

  Secondary Namenode

  

  在Hadoop中,有一些命名不好的模块,Secondary NameNode是其中之一。从它的名字上看,它给人的感觉就像是NameNode的备份,比如有人叫它第二名称节点,仿佛给人感觉还有后续……但它实际上却不完全是。

  最好翻译为辅助名称节点,或者检查点节点,它是监控HDFS状态的辅助后台程序,可以保存名称节点的副本,故每个集群都有一个,它与NameNode进行通讯,定期保存HDFS元数据快照。NameNode故障可以作为备用NameNode使用,目前还不能自动切换。但是功能绝不仅限于此。所谓后备也不是它的主要功能。后续详细解释。

  

  DataNode

  

  叫数据节点,每台从服务器节点都运行一个,负责把HDFS数据块读、写到本地文件系统。这三个东西组成了Hadoop平台其中一个支柱——HDFS体系。

 

  再看另一个支柱——MapReduce,有两个后台进程。

  JobTracker

 

  

  叫作业跟踪器,运行到主节点(Namenode)上的一个很重要的进程,是MapReduce体系的调度器。用于处理作业(用户提交的代码)的后台程序,决定有哪些文件参与作业的处理,然后把作业切割成为一个个的小task,并把它们分配到所需要的数据所在的子节点。

  Hadoop的原则就是就近运行,数据和程序要在同一个物理节点里,数据在哪里,程序就跑去哪里运行。这个工作是JobTracker做的,监控task,还会重启失败的task(于不同的节点),每个集群只有唯一一个JobTracker,类似单点的nn,位于Master节点(稍后解释Master节点和slave节点)

  

  TaskTracker

  

  叫任务跟踪器,MapReduce体系的最后一个后台进程,位于每个slave节点上,与datanode结合(代码与数据一起的原则),管理各自节点上的task(由jobtracker分配),每个节点只有一个tasktracker,但一个tasktracker可以启动多个JVM,用于并行执行map或reduce任务,它与jobtracker交互通信,可以告知jobtracker子任务完成情况。

 

  Master与Slave

  Master节点:运行了Namenode、或者Secondary Namenode、或者Jobtracker的节点。还有浏览器(用于观看管理界面),等其它Hadoop工具。Master不是唯一的!

  Slave节点:运行Tasktracker、Datanode的机器。

 

  数据分析者面临的问题和Hadoop的思想

  目前需要我们处理的数据日趋庞大,无论是入库和查询,都出现性能瓶颈,用户的应用和分析结果呈整合趋势,对实时性和响应时间要求越来越高。使用的模型越来越复杂,计算量指数级上升。

  故,人们希望出现一种技术或者工具来解决性能瓶颈,在可见未来不容易出现新瓶颈,并且学习成本尽量低,使得过去所拥有的技能可以平稳过渡。比如SQL、R等,还有转移平台的成本能否控制最低,比如平台软硬件成本,再开发成本,技能再培养成本,维护成本等。

  而Hadoop就能解决如上问题——分而治之,化繁为简。

hadoop2.0介绍(一)

一、概述 现在大数据很“热”,hadoop系列(也称为The Hadoop Project Ecosystem)东西随着也很“热”,不过hadoop也确实有此“资本”,hadoop起源于google的...
  • guxch
  • guxch
  • 2013年11月26日 10:04
  • 11390

Hadoop学习-基础概念

官方教程点这里 相关论坛设计理念HDFS专为存储大文件而设计,通常以集群模型运行于普通的商业服务器上,基于流式数据访问模型完成数据存取。HDFS将所有文件的元数据存储于名称节点(NameNode)的...
  • xianmiao2009
  • xianmiao2009
  • 2016年03月13日 14:29
  • 770

1、Websphere学习笔记之一概念篇

1、Websphere学习笔记之一概念篇            最近因为工作需要使用Websphere,下班后就适当学习下这中间件吧。今天就看下一些概念和Websphere本身的架构。 l We...
  • notbaron
  • notbaron
  • 2015年03月29日 19:39
  • 31102

MySQL学习笔记---基础概念和一些基础SQL语句(一)

MySQL学习笔记,以防遗忘 数据库基本概念 数据库:保存有组织的数据的容器(通常是一个文件或一组文件)。 表:某种特定类型数据的结构化清单,数据库中的表都有一个唯一的名字用来标识自己。 模式:关于数...
  • Jung_zhang
  • Jung_zhang
  • 2016年04月14日 20:11
  • 1715

从hadoop发展角度彻底明白hadoop1.x与hadoop2.x的区别

问题导读 1.hadoop1.x改造如果是两个jobtraker,你认为解决了什么问题? 2.hadoop1.x改造如果是两个jobtraker,你认为未解决了什么问题? 3.你如何看待ha...
  • u012117710
  • u012117710
  • 2016年12月13日 11:41
  • 2512

【深入浅出jQuery】源码浅析--整体架构

最近一直在研读 jQuery 源码,初看源码一头雾水毫无头绪,真正静下心来细看写的真是精妙,让你感叹代码之美。 其结构明晰,高内聚、低耦合,兼具优秀的性能与便利的扩展性,在浏览器的兼容性(功能缺...
  • goulei2010
  • goulei2010
  • 2016年12月20日 14:51
  • 473

hadoop权威指南阅读笔记(一)

第一章 一、对hadoop的诞生的原因: 问题: 硬盘的存储容量在迅速的增加,传输的速度并未有相同幅度的增加, 从驱动器上读取数据需要花费很长的时间 所以为了提高传输速度提出了一种解决方案是...
  • u013793732
  • u013793732
  • 2016年04月03日 12:32
  • 296

java学习笔记参考

1. JDK、JRE和JVM分别是什么,区别是什么? 答:   ①、JDK 是整个Java的核心,包括了Java运行环境、Java工具和Java基础类库。   ②、JRE(Java Runt...
  • kggnzbzdwan
  • kggnzbzdwan
  • 2016年01月06日 15:04
  • 1150

Hadoop学习笔记(一)---Linux基本知识说明

Hadoop的生成环境都是在linux下面,不过呢hadoop2.x 已经开始支持windows平台,但是支持并不是很好,因此熟悉linux的命令是很重要的,需要熟悉linux的基本命令和环境的基本配...
  • garychenqin
  • garychenqin
  • 2015年05月30日 15:05
  • 581

整体了解HADOOP框架及一些开源项目

Hadoop框架中,有很多优秀的工具,帮助我们解决工作中的问题。 Hadoop的位置 从上图可以看出,越往右,实时性越高,越往上,涉及到算法等越多。 越往上,越往右就越火……...
  • health747474
  • health747474
  • 2016年08月03日 14:37
  • 2802
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Hadoop学习笔记(1):概念和整体架构
举报原因:
原因补充:

(最多只允许输入30个字)