博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
hadoop安装和基本知识
阅读量:6231 次
发布时间:2019-06-21

本文共 1086 字,大约阅读时间需要 3 分钟。

安装教程:/home/yu/develop/hadoop-2.7.1/bin:/home/yu/develop/hadoop-2.7.1/sbin

hadoop组成

  hadoop主要包括HDFS系统和MapReduce两个部分。

HDFS文件系统

  hdfs文件系统特点:1.数据冗余,硬件容错

            2.流式数据访问。不允许修改,写一次读多次,想修改只能删除再写

            3.适合大容量文件,不适合大量小文件,因为文件每次读取都需要访问NameNode,NameNode会产生过大的负载

            4.不适合交互式,延迟较大

            5.不支持多个用户同时写一个文件

  hdfs文件被分成块进行存储,hdfs系统块默认大小为64MB块是文件存储的逻辑单元

  NameNode是管理节点,存放元数据。

    元数据主要存储两种表:1.文件与数据块的映射表   2.数据块与数据节点的映射表

    还存在二级NameNode定期元同步数据映像文件、修改日志,NameNode发生故障时二级NameNode转正

  DataNode是HDFS的工作节点,存放数据块

    1.HDFS中每个数块存三份,分布在两个机架的三个节点

    2.心跳检测:DataNode定期向NameNode放心跳消息

 

MapReduce并行计算模型

  1.MapReduce概念

    

    Map:将一个大的任务分解成许多小任务,进行并行处理

    Reduce:将结果合并

  2..job和task

    一个作业成为job,一个job完成过程要拆分成多个task,task又分为JobTask和MapTask两类

  3..hadoop Mapreduce体系结构

    

 

    (1)Jobtracker

      a.作业调度

      b.分配任务、监控任务执行进度

      c.监控Tasktracker运行情况

    (2)TaskTracker

      a.执行任务

      b.汇报任务状态 

    4.MapReduce作业执行过程

  

  

    4.容错机制

      a.重复执行

      b.推测执行

        当一个节点执行过慢时会使用另一个节点与其共同计算相同的任务,当有一个节点完成时,另一个节点不在进行计算。

    

转载于:https://www.cnblogs.com/2017Crown/p/7339853.html

你可能感兴趣的文章
java中多种写文件方式的效率对比实验
查看>>
Cisco 2960 配置
查看>>
阿里大鱼数据库存储方案
查看>>
if判断的几种用法
查看>>
mysql安装与初始配置
查看>>
su命令
查看>>
linux 安装nginx
查看>>
建议把.CSV的默认打开方式改成任意一个文本 编辑器,系统自带的记事本就是个不错的选择...
查看>>
js 邮箱、11位手机正则
查看>>
使用Vim插件管理器Vundle
查看>>
Docker基于已有的镜像制新的镜像
查看>>
ServerCore命令
查看>>
nginx安装步骤总结-故障排查-浏览原理
查看>>
菜鸟学Linux 第071篇笔记 Mysql理论
查看>>
LINUX REDHAT第十四单元文档
查看>>
Java线程间通信之wait/notify
查看>>
jstat监控JVM内存使用情况、GC回收情况
查看>>
PHP ElasticSearch的使用
查看>>
python将日志导入数据库代码案例 3
查看>>
IOS之分析网易新闻存储数据(CoreData的使用,增删改查)
查看>>