HADOOP三大核心组件分别是什么

2024-01-04 深圳推广 技术文档

HADOOP三大核心组件分别是HDFS、MapReduce和YARN。详细介绍:1、HDFS:即分布式文件系统,用于存储Hadoop集群中的大量数据。具有高容错性,可跨多个数据节点存储数据,并提供高吞吐量的数据访问;2、MapReduce:用于大规模数据集的并行处理。它将大数据任务分解为多个小任务,并在多个节点上并行处理,最后将结果汇总;3、YARN:负责集群资源的分配和管理。

Hadoop的三大核心组件是HDFS(分布式文件存储)、MapReduce(分布式计算)和YARN(资源调度)。

1、HDFS:HADOOP分布式文件系统

HDFS(Hadoop Distributed File System)是 Hadoop 项目的核心子项目,主要负责集群数据的存储与读取,HDFS 是一个主/从(Master/Slave) 体系结构的分布式文件系统。HDFS 支持传统的层次型文件组织结构,用户或者应用程序可以创建目录,然后将文件保存在这些目录中。文件系统名字空间的层次结构和大多数现有的文件系统类似,可以通过文件路径对文件执行创建、读取、更新和删除操作。但是由于分布式存储的性质,它又和传统的文件系统有明显的区别。

HDFS优点:

  • 高容错性。HDFS上传的数据自动保存多个副本,可以通过增加副本的数据来增加它的容错性。如果某一个副本丢失,HDFS 会复制其他机器上的副本,而我们不必关注它的实现。
  • 适合大数据的处理。HDFS 能够处理 GB、TB 甚至 PB 级别的数据,规模达百万,数量非常大。(1PB=1024TB、1TB=1014GB)
  • 流式数据访问。HDFS 以流式数据访问模式来存储超大文件,一次写入,多次读取,即文件一旦写入,则不能修改,只能增加。这样可以保持数据的一致性。

2、MapReduce:大规模数据处理

MapReduce 是 Hadoop 核心计算框架,适用于大规模数据集(大于1TB)并行运算的编程模型,包括 Map(映射)和 Reduce(规约) 两部分。

当启动一个 MapReduce 任务时,Map 端会读取 HDFS 上的数据,将数据映射成所需要的键值对类型并传到 Reduce 端。Reduce 端接收 Map 端传过来的键值对类型的数据,根据不同键进行分组,对每一组键相同的数据进行处理,得到新的键值对并输出到 HDFS,这就是 MapReduce 的核心思想。

一个完整的 MapReduce 过程包含数据的输入与分片、Map 阶段数据处理、Reduce 阶段数据处理、数据输出等阶段:

  • 读取输入数据。MapReduce 过程中的数据是从 HDFS 分布式文件系统中读取的。文件在上传到 HDFS 时,一般按照 128MB 分成了几个数据块,所以在运行 MapReduce 程序时,每个数据块都会生成一个 Map,但是也可以通过重新设置文件分片大小调整 Map 的个数,在运行 MapReduce 时会根据所设置的分片大小对文件重新分割(Split),一个分片大小的数据块就会对应一个Map。
  • Map 阶段。程序有一个或多个 Map,由默认存储或分片个数决定。针对 Map 阶段,数据以键值对的形式读入,键的值一般为每行首字符与文件最初始位置的偏移量,即中间所隔字符个数,值为这一行的数据记录。根据需求对键值对进行处理,映射成新的键值对,将新的键值对传到 Reduce 端。
  • Shuffle/Sort 阶段:此阶段是指从 Map 输出开始,传送 Map 输出到 Reduce 作为输入的过程。该过程会将同一个 Map 中输出的键相同的数据先进行一步整合,减少传输的数据量,并且在整合后将数据按照键排序。
  • Reduce 阶段:Reduce 任务也可以有多个,按照 Map 阶段设置的数据分区确定,一个分区数据被一个 Reduce 处理。针对每一个 Reduce 任务,Reduce 会接收到不同 Map 任务传来的数据,并且每个 Map 传来的数据都是有序的。一个 Reduce 任务中的每一次处理都是针对所有键相同的数据,对数据进行规约,以新的键值对输出到 HDFS。

3、Yarn:资源管理器

Hadoop 的 MapReduce 架构称为 YARN(Yet Another Resource Negotiator,另一种资源协调者),是效率更高的资源管理核心。

YARN 主要包含三大模块:Resource Manager(RM)、Node Manager(NM)、Application Master(AM):

  • Resource Manager 负责所有资源的监控、分配和管理;
  • Application Master 负责每一个具体应用程序的调度和协调;
  • Node Manager 负责每一个节点的维护。

以上就是HADOOP三大核心组件分别是什么的详细内容,更多请关注深圳推广其它相关文章!

相关推荐://
  • 团队管理的核心要点是什么
    hover

    团队管理的核心要点是什么

    团队管理的五个核心要点是:1. 沟通:建立开放、诚实的交流渠道。2. 协作:尊重多样性、共同目标和一致的愿景。3. 责任:明确团队成员的职责和期望值。4. 授权:赋予团队成员自主权和决策权。5. 团队建设:定期进行活动以增强凝聚力、···

    2024-05-18
  • 超融合架构的主要组件是
    hover

    超融合架构的主要组件是

    超融合架构 (hci) 由以下组件组成:1. 计算节点(执行工作负载);2. 存储节点(提供数据存储);3. 软件定义网络 (sdn)(管理网络资源);4. 虚拟化层(允许在单台物理服务器上运行多台虚拟机);5. 数据管理软件(提供数据保护和恢···

    2024-05-14
  • 百度三大AI开发神器亮相 李彦宏:会说话就能成开发者
    hover

    百度三大AI开发神器亮相 李彦宏:会说话就能成开发者

    4月16日消息,在今天的Create 2024百度AI开发者大会上,百度创始人、董事长兼CEO李彦宏发表了“人人都是开发者”的主题演讲。 李彦宏认为,过去开发者用代码改变世界;未来,自然语言将成为新的通用编程语言,你只要会说话,就可以···

    2024-04-16
  • hadoop三大核心组件的作用和功能
    hover

    hadoop三大核心组件的作用和功能

    hadoop 生态系统的三大核心组件分别是:hdfs(可靠且可扩展的文件系统,用于存储和管理海量数据);mapreduce(分布式计算框架,用于处理海量数据集);yarn(资源管理框架,负责管理和调度 hadoop 集群中的资源)。 Hadoop 三大核···

    2024-04-08
  • 抖音首次推出商城版APP 大动作对标三大电商
    hover

    抖音首次推出商城版APP 大动作对标三大电商

    有着大把的人脉资源不用实属浪费,据媒体报道近日字节上线了一款名为“抖音商城版”的APP,主打“超值好物省心选”,意在与淘宝、京东、拼多多等竞争。 这也是抖音电商首次在抖音APP之外,推出综合性独立电商平台。 抖音电商···

    2024-03-26
  • Angular组件及其显示属性:了解非block默认值
    hover

    Angular组件及其显示属性:了解非block默认值

    angular框架中组件的默认显示行为不是块级元素。这种设计选择促进了组件样式的封装,并鼓励开发人员有意识地定义每个组件的显示方式。通过显式设置css属性 display,angular组件的显示可以完全控制,从而实现所需的布局和响应能力。 ···

    2024-03-15
  • hadoop三大核心组件介绍
    hover

    hadoop三大核心组件介绍

    hadoop的三大核心组件分别是:hadoop distributed file system(hdfs)、mapreduce和yet another resource negotiator(yarn)。 Hadoop Distributed File System(HDFS): HDFS是Hadoop的分布式文件系统,用于存储大规模数据集。···

    2024-03-13
  • 首个iPhone 16镜头组件曝光 网友:iPhone 12SSSS来了
    hover

    首个iPhone 16镜头组件曝光 网友:iPhone 12SSSS来了

    iPhone 16后摄像头模组重回垂直排列的消息已经得到证实。有国外用户曝光了iPhone 16的首个摄像头组件,一起来看看。 如图所示,该摄像头组件采用垂直排列,而非现款iPhone 15的对角线排列。MR证实,该组件将用于iPhone 16标准版···

    2024-03-06
在线客服 13691917840 提交需求 二维码