网站首页 > 博客文章 正文
?
然后我们看看yarn的全部作业流程,可以看到右边是一个Hadoop的集群,首先
有个namenode,这个我们说他记录着每个文件都在什么位置,这些元数据信息,然后secondarynamenode,这个
也是记录了元数据信息每个文件都存在什么位置了,这个可以说是namenode的一个备份辅助,然后
DataNode是真实的用来存储数据用的节点
?
然后可以看到resourcemanager这个是整个资源的协调者是整个集群资源的老大,然后
nodemanager负责管理单个服务器的资源,单个节点的资源.
?
然后我们再看一下,如果有个任务,就是要从100T中找出ss1505_wuma.avi这个时候yarn的客户端,就会
提交一个请求,给resourcemanager,然后resourcemanager就会去生成一个task任务,放到队列里面,
然后等运行到这个任务,就会有个nodemanager,也就服务器接收到这个任务,然后创建一个
application master然后这个,application master接收到这个任务以后,就又会,向resourcemanager,
发起一个请求, 然后resourcemanager,收到这个请求,又生成了一个task放到队列中,然后运行到了
这个任务以后,就会有对应的空闲的nodemanager,运行这个任务,首先去创建container,在container
中去创建maptask,去处理数据找对应的文件,然后maptask运行以后,又会去运行reducetask,当然这个过程
同样是需要给resourcemanager发请求,生成任务,最后等reducetask,把结果聚合以后,就把结果,
写出到某个datanode上了,然后namenode就能知道,并且存储这个文件的元数据,包括路径等.
这就是整个yarn的作业流程.
?
可以看到在这个过程中执行一个处理数据的任务,用到了MapReduce,然后同时也用到了yarn用来协调分配资源,
MapReduce用来计算处理数据对吧
上面就可以说是yarn和MapReduce之间的一个流程关系.
然后yarn和hdfs之间是什么关系呢?
?
可以看到上面就是处理的时候,MapReduce负责处理数据,处理的时候,首先读取数据,要用到hdfs,需要在
hdfs系统中读取数据,然后处理以后,把数据再写入到hdfs上去.
?
猜你喜欢
- 2024-11-30 Hadoop集群部署(实操干货,建议收藏)
- 2024-11-30 列式存储的分布式数据库——HBase(环境部署)
- 2024-11-30 Vue3.2项目架构详解
- 2024-11-30 Flink安装(Standalone、Yarn模式)
- 2024-11-30 Apache Doris 整合 Iceberg + Flink CDC 构建实时湖仓一体的联邦查询
- 2024-11-30 大数据Apache Druid(二):Druid数据结构及架构原理
- 2024-11-30 CTO来教你:技术人员突然离职,如何接手他的项目?
- 2024-11-30 1.4 Flink on YARN集群部署《Flink核心源码解读》
- 2024-11-30 windows系统下如何安装多版本node.js
- 2024-11-30 从 jQuery 到 Vue3 的快捷通道
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- powershellfor (55)
- messagesource (56)
- aspose.pdf破解版 (56)
- promise.race (63)
- 2019cad序列号和密钥激活码 (62)
- window.performance (66)
- qt删除文件夹 (72)
- mysqlcaching_sha2_password (64)
- ubuntu升级gcc (58)
- nacos启动失败 (64)
- ssh-add (70)
- jwt漏洞 (58)
- macos14下载 (58)
- yarnnode (62)
- abstractqueuedsynchronizer (64)
- source~/.bashrc没有那个文件或目录 (65)
- springboot整合activiti工作流 (70)
- jmeter插件下载 (61)
- 抓包分析 (60)
- idea创建mavenweb项目 (65)
- vue回到顶部 (57)
- qcombobox样式表 (68)
- vue数组concat (56)
- tomcatundertow (58)
- pastemac (61)
本文暂时没有评论,来添加一个吧(●'◡'●)