专业的编程技术博客社区

网站首页 > 博客文章 正文

大数据之-Hadoop3.x_Yarn_全流程作业

baijin 2024-11-30 11:14:54 博客文章 4 ℃ 0 评论


?


然后我们看看yarn的全部作业流程,可以看到右边是一个Hadoop的集群,首先


有个namenode,这个我们说他记录着每个文件都在什么位置,这些元数据信息,然后secondarynamenode,这个


也是记录了元数据信息每个文件都存在什么位置了,这个可以说是namenode的一个备份辅助,然后


DataNode是真实的用来存储数据用的节点


?


然后可以看到resourcemanager这个是整个资源的协调者是整个集群资源的老大,然后


nodemanager负责管理单个服务器的资源,单个节点的资源.


?


然后我们再看一下,如果有个任务,就是要从100T中找出ss1505_wuma.avi这个时候yarn的客户端,就会


提交一个请求,给resourcemanager,然后resourcemanager就会去生成一个task任务,放到队列里面,


然后等运行到这个任务,就会有个nodemanager,也就服务器接收到这个任务,然后创建一个


application master然后这个,application master接收到这个任务以后,就又会,向resourcemanager,


发起一个请求, 然后resourcemanager,收到这个请求,又生成了一个task放到队列中,然后运行到了


这个任务以后,就会有对应的空闲的nodemanager,运行这个任务,首先去创建container,在container


中去创建maptask,去处理数据找对应的文件,然后maptask运行以后,又会去运行reducetask,当然这个过程


同样是需要给resourcemanager发请求,生成任务,最后等reducetask,把结果聚合以后,就把结果,


写出到某个datanode上了,然后namenode就能知道,并且存储这个文件的元数据,包括路径等.


这就是整个yarn的作业流程.


?


可以看到在这个过程中执行一个处理数据的任务,用到了MapReduce,然后同时也用到了yarn用来协调分配资源,


MapReduce用来计算处理数据对吧


上面就可以说是yarn和MapReduce之间的一个流程关系.


然后yarn和hdfs之间是什么关系呢?


?


可以看到上面就是处理的时候,MapReduce负责处理数据,处理的时候,首先读取数据,要用到hdfs,需要在


hdfs系统中读取数据,然后处理以后,把数据再写入到hdfs上去.

?

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表