网站首页 > 博客文章正文

大数据之-Hadoop3.x_Yarn_全流程作业

baijin 2024-11-30 11:14:54 博客文章 4 ℃ 0 评论

然后我们看看yarn的全部作业流程,可以看到右边是一个Hadoop的集群,首先

有个namenode,这个我们说他记录着每个文件都在什么位置,这些元数据信息,然后secondarynamenode,这个

也是记录了元数据信息每个文件都存在什么位置了,这个可以说是namenode的一个备份辅助,然后

DataNode是真实的用来存储数据用的节点

然后可以看到resourcemanager这个是整个资源的协调者是整个集群资源的老大,然后

nodemanager负责管理单个服务器的资源,单个节点的资源.

然后我们再看一下,如果有个任务,就是要从100T中找出ss1505_wuma.avi这个时候yarn的客户端,就会

提交一个请求,给resourcemanager,然后resourcemanager就会去生成一个task任务,放到队列里面,

然后等运行到这个任务,就会有个nodemanager,也就服务器接收到这个任务,然后创建一个

application master然后这个,application master接收到这个任务以后,就又会,向resourcemanager,

发起一个请求, 然后resourcemanager,收到这个请求,又生成了一个task放到队列中,然后运行到了

这个任务以后,就会有对应的空闲的nodemanager,运行这个任务,首先去创建container,在container

中去创建maptask,去处理数据找对应的文件,然后maptask运行以后,又会去运行reducetask,当然这个过程

同样是需要给resourcemanager发请求,生成任务,最后等reducetask,把结果聚合以后,就把结果,

写出到某个datanode上了,然后namenode就能知道,并且存储这个文件的元数据,包括路径等.

这就是整个yarn的作业流程.

可以看到在这个过程中执行一个处理数据的任务,用到了MapReduce,然后同时也用到了yarn用来协调分配资源,

MapReduce用来计算处理数据对吧

上面就可以说是yarn和MapReduce之间的一个流程关系.

然后yarn和hdfs之间是什么关系呢?

可以看到上面就是处理的时候,MapReduce负责处理数据,处理的时候,首先读取数据,要用到hdfs,需要在

hdfs系统中读取数据,然后处理以后,把数据再写入到hdfs上去.