网站首页 > 博客文章 正文
Hadoop学习路上的那些事儿,继续分享
(图片来自网络)
什么是yarn
简单的说,就是Hadoop中的一个资源管理器,由ResourceManager和NodeManager构成。
一言不合上官网,https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html
实验过程
实验准备:
1. 开通一台云主机,此实验采用的是移动云云主机
2. 确保JDK安装正确,环境变量配置无误
3. 确保Hadoop安装正确,环境变量配置无误
4. 确保HDFS各种配置正确,同时正常启动
步骤一:配置两个核心配置文件
配置etc/hadoop/mapred-site.xml。需要注意的是,该目录下有一个mapred-site.xml.template文件,这是一个模板文件,需要把名字修改为mapred-site.xml,然后添加如下配置代码。
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.application.classpath</name>
<value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*</value>
</property>
</configuration>
配置etc/hadoop/yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.env-whitelist</name>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
</property>
</configuration>
步骤二:启动yarn进程
实际上启动了ResourceManager和NodeManager两个守护进程。
sbin/start-yarn.sh
如果在此步骤启动不成功,提示JAVA_HOME没有设置或者未发现的错误信息,可通过手动配置mapred-env.sh文件中的JAVA_HOME,以及yarn-env.sh文件中的JAVA_HOME.
步骤三:验证结果,并操作yarn的dashboard页面
通过云主机公网IP加8088端口,在浏览器中打开yarn的dashboard页面,如36.255.67.89:8088,如果能够成功打开页面,说明yarn启动成功。
由于目前是刚启动,没有任何job作业在跑,所以页面显示无数据。继续使用hadoop自带的example功能,测试一下效果。
确保HDFS启动,并且有input输入文件,该文件下也有实验数据,如果有output文件存在,需要删除,否则会报错。
bin/hdfs dfs -rm -r output
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar grep input/ output/ 'dfs[a-z.]+'
bin/hdfs dfs -cat output/*
刷新yarn的dashboard页面,就会发现有处理的数据了。
实验完成后,可以停止yarn,以及dfs进程。
sbin/stop-yarn.sh
sbin/stop-dfs.sh
实验总结
1) HDFS解决了数据的分布式存储,比如input和output中的数据,默认是3副本。
2) YARN解决了MapReduce处理数据过程的资源管理,将MapReduce的job作业进行了分布式。
遗留一个问题:上面两个配置文件中,配置了一堆变量,如HADOOP_MAPRED_HOME, HADOOP_COMMON_HOME, HADOOP_HDFS_HOME等,个人还没搞清楚,这些变量是在哪里配置的,只手动配置过JAVA_HOME和HADOOP_HOME。
猜你喜欢
- 2024-10-14 国庆期间别偷懒,大数据平台只差YARN了
- 2024-10-14 为什么我们从Yarn切换到pnpm(yarn设置淘宝镜像)
- 2024-10-14 flink的yarn模式部署(flink的三种部署方案)
- 2024-10-14 yarn的安装和使用(yarn安装教程)
- 2024-10-14 yarn 的安装和使用(yarn安装教程)
- 2024-10-14 操作学习-Spark on Yarn(spark on yarn执行流程)
- 2024-10-14 全面解析:Hadoop基础——YARN(hadoop yarn工作原理)
- 2024-10-14 Node简史及好书推荐(nodejs相关书籍)
- 2024-10-14 大数据之-Hadoop3.x_Yarn_常用命令---大数据之hadoop3.x_0147
- 2024-10-14 大数据系列文章之Yarn组件及其执行流程
你 发表评论:
欢迎- 367℃用AI Agent治理微服务的复杂性问题|QCon
- 358℃初次使用IntelliJ IDEA新建Maven项目
- 357℃手把手教程「JavaWeb」优雅的SpringMvc+Mybatis整合之路
- 351℃Maven技术方案最全手册(mavena)
- 348℃安利Touch Bar 专属应用,让闲置的Touch Bar活跃起来!
- 346℃InfoQ 2024 年趋势报告:架构篇(infoq+2024+年趋势报告:架构篇分析)
- 345℃IntelliJ IDEA 2018版本和2022版本创建 Maven 项目对比
- 342℃从头搭建 IntelliJ IDEA 环境(intellij idea建包)
- 最近发表
- 标签列表
-
- powershellfor (55)
- messagesource (56)
- aspose.pdf破解版 (56)
- promise.race (63)
- 2019cad序列号和密钥激活码 (62)
- window.performance (66)
- qt删除文件夹 (72)
- mysqlcaching_sha2_password (64)
- ubuntu升级gcc (58)
- nacos启动失败 (64)
- ssh-add (70)
- jwt漏洞 (58)
- macos14下载 (58)
- yarnnode (62)
- abstractqueuedsynchronizer (64)
- source~/.bashrc没有那个文件或目录 (65)
- springboot整合activiti工作流 (70)
- jmeter插件下载 (61)
- 抓包分析 (60)
- idea创建mavenweb项目 (65)
- vue回到顶部 (57)
- qcombobox样式表 (68)
- vue数组concat (56)
- tomcatundertow (58)
- pastemac (61)
本文暂时没有评论,来添加一个吧(●'◡'●)