网站首页 > 博客文章正文

大数据hadoop和spark怎么选择?（hadoop和spark是大数据的什么软件）

baijin 2024-09-29 08:59:49 博客文章 212 ℃ 0 评论

Hadoop作为早期的大数据框架，主要处理了海量数据的存储、计算工作，使用MR计算模型稳定性、吞吐量较好，但由于中间环节需要落地,所以计算效率不高，而计算引擎Spark正是解决海量数据计算效率等问题的，采用了DAG计算模型加上优先基于内存处理所以速度较快，另外Spark作为整体技术栈还涉及到实时场景、图计算等其他技术方向。总之，目前大数据的基本使用是以Hadoop为基础应用进行了数据存储，采用其他计算引擎在集群中进行计算，它们相互配合形成整个的技术解决方案的重要部分。

你可以看看我下面写到介绍Spark的文章,详细说明了spark的优缺点.

Spark特点及缺点？ - 拥抱大数据的回答 - 知乎 https://www.zhihu.com/question/26844217/answer/1183564018

对于语言的选择(是java还是python)

从事大数据开发,Python和Java都要学习,首先要学习Java语言,Java是大数据的基础编程语言,除此之外还有一门必须的语言---Scala,它是专门用于大数据Spark开发的.当到了大数据高级阶段在做一些与大数据分析,人工智能,机器学习相关的工作时才会用到Python,换句话说对于大数据Java,Scala是基础必须要学,而Python等学到大数据高级时再学也可以.

做大数据,如果细说的话需要用到好几种,java,sql,scala,python,但是主要使用的是java与scala.

hadoop生态圈框架使用的都是java语言,spark,flink等目前流行的运算框架使用的是scala语言,进行数据仓库建设管理或相关开发使用的是hql(跟sql的语法结构非常相似),进行高级的机器学习,人工智能方向研发可以使用python语言.

如果你要从头学习大数据,肯定要先学习java,因为hadoop生态圈建设是大数据开发的基础.

如果你想学习大数据开发,建议不要自学,我前面写了文章分析过为什么小白不建议自学,想快速进入开发行业,目前来看,捷径就是找个培训机构.

上一篇： Apache Flink会超越Apache Spark么?
下一篇： Flink:再爱我一次（再爱我我一次）

网站首页 > 博客文章正文

大数据hadoop和spark怎么选择?（hadoop和spark是大数据的什么软件）

对于语言的选择(是java还是python)

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 博客文章 正文

大数据hadoop和spark怎么选择?（hadoop和spark是大数据的什么软件）

对于语言的选择(是java还是python)

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 博客文章正文

取消回复欢迎你发表评论: