专业的编程技术博客社区

网站首页 > 博客文章 正文

大数据hadoop和spark怎么选择?(hadoop和spark是大数据的什么软件)

baijin 2024-09-29 08:59:49 博客文章 203 ℃ 0 评论

Hadoop作为早期的大数据框架,主要处理了海量数据的存储、计算工作,使用MR计算模型稳定性、吞吐量较好,但由于中间环节需要落地,所以计算效率不高,而计算引擎Spark正是解决海量数据计算效率等问题的,采用了DAG计算模型加上优先基于内存处理所以速度较快,另外Spark作为整体技术栈还涉及到实时场景、图计算等其他技术方向。总之,目前大数据的基本使用是以Hadoop为基础应用进行了数据存储,采用其他计算引擎在集群中进行计算,它们相互配合形成整个的技术解决方案的重要部分。

你可以看看我下面写到介绍Spark的文章,详细说明了spark的优缺点.

Spark特点及缺点? - 拥抱大数据的回答 - 知乎 https://www.zhihu.com/question/26844217/answer/1183564018

对于语言的选择(是java还是python)

从事大数据开发,Python和Java都要学习,首先要学习Java语言,Java是大数据的基础编程语言,除此之外还有一门必须的语言---Scala,它是专门用于大数据Spark开发的.当到了大数据高级阶段在做一些与大数据分析,人工智能,机器学习相关的工作时才会用到Python,换句话说对于大数据Java,Scala是基础必须要学,而Python等学到大数据高级时再学也可以.

做大数据,如果细说的话需要用到好几种,java,sql,scala,python,但是主要使用的是java与scala.

hadoop生态圈框架使用的都是java语言,spark,flink等目前流行的运算框架使用的是scala语言,进行数据仓库建设管理或相关开发使用的是hql(跟sql的语法结构非常相似),进行高级的机器学习,人工智能方向研发可以使用python语言.

如果你要从头学习大数据,肯定要先学习java,因为hadoop生态圈建设是大数据开发的基础.

如果你想学习大数据开发,建议不要自学,我前面写了文章分析过为什么小白不建议自学,想快速进入开发行业,目前来看,捷径就是找个培训机构.

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表