网站首页 > 博客文章 正文
DWant讨论如何为您的组织利用Apache Parquet? 需要一个平台和专家团队来启动您的数据和分析工作吗? 我们可以提供帮助! 吸引人采用新技术,尤其是如果这意味着您的团队以不同且陌生的方式开展工作,可能会成为成功的障碍。 在仅自助服务的世界中尤其如此。 如果您想讨论概念验证,试验,项目或任何其他工作,Openbridge平台和数据专家团队将随时为您提供帮助。
获得适用于Google BigQuery,Azure Data Lakes,Amazon Athena和Redshift Spectrum的Apache Parquet文件格式的所有优势
Apache Parquet非常适合用于交互式查询服务(例如AWS Athena,PresoDB和Amazon Redshift Spectrum)的兴起。 每个服务都允许您使用标准SQL分析Amazon S3上的数据。 但是,您选择的数据格式可能会对性能和成本产生重大影响,尤其是当您正在研究机器学习,AI或其他复杂操作时。
如果您希望创建到数据湖的ETL或ELT流程,那么该是时候熟悉Apache Parquet文件格式可以提供的价格和性能机会了。
什么是Apache Parquet?
首先,我们意识到您可能从未听说过Apache Parquet。 与CSV文件类似,Parquet是一种文件格式。 区别在于Parquet被设计为列式存储格式,以支持复杂的数据处理。
Apache Parquet是一种自我描述的数据格式,它将模式或结构嵌入到数据本身中。 这将产生一个针对查询性能和最小化I / O而优化的文件。 具体来说,它具有以下特征:
· 与基于行的CSV相比,Apache Parquet面向列,旨在提供高效的列式数据存储
· Apache Parquet是从头开始构建的,考虑到了复杂的嵌套数据结构
· Apache Parquet构建为支持非常有效的压缩和编码方案(请参阅Google Snappy)
· Apache Parquet允许使用无服务器技术(例如Amazon Athena,Redshift Spectrum,BigQuery和Azure Data Lakes)降低数据文件的存储成本,并最大化查询数据的效率。
· 在Apache软件基础上获得许可,可用于任何项目。
Parquet的"大数据"关联可能会给人一种印象,即格式仅限于特定用例。 随着Parquet走出复杂的Hadoop大数据解决方案的阴影,它获得了更广泛的支持。 例如,团队正在使用Apache Parquet,Tableau和Amazon Athena构建低成本,高性能的无服务器商业智能堆栈。
Parquet与CSV
CSV无处不在且简单明了。 Excel,Google表格和其他许多工具都可以生成CSV文件。 您甚至可以使用自己喜欢的文本编辑工具来创建CSV文件。 我们都喜欢CSV文件,但是,即使您喜欢CSV文件,也要付出一切代价,尤其是如果CSV是数据处理管道的默认格式时。 价格,你说呢? 我的CSV文件需要付费吗? 是的
· 诸如AWS Redshift Spectrum之类的面向列的数据库或诸如AWS EMR(Apache Hive)或Amazon Athena之类的查询服务根据每次查询扫描的数据量向您收费。 (许多其他服务也根据查询的数据收费,因此这不是AWS独有的)
· Google和Amazon向您收取GS / S3上存储的数据量
默认不使用CSV会同时带来技术和财务方面的结果(不正确的方式)。 您将学习到像可信赖的CSV一样爱Apache Parquet。
虽然我们不在本文中讨论,但Parquet vs. ORC用例是我们将来将探讨的事情。
示例:1 TB CSV文件
与CSV之类的格式相比,镶木地板的性能在成本,效率和灵活性方面具有明显优势。 以下内容演示了使用Parquet文件和CSV的效率和有效性。
通过将CSV数据转换为Parquet的列式格式,对其进行压缩和分区,可以节省金钱并获得更好的性能。 下表比较了通过将数据转换为Parquet和CSV所节省的成本。
想想看:在一年的时间里,您坚持使用未压缩的1 TB CSV文件,因为查询成本的基础是$ 2000 USD。 使用Parquet文件,您的总费用为$ 3.65 USD。 我知道您喜欢自己的CSV文件,但是您真的很喜欢它们吗? 大规模地,这些费用加起来!
另外,如果时间就是金钱,那么您的分析师可能仅花费5分钟的时间就可以完成查询,这仅仅是因为您使用的是原始CSV。 如果您向某人支付每小时150美元的费用,并且他们一年中每天这样做一次,那么他们只花了30个小时才等待查询完成。 在非生产性的"等待"时间内,大约需要花费$ 4500。 Apache Parquet用户的总等待时间? 大约42分钟或100美元。
Parquet示例2:Parquet,CSV,Redshift Spectrum和Amazon Athena Data Lakes
Amazon Athena和Amazon Redshift Spectrum使您可以对Amazon S3中的数据运行Amazon SQL查询。 对于希望对数据进行分区的团队来说,这是一种有效的策略,其中一些数据驻留在Redshift中,而其他数据驻留在S3上。 例如,假设您在Redshift的history_purchase表中有大约4 TB的数据。 由于不经常访问它,因此将其卸载到S3是有意义的。 这将释放Redshift中的空间,同时仍可通过Spectrum提供团队访问权限。 现在,最大的问题变成了您以哪种格式存储4 TBhistory_purchase表? CSV? 使用Parquet怎么样?
我们的history_purchase表具有四个大小相等的列,分别存储在Amazon S3中的三个文件中。 未压缩的CSV,gzip CSV和Parquet。
· 未压缩的CSV文件未压缩的CSV文件的总大小为4 TB。 运行查询以从表的单个列中获取数据需要Redshift Spectrum扫描整个文件4 TB。 结果,此查询将花费20美元。
· GZIP CSV文件如果使用GZIP压缩CSV文件,则文件大小将减小为1GB。 大笔节省! 但是,Redshift Spectrum仍必须扫描整个文件。 好消息是,您的CSV文件比未压缩的文件小四倍,因此您只需支付以前的四分之一。 此查询将花费$ 5。
· Parquet文件示例如果压缩文件并将CSV转换为Apache Parquet,则在S3中最终将获得1 TB的数据。 但是,由于Parquet是列式的,因此Redshift Spectrum只能读取与正在运行的查询相关的列。 它只需要扫描1/4的数据。 该查询仅花费$ 1.25。
如果一年中每天运行一次此查询,则使用未压缩的CSV文件将花费$ 7300。 即使是压缩的CSV查询,也要花费$ 1800以上。 但是,使用Apache Parquet文件格式,价格约为460美元。 仍然喜欢您的CSV文件?
摘要
走向"无服务器",交互式查询服务和预建数据处理套件的趋势正在迅速发展。 Parquet格式为团队提供了新的机会,使他们可以以较低的投资更快地发展。
当您只为运行的查询付费时,必须考虑优化那些系统所依赖的数据。
将Parquet与Athena和Spectrum结合使用,可轻松使用标准SQL来降低Amazon S3的成本和数据分析。
此外,Google支持将Parquet文件加载到BigQuery中,而Microsoft支持将其加载到Azure Data Lakes中。 这为您提供了一定程度的跨云可移植性。 您可以在此处看到使用Parquet,Athena和Oracle Cloud的真实示例
(本文翻译自Thomas Spicer的文章《Apache Parquet: How to be a hero with the open-source columnar data format on Google, Azure and Amazon cloud》,参考:https://blog.openbridge.com/how-to-be-a-hero-with-powerful-parquet-google-and-amazon-f2ae0f35ee04)
猜你喜欢
- 2024-11-08 写Parquet的同时提高Spark作业性能300%
- 2024-11-08 0805-CDH5中的Parquet迁移至CDP中兼容性验证
- 2024-11-08 0608-如何将ORC格式且使用了DATE类型的Hive表转为Parquet(续)
- 2024-11-08 大数据正当时,理解这几个术语很重要
- 2024-11-08 苹果IOS游戏分享:「帕奎特-PARQUET」-解锁完整章节,二次元恋爱
- 2024-11-08 什么是魅力值拉满的男士香调?(男士香料)
- 2024-11-08 0607-如何将ORC格式且使用了DATE类型的Hive表转为Parquet表
- 2024-11-08 数据工程101:揭开Hadoop数据格式的神秘面纱:Avro,ORC和Parquet
- 2024-11-08 为什么数据格式很重要?Parquet vs Protobuf vs JSON
- 2024-11-08 四十一、SparkSQL读取parquet数据源(必须要弄懂)
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- powershellfor (55)
- messagesource (56)
- aspose.pdf破解版 (56)
- promise.race (63)
- 2019cad序列号和密钥激活码 (62)
- window.performance (66)
- qt删除文件夹 (72)
- mysqlcaching_sha2_password (64)
- ubuntu升级gcc (58)
- nacos启动失败 (64)
- ssh-add (70)
- jwt漏洞 (58)
- macos14下载 (58)
- yarnnode (62)
- abstractqueuedsynchronizer (64)
- source~/.bashrc没有那个文件或目录 (65)
- springboot整合activiti工作流 (70)
- jmeter插件下载 (61)
- 抓包分析 (60)
- idea创建mavenweb项目 (65)
- vue回到顶部 (57)
- qcombobox样式表 (68)
- vue数组concat (56)
- tomcatundertow (58)
- pastemac (61)
本文暂时没有评论,来添加一个吧(●'◡'●)