网站首页 > 博客文章正文

Apache Parquet:在Google，Azure和Amazon云上使用开源列式数据

baijin 2024-11-08 10:22:38 博客文章 5 ℃ 0 评论

DWant讨论如何为您的组织利用Apache Parquet？需要一个平台和专家团队来启动您的数据和分析工作吗？我们可以提供帮助！吸引人采用新技术，尤其是如果这意味着您的团队以不同且陌生的方式开展工作，可能会成为成功的障碍。在仅自助服务的世界中尤其如此。如果您想讨论概念验证，试验，项目或任何其他工作，Openbridge平台和数据专家团队将随时为您提供帮助。

获得适用于Google BigQuery，Azure Data Lakes，Amazon Athena和Redshift Spectrum的Apache Parquet文件格式的所有优势

Apache Parquet非常适合用于交互式查询服务（例如AWS Athena，PresoDB和Amazon Redshift Spectrum）的兴起。每个服务都允许您使用标准SQL分析Amazon S3上的数据。但是，您选择的数据格式可能会对性能和成本产生重大影响，尤其是当您正在研究机器学习，AI或其他复杂操作时。

如果您希望创建到数据湖的ETL或ELT流程，那么该是时候熟悉Apache Parquet文件格式可以提供的价格和性能机会了。

什么是Apache Parquet？

首先，我们意识到您可能从未听说过Apache Parquet。与CSV文件类似，Parquet是一种文件格式。区别在于Parquet被设计为列式存储格式，以支持复杂的数据处理。

Apache Parquet是一种自我描述的数据格式，它将模式或结构嵌入到数据本身中。这将产生一个针对查询性能和最小化I / O而优化的文件。具体来说，它具有以下特征：

· 与基于行的CSV相比，Apache Parquet面向列，旨在提供高效的列式数据存储

· Apache Parquet是从头开始构建的，考虑到了复杂的嵌套数据结构

· Apache Parquet构建为支持非常有效的压缩和编码方案（请参阅Google Snappy）

· Apache Parquet允许使用无服务器技术（例如Amazon Athena，Redshift Spectrum，BigQuery和Azure Data Lakes）降低数据文件的存储成本，并最大化查询数据的效率。

· 在Apache软件基础上获得许可，可用于任何项目。

Parquet的"大数据"关联可能会给人一种印象，即格式仅限于特定用例。随着Parquet走出复杂的Hadoop大数据解决方案的阴影，它获得了更广泛的支持。例如，团队正在使用Apache Parquet，Tableau和Amazon Athena构建低成本，高性能的无服务器商业智能堆栈。

Parquet与CSV

CSV无处不在且简单明了。 Excel，Google表格和其他许多工具都可以生成CSV文件。您甚至可以使用自己喜欢的文本编辑工具来创建CSV文件。我们都喜欢CSV文件，但是，即使您喜欢CSV文件，也要付出一切代价，尤其是如果CSV是数据处理管道的默认格式时。价格，你说呢？我的CSV文件需要付费吗？是的

· 诸如AWS Redshift Spectrum之类的面向列的数据库或诸如AWS EMR（Apache Hive）或Amazon Athena之类的查询服务根据每次查询扫描的数据量向您收费。（许多其他服务也根据查询的数据收费，因此这不是AWS独有的）

· Google和Amazon向您收取GS / S3上存储的数据量

默认不使用CSV会同时带来技术和财务方面的结果（不正确的方式）。您将学习到像可信赖的CSV一样爱Apache Parquet。

虽然我们不在本文中讨论，但Parquet vs. ORC用例是我们将来将探讨的事情。

示例：1 TB CSV文件

与CSV之类的格式相比，镶木地板的性能在成本，效率和灵活性方面具有明显优势。以下内容演示了使用Parquet文件和CSV的效率和有效性。

通过将CSV数据转换为Parquet的列式格式，对其进行压缩和分区，可以节省金钱并获得更好的性能。下表比较了通过将数据转换为Parquet和CSV所节省的成本。

想想看：在一年的时间里，您坚持使用未压缩的1 TB CSV文件，因为查询成本的基础是$ 2000 USD。使用Parquet文件，您的总费用为$ 3.65 USD。我知道您喜欢自己的CSV文件，但是您真的很喜欢它们吗？大规模地，这些费用加起来！

另外，如果时间就是金钱，那么您的分析师可能仅花费5分钟的时间就可以完成查询，这仅仅是因为您使用的是原始CSV。如果您向某人支付每小时150美元的费用，并且他们一年中每天这样做一次，那么他们只花了30个小时才等待查询完成。在非生产性的"等待"时间内，大约需要花费$ 4500。 Apache Parquet用户的总等待时间？大约42分钟或100美元。

Parquet示例2：Parquet，CSV，Redshift Spectrum和Amazon Athena Data Lakes

Amazon Athena和Amazon Redshift Spectrum使您可以对Amazon S3中的数据运行Amazon SQL查询。对于希望对数据进行分区的团队来说，这是一种有效的策略，其中一些数据驻留在Redshift中，而其他数据驻留在S3上。例如，假设您在Redshift的history_purchase表中有大约4 TB的数据。由于不经常访问它，因此将其卸载到S3是有意义的。这将释放Redshift中的空间，同时仍可通过Spectrum提供团队访问权限。现在，最大的问题变成了您以哪种格式存储4 TBhistory_purchase表？ CSV？使用Parquet怎么样？

我们的history_purchase表具有四个大小相等的列，分别存储在Amazon S3中的三个文件中。未压缩的CSV，gzip CSV和Parquet。

· 未压缩的CSV文件未压缩的CSV文件的总大小为4 TB。运行查询以从表的单个列中获取数据需要Redshift Spectrum扫描整个文件4 TB。结果，此查询将花费20美元。

· GZIP CSV文件如果使用GZIP压缩CSV文件，则文件大小将减小为1GB。大笔节省！但是，Redshift Spectrum仍必须扫描整个文件。好消息是，您的CSV文件比未压缩的文件小四倍，因此您只需支付以前的四分之一。此查询将花费$ 5。

· Parquet文件示例如果压缩文件并将CSV转换为Apache Parquet，则在S3中最终将获得1 TB的数据。但是，由于Parquet是列式的，因此Redshift Spectrum只能读取与正在运行的查询相关的列。它只需要扫描1/4的数据。该查询仅花费$ 1.25。

如果一年中每天运行一次此查询，则使用未压缩的CSV文件将花费$ 7300。即使是压缩的CSV查询，也要花费$ 1800以上。但是，使用Apache Parquet文件格式，价格约为460美元。仍然喜欢您的CSV文件？

摘要

走向"无服务器"，交互式查询服务和预建数据处理套件的趋势正在迅速发展。 Parquet格式为团队提供了新的机会，使他们可以以较低的投资更快地发展。

当您只为运行的查询付费时，必须考虑优化那些系统所依赖的数据。

将Parquet与Athena和Spectrum结合使用，可轻松使用标准SQL来降低Amazon S3的成本和数据分析。

此外，Google支持将Parquet文件加载到BigQuery中，而Microsoft支持将其加载到Azure Data Lakes中。这为您提供了一定程度的跨云可移植性。您可以在此处看到使用Parquet，Athena和Oracle Cloud的真实示例

(本文翻译自Thomas Spicer的文章《Apache Parquet: How to be a hero with the open-source columnar data format on Google, Azure and Amazon cloud》，参考：https://blog.openbridge.com/how-to-be-a-hero-with-powerful-parquet-google-and-amazon-f2ae0f35ee04)

上一篇： Apache Spark，Parquet和麻烦的Null
下一篇：四十一、SparkSQL读取parquet数据源(必须要弄懂)

网站首页 > 博客文章正文

Apache Parquet:在Google，Azure和Amazon云上使用开源列式数据

什么是Apache Parquet？

Parquet与CSV

示例：1 TB CSV文件

Parquet示例2：Parquet，CSV，Redshift Spectrum和Amazon Athena Data Lakes

摘要

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 博客文章 正文

Apache Parquet:在Google，Azure和Amazon云上使用开源列式数据

什么是Apache Parquet？

Parquet与CSV

示例：1 TB CSV文件

Parquet示例2：Parquet，CSV，Redshift Spectrum和Amazon Athena Data Lakes

摘要

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 博客文章正文

取消回复欢迎你发表评论: