专业的编程技术博客社区

网站首页 > 博客文章 正文

电商系统研究学习:数据清洗(数据清洗的主要工作是什么)

baijin 2024-10-14 08:10:42 博客文章 9 ℃ 0 评论

数据清洗

1,数据清洗(Data cleaning)– 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。

2,因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉” 。

3,数据清洗工具使用领域特定知识对数据作清洗。它们通常采用语法分析和模糊匹配技术完成对多数据源数据的清理。某些工具可以指明源的“ 相对清洁程度”。

4,数据清洗一般针对多种来源数据,比如excel文件,文本文件,网页文件等;

5,Python数据清洗常用配合工具:jupyterlab , 可以直接交互式获得excel或者cvs等文件直接进行数据信息的查看或修正。

6,数据清洗,数据量少的话Excel基本够用,简单聚合分类清洗SQL好使,实现一些复杂算法用Python或其他编程工具;

7,数据清洗简介及用python做基本的处理(视频)

https://www.ixigua.com/6773844653012681227?id=6706447671655137800&logTag=85e54f429eda2227ecb4

Python数据清洗文章参考:

https://blog.csdn.net/crystal_sugar/article/details/104379560

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表