网站首页 > 博客文章 正文
数据清洗
1,数据清洗(Data cleaning)– 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。
2,因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉” 。
3,数据清洗工具使用领域特定知识对数据作清洗。它们通常采用语法分析和模糊匹配技术完成对多数据源数据的清理。某些工具可以指明源的“ 相对清洁程度”。
4,数据清洗一般针对多种来源数据,比如excel文件,文本文件,网页文件等;
5,Python数据清洗常用配合工具:jupyterlab , 可以直接交互式获得excel或者cvs等文件直接进行数据信息的查看或修正。
6,数据清洗,数据量少的话Excel基本够用,简单聚合分类清洗SQL好使,实现一些复杂算法用Python或其他编程工具;
https://www.ixigua.com/6773844653012681227?id=6706447671655137800&logTag=85e54f429eda2227ecb4
Python数据清洗文章参考:
https://blog.csdn.net/crystal_sugar/article/details/104379560
- 上一篇: 中科易研:数据清洗的定义以及数据清洗的方法
- 下一篇: 数据清洗&预处理入门完整指南
猜你喜欢
- 2024-10-14 R数据分析:网络分析的做法,原理和复现方法
- 2024-10-14 在Java中实现数据清洗(java数据清洗 etl)
- 2024-10-14 谁偷了我的云主机文件?五大场景避坑指南
- 2024-10-14 PowerQuery | 数据清洗实例应用(数据清洗技术步骤)
- 2024-10-14 微头条首发挑战赛:如何提升数据质量
- 2024-10-14 游戏夜读 | 数据整理的难题?(游戏数据管理app)
- 2024-10-14 大数据开发 | 预处理技术的架构及方法介绍
- 2024-10-14 数据挖掘:数据预处理(数据挖掘数据预处理代码)
- 2024-10-14 聚焦「以数据为中心的AI」,斯坦福、ETH联合线上研讨会来了
- 2024-10-14 患者体验调查与评价术语标准(患者体验调查与评价术语标准的实施步骤有)
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- powershellfor (55)
- messagesource (56)
- aspose.pdf破解版 (56)
- promise.race (63)
- 2019cad序列号和密钥激活码 (62)
- window.performance (66)
- qt删除文件夹 (72)
- mysqlcaching_sha2_password (64)
- ubuntu升级gcc (58)
- nacos启动失败 (64)
- ssh-add (70)
- jwt漏洞 (58)
- macos14下载 (58)
- yarnnode (62)
- abstractqueuedsynchronizer (64)
- source~/.bashrc没有那个文件或目录 (65)
- springboot整合activiti工作流 (70)
- jmeter插件下载 (61)
- 抓包分析 (60)
- idea创建mavenweb项目 (65)
- vue回到顶部 (57)
- qcombobox样式表 (68)
- vue数组concat (56)
- tomcatundertow (58)
- pastemac (61)
本文暂时没有评论,来添加一个吧(●'◡'●)