专业的编程技术博客社区

网站首页 > 博客文章 正文

微头条首发挑战赛:如何提升数据质量

baijin 2024-10-14 08:11:34 博客文章 4 ℃ 0 评论

#微头条首发挑战赛#

如何提升数据质量

一、前言数据质量保障的关键的步骤是数据质量规则、数据质量指标,数据探查,数据保障机制和数据清洗,不管是在做数据质量或者打算做数据质量工作的朋友都可以详细研究下,应该会有帮助。?本篇包含数质量基础,数据质量规则、指标(附模板下载),数据探查(附模板下载),数据保障机制,数据清洗(附模板下载),常见质量问题(附下载文档)

对象质量特性规则类型指标单列完整性不可为空类空值率有效性?语法约束类1-样本记录异常值比率有效性?格式规范类有效性?长度约束类有效性?值域约束类准确性事实参照标准类样本记录中真实记录的比率跨列完整性应为空值类及时性入库及时类满足时间要求的样本记录的比率一致性单表等值一致约束类一致性单表逻辑一致约束类跨行唯一性?记录唯一类一致性层级结构一致约束跨表一致性外关联约束类外键无对应主键的样本记录比率一致性跨表等值一致约束类一致性跨表逻辑一致约束类跨系统一致性跨系统记录一致约束类样本记录与其它系统的匹配率及时性入库及时类满足时间要求的样本记录的比率四、数据探查?数据探查是数据质量保障非常重要要的一步,他是设计的基础,排除客观原因,好的效率和质量是可以通过设计来提升的,如果没有数据探查,一般情况下数据类项目都会反复多次,有可能影响人员变动,交接困难,维护困难,项目完成周期长等问题。下面只是其中几个方面的数据探查,供参考,具体案例,请在公众号获取。探查出的常见问题和分类请在公众号获取。

四、数据探查?

数据探查是数据质量保障非常重要要的一步,他是设计的基础,排除客观原因,好的效率和质量是可以通过设计来提升的,如果没有数据探查,一般情况下数据类项目都会反复多次,有可能影响人员变动,交接困难,维护困难,项目完成周期长等问题。下面只是其中几个方面的数据探查,供参考,具体案例,请在公众号获取。探查出的常见问题和分类请在公众号获取。?

探查项分析意义分析点分析点解释完整性分析保证分析的可靠性空值记录数探查字段在探查时间点没有值的记录条数总记录数探查字段在探查时间点总记录数缺失率探查字段在探查时间点缺失信息记录数占总记录数的比重空值预警探查字段在探查时间点缺失率高于10%则提出预警主键唯一性探查主键字段在探查时间点是否有重复记录值域分析分析是否有异常数据最大值数值型,日期型字段在探查时间点的最大值最小值数值型,日期型字段在探查时间点的最小值枚举值分析列出检测字段所有的枚举值枚举范围属性字段的枚举值定义枚举实际范围值属性字段在探查时间点实际的枚举值及其分布异常比例探查时间点,不在枚举定义范围的枚举值占总记录数的比重逻辑性探查业务逻辑点根据业务逻辑探查字段是否遵循业务逻辑

?五、数据质量保障机制数据质量持续提升就要靠保障机制了,只有自动化,常态化,持续监控数据质量,才能不断提升数据的质量,数据质量保障主要有如下几个关键步骤:设计量化指标—>设计质量打分细则->设计分值考核->异常数据监控->指标展现->按规则推送提醒相关负责人例:空值率>5%,记1分,每日空值率指标预警,每日全部门通报,影响年底考核。此部分需要根据公司实际情况详细设计。

六、数据清洗数据清洗(Data cleaning)– 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。主要有不完整的数据、错误的数据、重复的数据三大类;?如果前端控制不到位,又想有高质量的数据,只能靠数据清洗,数据清洗是存量数据质量提升的关键步骤,数据清洗后的数据可以更好的支持数据分析,

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表