APP推广合作
联系“鸟哥笔记小乔”
6000字解读如何做好数据质量管理
2022-03-27 19:20:00

众所周知,数据是企业数字化转型的核心要素,大数据建设的目标是为了融合组织数据,增加组织的洞察力和竞争力,实现业务创新和产业升级。而数据能发挥价值的大小依赖于其数据的质量高低。

如果没有良好的数据质量,大数据将会对决策产生误导,甚至产生有害的结果,比如:

在金融企业中,因数据质量问题导致的信用卡欺诈失察在2008年即造成48亿美元的损失;

在商业上,美国零售业每年仅因标价错误就损失25亿美元;

在经济损失上,数据错误每年对美国工业界造成的经济损失约占GDP的6%;

在医疗事故上,美国医疗委员会统计表明,由于数据错误引起的医疗事故仅在美国每年就导致高达98000名患者丧生;

在电信产业上,数据错误经常导致故障排除的延误、多余设备租用和服务费收取错误,损害了企业信誉甚至会因此失去很多用户;

在数仓建设上,50%的数据仓库因数据质量而被取消或延迟……

提高数据质量是为了巩固大数据建设成果,因此,高质量的数据是企业业务能力的基础。今天小亿就来为大家说说什么是数据质量管理?数据质量问题产生的原因是什么?以及我们该如何做好数据质量管理?


一、什么是数据质量管理?

1.数据质量

数据质量在业务环境下,数据符合数据消费者的使用目的,数据质量需要满足业务场景具体的需求。数据质量包含两个方面:数据自身的质量和数据的过程质量。

数据自身的质量很好理解,比如数据必须真实准确地反映实际发生的业务,任何业务操作的数据都没有被遗漏,数据存在各种约束条件,这种约束条件不能自相矛盾等等。

数据的过程质量就是数据的使用过程符合标准规范,比如数据存储:数据是否被安全的存储到了合适的介质上,能够保证数据不受外来因素的破坏。当然数据存储只是数据使用过程的一个环节,除此之外还包括获取、传输、应用和删除等一系列的使用过程,这其实也是数据生命周期的各个阶段。


2.数据质量管理

数据质量管理指对数据在每个阶段里可能引发的各类数据质量问题进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平确保数据质量的提升。

换句话说,数据质量管理是一个集方法论、管理、技术和业务为一体的解决方案,不是一时的数据治理方法,是一个不断循环的管理过程。一方面反映出企业数据很难一次性就达到使用的标准规范,毕竟数据治理是一个相对漫长的过程;另一方面也反映出数据质量的重要性以及数据质量工作的零散性和琐碎性。


3.数据质量评估

至于如何去评估数据质量管理的过程的好坏,我们可以从以下五个维度来进行数据质量评估:

如何做好数据质量管理,放大数据价值


(1)完整性:描述信息的完整程度,如电话号码是否有空值;

(2)准确性:描述数据和客观实体的特征是否相一致,如数据库中记录的电话和实际电话不一致;

(3)有效性:数据是否满足用户定义条件、内容规范约束等,如年龄为-32岁,违反常理;

(4)一致性:描述同一个信息主体在不同数据集中的属性是否相同,如岗位名称在CRM系统中和人力系统中不一致;

(5)及时性:描述从业务发生到相关数据能够被使用的及时程度,如实时查看用户行为相关数据。

五个维度共同构成了数据质量评估的基本框架,每个维度都可以通过设置评估问卷随机抽取一些问题然后收集相应的数据;注意收集数据的时候可以采用不同的方式,访谈、发放链接、随机抽检等等。


二、数据质量问题产生的原因

大数据的建设和管理是一个专业且复杂的工程,涵盖了业务梳理、标准制定、元数据管理、数据模型管理、数据汇聚、清洗加工、中心存储、资源目录编制、共享交换、数据维护、数据失效等等过程,在任何一个环节中出错,都将导致数据的错误。因此数据质量问题产生的原因主要有以下3类:

如何做好数据质量管理,放大数据价值


1.技术原因

(1)数据标准制定

数据输入规范不统一,不同的业务部门、不同的时间、甚至在处理相同业务的时候,由于数据输入规范不同,造成数据冲突或矛盾。如果在数据的生成过程中包含主观判断的结果,必然会导致数据中含有主观的偏见因素。并且,不是所有行业都有公认可信的数据标准,而组织标准制定过程中容易出现数据元描述及理解错误,代码码集定义不正确、不完整等情况。


(2)数据模型设计

由于对业务理解的不到位或技术实践水平不到位,数据库表结构、数据库约束条件、数据校验规则的设计不合理,造成数据存储混乱、重复、不完整、不准确。


(3)数据源本身

在生产系统中有些数据就存在不规范、不完整、不准确、不一致等问题,而采集过程没有对这些问题做清洗加工处理,或清洗加工的程序代码不正确。


(4)数据梳理过程

在数据采集之前,需要梳理组织机构、业务事项、信息系统、数据资源清单等信息,那么对业务的理解不到位,将造成梳理报告的不完整或不正确。

如何做好数据质量管理,放大数据价值


(5)数据采集过程

采集点、采集频率、采集内容、映射关系等采集参数和流程设置的不正确,数据采集接口效率低,导致的数据采集失败、数据丢失、数据映射和转换失败。


(6)数据清洗加工

数据清洗规则、数据转换规则、数据装载规则配置有问题,甚至未按照数据标准开展相应的清洗加工工作,自由发挥的空间过大。并且在数据汇聚的过程中,没有及时建立数据的相关性,导致后期很难补充完善。


2.业务原因

(1)业务理解不到位

数据的业务描述、业务规则、相关性分析不到位,导致技术无法构建出合理、正确的数据模型。


(2)业务流程的变更

业务流程一变,数据模型设计、数据录入、数据采集、数据传输、数据清洗、数据存储等环节都会受到影响,稍有不慎就会导致数据质量问题的发生。


(3)数据输入不规范

常见的数据录入问题,如:大小写、全半角、特殊字符等一不小心就会录错,甚至还会将数据输入到错误的字段中,造成“张冠李戴”。人工录入的数据质量与录数据的业务人员密切相关,录数据的人工作严谨、认真,数据质量就相对较好,反之就较差。


(4)业务系统烟囱林立

过去 20 年中,只要是稍大一点的企业和政府部门,都建设了一批信息化系统来解决业务问题,但也导致了如今信息化整合的痛点和困难,变先发优势为数据困境。


(5)数据作假

操作人员为了提高或降低考核指标,对一些数据进行处理,使得数据真实性无法保证。


3.管理原因

(1)人才缺乏

组织以自身的业务发展的主要原则组建团队,数据建设则依赖于外部服务公司,而自身没有建立相应的管理手段和监督机制,从而无法准确判断数据项目的建设成效。


(2)流程管理不完善

缺乏有效的数据质量保障机制和问题处理机制,数据质量问题从发现、指派、处理、优化没有一个统一的流程和制度支撑,数据质量问题无法闭环。


(3)成员意识不开放

组织管理缺乏数据思维,没有认识到数据质量的重要性,重系统而轻数据,认为系统是万能的,数据质量差些也没关系。组织成员没有从组织战略的视角来看待数据资产,而把数据看成是创造它的部门的资产,从而导致数据冗余、数据不一致、数据割裂,从而导致数据价值难以发掘。


(4)奖惩机制不明确

没有明确数据归口管理部门或岗位,缺乏数据认责机制,出现数据质量问题找不到权威源头或找不到负责人。缺乏数据规划,没有明确的数据质量目标,没有制定数据质量相关的政策和制度。


三、如何做好数据质量管理

1.从数据的整个生命周期来管理

即在数据生命周期的任何一个阶段,都有严格的数据规划和约束来防止脏数据产生,总的来说将其分为事前预防、事中监控、事后改善三个阶段。

如何做好数据质量管理,放大数据价值


(1)事前预防

①制定质量管理机制:基于数据管理的复杂性和诱因的多重性特点,解决数据质量问题仅仅依靠一个技术工具是不够的,我们需要建立长效工作机制。即根据组织特点,制定符合自身环境的工作制度,制定每个环节的工作流程,规定各个参与方的责任,确定各项数据的权威部门,制定数据质量指标,制定数据质量修复流程等等;

②制定数据质量标准:数据标准成功定义的与否,直接决定了大数据建设的成果和数据质量的高低,需要在融合国家标准、行业标准和地方标准的基础上,融合组织自身的业务特色需求;

③制定质量监测模型:数据质量模型代表的是业务需求,它是从业务需求的角度而描述出来的质量需求;

④制定质量监测规则:数据监测规则代表的具体的质量检测手段,它是从技术角度来描述数据质量要求是如何被满足的,包括规范性、完整性、准确性、致性、时效性、可访问性,等等。


(2)事中监控

①监控原始数据质量:数据采集工作从数据源头获取最原始的数据,在数据采集过程中将数据分为“好数据”“坏数据”,“好数据”入库,“坏数据”则反馈给源头修复,因为数据来源部门最懂这些数据,也最能在源头上把数据问题彻底修复掉。

②监控数据中心质量:经过各种采集、清洗、加工过程,数据被存入数据仓库中,这些数据也将被业务部门使用,所以,对于这些成果数据的质量监控和修复则犹为重要。对于这类数据问题,我们可能使用简单的空值检查、规范性检查、值域检查、逻辑检查、一致性检查、等等规则就可以检查出来,也可能需要诸如多源比较、数据佐证、数据探索、波动检查、离群检查等等方法才可以检查出来。

③反馈数据质量问题:数据质量监控过程中,会发现两类问题,一类是源头的数据质量问题,一类是数据中心的数据质量问题,数据质量团队需要将这些问题及时反馈给源头部门和数据仓库建设团队。

④考核数据质量考核:数据质量的考核是为了能够引起各个参与部门和参与团队对数据质量的重视,需要及时统计分析各种数据质量问题,并制定出相应的应对措施。


(3)事后改善

①修复数据质量问题:发现质量问题不是最终的目标,我们仍要建立相关的流程和工具,通过手工、工单、自动化等等手段将质量问题修复掉,从而为业务创新提供可靠的数据支撑。

②收集数据质量需求:通过数据中心的建设,质量问题的修复,必然能够促进数据的应用,我们仍要建立通畅的数据质量反馈通道,让各个部门参与到数据质量的再次完善中来,从而形成建设、应用和反馈的良性循环。

③完善质量管理制度:制度和流程的建设并不是一蹴而就的,我们要在数据建设和质量完善的过程中,结合自身组织结构和业务特色,不断完善工作制度。

④完善数据质量标准:各行各业不断涌现新的业务形态,原有的业务也在不断的变化,我们要紧跟业务的变化,不断完善符合业务需求的数据标准。

⑤完善质量监测模型:如前所述,监测模型代表的业务需求,业务形态的变化、数据标准的变化和质量新需求的出现,同样要求监测模型能够做出相应的变化。

⑥完善质量监测规则:同样,如今的信息化技术发展日新月异,我们要不断引入各种新技术来更加智能地发现和修复数据质量问题。


2.从数据质量问题解决依赖的知识来管理

(1)数据梳理

数据梳理是明确企业数据现状,知道整体数据质量情况,将具有共同的特征数据提取出来,按照主题域的方式进行划分,方便后续的数据管理。先明确企业数据的种类,根据数据的不同分类,选择不同的提升数据质量的方法。

梳理企业目前的数据情况,知道企业现阶段有什么数据,数据来自什么业务系统,数据用在哪里,数据如何存储,数据安全和数据隐私是什么情况;业务可以采集到什么数据;还缺什么数据以及目前企业数据建设的情况,做好数据评估与分析报告,为数据质量提升提供一个全方位的数据现状参考。

从业务角度出发,梳理出目前企业数据之间的流向关系、数据的分类情况和数据分类之间的关系,明确什么数据是基础数据,什么数据是由基础数据衍生出来的只有先梳理清楚目前企业数据情况,才能认清企业数据的情况,从中找到提升数据质量的关键突破点。

正所谓,工欲善其事,必先利其器。亿信华辰睿治数据治理平台的数据质量管理模块以全面质量管理PDCA循环管理方法为指导,充分结合国内数据质量管理工作的特点,运用元数据管理、数据挖掘、数据分析、工作流、评分卡、可视化等技术最终帮助企业和政府建立数据质量管理体系,全面提升数据的完整性、规范性、及时性、一致性、逻辑性等,降低数据管理成本,减少因数据不可靠导致的决策偏差和损失。

如何做好数据质量管理,放大数据价值


(2)数据规范

主要从数据模型和数据标准两个方面定义好数据规范:

①数据模型:是数据特征的抽象,是获取和明确企业数据需求的方法,也是数据需求分析与建模工作的基础,通过对展现客观事物的信息进行抽象、综合、分类,组织为具有某种结构的数据,对这些数据结构、其相互之间逻辑关系、数据操作方式及约束的描述。在实际的建模过程中,数据模型所描述的内容包括数据结构、数据操作、数据约束三个部分。

②数据标准:是对数据模型的另一种延伸,是数据资产管理的核心基础,也是对企业数据资产化进行准确重定义的过程。数据标准可以促进企业数据模型落地,对企业业务系统中关键数据进行标准化起到了关键性作用。但是,真正数据标准并不是规范文档、流程文档、制度文档等,而是通过一套由管理规范、管控流程与技术工具共同组成的体系逐步实现数据信息化标准的过程。

在数据模型的落地和推动过程当中,往往会遇到由于各组织人员认知不同、看待问题的角度不同以及其他内外部原因等限制,导致数据在集成与互通的时候会遇到数据不一致的问题。所以,在做业务系统的数据模型设计之前,企业要设计一套相对标准的数据规范。通过数据标准规范来反向推动业务进行数据收集,解决数据不一致的问题。

常用的策略有以下几种:

①在需求规划阶段:梳理企业现有的数据模型是否合理,有则改之无则加勉,然后根据现有的模型来设计整体系统的模型,整个过程始终遵循数据标准的规范要求;

②在数据获取阶段:重点关注数据的安全性与隐私性问题、数据的及时性问题,数据传输等问题;

③在数据存储和共享阶段:重点关注数据的整合问题,数据的一致性问题,数据的完整性等问题。


四、注意事项

1.数据质量管理要对其业务目标,企业的数据治理不是为了治理数据而治理数据,其最终目的都是为了支持业务和管理目标实现。因此提升数据质量的主要目的是推动业务发展;

2.企业要不时进行主动的数据清理和处理补救,以纠正现有的数据问题,因为尽管有效数据质量控制可以在很大程度上起到控制和预防不良数据发生的作用,但事实上,再严格的质量控制也无法做到100%数据问题防治,甚至有时候严格的数据质量控制还会引出其他更多的数据问题;

3.建立企业组织保障体系,企业需要建立一种文化,以让更多的人认识到数据质量的重要性,比如成立数据治理委员会,为数据质量定下基调,制定有关数据基础架构和流程的决策等。


五、小结

对于不同行业、不同规模、甚至处于不同发展阶段的企业来说,按照同样的业务规则产出的数据,数据质量是不一样的,因此我们首先要记住的是数据质量的高低本质上代表了这些数据使用者的满意程度。

其次,数据质量管理是数据治理很重要的一个部分,企业数据治理的所有工作都是围绕着提升数据质量目标而展开的,但是治理与管理是两个矛盾的对立面,数据的质量归根结底主要是受到人的影响,对于管理类的数据质量问题,更多往往在于企业人对于数据的理解、支持和认知程度有很大的关系,通常可以从数据规划、数据治理的组织与职责、数据规范的制度和流程等方面去做工程规划。

赵同学
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
赵同学
赵同学
发表文章20874
确认要消耗 羽毛购买
6000字解读如何做好数据质量管理吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接