新闻中心 >> 新闻中心详情

正式发布|美创科技数据质控解决方案

发布时间:2021-07-19作者:阅读次数: 分享到:

大数据项目往往涉及多系统间的对接与配合,不同来源数据的质量将直接影响到系统的统计分析结论是否正确。但由于缺乏全面的数据管理机制、各系统的数据产生方式及生产年代不同、缺乏统一的数据标准等原因,往往无法主动输出高质量的数据,这为数据治理工作带来了许多难题。



对此,美创科技从建立数据质量管理体系、优化工作流、产品部署落地以及建立数据质量闭环管理机制等方面入手,形成了一套灵活、可靠的数据质控解决方案。




本文将从数据质量问题的来源入手,详细介绍美创数据质控解决方案


数据质量问题的来源


为了解中国企业数字化转型现状、趋势和挑战,德勤曾做了一次145家企业(其中国企占77%)参与的在线问卷调查。调查结果显示:有六成企业认为,在数字化转型过程当中,主要面临的挑战集中在,原有多个信息化系统的整合、数据质量和可用性、缺乏统一的数字化转型愿景和目标这三个方面。


显然,数据质量对于多数政企机构来说是个棘手问题,因为质量差的数据可能包含错误的、误导性的、不真实的或不完整的信息,利用这些数据做分析可能会导致经营决策的失败、产品功能的失效、工艺技术的错误、营销方式的差异等后果,直接影响数字化转型进程。


找准根源才能解决问题,那么数据质量问题的来源是什么呢?


首先,数据质量问题的来源可能产生于数据源头到数据存储介质的各个环节。


在信息化建设初期,各类业务系统恣意生长,一些大型机构甚至有上百套的业务系统。这些业务系统在不同时期由不同的团队开发,技术水平参差不齐,缺乏统一的数据标准,数据特征各不相同。而当机构有了新的业务需求、重大的技术变更、或者需要在不同业务间交叉使用数据时,数据的加工和存储过程可能会对原始数据做修改,从而可能引发数据的质量问题。


其次,随着业务发展,数据也在增量积累。数据类型、数据来源的不断丰富以及数据量的快速增长,使机构在数据管理和数据流程中面临越来越多的数据质量问题。


比如为了更好的利用数据进行分析和决策,需要按照统一的标准和架构把不同系统中的各类数据集成起来,但不同系统中,业务领域的关键指标不一致,数据无法共享导致数据孤岛,大量数据无法关联,产生明显的数据冗余等问题。


或者有许多业务系统存在滥用缩写词、惯用语、数据输入错误、重复记录、丢失值、拼写变化、使用不同的计量单位等情况,产生了大量的“脏数据”,这些“脏数据”对实际业务毫无意义,长期输入导致了系统的统计分析不准确,难以支撑管理者做出正确的决策。


再次,由于许多机构缺乏数据质量的意识,没有明确的数据质量目标,缺乏全面、快速的管理机制及人员认责机制等原因,也会引发大量的数据质量问题。特别是在系统建设或数据产生的源头忽视数据质量问题,将导致基础数据薄弱,后期数据清洗成本大、治理效果差。


总的来说,技术、流程、管理等多方面的因素都有可能会影响到数据质量,常见原因可以归纳为以下3类:




面对上述问题和痛点,通过灵活、可靠的数据质量管理可以为机构提供洁净、结构清晰的数据,是开发业务系统、提供数据服务、发挥数据价值的必要前提,也是数据资产管理的前提。


数据质量管理涉及数据标准的制定、规范的落地、生命周期的管理等多个环节,传统的方法需要投入大量的人员、时间、软硬件成本,成本相对较高。从收益上来说,数据质量管理项目不像数据分析等项目,短期内的效益和结果并不是十分明显,这也导致了以往的数据质量管理常常被边缘化。


如今,越来越多的政府与企业在利用数字技术提高内部管理效率、降低成本、增加洞察力和竞争力,而数字化转型的关键之一是内外部数据的融合创新,当多个信息化系统的整合、数据的集成融合需求愈加迫切,需要管理的数据量越来越庞大时,数据质量管理就变得十分迫切且重要。


美创数据质量管理体系


数据质量管理是一个持续改进的过程,具体包括定义业务需求及相关业务规则、确定数据质量指标、数据质量核验、质量问题告警、质量问题分析,以及数据标准化、清洗和整合、问题跟踪等工作。


为了系统性、持续有效的帮助客户进行数据质量提升,美创科技设计了整套的数据质量管理体系,主要包括数据质量定量评估体系、数据质控流程及工具、数据质量闭环管理机制三大部分。


01

数据质量定量评估体系


任何改善都需要建立在评估的基础上“对症下药”。数据质量反映的是数据的“适用性”,即数据满足使用需要的合适程度,对于合适程度通常需通过多种维度进行衡量,目前,较为通用的维度是:完整性、唯一性、一致性、有效性、规范性和及时性。




评估指标

完整性:指数据信息是否完整,是否存在缺失情况。包括模型设计的不完整(例如唯一性约束不完整、参照不完整)、数据条目的不完整(例如数据记录丢失或不可用)、数据属性的不完整(例如数据属性空值)。缺乏完整性是数据质量问题最为基础和常见的一类问题。


规范性:指记录是否符合规范,是否按照规定的格式存储(例如标准编码规则)。数据规范性审核是数据质量审核中比较重要也是比较复杂的一块,主要是检验数据和数据定义是否一致。


唯一性:用于识别和度量重复数据、冗余数据。重复数据是导致业务无法协同、流程无法追溯的重要因素,也是数据治理需要解决的最基本的数据问题。


一致性:指多源数据的数据模型不一致和数据实体不一致。相同的数据有多个副本的情况下的数据不一致、数据内容冲突的问题。数据集内与数据集之间的数据不一致问题。


及时性:指能否在需要的时候获到数据,数据的及时性与企业的数据处理速度及效率有直接的关系,是影响业务处理和管理效率的关键指标。


有效性:指数据是否遵循预定的语法规则、是否符合其定义,比如数据的类型、格式、取值范围等。


选定维度后,如何量化指标是实现数据质量评估的关键步骤。美创从数据属性业务规则(如字段)、数据实体业务规则(如库、表)、企业特定业务规则(如行业规范)三个层面,帮助客户快速创建或提供“开箱即用”的数据质控规则,将数据评估维度与业务流程对应,建立数据质量评价指标,同时根据具体业务场景调整评价体系中各维度的权重,最终以量化形式实现数据质量评估。


最后需要强调的是,为了保持指标的有效性,指标定义的过程不能在数据质控的最后阶段才进行,而是在数据质量战略/设计和规划阶段就要开始,以便能在组织中实现。


02

数据质控流程及工具


数据质控流程包括从界定数据质控的对象和范围出发,到确定数据质量评价指标,内置产品生成数据质量评价模型,再到选定数据集和部署实施,生成数据质量报告、提出改善建议的全过程。


美创通过高效的数据质量管理工具——数据质控平台,将数据质量管理全工作流串联,提供标准定义、规则配置、模型管理、异常数据统计、质量分析、质量报告、运行监控、系统管理等功能,帮助客户实现更快、更有效的数据质量管理。



[数据质控流程]



Step1:界定对象和范围


一般来说,数据质控主要针对两类数据:一类是操作型数据,例如主数据、参照数据和交易数据;另一类是分析型数据,例如主题数据和指标数据。


我们可以通过两种方式界定数据质控的对象和范围:一是根据业务部门的需求来界定;二是可以基于元数据、血缘关系等进行量化分析,以框定数据质控的实施范围。


Step2:数据评估及指标量化




在设计数据质量评价指标前,对数据的评估很关键。我们采用两种方法进行数据评估——自底而上或自顶而下:


对已有数据质量问题进行自下而上的评估,包括对数据集的检查和评价。方法基于自动流程的处理结果,强调潜在问题,包括出现率分析、重复性分析、跨数据集的依赖关系、“孤儿”数据几率和冗余分析;


而自顶而下的数据质量评估需要理解业务流程如何使用数据,以及哪些数据元素对于业务应用的成功至关重要。通过评审报告、记录和诊断的数据错误类型,评估与数据问题相关的业务影响。


完成评估后,结合实施需要选定指标,由美创数据与行业专家组协助各相关部门对不同的评价对象进行评价指标设计,确定每个指标的阈值和权重,量化数据质量的测量维度。


Step3:数据质量规则配置


在部署和使用产品进行数据质量评估之前,需要先将指标内置到产品中,构建数据质量规则库,形成数据质量评价模型。


美创数据质控平台支持采用零编码方式完成规则定义,通过可视化界面,普通用户即可完成规则的增-删-改-查,定义结果清晰易理解,需求变动和人员变动影响甚微。



[美创数据质控平台-规则管理]



平台支持从数据字段的值、字段类型、字段长度三个维度配置质控规则,支持质控的级别和类型自定义。内置指标调度功能还可以配置指标具体的执行周期,支持单次执行和周期执行,同时也提供调度结果的查询功能。


Step4:数据质量稽核



[数据质控平台-数据质量稽核逻辑]



平台接入各业务系统数据库完成作业配置后,自动进行数据抽取并执行数据质量评估任务。


采集引擎结合元数据管理负责对评估数据集进行数据抽取,数据按业务需求进入规则引擎后对数据进行质量稽核,通过规则引擎将不合格的数据筛选出来,统计引擎负责计算每批处理的数据的合格率,及数据质量评分等。监控台可实时查看数据整体抽取量以及合格数据,展示项目的整体数据质量情况和质量分析趋势图。


[数据质控平台-任务信息]


Step5:异常数据统计


美创数据质控平台拥有包括质量异常统计和数量异常统计两大模块。


质量异常模块展示各业务表单的数据总量和异常数据情况。数量异常模块展示每天数据同步情况,包括数据总量、新增数据量、更新数据量、删除数据量。同时平台内置问题告警和通知机制,进一步保证数据同步的及时性和准确性。


[美创数据质控平台-质量问题清单(异常数据指没有通过字段级别质控规则的数据)]


[美创数据质控平台-异常数据信息]


Step6:数据分析与数据质量报告


美创数据质控平台提供了全面的数据分析机制,可提供多种问题分析能力,包括血缘分析,影响分析,全链分析,帮助用户诊断问题的类型、快速定位问题产生的根源。


同时平台内置了丰富的统计报表图表及多种质检结果主题,可以对单条数据的质量进行打分评价,包括批次、指标、具体应用、具体报表的关键稽核信息等,以便用户分析影响数据质量的关键因素,进而采取有针对性的质量改进措施。


通过运行数据质量检查作业,可以定期或不定期的得到数据质量评估报告,总结系统整体数据质量、以及各层次、外围系统供数等关键因素。


[美创数据质控平台-数据质量评估报告-得分信息]


Step7:解决数据质量问题


针对不同的数据质量问题,美创提供了多种解决方案,比如系统改进建议、业务流程优化建议(减少误操作)、对历史数据进行清洗和矫正等,致力于帮助客户消除数据质量问题或将数据质量问题带来的影响降低到最小。


数据质量闭环管理机制


数据质量闭环管理机制帮助客户从问题定义、问题发现、问题整改、问题跟踪、效果评估5个方面建立相应的管理及认责机制,形成一种可持续运行的数据质量管理机制。


① 问题定义与问题发现


将技术、业务、管理三者进行有机结合,从业务出发进行问题定义。基于美创数据质控平台,由产品自动、及时发现问题,通过邮件、短信等方式将问题及时通知到责任人。


② 问题整改


问题整改方面,建议对不同时期的数据分类、分优先级进行处理,采用不同的处理方式做到事前预防、事中监控、事后改善。


[数据质量问题整改(简版)]


对于历史数据问题的处理,主要采用数据清洗的办法来解决,清洗的过程要综合使用各类数据源,提升历史数据的质量。对于当前数据问题的处理,需要通过上述一整套问题定义-效果跟踪机制来解决。对于未来数据问题的处理,需要从信息化的角度出发,重新规划统一的数据架构,制定数据标准和数据模型,规范数据定义,在数据流转过程中建立监控数据转换质量的流程和体系,在哪发现问题就在哪解决问题,不把问题数据带到后端。


③ 问题跟踪与效果评估


基于美创数据质控平台,跟踪问题整改进度,结合质量问题解决共享机制,建立知识库,考核评价,执行奖惩,做为辅助手段。


数据质量管理是数据治理的一个重要组成部分,美创拥有覆盖数据治理全过程的产品和解决方案,我们的目标一方面是帮助客户主动发现数据质量问题,降低对数据分析应用的影响,增加业务使用数据的可信度,同时减少资源投入;另一方面是通过高效、灵活的数据治理和数据管理手段,从采集到交付各阶段持续控制和改进数据质量,减少问题发生,全面提升数据的完整性、规范性、及时性、一致性,最终帮助客户实现在组织内生产、供应和使用高质量的数据。

服务热线:400-811-3777
Copyright ©2005-2020 杭州美创科技有限公司. All Rights Reserved. 浙ICP备12021012号-1 网站地图