差异的企业以及企业的差异成长阶段,关于数仓数据质量保障的要求都不尽沟通。文章从互联网公司成长的各个阶段对数据质量打点的要求,以及常见的数据质量权衡尺度和通用的数据质量打点流程出发,分享了关于数据质量打点的相关履历。
前段时间被问起:公司的数据质量打点是怎么节制的?基于今朝大部门互联网公司的数据部分城市建树团体数据客栈,上层数据产物的数据来历也根基上来自数据客栈。所以,这个问题我领略为:怎么保障企业数据客栈中的数据质量?
团结以往的数据项目履历,我做了简朴的答复:
(1)数据基本建树
想要有一个高质量的数据客栈,那么首先从数据客栈的设计上,我们就得有一个主题域完善,层级理解(凡是分为ODS【数据源表层】,DWD【数据明细层】,DWS【数据汇总层】,DWA【数据应用层】),且数据消费场景明晰,数据加工链路清晰的数据客栈体系。
有了这个基本之后,我们才气对差异主题域,差异层级的数据别离举办监控。
(2)数据处理惩罚监控
通过数据血缘干系打点,监控并定位数据处理惩罚链路上出问题的执行节点,通过系统可能邮件或企业员工打点平台通知到相应的认真人。
(3)业务系统调解响应
一是新增业务模块,导致有新的数据需要实时接入到数据客栈中。
二是业务模块改观,导致数仓中某些指标的汗青统计口径产生了改变。
无论是哪一种,除了借助相应的宣布平台东西之外,同时还需要类型及优化工钱过问流程,低落业务部分与数据部分的相同本钱,晋升数据部分的数据输出质量及数据响应速度。
固然对付差异的企业以及企业的差异成长阶段,关于数仓数据质量保障的要求都不尽沟通,可是都有相关的要领论可以参考。
下面从互联网公司成长的各个阶段对数据质量打点的要求,以及常见的数据质量权衡尺度和通用的数据质量打点流程来聊聊数据质量打点那些事儿。
一、从公司成长周期看数据质量打点 1. 成长初期业务模式不清晰,各条业务线都处于快速试错阶段,数据体量也不大,数据的输出相对简朴,数据质量问题还没有那么突出。
这时候关于数据就是一个“快”字,需要实时的提供数据支撑,辅佐业务及产物迅速完成产物的迭代及业务模式的摸索。所以更注重的是数据的快速接入,阐明报表的快速输出。
2. 成长中期各条业务线的业务模式都已经趋于成熟,数据体量呈指数式增长。由于需要常常提供跨业务系统的数据阐明,以及各类算法模子的数据支撑,这时候再转头想从目眩凌乱的数据表中实时的提供精确的数据内容,就显得极其坚苦。
这个时候关于数据就是一个“理”字,这里的“理”是“梳理”和“管理”的意思,梳理我们的所有业务内容并管理我们的数据。这个时候就得凭据数据质量打点的流程,开展一系列数据管理事情,建树公司的数据质量打点类型。同时,也要从计谋层面上打造团体的数据中台,通过实时精确的数据响应,赋能前台业务快速增长。
3. 成长稳按期这时候公司处于一个不变增长的状态,大概也会举办一些新业务模式的实验,可是总体成长趋于不变。陪伴着中期的数据管理进程,整个数据团队的组织架构也趋于完善,如大数据数仓组,算法组,研发组,测试组,产物组等。
这时候关于数据就是一个“稳”字,这里的“稳”是“稳成长”和“稳创新”的意思。“稳成长”是指整个数据中心的局限及状态稳步成长,包罗框架的稳步迭代更新以及整体架构的慢慢优化。“稳创新”是指数据中台要不变的像前台输出一些创新性的数据产物,辅佐业务部分挖掘新的业务模式和变现渠道。
二、数据质量权衡尺度 1. 完整性主要包罗实体缺失、属性缺失、记录缺失和字段值缺失四方面。
2. 精确性&公道性数据中记录的信息和数据是否精确、是否存在异常可能错误的信息。主要包罗名目、范例、值域和业务法则的公道有效。
3. 一致性系统之间的数据差别和彼此抵牾的一致性,业务指标统必然义,数据逻辑加工功效一致性。
4. 实时性数据客栈ETL、应用揭示的实时和快速性,Jobs运行耗时、运行质量、依赖运行实时性。
图一:数据权衡尺度说明
三、数据质量打点流程一个好的产物通过产物评估才气权衡其产物结果及业务代价,那么对付数据产物来说,我们怎么对齐评估呢?本文作者同各人分享一套合用于数据产物的评估体系,解答如何评估数据餐品的产物结果。 对付数据产物司理来说...
文章以数据产物司理老曹和数据开拓工程师大熊对话的这则小故事,来给各人科普一下,数据管理到底是怎么去弄呢? 最近,前同事老曹跳槽到去了一家初具局限的互联网公司,作为刚入职公司的第一位数据产物司理,在数...
不给点颜色看看,你是真不知道数据产物的代价! 数据产物司理老曹,自从入职了这家低级局限的互联网公司,给各人带来了许多惊喜和意外。不知不觉,已经入职一周,午饭时间,有许多对数据产物感乐趣的小同伴,跑过...
编辑导语:数据产物假如只是简朴的做一些基本事情,那它的用处就不足;数据产物有许多种范例,每种范例都有创新的时机;跟着互联网的成长,数据产物的代价也应该有一些实质性的变革。本文作者分享了关于怎么让数据产...
本篇主要先容了一些在用户行为阐明平台中应用最广的产物成果和阐明要领,包罗:用户分群、留存阐明、转化阐明、行为路径阐明和事件阐明,与各人分享,供各人一同参考和进修。 对比于传统行业,用户行为阐明平台大...
本文将以处事企业内部员工的业务决定型数据产物为例,分享数据产物在数据驱动落地中,应该追求的三个代价:用户代价、贸易代价、组织代价。 很是喜欢阿里的一句话“一切业务数据化,一切数据业务化”。前半句讲的...