怎么保障企业数据仓库中的数据质量?

访客4年前黑客资讯1223

差异的企业以及企业的差异成长阶段,关于数仓数据质量保障的要求都不尽沟通。文章从互联网公司成长的各个阶段对数据质量打点的要求,以及常见的数据质量权衡尺度和通用的数据质量打点流程出发,分享了关于数据质量打点的相关履历。

怎么保障企业数据客栈中的数据质量?

前段时间被问起:公司的数据质量打点是怎么节制的?基于今朝大部门互联网公司的数据部分城市建树团体数据客栈,上层数据产物的数据来历也根基上来自数据客栈。所以,这个问题我领略为:怎么保障企业数据客栈中的数据质量?

团结以往的数据项目履历,我做了简朴的答复:

(1)数据基本建树

想要有一个高质量的数据客栈,那么首先从数据客栈的设计上,我们就得有一个主题域完善,层级理解(凡是分为ODS【数据源表层】,DWD【数据明细层】,DWS【数据汇总层】,DWA【数据应用层】),且数据消费场景明晰,数据加工链路清晰的数据客栈体系。

有了这个基本之后,我们才气对差异主题域,差异层级的数据别离举办监控。

(2)数据处理惩罚监控

通过数据血缘干系打点,监控并定位数据处理惩罚链路上出问题的执行节点,通过系统可能邮件或企业员工打点平台通知到相应的认真人。

(3)业务系统调解响应

一是新增业务模块,导致有新的数据需要实时接入到数据客栈中。

二是业务模块改观,导致数仓中某些指标的汗青统计口径产生了改变。

无论是哪一种,除了借助相应的宣布平台东西之外,同时还需要类型及优化工钱过问流程,低落业务部分与数据部分的相同本钱,晋升数据部分的数据输出质量及数据响应速度。

固然对付差异的企业以及企业的差异成长阶段,关于数仓数据质量保障的要求都不尽沟通,可是都有相关的要领论可以参考。

下面从互联网公司成长的各个阶段对数据质量打点的要求,以及常见的数据质量权衡尺度和通用的数据质量打点流程来聊聊数据质量打点那些事儿。

一、从公司成长周期看数据质量打点 1. 成长初期

业务模式不清晰,各条业务线都处于快速试错阶段,数据体量也不大,数据的输出相对简朴,数据质量问题还没有那么突出。

这时候关于数据就是一个“快”字,需要实时的提供数据支撑,辅佐业务及产物迅速完成产物的迭代及业务模式的摸索。所以更注重的是数据的快速接入,阐明报表的快速输出。

2. 成长中期

各条业务线的业务模式都已经趋于成熟,数据体量呈指数式增长。由于需要常常提供跨业务系统的数据阐明,以及各类算法模子的数据支撑,这时候再转头想从目眩凌乱的数据表中实时的提供精确的数据内容,就显得极其坚苦。

这个时候关于数据就是一个“理”字,这里的“理”是“梳理”和“管理”的意思,梳理我们的所有业务内容并管理我们的数据。这个时候就得凭据数据质量打点的流程,开展一系列数据管理事情,建树公司的数据质量打点类型。同时,也要从计谋层面上打造团体的数据中台,通过实时精确的数据响应,赋能前台业务快速增长。

3. 成长稳按期

这时候公司处于一个不变增长的状态,大概也会举办一些新业务模式的实验,可是总体成长趋于不变。陪伴着中期的数据管理进程,整个数据团队的组织架构也趋于完善,如大数据数仓组,算法组,研发组,测试组,产物组等。

这时候关于数据就是一个“稳”字,这里的“稳”是“稳成长”和“稳创新”的意思。“稳成长”是指整个数据中心的局限及状态稳步成长,包罗框架的稳步迭代更新以及整体架构的慢慢优化。“稳创新”是指数据中台要不变的像前台输出一些创新性的数据产物,辅佐业务部分挖掘新的业务模式和变现渠道。

二、数据质量权衡尺度 1. 完整性

主要包罗实体缺失、属性缺失、记录缺失和字段值缺失四方面。

2. 精确性&公道性

数据中记录的信息和数据是否精确、是否存在异常可能错误的信息。主要包罗名目、范例、值域和业务法则的公道有效。

3. 一致性

系统之间的数据差别和彼此抵牾的一致性,业务指标统必然义,数据逻辑加工功效一致性。

4. 实时性

数据客栈ETL、应用揭示的实时和快速性,Jobs运行耗时、运行质量、依赖运行实时性。

怎么保障企业数据客栈中的数据质量?

图一:数据权衡尺度说明

三、数据质量打点流程

相关文章

未来直播将会呈现的三种模式

未来直播将会呈现的三种模式

直播将来将成为企业的营销标配,企业需要从营销推广和生意业务方法两个方面深入挖掘好直播的代价。文章预测了直播将来成长的三种模式并别离对其举办了梳理阐明,与各人分享。 疫情的敦促,直播成为当前许多企业都...

PRD:信贷H5产品需求文档

PRD:信贷H5产品需求文档

编辑导读:信贷产物是人们常常会用到的产物之一,是以送还和付息为条件的代价举动形式,辅佐有需要的人快速筹集资金。本文作者将从自身事情履历出发,撰写了一份信贷H5产物的需求文档,与你分享。 各人好~最近...

做B端产品决策前,需要判断需求价值

做B端产品决策前,需要判断需求价值

编辑导语:作为一个B端产物司理,在产物决定前必然要判定需求代价;选择能为客户和公司带来高代价的需求,需求要从多个点出发,办理客户问题、满意高质量客户需求等;本文作者具体阐明白做B端产物前需要留意的问题...

AARRR模型拆解(五):用户传播(Refer)

AARRR模型拆解(五):用户传播(Refer)

随着互联网行业的发展,许多产品都实现了从0到1的过程,渐渐地,很多产品的重心,都转移至如何实现从1到100,到10000的过程。而AARRR模型作为一个经典的增长漏斗模型,也时常被人所提及讨论,本系列...

待办清单类产品需求规划说明书

待办清单类产品需求规划说明书

本文从实际用户利用场景出发,阐明用户需求后输出一份待办清单类产物需求筹划说明书,主要从产物定位、业务流程、页面流程和成果详情这四个方面临产物举办了先容,与各人分享,但愿可以或许给各人的事情带来开导。...

产品发布过程中常见的九个障碍

产品发布过程中常见的九个障碍

编辑导语:产物营销人在产物宣布会上会碰着一些常见的问题,好比:产物定位、产物价值、宣布时间等,要做好万全的筹备才气把宣布会完成的只管完美;本文作者总结了再宣布进程中碰着的一些障碍,以及如何做好筹备。...