文章以数据产物司理老曹和数据开拓工程师大熊对话的这则小故事,来给各人科普一下,数据管理到底是怎么去弄呢?
最近,前同事老曹跳槽到去了一家初具局限的互联网公司,作为刚入职公司的之一位数据产物司理,在数据质量这块,明明感受到了前所未有的焦急和心酸:
数据阐明师翠花:
老曹,本日的数据又没有产出,咋回事啊?我还忙着写阐明陈诉呢!!!
数据产物司理老曹:
呃……你等等,我和数据开拓工程师大熊一起看看。
于是,老曹匆匆跑到数据开拓工程师大熊身边,气喘吁吁的说:
大熊,本日数据的pipeline是不是又挂掉了啊?
数据开拓工程师大熊一脸苍茫的看着老曹,胆寒的说到:
“我也不知道啊,我手动查查察吧。”
数据产物司理老曹有点焦躁了,一脸问号的说:
数据没有产出可能有问题,你们都不做报警的吗?
数据开拓工程师大熊低下了头,一言不语。
老曹有点忍不了了,拖过来一个画板,开始给大熊科普下数据管理应该怎么搞。
产物千万种,数据之一条,建树不类型,公司两行泪。
作为一个在大数据规模事情多年的数据产物司理,我以为数据中出格重要的就是数据质量,跟着业务成长,数据量呈爆炸式增加,数据发挥的代价越来越大,数据质量问题也变得越来越严重,低质量的数据不只利用未便,还会误导决定,甚至劫难性的功效,数据质量的优劣,抉择了数据是否可以或许真正发挥代价。
数据开拓工程师大熊低着头说:
你说的这些,我都懂,可是总感受数据质量有点虚,应该从哪些方面来权衡它呢?
老曹接着往下说:
是的,那么如何判定数据质量的坎坷呢?什么样的数据是高质量的呢?
引用美国著名的质量打点学家朱兰博士(J.M.Juran)的一句话:If they are fit for their intended in operations, decision making and planning.翻译一下,就是,假如按照这些数据做出的操纵、决定和筹划,切合之前的预期,那么这些数据就是高质量的,换个角度来领略,高质量的数据可以真实反应它们所代表的主体信息。
团结大数据与业务履历,在从定性的角度来看,影响数据质量的因素包罗数据完整性、数据正确性、数据一致性、数据的可获取性以及数据的时效性等方面。
个中,数据的完整性是指业务涉及到数据是完整的,可以或许对业务利用影响很大的数据都要保持必然的完整性;
数据的正确性要满意精确性和精准性两方面,即数据要是精确无误的,数据要在精度上满意业务需求;
数据的一致性要满意同一个指标的口径要一致,数据不要有二义性;
数据的可获取性是指利用数据的时候,数据是被有效组织的,而且可以或许被高效获取;数据的时效性指利用的业务数据都是最新的,而不是无效的逾期数据。
数据开拓工程师大熊越听越有乐趣,抬起头说:
我们措施员都较量存眷架构和详细实现,有没有一些架构和方案可以分享下啊?
数据产物司理老曹点颔首,以为可以或许起到必然结果了,抓紧跟他说:
“影响数据质量的因素又有许多,包罗数据埋点质量、数据传输进程中呈现的问题,数据口径是否一致等等,因此,为了担保数据质量,有资源和精神的公司会搭建本身的数据打点系统,这个图就是数据打点中心产物架构,主要包括指标体系打点、全局数据打点、元数据打点等。别的,在数据安详性的前提下,还可以通过全局数据接口对外输出高质量的数据。”
边说老曹边画了一个数据打点中心的产物架构图。然后接着给大熊讲到:
以数据打点系统为例,它偏重于从时效性和数据一致性这两大质量偏向担保数据的可读性。
首先,要做数据客栈的数据时效性查抄。
明晰天天的每一个层级、每一个数据表的最早和最晚生成时间,发明影响当天数据生成耽搁的数据表,并可以或许通过数据打点系统答复以下问题:
当天 MySQL 表和 Hive 表中的焦点指标是何时生成的?有哪些表的产出时间比预期时间延迟了?任务延迟的原因是由哪几张表造成的?瓶颈在那边?优化哪几层?哪几张表可以提高焦点指标等的生成时间?
大熊一听,赶忙问道:
这个是不是要给我打KPI啊,假如我的任务延迟会不会给我扣人为啊?
数据产物司理老曹赶忙增补说:
你想多啦,我给你画一下这个原型,你就知道拉,他的目标是相识任务的延迟环境,然后还能为今后的复盘利用,不是为了就揪小辫子啊!
从美食KOL带货,到品牌入驻电商化,到知名厨神直播授课,我们都可以看到,下厨房不再是那个以UGC(用户生产内容)分享美食为单一资本的内容平台了,它的杀手锏越来越丰富,也初具成效。下厨房系列将分为三个部...
根据相关专业机构及专业人员的实际应用效果反馈,铁路数据在风控策略及助贷业务的客群资质识别都有非常明显的效果。本文详细解析覆盖8亿人的铁路数据,希望可以给到各部门伙伴一定的参考。 目录: 前言 一、覆...
公司具体的电子发票解决方案,要根据公司所处的行业和自身的具体业务进行选择。找到既能满足为公司节省成本、避免让财务人员简单且繁琐的重复性劳动,又能满足让用户快速获取发票,开票不用排队的解决方案。 身在...
一场成功的大促活动一定不只是以KPI目标为第一导向。创新模式的推进应用,危机公关下的团队响应,作为零售巨头在行业上以及社会上承担的责任和担当,这些或许会比KPI来的更有价值! 四月初,不平凡的初春开...
爱奇艺CEO龚宇曾在采访中提到把爱奇艺的商业模式形容为“线上迪士尼”,这是在线视频平台首次提出“线上迪士尼”的概念。 经常有人问,爱奇艺为什么要做“线上迪士尼”而不是“中国Netflix”,简单写下...
当我们看了不少增长案例之后,再看看手头的事情和业绩方针,是不是还以为不知道怎么实现?那是因为很多案例并没有先容得出结论的阐明进程,而只是描写了问题的配景和方针,以及优化之后的结果。真正的阐明进程,往往...