文章以数据产物司理老曹和数据开拓工程师大熊对话的这则小故事,来给各人科普一下,数据管理到底是怎么去弄呢?
最近,前同事老曹跳槽到去了一家初具局限的互联网公司,作为刚入职公司的之一位数据产物司理,在数据质量这块,明明感受到了前所未有的焦急和心酸:
数据阐明师翠花:
老曹,本日的数据又没有产出,咋回事啊?我还忙着写阐明陈诉呢!!!
数据产物司理老曹:
呃……你等等,我和数据开拓工程师大熊一起看看。
于是,老曹匆匆跑到数据开拓工程师大熊身边,气喘吁吁的说:
大熊,本日数据的pipeline是不是又挂掉了啊?
数据开拓工程师大熊一脸苍茫的看着老曹,胆寒的说到:
“我也不知道啊,我手动查查察吧。”
数据产物司理老曹有点焦躁了,一脸问号的说:
数据没有产出可能有问题,你们都不做报警的吗?
数据开拓工程师大熊低下了头,一言不语。
老曹有点忍不了了,拖过来一个画板,开始给大熊科普下数据管理应该怎么搞。
产物千万种,数据之一条,建树不类型,公司两行泪。
作为一个在大数据规模事情多年的数据产物司理,我以为数据中出格重要的就是数据质量,跟着业务成长,数据量呈爆炸式增加,数据发挥的代价越来越大,数据质量问题也变得越来越严重,低质量的数据不只利用未便,还会误导决定,甚至劫难性的功效,数据质量的优劣,抉择了数据是否可以或许真正发挥代价。
数据开拓工程师大熊低着头说:
你说的这些,我都懂,可是总感受数据质量有点虚,应该从哪些方面来权衡它呢?
老曹接着往下说:
是的,那么如何判定数据质量的坎坷呢?什么样的数据是高质量的呢?
引用美国著名的质量打点学家朱兰博士(J.M.Juran)的一句话:If they are fit for their intended in operations, decision making and planning.翻译一下,就是,假如按照这些数据做出的操纵、决定和筹划,切合之前的预期,那么这些数据就是高质量的,换个角度来领略,高质量的数据可以真实反应它们所代表的主体信息。
团结大数据与业务履历,在从定性的角度来看,影响数据质量的因素包罗数据完整性、数据正确性、数据一致性、数据的可获取性以及数据的时效性等方面。
个中,数据的完整性是指业务涉及到数据是完整的,可以或许对业务利用影响很大的数据都要保持必然的完整性;
数据的正确性要满意精确性和精准性两方面,即数据要是精确无误的,数据要在精度上满意业务需求;
数据的一致性要满意同一个指标的口径要一致,数据不要有二义性;
数据的可获取性是指利用数据的时候,数据是被有效组织的,而且可以或许被高效获取;数据的时效性指利用的业务数据都是最新的,而不是无效的逾期数据。
数据开拓工程师大熊越听越有乐趣,抬起头说:
我们措施员都较量存眷架构和详细实现,有没有一些架构和方案可以分享下啊?
数据产物司理老曹点颔首,以为可以或许起到必然结果了,抓紧跟他说:
“影响数据质量的因素又有许多,包罗数据埋点质量、数据传输进程中呈现的问题,数据口径是否一致等等,因此,为了担保数据质量,有资源和精神的公司会搭建本身的数据打点系统,这个图就是数据打点中心产物架构,主要包括指标体系打点、全局数据打点、元数据打点等。别的,在数据安详性的前提下,还可以通过全局数据接口对外输出高质量的数据。”
边说老曹边画了一个数据打点中心的产物架构图。然后接着给大熊讲到:
以数据打点系统为例,它偏重于从时效性和数据一致性这两大质量偏向担保数据的可读性。
首先,要做数据客栈的数据时效性查抄。
明晰天天的每一个层级、每一个数据表的最早和最晚生成时间,发明影响当天数据生成耽搁的数据表,并可以或许通过数据打点系统答复以下问题:
当天 MySQL 表和 Hive 表中的焦点指标是何时生成的?有哪些表的产出时间比预期时间延迟了?任务延迟的原因是由哪几张表造成的?瓶颈在那边?优化哪几层?哪几张表可以提高焦点指标等的生成时间?
大熊一听,赶忙问道:
这个是不是要给我打KPI啊,假如我的任务延迟会不会给我扣人为啊?
数据产物司理老曹赶忙增补说:
你想多啦,我给你画一下这个原型,你就知道拉,他的目标是相识任务的延迟环境,然后还能为今后的复盘利用,不是为了就揪小辫子啊!
编辑导读:互联网下半场,所有人都在接头增长。本文作者在头部金融公司做增长项目,主要事情内容有四个模块:项目阐明、团队组织、增长实践、项目洞察。本文是他对已往两年在增长规模的实践复盘,供各人一同参考和进...
当流量红利见顶,预示着消费互联网时代的落幕。 与此同时,财富互联网开始异军突起。以头部的互联网巨头为主导,一场努力拥抱财富互联网的大幕开始缓缓拉开。 从计谋打法到贸易模式,从成本运作到行业机关,无时...
所有的内容价值,最后都会由内容消费者买单。 一、为什么创作者大量涌现? 一个很核心的点是小微创作者变现门槛降低。 以往的内容市场,往往只有头部有资格赚取收益,而且多是以接商业广告的形式,一个创作新人...
本文从产物布局、全局说明、流程图、页面逻辑图、页面具体说明页五个角度,对年青人喜欢的B站举办了全方位的阐明,但愿对你有辅佐。 B站定位是多元化视频平台,主要成果是视频播放,环绕视频播放构建的用户体验...
在互联网经济的飞速发展中,「会员经济」已经不是一个新鲜玩意儿。本文主要想和你聊聊关于我眼中的「会员」的价值和未来,希望对想要探究会员经济模式的产品经理有所帮助。 前两天在一位朋友的群里,和一些朋友探...
随着互联网技术和手机软硬件的高速发展,手机的使用场景已经融入到日常生活的点滴中。购物用淘宝下单,饿了在美团点外卖,出行滴滴一下……这些关联衣食住行的应用,都离不开一个核心环节:线上支付。 手机支付通常...