聊聊数据中台:元数据建设有哪些坑(二)

访客4年前黑客工具621

编辑导读:在举办数据舆图的事情中,需要留意两个焦点成果,即元数据信息的展示和血缘干系。本文将环绕这两个点展开阐明,但愿对你有辅佐。

聊聊数据中台:元数据建树有哪些坑(二)

元数据舆图

上期讲到数据舆图,这一期重点来讲,开始之前说点此外,雷同元数据、ETL平台类的产物、很是检验开拓的技能程度。

这里有个问题,作为产物需不需要参加每个技能方案的评审?这里我发起在时间答允的环境下只管都参加下,许多时候开拓给的技能方案都是为了实现而实现,而需求从来都不是一层稳定的,在定一个技能方案的时候也要思量万一我的需求可能场景变了的环境下,是否都可以或许满意?

并且技能方案变革也是很正常的工作,除非你们有CTO专门帮你们订好方案和评审。这里我发起产物只管参加下,许多问题都可以在初期就可以制止。

数据舆图最焦点的成果有两个:元数据信息的展示、血缘干系。

元数据信息的展示上期已经讲过了,按照收罗的信息+元模子举办展示,这里需要思量的问题就是要只管全,要对展示的信息举办一个分类,否则会很乱。

我这里分了几种:技能信息、业务信息、权限信息。这里我只说下权限信息,用户在查询元数据的时候我们要给出权限的信息,读、写照旧无权限等,同时还要提供数据预览的成果,当用户无法通过技能属性和业务属性直观的相识数据时,照旧可以通过查察数据内容去领略数据(发起限制20条)。

关于血缘干系需求:

血缘是元数据最焦点的成果了,关于如何提血缘的需求产物要多听听用户和技能的声音,血缘存在一个包围率的问题,是100%照旧90%以上即可?

用户都但愿可以实现100%,但现实是打脸的,每个公司的场景都纷歧样很难有公司说我们cover你们公司所有场景,可以担保血缘100%理会。假如然有要么这个公司技能程度很是高,要么是忽悠你。

SQL作为一门语言它可以有成千、上万中写法,还大概会引用各类函数、这里还存在书写不类型的环境谁敢担保可以或许100%包围?

PS:我这里说的血缘是指要到字段级的。

关于血缘需求的之一个发起:

实现不了的,列出来,订好类型只管制止这种写法呈现,好比银行会有雷同10大铁律,发明即处罚,来制止呈现理会不了的环境。

能实现的要100%包围,呈现就是bug。

恒久、大量测试要有,包围主要业务场景。

关于血缘需求的第二个发起:

凭据行业TPC-DS的评测尺度,100%包围。

超出的凭据新需求迭代开拓,不算bug。

说明:TPC-DS算是较量通用的大数据规模SQL测试尺度,尚有TPC-BB, TPC-H。

TPC-DS提供99个SQL查询(SQL99或2003),阐明数据量大,测试数据与实际贸易数据高度相似,同时具有各类业务模子(阐明陈诉型,数据挖掘型等等)。

以下为TPC-DS具体信息:

https://cloud.tencent.com/developer/news/83351

血缘影响阐明:

在筹划影响阐明时,我也参考了其他厂商做的,好比普元、亚信、阿里云,主要场景根基雷同,主要阐明字段可能表产生改观时对下游链路的影响。我们做的较量简朴,提供表、字段的血缘阐明,可以通过查询表或字段来阐明整个血缘链路的影响,尤其是链路较多的时候会用到。

血缘从那边理会?存那边?

用过ETL的都知道,ETL也有血缘可能叫依赖干系,一般环境都是ETL先建树,元数据都是后建树,血缘本质是理会SQL输出表与表之间的干系,而SQL根基都是来自于ETL的任务,所以大部门的做法都是ETL将及时传给元数据,元数据举办理会,我们也是雷同。

这里就涉及一个存储的问题了,传统的数据库必定是没有问题的,但传统的数据库存在打开慢的环境,尤其是血缘链路长的时候(几百个表),这里的发起就是利用图数据库在存储血缘干系。

Neo4j、TigerGraph、Amazon Neptune、JanusGraph、ArangoDB,是市场上最为知名的五大图数据库品牌,我们用的是Neo4j。

科普性的我只管少讲,让各人更存眷元数据自己,感乐趣的看下这个毗连:

https://www.zhihu.com/question/19916683

开源 NoSQL 数据库,原生的图数据库,2003 年开始开拓,利用 scala和java 语言,2007年开始宣布;

世界上更先进的图数据库之一,提供原生的图数据存储,检索和处理惩罚;

回收属性图模子(Property graph model),极大的完善和富厚图数据模子;

专属查询语言 Cypher,直观,高效。

跟ETL如何对接?如何确保SQL100%包围?

我总结产物问题:每每跟其他系统对接的都是坑。

方才提到的血缘100%包围,可是这中间尚有个问题,假如ETL不能100%的把SQL传给你,你就算实现了100%理会也没用。

ETL的逻辑:生存-提交-越日运行。

我们的方案:任务提交时触发通过kafka将SQL以及任务信息传给元数据。后续再讲这个方案到底那边有问题。

表的任务信息如何展示?

相关文章

关于内容生态的一些思考(一)

关于内容生态的一些思考(一)

所有的内容价值,最后都会由内容消费者买单。 一、为什么创作者大量涌现? 一个很核心的点是小微创作者变现门槛降低。 以往的内容市场,往往只有头部有资格赚取收益,而且多是以接商业广告的形式,一个创作新人...

作为产品设计师,你需要了解这些品牌知识

作为产品设计师,你需要了解这些品牌知识

作为一名产物设计师,在竞争剧烈的本日,把握一些品牌常识长短常有须要的。本文作者从两个方面展开阐明,但愿对你有辅佐。 迩来表白,相识品牌是值得的。创业公司的鼓起缔造了数千个新的品牌设计时机,各个学科的...

抓住6大核心点,轻松编写一份清晰的设计需求清单

抓住6大核心点,轻松编写一份清晰的设计需求清单

如何轻松编写一份清晰的设计需求清单?清晰的设计需求应包括 :设计目标、原型、设计发挥空间、估量工期、竞品、设计气势气魄,这6大焦点点。 一、概述 场景一:产物小哥哥找设计师出个logo 需求方:给我...

从系统观到商业观:产品经理的修炼感悟

从系统观到商业观:产品经理的修炼感悟

2020年9月12-13日,人人都是产物司理举行的【 2020杭州产物司理大会】完美落幕。深耕互联网产物规模15年、从0到1构建手机腾讯网、手机QQ空间等多个亿级体量产物的极光BDS开拓者处事事业线产...

拆解产品:小米有品——品质电商之路

拆解产品:小米有品——品质电商之路

编辑导语:2017年4月6日,在“消费进级”、“制造业转型”、“新零售”、“新中产阶层崛起”的大情况下,小米有品正式上线并迅速成长。据七麦数据显示,小米有品下载量为5.6亿。在已经有淘宝、京东等大电商...

如何用数据分析驱动用户增长?

如何用数据分析驱动用户增长?

编辑导读:用数据来洞察用户,相识用户是做增长的基本。毫无疑问,增长的进程也是数据挖掘和阐明的进程,那么如何用数据阐明来做增长呢?针对这个问题,本文作者从五个方面展开阐明,但愿对你有辅佐。 一、数据阐...