聊聊数据中台:元数据建设有哪些坑(二)

访客3年前黑客工具602

编辑导读:在举办数据舆图的事情中,需要留意两个焦点成果,即元数据信息的展示和血缘干系。本文将环绕这两个点展开阐明,但愿对你有辅佐。

聊聊数据中台:元数据建树有哪些坑(二)

元数据舆图

上期讲到数据舆图,这一期重点来讲,开始之前说点此外,雷同元数据、ETL平台类的产物、很是检验开拓的技能程度。

这里有个问题,作为产物需不需要参加每个技能方案的评审?这里我发起在时间答允的环境下只管都参加下,许多时候开拓给的技能方案都是为了实现而实现,而需求从来都不是一层稳定的,在定一个技能方案的时候也要思量万一我的需求可能场景变了的环境下,是否都可以或许满意?

并且技能方案变革也是很正常的工作,除非你们有CTO专门帮你们订好方案和评审。这里我发起产物只管参加下,许多问题都可以在初期就可以制止。

数据舆图最焦点的成果有两个:元数据信息的展示、血缘干系。

元数据信息的展示上期已经讲过了,按照收罗的信息+元模子举办展示,这里需要思量的问题就是要只管全,要对展示的信息举办一个分类,否则会很乱。

我这里分了几种:技能信息、业务信息、权限信息。这里我只说下权限信息,用户在查询元数据的时候我们要给出权限的信息,读、写照旧无权限等,同时还要提供数据预览的成果,当用户无法通过技能属性和业务属性直观的相识数据时,照旧可以通过查察数据内容去领略数据(发起限制20条)。

关于血缘干系需求:

血缘是元数据最焦点的成果了,关于如何提血缘的需求产物要多听听用户和技能的声音,血缘存在一个包围率的问题,是100%照旧90%以上即可?

用户都但愿可以实现100%,但现实是打脸的,每个公司的场景都纷歧样很难有公司说我们cover你们公司所有场景,可以担保血缘100%理会。假如然有要么这个公司技能程度很是高,要么是忽悠你。

SQL作为一门语言它可以有成千、上万中写法,还大概会引用各类函数、这里还存在书写不类型的环境谁敢担保可以或许100%包围?

PS:我这里说的血缘是指要到字段级的。

关于血缘需求的之一个发起:

实现不了的,列出来,订好类型只管制止这种写法呈现,好比银行会有雷同10大铁律,发明即处罚,来制止呈现理会不了的环境。

能实现的要100%包围,呈现就是bug。

恒久、大量测试要有,包围主要业务场景。

关于血缘需求的第二个发起:

凭据行业TPC-DS的评测尺度,100%包围。

超出的凭据新需求迭代开拓,不算bug。

说明:TPC-DS算是较量通用的大数据规模SQL测试尺度,尚有TPC-BB, TPC-H。

TPC-DS提供99个SQL查询(SQL99或2003),阐明数据量大,测试数据与实际贸易数据高度相似,同时具有各类业务模子(阐明陈诉型,数据挖掘型等等)。

以下为TPC-DS具体信息:

https://cloud.tencent.com/developer/news/83351

血缘影响阐明:

在筹划影响阐明时,我也参考了其他厂商做的,好比普元、亚信、阿里云,主要场景根基雷同,主要阐明字段可能表产生改观时对下游链路的影响。我们做的较量简朴,提供表、字段的血缘阐明,可以通过查询表或字段来阐明整个血缘链路的影响,尤其是链路较多的时候会用到。

血缘从那边理会?存那边?

用过ETL的都知道,ETL也有血缘可能叫依赖干系,一般环境都是ETL先建树,元数据都是后建树,血缘本质是理会SQL输出表与表之间的干系,而SQL根基都是来自于ETL的任务,所以大部门的做法都是ETL将及时传给元数据,元数据举办理会,我们也是雷同。

这里就涉及一个存储的问题了,传统的数据库必定是没有问题的,但传统的数据库存在打开慢的环境,尤其是血缘链路长的时候(几百个表),这里的发起就是利用图数据库在存储血缘干系。

Neo4j、TigerGraph、Amazon Neptune、JanusGraph、ArangoDB,是市场上最为知名的五大图数据库品牌,我们用的是Neo4j。

科普性的我只管少讲,让各人更存眷元数据自己,感乐趣的看下这个毗连:

https://www.zhihu.com/question/19916683

开源 NoSQL 数据库,原生的图数据库,2003 年开始开拓,利用 scala和java 语言,2007年开始宣布;

世界上更先进的图数据库之一,提供原生的图数据存储,检索和处理惩罚;

回收属性图模子(Property graph model),极大的完善和富厚图数据模子;

专属查询语言 Cypher,直观,高效。

跟ETL如何对接?如何确保SQL100%包围?

我总结产物问题:每每跟其他系统对接的都是坑。

方才提到的血缘100%包围,可是这中间尚有个问题,假如ETL不能100%的把SQL传给你,你就算实现了100%理会也没用。

ETL的逻辑:生存-提交-越日运行。

我们的方案:任务提交时触发通过kafka将SQL以及任务信息传给元数据。后续再讲这个方案到底那边有问题。

表的任务信息如何展示?

相关文章

数据产品核心概念之元数据

数据产品核心概念之元数据

编辑导语:在这个大数据时代,数据已经公认是一项重要的资产。元数据,是表明数据的数据,如今也越来越多的呈此刻公共视野中。可是对付元数据的观念、元数据有什么用、元数据该如何打点,非业内人士大概领略的不足清...