聊聊数据中台:元数据建设有哪些坑(一)

访客4年前黑客资讯951

元数据一般被称为“数据的数据”,以元数据为要害展开数据管理,可以或许辅佐企业更好地对数据资源举办打点,理清数据之间的干系,实现更精准高效的阐明和决定。本文作者从自身事情出发,对元数据的根基成果展开了先容说明,与各人分享。

聊聊数据中台:元数据建树有哪些坑(一)

本人在一家金融科技公司做B端产物司理,大数据偏向的,2019年我们公司大张旗鼓的启动了数据中台建树,作为数据中台的重要构成部门,元数据自然被提上了日程。在产物建树进程中碰着了许多坑跟各人分享下(之一次分享有错误还请各人多多包容)。

关于元数据的观念的科普、先容我这里就不多说了,各人在人人都是产物司理随便搜一下就有。

一、元数据成果先容

在做元数据之前本人也做了许多的竞品阐明(简朴的),像这类产物更多照旧乙方较量有履历举例几个亚信、普元信息、网达、星环等等。按照我们的需求近况我们确定任何一家成熟的产物都cover不住我们的需求,对付乙方习惯于尺度化,非标的需求都不太愿意做,所以我们爽性就从0到1开始建树,不消他们的产物,只用他们的技能本领。

对付要不要从0到1建树取决于数据量和数仓建树环境,假如数据量不大直接买一个成熟产物即可可能基础不需要元数据产物,究竟没有元数据也能成立数仓的(扯远了~),每个公司对元数据的需求大概都不太一样,元数据的尺度化其实不太好做(对技能要求很高),因为你要能cover住大部门用户的需求,cover不住要么用户妥协、要么你妥协二次开拓一些成果给用户利用。

按照我们的需求我们筹划了以下成果(简朴的先容下):

1. 基本成果

1)数据舆图:分为数据资产、元数据中心,为用户提供元数据资产统计处事。

2)数据资产统计:用户可以通过数据舆图清晰的相识数据的利用环境、漫衍等对整个数据资产环境有个或许的相识(这种阐明统计类的需求是无止尽的,做一部门常用的即可,剩下的入库本身用可视化阐明东西展示)

3)元数据中心:这是元数据焦点成果之一,整个元数据的输出就是数据舆图,用户可以通过元数据中心查察表的元数据信息(技能元数据、业务元数据)、任务信息、血缘干系(表级、字段级)血缘阐明、利用信息等等(再多就看本身公司诉求了)

4)元模子:元模子是元数据的焦点成果之一,主要实现技能元数据和业务元数据的打点、维护;这里说下子模子的观念,思量场景的多样性好比运维更存眷技能元数据、业务更存眷业务元数据,针对差异的库、表可以应用差异的元模子,以满意差异人群的需求。

5)打点中心:打点中心主要针对成果权限、数据权限举办打点包罗权限申请、审批、实施等。

6)我的数据:为用户提供查察自身权限、建表等成果。

7)数据打点:数据打点包括元模子、数据源打点等成果,用于元数据的手动、自动收罗(出产的元数据收罗依赖外部平台,大数据侧元数据收罗我们本身做的)

8)元数据质量:主要做元数据管理用的,包括库、表元数据管理成果,分多个维度统计元数据完成环境,并可以做相应通知等。

9)其他:还做了一些其他成果如审计等,这里不细讲了。

2. 产物架构

我简朴描写下:

存储/计较:元数据利用MySQL举办存储、图数据库,查询利用clickhouse,缓存漫衍式redis;

处事层:处事层提供基本的平台处事本领,包罗元数据打点、元数据舆图、打点中心、用户权限打点等。

通知处事:元数据打点系统中通知类动静今朝有三种泛起形式,别离为站内信、短信、邮箱;

元数据收罗:kafka、hook插件、flume、sftp

安详处事:LDAP认证、kerberos

二、产物建树的筹备事情 1. 需求调研

关于需求调研、阐明,需求从来都是无止尽的,没有上限,作为产物心中要给本身划个底线,你的产物界线、产物定位在那边,尤其是需求方较量强势的时候,确定好界线和底线你才知道哪些能做、哪些不能做,哪些需要重点优先建树,这样你在交付产物才气获得需求方的承认。

我们就没有守住底线接了许多运维类的需求,同时也拒绝了许多运维类的需求,因为在做下去就酿成了四不像了集ETL部门成果、数据加工部门成果、数据库打点成果等等等。元数据焦点照旧数据收罗、数据舆图、元模子、数据权限,当你接了太多需求时,照旧回归产物定位、明晰产物界线,时间有限、精神有限我们能做的也有限。

2. 数据收罗

(1)收罗内容简直认

相关文章

社群拆解:从周围游戏群来看待拉新到转化全过程

社群拆解:从周围游戏群来看待拉新到转化全过程

编辑导语:社群运营,是用户运营中较量常见常用的一种方法,看起来简朴,不就是发动员静、发发红包、聊谈天吗;实际上社群运营需要的是循序渐进,以及长时间的转化;本文作者从周围游戏群来对待社群拉新到转化的全进...

如何挖掘用户的真需求

如何挖掘用户的真需求

编辑导语:如何更好地满意用户需求是一个产物司理必需要思量的问题,领略用户需求也是最难而且最重要的一步;我们应该如何挖掘用户的真正需求?本篇文章作者从需求来历、怎么获取用户需求举办阐明。 一、需求的来...

都做免费直播课,唯学而思网校值得被“抄作业”

都做免费直播课,唯学而思网校值得被“抄作业”

今年的特殊情况,在线教育行业是重大利好。各大平台纷纷使用免费、直播、体验营等形式获取用户,而在其中,学而思网校的表现尤其突出,其免费政策一直持续到现在,这背后,有什么问题是值得我们思考的? 2020...

AIPM要知道的NLP知识(1):词的表达

AIPM要知道的NLP知识(1):词的表达

编辑导语:NLP为Neuro-Linguistic Programming的缩写,是研究思维、语言和行为中的纪律;这是一种对优秀(excellence)举办编码和复制的方法,它能使你不绝到达你和你的公...

解锁智能家居行业,小米VS美的谁更有优势?(产品布局篇)

解锁智能家居行业,小米VS美的谁更有优势?(产品布局篇)

编辑导语:智能家居,是以住宅为平台,操作综合布线技能、网络通信技能、 安详防御技能、自动节制技能、音视频技能将家居糊口有关的设施集成,构建高效的住宅设施与家庭日程事务的打点系统,晋升家居安详性、便利性...

傻瓜才去讲道理,高手都爱讲故事!

傻瓜才去讲道理,高手都爱讲故事!

故事思维,已经是我们生活、职场必备的一项技能,当你学会讲故事后,你的演讲表达能力、带领团队能力也都会有质地提升。那么,要如何讲好一个故事? 讲台上,小明正在滔滔不绝地给大家做培训,下面听众席上,张三...