元数据一般被称为“数据的数据”,以元数据为要害展开数据管理,可以或许辅佐企业更好地对数据资源举办打点,理清数据之间的干系,实现更精准高效的阐明和决定。本文作者从自身事情出发,对元数据的根基成果展开了先容说明,与各人分享。
本人在一家金融科技公司做B端产物司理,大数据偏向的,2019年我们公司大张旗鼓的启动了数据中台建树,作为数据中台的重要构成部门,元数据自然被提上了日程。在产物建树进程中碰着了许多坑跟各人分享下(之一次分享有错误还请各人多多包容)。
关于元数据的观念的科普、先容我这里就不多说了,各人在人人都是产物司理随便搜一下就有。
一、元数据成果先容在做元数据之前本人也做了许多的竞品阐明(简朴的),像这类产物更多照旧乙方较量有履历举例几个亚信、普元信息、网达、星环等等。按照我们的需求近况我们确定任何一家成熟的产物都cover不住我们的需求,对付乙方习惯于尺度化,非标的需求都不太愿意做,所以我们爽性就从0到1开始建树,不消他们的产物,只用他们的技能本领。
对付要不要从0到1建树取决于数据量和数仓建树环境,假如数据量不大直接买一个成熟产物即可可能基础不需要元数据产物,究竟没有元数据也能成立数仓的(扯远了~),每个公司对元数据的需求大概都不太一样,元数据的尺度化其实不太好做(对技能要求很高),因为你要能cover住大部门用户的需求,cover不住要么用户妥协、要么你妥协二次开拓一些成果给用户利用。
按照我们的需求我们筹划了以下成果(简朴的先容下):
1. 基本成果1)数据舆图:分为数据资产、元数据中心,为用户提供元数据资产统计处事。
2)数据资产统计:用户可以通过数据舆图清晰的相识数据的利用环境、漫衍等对整个数据资产环境有个或许的相识(这种阐明统计类的需求是无止尽的,做一部门常用的即可,剩下的入库本身用可视化阐明东西展示)
3)元数据中心:这是元数据焦点成果之一,整个元数据的输出就是数据舆图,用户可以通过元数据中心查察表的元数据信息(技能元数据、业务元数据)、任务信息、血缘干系(表级、字段级)血缘阐明、利用信息等等(再多就看本身公司诉求了)
4)元模子:元模子是元数据的焦点成果之一,主要实现技能元数据和业务元数据的打点、维护;这里说下子模子的观念,思量场景的多样性好比运维更存眷技能元数据、业务更存眷业务元数据,针对差异的库、表可以应用差异的元模子,以满意差异人群的需求。
5)打点中心:打点中心主要针对成果权限、数据权限举办打点包罗权限申请、审批、实施等。
6)我的数据:为用户提供查察自身权限、建表等成果。
7)数据打点:数据打点包括元模子、数据源打点等成果,用于元数据的手动、自动收罗(出产的元数据收罗依赖外部平台,大数据侧元数据收罗我们本身做的)
8)元数据质量:主要做元数据管理用的,包括库、表元数据管理成果,分多个维度统计元数据完成环境,并可以做相应通知等。
9)其他:还做了一些其他成果如审计等,这里不细讲了。
2. 产物架构我简朴描写下:
存储/计较:元数据利用MySQL举办存储、图数据库,查询利用clickhouse,缓存漫衍式redis;
处事层:处事层提供基本的平台处事本领,包罗元数据打点、元数据舆图、打点中心、用户权限打点等。
通知处事:元数据打点系统中通知类动静今朝有三种泛起形式,别离为站内信、短信、邮箱;
元数据收罗:kafka、hook插件、flume、sftp
安详处事:LDAP认证、kerberos
二、产物建树的筹备事情 1. 需求调研关于需求调研、阐明,需求从来都是无止尽的,没有上限,作为产物心中要给本身划个底线,你的产物界线、产物定位在那边,尤其是需求方较量强势的时候,确定好界线和底线你才知道哪些能做、哪些不能做,哪些需要重点优先建树,这样你在交付产物才气获得需求方的承认。
我们就没有守住底线接了许多运维类的需求,同时也拒绝了许多运维类的需求,因为在做下去就酿成了四不像了集ETL部门成果、数据加工部门成果、数据库打点成果等等等。元数据焦点照旧数据收罗、数据舆图、元模子、数据权限,当你接了太多需求时,照旧回归产物定位、明晰产物界线,时间有限、精神有限我们能做的也有限。
2. 数据收罗(1)收罗内容简直认
编辑导语:如今,跟着线上教诲成为了教诲行业的一大趋势,不少机构纷纷运营起本身的线上课程业务,在如此大的竞争力度之下,不只家长很难做出选择,各个机构也很难打造爆款,吸引用户。本文作者为我们拆解了一个乐成...
编辑导读:产物司理的焦点本领是可以或许综合所有要素做出高质量的决定判定,在实践中提炼产物思维,举办自我认知进级。本文作者从六个方面,环绕产物思维提出了本身的一点思考,与你分享。 思维是魂灵的自我谈话...
编辑导语:风险部分一般分别有模子、计策、数据阐明等团队;固然各自存眷职责范畴的指标及绩效查核重点,但团队间密不行分,彼此协作配合担保某个产物或项目标风险可控;所以对小我私家成长有须要从整体出发,以全局...
编辑导读:唯品会作为海内知名的电商平台,它的业务模式和主流电商的业务模式有很大的区别。操作创新的业务模式,唯品会得以在竞争剧烈的电商赛道上站稳脚跟。本文将通过唯品会的业务模式成长史,来看看它给其他企业...
编辑导读:复盘是职场人一项重要的本领,它能辅佐我们快速梳理事情中呈现的问题,从而吸取履历教导,有所生长。因此无论在糊口照往事情中,我们都要学会科学高效的复盘。本文作者将环绕复盘这一话题,提供一些本身的...
编辑导语:设计师在举办差异的设计需求时,产物设计要领论可为设计师提供明晰的步调与框架;设计师在设计产物时应该如何思考、从哪个偏向举办思考才气设计出用户体验好的产物;本文作者分享了关于产物设计要领论中的...