AI产品经理必修——揭开算法的面纱(EM算法)

访客3年前黑客文章307

只要有一些练习数据,再界说一个更大化函数,回收EM算法,操作计较机颠末若干次迭代,就可以获得所要的模子。这实在是太美好了,这也许是我们的造物主决心布置的。所以我把它称作为上帝的算法。——吴军

AI产物司理必修——揭开算法的面纱(EM算法)

01 极大似然道理

要当即EM算法,我们先来相识一个经典的道理——极大似然道理(也叫更大似然道理)。

AI产物司理必修——揭开算法的面纱(EM算法)

看完这个示例,想必你对极大似然已经有了劈头的认识,没错,满意某个条件,使得事件产生的大概性更大。上面这个例子,就是,满意小球从乙箱中取出,使得球是黑球的概率更大。

我们再来看一个经典的示例:

问题:假设我们需要观测我们学校的男生和女生的身高漫衍。

步调1:在校园里随便地活捉了100个男生和100个女生,共200人。

步调2:你开始喊:“男的左边,女的右边,其他的站中间!”。

步调3:统计别离获得100个男生的身高和100个女生的身高。

求解:假设他们的身高是听从高斯漫衍的。可是这个漫衍的均值u和方差∂2我们不知道,这两个参数就是我们要预计的。记作θ=[u, ∂]T。

用适才的语境来表明,就是,满意这个分部的均值u和方差∂2,使得我们的视察数据(100个男生身高和100个女生的身高)呈现的大概性更大。

总结一下,更大似然预计的目标就是:操作已知的样本功效,反推最有大概(最或许率)导致这样功效的参数值。极大似然预计提供了一种给定调查数据来评估模子参数的要领,即:“模子已定,参数未知”。通过若干次试验,调查其功效,操作试验功效获得某个参数值可以或许使样本呈现的概率为更大,则称为极大似然预计。

02 EM算法(期望更大值算法)

回到例子自己,假如没有“男的左边,女的右边,其他的站中间!”这个步调,此刻这200小我私家已经混到一起了。这个时候,对付每一个样本可能你抽取到的人,就有两个对象需要预计的了:

这小我私家是男生照旧女生?

男生和女生对应的身高的高斯漫衍的参数是几多?

那这个问题EM算法是怎么办理的呢?我们先来看谜底。

步调1:我们先随便猜一下男生(身高)的正态漫衍的参数:如均值和方差是几多。譬喻男生的均值是1米7,方差是0.1米(虽然了,刚开始必定没那么准)。女生的正态漫衍参数同理。

步调2:计较出每小我私家更大概属于之一个照旧第二个正态漫衍中的。譬喻,这小我私家的身高是1米8,那很明明,他更大大概属于男生的谁人漫衍)。这个是属于Expectation一步。

步调3:有了每小我私家的归属,我们已经或许地按上面的要领将这200小我私家分为男生和女生两部门了。

此刻看出来了吗?我们已经别离获得了100个男生的身高和100个女生的身高。是不是回到了更大似然预计问题?

步调4:按照更大似然预计,通过这些被或许分为男生的n小我私家来从头预计之一个漫衍的参数,女生的谁人漫衍同样要领从头预计,也就是从头求解这个漫衍的均值u和方差∂2。这个是Maximization

假定计较功效当前男生的均值是1米74,方差是0.08。

看出来了吗?这和我们最初随便猜的谁人参数纷歧致呀!

步调5:从头猜。假定我们第二次揣摩时取其中间值,譬喻男生的均值是1米72,方差是0.09。继承步调1——步调2——步调3——步调4……如此来去,直到收敛,参数根基不再产生变革为止。

我们再用一个简朴的例子来总结这EM算法的精华:

小时候,老妈给一大袋糖果给你,叫你和你姐姐平分,然后你懒得去点糖果的个数,所以你也就不知道每小我私家到底该分几多个。咱们一般怎么做呢?先把一袋糖果目测的分为两袋,然后把两袋糖果拿在阁下手,看哪个重,假如右手重,那很明明右手这代糖果多了,然后你再在右手这袋糖果中抓一把放到左手这袋,然后再感觉下哪个重,然后再从重的那袋抓一小把放进轻的那一袋,继承下去,直到你感受两袋糖果差不多相等了为止。

EM算法就是这样,假设我们想预计知道A和B两个参数,在开始状态下二者都是未知的,但假如知道了A的信息就可以获得B的信息,反过来知道了B也就获得了A。可以思量首先赋予A某种初值,以此获得B的预计值,然后从B的当前值出发,从头预计A的取值,这个进程一直一连到收敛为止。

此刻,我们来总结一下:

EM(Expectation Maximization)算法包罗了两个进程和一个方针函数:

相关文章

我用40万学会了做SaaS产品的MVP

我用40万学会了做SaaS产品的MVP

编辑导语:SaaS是一种基于互联网提供软件处事的应用模式,做行业SaaS或其他TOB产物时总会碰着越发巨大和多元的问题,这就是缺少闭环;本文作者按照自身的创业履历,给我们分享了如何做SaaS产物的MV...

社区团购:旧故事和新战事

社区团购:旧故事和新战事

编辑导读:社区团购是本年很是火热的赛道之一,各大巨头或直接或间接参加个中。小区里地推小哥正热情结纳途经的大爷大妈下载社区团购的APP,而路边的超市小店却因为低价竞争叫苦不迭。本文将从四个方面临此举办阐...

淘宝一元店对狙名创优品:狭路相逢,得供应链者胜

淘宝一元店对狙名创优品:狭路相逢,得供应链者胜

编辑导读:不管你在哪个都市,城市瞥见名创优品的身影。有人笑称它为十元店,可是不行否定,名创优品以其低廉的价值和相对不错的质量得到了很多用户的芳心。前段时间,淘宝推出一元店的动静激发存眷,不少人揣摩它是...

知乎找不到自己的答案

知乎找不到自己的答案

编辑导读:知乎作为一个荟萃了优质内容和精英用户的产物,近几年的成长却显得有些吃力。不绝涌现的竞争敌手,给知乎带来了不小的压力。本文将从三个方面临知乎的近况和将来举办阐明,但愿对你有辅佐。 在很长一段...

需求“简简单单”,后台开发为什么要做好几天?

需求“简简单单”,后台开发为什么要做好几天?

当产物司理和靠山开拓提需求时,本觉得小迭代、小需求简简朴单,但在靠山开拓眼中却有些贫苦。那么在需求实现的角度上,是什么原因导致的呢?我们又该如何从靠山开拓的视角去领略需求的实现进程呢? 在产物同质化...

产品分析 | 斗鱼,游戏直播还没结束

产品分析 | 斗鱼,游戏直播还没结束

编辑导读:面临直播行业浩瀚巨头的竞争,斗鱼为何能始终站在行业领先职位?将来又该如何成长?本文是斗鱼直播的产物阐明陈诉,主要包罗这几点:成果布局、竞品阐明、用户阐明、用户调研、成果阐明与优化方案,与各人...