AI产品经理必修——揭开算法的面纱(EM算法)

访客4年前黑客文章350

只要有一些练习数据,再界说一个更大化函数,回收EM算法,操作计较机颠末若干次迭代,就可以获得所要的模子。这实在是太美好了,这也许是我们的造物主决心布置的。所以我把它称作为上帝的算法。——吴军

AI产物司理必修——揭开算法的面纱(EM算法)

01 极大似然道理

要当即EM算法,我们先来相识一个经典的道理——极大似然道理(也叫更大似然道理)。

AI产物司理必修——揭开算法的面纱(EM算法)

看完这个示例,想必你对极大似然已经有了劈头的认识,没错,满意某个条件,使得事件产生的大概性更大。上面这个例子,就是,满意小球从乙箱中取出,使得球是黑球的概率更大。

我们再来看一个经典的示例:

问题:假设我们需要观测我们学校的男生和女生的身高漫衍。

步调1:在校园里随便地活捉了100个男生和100个女生,共200人。

步调2:你开始喊:“男的左边,女的右边,其他的站中间!”。

步调3:统计别离获得100个男生的身高和100个女生的身高。

求解:假设他们的身高是听从高斯漫衍的。可是这个漫衍的均值u和方差∂2我们不知道,这两个参数就是我们要预计的。记作θ=[u, ∂]T。

用适才的语境来表明,就是,满意这个分部的均值u和方差∂2,使得我们的视察数据(100个男生身高和100个女生的身高)呈现的大概性更大。

总结一下,更大似然预计的目标就是:操作已知的样本功效,反推最有大概(最或许率)导致这样功效的参数值。极大似然预计提供了一种给定调查数据来评估模子参数的要领,即:“模子已定,参数未知”。通过若干次试验,调查其功效,操作试验功效获得某个参数值可以或许使样本呈现的概率为更大,则称为极大似然预计。

02 EM算法(期望更大值算法)

回到例子自己,假如没有“男的左边,女的右边,其他的站中间!”这个步调,此刻这200小我私家已经混到一起了。这个时候,对付每一个样本可能你抽取到的人,就有两个对象需要预计的了:

这小我私家是男生照旧女生?

男生和女生对应的身高的高斯漫衍的参数是几多?

那这个问题EM算法是怎么办理的呢?我们先来看谜底。

步调1:我们先随便猜一下男生(身高)的正态漫衍的参数:如均值和方差是几多。譬喻男生的均值是1米7,方差是0.1米(虽然了,刚开始必定没那么准)。女生的正态漫衍参数同理。

步调2:计较出每小我私家更大概属于之一个照旧第二个正态漫衍中的。譬喻,这小我私家的身高是1米8,那很明明,他更大大概属于男生的谁人漫衍)。这个是属于Expectation一步。

步调3:有了每小我私家的归属,我们已经或许地按上面的要领将这200小我私家分为男生和女生两部门了。

此刻看出来了吗?我们已经别离获得了100个男生的身高和100个女生的身高。是不是回到了更大似然预计问题?

步调4:按照更大似然预计,通过这些被或许分为男生的n小我私家来从头预计之一个漫衍的参数,女生的谁人漫衍同样要领从头预计,也就是从头求解这个漫衍的均值u和方差∂2。这个是Maximization

假定计较功效当前男生的均值是1米74,方差是0.08。

看出来了吗?这和我们最初随便猜的谁人参数纷歧致呀!

步调5:从头猜。假定我们第二次揣摩时取其中间值,譬喻男生的均值是1米72,方差是0.09。继承步调1——步调2——步调3——步调4……如此来去,直到收敛,参数根基不再产生变革为止。

我们再用一个简朴的例子来总结这EM算法的精华:

小时候,老妈给一大袋糖果给你,叫你和你姐姐平分,然后你懒得去点糖果的个数,所以你也就不知道每小我私家到底该分几多个。咱们一般怎么做呢?先把一袋糖果目测的分为两袋,然后把两袋糖果拿在阁下手,看哪个重,假如右手重,那很明明右手这代糖果多了,然后你再在右手这袋糖果中抓一把放到左手这袋,然后再感觉下哪个重,然后再从重的那袋抓一小把放进轻的那一袋,继承下去,直到你感受两袋糖果差不多相等了为止。

EM算法就是这样,假设我们想预计知道A和B两个参数,在开始状态下二者都是未知的,但假如知道了A的信息就可以获得B的信息,反过来知道了B也就获得了A。可以思量首先赋予A某种初值,以此获得B的预计值,然后从B的当前值出发,从头预计A的取值,这个进程一直一连到收敛为止。

此刻,我们来总结一下:

EM(Expectation Maximization)算法包罗了两个进程和一个方针函数:

相关文章

被曲解的市场营销,到底是在做什么?

被曲解的市场营销,到底是在做什么?

编辑导读:近些年,关于营销的新理论层出不穷,真伪难辨。本文作者从市场营销的来历和观念出发,对大部门人都存在的市场营销误区举办了叙述,并分享了本身的几点观点,与各人分享。 假如回到2000年,面临落伍...

厂家看好的产品,经销商为什么不上心?

厂家看好的产品,经销商为什么不上心?

编辑导语:你是否也有这样的狐疑:有时候,显着厂家看好的产物,经销商却不上心?本文作者从这个问题出发,团结已往的实际履历,为我们表明白什么是好的产物、有哪些常见的认知斗嘴、经销商会大力大举投入什么样的产...

产品体验报告:微信读书,让阅读不再孤独

产品体验报告:微信读书,让阅读不再孤独

编辑导读:与其他的阅读APP差异,微信念书从一开始就含着金钥匙出生,背靠微信,主打社交化阅读。本文作者从产物概述、市场状况、需求阐明、产物阐明、竞品较量等几个维度对微信念书展开了梳理探究,与各人分享。...

2020年上半年的新零售生存发展观察

2020年上半年的新零售生存发展观察

在2020上半年,受疫情的影响,新零售业态受到冲击,线下用户大量流失,但线上需求却激增。那在疫情结束后,新零售的发展又该走向哪个方向呢? 新零售业态在疫情中受到的影响 线下业态在疫情中受到巨大压力,...

从「生态链」视角,看儿童硬件产品的功能属性

从「生态链」视角,看儿童硬件产品的功能属性

在互联网与硬件公司竞相发力的儿童硬件产物规模,这一范例产物的成长趋势是奈何的呢?今朝这类产物又主打哪些成果与优势呢?针对这些问题笔者将具体解答。 在互联网用户量增长已经见顶的时期,儿童作为「尚未充实...

数据驱动内容运营的理论与实务

数据驱动内容运营的理论与实务

内容是毗连用户和产物之间的桥梁与纽带,本文报告了内容运营的界说、为什么需要用数据驱动内容运营以及如何用数据来驱动内容运营,与各人分享! 许多互联网产物是依赖内容的一连更新来吸引新用户、维系老用户的。...