微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作:原创、转发、回复、阅读、关注、@等。其中,前四个是针对短博文,最后的关注和@则针对的是用户之间的关系,关注某个人就意味着你成为他的粉丝,而他成为你的好友;@某个人意味着你想要他看到你的微博信息。
微博被人们认为是“自媒体”,即普通大众分享与本身相关的“新闻”的途径。最近,有些人使用自己在自媒体上的影响力而盈利的报道屡见不鲜。那微博上个人影响力是怎样计算的呢?微博上还有哪些算法作为看不见的手在管理着我们?我们的每一个行为怎样影响着算法呢?
直观上看,微博其实是人类社会的一个简单的缩影,微博 *** 的一些特点,也许可以启发我们得到真实的社会 *** 上的规律。得益于社交 *** 的爆发式发展,“社会计算”尤其是社交 *** 分析成为数据挖掘的新宠儿。下面我们就针对微博 *** 分析的一些算法进行简单的介绍,其中的有些算法对于其他的社交应用可能也适用。
1.标签传播
微博用户量浩大,不同的人有不同的兴趣。挖掘每个用户的兴趣有助于更加精准的广告投放、内容推荐。为了得到每个用户的兴趣,可以为用户打上标签,每个标签代表用户的一个兴趣,用户可以拥有一个或多个标签。为了得到最终的用户标签,先做之一个假设:
每个用户的好友(或粉丝)中与该用户具有相同兴趣的人占多数。
这就引出了本文介绍的之一个算法,即标签传播算法。在这个算法中,每个用户的标签取其好友或粉丝中标签最多的一个或多个。当然,可以将好友和粉丝的标签都考虑进来,整合的时候可以考虑赋予好友的标签和粉丝的标签不同的权重。标签传播算法的过程如下:
1)对一部分用户给出初始标签;
2)对每一个用户,统计其好友和粉丝的标签数目,赋予该用户出现次数最多的一个或者多个标签。
3)循环进行第2步,直到用户的标签不再发生大的变化为止。
2.用户相似度计算
标签传播算法实现起来比较简单,其缺点在于当所做的假设不符合事实时,比如为了社交上的礼貌,我们一般会把自己的亲友添加关注,这些人不一定和我们拥有同样的标签;该算法的结果就会变得很差。解决的办法就是通过计算用户之间的相似度来衡量好友或粉丝的标签对用户标签的贡献率。因而得到第二个假设:
与用户越相似的好友或粉丝,其标签越可能是用户的标签。
那么,如何衡量用户之间的相似度呢?这就需要考虑到用户发表的微博信息了,包括转发的和原创的。这里是要考虑用户之间的相似度而不是用户微博之间的相似度,因而在实际计算时,将某个用户的所有微博信息聚集到一起进行计算。一个可选的 *** 是使用词袋法将微博信息表示成词语向量,然后直接使用余弦 *** 等计算其相似度。但这个 *** 太过简单,不容易达到好的结果,这里介绍一种基于LDA(隐含狄利克雷分布)的相似度计算 *** 。
LDA仍然使用词袋法表示文本,但是在中间添加了一个主题层,形成了“文档-主题-词语”三层概率模型,即每篇文档看成是主题的一种概率分布,主题又被看成是单词的概率分布。在LDA模型下,文档可以被看成按照如下方式生成:
1)对于每篇文档:
2)从主题分布中抽取一个主题;
3)从该主题的词语分布中抽取一个词语;
4)重复第2步和第3步,直到该文档的所有词语都生成。
LDA模型参数的估计算法不在本文的讨论范围之内。这里只需要知道,通过LDA可以得到每个用户的微博信息的主题分布。然后使用余弦 *** 、KL距离等计算相似度的 *** 来得到用户间主题分布的相似度,以之作为用户之间的相似度。而后使用该相似度对标签传播进行加权。
3.时间因素和 *** 因素
上述的算法还有什么缺点呢?
随着时间的变化,用户的兴趣是会变化的,计算用户相似度的时候每次都把所有微博信息都聚合在一起不太合理。对此,可以通过选取距离当前时间较近的N条微博。比如,对每个用户,选取距离当前时间最近的50条微博聚在一起放到LDA中训练。此处的N既不能太大也不能太小。太大则不容易反映用户兴趣的时间变化,太小则由于用户发表微博的随机性容易引起兴趣的漂移。为了使效果更好,可以不拘泥于一个固定的N,比如可以考虑对每个用户按照其发表微博的时间序列做N值的自适应。
至此,在算法中还没有考虑微博关系中由回复、转发、@等所构成的 *** 信息。以转发为例,如果在用户的微博中频繁的转发某个好友的微博,那么用户和该好友的相似度相比其他好友来说应该会更高。这里可以看做是假设三:
用户转发某好友的微博的频率越高,用户与该好友的兴趣相似度越大。
最近,很多人都会关注SEO优化技能,小编分享一些关于百度权重的知识。不管百度是否接受百度的权重,具有广泛信任的站长都是值得信赖的。百度的权重在站长心中占有很高的位置。 网站百度权重 百度权重作为一...
帮忙办事怎么找黑客 1、找客单听说你会制造,帮忙办事qq接单群睁眼天真接单状。太平洋公司也不得不连连道歉,通过路由器进行网络分段。网上黑客举个例子,源路由黑客可使信息包的发送者将此数据包要经过的路径写...
根据国家卫健委最新消息显示,31省区市新增确诊22例,其中1例本土病例出现在上海,据悉上海卫健委通报这例本土病例为偶发病例,目前并没有太大的风险,大家不需要过度担心,那么31省区市新增确诊22例是怎么...
患上尿道炎有哪些饮食禁忌呢?生活中很多人们对于这个问题都是想要了解的,因为尿道炎这种疾病的发生每一个患者都是比较恐惧的,也会导致大家影响到正常的生活和工作,大家要想得到更好的治疗,一定要有正确的饮食禁...
在这个世界上最伟大的爱是母亲的爱,它可以超越各种事物。在国内市场,与婴儿产品市场竞争的日益激烈,越来越多的国外品牌开始抢占母婴市场,面对激烈的竞争形势,如何才能显示出自己的母婴行业品牌推广活动已成为许...
· LisfonService – C#RAT要处理这个问题需求对应多种状况,并且有多种办法来处理。 在ASP.NET WebForm项目中能够对独自页面或许大局页面进行处理。 研讨发现假如用户将Ap...