作为一名没有“搜索/推荐策略”经验的产品经理来说,想要转型策略产品有可能吗?转型路上都要学习什么知识与技能呢?笔者将结合自己成功转型策略产品经理的经验,为你分析需要掌握的知识点。
当我们有了标签体系,采集到了用户的数据,我们要从这些数据中“读”出有用信息从而为用户打上标签,这里会涉及到数据挖掘,自然语言处理,语义理解,机器学习等技术。
1. 分词 ***比如一个用户看了一篇新闻发表了一个评论,我们想要了解他说了什么,提取出对我们有用的信息。
这里就涉及到了分词技术,比如“如果真是计算机就好了”这句话。
说几种比较简单的分词 *** ,比如按照字典分词,字典通常采用前缀树或者后缀树的数据结构存储,进行正向更大匹配。
以上面的为例“如”后跟“果”,“如果”是一个词语,再看第三个字“如果真”不是一个词,继续向下,发现都不是一个词组,那么就在“如果”这里进行切分。“计算”是一个词,继续向下“计算机”也是一个词语,“计算机就”不是一个词语,再往下发现到最后依然组不成词组,那么在“计算机”这里切分。
以上句子存在的交集型歧义也需要解决,“如果”和“果真”都是词语,语义理解时计算机语言读懂句子用到的是“如果”而不是“果真”。
这里还有一种分词 *** 是基于统计的分词 *** ,即我们常说的贝叶斯分词,即通过大量语料积累进行机器学习,统计出一个字后面跟另一个字的概率,从而进行分词。
2. 语义理解语义理解中还要进行情感的理解,以及逻辑推理。情感理解,举个例子,如果是在OTA上定了一个旅店,住了一晚然后给出了评价,比较明显的情感评价是“环境太好了”“热水器真糟糕”。
不易发现的情感如“提供了早餐”,其实我们可以看出提供早餐是用户的褒义评价,但可能一般的算法读不出来。
再比如如果 *** 的地址填写的是学生宿舍,那么算法也需要大量学习,进行推理,从收货地址是学生宿舍推理出用户是学生,这就像百度的知识图谱。
3. 用户画像接下来我想聊一下用户画像的几个分类,比如基本信息,如姓名,性别,年龄,生日,星座,设备号,职业,学历,手机号,邮箱等。这类特征是可以长时间不进行更新的,比较固定。
但对于这个新闻app有个问题,比如对于社交软件,用户乐于填写个人信息,但对于新闻app,可能100人,有30个人填写了信息,另外70个人不去填写。
这里我们为了给这70个用户打标签,就需要用这30个人做为样本集,进行学习。
比如通过学习,了解男性用户和女性用户的特点有什么不同,比如男性用户早晨更喜欢看时事新闻,晚上喜欢看玄幻小说,女性用户早上喜欢看娱乐热点,晚上喜欢看言情小说。通过得出的这些特征,进行“标签扩散”,为那70个未填写性别信息的用户打上性别标签。
接下来我们说一下兴趣爱好和行为特征,这类标签是经常变化的,具有时期时效性。
比如我们为了知道一个用户对哪类新闻感兴趣,设计了一个打分加权模型,每点一个分类的新闻就加一分,线性增长。
比如用户30天点了156次军事新闻,就156分,点了45次历史文章历史就是45分,我们可以看出用户最喜欢看的是军事,其次是历史。于是我们主要给他推荐军事,其次是历史。
但这里有个问题,如果某一天开始,用户开始对娱乐新闻感兴趣了,即他目前更想看的是娱乐新闻,但因为历史数据积累军事新闻权重太高,短期内算法无法推送娱乐新闻给他,那么线性打分模型是不合适的。
我想这里可以采用指数模型,比如对某个类别的兴趣权重满分是10分,前9次每次1分,第10次开始每次在之前基础上,加9*10的-(n-9)次方,第10次就是9.9,第11次点击军事就是9.99,以此类推,让权重不断逼近10。
当然我们还要通过其他特征调整权重,比如打开频率,如三天看1次军事的,还是一小时看3次军事的。这样当用户开始对新的类别感兴趣的时候,可以更快的得到推荐。
4. 常用算法这里我们来说一下推荐算法。首先我们会把用户和新闻分别标签化,来讲一下协同。
比如甲用户喜欢军事和娱乐,乙用户喜欢科技和文学。甲乙用户标签化后相似度很高,达到了一定阈值,那么我们可以认为乙用户喜欢的分类,甲用户可能也喜欢,于是我们把科技和文学推荐给了甲用户。这是基于用户的协同。
如果甲喜欢a文章,a和b文章标签化后相似度很高,那么我们猜测甲也会喜欢b文章。
社交电商其实就是一种渠道下沉——通过对流量的渗透,让更多人通过电商买到心仪的产品。而对新零售来说,渠道下沉始终是关键词,所以我们才说社交电商是新零售的必经之路。 有一个现象正在发生——越来越多的人开...
本文笔者将从会员体系的底层逻辑、会员规则的设计和建立持续的会员增长体系三个方面分享对会员体系的认识,讲述:如何从0到1搭建起一套会员体系? 纵观互联网几十年的发展史,商业模式大体经历过四种模式,每种...
数据,对数据的敏感度,数据分析能力在当下的生活工作中变得越来越重要,不只是数据分析师所应该掌握的独特技能。其实对于运营、产品等大多数工作岗位,数据分析能力都有其意义存在。今天就想和大家讨论一下数据分析...
2020年开局便是困境,但在此困境中,生鲜电商同时迎来了属于自己的机遇。本文主要是深入研究每日优鲜,对它的功能、竞品、运营、用户的一个详细分析,enjoy~ 一、背景及目的 2020年开局便是困境,...
往后的文章内容皆是实操,从产品运营角度来看,文章的浏览者皆是用户,且该平台的读者皆倾向于学习实操的产品朋友们。将直接能落地使用的方式方法呈现出来,最为合理。所以这篇数据分析没有各种华丽矩阵模型大框架,...
诚然,入职新公司对每个人来讲都是一件很值得期待的事情,即将开始一段新的旅途。但是互联网人跳槽频率高又是普遍的现象,产品作为跟”管理“挂钩的岗位,试用期面对着许多挑战。 文章适合于两年到五年中高级产品...