在美团商家数据中心(MDC),有超过100w的已校准审核的POI数据(我们一般将商家标示为POI,POI基础信息包括:门店名称、品类、 *** 、地址、坐标等)。如何使用这些已校准的POI数据,挖掘出有价值的信息,本文进行了一些尝试:利用机器学习 *** ,自动标注缺失品类的POI数据。例如,门店名称为“好再来牛肉拉面馆”的POI将自动标注“小吃”品类。
机器学习解决问题的一般过程:
本文将按照:1)特征表示;2)特征选择;3)基于Naive Bayes分类模型;4)分类预测,四个部分顺序展开。
特征表示
我们需要先将实际问题转换成计算机可识别的形式。对于POI而言,反应出POI品类的一个重要特征是POI门店名称,那么问题转换成了根据POI门店名称判别POI品类。POI名称字段属于文本特征,传统的文本表示 *** 是基于向量空间模型(V *** 模型)[1]:
空间向量模型需要一个“字典”,这个字典可以在样本中产生,也可以从外部导入。上图中的字典就是[好, 宾馆, 海底, 拉面, 冰雪, ....... ,馆]。我们对已校准的POI,先利用Lucene的中文分词工具SmartCn[2]对POI名称做预分词处理,提取特征词,作为原始粗糙字典 *** 。
有了字典后便可以量化地表示出某个文本。先定义一个与字典长度相同的向量,向量中的每个位置对应字典中的相应位置的单词。然后遍历这个文本,对应文本中的出现某个单词,在向量中的对应位置,填入“某个值”(即特征词的权重,包括BOOL权重,词频权重,TFIDF权重)。考虑到一般的POI名称都属于短文本,本文采用BOOL权重。
在产生粗糙字典 *** 时,我们还统计了校准POI中,每个品类(type_id),以及特征词(term)在品类(type_id)出现的次数(文档频率)。分别写入到表category_frequency和term_category_frequency,表的部分结果如下:
李易峰超话—新浪微博超级话题(宇爽超级话题新 新浪微博官方可能会公布长微博阅读量,这是由新浪微博高管间接证实的。一旦个人微博上的长文微博阅读数量像微信上的公开文章数量一样公开透明,那些假的“大Vs”...
本文导读目录: 1、nichkhun 和宋茜的纸条事件不太明白是怎么回事?nc饭到底做了什么? 2、十二月份宋茜在sm公司门口被anti的事情是怎么回事?nichkhun真的去了? 3、宋茜尼...
四序优果商城是一个包装成水果销售的电商平台,现实只有一个微信小程序,注册为会员后,天天签到免费领取0.8-1果币,果币可以分红,可直接提现提现(1果币=1米现金),首次最低5米起提现微信零钱!综合内里...
在去年的一年里,物联网的概念被炒的火热,很多人听说过物联网这一技术术语,但仍对其不是非常了解。但是正因为它的热度高,所以让许多骗子有机可乘,借着这个机会,骗了许多人,坑了许多钱。那么到底什么是物联网呢...
入侵银行系统的黑客(黑客入侵模拟器)(tiechemo.com)一直致力于黑客(HACK)技术、黑客QQ群、信息安全、web安全、渗透运维、黑客工具、找黑客、黑客联系方式、24小时在线网络黑客、黑客业...
编者按:我们在投资一项东西的时候,一定要看它的前景怎么样,P2P是网络公司,网络可以在任何节点上都可以吸引大家来投资。 今天我们讲的题目是投资P2P,如何获得高收益,主要会从以下四个方面进行讲解...