在美团商家数据中心(MDC),有超过100w的已校准审核的POI数据(我们一般将商家标示为POI,POI基础信息包括:门店名称、品类、 *** 、地址、坐标等)。如何使用这些已校准的POI数据,挖掘出有价值的信息,本文进行了一些尝试:利用机器学习 *** ,自动标注缺失品类的POI数据。例如,门店名称为“好再来牛肉拉面馆”的POI将自动标注“小吃”品类。
机器学习解决问题的一般过程:
本文将按照:1)特征表示;2)特征选择;3)基于Naive Bayes分类模型;4)分类预测,四个部分顺序展开。
特征表示
我们需要先将实际问题转换成计算机可识别的形式。对于POI而言,反应出POI品类的一个重要特征是POI门店名称,那么问题转换成了根据POI门店名称判别POI品类。POI名称字段属于文本特征,传统的文本表示 *** 是基于向量空间模型(V *** 模型)[1]:
空间向量模型需要一个“字典”,这个字典可以在样本中产生,也可以从外部导入。上图中的字典就是[好, 宾馆, 海底, 拉面, 冰雪, ....... ,馆]。我们对已校准的POI,先利用Lucene的中文分词工具SmartCn[2]对POI名称做预分词处理,提取特征词,作为原始粗糙字典 *** 。
有了字典后便可以量化地表示出某个文本。先定义一个与字典长度相同的向量,向量中的每个位置对应字典中的相应位置的单词。然后遍历这个文本,对应文本中的出现某个单词,在向量中的对应位置,填入“某个值”(即特征词的权重,包括BOOL权重,词频权重,TFIDF权重)。考虑到一般的POI名称都属于短文本,本文采用BOOL权重。
在产生粗糙字典 *** 时,我们还统计了校准POI中,每个品类(type_id),以及特征词(term)在品类(type_id)出现的次数(文档频率)。分别写入到表category_frequency和term_category_frequency,表的部分结果如下:
1,信义玻璃是李贤义的,李贤义的儿子叫做李圣泼,李贤义跟我国今朝最高率领人七人之一听说是亲家;2,信义玻璃之所以跟李嘉诚扯上,大概是因为李嘉诚以及信义玻。 义玻璃控股有限公司董事局主席:李贤义...
找真正的黑客改成绩相关问题 黑客一般怎么联系他们相关问题 黑客怎么攻银行系统 网赌漏洞成功赚钱(网赌漏洞太多)...
PP棉俗称公仔棉、中空棉,也称填充棉,PP棉的材质是一种普通的人造化学纤维,丙纶(PP)棉弹性好,膨松度强,造型美观,不怕挤压,易洗,快干。相对于其他的抱枕填充物,pp棉是最适合作为抱枕芯的。柔软舒适...
12月16日至18日,中央经济工作会议在北京举行。习近平在会上发表重要讲话,总结2020年经济工作,分析当前经济形势,部署2021年经济工作。 面对复杂的国内外形势以及新冠肺炎疫情的严重冲击...
茵茵纸尿裤是国产的纸尿裤品牌,那么茵茵纸尿裤性价比怎么样,下面好技术的小编就来说说:茵茵纸尿裤性价比高吗。 茵茵纸尿裤性价比怎么样 东西收到试用一段时间过来评价,感觉性价比还是比较高的,比花王,大...
因为自己也在网上开过店赚过钱,所以经常会有朋友问我如何在网上开店赚钱,以及在网上赚钱的一些方法和经验。其实,现在经营一家淘宝店铺都比打工强。毕竟现在这个社会,谁不希望自己钱包里的钱越多越好呢?...