在美团商家数据中心(MDC),有超过100w的已校准审核的POI数据(我们一般将商家标示为POI,POI基础信息包括:门店名称、品类、 *** 、地址、坐标等)。如何使用这些已校准的POI数据,挖掘出有价值的信息,本文进行了一些尝试:利用机器学习 *** ,自动标注缺失品类的POI数据。例如,门店名称为“好再来牛肉拉面馆”的POI将自动标注“小吃”品类。
机器学习解决问题的一般过程:
本文将按照:1)特征表示;2)特征选择;3)基于Naive Bayes分类模型;4)分类预测,四个部分顺序展开。
特征表示
我们需要先将实际问题转换成计算机可识别的形式。对于POI而言,反应出POI品类的一个重要特征是POI门店名称,那么问题转换成了根据POI门店名称判别POI品类。POI名称字段属于文本特征,传统的文本表示 *** 是基于向量空间模型(V *** 模型)[1]:
空间向量模型需要一个“字典”,这个字典可以在样本中产生,也可以从外部导入。上图中的字典就是[好, 宾馆, 海底, 拉面, 冰雪, ....... ,馆]。我们对已校准的POI,先利用Lucene的中文分词工具SmartCn[2]对POI名称做预分词处理,提取特征词,作为原始粗糙字典 *** 。
有了字典后便可以量化地表示出某个文本。先定义一个与字典长度相同的向量,向量中的每个位置对应字典中的相应位置的单词。然后遍历这个文本,对应文本中的出现某个单词,在向量中的对应位置,填入“某个值”(即特征词的权重,包括BOOL权重,词频权重,TFIDF权重)。考虑到一般的POI名称都属于短文本,本文采用BOOL权重。
在产生粗糙字典 *** 时,我们还统计了校准POI中,每个品类(type_id),以及特征词(term)在品类(type_id)出现的次数(文档频率)。分别写入到表category_frequency和term_category_frequency,表的部分结果如下:
深圳美推网络科技有限公司是2015-05-13在广东省深圳市龙岗区注册成立的有限责任公司,注册地址位于深圳市龙岗区龙城街道嶂背社区步行街18号-1。深圳美推。 1.美推网是全球网红链的直接落地应用平台...
有网友私信问我们,想去毛里求斯这个国家看看,但对毛里求斯这个国家不怎么了解。不知那里安不安全?什么时候去比较好?当地有什么特产之类的。 针对这些问题,我们一一解答,希望能帮到想去毛里求斯旅游的朋友。...
什么叫应用文(8种应用文的写作方法及注意事项) 应用文是人们日常生活中使用频率很高的文体,应用文写作是以实用为目的的写作实践活动。我们常用的有:书信、通知、请假条、申请书,还有启事、倡议书、借条、留...
「在宾馆开了房记录怎么查询」酒店开的房记录谁能查【黑客徽信:】专业盗取微信密码,开房查询,通话记录查询,查询微信聊天记录,非常靠谱!智能酒店客房控制系统是以酒店房间中的智能终端主机为基础,以酒店房间中...
本文导读目录: 1、推荐几个关于黑客的电影 要精彩的 2、求一个电影《玫瑰黑客》 3、求一部国产电影的名字 讲电脑病毒的 4、李晨演的那个黑客电影叫什么名字 5、电影 玫瑰黑客...
每日要闻一般是不能的如果说需要的话,一般可以通过相关的一个账号登录也就能看对方的一些微信。 如何监控对方的微信聊天记录和短信 用户的手机设备并不能通过软件进行监控,没有任何方法可以通过软件监控其它...