京东商品搜索引擎是搜索推荐部自主研发的商品搜索引擎,主要功能是为海量京东用户提供精准、快速的购物体验。虽然只有短短几年的时间,我们的搜索引擎已经经过了多次618店庆和双11的考验,目前已经能够与人们日常使用的如谷歌、百度等全文搜索引擎相比,我们的产品与其有相通之处,比如涵盖亿级别商品的海量数据、支持短时超高并发查询、又有自己的业务特点:
1、海量的数据,亿级别的商品量;
2、高并发查询,日PV过亿;
3、请求需要快速响应。
搜索已经成为我们日常不可或缺的应用,很难想象没有了Google、百度等搜索引擎,互联网会变成什么样。京东站内商品搜索对京东,就如同搜索引擎对互联网的关系。
他们的共同之处:1. 海量的数据,亿级别的商品量;2. 高并发查询,日PV过亿;3. 请求需要快速响应。这些共同点使商品搜索使用了与大搜索类似的技术架构,将系统分为:1. 离线信息处理系统;2. 索引系统;3. 搜索服务系;4.反馈和排序系统。
同时,商品搜索具有商业属性,与大搜索有一些不同之处:1. 商品数据已经结构化,但散布在商品、库存、价格、促销、仓储等多个系统;2. 召回率要求高,保证每一个正常的商品均能够被搜索到;3. 为保证用户体验,商品信息变更(比如价格、库存的变化)实时性要求高,导致更新量大,每天的更新量为千万级别;4. 较强的个性化需求,由于是一个相对垂直的搜索领域,需要满足用户的个性化搜索意图,比如用户搜索“小说”有的用户希望找言情小说有的人需要找武侠小说有的人希望找到励志小说。
另外不同的人消费能力、性别、对配送时间的忍耐程度、对促销的偏好程度以及对属性比如“风格”、“材质”等偏好不同。以上这些需要有比较完善的用户画像系统来提供支持。
总体架构图
搜索服务集群:由很多个merger节点组成的集群。接收到查询query后,将请求通过qp触发有策略地下发到在线检索服务集群和其他服务集群,并对各个服务的返回结果进行合并排序,然后调用detail server包装结果,最终返回给用户。
query processor server:搜索query意图识别服务。
在线检索服务集群:由很多个searcher节点组成,每个searcher列对应一个小分片索引(包含全量数据和实时增量数据)。
detail server:搜索结果展示服务。
索引生产端:包含全量和增量数据生产,为在线检索服务集群提供全量索引和实时索引数据。
离线信息处理系统
由于商品数据分布在不同的异构数据库当中有KV有关系型数据库,需要将这些数据抽取到京东搜索数据平台中,这分为全量抽取和实时抽取。
对于全量索引,由于商品数据散布于多个系统的库表中,为了便于索引处理,对多个系统的数据在商品维度进行合并,生成商品宽表。然后在数据平台上,使用MapReduce对商品数据进行清洗,之后进行离线业务逻辑处理,最终生成一份全量待索引数据。
对于实时索引,为了保证数据的实时性,实时调用各商品信息接口获取实时数据,将数据合并后采用与全量索引类似的 *** 处理数据,生成增量待索引数据。
谈起“退货运费险”,每一个网上购物过的人,应当也不生疏,那麼这一退货运费险究竟存在的价值是什么呢? 在淘宝网刚出去的情况下,并沒有退货运费险这一叫法,到近些年退货运费险才会大家熟识,它存...
对付很多的美食喜好者来说,吃到味道正宗,并且又有着本身的奇特的风味的美食来说,长短常的让人开心的一件工作,所以越是这样的加盟店肆就越受人们的接待,潮鸡仔炸鸡加盟品牌就是一个有着本身奇特的产物的加盟品牌...
一、暗网是不是只有黑客能用方法总结 1、是不是只有黑客才会用远程控制别人电脑的软件啊?当然不是了,现在技术这么发达,以前电影里面的黑客技术在现在都不够看了,探神远程控制软件就可以直接远程控制别人的电...
现如今的微信封袋杀抖音事件已经闹得议论纷纷,终究那样的垄断竞争实际上是遭到很多人抵制的,假如腾讯企业一直都在施压和恶变垄断竞争得话,那麼一定会损害更多客户。 手机微信杀掉了“一键共享”,2个...
技术黑客群信息安全web安全渗透运维黑客工具找黑客黑客联系方式24小时在线网络黑客黑客业务黑客联盟黑客培训黑客教程黑客新闻。 这个黑客组织放出了目前为止看起来危害性最严重的消息一批非常机密可以黑进多种...
● 被开除中国共产党党籍以及被依法列为失信联合惩戒对象的人员不得录用为公务员,体现了公务员录用的公正合理性特征,使我国公务员录用条件更加完善,对相关人力资源发展的导向作用更加凸显 ● 2020年国考...