为了更好的实现个性化视频推荐,2009年,优酷土豆开始使用Hadoop大数据平台来进行数据的分析及挖掘。起初整个平台平台只有十多个节点,而到2012年集群节点已经达到150个,2013年更是达到了300个。但是随着数据量的急剧增加以及业务的迅猛发展,每天优酷处理的数据量已突破200TB,优酷土豆的技术人员发现一些场景并不适合利用MapReduce进行处理。
优酷土豆的大数据平台已使用多年,核心业务数据量的增长与数据处理速度的失衡成为优酷土豆Hadoop大数据平台的一大瓶颈。这个问题主要表现在三个方面:首先,在BI方面,分析师提交任务后需要等待很久才得到结果。其次,在进行一些模拟广告投放之时,在调优、筛选方面的计算量十分大,对计算效率的要求也较高,用Hadoop消耗资源过大而且响应较慢。同时,MapReduce在机器学习和图计算的迭代运算方面不仅需要耗费大量资源,处理速度也不尽人意。
优酷土豆集团大数据团队大数据平台架构师傅杰介绍道:“虽然很多互联网企业都在用MapReduce来处理自己的业务,但是由于优酷的视频量大概在2亿的级别,视频的关系量目前在10亿的级别,这个级别的数据量利用MapReduce来计算CPU资源消耗比较高,而计算效率比较低,单纯依靠MapReduce框架已经无法满足视频推荐、广告投放效果预估等情景对实时性和准确性的要求。”
优酷土豆如何打造Hadoop平台
目前傅杰老师主要负责优酷土豆集团大数据基础平台建设,以支撑集团其他业务团队的存储与计算需求,包含Hadoop平台、日志采集系统、实时计算系统、消息系统以及天机镜系统等。据了解,Hadoop平台在优酷的发展,主要有以下几个阶段:
平台搭建期:这个阶段主要解决一些技术问题,比如安全问题、整体规划,以及制定相关流程;
平台发展期:这个阶段主要是在集团内部进行推广,伴随着会遇到各种各样的需求,以及解决各种各样的问题,修正相关流程,使平台进入一个稳定、高可用的水平;
平台稳定期:这个阶段主要是从优化资源入手,内部培训调优作业,统计资源消耗合理性,构建自动化优化流程。
“现阶段我们主要在调研Hadoop1.X 到Hadoop2.0的升级方案,预计明年初对Hadoop进行升级。今年我们也搭建了基于Storm的实时计算平台、kafka消息系统,推广到集团的线上业务中,也逐步流程化的运营起来了。”傅杰老师介绍说。
新手如何入门Hadoop?
据傅杰老师介绍,目前Hadoop在国内有很好的发展态势,各大企业对Hadoop的需求也比较旺盛,同时,应用Hadoop的行业也越来越多。但目前存在的问题是,Hadoop的优秀技术人才比较短缺。那么对于想踏入Hadoop领域的新手来说,应如何入门呢?
傅杰老师给出的建议是:
1.经常关注Hadoop官方网站;
2.深入了解Hadoop原理,比如HDFS、MapReduce。并思考目前所在企业哪些应用可以用Hadoop解决;
3.阅读Hadoop相关书籍。据悉,目前傅杰老师翻译的《Hadoop实战手册》将在年底出版,这本书也很适合新手阅读;
4.搭建环境实战,比如可以试着跑一个wordcount。
高考的最后钟声已经敲响,同学们整装待发,准备好全力以赴了吗?对于考生而言,他们的首要任务是披荆斩棘,考得高分,以此来给自己一个更好的择校余地!而我们的家长们,他们早已按捺不住自己紧张的心情,在四处打听...
1、开启Microsoft Excel报表。2、进入页面后,挑选工作表进到。3、点击必须锁定的对话框。4、随后点一下顶端的表明指令标志。5、挑选逐渐。6、点一下主视图。7、滑至底端,挑选冻结窗格。8、...
“三亚商务经纪人跟全国伴游的一些商务有非常高的合作-【孙秋】” 模特酬金要求:3000米起步,特殊要求和服务请私聊 模特所需支付的酬金:3k-8k不等,如有特殊要求请私信哦小明前两天还加入了模特微信公...
锣鼓喧天加热了近一个月的双十一,总算在各种晚会节目配搭带货直播的隆重开幕下落下来了序幕。这2年的双十一加上了一个新鮮原素,那便是主播带货,薇娅、李佳琦带著直播带货领域越走越火,坚信许多盆友在这里两个人...
本文导读目录: 1、晒太阳脸晒黑了怎样才能快速变白? 2、被太阳晒黑怎样快速变白… 3、晒太阳把皮肤晒黑了。怎么可以快速变白? 4、怎样才能使已经晒黑的皮肤变白回来 5、夏天晒黑了,怎...
为什么我最近一开电脑360安全卫士就老有提示就电脑正被黑客攻击。 接着我们找到“全盘扫描”这个选项,当然你也可以选择前面的“快速扫描”选项,但全盘扫描更彻底一点,而且对以后的电脑安全也更好;找到后,点...