首先需要注意的是,本文即将提到的 Druid,并非阿里巴巴的 Druid 数据库连接池,而是另一个大数据场景下的解决方案:Apache Druid。
Apache Druid 是一个用于大数据实时查询和分析的高容错、高性能开源分布式时序数据库系统,旨在快速处理大规模的数据,并能够实现快速查询和分析。尤其是当发生代码部署、机器故障以及其他产品系统遇到宕机等情况时,Druid 仍能够保持 100% 正常运行。创建 Druid 的最初意图主要是为了解决查询延迟问题,当时试图使用 Hadoop 来实现交互式查询分析,但是很难满足实时分析的需要。而 Druid 提供了以交互方式访问数据的能力,并权衡了查询的灵活性和性能而采取了特殊的存储格式。
目前 Druid 广泛应用在国内外各个公司,比如阿里,滴滴,知乎,360,eBay,Hulu 等。
本文 作者 Mohan Garadi 披露了 eBay 如何使用 Druid 进行监控的技术细节。
在 eBay 中,我们将监控技术栈从传统的本地架构转换为基于 Druid 的实时监控系统。在本文中,我们将讨论如何过渡到新技术栈,以及它为我们带来了什么好处。
eBay 每天要支撑数百万用户进行电子商务交易。随着支持不同产品的各种应用所产生的数据爆炸式增长,用户数量也在大幅增长。日志是应用程序的核心,用于决定应用程序执行哪些操作。随着应用程序大小的增长,日志变得很难进行可视化。我们还有一个集中式日志存储来处理所有日志,要直接从日志中获取有用的信息非常困难,而且从日志中实时获取有用信息的想法也不可行。在 eBay 中,监控团队以不同的方式对问题进行可视化。解决问题的更好 *** 是:从日志中提取有用事件并通过数据管理处理这些事件。
事件的数量直接与根据当前系统的流量生成的日志数量相关。一些应用程序可能会生成数百到数千个事件,而其他应用程序可能会生成数百万个事件。我们的兴趣是基于从日志中提取的事件来监控各个应用程序的执行情况,以及在系统中出现太多错误或异常行为时提醒用户的能力。
应用程序事件包括错误状态代码、url 事务、命令执行以及在不同主机上的应用程序项目的构建 ID 等。这些事件都有不同的目的。
应用程序开发人员和网站可靠性管理(Site reliability engineering,SRE)团队都会对这些事件感兴趣,因为他们可以实时监控应用程序的性能。它们能够将系统中发生的错误数量以可视化的形式呈现,通过命令执行对这些错误进行切片和切块,并构建导致这些错误的程序,然后根据可能影响应用程序性能的错误阈值设置警报。
当应用程序开发团队必须在生产中部署应用程序的新项目时,这些信息提供了关键的洞见。他们将能够在一小部分主机上进行代码的抽样部署(sampled rollout),并可视化实时仪表盘,以确定新代码在生成错误方面的行为,然后将实时数据与历史数据进行比较,从而提供一定程度的可信度。
畅通“大循环”“双循环” 推动高质量发展——专家热议构建新发展格局 新华社北京10月10日电 题:畅通“大循环”“双循环” 推动高质量发展——专家热议构建新发展格局 新华社记者刘红霞、...
2020年,一个注定被历史铭记的特殊年份 世纪疫情交织百年变局 全球经济陷入严重衰退 多边主义遭受极大挑战…… 世界怎么了?我们怎么办? 中国一举一动,引发全球关注 4月11日,工作人...
对很多刚刚走出校门的毕业生来说,3年只是一个适应社会的时间,也许没有很高的收入,也许还没有找到一份稳定的工作。但广东技术师范学院的毕业生李汉文,毕业3年至今已经拥有1000万元的个人资产。 李汉文出...
大家前几日给大伙儿讲了有关无货源店群的归纳专业知识,如今大家而言一讲有关无货源的关键专业知识,例如店面怎样开、店面专业知识。 還是这幅图,大部分早已包括了1688无货源所有专业知识。...
旅游中途大家通常对某一大城市十分偏爱,回味无穷,是厦门市,云南省,重庆市,南京市還是哪儿,来过一次还想再度去,乃至是居住在此,来过一次还想再去的城市有哪些?能够 数次去旅游的大城市,下边我产生详细介绍...
不懂技能的产物司理是不是好产物司理呢?本文将将团结一个实际的例子和作者的一些心得体会来说明到底好的产物司理需要的是什么。 作为一名软件工程的学生,每当思量今后的成长偏向时我总能想起软件工程老师在教室...