通过ZAT结合机器学习进行威胁检测(三)

访客4年前黑客文章741

系列文章

通过ZAT结合机器学习进行威胁检测

通过ZAT结合机器学习进行威胁检测(二)

从zeek日志到Parquet

首先我这里简单介绍一下parquet。Parquet出现的目的是使Hadoop生态系统中的任何项目都可以利用压缩,高效的列式数据,是Hadoop生态系统中任何项目均可使用的列式存储格式。

软件

Zeek分析工具(ZAT)

parquet

spark

数据

zeek中大约 2300万行的数据集

导入所需要的库

使用4个并行执行器启动Spark

在这里,我们使用4个并行执行器来构建本地Spark服务器。我这边是在MAC上运行,对于spark服务器我建议采用至少8核的服务器。以下代码启动4个执行程序并加载conn.log数据到spark

Spark Worker和数据分区

Spark将读入并将数据分区给我们的工作人员。我们的dataframe(rdd) *** 将具有一些在工作池中划分的分区。每个工作人员将仅对一部分数据进行操作如下所示

spark_df.rdd.getNumPartitions()

将我的Zeek日志转换为Parquet文件

Apache Parquet是一种专注于性能的列式存储格式。这是我们将Zeek / Zeek日志转换为Parquet文件的代码,只需一行代码。由于我们使用Spark分布式执行程序进行转换,因此该转换具有超级可伸缩性。

Parquet files are compressed

在这里我们可以看到parquet以压缩列格式存储数据,有几种压缩选型可以选择

原始conn.log数据达到了2个G

经过parquet后约420MB左右

现在我们将parquet的数据加载到了spark,我们演示了一些简单的spark的操作

首先获取有关spark dataframe的数据

Number of Rows: 22694356
Columns: ts,uid,id_orig_h,id_orig_p,id_resp_h,id_resp_p,proto,service,duration,orig_bytes,resp_bytes,conn_state,local_orig,missed_bytes,history,orig_pkts,orig_ip_bytes,resp_pkts,resp_ip_bytes,tunnel_parents

下面的查询是对4个执行程序的。数据包含超过2200万个zeek conn日志条目,完成时间仅仅是mac电脑上运行的一秒钟时间

让我们看一下各个主机,按端口和服务分组

总结

Spark具有强大的SQL引擎以及机器学习库。现在,我们已经将数据加载到Spark Dataframe中,下一章我们将利用Spark SQL命令使用Spark MLLib进行一些分析和聚类

相关文章

黑客专业哪个国家最厉害(黑客哪国最强)

黑客专业哪个国家最厉害(黑客哪国最强)

本文导读目录: 1、哪个国家的黑客最厉害? 2、世界黑客排名是怎样的? 3、世界上哪国的黑客最厉害 4、全世界哪个国家的黑客最厉害 5、网络黑客哪个国家厉害 6、俄罗斯黑客超级厉害...

淘集集每月亏2亿怎么回事?淘集集为什么每月亏2亿这意味着什么

淘集集每月亏2亿怎么回事?淘集集为什么每月亏2亿这意味着什么

近日,主打比拼多多更下沉市场的社交电商平台淘集集,站上了风口浪尖。该平台从成立到面临商家要求拿回货款的集中挤兑,仅用了一年的时间。风波波及面广泛,除了商家之外,代理商、甚至员工都无一幸免。 据查,淘...

微信聊天记录如何查询?早已删掉的微信聊天记录如何恢复

微信聊天记录删除了如何恢复?查询到微信聊天记录如何恢复?当微信聊天记录还存有手机时,查询起來是非常简单的,绝大多数人都了解如何查看,但删掉的微信聊天记录,大家就不清楚怎么做了,怎么查看微信删除的闲聊记...

社群拆解:从周围游戏群来看待拉新到转化全过程

社群拆解:从周围游戏群来看待拉新到转化全过程

编辑导语:社群运营,是用户运营中较量常见常用的一种方法,看起来简朴,不就是发动员静、发发红包、聊谈天吗;实际上社群运营需要的是循序渐进,以及长时间的转化;本文作者从周围游戏群来对待社群拉新到转化的全进...

如何将手机联系人批量导入微信

现在的微信对于很多人来说,不仅仅是一个用来聊天的社交APP这么简单,更是非常热门的营销工具,尤其对于一些微商团队来说这就是赚钱的法宝。因为现在的微信APP是支持手机联系人直接自动导入到微信里添加为好友...

怎么样可以知道朋友微信的聊天记录

宝宝到了长牙的月龄,身体会不自觉的发出一些信号,家长细心观察即可发现,做出合理的护理和应对方法,保证宝宝牙齿的健康,那么宝宝开始长牙有哪些信号?宝宝长牙一定会发烧吗?下面友谊长存带来介绍。 宝宝开始...