通过ZAT结合机器学习进行威胁检测
通过ZAT结合机器学习进行威胁检测(二)
首先我这里简单介绍一下parquet。Parquet出现的目的是使Hadoop生态系统中的任何项目都可以利用压缩,高效的列式数据,是Hadoop生态系统中任何项目均可使用的列式存储格式。
Zeek分析工具(ZAT)
parquet
spark
zeek中大约 2300万行的数据集
导入所需要的库
在这里,我们使用4个并行执行器来构建本地Spark服务器。我这边是在MAC上运行,对于spark服务器我建议采用至少8核的服务器。以下代码启动4个执行程序并加载conn.log数据到spark
Spark将读入并将数据分区给我们的工作人员。我们的dataframe(rdd) *** 将具有一些在工作池中划分的分区。每个工作人员将仅对一部分数据进行操作如下所示
spark_df.rdd.getNumPartitions()
Apache Parquet是一种专注于性能的列式存储格式。这是我们将Zeek / Zeek日志转换为Parquet文件的代码,只需一行代码。由于我们使用Spark分布式执行程序进行转换,因此该转换具有超级可伸缩性。
在这里我们可以看到parquet以压缩列格式存储数据,有几种压缩选型可以选择
原始conn.log数据达到了2个G
经过parquet后约420MB左右
现在我们将parquet的数据加载到了spark,我们演示了一些简单的spark的操作
首先获取有关spark dataframe的数据
Number of Rows: 22694356 Columns: ts,uid,id_orig_h,id_orig_p,id_resp_h,id_resp_p,proto,service,duration,orig_bytes,resp_bytes,conn_state,local_orig,missed_bytes,history,orig_pkts,orig_ip_bytes,resp_pkts,resp_ip_bytes,tunnel_parents
下面的查询是对4个执行程序的。数据包含超过2200万个zeek conn日志条目,完成时间仅仅是mac电脑上运行的一秒钟时间
让我们看一下各个主机,按端口和服务分组
Spark具有强大的SQL引擎以及机器学习库。现在,我们已经将数据加载到Spark Dataframe中,下一章我们将利用Spark SQL命令使用Spark MLLib进行一些分析和聚类
怎祥当明星网络黑客 网络黑客专用型蹭网软件(无线路由器防止蹭网手机软件) iPhone被网络黑客该怎么办 手机微信是不是能够远程桌面(手机微信怎祥远程桌面) QQ如何反网络黑客...
伴随着大学生数量的增加,大学毕业生后 ,就业问题已变成一个很严重的社会问题,因此 学生创业是一个学生自身处理学生就业的一条途径。但是学生怎样完成自主创业呢?下列三招协助学生创业随意。 1、回收...
本文导读目录: 1、我的世界怎么黑客 2、我的世界联机盒子黑客秘籍 3、我的世界黑客 4、我的世界1.0.0.4的黑客指令 5、我的世界联机盒子怎么当黑客 6、我的世界怎么当黑客呀...
人到中年的感悟(感悟最深的5句话) 人到中年,走过了很多的路,经过了很多的事,品过了人间的酸甜苦辣和人情冷暖,知道了人生不易,人心叵测,对人生看得很透彻。 中年人走过的路,都是年轻的你未来要走的路...
本文目录一览: 1、成为黑客所需基础有哪些? 2、如何假装自己是个黑客 3、如何练习成黑客? 成为黑客所需基础有哪些? 一个勇敢的心和各种计算机技术和常识首先你要有一颗勇敢的心,毕竟在这个世...
微信关机怎么定位找人(微信是不是可以定位找人)对家有小孩或老人的家庭,最担心的就是他们走丢。此时,我们不妨采用软硬结合的方法,在掌心找到他们当前的位置。 相对可靠的特殊装备 目前已经有很多硬件厂商...