通过ZAT结合机器学习进行威胁检测
通过ZAT结合机器学习进行威胁检测(二)
首先我这里简单介绍一下parquet。Parquet出现的目的是使Hadoop生态系统中的任何项目都可以利用压缩,高效的列式数据,是Hadoop生态系统中任何项目均可使用的列式存储格式。
Zeek分析工具(ZAT)
parquet
spark
zeek中大约 2300万行的数据集
导入所需要的库
在这里,我们使用4个并行执行器来构建本地Spark服务器。我这边是在MAC上运行,对于spark服务器我建议采用至少8核的服务器。以下代码启动4个执行程序并加载conn.log数据到spark
Spark将读入并将数据分区给我们的工作人员。我们的dataframe(rdd) *** 将具有一些在工作池中划分的分区。每个工作人员将仅对一部分数据进行操作如下所示
spark_df.rdd.getNumPartitions()
Apache Parquet是一种专注于性能的列式存储格式。这是我们将Zeek / Zeek日志转换为Parquet文件的代码,只需一行代码。由于我们使用Spark分布式执行程序进行转换,因此该转换具有超级可伸缩性。
在这里我们可以看到parquet以压缩列格式存储数据,有几种压缩选型可以选择
原始conn.log数据达到了2个G
经过parquet后约420MB左右
现在我们将parquet的数据加载到了spark,我们演示了一些简单的spark的操作
首先获取有关spark dataframe的数据
Number of Rows: 22694356 Columns: ts,uid,id_orig_h,id_orig_p,id_resp_h,id_resp_p,proto,service,duration,orig_bytes,resp_bytes,conn_state,local_orig,missed_bytes,history,orig_pkts,orig_ip_bytes,resp_pkts,resp_ip_bytes,tunnel_parents
下面的查询是对4个执行程序的。数据包含超过2200万个zeek conn日志条目,完成时间仅仅是mac电脑上运行的一秒钟时间
让我们看一下各个主机,按端口和服务分组
Spark具有强大的SQL引擎以及机器学习库。现在,我们已经将数据加载到Spark Dataframe中,下一章我们将利用Spark SQL命令使用Spark MLLib进行一些分析和聚类
本文导读目录: 1、请列出尽可能多的欧美的好看电影的英文名,中文翻译也要。好的加分。 2、中国著名黑客人物有哪些? 3、请问谁知道有一部电影是拍著名黑客凯文.米特尼克的名字,那里还有下载的,我...
【国家邮政局:#快递2月中旬要恢复到四成以上#】#关注新冠肺炎#7日,国家邮政局召开部分快递企业专题电话会议指出,分阶段确定快递企业恢复生产目标,积极推进网购快递的生产恢复,以满足百姓网购快递需求。计...
北京时间3月1日消息,安全业界专家日前发出警告称最近发现了一种新蠕虫,它可以通过最近在Sun公司的操作系统中发现的某个新漏洞进行传播。 Arbor Networks公司的高级软件工程师乔斯纳扎里奥星...
相信现在有很多的朋友们对于农村低保房几年后给房产证大家究竟谁能回答下都想要了解吧,那么今天小编就来给大家针对农村低保房几年后给房产证大家究竟谁能回答下进行一个介绍吧,希望小编介绍的内容能够为大家起到帮...
发红包 给补贴 奖全勤 就地过年,各地留人有招 本报记者 刘春沐阳 为留人就地过年,不少地区拿出“真金白银”,或是直接奖励外来务工人员,或是鼓励当地企业引导员工留在当地,并予以补...
玩外场一般多少钱 小亮前几天向我了解起了外围模特一般要多少钱?实际上针对外围模特一般要多少钱?我觉得许多的外围模特,她们也全是薪酬水准较为高的,因此 许多的人都希望自身能够寻找那样的一个外围模特,并且...