通过ZAT结合机器学习进行威胁检测
通过ZAT结合机器学习进行威胁检测(二)
首先我这里简单介绍一下parquet。Parquet出现的目的是使Hadoop生态系统中的任何项目都可以利用压缩,高效的列式数据,是Hadoop生态系统中任何项目均可使用的列式存储格式。
Zeek分析工具(ZAT)
parquet
spark
zeek中大约 2300万行的数据集
导入所需要的库
在这里,我们使用4个并行执行器来构建本地Spark服务器。我这边是在MAC上运行,对于spark服务器我建议采用至少8核的服务器。以下代码启动4个执行程序并加载conn.log数据到spark
Spark将读入并将数据分区给我们的工作人员。我们的dataframe(rdd) *** 将具有一些在工作池中划分的分区。每个工作人员将仅对一部分数据进行操作如下所示
spark_df.rdd.getNumPartitions()
Apache Parquet是一种专注于性能的列式存储格式。这是我们将Zeek / Zeek日志转换为Parquet文件的代码,只需一行代码。由于我们使用Spark分布式执行程序进行转换,因此该转换具有超级可伸缩性。
在这里我们可以看到parquet以压缩列格式存储数据,有几种压缩选型可以选择
原始conn.log数据达到了2个G
经过parquet后约420MB左右
现在我们将parquet的数据加载到了spark,我们演示了一些简单的spark的操作
首先获取有关spark dataframe的数据
Number of Rows: 22694356 Columns: ts,uid,id_orig_h,id_orig_p,id_resp_h,id_resp_p,proto,service,duration,orig_bytes,resp_bytes,conn_state,local_orig,missed_bytes,history,orig_pkts,orig_ip_bytes,resp_pkts,resp_ip_bytes,tunnel_parents
下面的查询是对4个执行程序的。数据包含超过2200万个zeek conn日志条目,完成时间仅仅是mac电脑上运行的一秒钟时间
让我们看一下各个主机,按端口和服务分组
Spark具有强大的SQL引擎以及机器学习库。现在,我们已经将数据加载到Spark Dataframe中,下一章我们将利用Spark SQL命令使用Spark MLLib进行一些分析和聚类
文章转载自:香港地产资讯网 米朗尚悦·岭主打1房户周边民生便利 米朗尚悦·岭提供504伙,实用面积由174至381平方呎,主打1房单位。 由恒地及新世界合作的尚悦·岭属于蝶翠峰第五期,地盘可...
安全生产,人人有责。 安全知识,人人共享。 了解安全知识,平安幸福一生。 基本信息 名称:全国消防安全宣传教育日 作用:使“119”更加深入人心 目的:为增加全民的消防安全意识 11月9...
现如今,赚钱的机会很多,但是,如果我们每天都正儿八经地去工作,这样得来的钱其实并不多,大部分每个月都是拿的死工资,一个月只有几千块。想要更加快速地赚钱,还是要找偏门,下面,我们分享十五个偏门赚钱的方法...
鹿牌男士gp手表价值表价值查询购置销售公司 男士gp手表淡紫白版的用度 327300/元 台州字幅械有限公司 瑞士机器防水手表锌钡白款几多钱 699000/元 滁州干...
新款crv如何(新款本田CRV究竟如何)东风本田汽车在合资企业SUV销售市场上,是一名强悍的参赛选手,伴随着车系的升级换代,仍然能在销售量总榜上占有前端部位。在第五代CR-V的前提条件下,东风本田...
本文目录一览: 1、如何评价尚语贤在《唐人街探案2》中的造型? 2、唐人街探案2当中的女黑客KIKO是谁演的 3、《唐人街探案》二里那个女黑客是谁演的? 4、《唐人街探案2》女黑客是谁?...