根据机器学习的web反常检测

访客5年前黑客资讯864

Web防火墙是信息安全的之一道防地。跟着 *** 技能的快速更新,新的黑客技能也层出不穷,为传统规矩防火墙带来了应战。传统web侵略检测技能经过保护规矩集对侵略拜访进行阻拦。一方面,硬规矩在灵敏的黑客面前,很简单被绕过,且根据以往常识的规矩集难以应对0day进犯;另一方面,攻防对立水涨船高,防卫方规矩的结构和保护门槛高、本钱大。
根据机器学习技能的新一代web侵略检测技能有望补偿传统规矩集办法的缺少,为web对立的防卫端带来新的开展和打破。机器学习办法能够根据很多数据进行自动化学习和练习,已经在图画、语音、自然语言处理等方面广泛应用。但是,机器学习应用于web侵略检测也存在应战,其间更大的困难便是标签数据的缺少。虽然有很多的正常拜访流量数据,但web侵略样本稀疏,且改变多样,对模型的学习和练习形成困难。因而,现在大多数web侵略检测都是根据无监督的办法,针对很多正常日志树立模型(Profile),而与正常流量不符的则被辨认为反常。这个思路与阻拦规矩的结构恰恰相反。阻拦规矩意在辨认侵略行为,因而需求在对立中“见机行事”;而根据profile的办法旨在建模正常流量,在对立中“以不变应万变”,且更难被绕过。

 
根据反常检测的web侵略辨认,练习阶段一般需求针对每个url,根据很多正常样本,笼统出能够描述样本集的核算学或机器学习模型(Profile)。检测阶段,经过判别web拜访是否与Profile相符,来辨认反常。

 
关于Profile的树立,主要有以下几种思路:
1. 根据核算学习模型
根据核算学习的web反常检测,一般需求对正常流量进行数值化的特征提取和剖析。特征例如,URL参数个数、参数值长度的均值和方差、参数字符散布、URL的拜访频率等等。接着,经过对很多样本进行特征散布核算,树立数学模型,从而经过核算学办法进行反常检测。
2. 根据文本剖析的机器学习模型
Web反常检测归根到底仍是根据日志文本的剖析,因而能够学习NLP中的一些办法思路,进行文本剖析建模。这其间,比较成功的是根据隐马尔科夫模型(HMM)的参数值反常检测。
3. 根据单分类模型
因为web侵略黑样本稀疏,传统监督学习办法难以练习。根据白样本的反常检测,能够经过非监督或单分类模型进行样本学习,结构能够充沛表达白样本的最小模型作为Profile,完成反常检测。
4. 根据聚类模型
一般正常流量是很多重复性存在的,而侵略行为则极为稀疏。因而,经过web拜访的聚类剖析,能够辨认很多正常行为之外,小搓的反常行为,进行侵略发现。

 
根据核算学习模型
根据核算学习模型的办法,首要要对数据树立特搜集,然后对每个特征进行核算建模。关于测验样本,首要核算每个特征的反常程度,再经过模型对反常值进行交融打分,作为终究反常检测判别根据。
这儿以斯坦福大学CS259D: Data Mining for CyberSecurity课程[1]为例,介绍一些卓有成效的特征和反常检测办法。
特征1:参数值value长度
模型:长度值散布,均值μ,方差σ2,使用切比雪夫不等式核算反常值p

 
特征2:字符散布
模型:对字符散布树立模型,经过卡方查验核算反常值p

 
特征3:参数缺失
模型:树立参数表,经过查表检测参数过错或缺失
特征4:参数次序
模型:参数次序有向图,判别是否有违规次序联系

 
特征5:拜访频率(单ip的拜访频率,总拜访频率)
模型:时段内拜访频率散布,均值μ,方差σ2,使用切比雪夫不等式核算反常值p
特征6:拜访时刻距离
模型:距离时刻散布,经过卡方查验核算反常值p
终究,经过反常打分模型将多个特征反常值交融,得到终究反常打分:

 
根据文本剖析的机器学习模型
URL参数输入的背面,是后台代码的解析,一般来说,每个参数的取值都有一个规模,其答应的输入也具有必定形式。比方下面这个比如:

 
比如中,绿色的代表正常流量,赤色的代表反常流量。因为反常流量和正常流量在参数、取值长度、字符散布上都很类似,根据上述特征核算的 *** 难以辨认。进一步看,正常流量虽然每个都不相同,但有一起的形式,而反常流量并不契合。在这个比如中,契合取值的样本形式为:数字_字母_数字,咱们能够用一个状态机来表达合法的取值规模:

[1] [2] [3]  黑客接单网

相关文章

针对非Webapp测验的Burp技巧(二):扫描、重放

在本系列连载的第一节中,笔者谈到了关于burp对非webapp的功用测验。原本我只想写点东西共享出来,并没想到会扯出那么多。现在嘛,我还会持续写下去。 在这一节中,我会讲一讲: Target >...

本文从现代WAF的基本原理讲起,涵盖WAF指纹识别、多种WAF绕过技术(下)-黑客接单平台

今日咱们来接着上一篇,讲讲WAF绕过技能的其他几个方面。 Unicode标准化 让Unicode标准化是Unicode的一个功用,用于比较看起来类似的Unicode符号。例如,符号“ª”和“ᵃ”有不同...

浏览器进犯结构BeEF Part 5:进犯Web使用与进犯网络

前语 上一章介绍了Tunneling Proxy技能以及怎样运用这项技能来绕过httponly完成高档的会话盗取。本章评论如安在不违背SOP情况下,经过勾连浏览器进犯Web运用与进犯网络。其中有一些进...

看我怎么编写一个验证码辨认程序

在此之前我收到了一些读者对我的反应,他们期望我能够在文中解说相关解析器的开发流程。为了满意我们的需求,我决议和你们共享一个我非常重要的项目的完好施行进程。话不多说,让我们现在就开端! 当我开发这些脚本...

会互联网技术和网站渗透的人能做什么有谁知道黑种人家中怎样接

尽管也没有那般的工作经验,也不知道能否帮上忙,但我讲我的想法:你通过自学互联网技术,但沒有学历,不容置疑,顾主不敢相信给你整体实力,因此你能取得资格证书(你了解);返回如...

VulnHub挑战赛Pipe解题思路

今日我将给我们演示我是怎么处理VulnHub挑战赛这道名为Pipe标题的。 当然CTF玩的便是思路,这篇文章的思路纷歧定是最好的。只是作为抛砖,欢迎我们在文尾下载这道标题来玩! 枚举 PORT    ...