根据卷积神经 *** 的SQL注入检测

访客5年前关于黑客接单536

一、前语
本文结合自然语言处理技能,选用卷积神经 *** 算法练习SQL注入检测模型,首要包含文本处理、提取文本向量和练习检测模型三个部分。因为自己是初学者,也是通过长辈们的文章来学习这方面的常识,许多当地或许了解不行充沛,请我们及时纠正。
二、练习数据
试验进程中的数据集首要分为三组练习集(用于练习检测模型的数据)、验证集(练习进程中验证模型的准确率)、测验集(测验练习完成后模型的准确率)。
练习会集正常样本24500条,SQL注入进犯样本25527条,XSS进犯样本25112条;验证会集正常样本10000条,SQL注入进犯样本10000条,XSS进犯样本10000条;测验中正常样本4000条,SQL注入进犯样本4000条,XSS进犯样本4000条。
正常样本数据格式如下:
code%3Dzs_000001%2Czs_399001%2Czs_399006%26cb%3Dfortune_hq_cn%26_%3D1498591852632
SQL注入样本数据格式如下:
-9500%22%20WHERE%206669%3D6669%20OR%20NOT%20%284237%3D6337%29
XSS注入样本数据格式如下:
site_id%3Dmedicare%22%3E%3Cscript%3Ealert%281337%29%3C/script%3E%2Casdf
三、文本处理
练习进程中运用的数据根本都通过了URL编码,有的或许通过过了多重编码,因而需进行URL循环解码,而且为了削减数字和其他无关要素对数据样本的影响对数据进行范化处理,将数字替换为0,超链接替换为http://u。代码如下:
def URLDECODE(payload):
    payload=payload.lower()
    while True:
        test=payload
        payload=unquote(payload)
        if test==payload:
            break
        else:
            continue
    #数字泛化为"0"
    payload,num=re.subn(r'd+',"0",payload)
    #替换url为”http://u
    payload,num=re.subn(r'(http|https)://[a-zA-Z0-9.@&/#!#?]+', "http://u", payload)
    #分词
    r = '''
        (?x)[w.]+?(
        |)
        |"w+?"
        |'w+?'
        |http://w
        |
        |
        |
        |[w.]+
    '''
    return nltk.regexp_tokenize(payload, r)
未处理的数据样本如下:
1)))%252bAND%252b8941%25253d8941%252bAND
/yk10/?page=54%20LIMIT%201%2C1%20UNION%20ALL%20SELECT%22C%20NULL%2C%20NULL%23
处理后数据样本如下:
['0', ')', ')', ')', 'and', '0=', '0', 'and']
['yk0', 'page=','0', 'limit', '0', '0', 'union', 'all', 'select', 'null', 'null', 'null']
四、练习词向量模型
Word2Vec是Google在2013年开源的一款将自然语言转化为计算机能够了解特征向量的东西。Word2Vec首要有CBOW(Continuous Bag-Of-Words)和Skip-Gram两种。CBOW模型练习进程是输入某一个词上下文相关的词对应的词向量,输出是这个词的词向量;而Skip-Gram与之相反,输入特定一个词的词向量,输出该特定词的上下文词向量。
将分词处理完的数据作为文本向量的练习数据,练习得到词向量模型,通过此模型,可将单词转化为计算机所能了解的向量,如单词select通过转化后如下:
[ 5.525984  -2.4446     -0.9985928  -1.6910793  1.8828514   2.8958166
 0.90518814 -1.3623474 -1.8427371   0.5957503  -3.9347208  1.4152565
 -0.0354603 -7.432402   -0.68348515 -4.0790896]
练习词向量模型的代码如下:
def train_word2vec():
    sentences=MySentences(datadir)
    cores=multiprocessing.cpu_count()
    if os.path.exists(model_dir):
        print ("Find cache file %s" % model_dir)
        model=Word2Vec.load(model_dir)

[1] [2]  黑客接单网

相关文章

ASP.NET网站管理工具装备办法

注意事项, 你登录到期2003时的用户名,及其相关权限,添加到 sql server C:/WINDOWS/Microsoft.NET/Framework/v2.0.50727/CONFIG/mach...

谁看了你的Instagram账户?又是谁盗取了你的暗码?

简介 移动运用程序现在现已成为最有用的进犯向量之一,这些网络罪犯最喜欢的一种办法就是盛行运用程序的乱用。自己审视下是否在装置一款需求衔接到交际运用账户凭据,电子邮件账户,云存储服务的运用时有静下来细细...

web前端技能,做一个超有用的待办事项管理工具web版别

经过方案开端每一天是使你走向成功的要害,时间管理的重要性在这里我就不多说了,奉上一个web版别待办事项管理工具教程 这是终究作用图 接下来一步步完成它 html代码 html代码 对应的CSS代码 作...

根据机器学习的web反常检测

Web防火墙是信息安全的第一道防地。跟着网络技能的快速更新,新的黑客技能也层出不穷,为传统规矩防火墙带来了应战。传统web侵略检测技能经过保护规矩集对侵略拜访进行阻拦。一方面,硬规矩在灵敏的黑客面前,...

HTML5:<a>的ping特点之逝世ping与隐私追寻

在HTML5中 标签参加了一个新的特点ping。规划者参加它的理由是, Ping能够使浏览器对外发送一个异步恳求,一般用来广告的追寻、点击率计算或完结一次HTTP重定向。 可是听到监督、追寻这个词,...

下一代网络钓鱼技术——滥用Azure信息保护功能-黑客接单平台

在这篇文章中,咱们将从攻击者的视点介绍怎么运用Azure信息维护(Azure Information Protection,AIP)来改善网络垂钓技能。这个主意是在一次测验作业进程中发生的,其时我正在...