Web应用安全漏洞扫描工具的设计与实现

来源：智榕旅游

１８１４０７０分类号密级ＵＤＣ注１学位论文Ｗｅｂ应用安全漏洞扫描工具的设计与实现（题名和副题名）陶亚平（作者姓名）指导教师姓名邱会中吾ＩＪ教授电子科技大学成都（职务、职称、学位、单位名称及地址）申请专业学位级别硕士专业名称计算机软件与理论论文提交日期２０１０．０５论文答辩日期２０１０．０５学位授予单位和日期电子科技大学答辩年月日注１．－注明《国际十进分类法ＵＤＣ）的类号。‰；．ｈ：，ｏ、ｌ独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知，除了文中特别加以标注和致谢的地ｐ～方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。签名：：！鲴垒§日期：弘１。年ｒ月刁日论文使用授权本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定，有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。（保密的学位论文在解密后应遵守此规定）签名：：星虱垒圣导师签名：日期：加／摘要摘要随着计算机技术和信息技术的发展，Ｗｅｂ应用系统在各个领域都得到了广泛侈旧的应用，伴随而来的针对Ｗｅｂ应用的攻击也大幅度上升。Ｗｅｂ应用系统开发周期ｌ＇较短，而ＷＥＢ开发人员安全编程意识和能力严重不足，Ｗｅｂ应用程序存在漏洞是难免的，给攻击者留下大量可乘之机。如何检测评估Ｗｅｂ应用系统的安全性，是Ｗｅｂ安全领域面临的严峻问题。Ｗｅｂ应用安全漏洞检测技术，工作在应用层ＨＴＴＰ协议上，模拟黑客攻击的方式，向服务器发送具有特定漏洞探测特征的ＨｒｒＰ请求，期望从服务器的应答中来发现服务器存在的Ｗｅｂ应用安全漏洞。传统的防火墙、ＩＤＳ／ＩＰＳ从网络层面对Ｗｅｂ系统提供安全保护，Ｗｅｂ应用安全漏洞扫描工具与它们是互补的，它们共同保证Ｗ曲系统的安全。通过Ｗｅｂ应用安全漏洞扫描，可以在Ｗ曲应用受攻击前，对Ｗｅｂ应用进行健康检查，从而提早了解到Ｗｅｂ应用存在的安全漏洞，并进行修补，降低系统受攻击的风险，是成本最低并且效果最好的Ｗｅｂ安全防护手段。Ｗｅｂ安全是网络安全中最严重的问题之一，进行Ｗｅｂ应用漏洞检测技术研究是一项十分有意义的工作。论文首先分析了Ｗｅｂ应用安全严峻的形式以及Ｗｅｂ应用安全漏洞检测技术的迫切需求；接着跟踪了Ｗｅｂ应用安全的国内外现状，研究了Ｗｅｂ应用安全漏洞的分类及其检测技术的发展，总结了基于网络爬虫的ＳＱＬ注入和ＸＳＳ漏洞检测方法；在此基础上，设计了扩展性良好的Ｗｅｂ应用安全漏洞扫描工具的系统基础架构，分析了主要构成部分的工作原理，实现了系统原型；然后对系统原型进行了测试，证实了设计的可行性与合理性；最后分析了系统的不足以及下一步的工作。关键词：Ｗ曲应用安全，漏洞检测，网络爬虫，ＳＱＬ注入，ＸＳＳ≮●ＡＢＳＴＲＡＣＴＷｉｔｈａｐｐｌｉｃａｔｉｏｎｓｔｈｅｄｅｖｅｌｏｐｍｅｎｔｏｆｃｏｍｐｕｔｅｒｔｅｃｈｎｏｌｏｇｙａｎｄｉｎｆｏｒｍａｔｉｏｎａｒｅｔｅｃｈｎｏｌｏｇｙ，励ｉｎｃｒｅａｓｅｄｗｉｄｅｌｙｕｓｅｄｉｎｍａｎｙａｒｅａｓ，ａｃｃｏｍｐａｎｉｅｄｂｙａｔｔａｃｋｓｓｉｇｎｉｆｉｃａｎｔｌｙ．Ｗ曲ａｐｐｌｉｃａｔｉｏｎｄｅｖｅｌｏｐｍｅｎｔｔｈｅａｗａｒｅｎｅｓｓｃｙｃｌｅｉｓｖｅｒｙｓｈｏｒｔ，ｂｕｔｐｒｏｇｒａｍｍｅｒｓｌａｃｋａｎｄｔｏａｂｉｌｉｔｙｏｆｓｅｃｕｒｉｔｙｐｒｏｇｒａｍｍｉｎｇ，ｌｏｏｐｈｏｌｅｓｉｎｄｅｔｅｃｔＷ曲ａｐｐｌｉｃａｔｉｏｎｓａａｌｅｉｎｅｖｉｔａｂｌｅ．ＨｏｗａｎｄａｓｓｅｓｓｓｅｃｕｒｉｔｙｏｆＷ曲ａｐｐｌｉｃａｔｉｏｎｓｉｓｓｅｒｉｏｕｓｐｒｏｂｌｅｍｏｆＷｅｂｓｅｃｕｒｉｔｙ．Ｗ曲ａｐｐｌｉｃａｔｉｏｎｓｅｃｕｒｉｔｙｖｕｌｎｅｒａｂｉｌｉｔｙｄｅｔｅｃｔｉｏｎｔｅｃｈｎｉｑｕｅｓ，ｗｏｒｋｉｎｇａ仰１ｉｃａｔｉｏｎｌａｙｅｒｐｒｏｔｏｃｏｌ哪ｔｏａｔｔｈｅｓｉｍｕｌａｔｅｔｈｅｗａｙｔｈａｔｈａｃｋｅｒａｔｔａｃｋｓｔｏｒｅｑｕｅｓｔｔｏｓｅｎｄｓｐｅｃｉｆｉｃｔｏｖｕｌｎｅｒａｂｉｌｉｔｙｃｈａｒａｃｔｅｒｉｓｔｉｃｓｄｉｓｃｏｖｅｒｉｎｇｔｈｅｏｆＨＴＴＰｔｈｅｓｅｒｖｅｒ，ｌｏｏｋｆｏｒｗａｒｄＷｅｂａｐｐｌｉｃａｔｉｏｎｓｅｃｕｒｉｔｙｖｕｌｎｅｒａｂｉｌｉｔｉｅｓｉｎｔｈｅｒｅｓｐｏｎｓｅｆｒｏｍｔｈｅａｔｎｅｔｗｏｒｋｓｅｒｖｅｒ．Ｆｉｒｅｗａｌｌ．ＩＤＳ／ＩＰＳｐｒｏｖｉｄｅｓｅｃｕｒｉｔｙｐｒｏｔｅｃｔｉｏｎｆｏｒａｐｐｌｉｃａｔｉｏｎｓｅｃｕｒｉｔｙｖｕｌｎｅｒａｂｉｌｉｔｙｔｈｅｓｅｃｕｒｉｔｙｏｆＷｅｂｓｙＳｔｅｍｓ．ＴｈｒｏｕｇｈｔｈｅｓｃａｎｎｅｒＷ曲ｓｙｓｔｅｍｓｌｅｖｅｌ，Ｗｅｂｅｎｓｕｒｅｉｓｃｏｍｐｌｅｍｅｎｔａｒｙｗｉｔｈｔｈｅｍ，ｔｈｅｙａｌｌＷ曲ａｐｐｌｉｃａｔｉｏｎｓｅｃｕｒｉｔｙｖｕｌｎｅｒａｂｉｌｉｔｙｓｃａｎｎｉｎｇ，Ｗ曲ａｐｐｌｉｃａｔｉｏｎＣａｎｃａｎｆｉｎｄｏｕｔｂｅｈｅａｌｔｈｙｃｈｅｃｋｅｄｂｅｆｏｒｅｔｈｅａｔｔａｃｋｈａｐｐｅｎｓ，ｗｅｖｕｌｎｅｒａｂｉｌｉｔｉｅｓｅａｒｌｉｅｒＷ曲ａｐｐｌｉｃａｔｉｏｎｓｅｃｕｒｉｔｙａｎｄｔｈｅｒｉｓｋｏｆｔｈｅｓｙＳｔｅｍｕｎｄｅｒｃａｒｒｙｏｕｔｒｅｐａｉｒｉｎｇｔｏｒｅｄｕｃｅａｔｔａｃｋ．ｔｈａｔｉｓｔｈｅｌｏｗｅｓｔｃｏｓｔｓｅｃｕｒｉｔｙｉｓｗｏｒｋｔｏｏｎｅａｎｄｍｏｓｔｅｆｆｅｃｔｉｖｅＷｅｂｓｅｃｕｒｉｔｙｐｒｏｔｅｃｔｉｏｎａｍｅａｓｕｒｅ．Ｗｅｂｍｅａｎｉｎｇｆｕｌｏｆｔｈｅｍｏｓｔｓｅｒｉｏｕｓｐｒｏｂｌｅｍｓｏｆｎｅｔｗｏｒｋｓｅｃｕｒｉｔｙ．ＩｔｉｓｖｅｒｙｒｅｓｅａｒＣｈｔｈｅＦｉｒｓｔｔｈｅｐａｐｅｒＷ曲ａｐｐｌｉｃａｔｉｏｎｖｕｌｎｅｒａｂｉｌｉｔｙｄｅｔｅｃｔｉｏｎｔｅｃｈｎｏｌｏｇｙ．ａｎａｌｙｚｅｄｓｅｖｅｒｅｓｉｔｕａｔｉｏｎｓｏｆＷｅｂａｐｐｌｉｃａｔｉｏｎｓｅｃｕｒｉｔｙａｎｄｕｒｇｅｎｔｒｅｑｕｉｒｅｍｅｎｔｓｏｆＷｅｂａｐｐｌｉｃａｔｉｏｎｄｏｍｅｓｔｉｃｓｔｕｄｙｉｎｇｖｕｌｎｅｒａｂｉｌｉｔｙｄｅｔｅｃｔｉｏｎｔｅｃｈｎｏｌｏｇｙ．Ｔｈｅｎｆｏｌｌｏｗｅｄｔｈｅａｎｄｉｎｔｅｒｎａｔｉｏｎａｌｔｈｅｐｒｅｓｅｎｔｃｏｎｄｉｔｉｏｎｏｆｔｈｅｗｅｂａｐｐｌｉｃａｔｉｏｎｓｅｃｕｒｉｔｙ，ｆｉｎｉｓｈｅｄｏｆｃｌａｓｓｉｆｉｃａｔｉｏｎＷ曲ａｐｐｌｉｃａｔｉｏｎｓｅｃｕｒｉｔｙｖｕｌｎｅｒａｂｉｌｉｔｙａｎｄｔｈｅｄｅｖｄｏｐｍｅｎｔｏｆＷ曲ａｐｐｌｉｃａｔｉｏｎｖｕｌｎｅｒａｂｉｌｉｔｙｄｅｔｅｃｔｉｏｎｔｅｃｈｎｏｌｏｇｙ，ｓｕｍｍａｒｉｚｅｄＳＱＬｏｎｉｎｊｅｃｔｉｏｎｔｈｏｓｅａｎｄＸＳＳｖｕｌｎｅｒａｂｉｌｉｔｙｓｃａｌａｂｌｅｄｅｔｅｃｔｉｏｎｍｅｔｈｏｄｓｂａｓｅｄｓｙｓｔｅｍｉｎｆｒａｓｔｒｕｃｔｕｒｅｏｆＷ曲ｃｒａｗｌｅｒ．Ｂａｓｅｄｏｎａｃｈｉｅｖｅｍｅｎｔｓ，ａｓｃａｎｎｅｒＷ曲ａｐｐｌｉｃａｔｉｏｎｓｅｃｕｒｉｔｙｍａｊｏｒｃｏｍｐｏｎｅｎｔｓＩＳｖｕｌｎｅｒａｂｉｌｉｔｙｉｎｔｒｏｄｕｃｅｄｉｓｄｅｓｉｇｎｅｄ，ｔｈｅｗｏｒｋｉｎｇｐｒｉｎｃｉｐｌｅｏｆａａｎｄｉｔｓｐｒｏｔｏｔｙｐｅｉｓｉｍｐｌｅｍｅｎｔｅｄ．ＴｈｅｎⅡｔｅｓｔｏｆｔｈｅｓｙｓｔｅｍｐｒｏｔｏｔｙｐｅＩＳＡＢＳＴＲＡＣＴｆｅａｓｉｂｉｌｉｔｙａｎｄｒａｔｉｏｎａｌｉｔｙｏｆｔｈｅｄｅｓｉｇｎ．Ｆｉｎａｌｌｙｔｈｅａｎｄｕｎ－ｄｏｎｅｗｏｒｋｓａｒｅｔａｌｋｅｄａｂｏｕｔ．ｓｅｃｕｒｉｔｙ，ｖｕｌｎｅｒａｂｉｌｉｔｙｄｅｔｅｃｔｉｏｎ，Ｗｅｂｃｒａｗｌｅｒ，ＳＱＬＩＩＩ夺一目录目录咚、ｌ第一章引言…………………………………………………………………………………………．１１．１研究背景……………………………………………………………………………１１．２研究目的、内容和目标……………………………………………………………２１．２．１研究目的………………………………………………………………………．２１．２．２研究内容………………………………………………………………………．．２１．２．３研究目标………………………………………………………………………．２１．３论文结构……………………………………………………………………………３１．４本章小结……………………………………………………………………………３第二章２．１ＷＥＢ应用安全介绍……………………………………………………………。４ＷＥＢ应用安全现状…………………………………………………………………．４２．２ＷＥＢ应用常见安全漏洞……………………………………………………………５２．３２．４ＷＥＢ应用安全漏洞检测技术………………………………………………………７ＳＱＬ注入及ＸＳＳ漏洞的检测………………………………………………………８２．４．１网络爬虫………………………………………………………………………．８２．４．２２．４．３“ＳＱＬ注入漏洞…………………………………………………………………１０ＸＳＳ漏洞………………………………………………………………………………………………１４２．５本章小结…………………………………………………………………………．．１５第三章一－监ＷＥＢ应用安全漏洞扫描工具系统设计………………………………………‰．１６３．１调度引擎（ＳＣＡＮＥＮＧＩＮＥ）设计…………………………………………………～１７３．１．１调度引擎工作原理……………………………………………………………１７３．１．２调度引擎类结构………………………………………………………………１７３．１．３调度引擎工作流程……………………………………………………………１８３．２扫描模块（ＳＣＡＮＭＯＤＵＬＥ）设计…………………………………………………１９Ⅳ目录３．２．１扫描模块工作原理……………………………………………………………１９３．２．２扫描模块整体结构…………………………………………………………．．．．２０３．２．３扫描模块类结构………………………………………………………………２１３．２．４扫描模块工作流程……………………………………………………………．２３３．３本章小结……………………………………………………………………………．．２４第四章ＷＥＢ应用安全漏洞扫描工具详细设计与实现……………………………。２５４．１公共组件…………………………………………………………………………．．２５４．１．１配置文件模块…………………………………………………………………２５４．１．２线程池模块……………………………………………………………………２７４．１．３数据库访问模块………………………………………………………………３２４．１．４ＨＴＴＰ传输模块………………………………………………………………。３７４．２扫描调度引擎………………………………………………………………………４１４．２．１配置文件加载…………………………………………………………………４１４．２．２公共组件初始化………………………………………………………………４５４．２．３扫描模块调度…………………………………………………………………４６４．３网络爬虫（ＣＲＡＷＬＥＲ）模块……………………………………………………．．４９４．３．１网络爬虫结构…………………………………………………………………４９４．３．２网络爬虫实现…………………………………………………………………４９４．４ＳＱＬ注入漏洞扫描模块……………………………………………………………５７４．４．１ＳＱＬ注入漏洞扫描结构………………………………………………………．５７４．４．２ＳＱＬ注入漏洞扫描的实现……………………………………………………５８４．５ＸＳＳ漏洞扫描模块…………………………………………………………………．．６４４．５．１ＸＳＳ漏洞扫描结构………………………………－…………………………６４４．５．２ＸＳＳ漏洞扫描的实现…………………………………………………………６４４．６本章小结…………………………………………………………………………。６９第五章ＷＥＢ应用安全漏洞扫描工具测试分析…………………………………………７０５．１ＷＥＢＳＣＡＮＮＥＲ测试目的……………………………………………………………．７０５．２ＷＥＢＳＣＡＮＮＥＲ测试………………………………………………………………………………………７０Ｖ、：奎啦Ｉｌ攻硕期间取得的研究成果……………………………………………………………………．７９ＶＩ夏一－第一章引言Ａ１．１研究背景随着计算机技术和信息技术的发展，Ｗｅｂ应用系统在各个领域都得到了广泛的应用，伴随而来的针对Ｗｅｂ应用的攻击也大幅度上升。根据著名统计机构Ｇａｒｔｎｅｒｔｌ】的报告，信息安全攻击有７５％都是发生在Ｗｅｂ应用而非网络层面上。同时，数据也显示，６７％的Ｗｅｂ站点都相当脆弱，易受攻击。然而现实却是，～绝大多数企业将大量的投资花费在网络和服务器的安全上，没有从真正意义上保证Ｗｅｂ应用本身的安全，给黑客以可乘之机。ＯＷＡＳＰ［２】（ＯｐｅｎＷ曲ＡｐｐｌｉｃａｔｉｏｎＳｅｃｕｒｉｔｙＰｒｏｊｅｃｔ）发布了２０１０年Ｗｅｂ应用十大安全缺陷，与２００９年相比：ｔｎｊｅｃｔｉｏｎＳｉｔｅＳｃｒｉｐｔｉｎｇ）退ｆｌａｗｓ（ＳＱＬ注入为其中最主要的一种）位列榜首，ＸＳＳ（Ｃｒｏｓｓ至第二。近年来，国内众多行业都在开发行业信息软件，如电力，石油，金融，物流，环保等。目前，几乎每个企业都有自己的Ｗｅｂ应用系统，为客户提供更为方便、快捷的服务支持。这些应用在功能和性能上，都在不断的完善和提高，然而在非常重要的Ｗｅｂ安全性上，却没有得到足够的重视。这些Ｗｅｂ应用都是通过ＨＴＴＰ协议（ｈ郇或者ｈｔｔｐｓ）提供给用户使用。所有这些技术和应用实现，会很容易引入漏洞。由于网络技术日趋成熟，黑客们也将注意力从以往对网络服务器的攻击逐步转移到了对Ｗｅｂ应用的攻击上。根据我国ＣＮＣＥＲＴ／ＣＣ［３】（国家互联网应急中心）在《ＣＮＣＥＲＴ／ＣＣ２００８年上半年网络安全工作报告》一文中统计的数据来看，网络仿冒２７．０４％，网页恶意代码２１．３６％，２００８年上半年我国大陆地区被篡改的．ｇｏｖ．ｃｎ网站数量共计２２４２个，我国Ｗｅｂ安全形势严峻。Ｗｅｂ应用的安全性是一个非常迫切的问题。Ｗｅｂ应用只能从传统的网络安全保护措施得到有限的保护【４１。ＨＴＴＰ请求的安全性并不被防火墙，操作系统，ＷｅｂＳｅｒｖｅｒ仔细的检查。因此Ｗｅｂ应用程序必须提供必要的自我保护。也就是通过审慎的程序代码来达到对抗黑客的目的。长期来看，最好的办法还是以在开发阶段从源头上消除安全漏洞，而不是后期建立修复措施。因此对Ｗｅｂ应用安全漏洞检测技术展开全面研究具有重要理论意义和实际应用价值，也引起来了越来越多研究组织和研究人员的注意。电子科技大学硕士学位论文１．２研究目的、内容和目标１．２．１研究目的Ｗｅｂ应用系统开发周期较短，而开发人员程度参差不齐，Ｗｅｂ应用程序存在漏洞是难免的。Ｗｅｂ应用安全漏洞检测技术【４】是对Ｗｅｂ应用程序安全漏洞的主动检测，它工作在应用层Ｈ１］曙协议上，模拟黑客攻击的方式，向服务器发送具有特定漏洞探测特征的ＨＴＴＰ请求，期望从服务器的应答中来发现服务器存在的Ｗｅｂ应用安全漏洞。传统的防火墙、ＩＤＳ／ＩＰＳ从网络层面对Ｗｅｂ系统提供安全保护，Ｗｅｂ应用安全漏洞扫描工具与它们是互补的，它们共同保证Ｗｅｂ系统的安全。通过Ｗｅｂ应用安全漏洞扫描，可以在Ｗｅｂ应用受攻击前，对Ｗｅｂ应用进行健康检查，从而提早了解到Ｗｅｂ应用存在的安全漏洞，并进行修补，降低系统受攻击的风险。是成本最低并且效果最好的Ｗｅｂ安全防护手段。Ｗｅｂ安全是网络安全中最严重的问题之一，进行Ｗ曲应用漏洞检测技术研究是一项十分有意义的工作。本课题的研究目的是设计实现一个具有良好扩展性及性能，检测结果较准确的Ｗ曲应用安全漏洞扫描工具。１．２．２研究内容本课题以Ｗｅｂ应用安全漏洞检测技术及常见Ｗｅｂ应用程序安全漏洞检测方法为主要研究内容，具体工作如下：１．研究ＨＴＴＰ协议相关内容。２．研究ＨＴＭＬ文档中ＵＲＬ提取技术。３．研究ＵＲＬ格式规范相关内容。４．研究搜索引擎Ｃｒａｗｌｅｒ技术，实现目标站点结构获取。５．研究ＳＱＬ注入技术，模拟其攻击方式，检测定位安全漏洞。６．研究ＸＳＳ（ＣｒｏｓｓＳｉｔｅＳｃｒｉｐｔ）技术，模拟其攻击方式，检测定位安全漏洞。１．２．３研究目标本课题的研究目标包括：１．Ｗｅｂ应用安全漏洞扫描工具具有良好扩充性，可以方便的加入新的漏洞扫描部件。２畸－，ｏ，‘ｒＩ第一章引言２．Ｗｅｂ应用安全漏洞扫描工具的运行效率较高，能够较完整的收集Ｗｅｂ站点的漏洞测试点。３．Ｗｅｂ应用安全漏洞扫描工具的漏洞检测结果具有较高准确性，能够给出较详细的检测结果报告。１．３论文结构本文共分为六章。第一章：简单介绍了论文背景，论文的研究方向，以及本文将要开展的研究工作。第二章：介绍了Ｗｅｂ应用安全现状，Ｗｅｂ应用常见安全漏洞，以及Ｗｅｂ应用安全漏洞检测技术国内外研究现状，研究总结了基于网络爬虫的ＳＱＬ注入和ＸＳＳ漏洞检测原理。第三章：介绍了Ｗｅｂ应用安全漏洞扫描技术核心原理，对Ｗｅｂ应用安全漏洞扫描工具系统基础架构进行了设计。‘第四章：结合改进的网络爬虫技术，ＳＱＬ注入漏洞检测方法，ＸＳＳ注入漏洞检测方法，介绍了Ｗｅｂ应用安全漏洞扫描工具各部分的详细设计与实现。第五章：介绍了Ｗｅｂ应用安全漏洞扫描工具运行测试情况。第六章：对论文的贡献和不足做出总结，并提出了下一步工作设想。最后是参考文献和致谢。１．４本章小结本章介绍了本课题研究背景、研究目的、内容和目标，详细介绍了Ｗｅｂ应用安全严峻的形势以及Ｗｅｂ应用安全漏洞检测技术的迫切需求，为本文的深入研究打下基础。此外在本章末还给出了本文的论文章节安排，便于快速了解本文的研究的主要内容和结构安排。，’命改变了这个时代信息●而来的黑客事件的也是息和木马程序，至于基了以浏览器为客户端的“宅’’时尚，也是这些技术推动下的产物。近几年云计算的提出，更是无论从技术上还是概念上，把浏览器的重要性推到了一个高峰。毋庸置疑，不久的未来，浏览器成为各种Ｗｅｂ应用的综合平台，对用户使用来说是非常受益的，但同时也预示着Ｗｅｂ应用将成为网络安全的最大的风险来源，Ｗｅｂ安全将成为全球性的重大课题。从２００４到２００５年的三次Ｓｙｍａｎｔｅｃ【６】网络安全威胁报告（ＳｙｍａｎｔｅｃＩｎｔｅｒａｃｔＳｅｃｕｒｉｔｙＴｈｒｅａｔＲｅｐｏｒｔ）的统计数据可以看出，与ＷＥＢ应用相关的漏洞比例飞速上升，占新增漏洞比例分别为４８％，５９％和６９％。ｋｗ根据ＷＨＩＤ［７】（网络黑客事件数据库Ｗ曲ＨａｃｋｉｎｇＩｎｃｉｄｅｎｔｓＤａｔａｂａｓｅ）的统计Ｉ，数据，２００４年基于ＷＥＢ的攻击次数是２００３年的１．８８倍，２００５年的攻击次数是２００４年的３．４７倍。２００６年的ＷＥＢ安全事件名单上，ｇｏｏｇｌｅ、ｈｏｔｍａｉｌ、ｙａｈｏｏ等知名大型网站的名字已经数次出现。中小企业的Ｗｅｂ应用系统及网站由于受企业资金、人力资源等因素的限制，存在的Ｗｅｂ安全问题尤为突出。很多企业的Ｗｅｂ服务器成为黑客攻击的目标，或者作为黑客操作的肉鸡，出现在网络安全事件名单中。就连一些地方政府的网站，也被黑客篡改和挂马，严重影响了政府的形象和公信力。４Ｗｅｂ应用的用户体验，大批传统的以Ｃ／Ｓ模式提供的服务，逐渐迁移到了Ｂ／Ｓ模式的Ｗｅｂ应用上。如今的用户打开浏览器就可以：处理邮件、搜索信息、观看视频、编辑Ｏｆｆｉｃｅ文件、玩游戏、与朋友互动等。基本上人类生活的衣、食、住、行、娱乐等各个方面都可以通过一个小小的浏览器得到满足，如今时下流行的浏览器将全面取代所有桌面应用，成为满足人类各种需求的综合服务平台。‰●第二章Ｗｅｂ应用安全介绍Ｗｅｂ应用安全问题的成因多种多样，Ｗｅｂ应用系统的市场需求大，且软件开发周期较短，导致Ｗｅｂ应用系统数量急剧膨胀，而ＷＥＢ开发人员安全编程意识和能力严重不足，因此Ｗｅｂ应用程序存在漏洞是难免的，给攻击者留下大量可乘之机。有些已运行的ＷＥＢ应用系统由于难以更改、或更改成本过高，或系统已加密、或版权问题等原因无法更改也是ＷＥＢ安全问题的重要原因。２．２Ｗｅｂ应用常见安全漏洞＞已知弱点和错误配置已知弱点指的是Ｗｅｂ服务器的操作系统、服务器软件、硬件平台、网络协议的漏洞，例如Ａｐａｃｈｅ服务器本身的漏洞或者服务器ＦＴＰ服务的漏洞。错误配置指的是采取了一些不安全的默认系统配置或者对需要进行安全配置的应用程序配置不正确，比如操作系统开放了远程访问权限，ＳＱＬＳｅｒｖｅｒ开放了Ｓｈｅｌｌ执行权限。＞隐藏字段在Ｗｅｂ应用开发中，开发者经常使用隐藏的ＨＴＭＬ标签来进行一些页面业务需要，但又不希望看到的参数的保存，但这些字段实际上并不是安全的，任何用户都可以通用查看网页源代码，看到隐藏字段的信息。攻击者通常通过修改隐藏字段的值来进行攻击，如果服务器对隐藏字段提交的数据充分信任的话，就很容易形成安全漏洞，并被攻击。最通常使用的是在早期的一些电子商务网，商品拍卖中，直接把商品底价等信息，直接以隐藏字段保存在网页中【５１。＞后门和调试漏洞‘在软件工程发展的前期，软件测试没有得到足够的重视，软件测试通常由开发人员简单执行一下。而开发人员为了方便的进行测试，通常在软件中留一些程序后门，来帮助测试程序中的ｂｕｇ，并且忘记在最终的软件发布产品中，把这些测试的后门关掉，就形成了攻击者攻击的漏洞。最常见的如Ｗｅｂ信息系统开发过程中，开发人员为了访问数据库方便，通常保留一些链接可以不通过权限验证直接访问到数据库，开发过程中由于人员变迁或者时间间隔较久，这种链接在最后的发布版中依然存在。＞跨站点脚本编写动态网站网页跟用户存在很多数据的交互，某些网站对这部分用户提交的数据，不执行仔细的检查就直接打印在网页中。黑客通常在提交的数据中嵌入可执行的脚本，称为跨站脚本编写【５】，然后把链接通过邮件、即时通讯软件、ＢＢＳ发帖电子科技大学硕士学位论文等形式分发出去。当用户点击链接请求该网页时，黑客嵌入的脚本会在用户浏览器执行，盗取用户敏感信息。＞参数篡改参数篡改的方式通常是篡改ＵＲＬ中ｑｕｅｒｙ部分参数的值，大多Ｗｅｂ站点后台都有数据库保存用户信息及业务信息，ｑｕｅｒｙ的参数通常是生成ＳＱＬ语句查询数据库的条件部分，如果Ｗｅｂ应用程序直接使用用户提交的参数来拼接ＳＱＬ语句，就会形成ＳＱＬ注入漏洞，黑客把精心构造的ＳＱＬ片段代替ｑｕｅｒｙ参数发生到服务器，通过Ｗｅｂ应用程序的拼装，就可以窃取到数据库中保存的用户敏感信息，甚至获得整个Ｗｅｂ站点或者数据库的管理员权限。＞更改Ｃｏｏｋｉｅ一些Ｗｅｂ站点为了提高用户体验，把用户的用户名、密码等信息以Ｃｏｏｋｉｅ的形式保存在用户的系统中，Ｃｏｏｋｉｅ保存信息是以键值对的形式保存，恶意的用户通过更改Ｃｏｏｋｉｅ的值可以访问到不属于自己的信息，黑客也可以盗取用户的Ｃｏｏｋｉｅ从而伪装成合法用户，访问Ｗｅｂ站点，窃取用户的信剧５１。＞输入信息控制输入信息控制，利用ＣＧＩ脚本对ＨＴＭＬ中的输入信息检查不够的漏洞，在输入信息中嵌入一些系统命令。当一个用户通过ＣＧＩ脚步向另一个用户发送信息的程序出现这种漏洞时，黑客可以在信息中嵌入系统命令，来获得系统口令或者删除系统上的文件。＞缓冲区溢出缓冲区溢出是网络安全的最常见的漏洞【５】，在Ｗｅｂ应用中同样存在。一些Ｗｅｂ应用通常也会允许用户向服务器提交一些量比较大的数据，比如上传文件，如果服务器对上传文件的大小没有限制，上传的数据超过了服务器预设的缓冲区的大小，则一部分数据会溢出到堆栈中，如果溢出的部分为代码，贝，ｗＪＮ务器接下来会执行该代码，此时黑客就可以获得该服务器运行权限下的所有数据。＞直接访问浏览Ｗｅｂ站点通过权限控制，来限制用户可以访问站内哪些ＵＲＬ指向的资源，如果权限配置不当，就会让恶意用户越权访问到系统中的敏感信息或者收费资源。＞客户端网络带宽滥用恶意用户可以通过一些ＨＴＴＰ发包工具，不停请求某个Ｗｅｂ站点的服务，造成Ｗｅｂ站点带宽或者处理能力耗尽，不能给其他用户提供服务。这种情况最常发生在竞争对手的恶意竞争中，比如情人节时，一些网络花店商，为了提高自己的６第二章Ｗｅｂ应用安全介绍营收，雇佣黑客对竞争对手的网站进行攻击，使其网站瘫痪。２．３Ｗｅｂ应用安全漏洞检测技术传统的Ｗｅｂ安全概念已经不能够应付今天Ｗｅｂ安全的严峻现状，防火墙、ＩＤＳ并不能防护针对Ｗｅｂ应用程序漏洞的攻击，并且当前的情况是大部分关注Ｗｅｂ安全的人员都存在一个误区，即认为Ｗｅｂ安全主要是网络服务器的安全【８】。投入了９０％的安全防护资源到只有２５％攻击率的网络服务器上，仅仅投入了１０％的资源到具有７５％攻击率的Ｗｅｂ应用程序上。针对Ｗｅｂ安全严峻形势，首先必须加强Ｗｅｂ安全知识的宣导，提高开发人员和安全人员的Ｗｅｂ安全意识，以及加大对Ｗｅｂ应用安全漏洞检测技术的研究。安全漏洞检测技术是网络安全防护技术的重要组成部分，不同于防火墙技术对攻击进行被动的防护，安全漏洞检测技术是模拟黑客攻击的方式去测试系统是否存在安全漏洞，对系统已知可能出现的漏洞进行逐项检测。安全漏洞检测技术最开始应用在网络服务器或者网络设备的漏洞测试，主要对服务器已知的操作系统、服务器软件、硬件平台、网络协议的漏洞进行检测。目前市场上存在的基于安全漏洞检测技术的自动化检测工具比较多，但绝大多数都是针对主机漏洞和网络漏洞进行检测，很少致力于Ｗｅｂ应用程序漏洞的检测。根据前文的分析，我们了解到随着网络技术的发展，黑客们已经把攻击的重心转到了针对Ｗｅｂ应用的攻击上。随着Ｗｅｂ安全事件的攀升，越来越多的研究机构和安全组织开始研究Ｗｅｂ应用安全漏洞检测技术。Ｗ曲应用安全漏洞检测技术是安全检测技术在Ｗ曲应用程序漏洞检测上的运用，首先它在对Ｗｅｂ应用程序漏洞进行大量研究的基础上，对Ｗｅｂ应用程序漏洞进行分类，并分析每种类型漏洞特征码，形成Ｗｅｂ应用程序安全漏洞库，然后借鉴安全漏洞检测技术的自动化检测原理，研发Ｗｅｂ应用安全漏洞检测工具【９】。目前国内外的研究现状是，基于Ｗｅｂ应用安全检测技术研发的Ｗｅｂ应用安全漏洞扫描工具，基本都是国外产品。最有名如ＩＢＭ的ＡＰＰＳＣＡＮ，为收费软件价格特别昂贵，一般的中小型企业负担不起，而且使用操作也非常复杂。其他的产品像ＳＱＬＩｎｊｅｃｔＭｅ只能检测Ｗ曲应用程序中是否存在ＳＱＬ注入漏洞，只能针对表单进行分析，而我们知道动态网页带参数的ＵＲＬ同样会存在ＳＱＬ注入漏洞，而且该工具一次只能检测一个页面，无法对整个网站进行自动化测试。ＸＳＳＭｅ是专门检测Ｗｅｂ应用程序中是否存在ＸＳＳ漏洞的工具，也存在跟ＳＱＬⅫｅｃｔＭｅ同样的缺点。目前７电子科技大学硕士学位论文在国内还缺少一款成熟的产品，据了解一些大学和国内的安全公司都开始在这个领域投入研究力量。Ｗｅｂ应用安全漏洞检测技术的优点在于可以在Ｗｅｂ应用受攻击前对Ｗｅｂ应用进行健康检查，可以提早了解到Ｗｅｂ应用存在的安全漏洞，并进行修补，降低系统受攻击的风险，是成本最低并且效果最好的Ｗｅｂ安全防护手段。２．４ＳＯＬ注入及ＸＳＳ漏洞的检测２．２节给出了Ｗｅｂ应用程序安全漏洞的大分类，具体细化的话还可以进一步分为几百种，其中最常见且危害最大的为ＳＱＬ注入漏洞攻击和ＸＳＳ漏洞攻击Ｂｏ］。本论文以ＳＱＬ注入漏洞和ＸＳＳ漏洞检测为切入点，研究基于网络爬虫的Ｗｅｂ应用程序漏洞扫描技术。２．４．１网络爬虫２．４．１．１网络爬虫介绍网络爬虫是一个网页自动抓取程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成【１１１。网络爬虫通常基于广度优先策略在万维网上抓取网页，广度优先策略指在抓取过程中，先处理完当前层次的链接，再处理下一层次的链接。网络爬虫首先抓取起始地址网页，然后抓取起始网页分析出来的ＵＲＬ，再抓取上一步抓取的网页中的链接，直到满足系统的一定停止条件。ＵＲＬ（ＵｎｉｆｏｒｒｎＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）统一资源定位符，是ＷｗＷ的统一资源定位标志，唯一标识一个ＷＷＷ上的信息资源。ＵＲＬ由三部分组成：资源类型、存放资源的主机域名、资源文件名。ＵＲＬ的语法格式为：ｐｒｏｔｏｃｏｌ：／／ｈｏｓｔｎａｍｅ［：ｐｏｒｔ】／ｐａｔｈ／［；ｐａｒａｍｅｔｅｒｓ］［？ｑｕｅｒｙ］＃ｆｒａｇｒｎｅｎｔ例如：ｈｔｔｐ：／／ｗｗｗ．ｉｍａｉｌｔｏｎｅ．ｃｏｍ：８０／ＷｅｂＡｐｐｌｉｃａｔｉｏｎｌ／ＷｅｂＦｏｒｍｌ．ａｓｐｘ？ｎａｒｎｅ－－－ｔｏｍｐｒｏｔｏｃｏｌ（协议）：指定使用的传输协议，最常用的是ＨＴＴＰ协议，它也是目前ＷＷＷ种应用最广的协议。ｈｏｓｔｎａｍｅ（主机名）：是指存放资源的服务器的域名或Ｐ地址。在主机名前也可以包含连接到服务器所需的用户名和密码（格式：ｕｓｅｍａｍｅ＠ｐａｓｓｗｏｒｄ）。ｐａｔｈ（路径）：由零或多个“／’’符号隔开的字符串，用来表示主机上的一个目第二章Ｗｅｂ应用安全介绍录或文件地址。ｑｕｅｒｙ（查询）：用于给动态网页（如使用ＣＧＩ、ＩＳＡＰＩ、ＰＨＰ／ＪＳＰ／ＡＳＰ／ＡｓＰ．ＮＥＴ等技术制作的网页）传递参数，可有多个参数，用“＆＂符号隔开，每个参数的名和值用“＝”符号隔开。ＵＲＬ中的ｐａｔｈ部分标识了系统资源在服务器上的路径，例如／ＷｅｂＡｐｐｌｉｃａｒｌｏｎｌ／ＷｅｂＦｏｒｍｌ．ａｓｐｘ。／表示Ｗｅｂ服务器根目录，／ＷｅｂＡｐｐｌｉｃａｔｉｏｎｌ／表示根目录下的ＷｅｂＡｐｐｌｉｃａｔｉｏｎｌ目录，以目录分层形成了站点的ＵＲＬ树，如图２－１所示：白－·舀站点结构自一镭瞄ｈｔ佃：ｌｉｗｗｗ．■—■■■■ｋｅｈ．ｃｎ：８０由．砭ｂ。：：审，·蓬函ｇｕｅｓｔｂｏｏｋ审“ｔ函ｐｅｏｐｌｅ．ａｓｐｘ窜”龟国ｔｏｕｇａｏ图２－１站点ＵＲＬ树图２．４．１．２网络爬虫在检测中的作用网络爬虫是Ｗｅｂ安全漏洞扫描工具的核心组成部分，漏洞扫描工具通过网络爬虫模块来搜集目标站点的ＵＲＬ树，从中可以分析得到后续各个攻击模块的漏洞检测点，所以网络爬虫搜集到的站点ＵＲＬ的完整性，直接影响到漏洞扫描工具的检测覆盖率。Ｗｅｂ安全漏洞扫描工具中的网络爬虫工作原理和搜索引擎网络爬虫的工作原理是基本相同的，不同的是工具中的网络爬虫只抓取目标站点网页，基于优化的广度优先策略对目标站点网页进行抓取【１２．１３１。上一节提到，站点的ＵＲＬ构成一棵ＵＲＬ树，例如首地址为：ｈｔｔｐ：／／ｗｗｗ．ｉｍａｉｌｔｏｎｅ．ｃｏｍ：８０／ＷｅｂＡｐｐｌｉｃａｔｉｏｎｌ／，网络爬虫中的ＵＲＬ过滤模块，对抓取过程中的ＵＲＬ按如下策略进行过滤：站外ＵＲＬ、非首地址ＵＲＬ子树的ＵＲＬ、重复的ＵＲＬ、同类型重复出现的ＵＲＬ。通过９电子科技大学硕士学位论文按照上述策略进行ＵＲＬ过滤后，可以在保证抓取覆盖率基本不变的情况下，极大的减少ＨＴＴＰ请求个数，能够大幅度提高系统的扫描效率。同时限定初始化ＵＲＬ子树的抓取策略，可以方便对大型站点进行拆分分析，提高工作效率。网络爬虫的工作流程，如图２．２所示：（，＼开始、／Ｊ初始ＵＲＬ上Ｈ抓取网页上网页解析上ＵＲＬ格式４－１＝占ＵＲＬ过滤ｊ上ＵＲＬ保存上ＵＲＬ入队——■Ｚ：：—～ｔＹ图２－２网络爬虫工作流程图２．４．２Ｓ０ｌ注入漏洞２．４．２．１ＳＯＬ注入概念Ｗｅｂ系统通常由前端的Ｗｅｂ应用加后台的数据库组成。ＳＱＬ注入是针对Ｗｅｂ系统数据库的攻击手段。ＳＱＬ注入采取ＳＱＬ语法进行攻击，利用应用程序的漏洞，构造恶意的ＳＱＬ语句注入到后台数据库执行【１４】。目前来说，十大针对Ｗｅｂ应用ｌＯ第二章Ｗｅｂ应用安全介绍攻击手段，ＳＱＬ注入名列榜首。２．４．２．２ＳＧＬ注入产生原因Ｗｅｂ应用程序存在的ＳＱＬ注入漏洞，通常是开发人员在系统开发过程中引入的。开发人员可能由于缺乏Ｗｅｂ安全方面的相关知识或者安全编程方面的经验，导致在编写代码时考虑不够完善，对用户提交的数据没有进行适当的验证，直接采取用户提交数据构造数据库查询语句，从而引入了ＳＱＬ注入漏洞。ＳＱＬ注入攻击，不同于网络层面的攻击，利用的是Ｗｅｂ应用开放的端口，通常不被防火墙等设备检测到，所以ＳＱＬ注入的特点是隐蔽性很高【１５】，如果不是攻击者故意留下痕迹，或者管理员有查看数据库日志的习惯，基本不会被发现。Ｗｅｂ应用开发周期短，开发人员进度压力较大，也是造成漏洞的原因之一。攻击者发现ＳＱＬ注入漏洞后，通过构造ＳＱＬ语句，就可以获得他想要的数据库敏感信息。Ｗ曲应用程序存在下面的情况【１６】，存在ＳＱＬ注入漏洞风险比较高：１．编程人员用网页上的输入参数，用字符串连接的方式拼凑ＳＱＬ语句。２．使用过大权限用户访问数据库，如ＳＱＬＳｅｒｖｅｒ的ｓａ用户或者ｍｙｓｑｌ的ｒｏｏｔ用户。３．数据库开发了权限过大的功能，如ＳＱＬＳｅｒｖｅｒ数据库的ｘｐ４．对用户的输入数据，完全不进行过滤。２．４．２．３ＳＯＬ注入攻击过程第一步：判断Ｗｅｂ应用是否可以进行ＳＱＬ注入。如果ＵＲＬ仅是对静态网页的访问，不存在ＳＱＬ注入问题，如：ｈｔｔｐ：／／ｎｅｗｓ．ＸＸＸ．ｃｏｒｎ．ｃｎ／２０３０５６５７６５８．ｓｈｔｍｌ就是普通的网页访问。只有存在数据库动态查询请求的ＵＲＬ，才可能存在ＳＱＬ注入，如：ｈｔｔｐ：ｌｌｗｗｗ．ｘｘｘ．ｃｎ／ｗｅｂ．ｊｓｐ？ｉｄ＝３９，其中？ｉｄ＝３９表示数据库查询变量，这种语句会在数据库中执行，因此可能会给数据库带来威胁。第二步：寻找ＳＱＬ注入点。完成带参ＵＲＬ的查找后，通过构造一些特殊ＳＱＬ语句，替换掉ＵＲＬ参数的值，然后根据浏览器返回信息，来判断该ＵＲＬ是否为ＳＱＬ注入点。第三步：猜解用户名和密码【１７１。软件开发人员设计的数据库表名、字段名通常是有规律可循的。通过精心构建的ＳＱＬ语句在数据库中依次查找表名、字段名、用户名和密码的长度等内容。第四步：寻找Ｗｅｂ系统管理后台入口。通常Ｗｅｂ系统后台管理的界面不向普电子科技大学硕士学位论文通用户开放，要寻找到后台的登陆路径，可以利用扫描工具，对可能的后台入口地址进行测试。第五步：入侵和破坏。成功登陆管理系统后，接下来就可以任意进行破坏行为，如篡改网页、上传木马、修改、泄漏用户信息等，并进一步入侵数据库服务器。２．４．２．４ＳＱＬ注入攻击危害目前几乎所有政府、电信、移动、证券、银行以及电子商务企业都提供查询、在线交易和在线咨询服务。用户的敏感信息包括个人账户、身份信息、交易记录等等，都是通过Ｗｅｂ应用系统存储在后台数据库中，这样的在线服务一旦崩溃，或虽然运行正常，但数据库数据已被盗取或篡改，都会给企业及其用户构成巨大的损失。据相关部门统计，身份失窃目前已成为全球最严重的问题之一。政府网站被外来势力攻击和篡改，造成了恶劣的社会影响，已经在危害着社会的稳定。２．４．２．５ＳＯＬ注入漏洞检测方法ＳＱＬ注入漏洞的检测就是模仿黑客攻击网站的方法进行检查，因此漏洞检测的步骤和攻击的步骤很相似。因为网页存在对数据库的访问，才会存在ＳＱＬ注入漏洞风险，所以首先需要收集带ｑｕｅｒｙ字段的ＵＲＬ。如：ｈｔｔｐ：／／ｗｗｗ．ｘｘｘ．ｃｎ／ｗｅｂ．ｊｓｐ？ｉｄ＝３９。分别用原始的ＵＲＬ和预先设计好的测试脚本依次替换掉ｑｕｅｒｙ的变量值后的ＵＲＬ进行ＨＴＴＰ请求，记录ＨＴ］ｒＰ回应头和回应头。对返回的ＨＴｒＰ报文进行分析，满足一定的条件，则说明该网页存在ＳＱＬ注入漏洞风险。具体的测试方法分为两类【１８】：＞基于异常反馈信息的检测测试ＵＲＬ；ｈｔｔｐ：ｌｌｗｗｗ．料：ｌ：．ｃｎ／ｂｂｓ／ｌｉｓｔ．ａｓｐ？ｂｏａｒｄｉｄ＝１０７１．测试脚本：“’”则连接变为ｌ啪：价哪ｗ．料木．ｃｒｆｆｂｂｓ／ｌｉｓｔ．ａｓｐ？ｂｏａｒｄｉｄ＝１０７’请求该链接，用抓包工具，捕捉回应的Ｈ１］限报文，存在以下情况说明该ＵＲＬ存在ＳＱＬ注入漏洞的风险非常大：ＨＴＴＰ回应码为“５００”：ＨＴ刀吖１．１５００ＩｎｔｅｒｎａｌＳｅｒｖｅｒＥｒｒｏｒ或者ＨＴＴＰ回应体存在类似内容：ＭｉｃｒｏｓｏｆｔＯＬＥＤＢＰｒｏｖｉｄｅｒｆｏｒＳＱＬＳｅｒｖｅｒ错误·８００４０ｅ１４’１２第二章Ｗｅｂ应用安全介绍字符串”之前有未闭合的引号。以上内容为ＳＱＬＳｅｒｖｅｒ数据的数据异常信息。／ｂｂｓ／ｌｉｓｔ．ａｓｐ，行３３２．测试脚本替换为：“’伪则连接变为１１竹ｐ：／／ｍｖｗ－料宰．ｃｎ／ｂｂｓ／ｌｉｓｔ．ａｓｐ？ｂｏａｒｄｉｄ＝１０７”请求该链接，用抓包工具，捕捉回应的ＨＴＴＰ报文，存在以下情况说明该ＵＲＬ存在ＳＱＬ注入漏洞的风险非常大：ＨＴＴＰ回应码为“５００”：ＨＴＩＴ／１．１５００ＩｎｔｅｒｎａｌＳｅｒｖｅｒＥｒｒｏｒ或者ＨＴＴＰ回应体存在类似内容：ＭｉｃｒｏｓｏｆｔＯＬＥＤＢＰｒｏｖｉｄｅｒｆｏｒＳＱＬＳｅｒｖｅｒ错误’８００４０ｅ１４’不能使用空白的对象或列名。如果必要，请使用一个空格。／ｂｂｓ／ｌｉｓｔ．ａｓｐ，行３３服务器ＨＴＴＰ回应码５００，通常是由于数据库异常访问导致的，所以回应码也可以作为ＳＱＬ注入的判别特征，更明显的服务器返回的异常信息包含上述提到的特征字段，则数据库肯定是处在不安全的状态，Ｗｅｂ应用程序直接把数据库异常信息，暴露在用户面前是非常危险的，黑客可以从异常信息得到数据库类型、版本、甚至有时候会暴露表名或字段名。并且ＳＱＬ注入的风险相对大。具体的异常特征字段对每种数据库都是不一样的，所以需要收集各种数据库异常特征字段进行ＳＱＬ注入漏洞的判断。＞经典的１＝１、１＝２检测法不是所有的Ｗｅｂ应用程序都会直接把数据库的异常信息直接返回给用户。通常的Ｗｅｂ应用都会对常见的错误，较常见的有４０４、５００，进行异常包装，用定义的比较友好的错误提示页面，取代系统的默认出错提示。或者有的稍有Ｗ曲安全概念的开发人员，以为屏蔽掉“’’’就可以避免ＳＱＬ注入了，这种情况在实际的经验中，也确实存在过。这种情况下，是否存在ＳＱＬ注入漏洞，用第一种检测方法就比较不准确了，此时就应该采用第二种测试办法，按如下方法请求：１．ｈ却：／／ｗｗｗ．料木．ｃｎ／ｂｂｓｆｌｉｓｔ．ａｓｐ？ｂｏａｒｄｉｄ＝１０７２．ｈｔｔｐ：／／ｗｗｗ．宰木丰．ｃｎ／ｂｂｓ／ｌｉｓｔ．ａｓｐ？ｂｏａｒｄｉｄ＝１０７ａｎｄ１＝１３．ｈｔｔｐ：／／ｗｗｗ．枣木书．ｃｎ／ｂｂｓ／ｌｉｓｔ．ａｓｐ？ｂｏａｒｄｉｄ＝１０７ａｎｄ１＝２这是针对数字型参数的１＝１、１＝２测试，除此之外还有字符型，这种测试方法１３子科技大学硕士学位论文１．请求１正常显示２．请求２正常显示，且和请求１页面一样３．请求３显示和请求１，２不一样，提示出错或找不到记录或显示为空以上提到的检测方法都着重在检测原理的阐述，在实际运用中，还会尝试构造更多的测试脚本，具体的测试脚本构造会在实现部分详细介绍。２．４．３ＸＳＳ漏洞２．４．３．１ＸＳＳ概念现在的Ｗｅｂ站点为了提高用户的体验，增加了很多动态的内容，动态内容通常是通过脚本语言来输出的。这类型的Ｗｅｂ站点会受到ＸＳＳ的攻击，ＸＳＳ又叫ＣＳＳ（ＣｒｏｓｓＳｉｔｅｓｃｒｉｐ０，跨站脚本攻击。它指的是恶意攻击者往Ｗｅｂ页面里插入恶意ｈｔｍｌ代码，当用户浏览该页之时，嵌入其中Ｗｅｂ页面的ｈｔｍｌ代码会被执行，从而达到恶意用户的特殊目的【１９】。ＸＳＳ属于被动式的攻击，因为其被动且不好利用，所以许多人常呼略其危害性。目前来说，十大针对Ｗｅｂ应用攻击手段，ＸＳＳ名列第二。２．４．３．２ＸＳＳ产生原因ＸＳＳ漏洞可以分为两种类型【１９】：一类是来自内部的攻击，主要是利用目标Ｗｅｂ站点网页自身的漏洞，构造跨站脚本进行攻击。这种跨站漏洞产生的原因是Ｗｅｂ应用程序没有对用户提交的参数进行充分的检查和过滤，攻击者通过提交特殊的跨站脚本，使得ＸＳＳ漏洞直接存在于日标站点上。这种情况下受侵害的一般是该站点的用户，并且如果站点使用了Ａｊａｘ功能，还可能被盗用服务器上的信息。另一类是来自外部的攻击，攻击者自己搭建站点，放置跨站网页，诱使攻击目标点击访问。这种情况，攻击者一般使自己的站点域名，跟一些知名站点域名类似，借以骗取被攻击者的信任。２．４．３．３ＸＳＳ攻击过程ＸＳＳ攻击一般采用社会工程学的方式进行。当攻击者发现站点跨站漏洞或者自己构造的跨站漏洞后，会把具有跨站漏洞的网页ＵＲＬ通过多种方式进行分发，例如：邮件、即时通讯、论坛发帖、博客等。通常攻击者还会用十六进制或其他１４第二章Ｗｅｂ应用安全介绍编码格式对ＵＲＬ进行编码，以降低用户对ＵＲＬ合法性的怀疑。当有用户在聊天、收邮件、或者逛ＢＢＳ时不小心点击了该链接，网页的跨站脚本就会在用户浏览器执行，盗取用户Ｃｏｏｋｉｅ、吸引用户输入一些敏感信息，如身份信息、信用卡信息等。２．４．３．４ＸＳＳ攻击危害ＸＳＳ攻击是目前危害最严重的Ｗｅｂ安全攻击方式之一，其危害包括：窃取各类用户帐号，如邮件帐号、信用卡帐号、游戏帐号；窃取企业具有商业价值的重要资料；操纵企业数据，包括上传、下载、篡改、删除敏感的企业数据；网页挂载木马；电子邮件强制发送；非法转账；以受害者机器为攻击跳板。２．４．３．５ＸＳＳ漏洞检测方法ＸＳＳ漏洞检测的方法，同样是模拟黑客攻击的方法。类似ＳＱＬ注入漏洞检测，ＸＳＳ检测首先需要收集带ｑｕｅｒｙ字段的ＵＲＬ。具体测试方法［２ｓ】：测试ＵＲＬ：ｈｔｔｐ：／／ｗｗｗ．ｘｘｘ．ｏｎ／ｓｅａｒｃｈ．ｊｓｐ？ｆｉｔｌｅ＝ｎｅｗｓ。测试脚本：＜ｓｃｒｉｐｔ＞ａｌｅｒｔ（‘ＸＳＳ’）＜／ｓｃｒｉｐｔ＞替换ｑｕｅｒｙ变量值请求：ｈｔｔｐ：／／ｗｗｗ．ｘｘｘ．ｏｎ／ｓｅａｒｃｈ．ｊｓｐ？ｋｅｙｗｏｒｄ＝＜ｓｃｒｉｐｔ＞ａｌｅｒｔ（‘ＸＳＳ’）＜／ｓｃｒｉｐｔ＞结果分析：抓包工具抓取该请求的ＨＴＴＰ响应报文，如果回应体里检测到发送的测试脚本＜ｓｃｒｉｐｔ＞ａｌｅｒｔ（‘ＸＳＳ’）＜／ｓｃｒｉｐｔ＞贝ＪＪ说明该ＵＲＬ存在跨站漏洞风险。上述测试方法是对ＸＳＳ漏洞检测的原理描述，实际运用中对测试脚本还有更多构造方法，在实现部分中会详细介绍。２．５本章小结本章首先介绍了Ｗｅｂ应用安全的国内外现状，接着给出了Ｗｅｂ应用常见安全漏洞分类，然后重点分析了Ｗｅｂ应用安全检测技术的国内外研究现状和目前的研究产品，最后研究总结了基于网络爬虫的ＳＱＬ注入和ＸＳＳ漏洞检测原理。１５图３—１ＷｅｂＳｃａｎｎｅｒ整体结构图第一部分：扫描调度引擎专门负责扫描模块的调度，与扫描任务的具体执行相隔离，无论扫描模块增加或者减少，都不影响调度引擎的调度逻辑。第二部分：扫描模块根据分析，所有的扫描模块，文章中涉及到的：如网络爬虫、ＳＱＬ注入漏洞扫描、ＸＳＳ漏洞扫描，文章中未涉及到的：如敏感目录、服务器方法等都具有同样的核心实现原理，在Ｈ们曙协议的基础上，构造漏洞探测请求，分析回应来判断是否存在漏洞【２３１。因此系统对整个扫描过程，高度抽象后，对所有扫描模块采用统一的设计。第三部分：公共组件对调度引擎和扫描模块中，使用到的公共功能，如配置文件访问、Ｈ订Ｐ传１６第三章Ｗｅｂ应用安全漏洞扫描工具系统设计输模块、线程池模块、数据库模块，作为公共组件。３．１调度引擎（ＳｃａｎＥｎｇｉｎｅ）设计３．１．１调度引擎工作原理调度引擎除了一些系统初始化的工作外，核心工作就是调度扫描模块执行。对扫描模块的调度，简单的实现方法，其实也可以直接在程序代码里，指定先执行哪个模块再执行什么模块。但这样设计的话，实际上具体的调度模块已经侵入到了扫描模块的调度逻辑，如果此时需要增加或减少一个模块，就会修改代码。设计调度引擎的目的，就是要达到调度逻辑和具体调度模块的解耦的效果【２４１。具体的设计方案，就是扫描模块的执行顺序，以配置文件的形式提供。扫描调度引擎根据配置文件，动态加载扫描模块执行，扫描模块的增减只体现在配置文件的修改上，从而达到上述的设计效果。调度引擎工作原理如图３—２所示，模块的虚线箭头表示，该模块不一定会被真正调用。图中扫描匿园兰与隧幺叠芦喇———叫圈ｉ囱｜囱｛自图３－２扫描调用引擎工作原理３．１．２调度引擎类结构调度引擎功能明确，类结构如图３—３所示，只有一个ＳｃａｎＥｎｇｉｎｅ类。类成员和方法都围绕调度引擎功能来设计。ｈｔｔｐＴｒａｎｓＨａｎｄｌｅｒ成员：ＨＴｒＰ数据传输模块１７电子科技大学硕士学位论文旬柄。ｔｈｒｅａｄＰｏｏｌＨａｎｄｌｅｒ成员：线程池句柄。ｃｏｎｆｉｇＩ－Ｉａｎｄｌｅｒ成员：配置文件读写模块句柄。ｄａｔａＢａｓｅＨａｎｄｌｅｒ成员：数据库操作句柄。ｓｃａｎＭｏｄｕｌｅＱｕｅｕｅ成员：从配置文件读取的需要依次被动态创建执行的扫描模块。Ｉｎｉｔ函数：初始化函数，执行配置文件加载，公共组件初始化操作。Ｄｉｓｐａｔｅｈ函数：执行扫描模块的调度执行。ＳｃａｎＥｎｇｉｎｅ＋ｈｔｔＤＴｒａｎｓＨａｎｄｌｅｒ＋ｔｈｒｅａｄＰ００１Ｈａｎｄｌｅｒ＋ｃｏｎｆｉｇＨａｎｄｌｅｒ＋ｄａｔａＢａｓｅＨａｎｄｌｅｒ＋ｌｏｇＨａｎｄｌｅｒ＃ｓｃａｎＭｏｄｕｌｅＱｕｅｕｅ＋Ｉｎｉｔ（）：ｖｏｉｄ＋Ｄｉｓｐａｔｃｈ０：ｖｏｉｄ图３－３ＳｃａｎＥｎｇｉｎｅ类图３．１．３调度引擎工作流程ＷｅｂＳｃａｎｎｅｒ启动后立即执行调度引擎模块。扫描调度引擎是系统的大脑，在这里系统的配置文件会被装载，系统的公共组件会被初始化，还有根据上一节讲述的工作原理，系统的扫描模块会被调度。扫描调度引擎的简要工作流程如图３．４所示：（，＼开始、）／◆配置文件加载１Ｌ公共组件初始化１Ｌ扫描模块调度土（结束）图３＿４ＳｅａｎＥｎｇｉｎｅ简要流程图第三章Ｗｅｂ应用安全漏洞扫描工具系统设计第一步：配置文件加载扫描调度引擎，负责系统配置文件，数据库配置文件加载。第二步：公共组件初始化根据配置文件内容，初始化配置文件访问、Ｈｗ曙传输模块、线程池模块、数据库模块等公共组件。第三步：扫描模块调度根据系统规则和配置文件，动态加载扫描模块，并顺序调度。３．２扫描模块（ＳｃａｎＭｏｄｕｌｅ）设计３．２．１扫描模块工作原理ＷｅｂＳｃａｎｎｅｒ中的网络爬虫、ＳＱＬ注入扫描、ＸＳＳ扫描等模块统称为扫描模块。之所以把这些模块划分为一类，是因为这些模块具有同样的实现原理。ＨＴＩＩＰ协议是一个客户端和服务器端请求和应答的标准。客户端通常是浏览器，称为用户代理（ｕｓｅｒａｇｅｎｔ），服务器端就是Ｗ曲服务器。扫描模块的核心思想就是模拟浏览器和服务器交互的过程，并且通常就伪装成浏览器，向服务器发送具有特定漏洞检测特征的ＨＴＴＰ请求，期望从服务器的应答中来发现服务器存在的Ｗｅｂ应用安全漏洞【２５ｌ。由于这种特性，黑客或者Ｗｅｂ安全人员也常常使用浏览器，作为一些常见Ｗｅｂ应用安全漏洞，如前面提到的ＳＱＬ注入漏洞、ＸＳＳ漏洞的检测工具。扫描模块的作用就是对这种ＨＴＴＰ请求构造、ＨＴＴＰ请求发送、ＨＴＴＰ回应接收、ＨＴＴＰ回应分析和检测结果数据保存，整个流程自动化、程序化。扫描模块的核心原理如图３．５所示：ｔｔＴＴＰ请求圃臣夏＝ｚ＝ｚ互奇１．．．．．．．．．．．．．．．．．．一Ｗｅｂ安全漏洞扫描程序计算机夺＝互互显互四ｔｔＴＴＰ回应Ｗｅｂ服务器图３－５扫描模块核心原理图通过这种程序化的方式，采用并发编程技术，可以同时执行多个检测任务，这样扫描模块就可以短时间执行大批量Ｗｅｂ应用安全漏洞检测任务，大大节省了Ｗｅｂ应用安全漏洞发现时间，通过即时修补，降低Ｗｅｂ应用的安全风险。１９电子科技大学硕士学位论文扫描模块探测流程代表了扫描模块的共性。具体到一个特定的扫描模块会有细微的差别，如ＳＱＬ注入模块，Ｈ，丌Ｐ请求的构造会有自己特定的参数，ＨＴＴＰ回应分析也会根据本漏洞特有的检测方法进行，探测结果数据保存也会由于数据结构的差异会有些微的不同。３．２．２扫描模块整体结构扫描模块是被扫描引擎调度执行的，扫描模块除了执行上一节讲述的通用流程外，还需要接收扫描引擎的命令，因此扫描模块需要设计为一个单独的线程，对于并发漏洞检测ＨＴｒｒＰ请求的功能需求，设计线程池来满足，同时如前文中提到Ｗｅｂ安全漏洞扫描工具的数据保存量比较大，所以设计一个文件ＤＢ来保存数据。ＳｃａｎＭｏｄｕｌｅ的整体结构设计【２６】如图３－６所示：矩形框内的是线程池执行部分，功能包括：１．网页抓取：网页抓取是所有扫描模块的核心功能，无论是爬虫还是ＳＱＬ注入等工具模块，只是具体模块发送的ＨＴＴＰ报文存在差别。２．漏洞分析：漏洞分析也是所有扫描模块的核心功能，区别在于对于爬虫来说，漏洞分析只是解析网页中的ＵＲＬ链接，而对于攻击模块来说就是分析是否存在漏洞。３．数据保存：数据保存同样是所有扫描模块的核心功能，结果数据保存到文件ＤＢ，当然各个模块发送或保存的数据是有一定差异的。矩形框外都是扫描模块线程负责执行部分，以轮询的方式执行功能包括：１．批量保存数据保存任务队列的任务到文件ＤＢ。２．批量从文件ＤＢ加载数据到ＵＩ也队列。３．从ＵＲＬ队列读取ＵＲＬ，根据测试脚本，构造测试任务加入ＳｃａｎＴａｓｋ队列。４．读取ＳｃａｎＴａｓｋ任务，丢入线程池执行。５．判断任务队列状态，线程池状态。２０第三章Ｗｅｂ应用安全漏洞扫描工具系统设计图３－６扫描模块整体结构图３．２．３扫描模块类结构扫描模块具有同样的核心流程和整体结构，所以很适合为扫描模块抽象出共同的接口。同时根据扫描模块整体结构图可以看出，扫描任务也可以抽象出共同的接口，扫描模块类结构如图３．７所示。Ｒｕｎｎａｂｌｅ接口：Ｒｕｎｎａｂｌｅ是仿照Ｊａｖａ线程库的设计的线程接口，其中定义了一个ｒｕｎ方法，需要线程执行的类可以实现该接口，这部分会在线程模块的设计做详细介绍。ＡｂｓｔｒａｃｔＭｏｄｕｌｅ抽象类：扫描模块抽象类，实现了Ｒｕｎｎａｂｌｅ接口，并且定义了扫描模块在模块初始化、扫描命令接收、任务队列管理、数据库管理、Ｈａｓｈ表管理、线程池监控等方面的函数接口。Ｉｎｉｔ函数：扫描模块开始执行时调用，初始化模块配置。ＦｌｕｓｈＤａｔａＴｏＤＢ函数：按照系统策略把数据保存任务队列的数据刷到数据库。ＬｏａｄＤａｔａＦｒｏｍＤＢ函数：按照系统策略批量把数据库数据加载到ＵＲＬ队列。ＩｓＤａｔａＳａｖｅＱｕｅｕｅＥｍｐｔｙ函数：判断数据保存任务队列是否为空。ＩｓＵｒｌＱｕｅｕｅＥｍｐｔｙ函数：判断ＵｒｌＱｕｅｕｅ是否为空。ＣｒｅａｔｅＴａｓｋ函数：从ＵＲＬ队列读取ＵＲＬ，根据测试脚本，生成扫描任务，插入到ＳｃａｎＴａｓｋ队列。ＩｓＴａｓｋＱｕｅｕｅＥｍｐｔｙ函数：判断ＳｃａｎＴａｓｋ队列是否为空。ＥｘｅｃｕｔｅＴａｓｋ函数：按照系统策略从ＳｃａｎＴａｓｋ队列读取任务，放到线程池执行。ＩｓＴｈｒｅａｄＰｏｏｌＢｕｓｙ函数：判断线程池是否还有线程任务在执行。ＧｅｔＣｏｍｍａｎｄ函数：获取ＳｃａｎＥｎｇｉｎｅ发送的命令。ＩｎｓｅｒｔＩ－ＩａｓｈＭａｐ函数：尝试往ｈａｓｈｍａｐ插入２ｌ描参数设置、网页抓取、网页分析、数据保存等方面的函数接口。ＦｅｔｃｈＨｔｍｌ函数：网页抓取接口。ＶｕｌｎｅｒａｂｉｌｉｔｙＡｎａｌｙｚｅ函数：执行漏洞分析的接口，存在漏洞返回Ｔｒｕｅ。ＳａｖｅＤａｔａＴｏＤＢ函数：执行数据保存到数据库的操作。ＳｃａｎＭｏｄｕｌｅ是一个扫描模块通用实现类，该类继承自ＡｂｓｔｒａｃｔＭｏｄｕｌｅ类，对抽象扫描模块的接口做了简单的实现，并且管理了一些扫描模块需要用到的数据结构。ｓｃａｎＥｎｇｉｎｅＨａｎｄｌｅｒ．维护的扫描引擎旬柄，用于访问扫描引擎的接口和公共组件。ｄａｔａＳａｖｅＴａｓｋＱｕｅｕｅ：保存数据任务队列，用于保存需要执行的ＳＱＬ语句，按策略批量执行，减少数据库并发，提高事务粒度，减少执行时间。ｕｒｌＱｕｅｕｅ：ＵＲＬ对象队列，保存从数据库加载的ＵＲＬ。ＳｃａｎＴａｓｋＱｕｅｕｅ．．扫描任务队列，保第三章Ｗｅｂ应用安全漏洞扫描工具系统设计存构造好的扫描任务。ｕｒｌＨａｓｈＭａｐ：一个ｋｅｙ为字符串的ＨａｓｈＭａｐ用于在扫描任务执行时，做一些重复ＵＲＬ过滤操作。ＳｃａｎＴａｓｋ是一个扫描任务的通用实现类，该类继承自ＡｂｓｔｒａｃｔＴａｓｋ类，对抽象接口做了简单的实现，并且管理了扫描任务需要用到的数据结构。ｔｅｓｔＵｆｌ：此次任务执行的啊ｌ对象。ｔｅｓｔＰａｒａｒｎ．此次任务执行测试的变量。ｔｅｓｔＰａｒａｍＳｃｒｉｐｔ：此次任务执行用的测试脚本。设计通用实现类ＳｃａｎＭｏｄｕｌｅ和ＳｃａｎＴａｓｋ的考虑是，当实现一个具体的扫描模块，如网络爬虫ＣｒａｗｌｅｒＭｏｄｕｌｅ类直接从ＳｃａｎＭｏｄｕｌｅ继承，ＣｒａｗｌｅｒＴａｓｋ类直接从ＳｃａｎＴａｓｋ继承，由于通用实现类已经实现了抽象接口的方法，所以网络爬虫扫描模块可以不做任何修改，先让整个调度执行流程先ｒｕｎ起来，边查看运行情况，边覆盖需要修改的虚方法，可以提高扫描模块的开发效率。３．２．４扫描模块工作流程ＳｅａｎＭｏｄｕｌｅ的总体工作流程步骤如下：第一步：ＳｃａｎＭｏｄｕｌｅ线程启动，调用Ｉｎｉｔ接口初始化扫描模块。第二步：调用ＧｅｔＣｏｍｍａｎｄ判断是否收到停止命令，收到停止命令则向线程池发送停止命令，然后执行下一步。未收到停止命令则转到第六步。第三步：调用ＩｓＴｈｒｅａｄＰｏｏｌＢｕｓｙ判断线程池是否仍在执行任务。第四步：调用ＩｓＤａｔａＳａｖｅＱｕｅｕｅＥｍｐｔｙ判断数据保存任务队列是否为空，不为空则调用ＦｌｕｓｈＤａｔａＴｏＤＢ保存数据到数据库。第五步：综合三四步的结果，判断条件：ＴｈｒｅａｄＰｏｏｌＢｕｓｙ为假且同时ＤａｔａＳａｖｅＱｕｅｕｅＥｍｐｔｙ为真。如果条件满足，转到第十二步。如果条件不满足，转到第二步。第六步：调用ＩｓＴｈｒｅａｄＰｏｏｌＢｕｓｙ判断线程池是否仍在执行任务。第七步：调用ＩｓＤａｔａＳａｖｅＱｕｅｕｅＥｍｐｔｙ判断数据保存任务队列是否为空，不为空则调用ＦｌｕｓｈＤａｔａＴｏＤＢ保存数据到数据库。第八步：调用ＬｏａｄＤａｔａＦｒｏｍＤＢ按照系统策略，加载一定量的ｕｒｌ到ＵＲＬ队列。第九步：调用ＩｓＵｒｌＱｕｅｕｅＥｍｐｔｙ判断ｕｒｌ队列是否为空，不为空调用ＣｒｅａｔｅＴａｓｋ接口创建ＳｃａｎＴａｓｋ插入ＳｃａｎＴａｓｋ队列。第十步：调用ＩｓＴａｓｋＱｕｅｕｅＥｍｐｔｙ判断ＳｃａｎＴａｓｋ队列是否为空，不为空调用电子科技大学硕士学位论文ＥｘｅｃｕｔｅＴａｓｋ把任务丢掉线程池执行。第十一步：综合六、七、九、十步的判断结果，判断条件：ＴｈｒｅａｄＰｏｏｌＢｕｓｙ为假且ＤａｔａＳａｖｅＱｕｅｕｅＥｍｐｔｙ为真且ＵｒｌＱｕｅｕｅＥｍｐｔｙ为真且ＴａｓｋＱｕｅｕｅＥｍｐｔｙ为真，如果条件不满足转到第二步，满足执行下一步。第十二步：扫描模块执行结束。３．３本章小结本章在基于ＨＴＴＰ协议的Ｗｅｂ应用安全漏洞扫描技术核心原理的基础上，设计了扩展性良好的Ｗｅｂ安全漏洞扫描工具（ＷｅｂＳｃａｎｎｅｒ）的系统基础架构，并对主要构成部分的工作原理，类结构和工作流程做了分析。第四章Ｗｅｂ应用安全漏洞扫描工具详细设计与实现第四章Ｗｅｂ应用安全漏洞扫描工具详细设计与实现４．１公共组件４．１．１配置文件模块４．１．１．１配置文件设计系统所有可变参数，全都配置文件化，系统配置文件结构如图所示４．１所示：图４－１系统配置文件结构图Ｃｏｎｆｉｇ．ｘｍｌ是系统读取的第一个配置文件，它不做具体的配置，只是记录其他几个配置文件相对它的路径。需要这样做的原因是如图所示，登录序列配置文件（ＬｏｇｉｎＳｅｑｕｅｎｃｅ．ｘｍｌ）和扫描模板配置文件（ＳｃａｎＴｅｍｐｌａｔｅ．ｘｍｌ）用不同颜色用于区别是因为，用户可以定义自己的登录序列文件和扫描模板文件，所以两个文件的文件名都是可变的，需要做这样的处理。ＳｙｓＣｏｎｆｉｇ．ｘｍｌ定义一些系统参数，如开启最大线程数等。ＤａｔａＢａｓｅＣｏｎｆｉｇ．ｘｍｌ顾名思义是对数据库相关内容进行配置。有时候需要登录系统后台进行扫描，前台模拟登录时会采用抓包的方式，抓取到电子科技大学硕士学位论文系统分配给用户的Ｃｏｏｋｉｅ信息，保存到ＬｏｇｉｎＳｅｑｕｅｎｃｅ．ｘｍｌ文件中，用以在接下来的扫描执行时，设置上Ｃｏｏｋｉｅ，抓取系统后台的网页。ＳｃａｎＴｅｒｎｐｌａｔｅ．ｘｍｌ配置了一次扫描过程中，哪些扫描模块会被执行，扫描模块用属性配置是否执行。扫描模板还记录了每个模块的模块参数配置文件，如爬虫模块ＣｒａｗｌＣｏｎｆｉｇ．ｘｍｌ，ＳＱＬ注入模块：ＳＱＬＩｎｊｅｃｔｉｏｎ．ｘｍｌ，ＸＳＳ扫描模块：ＸＳＳ．ｐｒｏｆｉｌｅ。４．１．１．２配置文件读写实现如上所述，系统的配置文件绝大部分都是ＸＭＬ文件形式的，如果直接采用ｅＨ标准库开发ＸＭＬ文件的读写是比较复杂的，因此系统引入了ＴｉｎｙＸｍｌ［２７】库，来实现系统ＸＭＬ配置文件读写功能。ＴｉｎｙＸｍｌ是一个基于ＤＯＭ模型的轻量级Ｃ＋＋开源ＸＭＬ解释器。ＤＯＭ（文档对象模型），即是在ＸＭＬ解析时将整个ＸＭＬ文档一次性装载入内存中，形成对应的树结构，同时向用户提供接口来访问和编辑树节点。ＴｉｎｙＸｍｌ类结构：ＴｉｎｙＸｍｌ的类结构非常简单，ＴｉＸｍｌＢａｓｅ：所有ＴｉｎｙＸＭＬ类的基类，保存该结点或属性在ＸＭＬ原文中的信息。ＴｉＸｍｌＡｔｔｒｉｂｕｔｅ：ＸＭＬ结点属性，键值对。ＴｉＸｍｌＮｏｄｅ：ＸＭＬ结点的基类，封装了对ＸＭＬ文档树形结构进行操作和维护的方法。ＴｉＸｍｌＤｅｅｌａｒａｔｉｏｎ：ＸＭＬ声明结点。ＴｉＸｍｌＤｏｃｕｍｅｎｔ：ＸＭＬ文档结点。ＴｉＸｍｌＥｌｅｍｅｎｔ：ＸＭＬ结点。ＴｉＸｒｎｌＴｅｘｔ：ＸＭＬ文本结点。ＴｉＸｍｌＣｏｍｍｅｎｔ：ＸＭＬ注释结点。ＴｉｎｙＸｍｌ接口介绍：∥读取配置文件ＴｉⅪｎ１Ｄｏｃｕｍｅｎｔｄｏｃ（”ＳｙｓＣｏｎｆｉｇ．ｘｍｌ”）；ｄｏｅ．ＬｏａｄＦｉｌｅ（”ＳｙｓＣｏｎｆｉｇ．ｘｍｌ”）；∥保存配置文件ＴｉＸｍｌＤｏｃｕｍｅｎｔｄｏｅ；ｄｏｅ．ＳａｖｅＦｉｌｅ（”ＳｙｓＣｏｎｆｉｇ．ｘｍｌ”）；∥遍历配置文件首先以ＦｋｓｔＣｈｉｌｄ获得第一个儿子节点，然后ＮｅｘｔＳｉｂｌｉｎｇ获取下个兄弟节点，如此递归遍历所有节点即可。ＴｉＸｒｎｌＮｏｄｅ：：ＦｉｒｓｔＣｈｉｌｄ０；第四章Ｗｅｂ应用安全漏洞扫描工具详细设计与实现ＴｉＸｍｌＮｏｄｅ：：ＮｅｘｔＳｉｂｌｉｎ９０；／／设置节点属性ＴｉＸｍｌＥｌｅｍｅｎｔ：：ＳｅｔＡｔｔｒｉｂｕｔｅ０；４．１．２线程池模块４．１．２．１多线程库设计与实现系统采用多线程编程技术，来保证漏洞扫描工具的执行效率。多线程编程的目的就是最大限度利用ＣＰＵ资源，当某一线程不需要占用ＣＰＵ只和Ｉ／Ｏ等资源打交道时，让需要占用ＣＰＵ资源的其它线程有机会获得ＣＰＵ资源。ｃ＋＋标准库中并没有多线程库的支持，因为多线程需要操作系统的支持，目前流行的Ｃ＋＋库有许多，但还没有统一的标准，接口十分复杂，而且大多数是对操作系统ＡＰＩ的简单封装，不是完全面向对象，不利于使用。本文在深入研究Ｊａｖａ多线程库基础上【２８】，基于其接口规范，结合面向对象及设计模式的思想，设计了轻量级跨平台的Ｃ十＋多线程库。为了保证多线程库的易用性，在Ｊａｖａ多线程库接口基础上进行剪裁，保留了进行多线程开发常用而且必要的接口，并保留其原始语义。线程库的类图如图４。２所示：线程库核心包括三个接口对象：ＮａｔｉｖｅＴｈｒｅａｄ接口，ＮａｔｉｖｅＭｏｎｉｔｏｒ接口，ＮａｔｉｖｅＦａｃｔｏｒｙ接口和一个运行时类Ｒｕｎｔｉｍｅ。此部分代码是在名字空间ｉｌｉｂ：：ｃｏｒｅ中：ｎａｍｅｓｐａｃｅｊｌｉｂ｛…ｎａｍｅｓｐａｃｅｃｏｒｅ｛…））ＮａｔｉｖｅＴｈｒｅａｄ接口是线程对象的抽象基类，各平台的具体线程线程对象类是ＮａｔｉｖｅＴｈｒｅａｄ的派生类，主要接口描述如下（本文中对接口的描述如未特别提及，则说明其是公共接口）：１．ＮａｔｉｖｅＴｈｒｅａｄ：传入Ｒｕｎｎａｂｌｅ构造线程对象实例。２．ｓｔａｒｔ：启动线程。３．ｊｏｉｎ：等待线程结束。４．ｉｓＡｌｉｖｅ：判断线程是否还在运行。２７电子科技大学硕士学位论文Ｍｏｎｉｔｏｒ目椰Ｎａｔ．ⅣｅＭｏｎｈｏｒ：ＮａｔｉｖｅＭｏｎｉｔｏｒ＂’＇Ｍｏｎｉｔｏｌ０’－Ｍｏｎｉｔｏｒ嚣宙％．ｖａｉｔＯ’ｗａｉｔ０，ｏｔｉ矗Ｏ’们ｉ～Ａ１１０％ｎｔｅｒ０’ＩｅａｖｅＯ图４＿２线程厍类图ＮａｔｉｖｅＭｏｎｉｔｏｒ接口是实现线程同步的抽象基类，各平台的具体线程同步类是ＮａｔｉｖｅＭｏｎｉｔｏｒ的派生类，接口描述如下：１．ｅｎｔｅｒ：获取锁。２．１ｅａｖｅ：释放锁。３．ｎｏｔｉｆｙ：随机唤醒一个等待该锁对象的线程。４．ｎｏｔｉｆｙＡｌｌ：唤醒所有等待该锁对象的线程。５．ｗａｉｔ：线程等待资源，释放锁，进入阻塞状态，直到被其他线程唤醒或超时。ＮａｔｉｖｅＦａｃｔｏｒｙ基于抽象工厂模式【２９１设计，负责线程对象和锁的创建，以及其他公用方法的实现。每个平台下负责派生具体的工厂类。接口描述如下：１．ｃｒｅａｔｅＭｏｎｉｔｏｒ：返回一个ＮａｔｉｖｅＭｏｎｉｔｏｒ实例。２．ｃｒｅａｔｅＴｈｒｅａｄ：传入一个Ｒｕｎｎａｂｌｅ，返回一个ＮａｔｉｖｅＴｈｒｅａｄ实例。３．ｓｌｅｅｐ：当前线程休眠，参数毫秒。ｍｍｔｉｍｅ类基于单实例模式【２明设计，实现跨平台机制的类，接口描述如下：１．ｎａｔｉｖｅＦａｃｔｏｒｙ：静态函数，在运行时返回对应平台下唯一的工厂实例。２８第四章Ｗｅｂ应用安全漏洞扫描工具详细设计与实现线程库个平台下的具体实现版本是通过派＠ｊｌｉｂ：：ｃｏｒｅ中的接口来实现的。此部分代码在名字空间ｊｌｉｂ：：平台名：：ｌａｌｌｇ中：ｎａｍｅｓｐａｃｅｊｌｉｂ｛…ｎａｍｅｓｐａｃｅ平台名｛…ｎａｍｅｓｐａｃｅｌａｎｇ｛…）））基于易用性的思想，本线程库设计了基于Ｊａｖａ接口裁剪而来的Ｒｕｎｎａｂｌｅ接口，Ｔｈｒｅａｄ类，Ｍｏｎｉｔｏｒ类，Ｌｏｃｋ类和ｓｙｃｈｒｏｎｉｚｅｄ关键字，提供了与Ｊａｖａ多线程库相同的外观。此部分代码是在名字空间ｉｌｉｂ：：ｌａｎｇ中：ｎａｍｅｓｐａｃｅｊｌｉｂ｛…ｎａｍｅｓｐａｃｅｌａｎｇ｛…））Ｒｕｎｎａｂｌｅ接口：１．ｒａｎ：子类覆盖此函数，实现具体的线程代码。Ｔｈｒｅａｄ类使用外观模式㈣提供Ｊａｖａ线程类外观，它实现的功能都是调用ＮａｔｉｖｅＴｈｒｅａｄ和ＮａｔｉｖｅＦａｃｔｒｏｙ得到。Ｍｏｎｉｔｏｒ类使用外观模式【２９１，配合ｓｙｃｈｒｏｎｉｚｅｄ关键字提供Ｊａｖａ线程同步外观，它通过调用ＮａｔｉｖｅＭｏｎｉｔｏｒ和ＮａｔｉｖｅＦａｃｔｒｏｙ实现功能。Ｌｏｃｋ类，是Ｍｏｎｉｔｏｒ管理类，类描述如下：１．Ｌｏｃｋ：传入Ｍｏｎｉｔｏｒ，调用Ｍｏｎｉｔｏｒ．ｅｎｔｅｒ加锁。２．～Ｌｏｃｋ：Ｍｏｎｉｔｏｒ．１ｅａｖｅ释放锁。３．Ｌｏｃｋ（Ｌｏｃｋ＆）：拷贝构造。４．Ｏｐｅｒａｔｏｒ＝（Ｌｏｃｋ＆）：赋值函数ｓｙｎｃｈｒｏｎｉｚｅｄ关键字，配合Ｍｏｎｉｔｏｒ提供Ｊａｖａ同步类使用外观，实现如下：＃ｄｅｆｉｎｅｓｙｎｃｈｒｏｎｉｚｅｄ（ｘ）ｉｆ（Ｌｏｃｋｌ—ｏ—ｏ—ｋ＝ｘ）。ｘ为Ｍｏｎｉｔｏｒ对象由于Ｌ０ｃｋ类的赋值函数参数为Ｌ０ｃｋ，当传入参数为Ｍｏｎｉｔｏｒ时，会进行隐式类型转换，调用Ｌｏｃｋ类的构造函数加锁，推出ｉｆ语句的作用域时会自动调用Ｌｏｃｋ的析构函数释放锁。跨平台的支持：Ｃ＋＋是通过宏和条件编译语句来实现跨平台的，由于Ｒｕｎｔｉｍｅ类基于单体模式实现，是本线程库的入口，通过其ｎａｔｉｖｅＦａｃｔｏｒｙ接口我们能获得具体平台的唯一工厂实例。由于本线程库所有具体类来自于工厂，所以动态切换工厂就可以达到２９电子科技大学硕士学位论文跨平台的效果。未来可以继续添加更多平台的支持，非常容易扩展。４．１，２．２线程池的设计与实现线程池一种常见多线程处理工具，线程池的基本原理很简单，通常内部维护一个任务队列，队列里的所有任务都实现同一个任务接口，然后线程池会生成多个具有相同优先级的线程，读取任务队列的任务，进行执行［２８】。一个实际运用的线程池，通常会设计一个管理类，提供一系列接口，让外部模块可以对线程池进行配置和控制。线程池的整个类结构如图４．３所示：ＴｈｒｅａｄＰｏｏｌＭａｎａｇｅｒ—ｂＳｔｏｐ：ｂｏｏｌ—ｔａｓｋＱｕｅｕｅ：ＴａｓｋＯｕｅｕｅ—ｗｏｒｋＴｈｒｅａｄＱｕｅｕｅＷｏｒｋＴｈｒｅａｄＱｕｅｕｅ—ｔａｓｋＱｕｅｕｅＭｏｎｉｔｏｒ：Ｍｏｎｉｔｏｒ＋ＴｈｒｅａｄＰ００１Ｍａｎａｇｅｒ（ｉｎｓｉｚｅ：ｕｎｓｉｇｎｅｄｉｎｔ）＋ｅｘｅｅｕｔｅＴａｓｋ（ｉｎｐＴａｓｋ：ｃｏｎｓｔＴａｓｋ＊）：ｖｏｉｄ＋ｇｅｔＴｈｒｅａｄＳｉ０：ｕｎｓｉｇｎｅｄｉｎｔ＋ｇｅｔＢｕｓｙＴｈｒｅａｄＳｉｚｅＯ：ｕｎｓｉ＆，ｎｅｄｉｎｔ＋ｉｓＴａｓｋＱｕｅｕｅＥｍＤｔＹ０：ｂｏｏｌ＋ｇｅｔＴａｓｋＱｕｅｕｅＳｉｚｅ０：ｕｎｓｉｇｎｅｄｉｎｔ＋ｉｓＴｈｒｅａｄＰｏｏｌＢｕｓｙＯ：ｂｏｏｌ＋ｓｔｏｐＴｈｒｅａｄＰｏｏｌＯ：ｂ００１＋１ＴｈｒｅａｄＰｏｏｌＭａｎａｇｅｒ（ｉｎｓｉｚｅ：ｕｎｓｉｓｈｅｄｉｎｔ）图４—３线程池类结构图ＴｈｒｅａｄＰｏｏｌＭａｎａｇｅｒ类：线程池管理类，负责任务队列的管理，工作线程队列的管理，线程池状态的管理。ｂＳｔｏｐ成员：标识外部是否发给线程池停止命令。ｔａｓｋＱｕｅｕｅ成员：线程池任务保存队列，队列里的任务都实现了Ｔａｓｋ接口。ｗｏｒｋＴｈｒｅａｄＱｕｅｕｅ成员：工作线程保存队列，常被用来遍历访问线程池工作线程状态。ｔａｓｋＱｕｅｕｅＭｏｎｉｔｏｒ成员：同步互斥变量，用于任务队列的并发访问控制。ＴｈｒｅａｄＰｏｏｌＭａｎａｇｅｒ构造函数：传入需要构造线程池，初始线程数。ｅｘｅｃｕｔｅＴａｓｋ函数：执行任务，实际上把任务放入线程池任务队列，等待线程池执行。ｇｅｔＴｈｒｅａｄＳｉｚｅ函数：返回线程池创建的线程数。ｇｅｔＢｕｓｙＴｈｒｅａｄＳｉｚｅ函数：返回线程池正在执行任务的线程数。ｓｔｏｐＴｈｒｅａｄＰｏｏｌ函数：向线程池发送停止命令，内部置ｂＳｔｏｐ为ｔｒｕｅ。ｉｓＴｈｒｅａｄＰｏｏｌＢｕｓｙ函数：判断线程池是否仍有线程还在执行任务。ｇｅｔＴａｓｋＱｕｅｕｅＳｉｚｅ函数：返回任务队列任务数。ｉｓＴａｓｋＱｕｅｕｅＥｍｐｔｙ函数：判断任务队列是否为空。～ＴｈｒｅａｄＰｏｏｌＭａｎａｇｅｒ析构函数：用于在线程池管理类退出是，释放任务队列还未执行的任务资源和工作线程队列的线程资源。Ｔａｓｋ接口：需要置入线程池执行的任务需要实现的统一接口。ｅｘｅｃｕｔｅ函数：任务被调度第四章Ｗｅｂ应用安全漏洞扫描工具详细设计与实现执行的方法。ＷｏｒｋＴｈｒｅａｄ类：工作线程类从线程库线程类Ｔｈｒｅａｄ类继承，负责线程池任务的具体执行工作。ｒＴｈｒｅａｄＰｏｏｌＭａｎａｇｅｒ成员：线程池管理类的引用，用以访问线程池管理类的成员，线程池管理类会把ＷｏｒｋＴｈｒｅａｄ申明为友元。ｂＳｔｏｐ成员：标准该线程是否正在执行任务。ＷｏｒｋＴｈｒｅａｄ构造函数：传入线程池管理类的引用。ｒｕｎ方法：实现Ｔｈｒｅａｄ的线程接口，具体实现从任务队列读取任务执行等操作。ｎｌｎ方法具体实现如下：ｖｏｉｄＷｏｒｋＴｈｒｅａｄ：：ｒｔｍ０｛ｗｈｉｌｅ（ｔｒＴｈｒｅａｄＰｏｏｌＭａｎａｇｅｒ．ｂＳｔｏｐ）｛Ｔａｓｋ木ｐＴａｓｋ＝ｎｕｌｌ；Ｓｙｃｈｒｏｎｉｚｅｄ（ｒＴｈｒｅａｄＰｏｏｌＭａｎａｇｅｒ．ｔａｓｋＱｕｅｕｅＭｏｎｉｔｏｒ）｛ｐＴａｓｋ＝ｒＴｈｒｅａｄＰｏｏｌＭａｎａｇｅｒ．ｆｒｏｎｔ０；ｒＴｈｒｅａｄＰｏｏｌＭａｎａｇｅｒ．ｐｏｐ０；）ｉｆ（ｎｕｌｌ！＝ｐＴａｓｋ）｛ｂＢｕｓｙ＝ｔｒｕｅ；ｐＴａｓｋ－＞ｅｘｅｃｕｔｅ０；ｄｅｌｅｔｅｐＴａｓｋ；ｐＴａｓｋ＝ｎｕｌｌ；ｂＢｕｓｙ＝ｆａｌｓｅ；＞ｅｌｓｅ｛ｓｌｅｅｐ（２０）；＞））３１电子科技大学硕士学位论文４．１．３数据库访问模块４．１．３．１数据库连接池设计数据库对于本系统而言是一个共享资源，系统模块在访问数据库时会先请求数据库连接，执行完相关操作后会释放数据库连接，过程中对连接的创建和释放都是很耗费数据库资源的。对于共享资源，存在一个良好的设计模式：资源池【３０】。该模式主要解决的就是资源的频繁分配和释放的问题。针对数据库而言，可以采取数据库连接池的方式进行设计。图４－４数据库连接池工作原理图数据库连接池的工作原理如图４—４，连接池主要作用是对数据库连接进行统一的创建、管理和释放，并提供接口供外部对连接池进行配置、申请链接、释放连接等。连接池的管理工作设计类ＤＢＣｏｎｎｅｃｔｉｏｎＰｏｏｌ完成，具体的数据库连接设计类ＤＢＣｏｎｎｅｅｆｉｏｎ。详细的类结构图在实现部分会给出。４．１．３．２动态数据构件的设计通常ｃ＋＋对关系型数据库的访问，都是通过编写ＳＱＬ语句来完成的。这样的实现在功能上是可行的。但从设计的角度来看，这样导致的结果是数据库操作的代码侵入了系统业务逻辑方面的代码，并且散布在系统的各个角落。而且从实践的角度来看，数据库表在开发过程中，通常是会发生变化的，基于ＳＱＬ语句的开发，往往在表发生变化的时候，会修改所有使用访问该表的ＳＱＬ语句代码，工作量大，出错的机会也比较高。在Ｊａｖａ等语言的开发中，为了解决数据库访问的上３２第四章Ｗｅｂ应用安全漏洞扫描工具详细设计与实现述问题，通常是引入对象关系映射（ＯｂｊｅｃｔＲｅｌａｔｉｏｎａｌＭａｐｐｉｎｇ，简称ＯＲＭ）技术，该技术是一种为了解决面向对象与关系数据库存在的互不匹配的现象的技术。简单的说，ＯＲＭ是通过使用描述对象和数据库之间映射的元数据，将ｉａｖａ程序中的对象自动持久化到关系数据库中。本质上就是将数据从一种形式转换到另外一种形式。基于这方面技术流行的框架是Ｈｉｂｅｒｎａｔｅ，基本统一了Ｊａｖａ数据库开发的市场。对于Ｊａｖａ能采用ＯＲＭ技术的原因是其天然的优势，Ｊａｖａ是解释性语言具有虚拟机，其具有代码自醒能力，通常称为Ｊａｖａ反射机制，这在ｃ＋＋开发中是做不到的。但对于这种“将数据从一种形式转换到另外一种形式＂的设计思想，在Ｃ＋＋的开发中还是能借鉴的，因此本文在研究ＯＲＭ技术原理的基础上，提出了可应用Ｃ＋＋开发的动态数据构件技术。所谓软件构件即是指其独立于系统，可以方便更换，具有特定功能性的模块。动态数据构件设计主要包含两个部分：元数据映射文件【３１】和动态数据对象。元数据映射文件主要定义对象和关系数据库表的映射关系，具体到对象的一个什么类型的属性，对应到数据库一个什么类型的字段。根据本系统应用的特定，目前动态数据构件的实现，只实现了数字型和字符型的映射，在以后的应用中可以继续扩展。以网络爬虫模块的部分元数据映射文件为例：＜ｂｅａｎｎａｍｅ＝”ＣｒａｗｌｅｒＤａｔａＯｂｊｅｃｔ”ｔａｂｌｅＮａｍｅ＝”ＣＲＡＷＬ—ＲＥＳＵＬＴ”＞ｎａｍｅ＝”ｓｔｒＵｒｌ＂ｉｓＮｕｍｅｒｉｃ＝”０”ｃｏｌｕｍｅｎＮａｍｅ＝”ＵＲＬ＂＜ｐｒｏｐｅｒｔｙｄｂＴｙｐｅ＝”ＶＡＲＣＨＡＲ（２５６）”，＞＜ｐｒｏｐｅｒｔｙｎａｍｅ＝”ｓｔｒＭｅｔｈｏｄ”ｉｓＮｕｍｅｒｉｃ－－”０”ｃｏｌｕｍｅｎＮａｍｅ＝”ＭＥＴＨＯＤ”ｄｂＴｙｐｅ＝”ＶＡＲＣＨＡＲ００）’’／＞＜／ｂｅａｎ＞其中ｂｅａｎ节点有两个属性：ｎａｍｅ定义了对象名，ｔａｂｌｅＮａｍｅ定义了映射到的数据表。Ｐｒｏｐｅｒｔｙ节点代表的是条对象属性和数据库字段的映射，ｎａｍｅ属性定义了对象属性名，ｉｓＮｕｍｅｒｉｃ定义了数据库类型是否为数字型，ｃｏｌｕｍｅｎＮａｍｅ定义了数据库字段名，ｄｂＴｙｐｅ定义了数据库类型。动态数据构件在启用时，会首先把元数据映射文件加载到内存，根据元数据映射文件可以创建定义的表，在保存对象时也可以根据具体的数据类型映射，自动的构造ＳＱＬ语句。动态数据对象的应用是在元数据映射文件的基础上的。动态数据对象本质是一个复杂的容器，内部除了一个记录对象名和一个记录数据库报名的两个简单成员外，就是四个哈希表成员，如图４．５：３３ｅ：保存数据对象名称；为对象属性名，ｖａｌｕｅｖａｌｕｅ为对象类型（是ｖａｌｕｅ为对应的数据库字段名；ｃｏｌｕｍｎＴｙｐｅ：哈希表，ｋｅｙ为数据库字段名，ｖａｌｕｅ为数据库字段类型。４．１．３．３基于ＳＯＬｉｔｅ的数据库访问模块实现ＳＱＬｉｔｅ［３２】是一种开源的嵌入式关系数据库，它在２０００年由Ｄ．ＲｉｃｈａｒｄＨｉｐｐ发布。ＳＱＬｉｔｅ嵌入到使用它的应用程序中，它们共用相同的进程空间，而不是单独的一个进程。从外部看，它并不像一个ＲＤＢＭＳ，但在进程内部，它却是完整的，自包含的数据库引擎。ＳＱＬｉｔｅ减少了应用程序管理数据的开销，且ＳＱＬｉｔｅ的数据库就是一个单独的文件，而且采用自己专业的文件格式，移植性非常好，可以运行在Ｗｉｎｄｏｗｓ，Ｌｉｎｕｘ，ＢＳＤ，ＭａｃＯＳＸ和一些商用Ｕｎｉｘ系统。ＳＱＬｉｔｅ是开源项目，可以自己下载源代码来编译。系统采用动态链接库的形式来使用ＳＱＬｉｔｅ。本文在数据库连接池技术和动态数据构件技术的基础上，对ＳＱＬｉｔｅ文件数据库的访问进行了封装。整个数据库访问模块的类结构如图４—６所示：ＤＢＣｏｎｎｅｃｔｉｏｎＰｏｏｌ类：数据库连接池管理类，该类具有双重职责，职责一：数据库连接的管理，职责二：动态数据构件的管理。下面是主要的成员介绍。ｍｅｔａＴａｂｌｅＶｅｃ：元数据映射文件以ＤａｔａＯｂｊｅｃｔ的形式加载到内存后，保存到这个ｖｅｃｔｏｒ，供后续数据库操作生产ＳＱＬ语句时使用；ｇｅｔＤＢＣＰＩｎｓｔａｎｃｅ：静态函数，单例模式的接口；ｉｎｉｔ：数据库连接池使用前需要调用该函数，传入需要创建的数据库文件和动态数据构件元数据映射文件；ｂａｎｄＴａｂｌｅ：绑定一个ＤａｔａＯｂｊｅｃｔ对象到一个具体的表上，此时表的元数据信息会保存到ＤａｔａＯｂｊｅｃｔ对象的内部成员中；ｇｅｔＤＢＣｏｎｎｅｃｔｉｏｎ：获得一个数据库连接；ｃｌｏｓｅ：关闭所有已创建的数据库连接，通常是在数据库连接池退第四章Ｗｅｂ应用安全漏洞扫描工具详细设计与实现出前调用。除这些成员以外，数据库连接池类，会把数据库连接类申明为友元。ＤＢＣｏｎｎｅｅｔｉｏｎＰｏｏｌ—ｍａｘＳｉｚｅ：ｕｎｓｉｇｎｅｄｉｎｔ１ｌｌＣｏｎｎｅｃｔｉｏｎｓ：Ｃｏｎｎｅｃｔｉｏｎｏｕｃｕｅ－ｆｒｅｅｃｏｎｎｅｃｔｉｏｎｓ：Ｇ０ｎｎｅｅｔｉｏｎｏｌＩＭｅ—ｄｂｃｐｉｎｓｔａｎｅｅ：ｓｔａｔｉｃＤＢｃｏｎｎｅｃｔｉｏｎＰｏｏｌ－ｍｅｔａＴａｂｌｅＶｅｅ：ｖｅｃｔｏｒ＜ＤａｔａＯｂｊｅｃｔ＞－ＤＢＣｏｎｎｅｃｔｉｏｎＰｏｏｌ（ｉｎｍａｘＳｉｚｅ：ｕｎｓｉｇｎｅｄｉｎｔ）＋ｇｅｔＤＢＣＰＩｎｓｔａｎｃｅ（）：ｓｔａｔｉｃＤＩ℃ｏｎｎｅｃｔｉｏｎＰｏｏｌ＋ｉｎｉｔ（ｉｎｄｂＦｉｌｅ：ｓｔｒｉｎｇ。ｉｎｍｅｔａＤａｔａＦｉｌｅ：ｓｔｒｉｎｇ）：ｂｏｏｌ＋ｂａｎｄＴａｂｌｅ（ｉｎｔａｂｌｅＮａｍｅ：ｓｔｒｉｎｇ，ｉｎｏｕｔｄａｔａＯｂｊｅｃｔ：ＤａｔａＯｂｊｅｃｔ＆）：ｂｏｏｌ＋ｇｅｔＤＢＣｏｎｎｅｃｔｉｏｎ０：ＤＢｃｏｎｎｅｃｔｉｏｎ＋ｃｌｏｓｅ（）：ｖｏｉｄ＋。ＤＢＣｏｎｎｅｃｔｉｏｎＰｏｏｌ（ｉｎｍｘＳｉｚｅ：ｕｎｓｉｇｎｅｄｉｎｔ）ＤＢＣｏｎｎｅｃｔｉ∞一曲：ｓｑｌｉｔｅ３＊－ｒＤＢｃｏｎｎｅｃｔｉｏｎＰｏｎｌ：ＤＢｃｏｎｎｅｃｔｉｏｎＰｏｏｌ－ｔｒｉｔｅＭｏｎｉｔｏｒ：ｓｔａｔｉｃＭｏｎｉｔｏｒ＋ｃｌｏｓｅ０：ｖｏｉｄ＋ｓａｖｅ（ｉｎｄａｔａＯｂｊ：ＤａｔａＯｂｊｅｃｔ）：ｂｅｅｌ＋ｌｉｓｔＤａｔａＯｂｊｅｃｔ（ｉｎｔａｂｌｅＮａｍｅ：ｓｔｒｉｎｇ．ｏｕｔｒｓＶｅｃ：ｃｏｎｓｔｖｅｃｔｏｒＯａｔａＯｂｊｅｅｔ＞丘ｉｎｗｈｅｒａｃｏｎｄｉｔｉｏｎ：ｓｔｒｉｎｇ２。’）：ｂｏｏｌｔＤＢＣＯｎｎｅｃｔｉｏｎ（ｉｎｒＤＢＣＯｎｎ∞ｔｉｏｎＰｏｏｌ：ｃｏｎｓｔＤＢＣｏｎｎｅｅｔｉｏｎＰｏｏｌ＆）十’ＤＢＣｏｎｎｅｃｔｉｏｎ（ｉｎｒＤＢＣｏｎｎｅｃｔｉｏｎＰｏｏｌ：ｃｏｎｓｔＤＢＣｏａｎｅｃｔｉｏｎＰｏｏｌ＆）＋ｃｒｅａｔｅＴａｂｌｅ（ｉｎｔａｂｌｅＮａｍｅ：ｓｔｒｉｎｇ）：ｂｏｏｌ｝ｂｅｇｉｎＴｒａｎｓａｃｔｉｏｎ０：ｂｏｏｌ＋ｃｏｍｉｔ０：ｂｏｏｌ＋ｒｏｌｌＢａｃｋ０：ｂｏｏｌ图４—６数据库访问模块类图ＤＢＣｏｎｎｅｃｔｉｏｎ类：数据库连接类，负责具体的数据库相关方法的执行。ｗｒｉｔｅＭｏｎｉｔｏｒ：静态成员，因为ＳＱＬｉｔｅ数据库支持并发读不支持并发写，所以需要一个同步互斥对象来保证对数据库写操作的正确执行；ｃｌｏｓｅ：关闭当前连接，实际操作会把当前连接置入到空闲连接队列里；ｓａｖｅ：保存动态数据对象到数据库，要求该动态数据库对象已经绑定到目标表；ｌｉｓｔＤａｔａＯｂｊｅｃｔ：批量从一个表查询数据，可以输入查询条件，返回结果为ｖｅｃｔｏｒ；ｃｒｅａｔｅＴａｂｌｅ：创建数据库表，只能创建元数据映射文件已经定义了的表。介绍完数据库连接池类和数据库连接类的成员后，下面将介绍数据库连接类的一些关键方法，怎么在ｓｑｌｉｔｅ３上封装的。ＤＢＣｏｎｎｅｃｔｉｏｎ构造函数，调用ｓｑｌｉｔｅ３ｏｐｅｎ接口，传入要打开的数据库文件名，如果文件存在，则创建该数据库文件，ｏｕｔ参数即为数据库连接类的成员ｄｂ。ｉｎｔｓｑｌｉｔｅ３＿ｏｐｅｎ（ｃｈａｒ术ｆｉｌｅｎａｍｅ，ｐＤａｔａｂａｓｅｃｏｎｓｔｆｉｌｅｎａｍｅ（ＵＴｒ一８）拳／ｄｂｈａｎｄｌｅ坪｜ｓｑｌｉｔｅ３奄奄ｐｐＤｂ｜，ＯＵＴ：ＳＱＬｉｔｅ）；ｅｒｅａｔｅＴａｂｌｅ函数，该函数输入参数为要创建的表名，然后查找ｍｅｔａＴａｂｌｅＶｅｃ查找该表的元数据，从而生成建表的ＳＱＬ语句，调用ｓｑｌｉｔｅ３ｅｘｅｃ接Ｅｌ：３５电子科技大学硕士学位论文ｉｎｔｓｑｌｉｔｅ３＿ｅｘｅｃ（ｓｑｌｉｔｅ３寅，ｌ噶Ａｎｏｐｅｎｄａｔａｂａｓｅ岛｜ｃｏｎｓｔｃｈａｒ卑ｓｑｌ，｜鲁ＳＱＬｔｏｂｅｅｘｅｃｕｔｅｄ奄｛ｓｑｌｉｔｅ３＿ｃａｌｌｂａｃｋ，｜嚏Ｃａｌｌｂａｃｋｆｕｎｃｔｉｏｎ鼻｜ｖｏｉｄ★，．｜嶙１ｓｔａｒｇｕｍｅｎｔｔｏｃａｌｌｂａｃｋｆｕｎｃｔｉｏｎ鼻｜ｃｈａｒ宰水ｅｒｒｍｓｇ／木Ｅｒｒｏｒｍｓｇｗｒｉｔｔｅｎｈｅｒｅ宰／）；第一个参数传入成员变量ｄｂ，第二个参数传入生产的ＳＱＬ语句，后三个参数传入ｎｕｌｌ即可。ｓａｖｅ函数，首先根据传入的已经绑定到表ｄａｔａＯｂｊｅｃｔ对象生成保存的ＳＱＬ语句，然后调用调用ｓｑｌｉｔｅ３ｅｘｅｃ接口。ｌｉｓｔＤａｔａＯｂｊｅｃｔ函数，首先根据要查询的表名和查询条件，生产ＳＱＬ语句，调用ｓｑｌｉｔｅ３＿ｇｅｔ＿ｔａｂｌｅ接１３：ｉｎｔｓｑｌｉｔｅ３＿ｇｅｔ＿ｔａｂｌｅ（ｓｑｌｉｔｅ３鼻，｜嶙Ａｎｏｐｅｎｄａｔａｂａｓｅ鼻｜ｃｏｎｓｔｃｈａｒ每ｓｑｌ，｜嶙ＳＱＬｔｏｂｅｅｘｅｃｕｔｅｄ鼻｜ｃｈａｒ木宰宰ｒｅｓｕｌｔｐ，／宰Ｒｅｓｅｔｗｒｉｔｔｅｎｔｏａｃｈａｒ木［］ｔｈａｔｔｈｉｓｐｏｉｎｔｓｔｏ木／ｉｎｔ鼻ｎｒｏｗ，｜★Ｎｕｍｂｅｒｏｆｒｅｓｕｌｔｒｏｗｓｗｒｉｔｔｅｎｈｅｒｅ鼻｜ｉｎｔ木ｎｃｏｌｕｍｎ，／毒Ｎｕｍｂｅｒｏｆｒｅｓｕｌｔｃｏｌｕｍｎｓｗｒｉｔｔｅｎｈｅｒｅ誊／ｃｈａｒ＾＿ｅｒｒｍｓｇ｜怫Ｅｒｒｏｒｍｓｇｗｒｉｔｔｅｎｈｅｒｅ鲁｜）；第一个参数为成员变量ｄｂ，第二个参数为生产的ＳＱＬ语句，第三个参数为查询结果输出参数，只需要申明一个该类型的指针传入即可，第四个参数输出参数查询到的行，第五个参数为输出参数查询到的列。该返回结果的第一行为数据库表列名，以后的每一行都是数据库一行数据，再结合传入的表名查询该表的元数据，就可以把每一行数据生成一个ＤａｔａＯｂｊｅａ对象，保存到ｒｓＤａｔａＯｂｊｅｃｔＶｅｃ中，最后调用者从该ｖｅｃｔｏｒ得到调用结果。ｂｅｇｉｎＴｒａｎｓａｃｔｉｏｎ，ｃｏｍｍｉｔ，ｒｏｌｌＢａｃｋ函数：构建一个对应事务的ＳＱＬ语句，调用ｓｑｌｉｔｅ３＿ｅｘｅｃ接口执行。３６第四章Ｗｅｂ应用安全漏洞扫描工具详细设计与实现４．１．４ＨＴＴＰ传输模块ＨＴＴＰ传输模块设计４．１．４．１Ｈ１］曙传输是系统中各个扫描模块都会用到的核心功能，因此抽象为一个单独的模块进行设计。Ｈ，丌Ｐ模块的工作原理是提交一个需要请求的ｕＩ也链接，ＨＴＴＰ传输模块会根据ＵｔＵ．，构造ＨＴＴＰ请求，发送到Ｗｅｂ服务器，然后把Ｗｅｂ服务器ＨＴＴＰ响应写入到定义的Ｂｕｆｆｅｒ中。ＨＴＴＰ传输模块的ＵＭＬ图如图４．７所示：Ｕ甩一ｐｒｏｔｏｃｏｌ：ｃｈａｒ＊－ｈｏｓｔ：ｃｈａｒ＊一ｐｏｒｔ：ｕｎｓｉｇｎｅｄ－ｍｅｔｈｏｄ：ｃｈａｒ＊－ｐａｔｈ：ｃｈａｒ＊－ｆｉｌｅ：ｃｈａｒ＊ｉｎｔ一ｇｅｔＰａｒａｍ：ｃｈａｒ＊－ｐｏｓｔＰａｒａｍ：ｃｈａｒ＊－ｐａｒａｍｌｄｅｎｔｉｆｉｅｒ：ｃｈａｒ＊一ｄｅｐｔｈ：ｕｎｓｉｇｎｅｄ－ｉｓＰｒｏｔｏｃｏｌ（ｉｎ＋ＵＲＬ（）＋￣ＵＲＬ０＋ｐａｒｓｅ（ｉｎ＋ｉｓＶａｌｉｄ＋ｇｅｔ８ｅｔｈｏｄｉｎｔｓｔｒＯｒｌ：ｃｈａｒ＊）：ｂ００１ｕｒｌ：ｃｈａｒ＊，ｉｎｐａｒｅｎｔ：ＵＲＬ＊）：ｖｏｉｄ０：ｂｏｏｌ０：ｃｈａｒ＊０：ｃｈａｒ＊ｉｎｔｉｎｔ＋ｇｅｔＰｒｏｔｏｃｏｌ＋ｇｅｔＨｏｓｔ０：ｃｈａｒ＊＋ｇｅｔＰｏｒｔ０：ｕｎｓｉｇｎｅｄ＋ｇｅｔＤｅｐｔｈ０：ｕｎｓｉｇｎｅｄ＋ｇｅｔＰａｔｈ０：ｃｈａｒ＊Ｈｔ－１Ｆｅｔｃｈｅｒ＋ｇｅｔＦｉｌｅ０：ｃｈａｒ＊＋ｇｅｔＧｅｔＰａｒａｍ０：ｃｈａｒ＊－ｃｕｒｌＳＨ：ＣＵＲＬＳ脚一ｃｕｒｌｓ：ｑｕｅｕｅ＜ＣＹＲＬ＊＞＋ｇｅｔＰｏｓｔＰａｒａⅢ０＋ｓｅｔＰｏｓｔＰａｒｕｍ（ｉｎ：ｃｈａｒ＊＋ＨｔｍｌＦｅｔｃｈｅｒ（ｉｎｃｏｎｆｉｇＦｉｌｅ：ｃｈａｒ神＋￣ＨｔｍｌＦｅｔｃｈｅｒ（）＋ｆｅｔｃｈＨｔｍｌ（ｉｎｏｕｔｈｔｔｐＰａｃｋａｇｅ：ｃｏｎｓｔｐｏｓｔＰａｒａｍ：ｃｈａｒ＊）：ｖｏｉｄ＋ｓｅｔＭｅｔｈｏｄ（ｉｎｓｅｔＭｅｔｈｏｄ：ｃｈａｒ牛）：ｖｏｉｄＨｔｔｐＰａｃｋａｇｅ＆）：ｂ００１＋ｇｅｔＵｒｌ０：ｃｈａｒ＊＋ｇｅｔＰａｒａｍＩｄｅｎｔｉｆｉｅｒ０：ｃｈａ一图４．７ＨＴＴＰ传输模块ＬｒＭＬ图ＨｔｔｐＢｕｆｆｅｒ结构体：定义ＨＴＴＰ传输模块的ｂｕｆｆｅｒ结构。ｂｕｆｆｅｒ：执行缓冲区的指针；ｌｅｎｇｔｈ：记录了缓存区的长度。ＵＲＬ类：基本按照ＵＲＬ格式规范【３３１定义的一个类，ＵＲＬ格式可以参照网络爬虫ＵＲＬ介绍部分，定义的接口除了可以清晰得到ＵＲＬ的各个部分，而且也考虑到ＨＴＴＰ传输模块的应用需求以及后续攻击模块的应用需求来进行设计。是在系统各个部分都广泛用到的一个类。ｐｒｏｔｏｃｏｌ：记录解析到的ＵＲＬ的协议部分（ｈｔｔｐ／ｈｔｔｐｓ）；ｈｏｓｔ：记录解析到的ＵＲＬ的主机部分；ｐｏｒｔ：记录解析到的ＵＲＬ端口部分，默认３７电子科技大学硕士学位论文为８０；ｍｅｔｈｏｄ：记录解析到的ＵＲＬＨＴＴＰ请求方式，默认为ＧＥＴ；ｐａｔｈ：记录解析到的ＵＲＬ的路径部分；ｆｉｌｅ：记录解析到的ＵＲＬ的文件部分；ｇｅｔＰａｒａｍ：记录解析到的ｇｅｔ参数部分；ｐｏｓｔＰａｒａｍ：记录解析到的ｐｏｓｔ参数部分；ｐａｒａｍｌｄｅｎｔｉｆｉｅｒ：对所有的ｇｅｔ／ｐｏｓｔ参数名进行ｍｄ５，得到定常字串，后续用来ＵＲＬ判重时使用；ｄｅｐｔｈ：解析到的ＵＲＬ属于网络爬虫的爬行层次；ｉｓＰｒｏｔｏｃｏｌ：私有函数，用于在解析ＵＲＬ时，判断是否以协议开头；ＵＲＬ：构造函数对成员初始化；～ＵＲＬ：析构函数，释放成员；ｐａｒｓｅ：输入一个ｕｒｌ字串，结合解析到该字串的网页ＵＲＬ来解析该字串；ｉｓＶａｌｉｄ：判断对象代表的ｕｒｌ是否有效；ｇｅｔＭｅｔｈｏｄ：返回ｕｒｌ的ＨＷ口请求方法；ｇｅｔＰｒｏｔｏｃｏｌ：返回Ｗｌ的协议部分；ｇｅｔＨｏｓｔ－返回ｕｄ主机部分；ｇｅｔＰｏｒｔ：返回ｕｒｌ端口部分；ｇｅｔＤｅｐｔｈ：返回ｕｒｌ深度；ｇｅｔＰａｔｈ：返回ｕｄ路径部分；ｇｅｔＦｉｌｅ：返回ｕｒｌ文件部分；ｇｅｔＧｅｔＰａｒａｍ：返回ｇｅｔ参数部分；ｇｅｔＰｏｓｔＰａｒａｍ：返回ｐｏｓｔ参数部分；ｓｅｔＰｏｓｔＰａｒａｍ：设置ｐｏｓｔ参数部分，因为ｕｄ是从网页中解析出来的，当解析到ｆｏｒｍ链接时，会调用该借口，写入ｐｏｓｔ参数；ｓｅｔＭｅｔｈｏｄ：从ｆｏｒｍ解析的链接，会调用此接１２１，写入ＨＴＴＰ请求方法；ｇｅｔＵｒｌ：返回完整的ｕｒｌ；ｇｅｔＰａｒａｍｌｄｅｎｔｉｆｉｅｒ：返回所有参数名拼接字串的ｍｄ５字串；ＨｔｔｐＰａｃｋａｇｅ结构体：对一次ＨＴＴＰ请求中的几个参数，进行了简单封装。ｕｒｌ：此次请求的ｕｒｌ对象；ｈｔｔｐＲｅｑｕｅｓｔＨｅａｄｅｒ：根据ｕ以生成的请求头保存在此ｂｕｆｆｅｒ；ｈｔｔｐＲｅｓｐｏｎｓｅＨｅａｄｅｒ．．ＨＴＴＰ回应头保存在此ｂｕｆｆｅｒ；ｈｔｔｐＲｅｓｐｏｎｓｅＢｏｄｙ：Ｈ们Ｔ回应体保存在此ｂｕｆｆｅｒ，就是浏览器显示的网页内容。ＨｔｍｌＦｅｔｃｈｅｒ类：ＨＴＴＰ传输的执行类，在ｌｉｂｃｕｒｌ［３４】开源库的基础上进行的封装，具体的实现在下一节详细介绍。ｃｕｒｌＳＨ：ｃｕｒｌ共享对象，可以在所有ｃｕｒｌ旬柄间共享Ｃｏｏｋｉｅ和ＤＮＳ；ｃｕｄｓ：队列保存的空闲ｃｕｒｌ旬柄；ＨｔｍｌＦｅｔｃｈｅｒ：构造函数，传入ＨＴＴＰ传输模块的配置文件；～ＨｔｍｌＦｅｔｃｈｅｒ：析构函数；ｆｅｔｃｈＨｔｍｌ：类的关键方法，传入ＨｔｔｐＰａｃｋａｇｅ对象，执行ＨｒｒＰ传输。４．１．４．２ＨＴＴＰ传输模块实现Ｈ们曙传输模块的核心类就是ＨｔｍｌＦｅｔｃｈｅｒ类，该类对ｌｉｂｃｕｒｌ开源库的使用进行了封装。Ｌｉｂｃｕｒｌ是一个免费和易于使用的客户端ＵＲＬ传输库，支持ＦＴＰ，ＦＴＰＳ，ＨＴＴＰ，ＨＴＴＰＳ等多种传输协议，ｌｉｂｃｕｒｌ还支持ＳＳＬ证书，ＨＴＴＰＰＯＳＴ，ＨＴＴＰＰＵＴ，ＨＴｒＰ上传，基于ＨＴＴＰｆｏｒｍ的上传，代理，Ｃｏｏｋｉｅ等特性。ｌｉｂｃｕｒｌ移植性很好，３８第四章Ｗｅｂ应用安全漏洞扫描工具详细设计与实现可以用在多个平台，并且线程安全。ｌｉｂｃｕｒｌ库提供Ｃ语言的编程接口，ＨｔｍｌＦｅｔｃｈｅｒ主要特性的实现如下：ＨｔｍｌＦｅｔｃｈｅｒ构造函数：构造函数中会调用ｌｉｂｃｕｒｌ共享函数库，创建一个共享对象ＣＵＲＬＳＨ，由于本系统编程环境为多线程环境，会并发多个ＨＴＴＰ请求每个请求会持有一个ＣＵＲＬ句柄，并且都是针对同一个站点的访问，因此采取共享ＤＮＳ和Ｃｏｏｋｉｅ的方式可以提高性能。除此之外，本扫描工具前台做了登录序列的模拟，抓取到的访问网站后台的需要的ＣｏｏＭｅ，可以在ＨｔｍｌＦｅｔｃｈｅｒ类构造时，设置到ＣＵＲＬＳＨ对象中，从而可以抓取到网站后台的网页，提高整个漏洞扫描的覆盖率。简要执行代码如下：ｃｈａｒ＊ｃｏｏｋｉｅ＝”乖水ｊＩｃ木木乖串：Ｉ＝奉籼；／／前台模拟登录抓取的ＣｏｏｋｉｅＣＵＲＬＳＨ牢ｃｕｒｌＳＨ＝０；ｃｕｒｌＳＨ＝ｃｕｒｌ＿ｓｈａｒｅ＿．ｉｎｉｔ０；／／共享对象创建函数ｉｆ（ｃｕｒｌＳＨ）｛∥调用共享对象参数设置接口，设置ＣｏｏｋｉｅＣＵＲＬＳＨｃｏｄｅｒｓＣｏｄｅ＝ｃｕｒｌ＿ｓｈａｒｅ＿ｓｅｔｏｐｔ（ｃｕｒｌＳＨ，ＣＵＲＬ．．ＬＯＣＫ＿ＤＡＴＡ＿ＣＯＯＫＩＥ，ｃｏｏｋｉｅ）；ｉｆ（ＣＵＲＬＳＨＥ＿ＯＫ！＝ｒｓＣｏｄｅ）｛ｃｕｒｌ＿ｓｈａｒｅｃｌｅａｎｕｐ（ＣＵＲＬＳＨ）；／／调用失败关闭共享对象ｃｕｒｌＳＨ＝０；））ｆｅｅｔｈＨｔｒｎｌ函数：传输执行函数，首先尝试从ｃｕｒｌ旬柄队列获取一个空闲旬柄，如果获取失败，创建一个新的句柄，然后为句柄设置共享对象，再根据传入的ＵＲＬ设置句柄的参数，最后执行ＨＴＴＰ请求，完成后清除句柄的参数，然后把句柄置入空闲旬柄队列。核心代码示例如下：ｓｔａｔｉｃｓｉｚｅ＿＿ｔｒｅｓｐｏｎｓｅＦｕｎｃｔｉｏｎ（ｖｏｉｄ半ｐｔｒ，ｓｉｚｅ—ｔｓｉｚｅ，ｓｉｚｅ—ｔｎｍｅｍｂ，ｖｏｉｄ半ｓｔｒｅａｍ）；｛．．．）∥回应头和回应体的保存回调函数３９…一∥设置请求头保存，ＨＴＴＰ请求方法，表单数据，等其他ｏｐｔｉｏｎ，这里不一一介绍１＂ｅｓ＝ｃｕｒｌ＿ｅａｓｙ＿＿ｐｅｒｆｏｒｍ（ｃｕｒｌ）；∥执行ｈｔｔｐ请求产保存句柄到队列母／ｃｕｒｌｓ．ｐｕｓｈ（ｃｕｒｌ）；））～ＨｔｍｌＦｅｔｃｈｅｒ析构函数类：析构时，释放空闲旬柄队列的所有旬柄，释放共享对象，调用的ｌｉｂｃｕｒｌ函数为：第四章Ｗｅｂ应用安全漏洞扫描工具详细设计与实现ｃｕｄ＿ｅａｓｙ＿ｃｌｅａｎｕｐ（ｃｕｒｌ）；／／释放一个ｃｕｒｌ旬柄ｃｕｒｌ＿．ｓｈａｒｅｃｌｅａｎｕｐ（ｃｕｒｌＳＨ）∥释放共享对象４．２扫描调度引擎本文在３．１节中已经对扫描调度引擎的工作职责、工作原理、工作流程从设计的角度做了简单的介绍。在这一节将结合具体工作流程的实现来对扫描调度引擎做详细的介绍。４．２．１配置文件加载配置文件的加载工作，都是在扫描调度引擎的Ｉｎｉｔ方法中执行的。配置文件设计章节讲到系统加载的一个配置文件为Ｃｏｎｆｉｇ．ｘｍｌ，它不做具体的配置，只是记录其他几个配置文件相对它的路径。Ｃｏｎｆｉｇ．ｘｍｌ的具体内容如下：＜？ｘｍｌｖｅｒｓｉｏｎ＝”１．０”ｅｎｃｏｄｉｎｇ＝”ｕｔｆ－８”？＞＜！一ＴｈｉｓｄｏｃｕｍｅｎｔｓｈｏｗｓＷ曲Ｓｃａｎｎｅｒｎａｖｉｇａｔｉｏｎｃｏｎｆｉｇｕｒｅｂｙｔｈｅｕｓｅｒ－一＞＜Ｃｏｎｆｉｇｕｒａｔｉｏｎ＞＜！～系统配置文件一＞＜ＳｙｓＣｏｎｆｉｇ＞ＳｙｓＣｏｎｆｉｇ，ｘｍｌ＜／ＳｙｓＣｏｎｆｉｇ＞＜！一数据库配置文件～＞＜ＤａｔａＢａｓｅＣｏｎｆｉｇ＞ＤａｔａＢａｓｅＣｏｎｆｉｇ．ｘｍｌ＜／ＤａｔａＢａｓｅＣｏｎｆｉｇ＞＜！一扫描模板配置文件．》＜ＳｃａｎＴｅｍｐｌａｔｅ＞ＳｃａｎＴｅｍｐｌａｔｅ．ｘｍｌ＜／ＳｃａｎＴｅｍｐｌａｔｅ＞＜！一登录序列文件～＞＜ＬｏｇｉｎＳｅｑｕｅｎｃｅＥｎａｂｌｅ＝’’０”＞ＬｏｇｉｎＳｅｑｕｅｎｃｅ．ｘｍｌ＜／ＬｏｇｉｎＳｅｑｕｅｎｃｅ＞＜／Ｃｏｎｆｉｇｕｒａｔｉｏｎ＞首先扫描调度引擎调用配置文件读写模块根据系统默认路径加载Ｃｏｎｆｉｇ．ｘｍｌ配置文件，然后解析该配置文件得到系统配置文件（ＳｙｓＣｏｎｆｉｇ．ｘｍｌ）、数据库配置文件（ＤａｔａＢａｓｅＣｏｎｆｉｇ．ｘｍｌ）、扫描模板配置文件（ＳｃａｎＴｅｍｐｌａｔｅ．ｘｍｌ）、登录序列配置文件（ＬｏｇｉｎＳｅｑｕｅｎｃｅ．ｘｍｌ）的相对路径。其中扫描模板配置文件，就是３．１．１节调度引擎工作原理中提到的调度配置文件。接着扫描调度引擎会加载系统配置文件，系统配置文件内容如下：＜？ｘｍｌｖｅｒｓｉｏｎ＝”１．０”ｅｎｃｏｄｉｎｇ＝”ＵＴＦ－８”？＞４１电子科技大学硕士学位论文＜！一一ＴｈｉｓｄｏｃｕｍｅｎｔｓｈｏｗｓＷｅｂＳｃａｎｎｅｒｎａｖｉｇａｔｉｏｎｃｏｎｆｉｇｕｒｅｂｙｔｈｅＢＳｅｒ－一＞＜ＳｙｓｔｅｍＣｏｎｆｉｇｕｒａｔｉｏｎ＞＜！一爬虫层次．》＜ＳｃａｎｎｅｒＬａｙｅｒ＞５＜／ＳｃａｎｎｅｒＬａｙｅｒ＞＜！一最大线程数一＞＜Ｍａｘｔｈｒｅａｄｓ＞３０＜／Ｍａｘｔｈｒｅａｄｓ＞＜！—．ＨＴＴＰ请求超时，单位是秒一＞＜Ｏｖｅｒｔｉｍｅ＞３＜／Ｏｖｅｒｔｉｍｅ＞＜！一日志级别一＞＜ＬｏｇＬｅｖｅｌ＞Ｅｒｒｏｒ＜／ＬｏｇＬｅｖｅｌ＞＜！一日志大小，单位是Ｍ一＞＜ＬｏｇＳｉｚｅ＞１０＜／ＬｏｇＳｉｚｅ＞＜！一代理设置．－＞＜ＰｒｏｘｙＥｎａｂｌｅｄ＝”１”＞＜ＨＴｒｌｌＰＥｎａｂｌｅｄ＝”０”Ｈｏｓｔ＝”１９６．１６８．Ｏ．０”Ｐｏｒｔ＝－”１００”Ｕｓｅｍａｍｅ＝”ｂｕｔｔｅｒｆｌｙ”Ｐａｓｓｗｏｒｄ＝”１２３”／＞＜ＳＯＣＫＳＡｕｔｈｅｎｔｉｃａｔｉｏｎ＝”Ｙｅｓ”Ｅｎａｂｌｅｄ＝”０’’Ｈｏｓｔ＝”２１２．０．０．０”ＳｏｃｋｓＬｅｖｅｌ＝”Ｓｏｃｋｓ４”Ｐｏｒｔ＝’’１５１”Ｕｓｅｍａｍｅ＝＂ｂｕｔｔｅｎ＇ｌｙ”Ｐａｓｓｗｏｒｄ＝”１２３”／＞＜／Ｐｒｏｘｙ＞＜／ＳｙｓｔｅｍＣｏｎｆｉｇｕｒａｔｉｏｎ＞ＳｃａｎｎｅｒＬａｙｅｒ节点：配置的网络爬虫抓取站点的最大深度，在网络爬虫根据ＵＲＬ建任务的时候，会起到过滤ＵＲＬ的作用。Ｍａｘｔｈｒｅａｄｓ节点：线程池初始化用到的参数，配置线程池可以创建的最大线程数。Ｏｖｅｒｔｉｍｅ节点：配置ＨＴＴＰ请求的超时时间，单位为秒，在为ＣＵＲＬ句柄设置请求超时时间的时候会用到，具体请参考４．１．４．２节ＨＴＴＰ传输模块实现，或者直接参考ｌｉｂｃｕｒｌ官方文档。Ｐｒｏｘｙ节点：配置ＨＴｒｒＰ模块使用的代理服务器信息，ｌｉｂｃｕｒｌ库支持代理，因此基于ｌｉｂｃｕｒｌ的ＨＴＴＰ传输库，也支持代理相关配置，目前支持的代理为ＨＴＴＰ和ＳＯＣＫＳ４代理。接下来扫描调度引擎将加载数据库配置文件，数据库配置文件定义了扫描模块线程中，数据保存任务队列的Ｆｌｕｓｈ长度及ＵＲＬ队列的Ｌｏａｄ临界长度，还配置了４．１．３．１节中设计的数据库连接池的连接数目，除此之外数据库配置文件最主要的功能是４．１．３．２节设计的动态数据构件的元数据映射文件。数据库配置文件内容４２＜ｐｒｏｐｅｒｔｙｎａｍｅ＝＂ｓｔｒＤｅｐｔｈ”ｉｓＮｕｍｅｒｉｅ＝”０”＜ｐｒｏｐｅｒｔｙｎａｍｅ＝”ｓｔｒＭｅｔｈｏｄ”ｉｓＮｕｍｅｒｉｃ＝”０”０）”／＞＜ｐｒｏｐｅｒｔｙＤａｍｅ＝”ｓｔｒＧｅｔＰａｒａｍ”ｉｓＮｕｍｅｒｉｃ＝”０”＜ｐｒｏｐｅｒｔｙｎａｌｌｌｅ＝”ｓｔｒＰｏｓｔＰａｒａｍ”ｉｓＮｕｍｅｎｃ＝”０”１２）”／＞＜ｐｒｏｐｅｒｔｙｎａｍｅ＝’’ｓｔｒＰａｒａｍｌｄｅｎｔｉｆｉｅｒ”ｉｓＮｕｍｅｎｃ＝’’０”＜ｐｒｏｐｅｒｔｙｉｌａｎｌｅ＝”ｓｔｒＲｅｑｕｅｓｔＨｅａｄｅｒ”ｉｓＮｕｍｅｒｉｃ＝”０”０２４）”／＞＜ｐｒｏｐｅｒｔｙｉｌａｍｅ＝”ｓｔｒＲｅｓｐｏｎｓｅＨｅａｄｅｒ”ｉｓＮｕｍｅｒｉｃ＝”０”０２４）”／＞＜ｐｒｏｐｅｒｔｙｎａｍｅ＝”ｓｔｒＲｅｓＣｏｄｅ”ｉｓＮｕｍｅｒｉｃ＝’’０”ＣＯＤＥ”ｄｂＴｙｐｅ＝”ＶＡＲＣＨＡＲ（２０）”／＞ｎａｍｅ：＝＂ｓｔｒＵｒｌＳｅｔ¨ｉｓＮｕｍｅｒｉｃ＝”０”０２４）”／＞＜ｐｒｏｐｅｒｔｙｉｓＮｕｍｅｒｉｃ＝”０”４３ｄｂＴｙｐｅ－＝”ＶＡＲＣＨＡＲ（２５６）”／＞ｃｏｌｕｍｅｎＮａｍｅ＝＂ＤＥＰＴＨ”ｄｂＴｙｐｅ＝”ＶＡＲＣＨＡＲ（２０）”／＞ｃｏｌｕｍｅｎＮａｍｅ＝”ＭＥＴＨＯＤ”ｄｂＴｙｐｅ＝”ＶＡＲＣＨＡＲ（１ｃｏｌｕｍｅｎＮａｍｅ＝”ＧＥＴ—ＰＡＲＡＭ”ｄｂＴｙｐｅ＝”ＶＡＲＣＨＡＲ（２５６）”／＞ｃｏｌｕｍｅｎＮａｍｅ＝”ＰＯＳＴ—ＰＡＲＡＭ”ｄｂＴｙｐｅ＝＂ＶＡＲＣＨＡＲ（５ｃｏｌｕｍｅｎＮａｍｅ＝）＇’ＰＡＲ．ＡＭ—ＩＤＥＮＴＩＦＩＥＲ”ｄｂＴｙｐｅ＝”ＶＡＲＣＨＡＲ（２０）”／＞ｃｏｌｕｍｅｎＮａｍｅ＝＂ＲＥＱＵＥＳＴ＿ＨＥＡＤＥＲ”ｄｂＴｙｐｅ＝”ＶＡＲＣＨＡＲ（１ｃｏｌｕｍｅｎＮａｍｅ＝”ＲＥＳＰＯＮＳＥ—ＨＥＡＤＥＲ”ｄｂＴｙｐｅ＝”ＶＡＲＣＨＡＲ（１ｃｏｌｕｍｅｎＮａｍｅ＝”ＲＥＳＰＯＮＳＥｃｏｌｕｍｅｎＮａｍｅ＝”ＵＲＬ—ＳＥＴ”ｄｂＴｙｐｅ＝”ＶＡＲＣＨＡＲ（１ｅｏｌｕｍｅｎＮａｍｅ＝”ＵＲＬ—ＳＥＴ—ＣＲＡＷＬ”ｄｂＴｙｐｅ＝＂ＶＡＲＣＨＡＲ（１０２４）”／＞电子科技大学硕士学位论文＜／ｂｅａｎ＞＜ｂｅａｎ＞…＜／ｂｅａｎ＞＜／ｂｅａｎｓ＞＜／Ｃｏｎｆｉｇｕｒａｔｉｏｎ＞ｃａｃｈｅ节点：配置了前面提到的扫描模块线程中，在文件ＤＢ数据保存端数据保存任务队列和文件ＤＢ数据加载端ＵＲＬ队列的Ｆｌｕｓｈ和Ｌｏａｄ的临界值，请参考３．２．２扫描模块整体结构图和３．２．４扫描模块工作流程。ｄｂＣｏｎｎｅｃｔｉｏｎ节点：配置创建的数据库连接池的最大连接数。ｂｅａｎｓ节点：内部配置的都是系统三个扫描模块：网络爬虫、ＳＱＬ注入扫描、ＸＳＳ扫描的数据对象和对应数据库表的元数据映射，每个ｂｅａｎ节点为一个具体的对象表映射，映射文件的原理在４．１．３．２节动态数据构件设计中已经详细描述，这里不在重复介绍。接着扫描调度引擎会根据ＬｏｇｉｎＳｅｑｕｅｎｃｅ节点的Ｅｎａｂｌｅ属性决定是否加载登录序列配置文件，登录序列配置文件记录是前台模拟登录后抓取的Ｃｏｏｋｉｅ信息，登录序列配置文件具体内容如下：＜？ｘｍｌｖｅｒｓｉｏｎ＝”１．０”ｅｎｃｏｄｉｎｇ＝”ｇｂ２３１２”ｓｔａｎｄａｌｏｎｅ＝”ｙｅｓ”？＞＜ＨｔｍｌＡｕｔｈ＞＜Ｃｏｏｋｉｅ＞ＪＳＥＳＳＩＯＮＩＤ＝ａｙｒｚＮｙ７ＥｈｍＯｄ＜／Ｃｏｏｋｉｅ＞＜／ＨｔｍｌＡｕｔｈ＞Ｃｏｏｋｉｅ节点：配置的就是前台模拟登录抓取到的Ｃｏｏｋｉｅ。文章在４．１．４．２节ＨＴＴＰ传输模块实现中提到，在ＨＴＴＰ模块初始化时置入抓取的登录后台Ｃｏｏｋｉｅ，扫描模块就可以扫描系统后台的网页，提高扫描覆盖率。最后扫描调度引擎会加载扫描模板配置文件，扫描模板配置文件，定义一次扫描需要执行哪些扫描模块，扫描模块的具体内容如下：＜？ｘｍｌｖｅｒｓｉｏｎ＝”１．０”？＞＜Ｐｒｏｆｉｌｅ＞＜ＷｅｂＳｉｔｅ—ＳｃａｎＥｎａｂｌｅｄ＝”１＂Ｎａｍｅ＝”ＷｅｂＳｉｔｅＳｃａｎ”ＭｏｄｕｌｅＮａｍｅ＝”ＣｒａｗｌｅｒＭｏｄｕｌｅ＂＞＜Ｃｏｎｆｉｇ＞ＣｒａｗｌＣｏｎｆｉｇ．ｘｍｌ＜／Ｃｏｎｆｉｇ＞＜／ＷｅｂＳｉｔｅ——Ｓｃａｎ＞＜ＳＱＬ＿ＩｎｊｅｃｔｉｏｎＥｎａｂｌｅｄ＝”１＂Ｎａｍｅ＝”ＳＱＬｉｎｊｅｃｔｉｏｎ”ＭｏｄｕｌｅＮａｍｅ＝＂ＳｑＩＩｎｊｅｃｔｉｏｎＭｏｄｕｌｅ’’＞＜Ｃｏｎｆｉｇ＞ＳＱＬＩｎｊｅｃｔｉｏｎ．ｘｍｌ＜／Ｃｏｎｆｉｇ＞４４性为１，则此次扫描将执行站点结构扫描模块。ＭｏｄｕｌｅＮａｍｅ节点定义了该扫描模块的类名，扫描调度引擎读取所有需要执行的扫描模块名到ＳｃａｎＭｏｄｕｌｅＱｕｅｕｅ队列，顺序动态创建扫描模块然后执行。扫描模块都有一个内层节点Ｃｏｎｆｉｇ，定义了模块内的配置文件，当执行到该扫描模块的时候，由扫描模块自己解析，通常为扫描模块的扫描参数或者测试脚本。４。２．２公共组件初始化公共组件初始化，是在扫描调度引擎Ｉｎｉｔ函数中配置文件加载完成后，将执行的程序逻辑。在４．１节公共组件介绍了系统各个公共组件的设计与实现，除了配置文件模块，其他的几个公共组件创建时都需要初始化一些参数，这一节主要讲述的就是这一工作过程。线程池模块初始化需要的配置参数为，线程池的最大线程数。该配置从加载到内存的系统配置中获取，初始化好的线程池句柄由调度引擎ｔｈｒｅａｄＰｏｏｌＨａｎｄｌｅｒ成员保存。数据库访问模块需要配置的参数为，数据库连接池最大连接数，以及动态数据构件的元数据映射文件。该配置从加载到内存的数据库配置文件中获取，初始化好的数据库连接池句柄由调度引擎ｄａｔａＢａｓｅＨａｎｄｌｅｒ成员保存。ＨＴｒＰ传输模块读取系统配置文件中的Ｈ，ｒＴＰ请求超时参数和代理服务器相关信息（如果启用了代理）。由调度引擎中的ＨｔｔｐＴｒａｎｓＨａｎｄｌｅｒ成员负责保存ＨｒｒＰ传输模块句柄。在扫描模块执行的过程中，会调用调度引擎的这些公共组件旬柄，执行具体的工作。４５电子科技大学硕士学位论文４．２．３扫描模块调度扫描模块的调度是调度引擎的核心工作，其工作原理在３．１．１节已经作了介绍，这里主要介绍具体的实现技术和详细工作流程。４．２．３。１扫描模块动态创建扫描模板配置文件加载完毕后，调度引擎内存维护一个ｓｃａｎＭｏｄｕｌｅＱｕｅｕｅ队列，队列里保存的都是需要动态创建的扫描模块的类名。实际上包括扫描任务类都可以动态加载。系统中实现了Ｃ＋＋对象的动态加载技术，动态加载技术的原理很简单，每个设计为动态加载的类都拥有静态工厂方法，然后设计一个链表，链表的每个节点都保存了一个类的类名和类的静态工厂方法指针，然后运用一些编程技术，在程序运行前先构造好该链表，这样程序运行时，就可以通过查询链表获得具体类的静态工厂方法指针，创建该类的对象。设计所有需要动态加载的类，都从共同顶层基类ＡｂｓｔｒａｃｔＯｂｊｅｃｔ继承，这样静态工厂方法就具有同样的形式，具体如下：ｔｙｐｅｄｅｆＡｂｓｔｒａｃｔＯｂｊｅｃｔ木（＊ｐＦａｃｔｏｒｙＭｅｔｈｏｄ）（）ＦａｃｔｏｒｙＭｅｔｈｏｄ；ＡｂｓｔｒａｃｔＯｂｊｅｃｔ还应具有形式如下的静态方法，作为具体动态创建的接口：ｓｔａｔｉｃＡｂｓｔｒａｃｔＯｂｊｅｃｔ木ＣｒｅａｔｅＯｂｊｅｃｔ（ｓｔｒｉｎｇｓｔｒＣｌａｓｓＮａｍｅ）；该接口传入需要动态创建的类名，通过操作链表获取类的工厂方法指针，从而创建类对象。因此ＡｂｓｔｒａｃｔＯｂｊｅｃｔ还需要指向一个上述链表的头指针，链表节点为一个结构体ＣＲｕｎｔｉｍｅＣｌａｓｓ，因此ＡｂｓｔｒａｃｔＯｂｊｅｅｔ具有静态成员：ｓｔａｔｉｃＣｒｕｎｔｉｍｅＣｌａｓｓ奉ｐＲｕｎｔｉｍｅＣｌａｓｓＨｅａｄ；ＡｂｓｔｒａｃｔＯｂｊｅｃｔ的类定义代码如下：ｃｌａｓｓＡｂｓｔｒａｃｔＯｂｊｅｃｔ｛ｐｕｂｌｉｃ：ｓｔａｔｉｃＡｂｓｔｒａｃｔＯｂｊｅｃｔ＊ＣｒｅａｔｅＯｂｊｅｃｔ（ｓｔｒｉｎｇｓｔｒＣｌａｓｓＮａｍｅ）；／／动态创建接１５１ｓｔａｔｉｃＡｂｓｔｒａｃｔＯｂｊｅｃｔ＊ＣｒｅａｔｅＯｂｊｅｃｔ０；／／静态工厂方法ｓｔａｔｉｃＣｒｕｎｔｉｍｅＣｌａｓｓ＊ｐＲｕｎｔｉｍｅＣｌａｓｓＨｅａｄ；／／链表头指针）ＣｒｕｎｔｉｍｅＣｌａｓｓ静态成员变量记录了所属类的基本信息，类名和工厂方法指针。ＣｒｕｎｔｉｍｅＣｌａｓｓ类的结构和构造函数如下：第四章Ｗｅｂ应用安全漏洞扫描工具详细设计与实现ｓｔｒｕｃｔＣｒｕｎｔｉｍｃＣｌａｓｓ｛ｓｔｒｉｎｇｓｔｒＣｌａｓｓＮａｍｅ；｜｛类名ｆａｃｔｏｒｙＭｅｔｈｏｄ；∥工厂方法指针ＦａｅｔｏｒｙＭｅｔｈｏｄ，ＣｒｕｎｔｉｍｅＣｌａｓｓ＊ｐＮｅｘｔ；／／下一个节点ＣｍｎｔｉｍｅＣｌａｓｓ０；／／构造函数）ＣｍｎｔｉｍｅＣｌａｓｓ：：ＣｎｍｔｉｍｅＣｌａｓｓ（ｓｔｒｉｎｇｓｔｒＣｌａｓｓＮａｍｅ，ＰＣｒｅａｔｅＦｕｎｃｐＣｒｅａｔｅＦｕｎｃ）｛ｔｈｉｓ．＞ｓｔｒＣｌａｓｓＮａｍｅ＝ｓｔｒＣｌａｓｓＮａｍｅ；ｔｈｉｓ－＞ｆａｃｔｏｒｙＭｅｔｈｏｄ＝ｆａｃｔｏｒｙＭｅｔｈｏｄ；ｔｈｉｓ－＞ｐＮｅｘｔ＝ＡｂｓｔｒａｃｔＯｂｊｅｃｔ：：ｐＲｕｎｔｉｍｅＣｌａｓｓＨｅａｄ；ＡｂｓｔｒａｃｔＯｂｊｅｃｔ：：ｐＲｕｎｔｉｍｅＣｌａｓｓＨｅａｄ＝ｔｈｉｓ；＞如上代码所示，每个ＡｂＳｔｒａｃｔＯｂｊｅｃｔ派生类声明一个静态的ＣｒｕｎｔｉｍｅＣｌａｓｓ成员，静态ＣｒｕｎｔｉｍｅＣｌａｓｓ成员在程序执行前初始化【３５】，在ＣｒｕｎｔｉｍｅＣｌａｓｓ的构造函数中所有的ＣｒｕｎｔｉｍｅＣｌａｓｓ成员链接成一个链表，链表的头指针为ＡｂｓｔｒａｃｔＯｂｊｅｃｔ：：ｐＲｕｎｔｉｍｅＣｌａｓｓＨｅａｄ，当调用ＡｂｓｔｒａｃｔＯｂｊｅｃｔ：：ＣｒｅａｔｅＯｂｊｅｃｔ（ｓｔｒｉｎｇｓｔｒＣｌａｓｓＮａｍｅ）ｉ函时函数根据传入的ｓｔｒＣｌａｓｓＮａｍｅ遍历整个链表，如果链表中存在这个类，则调用ＦａｃｔｏｒｙＭｅｔｈｏｄ创建对应的类对象，函数伪代码如下：ＡｂｓｔｒａｃｔＯｂｊｅｃｔ：：ＣｒｅａｔｅＯｂｊｅｃｔ（ｓｔｒｉｎｇｓｔｒＣｌａｓｓＮａｍｅ）｛ＣｒｔｍｔｉｍｅＣｌａｓｓ＊ｐＣｌａｓｓ＝ＡｂｓｔｒａｃｔＯｂｊｅｃｔ：：ｐＲｕｎｔｉｍｅＣｌａｓｓＨｅａｄ；ｗｈｉｌｅ（ｎｕｌｌ！＝ｐＣｌａｓｓ）｛ｉｆ（ｐＣｌａｓｓ一＞ｓｔｒＣｌａｓｓＮａｍｅ—ｓｔｒＣｌａｓｓＮａｍｅ）ｒｅｔｕｒｎｐＣｌａｓｓ－＞ｆａｃｔｏｒｙＭｅｔｈｏｄＯ；｝ｒｅｔｕｒｎｎｕｌｌ；））４７电子科技大学硕士学位论文４．２．３．２扫描模块调度流程扫描模块调度在扫描调度引擎的Ｄｉｓｐａｔｃｈ函数内执行，在介绍了扫描模块的动态创建原理和具体实现之后，结合３．２．４节扫描模块工作流程，再来介绍扫描模块的调度流程就非常清晰了。Ｄｉｓｐａｔｃｈ执行流程如图４．８所示：（开始）ｐｏｐ扫描模块，动态创建得至ＵｐＳｃａｎＭｄｕｌｅ：Ａｂｓｔｒａｃｔ＊土ｐＳｃａｎＭｏｄｕｌｅ：由Ａｂｓｔｒａｃｔ＊向下转型为ＡｂｓｔｒａｃｔＭｏｄｕｌｅ＊上ｐＳｃａｎｌ垤ｏｄｕｌｅＴｈｒｅａｄ七ｎｅｗＴｈｒｅａｄ（ｐＳｃａｎＩＶｉｏｄｕｌｅ）Ｏ上ｐＳｃａｎＭｏｄｕｌｅＴｈｒｅａｄ．ｓｔａｒｔ０上ｐｓｃａｎＭ。ｄｕｌｅＴｈｒｅａｄ．ｊ。ｉｎ（）◆／，（结束、＼）／图４．８扫描模块调度流程图第一步：判断扫描模块队列是否不为空，不成立流程结束。第二步：读取一个扫描模块，动态创建扫描模块对象Ａｂｓｔｒａｃｔｏｂｊｅｃｔ。第三步：扫描模块对象对象向下转型为ＡｂｓｔｒａｃｔＭｏｄｕｌｅ。第四步：由于ＡｂｓｔｒａｅｔＭｏｄｕｌｅ实现了Ｒｕｎｎａｂｌｅ接口，所以可以根据ＡｂｓｔｒａｃｔＭｏｄｕｌｅ构造线程。第五步：线程启动。第六步：等待线程结束，调度引擎的停止命令，由扫描模块自己读取，详细图４．９网络爬虫详细结构图４．３．２网络爬虫实现４．３．２。１扫描模块类（ＣｒａｗＩＭｏｄｕＩｅ）的实现本文在３．２节扫描模块设计，介绍整个扫描模块的类体系结构。ＣｒａｗｌｌＶｌｏｄｕｌｅ爬虫扫描模块类从ＳｃａｎｌＶｌｏｄｕｌｅ类继承，对业务有差别的虚函数进行了覆盖。设计４９电子科技大学硕士学位论文中还提到扫描模块实现了线程接口，所有定义在ＡｂｓｔｒａｃｔＭｏｄｕｌｅ的函数接口，都由线程调度执行，具体执行流程参考３．２．４扫描模块工作流程。下面将根据工作流程调度接口的顺序，介绍主要接口所代表的业务逻辑和具体的实现。＞Ｉｎｉｔ初始化函数接口：首先加载扫描深度配置项，研究发现一些大的站点，站点的ＵＲＬ量非常大，如果进行全站抓取，随着扫描的进行保存到文件ＤＢ的数据量会非常巨大，会导致数据库读写性能下降，从而使整个扫描过程的效率降低。因此系统对爬虫的抓取深度做了配置，保证爬虫一次完整抓取合适的工作时间和数据量。爬虫爬行深度配置在系统配置文件里，已有调度引擎在初始化时加载，爬虫模块可以直接从内存中获取，保存在成员变量ｍａｘＳｃａｎｎｅｒＬａｙｅｒ中，具体内容为：＜！～爬虫层次一＞＜ＳｃａｎｎｅｒＬａｙｅｒ＞１０＜／ＳｃａｒｍｅｒＬａｙｅｒ＞接着Ｉｎｉｔ函数从调度引擎保存在内存中的扫描模板配置文件中，读取爬行配置的路径，加载本模块的配置文件ＣｒａｗｌＣｏｎｆｉｇｘ．ｘｍｌ，具体内容如下：＜？ｘｍｌｖｅｒｓｉｏｎ＝”１．０”ｅｎｃｏｄｉｎｇ＝”ＵＴＦ一８”？＞＜！－－ＴｈｉｓｄｏｃｕｍｅｎｔｓｈｏｗｓＷｅｂＳｃａｎｎｅｒｎａｖｉｇａｔｉｏｎｃｏｎｆｉｇｕｒｅｂｙｔｈｅＵＳｅｒ＝一＞＜Ｃｏｎｆｉｇｕｒａｔｉｏｎ＞＜！一目标ＵＲＬ一＞＜ＳｔａｒｔＵｒｌＣａｓｅｓｅｎｓｉｆｉｖｅ＝”Ｆａｌｓｅ”＞ｈｔｔｐ：／／ｗｗｗ．母木木．ｃｎ＜／ＳｔａｒｔＵｒｌ＞＜／Ｃｏｎｆｉｇｕｒａｔｉｏｎ＞爬行配置文件目前只配置了网络爬虫的起始ＵＲＬ，Ｉｎｉｔ函数将根据起始ＵＲＬ，构造一个ＣｒａｗｌＴａｓｋ任务置入ＣｒａｗｌＴａｓｋ队列。最后Ｉｎｋ函数会读取数据库配置文件ＤａｔａＢａｓｅＣｏｎｆｉｇ．ｘｍｌ中的数据库缓存队列长度配置项，保存在成员变量ｄｂＱｕｅｕｅＳｉｚｅ中。＜！一数据库使用的缓冲队列长度～＞＜ｃａｃｈｅ＞ｌ０００＜／ｃａｃｈｅ＞＞ＦｌｕｓｈＤａｔａＴｏＤＢ函数接口：负责按照系统策略，把数据保存任务队列ｄａｔａＳａｖｅＴａｓｋＱｕｅｕｅ中的数据刷入数据库ＣＲＡＷＬ—ＲＥＳＵＬＴ表。ｄａｔａＳａｖｅＴａｓｋＱｕｅｕｅ实际上是一个ｑｕｅｕｅ＜ＤａｔａＯｂｊｅｃｔ＞的容器，里面保存了需要保存到数据库的爬虫模块的ＤａｔａＯｂｊｅｃｔ对象，４．２．１节扫描调度引擎配置文件加载介绍了元数据配置文件网络爬虫部分，网络爬虫模块的数据库表结构如表４．１，设计ｄａｔａＳａｖｅＴａｓｋＱｕｅｕｅ队列来缓存线程池线程中需要保第四章Ｗｅｂ应用安全漏洞扫描工具详细设计与实现存的ＤａｔａＯｂｊｅｃｔ对象原因是ＳＱＬｉｔｅ数据库是嵌入式文件数据库，支持并发读不支持并发写，因此多线程的写入ＳＱＬｉｔｅ数据库并不能提高效率，反而因为频繁的加解锁损失性能。并且数据库中耗时较多的是事务的提交，因此各线程中需要保存的ＤａｔａＯｂｊｅｃｔ缓存起来，统一的批量提交，既可以减少ＳＱＬｉｔｅ写并发量，也可以提高数据库事务到合适粒度，提高了数据库的性能。Ｆ１ｕＳｈＤ吨门№ＤＢ函数按定量超时策略，调用数据库读写模块把ＤａｔａＯｂｊｅｃｔ批量保存到数据库。表４．１ＣＲＡＷＬＲＥＳＵＩＴ表除段磐‘纛熬落≤暴℃荨设类咝≥Ｉｊ０ｊ耋键，非奎。，，索弓∥、≯簧义ｚｉ暴簇ｊ？基豢０‘默认值毒ＩＤＩＮＴＥＧＥＲ√√、，主键自增ＵＲＬＶＡＲＣＨＡＲ（２５请求的ＵＲＬ６）ＤＥＰＴＨＶＡＲＣＨＡＲ（２０ＵＲＬ深度）ＲＥＳＰＯＮＳＥ——ＣＯＤＥＶＡＲＣＨＡＲ（２０ＨＴＴＰ回应码）ＭＥＴＨＯＤＶＡＲＣＨＡＲ（１０ＨＴＴＰ请求方法）ＰＡＲＡＭ—．ＩＤＥＮＴＩＦＩＶＡＲＣＨＡＲ（２０根据ＨＴＴＰ请求ＥＲ）参数名，计算的ＭＤ５值ＧＥＴ—．ＰＡＲ＿ＡＭＶＡＲＣＨＡＲ（２５ＧＥＴ请求参数６）ＰＯＳＴ．．ＰＡＲＡＭＶＡＲＣＨＡＲ（５１ＰＯＳＴ请求参数２１ＲＥＱＵＥＳＴ＿ＨＥＡＤＥＶＡＲＣＨＡＲ（１０ＨＴＴＰ请求头Ｒ２４）ＲＥＳＰＯＮＳＥ．．ＨＥＡＤＶＡＲＣＨＡＲ（１０ＨＴＴＰ回应头ＥＲ２４）ＵＲＬ——ＳＥＴＶＡＲＣＨＡＲ（１０从抓取到的网页２４）中解析到的ＵＲＬＵＲＬ—ＳＥＴ．－ＣＲＡＷＬＶＡＲＣＨＡＲ（１０经过格式化过滤２４）需要后续爬行的ＵＲＬＦ１ｕｓｌｌＤａｔａＴｏＤＢ的执行流程如下：第一步：初始化静态变量ｆｌｕｓｈＴｉｍｅ为系统当前时间。第二步：判断ｄａｔａＳａｖｅＴａｓｋＱｕｅｕｅ队列元素个数是否达到策略限制Ｍ个，为真执行下一步，为假转到第四步。５１电子科技大学硕士学位论文第三步：调用数据库读写模块，保存队首Ｍ个元素到数据库，ｆｉｕｓｈＴｉｍｅ更新为系统当前时间。第四步：获取系统当前时间ｃｕｒｒｅｎｔＴｉｍｅ，判断ｃｕｒｒｅｎｔＴｉｍｅ—ｆｌｕｓｈＴｉｍｅ＞Ｔ，Ｔ为策略定义的超时时间，为真执行下一步，为假流程结束。第五步：调用数据库读写模块，保存队列元素（＜＝Ｍ）个到数据库，ｆｌｕｓｈＴｉｍｅ更新为系统当前时间。＞ＬｏａｄＤａｔａＦｒｏｍＤＢ函数接口：负责按照系统策略，批量从数据库加载数据生成ＵＲＬ，保存到ＵＲＬ队列。系统的第一个扫描任务是在Ｉｎｉｔ函数中，根据ＣｒａｗｌＣｏｎｆｉｇ．ｘｍｌ配置文件生成的，后续的扫描任务，都是根据扫描过程中抓取到的保存到数据库ＣＲＡＷＬＲＥＳＵＬＴ表ＵＲＬＳＥＴＣＲＡＷＬ字段的ＵＲＬ构造的，ＵＲＬＳＥＴＣＲＡＷＬ字段保存的是从当前记录表示的ＵＲＬ网页中，解析出来经过格式化和过滤后的ＵＲＬ按一定格式拼接在一起的字符串。ＬｏａｄＤａｔａＦｒｏｍＤＢ的执行流程如下：第一步：初始化静态变量ｏｆｆｓｅｔｌｄ＝０，ｏｆｆｓｅｔ记录访问ＣＲＡＷＬＲＥＳＵＬＴ表偏移量。第二步：判断ＵＲＬ队列的元素个数是否少于系统策略限制Ｍ个，为真执行下一步，为假流程结束。第三步：调用数据库访问模块，从ＣＲＡＷＬＲＥＳＵＬＴ表批量加载ｍ＜＝Ｍ条记录。第四步：读取ＵＲＬＳＥＴＣＲＡＷＬ字段内容，生成ＵＲＬ置入ＵＲＬ队列。第五步：更新数据库偏移量ｏｆｆｓｅｔｌｄ为加载的最后一条记录的ＩＤ。最后数据库访问模块生成执行的ＳＱＬ语句为：ｓｅｌｅｃｔ木ｆｒｏｍＣＲＡＷＬＲＥＳＵＬＴｗｈｅｒｅＵＲＬ—ＳＥＴ—ＣＲＡＷＬ◇”ａｎｄｉｄ＞ｏｆｆｓｅｔｌｄｌｉｍｉｔＭ＞ＣｒｅａｔｅＴａｓｋ函数接口：负责根据ＵＲＬ构造ＣｒａｗｌＴａｓｋ任务，由于爬虫模块不需要测试脚本的，所以创建任务的时候，不需要加载测试脚本，只需要检测ＵＲＬ的深度属性是否超过系统配置限制ｍａｘＳｃａｎｎｅｒＬａｙｅｒ，没超过限制的ＵＲＬ，创建一个ＣｒａｗｌＴａｓｋ对象调用ＳｅｔＵｒｌ接口设置好ＵＲＬ，然后把ＣｒａｗｌＴａｓｋ置入ＳｃａｎＴａｓｋ队列中。ＣｒｅａｔｅＴａｓｋ函数工作流程如图４．１０所示：５２第四章Ｗｅｂ应用安全漏洞扫描工具详细设计与实现（开始）上从ＵＲＬ队列，读取ＵＲＬ构造ＳｃａｎＴａｓｋ任务，入ＳｃａｎＴａｓｋ队列Ｉ●Ｎ－’（结束）图４．１０爬虫任务创建流程图４．３。２．２扫描任务类（ＣｒａｗｌＴａｓｋ）的实现网络爬虫模块扫描任务类ＣｒａｗｌＴａｓｋ从ＳｃａｎＴａｓｋ继承，参考３．２节扫描模块设计。扫描任务内实现了Ｒｕｎｎａｂｌｅ接口，所有的功能都在线程池内被执行。如４．３．２节网络爬虫结构图中，线程池中第一步为抓取网页，第二步为网页解析，ＵＲＬ格式化过滤，第三步为数据保存，分别对应到ＳｃａｎＴａｓｋ的三个接口的实现。＞ＦｅｔｃｈＨｔｍｌ函数接口：对应到网络爬虫结构图中，线程池第一步，执行网页抓取。网页抓取调用公共组件ＨＴＴＰ传输模块ＨｔｔｐＦｅｔｃｈｅｒ：：ｆｅｔｃｈＨｔｍｌ接口，传入构造的ＨｔｔｐＰａｃｋａｇｅ对象，ＨｔｔｐＰａｃｋａｇｅ对象的ＵＲＬ成员拷贝ＣｒａｗｌＴａｓｋ的ＵＲＬ成员，三个ＨｔｔｐＢｕｆｆｅｒ是Ｈ，ｒｒＰ传输模块在传输过程中写入的，最后Ｈ们限传输模块返回ｂｏｏｌ值，标识此次ＨＴＴＰ传输是否成功，详细请参照４．１．４节ＨＴＴＰ传输模块设计与实现。如果ＦｅｔｃｈＨｔｍｌ函数返回Ｔｒｕｅ，则流程进入到ＶｕｌｎｅｒａｂｉｌｉｔｙＡｎａｌｙｚｅ函数，否则流程结束。＞ＶｕｌｎｅｒａｂｉｌｉｔｙＡｎａｌｙｚｅ函数接口：对应到网络爬虫结构图中，线程池第二步，执行网页解析，ＵＲＬ格式化过滤。ＶｕｌｎｅｒａｂｉｌｉｔｙＡｎａｌｙｚｅ函数逻辑首先执行网页解析，在网页解析的过程中同时执行ＵＲＬ格式化，最后执行ＵＲＬ过滤，在网络爬虫模块只要ＨｒｒＰ回应码不为４０４、５００，ＶｕｌｎｅｒａｂｉｌｉｔｙＡｎａｌｙｚｅ函数就为Ｔｒｕｅ。５３电子科技大学硕士学位论文ａ）网页解析：网页解析是网络爬虫的关键功能，网页解析从抓取到网页中解析链接，经过格式化和过滤后，作为爬虫后续的抓取任务，因此网页解析模块的也会影响到网络爬虫的覆盖率，从而影响这个系统漏洞测试的覆盖率。网页解析获得ＨＴＴＰ传输模块返回的ＨｔｔｐＰａｃｋａｇｅ对象后，并不是立即进行ｈｔｍｌ解析，因为针对下列情况的报文是不需要解析的，比如Ｈ郇回应码为４０４、５００等，或者ｃｏｎｔｅｎｔ－ｔｙｐｅ为ｉｍａｇｅ，—一的报文。ＨｒｒＰ回应头如图４．１１所示：图４．１１ＨＴＴＰ回应头示意图因此网页解析模块首先解析ｈｔｔｐＲｅｓｐｏｎｓｅＨｅａｄｅｒ，如果回应头满足上述条件，流程结束，否则执行真正的网页解析流程。网页中存在ＵＲＬ链接的标签，用如下的数据记录：ｓｔａｔｉｃｃｈａｒ术ｔａｇＡｒｒａｙ［１０］［３］＝｛∥一级标签｛Ｉ，ａ＂，”１１ｒｅｆ＂，”１”），｛Ｉｆｌｉｌｌｌ【”，”ｈｒｅｆ＇，＂１”），｛”ｓｃｒｉｐｔ”，”ｓｒＣ＂，”１”），｛Ｉｔ缸吼ｅ”，”ｓｒｃ”，”１”），｛＂ｉｆｒａｍｅ＂，＂ｓｒｃ＂，”１”），｛ｆＩｉｍｇ”，”ｓｒｃ”，”１”），｛＂ｆｏｒｍ”，”ａ嘶ｏｎ”，”１”），／／ｆｏｒｍ内部的二级标签｛ｌｆ妇ｐｕｔ＂，”ｎａｍｅ＂，＂２＂），｛＂ｓｅｌｅｃｔ＂，＂ｎａｍｅ＂，＂２”），｛＂ｔｅｘｔａｒｅａ＂，＂ｎａｍｅ＂，＂２”）＞；ｔａｇＡｒｒａｙ第一列表示标签名，第二列表示需要解析的标签属性，第三列表示标第四章Ｗｅｂ应用安全漏洞扫描工具详细设计与实现签的层级。ｈｔｔｐＲｅｓｐｏｎｓｅＢｏｄｙ存储的是网页内容，网页解析采用基本的字符解析方法，对网页只从头到尾扫描一遍，提高解析效率，具体算法如下：第一步：初始化指针ｐｏｓＰａｒｓｅ指向网页首地址，初始化ｂｏｏｌ值ｆｏｒｍＳｔａｒｔｅｄ为ＦＡＬＳＥ，初始化ＵＲＬ＊ｆｏｒｍＵＲＬ为ＮＵＬＬ。第二步：从ｐｏｓＰａｒｓｅ开始扫描“＜”，找到“＜”地址赋给ｐｏｓＰａｒｓｅ，执行下一步，找不到转到第十四步。第三步：判断“＜”开始是否为注释“＜！一”，是则ｐｏｓＰａｒｓｅ跳过注释，回到第二步，否则ｐｏｓＰａｒｓｅ跳过“＜＂进入下一步，解析标签流程。第四步：ｐｏｓＰａｒｓｅｔ跳过空白字符，解析标签名是属于ｔａｇＡｒｒａｙ中的哪一类标签，记录需要解析的属性标签属性ａｔｔｒｉｂｕｔｅ，不属于ｔａｇＡｒｒａｙ中的标签则转到第十三步。第五步：判断标签级别，为一级标签，执行下一步，为二级标签转到第十一步。第六步：判断ｆｏｒｍＳｔａｒｔｅｄ，为ＴＲＵＥ，则保存ｆｏｒｍＵＲＬ记录的ＵＲＬ对象，且置ｆｏｒｍＵＲＬ为ＮＵＬＬ，置ｆｏｒｍＳｔａｒｔｅｄ为ＦＡＬＳＥ。第七步：解析标签属性ａｔｔｒｉｂｕｔｅ，此时解析到的就是ＵＲＬ链接，构造ＵＲＬ对象传入解析到的ａｔｔｒｉｂｕｔｅ值。第八步：判断标签是否为ｆｏｒｍ，是执行第九步，否则转到第十步。第九步：ｆｏｒｍＳｔａｒｔｅｄ置为ＴＲＵＥ，ｆｏｒｍＵＲＬ记录第七步的ＵＲＬ对象，设置对象的ＨＴＴＰ请求方法为“ＰＯＳＴ”。第十步：保存ＵＲＬ对象，转到第十三步。第十一步：判断ｆｏｒｍＳｔａｒｔｅｄ，为ＴＲＵＥ，执行下一步，否则转到第十三步。第十二步：解析标签属性ａｔｔｒｉｂｕｔｅ，此时解析到的是ｐｏｓｔ参数名，把参数纳入系统收集的常用参数名比对，比对成功赋予系统预设好的参数值，否则赋予参数值为ｔｅｓｔ，然后保存参数到ｆｏｒｍＵＲＬ记录的ＵＲＬ的ｐｏｓｔＰａｒａｍ中。第十三步：当前标签解析结束回到第二步。第十四步：网页解析结束，如果ｆｏｒｍＳｔａｒｔｅｄ为ＴＲＵＥ，则保存ｆｏｒｍＵＲＬ记录的对象，且置ｆｏｒｍＵＲＬ为ＮＵＬＬ，置ｆｏｒｍＳｔａｒｔｅｄ为ＦＡＬＳＥ。ｂ）ＵＲＬ格式化：网页中的链接格式存在不规范性。爬虫需要一个ＵＲＬ格式化模块，对网页中解析到的链接进行预处理，把相对链接变成绝对链接，而且许多网页中的链接都５５电子科技大学硕士学位论文没有主域名，需要把站点主域名补充到爬行到的ＵＲＬ中。如图４．１２所示：图４—１２ＵＲＬ格式化图网页解析中会构造ＵＲＬ对象来保存解析到的ＵＲＬ，ＵＲＬ类的定义在４．１．４节ＨＴＴＰ传输模块设计与实现。声明ＵＲＬ对象后，会调用ＵＲＬ：：ｐａｒｓｅ（ｃｈａｒ书ｕｒｌ，ＵＲＬ＊ｐａｒｅｎｔ）方法，传入谢字符串和解析ｕｒｌ的源网页链接，来对解析到的链接进行格式化。Ｐａｒｓｅ方法流程如下：第一步：判断链接是否以协议开头，是执行第五步，否执行下一步。第二步：判断链接是否以／开头，是转到第四步，否执行下一步。第三步：相对路径，根据ｐａｒｅｎｔＵＲＬ转为绝对路径。第四步：绝对路径，从ｐａｒｅｎｔＵＲＬ获得协议、主机、端口拼接成一个完整的ｕｒｌ。第五步：ｕｒｌ按标准格式拆分获得各个部分信息，如协议、主机、端口、路径等，详细将查看ＵＲＬ类定义。ｃ）ＵＲＬ过滤ＵＲＬ过滤针对四类链接：站外链接、站内非起始ＵＲＬ子树的链接、站内重复链接、站内类似的动态链接。Ｗｅｂ安全漏洞扫描工具的爬虫跟搜索引擎网络爬虫区别是，扫描工具只抓取目标站点的网页。网站的网页都会交叉引用，通常站内网页中解析出来的链接有很多一部分都是站外，这部分链接需要过滤。系统设计考虑到大型站点的解决方案，只抓取起始ＵＲＬ子树的ＵＲＬ链接，所以对非子树上的ＵＲＬ链接也需要过滤。除了上述两类链接外，不同的网页中可能会解析到完全相同的站内链接，这部分重复链接也需要过滤。除此之外由于搜索引擎爬虫通常只抓取静态网页，对动态的链接会丢弃到，对扫描工具的爬虫来说，动态链接是爬虫主要收集的链接，更是后续比如ＳＱＬ注入检测和ＸＳＳ检测的测试点，所以不能采取搜索引擎爬虫的方式丢弃到动态链接。但动态链接往往存在这样的情况，例如动态链接：ｈｔｔｐ：／／ｗｗｗ．木宰宰．ｅｏｍ／ｎｅｗ．ｊｓｐ？ｉｄ＝１００对这个链接的分析，其明显属于查看新闻的链接，针对ｉｄ不同的值访问不同的新闻内容，熟悉Ｗｅｂ开发的人员知道，这样的动态网页结构都是一样的，只有第四章Ｗｅｂ应用安全漏洞扫描工具详细设计与实现中间新闻内容部分不一样，因此爬虫在抓取的时候，只需要抓取到一个这样的网页就行了，不需要对比如ｉｄ＝１０１或者ｉｄ＝１０２的进行抓取，而且后续的漏洞测试如ＳＱＬ注入检测、ＸＳＳ检测，都只关注测试参数ｉｄ，并不关心ｉｄ的值，因此对类似的ＵＲＬ只抓取一个，其余的过滤掉是合理的，并且网站中这种类似的链接都非常多，可以节省爬虫抓取一个站点的时间。ＵＲＬ的过滤流程非常简单，当得到一个来自网页解析的ＵＲＬ对象后，站外链接直接根据ｈｏｓｔ过滤掉，非初始ＵＲＬ子树链接根据ｐａｔｈ过滤掉，站内重复链接和站点类似动态链接采用扫描模块类的Ｈａｓｈ表接口进行过滤，采取的过滤流程如下：第一步：ｈｏｓｔ名过滤，过滤掉站外链接。第二步：ｐａｔｈ过滤，过滤ｐａｔｈ不以起始ＵＲＬ的ｐａｔｈ开始的链接。得到ｕｒｌｌｄｅｎｔｉｆｉｅｒ字串。例如ｈｔｔｐ：黼．料木．ｃｏｍ／ｎｅｗｓ．ｊｓｐ？ｉｄ＆ｋｅｙｗｏｒｄ＆ｃｏｎｔｅｎｔ。第三步：不带ｑｕｅｒｙ部分的ＵＲＬ连接所有的参数名构造字串，对结果ＭＤ５，第四步：Ｈａｓｈ表中查找ｕｒｌｌｄｅｎｔｉｆｉｅｒ，不存在ｋｅｙ为ｕｒｌｌｄｅｎｔｉｆｉｅｒ的结果，保存该ＵＲＬ对象，并插入ｕｒｌｌｄｅｎｔｉｆｉｅｒ到Ｈａｓｈ表，存在则过滤该链接。＞ＳａｖｅＤａｔａＴｏＤＢ函数接口：如果ＶｕｌｎｅｒａｂｉｌｉｔｙＡｎａｌｙｚｅ函数接口函数返回Ｔｒｕｅ，程序流程进入保存数据到数据库流程。根据ＨｔｔｐＰａｃｋａｇｅ以及解析到的原始ＵＲＬ和格式化过滤后的ＵＲＬ构造ＤａｔａＯｂｊｅｃｔ，调用数据库访问模块保存到数据库中，原始ＵＲＬ保存在爬虫表ＵＲＬＳＥＴ字段，格式化过滤后的ＵＲＬ保存在ＵＲＬＳＥＴＣＲＡＷＬ字段。４．４ＳＯＬ注入漏洞扫描模块４．４．１Ｓ０１＿注入漏洞扫描结构ＳＱＬ注入漏洞扫描的整体结构是在３．２节设计的扫描模块结构基础上，做了一些功能模块的具体化。ＳＱＬ注入漏洞扫描的整体结构如图４．１３：线程池内部，执行的是ＳＱＬ注入漏洞扫描任务的功能，跟３．２．２节的扫描结构图相比，结构没有发生变化，只是执行的第二步，通用结构图中的漏洞分析，具体化成了对应ＳＱＬ注入漏洞扫描模块的ＳＱＬ注入漏洞分析。线程池外部，执行的是ＳＱＬ注入漏洞扫描模块主线程的功能，跟３．２．２节的扫描结构图相比，结构没有发生变化，只是通用结构图中的测试脚本加载，具体化成了对应ＳＱＬ注入漏洞扫描模块的ＳＱＬ注入脚本加载。５７电子科技大学硕士学位论文图４．１３８ＱＬ注入漏洞扫描结构图４。４．２ＳＯＬ注入漏洞扫描的实现ＳＱＬ注入漏洞扫描模块从网络爬虫抓取的站点ＵＲＬ中，分析出漏洞测试点，具体为拥有参数的ＵＲＬ，包括ＧＥＴ参数和ＰＯＳＴ参数，然后基于３．２节设计的扫描模块基础架构，结合ＳＱＬ注入漏洞检测原理基础上设计的测试脚本，对漏洞测试点进行逐个检测。４．４．２．１扫描模块类（Ｓｑｌ｜ｎｊｅｃｔｉｏｎＭｏｄｕＩｅ）的实现本文在３．２节扫描模块设计，介绍整个扫描模块的类体系结构。ＳＱＬ注入漏洞扫描模块类ＳｑｌＩｎｊｅｃｔｉｏｎＭｏｄｕｌｅ从ＳｃａｒｔＭｏｄｕｌｅ类继承，对业务有差别的虚函数进行了覆盖。设计中还提到扫描模块实现了线程接口，所有定义在ＡｂｓｔｒａｃｔＭｏｄｕｌｅ的函数接口，都由线程调度执行，具体执行流程参考３．２．４扫描模块工作流程。下面将根据工作流程调度接口的顺序，介绍主要接口所代表的业务逻辑和具体的实现。＞Ｉｎｉｔ初始化函数接口：负责本模块的初始化工作，主要是加载配置文件，Ｉｎｉｔ函数从内存中的扫描模板配置文件，本模块节点解析到本模块内ＳＱＬ配置文件的路径。ｎ配置文件主要配置的是根据ｏｉｔｃｅｊｎＩ＿ＬＱＳｌＳＱＬ测＿．注Ｉｎｊ入ｅｃ漏ｔｉｏ洞ｎｍ检ｘ原理设计的ＳＱＬ注入漏洞测试脚本，具体内容如下：＜？ｘｍｌｖｅｒｓｉｏｎ＝＂１．０＂ｅｎｃｏｄｉｎｇ＝”ＵＴＦ一８＂？＞＜，＜ＩｔｅｍＶａｌｕｅ＝”ＪｙＩ％３Ｄ”Ｔｙｐｅ＝＂１ｌＩ＞＜／Ｉｔｅｍ＞＜！一经典１＝１，１＝２数字型一＞＜ＩｔｅｍＴｙｐｅ＝”２”＞＜ＩｔｅｍＥｎａｂｌｅｄ＝”１”Ｎａｍｅ＝”１＝１＂Ｖａｌｕｅ＝””＞＜／Ｉｔｅｍ＞＜ＩｔｅｍＥｎａｂｌｅｄ＝”１”Ｎａｍｅ＝”１＝１”Ｖ甜Ｈｅ＝”％２０ａｎｄ％２０ｌ＝１”＞＜／Ｉｔｅｍ＞＜ＩｔｅｍＥｎａｂｌｅｄ＝”１”Ｎａｍｅ＝”１＝２”Ｖａｌｕｅ＝”％２０ａｎｄ％２０１＝２”＞＜／Ｉｔｅｍ＞＜／Ｉｔｅｍ＞＜！一经典１＝１，１＝２字符型一＞＜ＩｔｅｍＴｙｐｅ＝”２”＞＜ＩｔｅｍＥｎａｂｌｅｄ＝＂１”Ｎａｍｅ＝”’ａｎｄ’１．－’１”Ｖａｌｕｅ＝””＞＜／Ｉｔｅｍ＞＜ＩｔｅｍＥｎａｂｌｅｄ＝”１”Ｎａｍｅ＝”１＝１”Ｖ砒ｕ萨”’％２０ａｎｄ％２０’１ｔ＿’１”＞’＜／Ｉｔｅｍ＞＜ＩｔｅｍＥｎａｂｌｅｄ＝”１”Ｎａｍｅ＝”１＝２”‰萨…％２０ａｎｄ％２０’１Ｉ＿’２”＞＜／Ｉｔｅｍ＞＜／Ｉｔｅｍ＞＜／Ｐｒｏｆｉｌｅ＞Ｔｙｐｅ节点标识了测试脚本类型，Ｔｙｐｅ＝”１”表示测试脚本基于测试方法一，基于异常反馈信息的检测，Ｔｙｐｅ＝…２’表示测试脚本基于测试方法二，经典的１＝１、１＝２５９的加解锁损失性能。并且数据库中耗时较多的是事务的提交，因此各线程中需要保存的ＤａｔａＯｂｊｅｃｔ缓存起来，统一的批量提交，既可以减少ＳＱＬｉｔｅ写并发量，也可以提高数据库事务到合适粒度，提高了数据库的性能。Ｆ１ｕｓｌＤａｔａＩＴｏＤＢ函数按定量超时策略，调用数据库读写模块把ＤａｔａＯｂｊｅｃｔ批量保存到数据库。努段藿ｔ、。；≯ｉｏｊｊ含义，衅寰；≯∥，ｉ默认值虢赫毒麓ｊｆ≮城Ｉ。；’字段类擎Ｉｏ主；暑彦空７索弓｝；？冉ｊ‘，·二ｉ、，。ｊ。４。ｊｉ≯‘＿挣ｉ≯ｊ÷２ｔ？≯．：■？“，’≯叠０７ｉ镰ｓ：；键ｊ誓聱，ｎ，ｔ；≮Ｉ一≥ＩＤｎ、ｉＴＥＧＥＲ、，√√主键自增ＵＲＬＶＡＲＣＨＡＲ（２５６）请求的ＵＲＬＭＥＴＨｏＤＶＡＲＣＨＡＲ００）ＨＴＩＰ请求方ＧＥＴ——Ｐ删法ＶＡＲＣＨＡＲ（２５６）ＧＥＴ请求参数ＰＯＳＴ——ＰＡＲＡＭＶＡＲＣＨＡＲ（５１２）ＰＯＳＴ请求参数ＰＡＲＡＭ．．ＴＥＳＴＶＡＲＣＨＡＲ（１００）此次测试的参数名ＰＡＲＡＭ——ＴＥＳＴ．．ＶＡＶＡＲＣＨＡＲ（１０２４）测试脚本ＬＵＥＲＥＱＵＥＳＴ＿ＨＥＡＤＥＶＡＲＣＨＡＲ（１０２４）ＨＴＴＰ请求头ＲＲＥＳＰＯＮＳＥ——ＨＥＡＤＶＡＲＣＨＡＲ（１０２４）ＨＴＴＰ回应头ＥＲＲＥＳＰＯＮＳＥ——ＢＯＤＹＶＡＲＣＨＡＲ（４０９６）ＨＴＴＰ回应体ＦｌｕｓｈＤａｔａＴｏＤＢ的执行流程如下：第一步：初始化静态变量ｆｌｕｓｈＴｉｍｅ为系统当前时间。第四章Ｗｅｂ应用安全漏洞扫描工具详细设计与实现第二步：判断ｄａｔａＳａｖｅＴａｓｋＱｕｅｕｅ队列元素个数是否达到策略限制Ｍ个，为真执行下一步，为假转到第四步。第三步：调用数据库读写模块，保存队首Ｍ个元素到数据库，ｆｌｕｓｈＴｉｍｅ更新为系统当前时间。，第四步：获取系统当前时间ｃｕｒｒｅｎｔＴｉｍｅ，判断ｃｕｒｒｅｎｔＴｉｍｅ—ｆｌｕｓｈＴｉｍｅ＞Ｔ，Ｔ为策略定义的超时时间，为真执行下一步，为假流程结束。第五步：调用数据库读写模块，保存队列元素（＜＿Ｍ）个到数据库，ｆｌｕｓｈＴｉｍｅ更新为系统当前时间。＞ＬｏａｄＤａｔａＦｒｏｍＤＢ函数接口：负责按照系统策略，批量从数据库加载数据生成ＵＲＬ，保存到ＵＲＬ队列。ＳＱＬ注入模块的扫描任务，都是根据网络爬虫抓取到的保存到ＣＲＡＷＬＲＥＳＵＬＴ表的带参数的ＵＲＬ构造的。跟网络爬虫的区别是，本模块读取的是当前记录所代表的ＵＲＬ，ＵＲＬ链接是否具有参数由该表ＰＡＲＡＭＩＤＥＮＴＩＦＩＥＲ字段标识，查询条件判断ＰＡＲＡＭＩＤＥＮＴＩＦＩＥＲ不为空，说明该ＵＲＬ具有参数。ＬｏａｄＤａｔａＦｒｏｍＤＢ的执行流程如下：第一步：初始化静态变量ｏｆｆｓｅｔｌｄ＝０，ｏｆｆｓｅｔ记录访问ＣＲＡＷＬＲＥＳＵＬＴ表偏移量。第二步：判断ＵＲＬ队列的元素个数是否少于系统策略限制Ｍ个，为真执行下一步，为假流程结束。第三步：调用数据库访问模块，从ＣＲＡＷＬＲＥＳＵＬＴ表批量加载ｍ＜＝Ｍ条记录。第四步：根据该条记录的内容，生成ＵＲＬ置入ＵＲＬ队列。第五步：更新数据库偏移量ｏｆｆｓｅｔｌｄ为加载的最后一条记录的ＩＤ。最后数据库访问模块生成执行的ＳＱＬ语句为：ｓｅｌｅｃｔ术ｆｒｏｍＣＲＡＷＬＲＥＳＵＬＴｗｈｅｒｅＰＡＲ．ＡＭ—ＩＤＥＮＴＩＦＩＥＲ◇¨ａｎｄｉｄ＞ｏｆｆｓｅｔｌｄｌｉｍｉｔＭ＞ＣｒｅａｔｅＴａｓｋ函数接口：负责根据ＵＲＬ构造ＳｑｌＩｎｊｅｃｔｉｏｎＴａｓｋ任务，从ＵＲＬ队列读取一个ＵＲＬ，读取保存在内存中的测试脚本配置，构造ＳｑｌＩｎｊｅｃｔｉｏｎＴａｓｋ然后置入ＳｃａｎＴａｓｋ队列中。ＣｒｅａｔｅＴａｓｋ函数工作流程如图４．１４所示：６１电子科技大学硕士学位论文（开始）＋从ＵＲＬ队列读取一个［ＪＲＬ对象士获得ＵＲＬ对象的所有参数名入队一—墨逐箜坠２１：全型乒‘翱瘾亲滁胁ＹｅｓＴ从参数队列读取一个参数Ｌ——宅Ｆ酾磊丽幂：：乏ｉ潇存力卜－７——垃昱型坚竺竺兰型璺堕丛－一ＹｅｓＴ选择测试脚本Ｊ拷贝一个ＵＲＬ对象，选择的参数名的值追加选择的测试脚本０Ｏ构造ＳｑｌＩｎｊｅｃｔｉｏｎＴａｓｋ对象０设置构造ＵＲＬ对象，设置测试参数，设置测试脚本，ＩＳｑｌＩｎｉｅｃｔｉｏｎＴａｓｋ对象入队０（结束）图４－１４ＣｒｅａｔｅＴａｓｋ工作流程图４．４．２．２扫描任务类（ＳｑＩ｜ｎｊｅｅｒｉｏｎＴａｓｋ）的实现ＳＱＬ注入模块扫描任务类ＳｑｌＩｎｊｅｃｔｉｏｎＴａｓｋ从ＳｃａｎＴａｓｋ继承，参考３．２节扫描模块设计。扫描任务内实现了Ｒｕｎｎａｂｌｅ接口，所有的功能都在线程池内被执行。如４．４．２节ＳＱＬ注入扫描模块结构图中，线程池中第一步为抓取网页，第二步为ＳＱＬ注入漏洞解析，第三步为数据保存，分别对应到ＳｃａｎＴａｓｋ的三个接口的实现。＞ＦｅｔｃｈＨｔｍｌ函数接口：对应到ＳＱＬ注入扫描模块结构图中，线程池第一步，执行网页抓取。网页抓取调用公共组件ＨＴｒＰ传输模块ＨｔｔｐＦｅｔｅｈｅｒ：：ｆｅｔｃｈＨｔｍｌ接口进行，跟网络爬虫模块有区别的地方是，爬虫模块ＦｅｔｃｈＩ－Ｉｔｍｌ函数只调用Ｈ卸Ｆｅｔｃｈｅｒ做一次ＨＴｒＰ请求，而对于ＳＱＬ注入扫描模块，发送的Ｈ，丌Ｐ请求的数据跟测试脚本的类型相关，如果为Ｔｙｐｅ＝¨１＂的测试脚本，则只做一次Ｈ１］曙请求，得到一个ＨｔｔｐＰａｃｋａｇｅ对象，如果是Ｔｙｐｅ＝…２’的测试脚本将执行三次Ｈ１］即请求，得到三个ＨｔｔｐＰａｃｋａｇｅ对第四章Ｗｅｂ应用安全漏洞扫描工具详细设计与实现象只要任何一次ＨＴｒＰ请求失败，则ＦｅｔｃｈＨｔｍｌ函数返回Ｆａｌｓｅ。＞ＶｕｌｎｅｒａｂｉｌｉｔｙＡｎａｌｙｚｅ函数接口：如果上一步ＦｅｔｃｈＩ－Ｉｔｍｌ函数返回Ｔｒｕｅ，流程进入到当前函数，对应到ＳＱＬ注入扫描模块结构图中，线程池第二步，执行ＳＱＬ注入漏洞分析。漏洞分析流程跟测试的参数类型相关，如果为Ｔｙｐｅ＝”１”的测试脚本，基于异常反馈信息的漏洞检测，此时只有一个ＨｔｔｐＰａｃｋａｇｅ，漏洞分析步骤如下：第一步：检测ＨｔｔｐＰａｃｋａｇｅ．ｈｔｔｐＲｅｓｐｏｎｓｅＨｅａｄｅｒ，判断此次ＨＴ邛请求回应码是否为５００。第二步：检测ＨｔｔｐＰａｃｋａｇｅ．ｈｔｔｐＲｅｓｐｏｎｓｅＢｏｄｙ（ＨＴＴＰ回应的ＨＴＭＬ代码）中是否存在，异常反馈信息特征码库中的，某个异常反馈信息特征码。第三步：综合一二步判断条件，如果第一步条件成立且第二步条件成立，则存在ＳＱＬ注入漏洞风险，ＶｕｌｎｅｒａｂｉｌｉｔｙＡｎａｌｙｚｅ返回Ｔｒｕｅ，同时按照ＦｅｔｃｈＨｔｍｌ函数介绍的方法，调用扫描模块接口，更新Ｈａｓｈ表。如果为Ｔｙｐｅ＝＂１”的测试脚本，基于经典１＝１，１＝２检测，此时ＨｔｔｐＰａｃｋａｇｅ有三个，分别对应检测原理的该方法的请求１、请求２、请求３，漏洞分析步骤如下：第一步：判断请求１，ＨｔｔｐＰａｃｋａｇｅ．ｈｔｔｐＲｅｓｐｏｎｓｅＨｅａｄｅｒ的回应码是否为２００。第二步：判断请求２，ＨｔｔｐＰａｃｋａｇｅ．ｈｔｔｐＲｅｓｐｏｎｓｅＨｅａｄｅｒ的回应码是否为２００，且ＨｔｔｐＰａｃｋａｇｅ．ｈｔｔｐＲｅｓｐｏｎｓｅＢｏｄｙ内容和请求１基于一致，检测办法为在请求２中随机截取Ｎ个长度为Ｌ的字串，然后在请求１中查找该串，如果查找成功的概率达到Ｐ，则认为相同，参数为在实际运用中调整。第三步：判断请求３，ＨｔｔｐＰａｃｋａｇｅ．ｈｔｔｐＲｅｓｐｏｎｓｅＢｏｄｙ内容和请求１是否不一致，检测方法为在请求３中随机截取Ｎ个长度为Ｌ的字串，然后在请求１中查找该串，如果查找失败的概率达到Ｐ’，则认为不同，参数为在实际运用中调整。第四步：综合一二三步判断条件，如果第一二三步的条件都满足，则存在ＳＱＬ注入漏洞风险，ＶｕｌｎｅｒａｂｉｌｉｔｙＡｎａｌｙｚｅ返回Ｔｒｕｅ。＞ＳａｖｅＤａｔａＴｏＤＢ函数接口：如果ＶｕｌｎｅｒａｂｉｌｉｔｙＡｎａｌｙｚｅ函数接口函数返回Ｔｒｕｅ，程序流程进入保存数据到数据库流程。本模块数据保存在ＳＱＬＴＣＥＪＲＥＳＵＬＴＮＩ＿跟样同辑逻据数存保，表测试脚本类型相关。如果为Ｔｙｐｅ＝…１’的测试脚本，只有一个Ｈ丁ｒＰ请求需要保存，结合测试的ＵＲＬ，测试参数名，测试脚本，构造ＤａｔａＯｂｊｅｃｔ对象，调用数据库访问模块保存即可。如果为Ｔｙｐｅ＝”２＂的测试脚本，有三个哪请求需要保存，会把三个请求的请求头拼接在一起，回应头拼接在一起，组成一个ＨｔｔｐＰａｃｋａｇｅ后，电子科技大学硕士学位论文跟类型１一样的保存。４．５ＸＳＳ漏洞扫描模块４．５．１ＸＳＳ漏洞扫描结构ＸＳＳ漏洞扫描的整体结构同样也是在３．２节设计的扫描模块结构基础上，做了一些功能模块的具体化。ＸＳＳ漏洞扫描的整体结构如图４。１５：图４－１５ＸＳＳ漏洞扫描结构图线程池内部，执行的是ＸＳＳ漏洞扫描任务的功能，跟３．２．２节的扫描结构图相比，结构没有发生变化，只是执行的第二步，通用结构图中的漏洞分析，具体化成了对应ＸＳＳ漏洞扫描模块的ＸＳＳ漏洞分析。线程池外部，执行的是ＸＳＳ漏洞扫描模块主线程的功能，跟３．２．２节的扫描结构图相比，结构没有发生变化，只是通用结构图中的测试脚本加载，具体化成了对应ＸＳＳ漏洞扫描模块的ＸＳＳ脚本加载。４．５．２ＸＳＳ漏洞扫描的实现ＸＳＳ漏洞扫描模块，跟ＳＱＬ注入模块类似，也从网络爬虫抓取的站点ＵＲＬ中，分析出漏洞测试点，具体为拥有参数的ＵＲＬ，包括ＧＥＴ参数和ＰＯＳＴ参数，然后基于３．２节设计的扫描模块基础架构，结合ＸＳＳ漏洞检测原理基础上设计的测试脚本，对漏洞测试点进行逐个检测。第四章Ｗｅｂ应用安全漏洞扫描工具详细设计与实现４．５．２．１扫描模块类（ＸｓｓＭｏｄｕＩｅ）的实现ＸＳＳ漏洞扫描模块类ＸｓｓＭｏｄｕｌｅ从ＳｃａｎＭｏｄｕｌｅ类继承，请参考３．２节扫描模块设计，介绍了整个扫描模块的类体系结构，对业务有差别的虚函数进行了覆盖。设计中还提到扫描模块实现了线程接口，所有定义在ＡｂｓｔｒａｃｔＭｏｄｕｌｅ的函数接口，，都由线程调度执行，具体执行流程参考３．２．４扫描模块工作流程。下面将根据工作流程调度接口的顺序，介绍主要接口所代表的业务逻辑和具体的实现。＞Ｉｎｉｔ初始化函数接口：负责本模块的初始化工作，Ｉｎｉｔ函数从扫描调度引擎加载到内存中的扫描模板配置文件，ＸＳＳ节点解析到本模块内ＸＳＳｔｐｐｒｏｆｉｌｅｉｒｃＳ．置配该。径路的件文置配文件配置的是根据ＸＳＳ漏洞检测原理设计的漏洞测试脚本，由于ＸＳＳ模块的配置文件比较简单，所以才有文本文件作为配置，一行为一个测试脚本。ＸＳＳＳｃｒｉｐｔ．ｐｒｏｆｉｌｅ的部分比较具有代表性的内容如下：＜ｓｃｒｉｐｔ＞ａｌｅｒｔ（￥｛ｒａｎｄｏｍ｝）＜／ｓｃｒｉｐｔ＞＜ＳｃＲｉＰｔ％２０％０ａ％０ｄ＞ａｌｅｒｔ（￥｛ｒａｎｄｏｍ｝）％３Ｂ＜／ＳｃＲｉＰｔ＞＞’＞＜ＳｃＲｉＰｔ％２０％０ａ％０ｄ＞ａｌｅｒｔ（￥｛ｒａｎｄｏｍ｝）％３Ｂ＜／ＳｃＲｉＰｔ＞＞”＞＜ＳｃＲｉＰｔ％２０％０ａ％０ｄ＞ａｌｅｒｔ（￥｛ｒａｎｄｏｍ｝）％３Ｂ＜／ＳｃＲｉＰｔ＞＜／ｔｅｘｔａｒｅａ＞＜ＳｃＲｉＰｔ％２０％０ａ％０ｄ＞ａｌｅｒｔ（￥｛ｒａｎｄｏｍ｝）％３Ｂ＜／ＳｃＲｉＰｔ＞＜／ｔｉｔｌｅ＞＜ＳｃＲｉＰｔ％２０％０ａ％０ｄ＞ａｌｅｒｔ（￥｛ｒａｎｄｏｍ｝）％３Ｂ＜／ＳｃＲｉＰｔ＞··－·＞＜ＳｃＲｉＰｔ％２０％０ａ％０ｄ＞ａｌｅｒｔ（￥｛ｒａｎｄｏｍ｝）％３Ｂ＜／ＳｃＲｉＰｔ＞ｅｍａｉｌ＠ｓｏｍｅ＜ＳｃＲｉＰｔ％２０％０ａ％０ｄ＞ａｌｅｒｔ（￥｛ｒａｎｄｏｍ｝）％３Ｂ＜／ＳｃＲｉＰｔ＞ｄｏｍａｉｎ．ｃｏｒｎ［ｉｍｇ］ＪａＶａＳｃＲｉＰｔ：ａｌｅｒｔ（￥｛ｒａｎｄｏｍ｝）［／ｉｍｇ】％３Ｃｉｍｇ％２０ｓｒｃ％３Ｄ％２２ＪａＶａＳ％２６％２３９９％３ＢＲｉＰｔ：ａｌｅｒｔ％２８５｛ｒａｎｄｏｍ｝％２９％３Ｂ％２２％３Ｅ●＜％００ｓｅｒｉｐｔ＞ａｌｅｒｔ（￥｛ｒａｎｄｏｍ｝）％３Ｂ＜／ｓｅｒｉｐｔ＞＜ｓｅｒｉｐ＜ｓｅｒｉｐｔ＞ｔ＞ａｌｅｒｔ（￥｛ｒａｎｄｏｍ｝）％３Ｂ＜／ｓｃｒｉｐ＜／ｓｅｒｉｐｔ＞ｔ＞＜ＤＩＶ＋ＳＴＹＬＥ＝”ｗｉｄｔｈ：ｅｘｐｒｅｓｓｉｏｎ（ａｌｅｒｔ（￥｛ｒａｎｄｏｍ｝））％３Ｂ”＞＜ＦＲＡＭＥＳＥＴ＞＜ＦＲＡＭＥ＋ＳＲＣ＝”ＪａＶａＳ％２６％２３９９％３ＢＲｉＰｔ：ａｌｅｒｔ（￥｛ｒａｎｄｏｍ｝）％３Ｂ”＞＜／ＦＲＡＭＥＳＥＴ＞％３Ｃｉｍｇ％２０ｄｙｎｓｒｃ％３Ｄ％２２ＪａＶａＳｃＲｉＰｔ：ａｌｅｒｔ％２８５｛ｒａｎｄｏｍ｝％２９％３Ｂ％２２％３Ｅ＜ＭＥＴＡ＋ＨＴＴＰ－ＥＱＵＩＶ＝”ｒｅｆｒｅｓｈ”＋ＣＯＮＴＥＮＴ＝”０％３Ｂｕｄ－ＪａＶｒａＳ％２６％２３９９％３ＢＲｉＰｔ：ａｌｅｒｔ（￥｛ｒａｎｄｏｍ｝）％３Ｂ”＞电子科技大学硕士学位论文＜ｉｆｒａｍｅ＋ｓｒｃ＝”ｄａｔａ：ｔｅｘｔ／ｈｔｍｌ％３Ｂｂａｓｅ６４，ＰＨＮｊｃｍｌｗｄＤ５ｈｂＧＶｙｄＣｇｎＹＷＮｌｂｍＶ０ｅＨＮｚＬＸＲｌｃ３ＱｎＫＴｗｖｃ２ＮｙａＸＢＯＰｇｏ＝”＋ｉｎｖａｌｉｄ＝”￥｛ｒａｎｄｏｍ｝”＞＜ｂｏｄｙ＋ｏｎｌｏａｄ＝ａｌｅｒｔ（￥｛ｒａｎｄｏｍ｝）＞’＋ｓｔｙｌｅ＝＇ｂａｃｋｇｒｏｕｎｄ：ｕｒｌ（ＪａＶａＳｃＲｉＰｔ：ａｌｅｒｔ（￥｛ｒａｎｄｏｍ｝））’＋ｉｎｖａｌｉｄｐａｒａｍ＝’％２５３ＣＳｃＲｉＰｔ％２５３Ｅａｌｅｒｔ（￥｛ｒａｎｄｏｍ｝）％３Ｂ％２５３Ｃ／ＳｃＲｉＰｔ％２５３Ｅｒ”＋ｏｎｍｏｕｓｅｏｖｅｒ＝ａｌｅｒｔ（￥｛ｒａｎｄｏｍ｝）＋％００”’＞＜ＳｃＲｉＰｔ％２０％０ａ％０ｄ＞ａｌｅｒｔ（￥｛ｒａｎｄｏｍ｝）％３Ｂ＜／ＳｃＲｉＰｔ＞”ｏｎｍｏｕｓｅｏｖｅｒ＝”ａｌｅｒｔ（’ＸＳＳ－ｔｅｓｔ’）＜ｉｆｒａｍｅｌ＋ｌｏｎｌｏａｄ＝ａｌｅｒｔ（￥｛ｒａｎｄｏｍ｝）＞＜／ｉｆｒａｍｅ＞测试脚本的设计思想是，基于ＸＳＳ漏洞测试原理，首先构造一些简单脚本，尝试设想测试脚本运行在ＨＴＭＬ不同地方，然后采取一些脚本混淆技术：比小写变换、不可见字符（如Ｔａｂ键）添加、以及１６进制变换、ＵＲＬ编码，混目的是使脚本通过Ｗｅｂ应用程序的一些简单字符过滤。根据上述原则，可以的脚本是无止尽的，但在测试时并不是越多越好，测试脚本太多会影响测试效率，测试的时候按配置文件的顺序，从测试简单的脚本开始。＞ＦｌｕｓｈＤａｔａＴｏＤＢ函数接口：负责按照系统策略，把数据保存任务队列ｄａｔａＳａｖｅＴａｓｋＱｕｅｕｅ中的数据刷入ＸＳＳＳＣＡＮＲＥＳＵＬＴ表。ｄａｔａＳａｖｅＴａｓｋＱｕｅｕｅ实际上是一个ｑｕｅｕｅ＜ＤａｔａＯｂｊｅｃｔ＞的容器，里面保存了需要保存到数据库的ＸＳＳ模块的ＤａｔａＯｂｊｅｃｔ对象，４．２．１节扫描调度引擎配置文件加载介绍了元数据配置文件ＸＳＳ部分，ＸＳＳ模块的数据库表结构如表４．３，设计ｄａｔａＳａｖｅＴａｓｋＱｕｅｕｅ队列来缓存线程池线程中需要保存的ＤａｔａＯｂｊｅｃｔ对象原因是ＳＱＬｉｔｅ数据库是嵌入式文件数据库，支持并发读不支持并发写，因此多线程的写入ＳＱＬｉｔｅ数据库并不能提高效率，反而因为频繁的加解锁损失性能。并且数据库中耗时较多的是事务的提交，因此各线程中需要保存的ＤａｔａＯｂｊｅｃｔ缓存起来，统一的批量提交，既可以减少ＳＱＬｉｔｅ写并发量，也可以提高数据库事务到合适粒度，提高了数据库的性能。ＦｌｕｓｈＤａｔａＴｏＤＢ函数按定量超时策略，调用数据库读写模块把ＤａｔａＯｂｊｅｃｔ批量保存到数据库。ＦｌｕｓｈＤａｔａＴｏＤＢ的执行流程如下：第一步：初始化静态变量ｆｌｕｓｈＴｉｍｅ为系统当前时间。第二步：判断ｄａｔａＳａｖｅＴａｓｋＱｕｅｕｅ队列元素个数是否达到策略限制Ｍ个，为真执行下一步，为假转到第四步。第三步：调用数据库读写模块，保存队首Ｍ个元素到数据库，ｆｌｕｓｈＴｉｍｅ更新。：ｋ第四章Ｗｅｂ应用安全漏洞扫描工具详细设计与实现为系统当前时间。第四步：获取系统当前时间ｃｕｒｒｅｎｔＴｉｍｅ，判断ｃｕｒｒｅｎｔＴｉｍｅ—ｆｌｕｓｈＴｉｍｅ＞Ｔ，Ｔ为策略定义的超时时间，为真执行下一步，为假流程结束。第五步：调用数据库读写模块，保存队列元素（＜－．Ｍ）个到数据库，ｆｌｕｓｈＴｉｍｅ更新为系统当前时间。表４－３ＸＳＳＳＣＡＮ黪麟麓纛麓≮≥ＲＥＳＵＬＴ表字段类型：：：爱■，主键ｊ翡璺。索黜护：套。眵４鸳…。≯？：巍芦１≯“尊．＾嘴％｜．ｉ；：‘铝≮。；默认僵“ＩＤＤＪＴＥＧＥＲ√√√主键自增ＵＲＬＶＡＲＣＨＡＲ（２５请求的ＵＩ也６）ＭＥＴＨＯＤＶＡＲＣＨＡＲ（１０ＨＴＴＰ请求方）法ＧＥＴ—．ＰＡＲＡＭＶＡＲＣＨＡＲ（２５ＧＥＴ请求参数６）ＰＯＳＴ——ＰＡＲＡＭＶＡＲＣＨＡＲ（５１ＰＯＳＴ请求参数２）ＰＡＲＡＭ．．ＴＥＳＴＶＡＲＣＨＡＲ（１０此次测试的参０）数名ＰＡＲＡＭ——ＴＥＳＴ——ＶＡＶＡＲＣＨＡＲ（１０测试脚本ＬＵＥ２４）ＲＥＱＵＥＳＴ＿ＨＥＡＤＥＶＡＲＣＩ－ＩＡＲ００ＨＴＴＰ请求头Ｒ２４）ＲＥＳＰＯＮＳＥ——ＨＥＡＤＶＡＲＣＨＡＲ（１０ＨＴＴＰ回应头ＥＲ２４）ＲＥＳＰＯＮＳＥ—．ＢＯＤＹＶＡＲＣＨＡＲ（４０ＨＴＴＰ回应体９６）＞ＬｏａｄＤａｔａＦｒｏｍＤＢ函数接口：负责按照系统策略，批量从数据库加载数据生成ＵＲＬ，保存到ＵＲＬ队列。ＸＳＳ模块的扫描任务，都是根据网络爬虫抓取到的保存到ＣＲＡＷＬＲＥＳＵＬＴ表的带参数的ＵＲＬ构造的。跟ＳＱＬ注入模块相同，本模块读取的是当前记录所代表的ＵＲＬ，ＵＲＬ链接是否具有参数由该表ＰＡＲＡＭＩＤＥＮＴＩＦＩＥＲ字段标识，查询条件判断ＰＡＲＡＭＩＤＥＮＴＩＦＩＥＲ不为空，说明该ＵＲＬ具有参数。ＬｏａｄＤａｔａＦｒｏｍＤＢ的执行流程如下：第一步：初始化静态变量ｏｆｆｓｅｔｌｄ＝０，ｏｆｆｓｅｔ记录访问ＣＲＡＷＬＲＥＳＵＬＴ表偏６７图４＿１６ＣｒｅａｔｅＴａｓｋＩ作流程图６８（ｋ第四章Ｗｅｂ应用安全漏洞扫描工具详细设计与实现４．５．２．２扫描任务类（ＸｓｓＴａｓｋ）的实现ＸＳＳ模块扫描任务类ＸｓｓＴａｓｋ从ＳｃａｎＴａｓｋ继承，参考３．２节扫描模块设计。扫描任务内实现了Ｒｕｎｎａｂｌｅ接口，所有的功能都在线程池内被执行。如４．５．２节ＸＳＳ扫描模块结构图中，线程池中第一步为抓取网页，第二步为ＸＳＳ漏洞解析，第三步为数据保存，分别对应到ＳｃａｎＴａｓｋ的三个接口的实现。＞ＦｅｔｃｈＨｔｍｌ函数接口：对应到ＸＳＳ扫描模块结构图中，线程池第一步，执行网页抓取。网页抓取调用公共组件ＨＴＴＰ传输模块ＨｔｔｐＦｅｔｃｈｅｒ：：ｆｅｔｃｈＨｔｍｌ接口进行，ＸＳＳ扫描模块只调用ＨｔｔｐＦｅｔｅｈｅｒ做一次ＨＴＴＰ请求，得到一个ＨｔｔｐＰａｃｋａｇｅ对象，如果ＨＴｒＰ请求失败，则ＦｅｔｃｈＨｔｍｌ函数返回Ｆａｌｓｅ。＞ＶｕｌｎｅｒａｂｉｌｉｔｙＡｎａｌｙｚｅ函数接口：如果上一步ＦｅｔｃｈＨｔｍｌ函数返回Ｔｒｕｅ，流程进入到当前函数，对应到ＸＳＳ扫描模块结构图中，线程池第二步，执行ＸＳＳ漏洞分析。跨站漏洞的分析比较简单，只需检测ＨｔｔｐＰａｃｋａｇｅ．ｈｔｔｐＲｅｓｐｏｎｓｅＢｏｄｙ（保存的ＨＴＭＬ代码）中，是否存在本次的测试脚本，测试脚本代码中，￥｛ｒａｎｄｏｍ｝表示嵌入一个随机数，从而降低误匹配率，如果存在ＶｕｌｎｅｒａｂｉｌｉｔｙＡｎａｌｙｚｅ函数返回Ｔｒｕｅ。＞ＳａｖｅＤａｔａＴｏＤＢ函数接口：如果ＶｕｌｎｅｒａｂｉｌｉｔｙＡｎａｌｙｚｅ函数接口函数返回Ｔｒｕｅ，程序流程进入保存数据到数据库流程。本模块数据保存在ＸＳＳＳＣＡＮＲＥＳＵＬＴ表，根据ＨｔｔｐＰａｃｋａｇｅ、测试参数、测试脚本，构造ＤａｔａＯｂｊｅｃｔ对象，调用数据库访问模块保存到数据库。４．６本章小结本章在第三章设计的Ｗｅｂ安全漏洞扫描工具（ＷｅｂＳｃａｎｎｅｒ）的系统基础架构基础上，结合改进的网络爬虫技术，ＳＱＬ注入漏洞检测方法，ＸＳＳ注入漏洞检测方法，介绍了Ｗｅｂ应用安全漏洞扫描工具各部分的详细设计与实现。电子科技大学硕士学位论文第五章Ｗｅｂ应用安全漏洞扫描工具测试分析ａｎｎｅｒ测试目的ｆ计并实现的Ｗｅｂ安全漏洞扫描工具（ＷｅｂＳｃａｒｍｅｒ），主要是针对ＷｅｂＳＱＬ注入和ＸＳＳ漏洞进行检测的工具。该工具实现基本满足了ＳＱＬＸＳＳ漏洞检测的要求，并且具有良好的扩展性。为了验证该工具的扫的功能有效性，以及各扫描模块的具体功能，选取了一个Ｗｅｂ站点，进行了ＳＱＬ注入漏洞和ＸＳＳ漏洞的检测工作，以评估Ｗｅｂ安全漏洞扫描工具（ＷｅｂＳｃａｎｎｅｒ）的性能。由前文所述情况可以了解，基础架构基本决定了整个扫描工具的性能，网络爬虫（Ｃｒａｗｌｅｒ）模块的功能决定了工具对目标站点抓取的信息的完整性和全面性，ＳＱＬ注入漏洞扫描模块和ＸＳＳ漏洞扫描模块则决定了漏洞探测的准确性。５．２ＷｅｂＳｃａｎｎｅｒ测试为了验证Ｗｅｂ安全漏洞扫描工具（ＷｅｂＳｃａｎｎｅｒ）的各部分功能，本文选取了某高校教育网站作为测试目标，为了对扫描网站的信息保密，本文对敏感部分进行了处理。图５．１某教育网站扫描结果图７０：ｋ图５．２爬虫模块ＨＴＴＰ报文显示图图５－３爬虫模块网页解析的ＵＲＬ显示图图５．２、５．３对爬虫抓取的网页ｍａｐ．ａｓｐｘ的ＨＴｒＰ报文以及该网页解析出来的原始ＵＲＬ链接进行了检查，结果表明爬虫核心模块网页抓取工作正常，网页解析到的ＵＲＬ类型多样，达到设计目标。图５－４显示了一个检测到的ＳＱＬ注入漏洞，由左边红圈部分的测试脚本看出，该漏洞是基于经典的１＝１、１＝２方法检测出来的。７１电子科技大学硕士学位论文目罄搿岛国肭｝蓦ｌ每ｌ岛’爵营ｏ剐娃凡霪霹·豢！ｊ＾ｔｂ出ｄｅｔａｉｌｓ蘑ｘｔｔｐ：／／ｍ·带＿－一．·ｈｎ：８０／缀尊ｈｔｔｐ：ｌｌｍ－＿％■，‘ｈ４：ｔ１０１ｙ‘镞ＩｋＰＯＳＴ伯ｆｉｎ妇吐抬瞄捌凼蕾Ｉ吐ｈ，ｂ嘲●吐协曩０略扭懒Ｉ－”让倒ｈ∞铅ｏ－一尊Ｉｈｔｔｐ：ｌｌｗｔ”韵静嘴ａ■·机“ｅ０１Ｊ‘缓尊ｋｔｔｐ：／／ｗ．ｗ捌瞻啪·■·缸ｎ：∞，Ｊ‘霪｛蠡尊ｈｔｔ，：，，坩ｔ毋■鞠■··ｈｎ：∞，且纛；毋尊Ｉｈｔｔｐ：ｌｌ～＿Ｍ＿＿－·ｈｎ：８０，”缀．毒ｈｔｔｐ；／／ｍ＿＿喇■■。ｈ矗：∞，ｄ缓。毒ｈｔｔｐ辱ｈｔｔｐ：ｌｌｗｎ－＿＊－－·．ｄｔＬ“ｅ０１“缀矗ｋｔｔｐ：ｌｌｗ＊’＿＿目啊●·ｈｎ：∞，ｃ，’！哥哥’｝‘；诤ｈｔｔｐ：ｌｌｍ韵＿＿－·ｈａｔ：８０１ｃ‘镞‘：；ｌｌｗｗｗ椭·ｈ∞：∞，ｃ‘缓辫茅鬣雾弋：瞰１，Ｒ甲ｔｎｃ“乒如喀ｋ埘ｃ。雌ｎ日即ＥｔｐＰ薹ｂ蜘酗Ｈ暇甘南衄哪出篮嘲＼、一Ⅷ弗掣渔聃酬盎ｃ嗍瞰酗区ｑ一哇枷缸啪皓删牺面ｎ锄吨虹鼬游‰＆堪扣ｓ摹Ｉ叫揣∞＾正ｄ煳ｌ—ｌ硝船４童％《≥爵口ｈｔｔｐ：，，ｔ”ｑ＿嘲···缸ＣＪｌｌ：８０，ｃ·ｔ赫ｊｈｔｌ－：，，坩－＿喇＿＿－·ｈ“：∞，ｃｃ；｛哇｝口ｈｔｔ，：，／Ⅲ·■目－一·ｈ．Ａ：８０／ｃ‘参ｈｔｔｐ：ｌｌ＿ｗ●∞嘶＿嘲·ｈｎ：∞，ｃ‘ｌ密口ｈｔｔｐ：／／ｖｗ．捌融＿蝴■Ｉ·ｎ．Ａ叫口Ｐ：争西坠Ⅶ：，，ｔ什■臆哪●■．·缸诅：ｏ口，ｃｃ嚣＝芝竺＝！多膨踟麟一一螂晴兀奢１．１Ｄｌ嗽缸．２０Ｍ茸２０１０埘ｂ∞：描ａＭｒ譬。ｃ嘟ｘ酝ｆ珥ａ缸Ⅱ譬５矗墨ｈ哪蚺吐习《＾聍脚Ｘ－ＡｓｐＮａ－Ｖ妇２．０５０７２１ＣＫｈ■Ｃ０ａｎ北箭咄；＜刨争丽面面五五—＼！ｔ～口。锄汹函ｉ＝懒蒜赫宪）：锄Ｉ州矗ｎ搿蛔硼ＬＩ畦吐硝畦－曲为垃葫连二嚣娑：竺苎哆口■０卸ｈ址五脚堪ｋ１１４３８塞２：等慧篡·＝：越ｔ－｝酗ｒｔｆｔｆｍ貔缴茏施藏茏茏２滋…”～，…二。ｉ。ｉ．．篓：罢．。当黧等然毛，撼雾：鼹：№ｔ女目■自女＿＿＿－＿Ｅ＿＊－＿－－－＿＿ｈ“４目自－—＿－一一—·－－＿－＿蝴－——ｔ岫…一－＿＿。。自目“＿＿自＊Ｒ＿＿＿∞日＃☆曲固ｈｔｔｐ：／／ｗｗｗ㈣．ｅｄｕ．ｏｎ／ｓｈｏｗ．卸羽磊６６３７＆ｓｏｒｔ＝新画Ｄ图５－４ＳＱＬ注入漏洞显示图［Ｂ服务面…’≯ｗｅｂ防火墙一…国ｌｏｗＡ５Ｐ｝ｉ镑｛嗡。搜狗网址导…咳忧醅网－中国…嘞。ｊ６∞口ｂ｝镪统沌来查找移下—个镫上叫？∥高壳本文作者：■———＿●■．捷布日期：２０１０－３－５．你矗第２５０位浏览者．最后审拔：●温家宝总理作２０１０年竣府工作缀告温家宝总理』ｒ＇ｅ２０ｌＯ年政府工作报告温旁：宝－各位代表。现在，我代表国务阮向大会作政府工作报告．请予审设，并请垒国政协各位委员提出意见。Ｉ瞧ｈ却：，Ｍ例栩蚺－煳－．ｅｄｕ．ｃｎ／ｓｈｏｗ．器ｐ《刭宣６６３７％２０ａｎｄ％２０１＝ｉ％２０菇ｏｒｔ＝新闻…’—。。＿％Ｌ－…——。＿｝Ｂ服务面…’铲ｗ曲髓＿火墙～。·囊ＯＷＡＳＰｉ≮鍪ｉ咳挂狗网址导…魄忧酷网．中雷…镄§ｌＧｏｏｑ忙一ｌ；ｌｒｌ……一…一ｆ……‘“＾‘＾ｏｏ～＇～………蠲ｋ家宝总理＂依２０１个∥，罗。。～。…。，一一一Ｊｊ’…＾一，Ｊ…！ｉ妇：…∞∞ｔ∞Ｈ∞口一…ｎ口Ｈ∞ｍ∞ｍ“２……“２……。ｏ年政府工作报告本文怍者．■…～‘■，发布日期２０１０－３－＇Ｓ，俅矗第箱ｔ旺浏览看，最后审梭：●●温家宝总理作２０ｌＯ年政府工作报告温衮宝一各位代表·现在，拽代表国务院向大会作政霄工作报告，请予审议。并请全国政协各位委员提出惹见。Ｉ掰两ｈ七也ｃ，＾Ⅳｗ＿＿－＿－ｅｄｕ．ｃｎ＾廿１（州．ａ；ａ，《＇螽三６６量７‘％，ｎ月ｎｄ‘狺２０ｉ＝，％三右您ｌｎｒｆ＝蠢芹嘲田服务面…ｊ芦ｗｅｂ防火墙．…国ｏｗＡｓ，。；锄｝｛褫擅狗网址导…魄忧酷Ｆ乎中苗…瞧ｍ。咖．壳；．高ｊ，一．。．卟上鼋个—下零蛾枣：淞觋曩野委癸、＋｜？Ｉ统簪ｉｊｊ，ｊ．．ｚ—Ｊ．＇叩．－：一一１一，０ｑ“。７笔？≯鼍ｊｏ·ｖ？ｊｊ。ｉ？：？ｊ冀一‘”？ｄ？≮ｉｊ每’ｔｊ：？ｊ？’。？｜２７．．ｉ，。。、、。ｘ≥‘¨÷ｔ。≯ｔｔ：ｌ，“？ｊ‘＝。ｊｊ－‘。一’，？７“‘ｊｊ，２７÷＋ｔｉ。？。ｊ，｜‘一ｊ：ｊ’。’ｊｊ…ｊ—ｊ。‘一一繁轰麓羲：繁：：？荔：、？？。。ｉ＋。。ｉ＝ｊ岛？蓦搿：劳ｊｉ一？ｊ…。？：寸ｊ？÷，：ｉ．＇‰ｊ；ｊ每ｉ？Ｌ－；，毛毫强差强一≮曩一－。．｜ｔ－ｆ’ｉ一一÷。…？：Ｊ？‘。＾｜｜，；，？’一？ｌｊ｜ｉ。·’？ｊ：ｔｊ南“¨ｎ。ｉ，．幺７。礁‘Ｆｒｊ；。ｔ０￣＿ｏ｜Ｉｉ？。一Ｉ，Ｊ』一Ｉ：？ｊ≯影秀：黟◇ｊ移≈。７一二，…，“¨，。．ｉ１。ｉ；蟊：’≥ｆ誊拳一蠹《’Ｉｏ癣｜ｊｔｊ·ｆ｜．：ｚ≮％≮菇ｊ一毒嗡ｔ。嘻ｏｚ．图５－５ＳＱＬ注入攻击示例图ｋ—·０第五章Ｗｅｂ应用安全漏洞扫描工具测试分析图５—５演示的是对一个检测到的ＳＱＬ注入漏洞的人工攻击示例，整个图像由红色矩形框分为三个部分：第一部分为正常请求，返回正常网页；第二部分为参数ｉｄ追加测试脚本“％２０ａｎｄ％２０１＝１％２０＂，同样返回正常页面；第三部分为参数ｉｄ追加测试脚本“％２０ａｎｄ％２０１＝２％２０＂，返回错误提示页面。对于黑客来说，发现了该ＳＱＬ注入漏洞，就可以构造更加复杂的测试脚本，来攻击站点的数据库。由５—４和５—５图可以看出，ＳＱＬ注入漏洞扫描模块工作正常。营疆ｂ扫描结果藏ｌ翰威胁富０鞠堪执缓：Ｍ止∞懈嘲皿夥ｉｑ∞‘妇错轴却‘ｖｌ强ｃ吼＾撕晰墨ＥＩ姬ＷＦｌｔ幽ｉｍｏａ明血ｅｆ·ｂｋ珲管轻吐岫ｔｏ自潮ｔ１Ｈｄ五宙ｄ耳｝ｏ争ｄ坷ｔ缓，膏Ⅻｌ衄＾丑耻ｔ妇锄删岫ｓ嘲ｈ鲫岫捌曲ｅａ瞰岫ａ∞叫哦，砘煳蚴ｔｈ崞ｔｌｍ＇ｍ雕．了ｔ备幽ｏｐ嘲曲ｂ∞·盘每ｔｌ，ｍ傅白一０符站母《秘ｈ“，：，，ｍ·——－＿·ｄＬ∞：∞缓ｉ瓣，ｔｈ｝ｐｔ乒ｐｆ嚣ｅｔ嘲协岫帆＾Ｈｎｔｎ■ｉｈ》自０磐国ｎｔ，：，，ｔ”＇觯嘲瞒ｅｈｈｔｔｐ：ｌｌｍ㈣Ｄ·ｈｃｚ：８０缀，；羽＋固Ｉ磐蛰ｈｔｔ，：，，Ｔｎ崩陶蚴糟ｔｈＡ锄凌。ｎ：鲫ｈｔｔ，：／，竹’镰骚帮嘲鼬·ｈ丑：瞰；窝≈Ｄｈｔｔ，：∥竹’柏略Ｍ嘲协ｅｄｔｌ爵蛰ｈｔｔｐ：／／ｍ－球＊＿－－ｈ口：∞；脚裟Ｒｅ＼拆ｅｓｔ—一、＼＼＼搴磕｝ｈ唧１７ｉ钾１帮瓣嚼■■·ｈ４：∞ｊ、辞ｏ《·血Ⅱ——／岁“嵊≮／自键江啪ｍ钿剞函赫＿—～ｈ口：∞。∞１ｄ誉为站点拮构岛日瞄ｈｔｔ，：／／ｍ硼脚嘲蛳·缸４：∞Ｈ兀１ⅥＪ２０００ＫＤｉ妊：Ｓ峨２０五出Ｅ２０ｔＯ删≈恐蚺ＧＭ＇Ｉ＂茁￡０！ｓｅｆｗｃｋ血博拍危．五酗．０丑∞ｉＭＸ｛啊睫ｒ吐Ｂ崔Ａ弹二蕾ｒ警蛰ｉｌａｌ：ｅｓ墨删ｎ－忱蜘“：心７２７Ｃ越ｈ舢Ｃ触∞ｔ口融暗；∞ｄ·ｆｍ“ｍ；·铲诤捌砸№阳ｈ；ｃ。出球ＴｙＰ￡ｔ龇ｈｍａ；由雕ｎ帕３ｌ：ＣⅫ目Ｉ．Ｌ∞吐３８甜７：∞‘１ｈ“ｉ·ｒｉＡｔｒａｈｃ··‘叼‘。潼‘＂·ｌｐ；。潆ｈａｘｌＲｅｔｉａｑＷｔｌｒｏｌ翻’Ⅱ晒蟹潆ｌｉｓｔ··”递蹈缀潞戮锄黼蕊矧罩壤竺：兰一瓣灞ｔ图５．６ＸＳＳ漏洞显示图酬展务面¨．９ｗｅｂＩ｜ａ火墙一…囊ｏｗＡｓＰ‘ｉ戆｛堍搜狗网址导…堍懒ｓ爵中国…嚆ＩＧｏｏｇＩｅ·宅二二］赣绕汁：耒查找簪‘卜卟学上一个＿缈高亮熬麓鬻鹫鎏盛？一一ｊ；：≮奠：囊餐托幕％毽搿赢繁一麓滋。，ｊ２亡自’…：Ｉｉ器黢髯鬻爨彗夏孑了■一，簪鬈鞭。慧，沁嚆毒撵‰≯ｏ“．《芬阮蝴鬻糕糕雾瑟签谤瓷豫嗡彬■≮唾《强箨搿蕊纛瀵嚣鳓襄辣鬈强滋舅罅鬈。磐∥一荔图５．７ＸＳＳ攻击示例图图５－６显示的是一个检测到的ＸＳＳ漏洞，左边圈内为存在跨站漏洞的参数，右边圈内为此次测试的脚本，以及ＨＴＴＰ请求信息。打开该漏洞页面，人工验证示例如图５．７，图中红圈部分为测试脚本，该网页直接把用户提交的脚本代码执行，所以出现了图中所示的弹出窗口，存在ＸＳＳ漏洞，易被挂马利用。电子科技大学硕士学位论文由图５－６和５．７可以看出，ＸＳＳ漏洞扫描模块工作正常。５．３ＷｅｂＳｃａｎｎｅｒ测试分析由５．２节测试情况，可以说明ＷｅｂＳｃａｎｎｅｒ的各个模块都能正常工作，基础架构运行正常。网络爬虫可以准确快速的进行站点网页抓取，网页提取的ＵＲＬ的也（一比较全面，给后续攻击模块提供了完整的站点漏洞测试点。ＳＱＬ注入漏洞扫描模块和ＸＳＳ漏洞扫描模块也能有效对测试点进行检测，准确判断漏洞情况。因此本文设计并实现的漏洞扫描工具可以快速有效的检测到ＳＱＬ注入和ＸＳＳ漏洞。该工具可以减少人工检查Ｗｅｂ应用程序漏洞的工作量，而且本工具采用的检测方法，完全是模拟黑客攻击Ｗｅｂ应用的方法。对于Ｗｅｂ开发人员来说，可以使用该工具对Ｗｅｂ应用漏洞进行检测，就可以在开发阶段提高Ｗｅｂ应用的安全，降低后期Ｗｅｂ应用被攻击的风险。５．４本章小结本章选取某教育网站对开发的ＷｅｂＳｃａｎｎｅｒ进行测试分析，测试结果表明ＷｅｂＳｃａｎｎｅｒ各部分功能正常，并且能够快速对测试站点进行抓取，并检测系统的ＳＱＬ注入和ＸＳＳ漏洞，准确性较高，可以证明设计的合理性和该工具的实际应用价值。７４‘６．１为最备、已经成为网络安全的主要问题之一。对Ｗｅｂ应用安全的检测评估展开全面研究具有重要理论意义和实际应用价值，也引起了越来越多研究组织和研究人员的注意。本文以Ｗｅｂ应用安全漏洞检测技术为研究对象，主要工作有以下几个方面：１．详细总结了ＳＱＬ注入漏洞的产生原因、危害、检测方法。２．详细总结了ＸＳＳ漏洞的产生原因、危害、检测方法。３．改进了网络爬虫技术，快速完整的收集Ｗｅｂ应用系统的漏洞检测点。４．设计了扩展性良好的Ｗｅｂ应用安全漏洞检测的基础架构。５．在基础架构基础上，结合ＳＱＬ注入和ＸＳＳ漏洞检测方法，实现了自动检测Ｗｅｂ应用程序ＳＱＬ注入漏洞和ＸＳＳ漏洞的扫描工具。６．２今后的工作本文在完成上一节讲述的工作外，下一步还可以开展的研究工作包括：１．Ｗｅｂ应用程序漏洞类型很多，本文主要完成了对ＳＱＬ注入漏洞和ＸＳＳ漏洞的研究，未来可以展开更多类型漏洞研究工作，扩展到扫描工具当中，使其可以进行更多类型漏洞的检测。２．目前设计的网络爬虫功能上存在不足，对脚本语言内部的链接无法解析，未来可以设计在网络爬虫模块引入脚本解析器，分析出脚本语言的链接，提高网络爬虫的覆盖率。３．目前实现的扫描工具只支持ＨＴＴＰ／ＨＴＴＰＳ协议，基础架构也是基于ＨｒｒＰ协议设计的，未来可以引入更多协议的支持，进一步优化基础架构。７５电子科技大学硕士学位论文致谢在论文最后，我谨向所有在我硕士研究生学位攻读期间，关心和帮助我的导、同学、朋友和家人，表示深深的感谢。∥，一；ｑ感谢我的导师邱会中副教授。在三年研究生学习期间，邱老师给我提供了良的科研和实践环境，在论文选题撰写期间，更是在百忙之中抽出时间来进行指，每次都能让我获益匪浅。在此向邱老师表示最真挚的感谢，他渊博的知识，谨的治学态度，勤奋的工作作风，平易近人的师长风范十分令人尊敬。感谢教研室的周刚、欧黎源、孙杨、曾子剑、缪霖、余国家等同学，在我研究生期间对我的指导和帮助。感谢与我共同参与此项目的邓国金、杨新英、郭小林同学，在项目期间的共同学习、探讨、成长让我留下了美好的回忆。感谢我的家人一直以来对我的关爱和支持。最后，感谢评阅此论文和出席论文答辩的各位专家教授在百忙中给予指导。７６℃一‘’参考文献参考文献【ｌ】Ｇａｒｔｎｅｒ．ｈｔｔｐ：／／ｗｗｗ．ｇａｒｔｎｅｒ．ｅｏｍ／ｔｅｃｈｎｏｌｏｇｙ／ｈｏｍｅ．ｊｓｐ．【２】ＯＷＡＳＰ．ｈｔｔｐ：／／ｗｗｗ．ｏｗａｓｐ．ｏｒｇ／ｉｎｄｅｘ．ｐｈｐ／Ｍａｉｎ＿Ｐａｇｅ．［３】ＣＮＣＥＲＴ／ＣＣ．ｈｔｔｐ：／／ｗｗｗ．ｃｅｒｔ．ｏｒｇ．ｃｎ．【４】杨波，朱秋萍．Ｗｅｂ安全技术综述明．计算机应用研究，２００２，１９（１０）－１—４，１０．［５】ｈｔｔｐ：／／ｗｗｗ．ｖｅｎｕｓｔｅｃｈ．ｃｏｍ．ｃｎ／Ｎｅｗｓｉｎｆｏ／３５０／４４８９．Ｈｔｍｌ．［６］Ｓｙｍａｎｔｅｃ．ｈｔｔｐ：／／ｗｗｗ．ｓｙｍａｎｔｅｃ．ｃｏｍ．［７】ＷＨＩＤ．ｈｔｔｐ：／／ｗｗｗ．ｘｉｏｍ．ｃｏｍ／ｗｈｉｄ．【８】刘大勇．Ｗ曲的安全威胁与安全防护［Ｊ】．大众科技，２００５（６）：３９．【９】９李必云，石俊萍．Ｗｅｂ攻击及安全防护技术研究［Ｊ】．电脑知识与技术：学术交流，２００９，５（１１）－８６４７－８６４９．【ｌＯ】诸葛建伟，叶志远，邹维．攻击技术分类研究［Ｊ］．计算机工程，２００５，３１（２１）：１２１．１２３，１２６．［１１］张岭，叶允明等．一种高性能分布式ＷｅｂＣｒａｗｌｅｒ的设计与实现【Ｊ］．上海交通大学学报，２００４，３８（１）：５９－６１．［１２］俞小怡，常艳，许捍卫．Ｗｅｂ应用中的攻击防御技术的研究与实现［Ｊ】．计算机安全，２００８（６）：４７．５１．［１３】赵亭，陆余良等．基于表单爬虫的Ｗｅｂ漏洞探测【Ｊ］．计算机工程，２００８，３４（９）：１８６—１８８，２１５．［１４】赵文龙，朱俊虎，王清贤．ＳＱＬＩｎｊｅｃｔｉｏｎ分析与防范【Ｊ】．计算机工程与设计，２００６，２７（２）：３００－３０２，３０６．【１５】陈小兵，张汉煜，骆力明，黄河．ＳＱＬ注入攻击及其防范检测技术研究［Ｊ】．计算机工程与应用，２００７，４３（１１）：１５０．１５２，２０３．【１６】Ｉｓｓｏｎ，Ｒｏｇｅｒ．ＳＱＬｉｎｊｅｃｔｉｏｎ［Ｊ］．ＩＴＮＯＷ，ｖ４７，ｎ２，Ｍａｒｃｈ，２００５，２５．［１７】Ｋｏｓｕｇａ，Ｖｕｊｉ．ＳｙｎｔａｃｔｉｃａｎｄｓｅｍａｎｔｉｃａｎａｌｙｓｉｓｆｏｒａｕｔｏｍａｔｅｄｔｅｓｔｉｎｇａｇａｉｎｓｔＳＱＬｉｎｊｅｃｔｉｏｎ［Ｃ］．Ｐｒｏｃｅｅｄｉｎｇｓ２３ｒｄＡｎｎｕａｌＣｏｍｐｕｔｅｒＳｅｃｕｒｉｔｙＡｐｐｌｉｃａｔｉｏｎｓＣｏｎｆｅｒｅｎｃｅ，ＡＣＳＡＣ２００７，２００７，１０７．１１６．【１８】沈寿忠．基于网络爬虫的ＳＱＬ注入与ＸＳＳ漏洞挖掘［硕士学位论文】．西安电子科技大学硕士论文，２００９．【１９】吴耀斌，王科，龙岳红．基于跨站脚本的网络漏洞攻击与防范［Ｊ】．计算机系统应用，２００８７７电子科技大学硕士学位论文（１）：３８－４０，４４．沈寿忠，张玉清．基于爬虫的ＸＳＳ漏洞检测工具设计与实现【刀．计算机工程，２００９，３５（２１）：１５１．１５４．Ｆｏｎｇ，Ｅｌｉｚａｂｅｔｈ．Ｗｅｂａｐｐｌｉｃａｔｉｏｎｓｃａｎｎｅｒｓ：Ｄｅｆｉｎｉｔｉｏｎｓａｎｄｆｕｎｃｔｉｏｎｓ［Ｃ］．Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ４０ｔｈＡｎｎｕａｌＨａｗａｉｉＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｙｓｔｅｍＳｃｉｅｎｃｅｓ２００７，ＨＩＣＳＳ’０７，２００７，４０７６９５０．Ｋａｌｓ，Ｓｔｅｆａｎ．ＳｅｃｕＢａｔ：Ａｗｅｂｖｕｌｎｅｒａｂｉｌｉｔｙｓｃａｎｎｅｒ［Ｃ］．Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＷｂｄｄＷｉｄｅＷ曲，２００６，２４７—２５６．Ｃｕｒｐｈｅｙ，Ｍａｒｋ．Ｗｅｂａｐｐｌｉｃａｔｉｏｎｓｅｃｕｒｉｔｙａｓｓｅｓｓｍｅｎｔｔｏｏｌｓ［Ｃ］．ＩＥＥＥＳｅｃｕｒｉｔｙａｎｄＰｒｉｖａｃｙ，Ｖ４，ｎ４，Ｊｕｌｙ／Ａｕｇｕｓｔ，２００６，３２－４１．Ｈｕａｎｇ，Ｙａｏ－Ｗｅｎ．ＡｔｅｓｔｉｎｇｆｒａｍｅｗｏｒｋｆｏｒＷｅｂａｐｐｌｉｃａｔｉｏｎｓｅｃｕｒｉｔｙａｓｓｅｓｓｍｅｎｔ［Ｊ］．ｃｏｍｐｕｔｅｒＮｅｔｗｏｒｋｓ，ｖ４８，ｎ５，Ａｕｇ５，２００５，ＷｅｂＴｒａｆｆｉｃ，７３９－７６１．［２５】Ｈｕａｎｇ，Ｙａｏ－Ｗｅｎ．Ｎｏｎ—ｄｅｔｒｉｍｅｎｔａｌＷｅｂａｐｐｌｉｃａｔｉｏｎｓｅｃｕｒｉｔｙｓｃａｎｎｉｎｇ［Ｃ］．Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＳｏｆｔｗａｒｅＲｅｌｉａｂｉｌｉｔｙＥｎｇｉｎｅｅｒｉｎｇ，２００４，２１９—２３０．【２６】Ｆｏｎｓｅｃａ，Ｊｏｓｅ．ＴｅｓｔｉｎｇａｎｄｃｏｍｐａｒｉｎｇｗｅｂｖｕｌｎｅｒａｂｉｌｉｔｙｓｃａｎｎｉｎｇｔｏｏｌｓｆｏｒＳＱＬ蝎ｅｃｔｉｏｎａｎｄＸＳＳａｔｔａｃｋｓ［Ｃ］．Ｐｒｏｃｅｅｄｉｎｇｓ一１３ｔｈＰａｃｉｆｉｃＲｉｍＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍ０１１ＤｅｐｅｎｄａｂｌｅＣｏｍｐｕｔｉｎｇ，ＰＲＤＣ２００７，２００７，３６５－３７２．［２７】ＴＩｎｙＸＭＬ．ｈｔｔｐ：／／ｗｗｗ．ｇｒｉｎｎｉｎｇｌｉｚａｒｄ．ｃｏｍ／ｔｉｎｙｘｍｌ／．［２８】ＢｒａｉｎＧｏｅｔｚ．ＪａｖａＣｏｎｃｕｒｒｅｎｃｙｉｎＰｒａｃｔｉｃｅ［Ｍ］．电子工业出版社，２００７．【２９】ＥｌｉｓａｂｅｔｈＦｒｅｅｍａｎ，ＥｒｉｃＦｒｅｅｍａｎ，ＢｅｒｔＢａｔｅｓ，ＫａｔｈｙＳｉｅｒｒａ．ＨｅａｄＦｉｒｓｔＤｅｓｉｇｎＰａｔｔｅｒｎｓ［Ｍ］．Ｏ＇ＲｅｉｌｌｙＭｅｄｉａ，Ｉｎｅ．２００４．【３０】ＥｒｉｃｈＧａｍｍａ，ＲｉｃｈａｒｄＨｅｌｍ，ＲａｌｐｈＪｏｈｎｓｏｎ，ＪｏｈｎＶｌｉｓｓｉｄｅｓ．设计模式：可复用面向对象软件的基础［Ｍ】．李英军，马晓星，蔡敏，刘建中译．机械工业出版社，２００７．［３ｌ】张新华，朱跃龙，梁正和．基于数据字典的通用动态查询系统设计与实现【Ｊ】．计算机与现代化，２００６，（０４）：３３．３６．【３２】ＳＱＬｉｔｅ．ｈｔｔｐ：／／ｗｗｗ．ｓｑｌｉｔｅ．ｏｒｇ／．【３３】ＵＲＬ．ｈｔｔｐ：／／ｂａｉｋｅ．ｂａｉｄｕ．ｃｏｒｎ／ｖｉｅｗ／１４９６．ｈｔｍ．【３４】Ｌｉｂｃｕｒｌ．ｈｔｔｐ：／／ｃｕｒｌ．ｈａｘｘ．ｓｅ／ｌｉｂｃｕｄ／．【３５】ＳｃｏｔｔＭｅｙｅｒｓ．ＥｆｆｅｃｔｉｖｅＣ．Ｈ，ｎ砌Ｅｄｉｔｉｏｎ［Ｍ］．侯捷译．电子工业出版社，２００６．７８，≥０一Ｑ■攻硕期间取得的研究成果攻硕期间取得的研究成果［１】陶亚平，邱会中．一种基于ＤｏｃｕｍｅｎｔＲａｎｋ的垂直搜索检索模型．电子科技大学研究生学报．已录用●、ｊ］Ｘ：睁目：鲴王挺嚣：蛳台。碗动上髟幂晕甲勒贸牲肇掣益衅＜ｉ＝丰孵羁贸：里面晕碗动。娶辨明暂鞘益垂业而一上辑膨‘魁绺上身承朗骢曾掣朝囤椠少护朝妻回髻牲口辩朝掣垂聚辨益鐾肖的鼹暂搿椠明国椠辜圈髻：圈面晕磋铆。尝ｔ７。Ｚ嘉＝髯眨龌勐影擗驹眺戥ＳＳＸ瞠Ｙ琨＂ｌＯＳ、审制粝幽鲷诳甲嘉向髻嘉＝髻唛碑夥擗明醢帛妻向髯：三面巢碗动。猛乖半甥斯妊明固乱骤堑９己、６９上碗动鳍刨国酩骤：＝面巢碗动。鳍照Ｉ匦茸警韶谣诵聊藓业粤璺益衅茸誓七ｂ上）；芑动益骅茸迸中：一面晕碗动膨群龌觋茸磁’＼０IRON OXIDEhttp://www.pigmentpigment.com/

Web应用安全漏洞扫描工具的设计与实现

作者：

陶亚平

学位授予单位：

电子科技大学

本文链接：http://d.g.wanfangdata.com.cn/Thesis_Y1802606.aspx

vacuum interrupterhttp://www.cnhogen.com/

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文