专利名称:一种基于多线程的网络爬虫系统及其网页爬取方法专利类型:发明专利发明人:黄金城,曹瑞,袁敏申请号:CN201510949494.2申请日:20151218公开号:CN105608134A公开日:20160525
摘要:本发明公开了一种基于多线程的基于多线程的网络爬虫系统,包括URL处理模块,通过URL类处理获得每个URL的主机名,端口号,文件名;网页爬取模块,对网页内容进行分块抓取,并将抓取的网页保存至暂存模块;网页分析模块,提取URL,对URL进行重定向,对URL进行判重处理,删除重复的URL;网页存储模块,在存储文件时判断是否存在该文件,如果不存在,则直接爬取该文件;如果存在并且此次爬取网页所获得的内容比上一次爬取的多,则覆盖原来的文件;否则,丢弃该文件。先输入与正则表达式匹配的网址,发送网页请求信号,然后触发槽函数获取匹配,最后得到包含关键字的具体信息,爬去速度快,效率高。
申请人:盐城工学院
地址:224051 江苏省盐城市希望大道中路1号
国籍:CN
代理机构:苏州创元专利商标事务所有限公司
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容