网络爬虫针对“反爬”网站的爬取策略分析

来源：智榕旅游

信息与电脑2019年第3期China Computer & Communication计算机工程应用技术网络爬虫针对“反爬”网站的爬取策略分析刘　清（东莞理工学校，广东东莞　523470）摘　要：信息时代，计算机技术等相关信息技术得到了空前发展，而网络信息技术已经成为科技发展过程中非常重要的一部分。网络爬虫技术得到了普及，更多个人用户使用网络爬虫技术在网站中获取信息，对目标网站的运营造成了一定影响。基于此，一些网站采取了相应措施，比如反爬虫技术，防止网络爬虫。笔者分析了网站的一些反爬虫策略，并提出几点见解。关键词：网络爬虫；反爬虫；抓取策略中图分类号：TP393.092　　文献标识码：A　　文章编号：1003-9767（2019）03-023-02Analysis of Crawling Strategy of Web Crawler Against \"Anti-crawling\" Web SiteLiu QingAbstract: In the information age, computer technology and other related information technologies have been unprecedented (Dongguan Science & Technology School, Dongguan Guangdong 523470, China)development, technology. Web crawler technology has been popularized. More individual users use Web crawler technology to obtain information on and network information technology has become a very important part of the development process of science and measures, such as anti-crawler technology, to prevent network crawlers. The author analyses some anti-crawler strategies of the the website, which has a certain impact on the operation of the target website. Based on this, some websites have taken corresponding website and puts forward some opinions.Key words: web crawler; anti-crawler; crawling strategy０　引言为搜索引擎提供数据来源，在搜索引擎中具有重要作用。除新时代，计算机技术等相关信息技术得到空前发展，成了一些文字信息外，还存在超链接信息，访问网页时，网络为了生活、生产的必备技术。人们获取信息的主要工具是搜索爬虫可以利用超链接获得其他网页的相关信息，点击后可进引擎，虽然通过搜索引擎可以获取想要的信息，但是使用搜索入其他网页继续浏览。引擎时会释放网络爬虫，网络爬虫会占据互联网宽带，导致网1.2　网络爬虫系统运行的流程络访问缓慢甚至无法访问[1]。这对网站运营造成了不利影响，需要针对网络反爬虫采取一定措施和对应的爬取策略。网络爬虫系统运行时，会自动选择一个较大网站的统一资源定位符即网页地址作为集合，在系统中把种子集合作为初１　网络爬虫始资源的地址。抓取数据时，在已经存在的网页资源地址的1.1　概念分析基础上得到新的网页资源地址，相当于把种子网页地址对应的网页作为森林中一棵树的根节点。系统运行过程中，把种网络爬虫经常被称为网页蜘蛛或者网络机器人等，是能子URL加入到下载队列，并从队首取出一个网页地址下载对够根据自身规则抓取信息的程序。网络爬虫经常被用于检查应的网页，之后储存内容数据，利用解析器处理信息并得到新站点的有效性。另外，网络爬虫可以采集一些网站的信息，的网页地址，把新的网页地址加入到下载列队，反复执行上述比如招聘信息、网络买卖信息。爬虫一般分为数据采集、数操作，直到满足所需条件，循环工作结束[3]。具体流程为：精据处理和数据储存[2]。网络爬虫系统功能可以下载网页数据，心挑选种子URL—把挑选的URL放入到抓取URL队列—通作者简介：刘清(1990—)，女，广东兴宁人，本科，助理讲师。研究方向：大数据、网页。—　　　２３　　　—计算机工程应用技术信息与电脑China Computer & Communication2019年第3期过解析得到主机IP，并下载储存相应网页—将URL放入抓取网站反爬虫机制频率过高的情况，可以采用设置代理服务队列—解析，进入下一个循环—满足抓取，停止循环。器进行解决，即更换原有的IP和端口，针对访问频率高的主２　网络爬虫的分类及相关优化策略研究机设置访问。代理服务器的设置一般有两种调用的方法。通用网络爬虫可从种子网页地址不断扩展到整个万维第一，根据不同的调用效果设计代码，可以有效保证执行爬网。通用网络爬虫的作用是为用户站点搜索引擎时采集数据，虫时不会被站点，但需要有足够的IP代理满足爬取条件。爬行范围和数量非常大，不需按照特定的爬行页面顺序，但第二，伪装用户代理，即User-agent。用户代理也指浏览器，新的页面刷新时间较长。为此，采取一定的爬取策略。第一，包括硬件平台、系统软件、应用软件和用户个人软件偏好等[6]。采用深度优先策略。按照深度顺序进行爬行，根据顺序依次每一个浏览器和正规的网络爬虫都有固定的用户代理，伪装用访问网页链接，由浅到深，一直到最深处。第二，采用广度户代理可通过违章判断网站访问对象的类别。对伪装浏览器和优先策略。根据网络内容进行一个层次性的爬行，从浅到深，知名爬虫而言，更加推荐伪装浏览器。与爬虫相比，浏览器没每一个层次爬行完毕后再进行下一个层次，层层深入。此策有固定的IP，可以是任何人，而爬虫具有固定的IP。伪装浏略可有效控制页面的爬行深度，不需要储存大量的中间节点。览器可以提高多个用户代理，每次发送请求时可以随机选取一聚焦网络爬虫是选择性爬行，优先爬行预先设定的相关个用户代理，根据具体需求设置代码。的网页，且只爬行与主题相关的页面，能够有效节省硬件和４　针对登录反爬的策略网络资源，满足特定人群对特定信息的需求。聚焦网络爬虫访问网站时，经常出现访问异常问题，其中包括登录要相关爬行策略有以下几方面。第一，基于内容评价的爬行策求，很多用户搜索信息时，网页会跳出登录继续查询等情况。略[4]。把用户搜索查询时的查询词作为主题，爬行页面与这面对这一反爬情况，必须做好登录前的准备，清楚登录请求一主题相关。第二，基于连接结构评价的策略。其主要涉及附带的参数，先进性登录录制，并将这一过程作为特定的文两种算法，一种是PageRank算法，可对计算值比较大的页件，查看登录参数，确定登录参数[7]。面进行连接访问；另一种是HITS方法，通过计算每个已经访问的页面决定访问顺序。第三，增强学习的爬行策略。根５　结　语据网页文本和链接文本分类超链接，通过链接的重要性决定文章主要探析网络爬虫针对“反爬”网站的爬取策略分访问顺序。析。首先，分析了网络爬虫的概念、工作流程以及原理；其次，增量式网络爬虫在对应下载网页的基础上进行更新，即对其进行分类并提出相应的抓取策略；最后，详细分析了站在新产生和发生变化的网页中，保证的其爬行页面为最新页点的反爬应对方法，包括降低访问请求频率、设置用户代理、面。增量式网络爬虫可以在很大程度上减少数据下载量，及伪装用户代理以及明确访问登录参数等。随着互联网技术的时更新网页，避免空间和时间上的浪费。广泛应用和发展，网络爬虫技术不断提升，需要不断优化完善技术，有效的应对反爬，从而保证网页的安全稳定，满足３　网页反爬虫的应对方法用户的需求。网络爬虫会对目标站点发送大量请求。虽然爬虫具有一定的应用价值，但是会带来不良影响，比如消耗网络资源、参考文献降低运行速度等，特别是对一些中小型网站的负载影响非常巨大，甚至会导致网站直接崩溃。因此，必须采用相应的反[1]逄菲.基于Python的分布式网络爬虫系统的设计与实现爬虫爬取策略，有效控制管理，保证网站的安全稳定。比如，[J].电子技术与软件工程,2018(23):6.通过识别爬虫拒绝爬虫，通过用户代理信息过滤网络爬虫，[2]杨凌云.主题网络爬虫关键技术的应用探讨[J].电脑编程通过网站流量系统识别爬虫并采取反爬虫策略。技巧与维护,2018(11):33-35.[3]黄克敏.网站信息安全之反爬虫策略[J].保密科学技3.1　管理访问请求的频率术,2018(10):62-63.降低访问请求频率时，为了避免被网站，可以模仿[4]张岩.大数据反爬虫技术分析[J].信息系统工程,2018 真人浏览页面的动作[5]。设计过程中，将访问请求的线程休(8):130.眠一段时间，根据具体情况设计代码，访问请求的休眠时间[5]刘石磊.对反爬虫网站的应对策略[J].电脑知识与技术,2017, 根据具体需求决定。休眠时间以毫秒为单位，以降低访问请13(15):19-21,23.求频率，减少站点单位时间内的负载，但会降低爬取效率。[6]陈利婷.大数据时代的反爬虫技术[J].电脑与信息技3.2　设置代理服务器术,2016,24(6):60-61.[7]邹科文,李达,邓婷敏,等.网络爬虫针对\"反爬\"网站设置代理服务器主要是为了提高爬虫的效率。针对一些的爬取策略研究[J].电脑知识与技术,2016,12(7):61-63.—　　　２４　　　—

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文