通常我们认为“机器人”这个词是负面的。然而,并不是所有的机器人都是坏的。问题是好的机器人可以与恶意机器人共享相似的特征。因此,良好的机器人流量被标记为不良并被阻止。
坏机器人只会变得越来越聪明,其他机器人很难保持无阻塞。这不仅给网站所有者带来了很多问题,以确保其网站的健康性能,而且给网络抓取社区也带来了很多问题。
虽然我们已经介绍了什么是漫游器,但在本文中,我们将更深入地了解漫游器流量、网站如何检测和阻止漫游器以及它如何影响业务。
什么是机器人流量?
机器人流量是对网站的任何非人为流量。它是一个运行自动化和重复性任务的软件应用程序;但是,比人类可能的速度要快得多。
凭借这种能够非常快速地执行任务的能力,机器人既可以用来做坏事,也可以用来做好事。2020 年,24.1% 的在线爬虫程序流量是恶意恶意爬虫程序。这比 2019 年的前一年增加了 18.1% 。
坏机器人 vs. 好机器人 vs. 2020 年人流量

而良好的机器人流量也在下降(与 2019 年相比,数字下降了-25.1%)。随着坏机器人的增加和好机器人的减少,网站所有者被迫加强他们的安全性。因此允许更多的机器人被错误地抓住。
为了更好地理解什么是好的和坏的机器人,这里有一些例子:
好机器人
- 搜索引擎机器人——这些机器人爬行、编目和索引网页。这些结果被谷歌等搜索引擎用来有效地提供他们的服务。
- 站点监控机器人——将监控网站以识别可能的问题,例如加载时间长、停机时间等。
- 网络抓取机器人——如果被抓取的数据是公开可用的,则这些数据可用于研究、识别和删除非法广告、品牌监控等等。
坏机器人
- 垃圾邮件机器人——用于垃圾邮件目的。通常用于在论坛、社交媒体平台、消息应用程序等上创建虚假帐户。它们用于建立社交媒体形象,在帖子上创建更多点击等。
- DDoS 攻击机器人– 创建一些机器人是为了关闭网站。DDoS 攻击通常会留下足够的可用带宽,以允许其他攻击进入网络并通过未被检测到的弱化网络安全层来窃取敏感信息。
- 广告欺诈机器人——这些机器人会自动点击从广告交易中抽走资金的广告。
因此,“好”机器人是执行有用或有帮助的任务且不会损害用户在 Internet 上的体验的机器人。而一个坏机器人则完全相反,在大多数情况下都有恶意甚至非法的意图。

如何识别机器人流量?
为了防止不良机器人流量,网站创建了各种机器人检测技术。以下是他们这样做的几种方法:
- 浏览器指纹识别——这是指为识别目的而收集的有关计算设备的信息(任何浏览器都会将特定数据点传递到连接网站的服务器,例如您的操作系统、语言、插件、字体、硬件等) 了解更多在我们的深度博客中 了解什么是浏览器指纹。
- 浏览器一致性——检查浏览器中是否存在应该或不应该存在的特定功能。这可以通过执行某些 JavaScript 请求来完成。
- 行为不一致——非线性鼠标移动、快速按钮和鼠标点击、重复模式、平均页面时间、每页平均请求以及类似的类似机器人的行为。
- CAPTCHA – 一种流行的反机器人措施是 CAPTCHA – 一种挑战-响应类型的测试,通常要求您填写正确的代码或识别图片中的对象。您可以在我们的博客中阅读更多关于验证码如何工作的信息。
一旦网站识别出类似机器人的行为,它就会阻止它们进一步爬行。ForNova 的联合创始人兼首席科学家 Dmitry Babitsky 在 OxyCon 的演讲中深入探讨了网站如何阻止机器人程序。
机器人检测挑战
将机器人流量与人类在线行为区分开来本身就已成为一项复杂的任务,互联网上的机器人多年来发生了翻天覆地的变化。目前,有四代不同的机器人:
- 第一代——这些机器人是 用基本的脚本工具构建的,主要执行基本的自动化任务,如抓取、垃圾邮件等。
- 第二代——主要通过网站开发运作,因此以“网络爬虫”的名称结束。由于存在特定的 JavaScript 触发和 iframe 篡改,它们相对容易检测。
- 第三代——通常用于 慢速 DDoS 攻击、身份盗用、API滥用等。根据设备和浏览器的特征,它们相对难以检测,并且需要适当的基于行为和交互的分析来识别。
- 第四代——机器人的最新迭代。这样的机器人可以执行类似人类的交互,例如非线性鼠标移动。为了检测此类机器人,需要先进的方法,通常涉及使用人工智能和机器学习技术。
第四代机器人很难与合法的人类用户区分开来,基本的机器人检测技术已经不够用了。要检测到此类机器人流量,需要的不仅仅是简单的工具和行为交互分析。

克服反机器人措施
如果您想了解如何在不被反机器人措施阻止的情况下抓取网站的分步指南,我们已经详细说明了如何做到这一点。在该博客文章中,我们为您提供了一系列操作,以防止在抓取和抓取网站时被列入黑名单。但是,如果您想要一种更快、更省力的方法,您可以查看下一代住宅代理作为解决方案。
它是一种 AI 和 ML 驱动的解决方案,具有AI 驱动的动态指纹识别功能,这允许下一代住宅代理克服浏览器指纹识别,让您无阻塞。使用此功能,用户将能够模仿普通用户的行为,确保 100% 的成功率防止机器人流量检测。
结论
预计不良机器人流量每年只会增加。至于良好的机器人流量,不与不良人群混在一起的机会正在慢慢减少。在优秀的机器人中,有很多网络爬虫使用收集到的数据进行研究、删除非法广告、市场研究等。所有这些都可能被标记为不良并被阻止。