当你用chromedriver使用Selenium时，网站能检测到吗?

我一直在用Chromedriver测试Selenium，我注意到一些页面可以检测到你正在使用Selenium，即使根本没有自动化。甚至当我手动使用Chrome通过Selenium和Xephyr浏览时，我经常会看到一个页面说检测到可疑活动。我已经检查了我的用户代理和浏览器指纹，它们都与正常的Chrome浏览器完全相同。

当我在普通的Chrome浏览器中浏览这些网站时，一切都很好，但当我使用Selenium时，我被检测到。

理论上，chromedriver和Chrome在任何web服务器上看起来应该是完全一样的，但不知何故它们可以检测到它。

如果你想要一些测试代码，试试这个:

from pyvirtualdisplay import Display
from selenium import webdriver

display = Display(visible=1, size=(1600, 902))
display.start()
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--disable-extensions')
chrome_options.add_argument('--profile-directory=Default')
chrome_options.add_argument("--incognito")
chrome_options.add_argument("--disable-plugins-discovery");
chrome_options.add_argument("--start-maximized")
driver = webdriver.Chrome(chrome_options=chrome_options)
driver.delete_all_cookies()
driver.set_window_size(800,800)
driver.set_window_position(0,0)
print 'arguments done'
driver.get('http://stubhub.com')

如果你在stubhub周围浏览，你会在一两个请求内被重定向和“阻止”。我一直在研究这个问题，但我不知道他们是如何判断用户正在使用Selenium的。

他们是怎么做到的?

我在Firefox中安装了Selenium IDE插件，当我在普通的Firefox浏览器中只使用附加插件访问stubhub.com时，我被禁止了。

当我使用Fiddler查看来回发送的HTTP请求时，我注意到“假浏览器”的请求经常在响应头中有“无缓存”。

是否有一种方法可以从JavaScript检测我是否在Selenium Webdriver页面中?建议当你在使用网络驱动程序时没有办法检测。但这些证据表明情况并非如此。

该网站将指纹上传到他们的服务器上，但我检查了一下，Selenium的指纹与使用Chrome时的指纹是相同的。

这是他们发送到服务器上的指纹载荷之一:

{"appName":"Netscape","platform":"Linuxx86_64","cookies":1,"syslang":"en-US","userlang":"en-
US","cpu":"","productSub":"20030107","setTimeout":1,"setInterval":1,"plugins":
{"0":"ChromePDFViewer","1":"ShockwaveFlash","2":"WidevineContentDecryptionMo
dule","3":"NativeClient","4":"ChromePDFViewer"},"mimeTypes":
{"0":"application/pdf","1":"ShockwaveFlashapplication/x-shockwave-
flash","2":"FutureSplashPlayerapplication/futuresplash","3":"WidevineContent
DecryptionModuleapplication/x-ppapi-widevine-
cdm","4":"NativeClientExecutableapplication/x-
nacl","5":"PortableNativeClientExecutableapplication/x-
pnacl","6":"PortableDocumentFormatapplication/x-google-chrome-
pdf"},"screen":{"width":1600,"height":900,"colorDepth":24},"fonts":
{"0":"monospace","1":"DejaVuSerif","2":"Georgia","3":"DejaVuSans","4":"Trebu
chetMS","5":"Verdana","6":"AndaleMono","7":"DejaVuSansMono","8":"LiberationM
ono","9":"NimbusMonoL","10":"CourierNew","11":"Courier"}}

它在Selenium和Chrome中是相同的。

vpn只用于一次使用，但在加载第一个页面后就会被检测到。显然，正在运行一些JavaScript代码来检测Selenium。

当前回答

我所看到的机器人检测似乎更复杂，或者至少与我在下面阅读的答案不同。

实验1

我从Python控制台用Selenium打开浏览器和网页。鼠标已经在一个特定的位置，我知道一旦页面加载，就会出现一个链接。我从不移动鼠标。我按一次鼠标左键(这对于将焦点从运行Python的控制台转移到浏览器是必要的)。我再次按下鼠标左键(记住，光标在给定链接的上方)。链接正常打开，就像它应该的那样。

实验2

像以前一样，我从Python控制台打开一个浏览器和带有Selenium的web页面。这一次，我不再使用鼠标单击，而是使用Selenium(在Python控制台中)单击带有随机偏移量的同一元素。链接没有打开，但我被带到一个注册页面。

影响

通过Selenium打开网页浏览器并不妨碍我看起来像人类像人类一样移动鼠标并不一定要被归类为人类通过Selenium点击带有偏移量的内容仍然会引起警报

这看起来很神秘，但我猜他们可以确定一个操作是否起源于Selenium，而他们并不关心浏览器本身是否是通过Selenium打开的。或者他们能确定窗口是否有焦点吗?如果有人有什么见解，我会很有趣。

2018-04-11 18:41:06

其他回答

据说Firefox在使用webdriver时设置window.navigator.webdriver === true。这是根据一个旧的规格(例如:archive.org)，但我无法在新的附录中找到它，除了一些非常模糊的措辞。

它的测试是在文件fingerprint_test.js中的selenium代码中，其中末尾的注释说“目前仅在firefox中实现”，但我无法通过一些简单的greping识别该方向的任何代码，无论是在当前(41.0.2)firefox发布树中还是在chromium树中。

我还发现了一个关于2015年1月firefox驱动程序b82512999938中指纹识别的旧提交的评论。该代码仍然在昨天从javascript/firefox-driver/extension/content/server.js下载的Selenium GIT-master中，并附有一个链接到当前w3c webdriver规范中措辞略有不同的附录的注释。

2015-10-27 23:44:32

部分接口导航器{只读属性布尔webdriver;};

Navigator接口的webdriver IDL属性必须返回webdriver-active标志的值，初始值为false。

此属性允许网站确定用户代理受WebDriver控制，并可用于帮助减轻拒绝服务攻击。

直接摘自2017年W3C WebDriver编辑草案。这在很大程度上意味着，至少Selenium驱动程序的未来迭代将是可识别的，以防止误用。最终，如果没有源代码，就很难判断到底是什么原因导致chrome驱动程序被检测到。

2017-01-27 23:05:14

替换cdc_ string

您可以使用Vim或Perl来替换chromedriver中的cdc_ string。查看@Erti-Chris Eelmaa的回答，了解更多关于字符串的信息，以及它是如何成为探测点的。

使用Vim或Perl可以避免重新编译源代码或使用十六进制编辑器。

在尝试编辑原始chromedriver之前，请确保复制它。

我们的目标是修改cdc_字符串，它看起来类似于$cdc_lasutopfhvcZLmcfl。

下面的方法在chromedriver版本2.41.578706上进行了测试。

使用Vim

vim /path/to/chromedriver

运行上面的代码行之后，您可能会看到一堆胡言乱语。做以下几点:

通过输入:%s/cdc_/dog_/g将cdc_的所有实例替换为dog_。 Dog_只是一个例子。你可以选择任何东西，只要它有相同数量的字符作为搜索字符串(例如，cdc_)，否则chromedriver将失败。要保存修改并退出，输入:wq!然后按回车键。如果您需要在不保存更改的情况下退出，请键入:q!然后按回车键。

使用Perl

下面这行代码将所有cdc_事件替换为dog_。Vic Seedoubleyew:

perl -pi -e 's/cdc_/dog_/g' /path/to/chromedriver

确保替换字符串(例如，dog_)与搜索字符串(例如，cdc_)具有相同的字符数，否则chromedriver将失败。

结束

验证所有出现的cdc_已被替换:

grep "cdc_" /path/to/chromedriver

如果没有返回输出，则替换成功。

转到修改过的chromedriver，双击它。这时应该会打开一个终端窗口。如果您在输出中没有看到killed，那么您已经成功修改了驱动程序。

确保更改后的chromedriver二进制文件的名称为chromedriver，并且原始二进制文件要么从原始位置移动，要么重命名。

我使用这种方法的经验

我之前在尝试登录时在网站上被检测到，但在用相等大小的字符串替换cdc_后，我能够登录。就像其他人说的那样，如果你已经被检测到，即使使用了这种方法，你也可能会因为其他很多原因被屏蔽。因此，您可能需要尝试访问使用VPN、其他网络等检测您的站点。

2018-08-31 03:49:27

正如我们已经在问题和发布的答案中发现的那样，这里有一个名为“蒸馏网络”的反网络抓取和机器人检测服务。根据该公司CEO的采访:

尽管他们可以创造新的机器人，但我们找到了识别的方法硒是他们使用的一个工具，所以我们阻止硒不不管他们在机器人上迭代了多少次。我们现在正在做使用Python和许多不同的技术。一旦我们发现了规律从一种机器人中脱颖而出，然后我们对其进行逆向工程他们使用的技术并将其识别为恶意的。

要了解他们究竟是如何检测硒的，还需要时间和更多的挑战，但目前我们可以肯定地说:

it's not related to the actions you take with Selenium. Once you navigate to the site, you get immediately detected and banned. I've tried to add artificial random delays between actions, take a pause after the page is loaded - nothing helped it's not about browser fingerprint either. I tried it in multiple browsers with clean profiles and not, incognito modes, but nothing helped since, according to the hint in the interview, this was "reverse engineering", I suspect this is done with some JavaScript code being executed in the browser revealing that this is a browser automated via Selenium WebDriver