如何防止网站刮取?

我有一个相当大的音乐网站，有一个很大的艺术家数据库。我一直注意到其他音乐网站在窃取我们网站的数据(我在这里和那里输入假艺人的名字，然后进行谷歌搜索)。

如何防止屏幕刮擦?这可能吗?

当前回答

你真的没有什么办法可以完全防止这种情况。刮刮者可以伪造他们的用户代理，使用多个IP地址等，并以正常用户的身份出现。你唯一能做的就是让文本在页面加载时不可用——用图像、flash或JavaScript加载。然而，前两个都是糟糕的想法，如果JavaScript没有为一些常规用户启用，最后一个将是可访问性问题。

如果他们对你的网站进行了猛烈的攻击，并且浏览了你所有的页面，你可以做一些速率限制。

不过还是有希望的。刮刮器依赖于您的网站的数据是一致的格式。如果你能随机分配，它可能会打碎他们的刮刀。比如在每次加载时更改页面元素的ID或类名等。但这需要做很多工作，我不确定是否值得。即便如此，只要有足够的投入，他们可能就能解决这个问题。

2010-07-01 20:51:53

其他回答

我假定您已经设置了robots.txt。

正如其他人所提到的，刮刮器可以伪造其活动的几乎每个方面，并且可能很难识别来自坏人的请求。

我会考虑:

建立一个页面/jail.html。禁止访问robots.txt中的页面(因此尊敬的蜘蛛永远不会访问)。在你的一个页面上放置一个链接，用CSS隐藏它(display: none)。记录访问者的IP地址到/jail.html。

这可以帮助您快速识别来自scraper的请求，这些请求公然无视您的robots.txt。

你可能还想让你的/jail.html成为一个完整的网站，它拥有与正常页面相同的标记，但是使用假数据(/jail/album/63ajdka， /jail/track/3aads8等)。这样，在你有机会完全阻止它们之前，糟糕的抓取程序不会被提醒“异常输入”。

2010-07-01 21:09:07

将你的内容放在验证码后面意味着机器人将很难访问你的内容。然而，人类会不方便，所以这可能是不可取的。

2010-07-01 20:53:30

方法一(小型场地适用): 提供加密/编码的数据。我使用python (urllib, requests, beautifulSoup等)对web进行了Scape，发现许多网站提供加密/编码的数据，这些数据在任何编程语言中都无法解密，因为加密方法不存在。

我在一个PHP网站上通过加密和最小化输出实现了这一点(警告:这对大型网站来说不是一个好主意)，响应总是混乱的内容。

最小化PHP输出的例子(如何最小化PHP页面html输出?):

<?php
  function sanitize_output($buffer) {
    $search = array(
      '/\>[^\S ]+/s', // strip whitespaces after tags, except space
      '/[^\S ]+\</s', // strip whitespaces before tags, except space
      '/(\s)+/s'      // shorten multiple whitespace sequences
    );
    $replace = array('>', '<', '\\1');
    $buffer = preg_replace($search, $replace, $buffer);
    return $buffer;
  }
  ob_start("sanitize_output");
?>

方法二: 如果你不能阻止他们，那就给他们提供虚假/无用的数据作为回应。

方法三: 阻止常见的抓取用户代理，你会在主要/大型网站上看到这一点，因为你的user - agent不可能用“python3.4”来抓取它们。

方法四: 确保所有的用户标题都是有效的，我有时提供尽可能多的标题，使我的刮板看起来像一个真实的用户，其中一些甚至不是真实或有效的像en-FU:)。下面是我通常提供的一些头文件的列表。

headers = {
  "Requested-URI": "/example",
  "Request-Method": "GET",
  "Remote-IP-Address": "656.787.909.121",
  "Remote-IP-Port": "69696",
  "Protocol-version": "HTTP/1.1",
  "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
  "Accept-Encoding": "gzip,deflate",
  "Accept-Language": "en-FU,en;q=0.8",
  "Cache-Control": "max-age=0",
  "Connection": "keep-alive",
  "Dnt": "1",  
  "Host": "http://example.com",
  "Referer": "http://example.com",
  "Upgrade-Insecure-Requests": "1",
  "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.111 Safari/537.36"
}

2016-02-03 01:19:27

苏' em。

说正经的:如果你有钱，就找个懂网络的年轻律师谈谈。你真的可以在这里有所作为。根据网站所在地的不同，你可以让律师在你的国家写一份终止协议或类似的文件。你至少能吓到那些混蛋。

记录插入的虚拟值。插入明确(但模糊)指向你的虚拟值。我认为这是电话簿公司的普遍做法，在德国，我想已经有几个例子，抄袭者通过1:1复制的虚假条目被破获。

如果这将导致您弄乱HTML代码，拖低SEO，有效性和其他事情，那将是一种耻辱(即使一个模板系统在对相同页面的每个请求使用略微不同的HTML结构可能已经帮助了很多抓取程序，总是依赖HTML结构和类/ID名称来获取内容)。

这类案件正是版权法所擅长的。剽窃别人的诚实工作来赚钱是你应该能够反对的事情。

2010-07-01 22:57:24

好吧，正如所有帖子所说，如果你想让它对搜索引擎友好，那么机器人肯定会刮。

但你仍然可以做一些事情，它可能适用于60% - 70%的抓取机器人。

制作如下所示的检查器脚本。

如果一个特定的IP地址访问非常快，那么在几次访问(5-10次)后，将其IP地址+浏览器信息保存在文件或数据库中。

下一步

(这将是一个后台进程，并一直运行或在几分钟后调度。)制作另一个脚本，继续检查那些可疑的IP地址。

案例1。如果用户代理是一个已知的搜索引擎，如谷歌，Bing, Yahoo(你可以通过Google找到更多关于用户代理的信息)。那么你一定会看到http://www.iplists.com/。这个列表，并尝试匹配模式。如果它看起来像一个假的用户代理，那么要求在下次访问时填写验证码。(你需要多研究一下机器人的IP地址。我知道这是可以实现的，也尝试了IP地址的whois。这是有帮助的。)

例2。没有搜索机器人的用户代理:只需在下次访问时要求填写验证码。

2010-07-01 21:12:42

如何防止网站刮取?

推荐文章

最新文章

标签