如何屏蔽Google和Bing访问你的网站?

自学咖网努力为各位打造免费分享知识与教程网站

谷歌每天至少使用一次Googlebot爬虫来抓取和索引网页。通常,爬行基于您在Google搜索控制台中提交的XML站点地图。但相对于普通内容网站,新闻网站的抓取频率可能会有变化,速度会更快。同样,Bing也使用Bingbot爬虫抓取页面。一方面,站长们希望Google和Bing能立即索引他们的页面;另一方面,在某些情况下,您必须停止这些爬虫来停止爬行整个网站或您网站上的某些页面。

在本文中,我们将解释如何阻止Googlebot和Bingbot,阻止爬虫后会发生什么,以及爬行问题的常见原因。

屏蔽Googlebot和Bingbot

根据你需求的严重程度,有很多方法可以阻止你的网页访问Google和Bing。

1.用Robots.txt拦截。

最流行和最常见的停止爬虫的方法是使用robots.txt文件中的指令。例如,插入下面一行将阻止Google和Bing访问您网站上的页面。

User-agent: GooglebotDisallow: /your-page-urlUser-agent: BingbotDisallow:  /your-page-url

虽然Google和Bing遵循robots.txt文件,但如果被阻止的页面是从另一篇索引文章链接的,就不行了。它可以来自你的网站,也可以来自你无法控制的外部网站。

2.使用。阻止htaccess

虽然不常见,但有些人更喜欢使用。停止爬网程序的htaccess指令。这类似于封锁Googlebot和Bingbot的IP地址,从而阻止对上述页面或目录的完全访问。

RewriteEngine OnRewriteCond %{REQUEST_URI} ^/your-page-urlRewriteRule ^(.*)$ – [F,L]

3.封锁Googlebot和Bingbot的IP地址

上述方法的问题在于,您需要拥有服务器访问权限才能编辑文件。此外,在编辑robots.txt和时可能会出错。htaccess文件。另一个有效的选择是使用封锁Googlebot和Bingbot IP地址。Google和Bing为爬虫提供了更新的IP地址,您可以使用这些地址进行拦截。这些IP地址是JSON格式的,您需要从中提取IP范围并使用它。请记住,这些是用于Googlebot和Bingbot搜索爬虫,而不是用于其他目的,如AdSense爬虫或微软广告爬虫。

使用主机面板

如果您可以访问服务器,可以使用主机面板中提供的IP拦截器工具。例如,HostGator在其cPanel的“SECURITY”部分下提供了一个名为IP Deny Manager的“IP Blocker”应用程序。

自学咖网努力为各位打造免费分享知识与教程网站

HostGator cPanel中的IP侦听器

你可以在所有cPanel托管公司找到类似的工具,比如Bluehost。单击IP Blocker应用程序,并提供Googlebot或Bingbot的IP范围来阻止访问。例如,您可以使用以下方法之一提供Googlebot IP地址:

使用JSON文件中给出的CIDR格式,例如66.249.64.0/27。

隐含的IP范围,如66.249.66.0-255

通配符范围是66.249。*.*

只需输入googlebot.com,因为大多数Goolgebot用户代理都来自这个主机名。

自学咖网努力为各位打造免费分享知识与教程网站

在cPanel中阻止Googlebot和Bingbot

一般来说,屏蔽一个或几个IP地址就足以阻止访问。但是,您可以使用通配符或主机名来阻止整个访问。

使用WordPress插件

否则,如果你使用的是像WordPress这样的内容管理系统,那么你有很多安全插件可以在不访问主机账户的情况下从网站管理员面板拦截僵尸程序和IP地址。例如,SiteGround安全插件允许你监控网站的实时流量。可以根据用户代理名找到Googlebot和Bingbot的IP地址,在管理面板里点几下就可以屏蔽。

自学咖网努力为各位打造免费分享知识与教程网站

拦截网站安全插件中的IP

这些都是有效的方法,尤其是当你想屏蔽Google和Bing访问你整个网站的时候。

还可以使用蜘蛛统计分析插件,通过插件的蜘蛛拦截功能拦截Google和Bing蜘蛛,可以通过IP或蜘蛛名称快速拦截。

自学咖网努力为各位打造免费分享知识与教程网站

同时,该插件还具有网站搜索引擎蜘蛛抓取数据统计、页面抓取日志查看、蜘蛛访问路径等功能。是WordPress站长必备的SEO辅助插件。

4.隐藏授权页面

这对于通过设置权限来限制搜索引擎对页面的访问非常有用。比如银行、会员网站把个性化内容隐藏在登录授权后面,让搜索引擎无法访问。基于内容的机密性,您可能需要应用防火墙、阻止用户配置文件等。强烈建议聘请开发人员,在所需的目录级别正确设置限制,这样Google就不会抓取禁止的部分。

控制爬行速度或频率。

如果发现Googlebot和Bingbot消耗服务器资源较多,可以控制抓取速度或频率。爬行速度是每秒钟Googlebot或Bingbot从您的网站获取内容的请求数量。对于高流量的网站,控制爬虫的爬行速度对于调整服务器资源非常重要。在Bing站长工具中了解如何更改Bingbot的抓取速度。

但是,Google会自动使用优化的抓取速度来抓取您网站的内容。您可以从您的Google搜索控制台帐户查看这些内容。如果您对当前的抓取频率不满意,请向Google提出特殊请求。新的抓取速度将在接下来的90天内有效,并在这段时间后重置为优化设置。了解为什么要控制Googlebot的抓取速度。

Googlebot和Bingbot被屏蔽会怎么样?

当你屏蔽了一个页面或网站的网址,你会在谷歌搜索控制台和必应网站管理员工具中分别看到不同类型的错误。以下是您会在搜索控制台帐户中注意到的一些常见错误:

当您使用robots.txt指令时,URL会被robots.txt阻止。

类似“提交的URL似乎是一个软404”的404错误消息。

某些爬网或页面中没有内容错误。

如果管理您网站的人错误地阻止了您网站上的页面,您可以在“覆盖范围”部分下检查Google搜索控制台错误并修复它们。

但是拦截IP或者使用的时候你可能发现不了问题。htaccess方法。简单的方法是使用Google搜索控制台中的URL检查工具、Google PageSpeed Insights或移动友好的测试工具来测试您是否可以抓取实时页面。当Googlebot被阻止访问该页面时,您将看到错误和呈现的空白页。

总结

您可以使用上述方法之一来阻止Googlebot和Bingbot爬取您的网站。但是,在阻止网站的特定页面或部分时,一定要避免出错。尤其是屏蔽IP地址是最危险的操作,会把你的网页从谷歌搜索中彻底删除。你可能要重新提交页面,等待重新索引,这可能会导致流量下降,导致收入下降。因此,如果你不确定如何屏蔽Googlebot和Bingbot,请联系你的托管公司。或者,雇佣开发人员进行定制开发工作,比如将机密内容隐藏在授权后面。

hmoban主题是根据ripro二开的主题,极致后台体验,无插件,集成会员系统
自学咖网 » 如何屏蔽Google和Bing访问你的网站?