如何防止别人收集和抓取你的WordPress内容

你正在寻找一种方法来防止垃圾邮件发送者和骗子使用内容抓取工具来收集你的WordPress博客内容吗?

作为一个网站所有者,看到有人未经许可收集你的内容,从中获利,并在谷歌等搜索引擎上排名在你之上,这是非常令人沮丧的。

在本教程中,我们将介绍什么是博客内容收集,如何减少和防止内容收集,甚至如何使用内容抓取对您有利。

自学咖网努力为各位打造免费分享知识与教程网站

什么是博客内容抓取?

博客收集和抓取是指从许多来源获得的内容,并在另一个网站上重新发布。这通常是通过你博客的RSS源自动完成的。

抓取内容现在非常容易。任何人都可以启动WordPress网站,放置免费或商业主题,并安装一些插件,从选定的博客中收集内容。

为什么内容抓取器收集我的内容?

我们的一些用户问我们为什么要收集我的内容?答案很简单,因为你很棒。事实是,这些内容抓取者别有用心。以下是一些为什么有人会收集你的内容的原因:

代销商佣金——有些肮脏的代销商只想利用这个系统赚点外快。他们会使用你的内容和其他人的内容,通过搜索引擎为他们的网站带来流量。这些网站通常针对特定的利基市场,因此它们有相关的产品正在推广。

潜在客户——我们经常看到律师和房地产经纪人这样做。他们希望在自己的小社区里看起来像行业领袖。他们没有足够的带宽来制作高质量的内容,所以他们出去从其他来源抓取内容。有时,他们甚至没有意识到这一点,因为他们每月支付30美元来添加内容,并帮助他们获得更好的SEO。我们过去遇到过许多这样的情况。

广告收入——有些人只是想创建一个知识“中心”。为特定领域的用户提供一站式服务。我们经常注意到我们的网站内容正在被抓取。Scraper总是回答说我这么做是为了社区的利益。除了网站上全是广告。

这些只是一些为什么有人会收集你的内容的原因。

如何捕捉内容爬虫?

捕获内容抓取工具是一项繁琐的任务,可能会占用大量时间。有几种方法可以捕捉内容抓取器。

用你的文章标题在谷歌搜索。

是的,听起来很痛苦。这种方法可能不值得,尤其是如果你在写一个非常热门的话题。

引用

如果你给文章添加内部链接,如果网站收集了你的内容,你会注意到引用。这种方式几乎是在告诉你,他们在抓取你的内容。

如果你使用Akismet,那么这些引用中的许多将显示在垃圾邮件评论文件夹中。同样,这只有在你的文章中有内部链接时才有效。

Ahrefs

如果你能使用像Ahrefs这样的搜索引擎优化工具,你就能监控你的反向链接,并提防被盗的内容。

如何应对内容抓取工具

人们在处理内容收集工具时使用的方法很少:什么都不做,删除或使用它们。

让我们来看看每一个。

无为之道。

这是迄今为止你能采取的最简单的方法。通常最受欢迎的博主都推荐这样做,因为这需要花费大量时间来对抗爬虫。

现在很明显,如果是Smashing Magazine、CSS-Tricks、Problogger等知名博客。,那他们就不用担心了。他们是谷歌眼中的权威网站。

但是,我们知道,一些好的网站都标注为收藏工具,因为谷歌认为他们的收藏工具是原创内容。因此,在我们看来,这种方法并不总是最好的。

采取措施

这与“什么都不做”的方法相反。在这种方法中,你只需要联系抓取工具,要求他们删除内容。

如果他们拒绝这样做或者根本不回复你的请求,那么你可以向他们的主机提交DMCA(数字千年版权法案)。

根据我们的经验,大多数抓取网站都没有可用的联系方式。如果他们这样做,那就使用它。如果他们没有联系方式,那么你需要进行Whois查询。

自学咖网努力为各位打造免费分享知识与教程网站

您可以在管理联系人上看到联系信息。通常行政和技术联系是相同的。

它还会显示域名注册商。大多数知名的虚拟主机公司和域名注册公司都有DMCA表格或电子邮件。您可以看到,这个特定的人使用HostGator是因为他们的域名服务器。HostGator有一份DMCA投诉表。

如果名称服务器类似于ns1.theirdomain.com,您必须通过反向IP查找和IP搜索进行深入挖掘。

您也可以使用DMCA.com的第三方服务来删除它。

杰夫·斯塔尔在文章中建议,你应该屏蔽坏人的IP。访问您的日志以获取其IP地址,然后在您的根目录中使用以下内容阻止它。htaccess文件:

Deny from 123.456.789

您还可以通过执行以下操作将它们重定向到虚拟提要:

RewriteCond %{REMOTE_ADDR} 123.456.789.RewriteRule .* http://dummyfeed.com/feed [R,L]

正如杰夫建议的,你可以在这里得到真正的想法。将它们发送到包含Lorem Ipsum的非常大的文本提要。可以给他们发一些恶心的烂图。你也可以直接把他们送回他们自己的服务器,导致无限循环,这将使他们的网站崩溃。

我们采取的最后一种方法是利用它们。

如何使用内容抓取工具

我们就是这样处理内容抓取工具的,效果非常好。这有助于我们的SEO,帮助我们赚取额外收入。

大多数爬虫使用你的RSS源来收集你的内容。所以这些是你可以做的事情:

内部链接——你需要链接很多你的博客文章。当你的文章中有内部链接时,可以帮助你增加浏览量,降低自己网站的跳出率。其次,它可以从收集你的内容的人那里获得反向链接。最后,它允许你收集他们的观众。如果你是一个有才华的博主,那么你会知道内部链接的艺术。你必须把链接放在有趣的关键词上。让用户很容易点击它。如果你这样做了,那么《刮痧》的受众也会点击它。就像那样,你从他们的网站上带走一个访问者,然后把他们带回到他们应该去的地方。

使用附属链接自动链接关键词–很少有像ThirstyAffiliates这样的插件会自动用附属链接替换指定的关键词,

利用RSS页脚发挥创意——您可以使用一体化SEO插件将自定义项目添加到您的RSS页脚。你可以在这里添加任何你想要的东西。我们知道有些人喜欢向他们的RSS阅读器推广自己的产品。所以他们会加横幅。你猜怎么着,现在这些条幅也会出现在这些刮刀的网站上。在我们的例子中,我们总是在RSS提要的文章底部添加一个小小的免责声明。通过这样做,我们从“他们的”网站上获得原始文章的反向链接,让谷歌和其他搜索引擎知道我们是权威的。这也让他们的用户知道网站正在收集我们的内容。

查看我们的指南,学习如何在WordPress中控制你的RSS Feed的页脚,获得更多的技巧和想法。

如何减少和防止WordPress博客抓取

考虑到如果你采用我们的许多内部链接方法,添加附属链接,RSS横幅等。,你就有可能减少内容抓取到一个很好的程度。如果你采纳杰夫·斯塔尔关于重定向内容爬虫的建议,也会屏蔽这些爬虫。除了我们上面分享的,你还可以用一些其他的技巧。

完整和摘要RSS源

博客一直在争论到底是有完整的RSS提要还是有摘要的RSS提要。我们不会详细讨论这个争论,但是拥有一个只包含摘要的RSS提要的好处之一是可以防止内容抓取。

你可以通过进入WordPress管理后台和设置阅读来改变设置。然后更改设置,以包含提要中每篇文章的全文或摘要。

引用垃圾评论

Trackbacks和Pingbacks肯定大有用武之地,但是现在经常被滥用。

主题通常在下方或评论中显示引用和pingback。这给了垃圾邮件发送者抓取你的网站并发送参考的动机。如果你错误地批准了它,那么他们会得到一个反向链接,并从你的网站上提到它。当然,你可以在所有文章中禁用引用。

收集的内容是否有效?

这是可能的。如果你看到大量的流量从爬虫网站,那么它可以。

然而,在大多数情况下,事实并非如此。你应该总是试着删除你的内容。但是你会意识到,随着你的博客越来越大,跟踪所有的内容爬虫几乎是不可能的。国外网站博主会发出DMCA的抱怨,但一般来说,大多数博主都知道还有很多其他网站在收集他们的内容,只是没有时间去顾及而已。

我们希望这个教程可以帮助你防止WordPress的内容被收集和抓取。你可能也想知道如何通过蜘蛛统计分析插件实现WordPress图片的链盗,拦截不需要的爬虫。

hmoban主题是根据ripro二开的主题,极致后台体验,无插件,集成会员系统
自学咖网 » 如何防止别人收集和抓取你的WordPress内容