阻止来自semrush.com/bot.html的海外垃圾爬虫,以防止大量抓取请求导致服务器内存和带宽资源耗尽

今天早上看了自己一个网站监控和日志,日志发现几乎全是一个SemrushBot/6~bl; +http://www.semrush.com/bot.html的垃圾蜘蛛访问的,刚开始没多想,就在防火墙把IP段屏蔽了,屏蔽后安全了半晚,早上起来服务器一样挂了。原因换其他IP了,禁止国外访问也没效果,百度了下,也知道这东西就是国外的一个垃圾蜘蛛,他不遵守robots规则的,知道攻击的方法后也就知道解决方法了。

方法一:直接在根目录下robos.txt文件里面屏蔽掉相关垃圾蜘蛛

robot.txt

 

新建robots.txt文件,把下面代码粘进去保存,

User-agent: SemrushBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: MauiBot
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: ExtLinksBot
Disallow: /
User-agent: hubspot
Disallow: /
User-agent: leiki
Disallow: /
User-agent: webmeup
Disallow: /

User-agent: Googlebot
Disallow: /
User-agent: googlebot-image
Disallow: /
User-agent: googlebot-mobile
Disallow: /
User-agent: yahoo-mmcrawler
Disallow: /
User-agent: yahoo-blogs/v3.9
Disallow: /
User-agent: Slurp
Disallow: /
User-agent: twiceler
Disallow: /

User-agent: AhrefsBot
Disallow: /
User-agent: psbot
Disallow: /
User-agent: YandexBot
Disallow: /

第二种方法,宝塔面板网站设置——配置文件,将需要屏蔽的蜘蛛写进配置文件代码里:

#屏蔽垃圾蜘蛛
if ($http_user_agent ~* (SemrushBot|DotBot|MJ12bot|AhrefsBot|MauiBot|MegaIndex.ru|BLEXBot|ZoominfoBot|ExtLinksBot|hubspot|leiki|webmeup)) {
return 403;
}

保存后重启Nginx生效

阻止来自semrush.com/bot.html的海外垃圾爬虫,以防止大量抓取请求导致服务器内存和带宽资源耗尽

 

第三种方法防火墙里加过滤规则

阻止来自semrush.com/bot.html的海外垃圾爬虫,以防止大量抓取请求导致服务器内存和带宽资源耗尽

 

上面说的搜索引擎爬虫能给网站带来流量,也有许多爬虫除了增加服务器负担,对网站没任何好处,应该屏蔽掉。

1、MJ12Bot

MJ12Bot是英国著名SEO公司Majestic的网络爬虫,其抓取网页给需要做SEO的人用,不会给网站带来流量。

2、AhrefsBot

AhrefsBot是知名SEO公司Ahrefs的网页爬虫。其同样抓取网页给SEO专业人士用,不会给网站带来流量。

3、SEMrushBot

SEMrushBot也是SEO、营销公司的网络爬虫。

4、DotBot

DotBot是Moz.com的网页爬虫,抓取数据用来支持Moz tools等工具。

5、MauiBot

MauiBot不同于其他爬虫,这个爬虫连网站都没有,UA只显示一个邮箱:”MauiBot(crawler.feedback+wc gm ail.com)“。神奇的是这个看起来是个人爬虫,竟然遵循robots协议,算得上垃圾爬虫的一股清流。

6、MegaIndex.ru

这是一个提供反向链接查询的网站的蜘蛛,因此它爬网站主要是分析链接,并没有什么作用。遵循robots协议。

7、BLEXBot

这个是webmeup下面的蜘蛛,作用是收集网站上面的链接,对我们来说并没有用处。遵循robots协议。

SemrushBot,这是semrush下面的一个蜘蛛,是一家做搜索引擎优化的公司,因此它抓取网页的目的就很明显了。这种蜘蛛对网站没有任何用处,好在它还遵循robots协议,因此可以直接在robots屏蔽。

DotBot,这是moz旗下的,作用是提供seo服务的蜘蛛,但是对我们并没有什么用处。好在遵循robots协议,可以使用robots屏蔽

AhrefsBot,这是ahrefs旗下的蜘蛛,作用是提供seo服务,对我们没有任何用处,遵循robots协议。

MJ12bot,这是英国的一个搜索引擎蜘蛛,但是对中文站站点就没有用处了,遵循robots协议。

MauiBot,这个不太清楚是什么,但是有时候很疯狂,好在遵循robots协议。

MegaIndex.ru,这是一个提供反向链接查询的网站的蜘蛛,因此它爬网站主要是分析链接,并没有什么作用。遵循robots协议。

BLEXBot,这个是webmeup下面的蜘蛛,作用是收集网站上面的链接,对我们来说并没有用处。遵循robots协议

等等……………

 

原创文章,作者:商名网,如若转载,请注明出处:https://news.35dns.com/96.html

(0)
上一篇 2024年11月9日
下一篇 2024年11月6日

相关推荐

分享本页
返回顶部