阻止来自semrush.com/bot.html的海外垃圾爬虫，以防止大量抓取请求导致服务器内存和带宽资源耗尽

今天早上看了自己一个网站监控和日志，日志发现几乎全是一个SemrushBot/6~bl; +http://www.semrush.com/bot.html的垃圾蜘蛛访问的，刚开始没多想，就在防火墙把IP段屏蔽了，屏蔽后安全了半晚，早上起来服务器一样挂了。原因换其他IP了，禁止国外访问也没效果，百度了下，也知道这东西就是国外的一个垃圾蜘蛛，他不遵守robots规则的，知道攻击的方法后也就知道解决方法了。

方法一：直接在根目录下robos.txt文件里面屏蔽掉相关垃圾蜘蛛

robot.txt

新建robots.txt文件，把下面代码粘进去保存，

User-agent: SemrushBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: MauiBot
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: ExtLinksBot
Disallow: /
User-agent: hubspot
Disallow: /
User-agent: leiki
Disallow: /
User-agent: webmeup
Disallow: /

User-agent: Googlebot
Disallow: /
User-agent: googlebot-image
Disallow: /
User-agent: googlebot-mobile
Disallow: /
User-agent: yahoo-mmcrawler
Disallow: /
User-agent: yahoo-blogs/v3.9
Disallow: /
User-agent: Slurp
Disallow: /
User-agent: twiceler
Disallow: /

User-agent: AhrefsBot
Disallow: /
User-agent: psbot
Disallow: /
User-agent: YandexBot
Disallow: /

第二种方法，宝塔面板网站设置——配置文件，将需要屏蔽的蜘蛛写进配置文件代码里：

#屏蔽垃圾蜘蛛
if ($http_user_agent ~* (SemrushBot|DotBot|MJ12bot|AhrefsBot|MauiBot|MegaIndex.ru|BLEXBot|ZoominfoBot|ExtLinksBot|hubspot|leiki|webmeup)) {
return 403;
}

保存后重启Nginx生效

阻止来自semrush.com/bot.html的海外垃圾爬虫，以防止大量抓取请求导致服务器内存和带宽资源耗尽

第三种方法防火墙里加过滤规则

阻止来自semrush.com/bot.html的海外垃圾爬虫，以防止大量抓取请求导致服务器内存和带宽资源耗尽

上面说的搜索引擎爬虫能给网站带来流量，也有许多爬虫除了增加服务器负担，对网站没任何好处，应该屏蔽掉。

1、MJ12Bot

MJ12Bot是英国著名SEO公司Majestic的网络爬虫，其抓取网页给需要做SEO的人用，不会给网站带来流量。

2、AhrefsBot

AhrefsBot是知名SEO公司Ahrefs的网页爬虫。其同样抓取网页给SEO专业人士用，不会给网站带来流量。

3、SEMrushBot

SEMrushBot也是SEO、营销公司的网络爬虫。

4、DotBot

DotBot是Moz.com的网页爬虫，抓取数据用来支持Moz tools等工具。

5、MauiBot

MauiBot不同于其他爬虫，这个爬虫连网站都没有，UA只显示一个邮箱：”MauiBot(crawler.feedback+wc gm ail.com)“。神奇的是这个看起来是个人爬虫，竟然遵循robots协议，算得上垃圾爬虫的一股清流。

6、MegaIndex.ru

这是一个提供反向链接查询的网站的蜘蛛，因此它爬网站主要是分析链接，并没有什么作用。遵循robots协议。

7、BLEXBot

这个是webmeup下面的蜘蛛，作用是收集网站上面的链接，对我们来说并没有用处。遵循robots协议。

SemrushBot，这是semrush下面的一个蜘蛛，是一家做搜索引擎优化的公司，因此它抓取网页的目的就很明显了。这种蜘蛛对网站没有任何用处，好在它还遵循robots协议，因此可以直接在robots屏蔽。

DotBot,这是moz旗下的，作用是提供seo服务的蜘蛛，但是对我们并没有什么用处。好在遵循robots协议，可以使用robots屏蔽

AhrefsBot，这是ahrefs旗下的蜘蛛，作用是提供seo服务，对我们没有任何用处，遵循robots协议。

MJ12bot，这是英国的一个搜索引擎蜘蛛，但是对中文站站点就没有用处了，遵循robots协议。

MauiBot，这个不太清楚是什么，但是有时候很疯狂，好在遵循robots协议。

MegaIndex.ru，这是一个提供反向链接查询的网站的蜘蛛，因此它爬网站主要是分析链接，并没有什么作用。遵循robots协议。

BLEXBot,这个是webmeup下面的蜘蛛，作用是收集网站上面的链接，对我们来说并没有用处。遵循robots协议

等等……………

原创文章，作者：商名网，如若转载，请注明出处：https://news.35dns.com/96.html

阻止来自semrush.com/bot.html的海外垃圾爬虫，以防止大量抓取请求导致服务器内存和带宽资源耗尽

相关推荐

Nginx配置文件详解及常用功能配置(实用率90%)

增强WordPress安全性的Nginx配置规则

WordPress”更新失败，此响应不是合法的JSON响应”的解决