Как закрыть доступ роботам pr-cy, semrush

russpuss russpuss   21.09.2019 09:24   419  

Здравствуйте. Подскажите может у кого-то есть готовое решение как закрыть доступ всем роботам вроде Pr-cy, semrush и ихним аналогам. Список всех роботов которым закрыть доступ в robots.txt. Чтобы не повторяли ссылочный профиль по обратным ссылкам.


Ответы на вопрос (11) Написать ответ
vklimin vklimin   21.09.2019 19:17
Может заблочить их всех по IP?
0
russpuss russpuss   21.09.2019 23:50
Не думаю что это легкий путь. Во первых Ip узнавать. А во вторых его потом сменить смогут. Проще по-моему запрет в robots.txt добавить.
0
vklimin vklimin   22.09.2019 08:13
Не закрыть через robots, они игнорируют его на ура.
Нужно комплексно подходить - вычислять IP, контролировать User-Agent и ставить ловушки.
0
russpuss russpuss   21.09.2019 23:47
да, это я знаю. Но кроме pr-cy есть ещё semrush, кроме semrush ещё штуки 3-4 знаю. Но допускаю что их больше чем 3-4 мне известных. Вот и думал, может у кого-то есть заготовка для robots.txt где список запретов для всех известных подобных роботов был.

мне кажется если бы кто то создал такой список, это было бы очень полезно для общества).
0
Roman2002 Roman2002   21.09.2019 23:18
От специализированных сервисов - никак. Если только не заблокировать их по ip, но для этого нужно их знать)
0
russpuss russpuss   21.09.2019 23:48
что Вы подразумеваете под «специализированными»? Маджестик?
0
russpuss russpuss   21.09.2019 23:52
К примеру, где то 1-2 года назад, столкнулся с таким запретом для semrush на одном из сайтов которые были мне интересны. Обычная запрещающая директива, и всё. Писал им в поддержку, там только развели руками.
0
russpuss russpuss   21.09.2019 23:55
вот кстати robots.txt с того сайта который я тогда не смог семрашем пробить 

Кстати а Pr-cy не закрыт ))

User-agent: SemrushBot
Disallow: /

User-agent: SEOkicks
Disallow: /

User-agent: facebookexternalhit
Disallow: /

User-agent: GrapeshotCrawler
Disallow: /

User-agent: dotbot
Disallow: /

User-agent: SemrushBot-SA
Disallow: /

User-agent: BegunAdvertising 
Disallow: /

User-agent: Begun 
Disallow: /

User-agent: NTENTbot 
Disallow: /

User-agent: AhrefsBot
Disallow: /

User-agent: SputnikBot 
Disallow: /

User-agent: MJ12bot 
Disallow: /

User-agent: Yahoo 
Disallow: /


User-agent: MegaIndex.ru 
Disallow: /

User-agent: BLEXBot 
Disallow: /


User-agent: BingBot 
Crawl-delay: 4
Disallow: /

User-Agent: trendictionbot 
Disallow: /
0
alexakap alexakap   22.09.2019 13:00
В роботсе блочить не очень хорошая идея, надо через htaccess
https://talk.pr-cy.ru/topic/28555-kak-blokirovat-botov-serpstat-ahrefs/
0
webchester webchester   23.09.2019 21:13
В файле .htaccess



SetEnvIfNoCase User-Agent "^MegaIndex" bad_bot
SetEnvIfNoCase User-Agent "^LinkpadBot" bad_bot
SetEnvIfNoCase User-Agent "^AhrefsBot" bad_bot
SetEnvIfNoCase User-Agent "^MJ12bot" bad_bot
SetEnvIfNoCase User-Agent "^rogerBot" bad_bot
SetEnvIfNoCase User-Agent "^bingbot" bad_bot
SetEnvIfNoCase User-Agent "^bingbot/2.0" bad_bot
SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot
SetEnvIfNoCase User-Agent "^Baiduspider/2.0" bad_bot
SetEnvIfNoCase User-Agent "^BLEXBot" bad_bot
SetEnvIfNoCase User-Agent "^proximic" bad_bot
SetEnvIfNoCase User-Agent "^GrapeshotCrawler/2.0" bad_bot
SetEnvIfNoCase User-Agent "^DotBot/1.1" bad_bot
SetEnvIfNoCase User-Agent "^coccocbot-web/1.0" bad_bot
SetEnvIfNoCase User-Agent "^Exabot/3.0" bad_bot

<Limit GET POST HEAD>Order Allow,DenyAllow from allDeny from env=bad_bot</Limit>

0

Войдите, чтобы написать ответ
Вход Регистрация

Безопасная сделка всего за 5%