seekport crawler что это

08.08.202303.07.2023 admin 0 Comments

Как заблокировать Semrush и других ботов на сайте

Почти каждый владелец сайта сталкивается с активностью ботов на своем сайте. Активность ботов известных поисковых систем обычно не создает существенной нагрузки и не сильно влияет на скорость работы сайта.

Однако есть и другие боты, например DotBot или Semrush. Наши клиенты сталкивались с тем, что эти боты отправляли настолько много запросов на сайт, что это было подобно эффекту небольшой DDoS-атаки. Это приводило к большой нагрузке на сайт и сервер, и недоступности сайта для других посетителей.

Мы расскажем, как заблокировать DotBot, Semrush и других ботов.

Блокировка ботов на хостинге и VDS

Вот как это можно сделать на хостинге NetAngels:

Как заблокировать ботов, если ваш сайт на VDS

На VDS в качестве вебсервера часто используются:

Блокировка через nginx

Мы предполагаем, что у вас есть доступ root на VDS сервер. Зайдите через SSH на сервер от имени пользователя root. Можно подключиться через SSH по нашей статье.

Если вы не уверены какой вебсервер используется на VDS, то выполните команду

Если результат будет такой:

То выполните инструкции для htaccess.

Если же команда вернула

То перейдите в каталог с конфигурацией nginx:

Создайте файл, в котором будут правила блокировки

Вставьте в этот файл текст:

Сохраните изменения нажав F2, затем Enter.

Перейдите в каталог с сайтами

Просмотрите содержимое каталога

Определите сайты, где вы хотите заблокировать ботов.

Например, если нужно заблокировать ботов на сайте vm-79395343.na4u.ru :

То отредактируйте файл с его конфигурацией:

В блок server добавьте строку

На нашем сервере конфигурация стала выглядеть вот так:

Сохраните изменения нажав F2, затем Enter.

Если тестирование прошло успешно, то перезапустите веб-сервер для применения изменений:

Проверьте, что все в порядке после перезапуска:

Проверка показывает, что если представляться ботом SemrushBot, то запрос блокируется:

Источник

Список полезных и вредных ботов и краулеров

В этой статье буду рассказывать о ботах, полезных и вредных, чтобы было известно, каких ботов можно блокировать, а какие не стоит. Также в отдельной статье рассказываю о том, как нужно блокировать вредоносных ботов, чтобы снизить нагрузку на сайт.

Иногда буду копаться по логам и искать новых. Здесь только те, что попались на моих сайтах.

Полезные боты и краулеры

В этом списке будут полезные боты и краулеры, а также информация о них, рекомендую ознакомиться, прежде чем блокировать их. Также можете посмотреть информацию. Полезный бот или краулер для одних людей, может быть бесполезен для других.

GrapeshotCrawler/2.0

Oracle Data Cloud Crawler — это автоматизированный краулер от компании Oracle. Нужен для анализа содержимого страниц для рекламодателей. Используется во многих системах назначения ставок в режиме реального времени (RTB ), применяется также и в Adsence, так что блокировка данного бота может плохо сказаться на ваших доходах с рекламы.

Идентифицирует себя так: (compatible; GrapeshotCrawler/2.0; +http://www.grapeshot.co.uk/crawler.php).

Диапазон IP- адресов GrapeshotCrawler/2.0:

от 148.64.56.64 до 148.64.56.80

от 148.64.56.112 до 148.64.56.128

Без необходимости блокировать не рекомендуется, но если у вас нет контекстной рекламы на сайте, то можно избавиться от данного краулера.

Googlebot/2.1 (Робот Googlebot)

Поисковый робот компании Google, выполняет обход и индексирование страниц сайтов. Блокировать нельзя, так как это может плохо сказаться на позициях в поисковой системе Google.

Идентифицирует себя так: (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Если данный робот даёт слишком серьёзную нагрузку на сервер, можете снизить частоту сканирования (https://support.google.com/webmasters/answer/48620).

YandexTurbo/1.0

Краулер для страниц Яндекс Турбо, на сайте появляется только в том случае, если к нему подключены Турбо-страницы. Обходит RSS- фид для Турбо-страниц.

Идентифицирует себя так: (compatible; YandexTurbo/1.0; +http://yandex.com/bots).

Блокировать YandexTurbo/1.0 не рекомендуется, так как это может блокировать отображение Турбо-страниц в Яндекс.

YandexBot/3.0

Поисковой краулер Яндекс, по совместительству основной индексирующий робот. Совершает обход страниц, а также сбор данных, содержащихся на ней. Блокировать не рекомендуется, так как это может негативно сказаться на позициях сайта в поисковой системе Яндекс.

Идентифицирует себя так: (compatible; YandexBot/3.0; +http://yandex.com/bots).

Если данный краулер создаёт слишком сильную нагрузку на сервер, можно ограничить скорость обхода им в настройках Яндекс Вебмастер.

YandexAccessibilityBot/3.0

Проверяет доступность страниц для пользователей, для этого их скачивает. Блокировать не рекомендуется, так как это может плохо сказаться на позициях в ПС Яндекс. Настройки скорости обхода в Яндекс Вебмастер игнорирует.

YandexMetrika/2.0 и YandexMetrika/3.0, YandexMetrika/4.0

Роботы Яндекс Метрики, появляются на сайте только при подключении оной. YandexMetrika/4.0 скачивает стили для Яндекс Метрики для того, чтобы правильно их отображать в Вебвизоре.

YandexPartner/3.0

Скачивает информацию о страницах сайтов, подключённых к Партнёрской сети Яндекс, анализирует на соответствие рекламы и контента, также следит за политикой назначения ставок на конкретных страницах.

ias-va/3.1, ias-jp/3.1

Поисковой краулер ias-va, а также ias-jp/3.1 от компании ADmantX, используется в партнёрской сети AdSense, соответственно, его нельзя блокировать, если используете AdSense на своём сайте. Данный краулер собирает данные о семантике сайта.

Идентифицируются так: ias-va/3.1 (+https://www.admantx.com/service-fetcher.html).

Bingbot

И дентифицирует себя так: (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm).

newspaper/0.2.8

Судя по IP, относится к GoogleUserContent, вполне возможно, занимается сбором контента для рекомендательных систем Google и GoogleNews. Лучше не блокировать.

Mail.RU_Bot/2.0, Mail.RU_Bot/Img/2.0

Индексирующий краулер компании Mail.ru, соответственно, Mail.RU_Bot/2.0 является поисковым краулером, который обходит страницы сайта и добавляет их в индекс поисковой системы.

Mail.RU_Bot/Img/2.0 — бот, который делает обход по изображениям. Оттуда я ещё ни разу не видел трафика на сайте, но всё же лучше не блокировать, особенно если сайт специализируется на медиаконтенте.

vkShare

Бот, который приходит на сайт, если посетитель расшаривает страницу какого-либо сайта в социальную сеть Вконтакте через виджет. Берёт такие данные, как фавиконка сайта, изображение расшариваемой страницы, а также данные, вроде анонса, заголовка.

Идентифицирует себя так: (compatible; vkShare; +http://vk.com/dev/Share).

Если vkShare заблокировать, то расшаривание страниц во Вконтакте не будет корректно работать.

facebookexternalhit/1.1 Facebot Twitterbot/1.0

Краулеры Facebook и Twitter, что, впрочем, ясно из названия, собираю данные ваших расширенных описаний, а также данные со страниц для отображения оных. Есть подозрения, что также проверяет контент на соответствие «Нормам сообществ», но это не точно.

Если необходимое правильное отображение страниц при расшаривании в данные социальные сети, лучше не блокировать.

Mediapartners-Google

Бот, проверяющий сайты-партнёры в Google Adsense. Требуется для правильной обработки контекстной рекламы. Если являетесь партнёром Adsense, блокировать нельзя, так как сие действие может сократить доходы с рекламы.

FeedBurner/1.0

Инструмент Google. Считывает RSS- лент. Для каких целей до конца неясно. Идентифицирует себя так: FeedBurner/1.0 (http://www.FeedBurner.com). Блокировать, конечно, не рекомендуется, но если создаёт сильную нагрузку, то можно.

Плохие боты и краулеры

В этой части будут рассмотрены плохие боты, которые следует заблокировать, чтобы снизить нагрузку на сервер сайта. Но тоже смотрите внимательно, так как некоторые плохие боты могут оказаться полезными конкретно для вашего сайта.

DotBot

Бот компании Moz, собирает статистику о сайтах для коммерческой продажи для клиентов сервиса Moz, данный бот может быть полезен только для тех сайтов, которые работают с Moz по API, в противном случае это лишняя нагрузка на сайты.

Идентифицирует себя так: (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com).

BLEXBot

Собирает SEO- данные о сайте для коммерческой продажи клиентам. Создаёт лишнюю нагрузку, а также делает данные о сайте прозрачными для конкурентов. Рекомендуется блокировать.

Идентифицирует себя так: (compatible; BLEXBot/1.0;).

AhrefsBot

Бот компании Ahfers, занимающейся SEO- аналитикой, собирает данные о вашем сайте (SEO, линкбилдинг, трафик), а потом продаёт её клиентам. Лучше блокировать, так как эти данные могут быть полезными для ваших конкурентов.

Идентифицирует себя так: (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/).

MBCrawler

MBCrawler/1.0 разработан MonitorBacklinks, занимается анализом обратных ссылок и создаёт серьёзную нагрузку на сайты. Очень активен, рекомендуется блокировать, так как может получить много информации об обратных ссылках с вашего сайта. Идентифицирует себя так: (MBCrawler/1.0 (https://monitorbacklinks.com/robot). Лучше блокировать.

YaK/1.0

Это бот компании LinkFluence. Собирает данные о сайтах для дальнейшего коммерческого использования. Соответственно, может быть использован конкурентами против вас. Рекомендуется блокировать.

Идентифицирует себя так: (compatible; YaK/1.0; http://linkfluence.com/; bot@linkfluence.com).

niraiya.com/2.0 (Stolen Passwords Checker Bot)

Бот для проверки украденных паролей от компании Nirariya, компания занимается продажей менеджера паролей. Скорее всего, проверяю сайт на утечки паролей, но бот создаёт лишнюю нагрузку. Лучше блокировать.

Идентифицирует себя так: (compatible; niraiya.com/2.0;)

MegaIndex.ru/2.0

Бот Megaindex.ru, собирает данные о вашем сайте, SEO, обратных ссылках, потом предоставляет эту информацию на коммерческой основе. Бот можно расценить как вредоносный, если не используете его для аналитики собственного сайта. Также делает прозрачным данные о вашем сайте для конкурентов.

Идентифицирует себя так: (compatible; MegaIndex.ru/2.0; +http://megaindex.com/crawler).

MJ12bot

Очередной бот SEO- аналитики, если начал появляться на сайте, то будет его серьёзно грузить. Блокировать MJ12bot следует обязательно. Это бот компании Majestic, впрочем, если работаете на сервисах, связанных с Majestic, то не стоит его блокировать, например, если работаете на биржах ссылок вроде Majestic или Miralinks, то там очень важны показатели Majestic.

SemrushBot

SemrushBot от SEO- сервиса Semrush, периодически создаёт серьёзную нагрузку на сайт, обходя его снова и снова. Данные, которые собирает данный бот, нужны для того, чтобы продавать их на коммерческой основе.

Соответственно, информация, собранная данным ботом, будет доступна конкурентам, что может не пойти вам на пользу.

Cloudfind

Бот от одноимённой компании, ищет парнёров для аффилирования для партнёрского маркетинга. Чаще гуляет по зарубежным площадкам, но периодически появляется и в ру-сегменте.

CriteoBot/0.1

Краулер компании Criteo. По идее должен проверять страницу на соответствие контента маркетинговым целям. Например, анализировать статью по содержанию, а потом отнести к определённой категории.

Идентифицирует себя так: CriteoBot/0.1 (+https://www.criteo.com/criteo-crawler/).

Относится ли к каким-либо партнёрским сетям вроде Adsense или РСЯ не удалось, информации о том, где используется данный краулер, тоже найти не удалось, так что решил CriteoBot/0.1 блокировать.

GetIntent Crawler

Краулер от компании GetIntent. Собирает данные о сайтах для маркетинговых целей, например, для анализа перспектив размещения контекстной рекламы. С какими рекламными платформами сотрудничает, неизвестно, информации о том, работает данный краулер с AdSense или РСЯ найти не удалось, так что решил его заблокировать.

SafeDNSBot

Бот от компании SafeDNS, компания позиционирует себя как средство защиты от вредоносных сайтов и периодически проверяет сайты на безопасность. Нагрузку на сайт создаёт небольшую, так что можно и не блокировать.

SeopultContentAnalyzer/1.0

Бот компании PromoPult (бывш. SeoPult ), собирает SEO- данные сайта вроде обратных ссылок, ключевых слов сайта и т. п. Соответственно, собранные данные будут анализировать и предоставляться вашим конкурентам на коммерческой основе. Бота SeopultContentAnalyzer/1.0 рекомендуется блокировать.

serpstatbot/2.0

Бот от известной платформы Serpstat. Постоянно анализирует сайты на наличие обратных ссылок. Полученную информацию использует в коммерческих целях, предоставляя её в рамках своего сервиса. Соответственно, помимо дополнительной нагрузки на сервер, предоставляет больше информации о вашем сайте конкурентам. Рекомендуется блокировать.

LinkpadBot

Бот сервиса LinkPad. LinkpadBot собирает информацию о ссылочном профиле вашего сайта для коммерческого использования, соответственно, ваши конкуренты могут получить данные о ссылках, которые вы размещаете на сайте, а также будут дискредитированы сетки сайтов-сателлитов. Лучше данного бота блокировать.

Slurp

Поисковой краулер Yahoo! За особым беспределом не замечен, но в СНГ с него трафика практически нет, соответственно, особой пользы от Slurp Bot не будет. Лучше заблокировать, ибо иногда начинает активно обходить сайты.

Если сайт ориентирован на зарубежную аудиторию, лучше оставить.

DataForSeoBot/1.0

Бот сервиса DataForSeo, занимается проверкой обратных ссылок и анализом сайта для дальнейшего использования в коммерческих целях, например, для предоставления SEO- данных вашего сайта конкурентам.

Пользы от DataForSeoBot/1.0 нет, лучше блокировать.

Rome Client (http://tinyurl.com/64t5n)

Неизвестно, что за краулер этот Rome Client, толком и не нашёл о нём информации. Судя по IP, запросы идут с сервиса Amazon AWS. Ориентируется именно на Feed сайта, вполне возможно, что выгружает его для своих целей. Так как неизвестно, что это за бот и какие цели преследует, лучше его блокировать.

Scrapy

Бот Scrapy разработан для того, чтобы обходить сайты с открытым исходным кодом и вытаскивать с них данные. Зачем? Цели могут быть разные, как хорошие, так и плохие. В общем, данного бота лучше блокировать.

FlipboardRSS

Бот платформы Flipboard, берёт вашу RSS- ленту для публикации. В целом не вредоносный, даже необходимый, если вы публикуете свои материалы на Flipboard, проблем в том, что вашу RSS- ленту на данном сервисе может опубликовать кто угодно. Вы не получите оттуда трафика, зато получите периодический обход ботом.

FlipboardProxy

Тоже от FlipBoard, фактически проверяет ваш сайт, а также анализирует, как он выглядит. Нужен для отображения материалов на Flipboard. Если трафика с этого сервиса нет, можно бота блокировать.

Proximic Bot

Иногда в логе можно видеть этого бота, идентифицирует себя так: (compatible; proximic; +https://www.comscore.com/Web-Crawler).

Занимается сопоставлением соответствия контента и контекстной рекламы. Работает ли с AdSense или РСЯ неизвестно, соответственно, не могу отнести его к полезным, вполне возможно, что этот бот просто собирает информацию для проектов и «тренируется» на сторонних сайтах, чтобы точнее определять тематику данных на разных языках.

ZoominfoBot

Единственные данные в строке идентификации: (zoominfobot at zoominfo dot com). Собирает только деловую информацию с сайта, как правило, вытягивает весь фид сайта. Для русскоязычной аудитории практически бесполезен.

Информацию собирает в коммерческих целях, для агрегации и предоставления своим пользователям на коммерческой основе. Лучше блокировать.

SeznamBot/3.2

Краулер чешской поисковой системы Seznam. Если у вас сайт не на чешском языке, толку, скорее всего, от него никакого. Да и посетителей на этом «поисковике» нет. В общем, за всю жизнь моего сайта не видел оттуда ни одного посетителя, соответственно, считаю этот бот вредным и рекомендую его блокировать.

Seekport Crawler

Краулер очередного «недопоиска». Трафика с него не видно, перспектив у данной поисковой системы тоже нет, информации о ней практически никакой.

Идентифицирует себя так: (compatible; Seekport Crawler; http://seekport.com/).

Думаю, мало смысла пускать их краулер к себе на сайт, перспектив мало, особенно для СНГ.

Источник

5 способов краулинга веб-сайта

Из Википедии веб-краулер или паук – бот, который с просматривает всемирную паутину, как правило, с целью индексации. Поисковики и другие веб-сайты используют краулеры для обновления своего содержимого или индексации содержимого других сайтов.

Metasploit

Вспомогательный поисковый модуль Metasploit представляет собой модульный поисковый робот, который будет использоваться вместе с wmap или автономно.

Видно, что был запущен сканер, с помощью которого можно найти скрытые файлы на любом веб-сайте, например:

Что невозможно сделать вручную при помощи браузера.

Httrack

HTTrack — это бесплатный краулер и автономный браузер с открытым исходным кодом. Он позволяет полностью скачать веб-сайт, рекурсивно строя все каталоги
получая:

HTTrack упорядочивает относительную структуру ссылок исходного сайта.

Введем следующую команду внутри терминала

Он сохранит вывод в заданном каталоге /root/Desktop/file

На скриншоте можно увидеть, что Httrack скачал немало информации о веб-сайте, среди которой много:

Black Widow

Представляет собой загрузчик веб-сайтов и офлайн браузер. Обнаруживает и отображает подробную информацию для выбранной пользователем веб-страницы. Понятный интерфейс BlackWidow с логическими вкладками достаточно прост, но обилие скрытых возможностей может удивить даже опытных пользователей. Просто введите желаемый URL и нажмите Go. BlackWidow использует многопоточность для быстрой загрузки всех файлов и проверки ссылок. Для небольших веб-сайтов операция занимает всего несколько минут.

Введем свой URL http://tptl.in в поле адрес и нажмем «Go».

Нажимаем кнопку «Start», расположенную слева, чтобы начать сканирование URL-адресов, а также выбираем папку для сохранения выходного файла. На скриншоте видно, что просматривался каталог C:\Users\RAJ\Desktop\tptl, чтобы сохранить в нем выходной файл.

В каталоге tptl теперь будут храниться все данные веб-сайта:

Website Ripper Copier

Website Ripper Copier (WRC) — это универсальная высокоскоростная программа-загрузчик веб-сайтов. WRC может загружать файлы веб-сайтов на локальный диск для просмотра в автономном режиме, извлекать файлы веб-сайтов определенного размера и типа, такие как:

Также WRC может извлекать большое количество файлов в качестве диспетчера загрузки с поддержкой возобновления.

Вдобавок WRC является средством проверки ссылок на сайты, проводником и веб-браузером с вкладками, предотвращающим всплывающие окна. Website Ripper Copier — единственный инструмент для загрузки веб-сайтов, который может:

Выбираем «websites for offline browsing».

Вводим URL-адрес веб-сайта как http://tptl.in и нажимаем «next».

Указываем путь к каталогу, чтобы сохранить результат, после чего жмём «run now».

При открытии выбранного каталога tp, внутри него будут файлы:

Burp Suite Spider

Burp Suite Spider – это инструмент для автоматического сканирования веб-приложений, более подробно о котором уже писали на habr. В большинстве случаев желательно отображать приложения вручную, но с помощью Burp Spider данный процесс можно автоматизировать, что упростит работу с очень большими приложениями или при нехватке времени.

На скриншоте видно, что http-запрос был отправлен «пауку» с помощью контекстного меню.

Веб-сайт был добавлен на карту сайта под целевой вкладкой в качестве новой области для веб-сканирования, в результате которого была собрана информация в форме:

Источник

Как блокировать ботов и краулеров на сайте

Здравствуйте, дамы и господа, в этой статье хочу рассказать о том, как я блокирую вредных ботов, например, ботов ahfers, Semrush, PetalBot, Majestic, Megaindex и многих других. В целом, боты, которые активно копаются по сайту, создают очень много проблем. И на определённом этапе начинают съедать огромное количество ресурсов сервера, на котором расположен ваш сайт.

Ботов необходимо блокировать

Мало того что боты создают дополнительную колоссальную нагрузку на сервер, что выльется в оплату дополнительных ресурсов для оного. Ну или в более дорогой тариф для хостинга.

В общем, благодаря информации, которую собирают данные сервисы, ваш сайт у конкурентов как на ладони. Так что ботов нужно блокировать, особенно если у вас коммерческий проект.

Но просто знайте, что чем старше ваш сайт и заметнее в сети, тем больше ботов на него будет приходить. Сначала их численность будет незначительной, а создаваемая нагрузка не будет представлять собой проблему.

Со временем ботов станет очень много, ресурсов хостинга или сервера не будет хватать. Банально, на моём сайте возникла такая ситуация. Мне даже пришлось перевести сайт на другой хостинг, чтобы хватало ресурсов, но и там ресурсов хватало почти вплотную.

Нагрузка на сервер упала очень даже заметно. Конечно, 20-30% — разница не самая большая, но чем крупнее сайт, тем больше ботов на нём будет, соответственно, эти 20-30% разницы превратятся в переплаты за хостинг или VPS.

Конечно, результат может показаться не самым впечатляющим, но оно того стоило. Теперь мне не нужно докупать дополнительные CP или переходить на тариф подороже, соответственно, простой блок ботов позволяет сэкономить деньги.

Вам рекомендую сделать то же самое.

Как блокировать плохих ботов

Разделим ботов на две части:

Полезные. Боты поисковых систем и их сервисов. Например, YandexBot, GoogleImage. Их блокировать нельзя, это плохо скажется на ваших позициях в поисковых системах.

Плохие боты. Разные сервисы вроде SemRush, Ahfers, Megaindex и т. п. В общем, именно их будем отрезать.

После блокировки всевозможных плохих ботов у вас значительно упадёт нагрузка на сервер. Если от вашего хостера приходят уведомления, что превышен лимит процесс о рного времени ( CP ), то самое время отрезать часть плохих ботов. Какие ро боты и краулеры конкретно увеличивают нагрузку, можете увидеть в логах.

Найти логи мож но на сервере, как правило, логи посещений пишутся в отдельные журналы. Например, в Fozzy их можно увидеть в разделе «Статистика» в панели DirectAdmin, на Бегет придётся отдельно включить «Журналы доступа» в панели управления хостингом. В общем, если сами не знаете, как это сделать, задайте вопрос вашему хостеру, они с этим помогут.

После вы увидите примерно такую картину, где в логах будут записаны куча User-Agent, разнообразных IP, а также время посещения.

Бездумно блокировать всё подряд не рекомендую. Нужно вычленить именно бота, если блокировать всех «юзер-агентов», то заблокируете и реальных посетителей.

Многие боты себя идентифицируют. Таких отсечь легче всего.

Некоторые боты себя не идентифицируют или даже маскируются под краулеры. Их отсекать можно по IP- адресам, но это практически бесполезно, так как у вредоносных роботов IP- адреса постоянно меняются.

Также можно настроить фильтрацию посредством обратных DNS- запросов, но это задача непростая, так что в этой статье ограничимся разбором блокировки идентифицируемых ботов, а также наиболее «наглых» IP- адресов.

Этот вариант самый лучший, так как боты и краулеры частенько игнорируют директивы из robots.txt. Есть вариант блокировать с помощью команды SetEnvIfNoCase User-Agent или через ReveriteCond. Первый способ получше. Ну, лично для меня.

В данном списке я собрал именно тех ботов, которых выловил на своём сайте. И блокировка сработала. В логах вы увидите, что ботам выдаётся ответ сервера 403, соответственно, нагрузка на ваш сайт снизится.

Учтите, на многих сайтах есть аналогичные списки для блокировки ботов и краулеров. Рекомендую их бездумно не копировать, подобные директивы часто сделаны людьми из-за рубежа, соответственно, там бездумно блокируют краулеры Яндекс и Mail.ru, что плохо скажется на позициях сайта в Яндекс.

Банальный пример кода:

И многие контент-мейкеры из СНГ бездумно копируют такие коды себе на сайты. Так что смотрите внимательно и анализируйте.

В своих вариантах я опубликовал только тех ботов, которые атакуют мой сайт. В ваших логах могут быть иные роботы и краулеры.

У себя использую такой код, он оказался вполне работоспособным:

Потом в логах можете увидеть, что заблокированным ботам выдаётся ответ сервера 403:

Соответственно, бот не сможет парсить контент, а также скачивать данные сайта, например, rss- ленты или другие фиды.

Есть ещё один вариант кода, работать может не на всех серверах:

Работать данные варианты будут только с теми ботами, которые себя идентифицируют. Если же боты маскируются под другие краулеры или притворятся реальными посетителями, то такие методы не сработают.

Можно их банить по IP, но об этом чуть дальше.

Блокировка ботов через robots.txt

Некоторые боты можно банить через файл robots.txt. Но работает это только при одном условии: если робот или краулер не игнорирует директивы, прописанные в этом файле. По своим логам видел, что многие боты даже не запрашивают этот файл никогда, соответственно, директив в нём даже не увидят.

В общем, мы запретили обход сайта определённому User-Agent. Но, как уже сказал, бот может просто проигнорировать данную директиву.

Также можем через файл robots.txt не только заблокировать бот, а, например, указать скорость обхода, чтобы он продолжил находиться на сайте, но сильно его не грузил.

Crawl-delay позволяет установить задержку между запросами, но данная директива считается устаревшей, большинство ботов её игнорирует, соответственно, её использование не выглядит целесообразным.

В общем, на robots.txt нельзя надеяться при блокировке ботов, так как большей частью роботов этот файл попросту игнорируется.

Блокировка ботов и краулеров по IP

Бывает, в логах попадаются очень наглые боты, которые не идентифицируют себя, но генерируют большую нагрузку на сервер. Защитить от них может либо какая-нибудь AntiDDoS- система, капча и тому подобные фишки, либо блокировка по IP.

Блокировка по IP целесообразна только тогда, когда определённый бот посылает много запросов с 1-го IP- адреса.

Но, как правило, в этом мало смысла, у ботов, как правило, много IP в запасе, соответственно, при дискредитации 1-го адреса бот быстро появится с другого.

Но иногда данный вариант помогает. Но всегда проверяйте IP перед блокировкой, самым «наглым» IP в логах может оказаться ваш собственный. Также можно чисто случайно забанить IP краулеров Яндекс или Google.

Код для блокировки выглядит так:

Каждый новый IP в список добавляйте через пробел.

Блокировка ботов пойдёт вашему сайту на пользу

Чуть-чуть разгрузит сервер, а также информации о вашем сайте у конкурентов будет поменьше, так что не стесняйтесь и блокируйте. Инструкцию приложил. Конечно, если ваш сайт усиленно долбят боты с разных IP и никак себя не идентифицируют, придётся подумать о более серьёзных методах защиты, но частенько для того, чтобы снизить нагрузку на сервер будет достаточно тех методов, что предложил выше.

На этом с вами прощаюсь, желаю успехов, а также поменьше вредных ботов на сайте!

Насколько публикация полезна?

Нажмите на звезду, чтобы оценить!

Средняя оценка 4.2 / 5. Количество оценок: 5

Источник

Как заблокировать Semrush и других ботов на сайте

Блокировка ботов на хостинге и VDS

Как заблокировать ботов, если ваш сайт на VDS

Блокировка через nginx

Список полезных и вредных ботов и краулеров

Полезные боты и краулеры

GrapeshotCrawler/2.0

Googlebot/2.1 (Робот Googlebot)

YandexTurbo/1.0

YandexBot/3.0

YandexAccessibilityBot/3.0

YandexMetrika/2.0 и YandexMetrika/3.0, YandexMetrika/4.0

YandexPartner/3.0

ias-va/3.1, ias-jp/3.1

Bingbot

newspaper/0.2.8

Mail.RU_Bot/2.0, Mail.RU_Bot/Img/2.0

vkShare

facebookexternalhit/1.1 Facebot Twitterbot/1.0

Mediapartners-Google

FeedBurner/1.0

Плохие боты и краулеры

DotBot

BLEXBot

AhrefsBot

MBCrawler

YaK/1.0

niraiya.com/2.0 (Stolen Passwords Checker Bot)

MegaIndex.ru/2.0

MJ12bot

SemrushBot

Cloudfind

CriteoBot/0.1

GetIntent Crawler

SafeDNSBot

SeopultContentAnalyzer/1.0

serpstatbot/2.0

LinkpadBot

Slurp

DataForSeoBot/1.0

Rome Client (http://tinyurl.com/64t5n)

Scrapy

FlipboardRSS

FlipboardProxy

Proximic Bot

ZoominfoBot

SeznamBot/3.2

Seekport Crawler

5 способов краулинга веб-сайта

Metasploit

Httrack

Black Widow

Website Ripper Copier

Burp Suite Spider

Как блокировать ботов и краулеров на сайте

Ботов необходимо блокировать

Как блокировать плохих ботов

Блокировка ботов через robots.txt

Блокировка ботов и краулеров по IP

Блокировка ботов пойдёт вашему сайту на пользу

Вам также понравится

У ребенка кашель всю ночь что делать

Тычинка пестик что это

сказочный дом агентство детских праздников

Добавить комментарий Отменить ответ