SEO Сообщество: Спрашивайте и помогайте

Присоединяйтесь к сообществу профессиональных веб-мастеров PR-CY, отвечайте на вопросы коллег и задавайте свои.

Q&A SEO

Нужен краулер для сайта

psyleads psyleads  
112
  03.03.2020 09:48       1 140    

Всем привет. Ищу решение для огромного сайта и как сформулировать запрос для гугла не придумал.

Нужно что то, что посетит десятки тысяч страниц. Бот или программа краулер.

Дело в том, что перевод страницы осуществляется при ее посещении, хотя бы один раз. Вручную это сделать нереально. Xenu не помогает. Обход ботами поисковиков невозможен и нежелателен, так как сайт представляет собой технический черновик и соответственно закрыт от индексации.


Может кто то знает примеры программ или сервисов, которые смогут пройти по всем страницам сайта?
 


Ответы на пост (17) Написать ответ
vituson vituson
2363
03.03.2020 10:02
Полгода-год назад вы уже задавали этот вопрос. Не решилось?
А если попробовать программы копирования сайта на локальный диск, например, Телепорт или что-то типа него?
0
psyleads psyleads
112
03.03.2020 10:19
А какой алгоритм работы у телепорта? Нужно именно посещение УРЛ. Я уже голову ломаю давно. Поработал телепорт всего минуту https://pastenow.ru/56c12cabdd7bf7653122e6165b7c9ef2 Вряд ли он по страницам пошел. Тупо скачал скрипты, изображения и т.д.
0
Denisbox Denisbox
15
03.03.2020 10:44
А как по вашему Телепорт скачивает сайт не обращаясь к страницам?
0
psyleads psyleads
112
03.03.2020 10:46
За полторы минуты даже супер мега бот не обойдет 100 000 страниц... Даже сайтмап нельзя сгенерировать за это время... Соответственно телепорт выполнил другую работу, но не обход страниц. Возможно он только главную спарсил и типа справился))))
0
Denisbox Denisbox
15
03.03.2020 11:06
Так, что в итоге он вам спарсил? Все файлы? Посмотрите настройки программы, там есть регулировка уровня, который будет пройден и загружен. Любая программа требует настроек.
0
Ouroboros Ouroboros
1460
03.03.2020 10:59
Netpeak Spider можно попробовать. Не уверен, но может поможет. В настройках можно прописать свой юзер-агент, если это повлияет.
0
vituson vituson
2363
03.03.2020 12:38
Попробуйте бесплатную программу - Majento_SiteAnalyzer, она сканирует все доступные страницы сайта. Если внутренние страницы сайта недоступны (на них попросту нет ссылок), то это не проблема сканирующих программ, а ваша.
0
psyleads psyleads
112
03.03.2020 12:57
Пробовал. Вылетает ошибка при запуске. 

Netpeak Spider запустил на медленное сканирование. Завтра надеюсь посмотрю что вышло
0
Elzidor Elzidor
3
03.03.2020 19:12
Вам необходимо чтобы скрипт посетил все страницы и выкачал js/css/html/images?
0
psyleads psyleads
112
03.03.2020 19:40
При посещении страницы она переводится на выбранный язык. Если ее не посетить то не будет ни перевода ни этого УРЛ в индексе поисковиков
0
wprazor wprazor
519
04.03.2020 00:58
зачем ваш напарсеный контент/машинный перевод в интернете?
0
ricoberd ricoberd
74
04.03.2020 10:47
Нечто подобное было при использование gtranslate.io - просто прогнал 1 раз сайт лягушкой и все страницы перевелись
0
psyleads psyleads
112
04.03.2020 10:49
просто прогнал 1 раз сайт лягушкой это net screaming frog ?
0
ricoberd ricoberd
74
04.03.2020 15:28
да. Там ведь страница переводиться при первом обращение. И неважное откуда это обращение: от бота, человека...
0
psyleads psyleads
112
04.03.2020 15:31
Сейчас процесс идет, скоро закончится и посмотрю результаты. 
А как Вы в лягушке настраивали скорость сканирования? Я не нашел.

Дело в том, что для gtranslate существует ограничение : 12 запросов в секунду с 1 IP. иначе будет получен код 403 и страница не переведется
0
ricoberd ricoberd
74
04.03.2020 16:01
0366c0f6f10aab92e3fb4f6563694c60.png
0
psyleads psyleads
112
04.03.2020 16:34
спасибо!
0