Нужен краулер для сайта

psyleads psyleads   03.03.2020 09:48   424  

Всем привет. Ищу решение для огромного сайта и как сформулировать запрос для гугла не придумал.

Нужно что то, что посетит десятки тысяч страниц. Бот или программа краулер.

Дело в том, что перевод страницы осуществляется при ее посещении, хотя бы один раз. Вручную это сделать нереально. Xenu не помогает. Обход ботами поисковиков невозможен и нежелателен, так как сайт представляет собой технический черновик и соответственно закрыт от индексации.


Может кто то знает примеры программ или сервисов, которые смогут пройти по всем страницам сайта?
 


Ответы на вопрос (17) Написать ответ
vituson vituson   03.03.2020 10:02
Полгода-год назад вы уже задавали этот вопрос. Не решилось?
А если попробовать программы копирования сайта на локальный диск, например, Телепорт или что-то типа него?
0
psyleads psyleads   03.03.2020 10:19
А какой алгоритм работы у телепорта? Нужно именно посещение УРЛ. Я уже голову ломаю давно. Поработал телепорт всего минуту https://pastenow.ru/56c12cabdd7bf7653122e6165b7c9ef2 Вряд ли он по страницам пошел. Тупо скачал скрипты, изображения и т.д.
0
Denisbox Denisbox   03.03.2020 10:44
А как по вашему Телепорт скачивает сайт не обращаясь к страницам?
0
psyleads psyleads   03.03.2020 10:46
За полторы минуты даже супер мега бот не обойдет 100 000 страниц... Даже сайтмап нельзя сгенерировать за это время... Соответственно телепорт выполнил другую работу, но не обход страниц. Возможно он только главную спарсил и типа справился))))
0
Denisbox Denisbox   03.03.2020 11:06
Так, что в итоге он вам спарсил? Все файлы? Посмотрите настройки программы, там есть регулировка уровня, который будет пройден и загружен. Любая программа требует настроек.
0
Eserador Eserador   03.03.2020 10:59
Netpeak Spider можно попробовать. Не уверен, но может поможет. В настройках можно прописать свой юзер-агент, если это повлияет.
0
vituson vituson   03.03.2020 12:38
Попробуйте бесплатную программу - Majento_SiteAnalyzer, она сканирует все доступные страницы сайта. Если внутренние страницы сайта недоступны (на них попросту нет ссылок), то это не проблема сканирующих программ, а ваша.
0
psyleads psyleads   03.03.2020 12:57
Пробовал. Вылетает ошибка при запуске. 

Netpeak Spider запустил на медленное сканирование. Завтра надеюсь посмотрю что вышло
0
Elzidor Elzidor   03.03.2020 19:12
Вам необходимо чтобы скрипт посетил все страницы и выкачал js/css/html/images?
0
psyleads psyleads   03.03.2020 19:40
При посещении страницы она переводится на выбранный язык. Если ее не посетить то не будет ни перевода ни этого УРЛ в индексе поисковиков
0
wprazor wprazor   04.03.2020 00:58
зачем ваш напарсеный контент/машинный перевод в интернете?
0
ricoberd ricoberd   04.03.2020 10:47
Нечто подобное было при использование gtranslate.io - просто прогнал 1 раз сайт лягушкой и все страницы перевелись
0
psyleads psyleads   04.03.2020 10:49
просто прогнал 1 раз сайт лягушкой это net screaming frog ?
0
ricoberd ricoberd   04.03.2020 15:28
да. Там ведь страница переводиться при первом обращение. И неважное откуда это обращение: от бота, человека...
0
psyleads psyleads   04.03.2020 15:31
Сейчас процесс идет, скоро закончится и посмотрю результаты. 
А как Вы в лягушке настраивали скорость сканирования? Я не нашел.

Дело в том, что для gtranslate существует ограничение : 12 запросов в секунду с 1 IP. иначе будет получен код 403 и страница не переведется
0
ricoberd ricoberd   04.03.2020 16:01
0366c0f6f10aab92e3fb4f6563694c60.png
0
psyleads psyleads   04.03.2020 16:34
спасибо!
0

Войдите, чтобы написать ответ
Вход Регистрация

Фриланс нового поколения. Всё за 500 рублей!