С такой ситуацией столкнулся частный сеошник, потребовав объяснений у представителей поисковой системы:
«Прокомментируйте, пожалуйста, следующее. У меня есть сайт, 100% страниц которого заблокированы в файле robots.txt. Однако в индексе Google присутствуют названия и описания этих страниц, равно как и другой контент с сайта».
Ответ сотрудника Google:
«URL-адрес, даже если он заблокирован в robots.txt, может быть проиндексирован без сканирования ботом. Обычно это происходит благодаря внешним или внутренним ссылкам, которые указывают на такой контент».
Как составить robots.txt самостоятельно – читайте здесь.