Скан для сайта

Zzzadruga Zzzadruga   07.01.2013 17:53   830  
Здравствуйте. Недавно я задавался вопросом, определяет ли Яндекс скан или нет. Походил по форумам, почитал. Пишут, что нет. В то время как раз обладал парой тематических сканеных книжек. Значит, закинул я все это дело в FineReader и решил проверить текст в следующих программах /сервисах:

1. E-txt антиплагиат (шингл 5) = 99 %
2. Advego = 100%
3. content-watch.ru = 100%

И все же решил я проверить для пущей уверенности в text.ru и, о ужас, уникальность там была порядка 10%. Перейдя, на ту страницу, которую text.ru указал, как источник, всплыло предложение о загрузки некоего pdf файла. В том файле была как раз та часть книги, которую я проверял. Потом я пошел в сам яндекс, закинул в писковой запрос 40 символьную вырезку из того текста и он мне нашел как раз тот сайт с pdf документом. Поэтому предупреждаю тех, кто мб не знает об этом / не придавал значения - проверяйте скан на 
text.ru


Ответы на вопрос (11) Написать ответ
boltachev boltachev   07.01.2013 18:05
я до сих пор не понял - что такое шингл?
0
Решение
aksel000 aksel000   07.01.2013 18:09
домен на, которм находится копия текста.
0
Zzzadruga Zzzadruga   07.01.2013 18:11
кол-во слов в поисковой фразе. То есть, например, у нас есть фраза "Я постоянный посетитель сайта pr-cy". При размере шингла 3 программа будет искать совпадение с фразами "
Я постоянный посетитель", "
постоянный посетитель сайта" и "посетитель сайта pr-cy". А при размере шингла 5 только
"Я постоянный посетитель сайта pr-cy"
0
Nozik Nozik   07.01.2013 18:13

Шингл с английского переводится как «чешуйка». В сфере SEO этим словом обозначают:

Кусочек текста в несколько слов (десятисловный шингл, четырехсловный шингл).Метод проверки текстов на степень похожести.
0
antony2606 antony2606   07.01.2013 17:57
Многим может оказаться полезной инфа. Я лично всегда так делаю)
0
geldash geldash   07.01.2013 17:59
Спасибо,
Сам думал об этом.
0
Kimin Kimin   07.01.2013 18:09
Не доверяйте никаким сервисам, и всегда дополняйте проверку ручной - в Яше и Гугл, построчно. А насчет текста ру - я раз упал, когда перейдя туда, обнаружил чистый и уникальный текст в форме, который можно было тупо взять и опубликовать. Форма не самоочищается при окончании проверки. Я даже подозреваю, что оттуда идет парсинг...
0
Zzzadruga Zzzadruga   07.01.2013 18:13
Построчно? То есть 11 000 текст проверять построчно? И как искать совпадения? Это геморойно
0
hyrmiy hyrmiy   07.01.2013 18:32
При покупке сканируешь текст адвего плагиатусом, если не уникальный - пишешь в ТП, через несколько дней вернут деньги.
0
NeoCortex33 NeoCortex33   07.01.2013 21:11
у меня так часто: ищу материалы по учебе и высвечиваются пдф-книжки в выдаче. честно-неудобно это.
0
files files   07.01.2013 22:28
pdf файлы индексируются поисковиками если текст в таких файлах представлен текстом. Фотографии на лету они пока не умеют распознавать. Хотя может я и не прав
0