Выдержки из интервью главного аналитика AdvAction Дениса Кучумова с основателем компании "Ашманов и партнеры" Игорем Ашмановым — об истории поисковых технологий, их развитии, мобильном поиске и проблемах мониторинга социальных сетей.
С чего все началось
Поисковым технологиям как способу найти что-то в большом массиве текста или документов лет тридцать-сорок, идеи инвертированного индекса были придуманы довольно давно.
Идеи поиска чего-либо в большом объеме информации сводятся к двум.
Первая — это поиск по оглавлению, как в книжке. Интернет-каталоги появились на заре интернета и существовали довольно долго. Какое-то время этот вид поиска, когда человек сам пытался понять, в какой рубрике лежит нужная страница, работал.
Вторую идею мы знаем по научным и образовательным книгам — когда в конце есть список терминов с указанием страниц, где они встречаются, и есть возможность обратиться напрямую в текст, зная, что нужно.
Идея инвертированного списка — это вывернутый наоборот текст: не от номера страницы к тексту, а от слова к номеру страницы. Первые поисковики 90-х были построены на идее о том, что все слова в списке встречаются во всех текстах, к ней только пришлось прибавить сетевой уровень — способность ходить по ссылкам и выкачивать файлы из интернета.
Поисковики развивались не потому, что их создатели имели в голове картину идеального поиска, а из-за быстрого роста и замусоривания интернета и еще из-за целого класса людей, которые занимались манипуляцией в поисковой выдаче. Первый поиск, который на слуху, AltaVista, использовал инвертированный индекс. К концу 90-х он умер, потому что не справился ни с ростом интернета, ни с замусориванием.
Следующий способ (поиска и выдачи информации) — учет авторитетности сайта за счет учета входящих и исходящих ссылок. Сайт, на который больше ссылаются, признается авторитетным, поэтому он ранжируется выше. Придумали это, конечно, не в Google, это довольно старая идея научного индекса цитируемости. У нас в стране такой учет был сделан раньше — в поисковой машине Апорт.
В Google Брин и Пейдж, которые в тот момент занимались проектом по обработке больших данных по заказу разведки, реализовали идею индекса цитируемости профессора Гарсиа-Молина. Это означало взять матрицу "интернет в квадрате" и сравнить все сайты со всеми сайтами по количеству ссылок — кто на кого ссылается. Довольно быстро матрица стабилизировалась и получился Page Rank. Но, на мой взгляд, Google стал мировым поисковиком по другим причинам — поддержка государства и разведки, непрерывный поток финансирования, потому что он довольно долго был убыточным, и хорошие кадры. Брин и Пейдж наняли Крэйга Сильверстайла, специалиста по распределенным файловым системам, и он построил эту гугловскую идею фермы из очень дешевых серверов, где информация дублируется. Эта система дешевых серверов и огромное количество дата-центров помогли справиться с ростом интернета, постоянный источник финансирования обеспечили самые крупные венчурные компании в Кремниевой долине. В результате не осталось никого, кроме Гугла.
А что у нас
У нас ситуация была такая: к моменту, когда у Google был PageRank, Апорт уже умирал, несмотря на свои лучшие технологии — у него была хорошая машинная морфология, понимавшая русский и английский, учет ссылок и другие инновации. Но он был маленький, у него не хватало денег. В 1998 году он был куплен, переупакован и продан компании Golden Telecom, которая убила этот проект. Яндекс и Рамблер в то время были весьма традиционные, у них не было индекса ссылок и тоже началось замусоривание деятельностью веб-мастеров.
Когда пришел Google
В начале 2000-х началась борьба со спамом в полный рост. В нашу страну пришел Google, но с русским языком не работал. Яндексу и Рамблеру пришлось написать свой аналог Page Rank, чтобы учитывать ссылки, пришлось учитывать язык. Илья Сегалович (прим. — сооснователь интернет-портала и поисковой системы Яндекс) считал, что добавление морфологического компонента — Яндекс это сделал своим рекламным лозунгом — улучшает поиск. Но, во-первых, на тот момент машинная морфология была и у Апорта, и у Рамблера, во-вторых, она позволяла искать больше вариантов, но при не очень хорошем ранжировании ухудшалось качество. Дальше пришлось создать средство борьбы со спамом — реестр плохих сайтов, пришлось создать анализ ссылок. Несколько раз Яндекс делал подходы к запросам на естественном языке, но ухудшалось качество. Гугл в какой-то момент сделал поддержку русской лингвистики, начал бороться со спамерами, а самое главное, начал рекламную кампанию и за счет Андроида вышел на аудиторию мобильных пользователей. У Яндекса в основном вводились все новые и новые фильтры на манипуляцию результатами поиска.
Мобильный поиск
Mobile vs. desktop
Мобильный и десктопный поиски сильно отличаются, с мобильных в основном ищет "поколение больших пальцев". Есть несколько категорий запросов: бывают информационные запросы, когда человеку все равно, где, ему важно, что. Например, залезть в Википедию и проверить то, что сказал собеседник. Бывают вопросы транзакционные — найти место, где поесть, купить билеты и так далее. Там другое поведение аудитории — она быстро уходит из поисковика, требовательна к интерфейсу, сниппеты должны быть очень информативны.
Дистрибуция
Последние десять лет поисковики конкурируют не качеством поиска, а качеством дистрибуции — раздачей своего поисковика всеми возможными способами. В эту дистрибуцию вкладываются деньги. У Google денег больше, есть операционная система Андроид. Соответственно, в этой дистрибуции он выигрывает, но на десктопах у Яндекса 64% рынка.
В коммерции и вообще рыночной деятельности обычно такая ситуация: на рынке есть "горилла", одна-две "шимпанзе" и несколько"макак". Горилла имеет 60% рынка, на всех шимпанзе приходится 30% и на всех остальных макак — 10%. У нас гориллой является Яндекс, шимпанзе — Google, а макаки — это Mail.ru, Спутник.
Поиск в b2b
Думаю, будут искать и услуги b2b, потому что сейчас большие экраны и люди много времени проводят где-то — в транспорте, в очереди, в ресторане, структура потребностей там примерно та же самая. Многие сейчас просто используют телефон как десктоп. В юго-восточной Азии огромное количество людей уже никогда не купит себе обычный компьютер, у них есть мобильные устройства с детства, на которых они делают все, там мобильный трафик — 50-70%.
Голосовой поиск
Сейчас Яндекс и Гугл понимают запросы, если задавать их на естественном языке. Обычное предложение, согласованное по правилам русского языка, Яндекс и Гугл нормально ищут, поэтому ничто не мешает говорить голосом, если хорошо работает распознавалка речи.
За последние два года в распознавании произошел прорыв, заработали нейронные сети, придумали, как их обучать, они научились как глухонемые распознавать издалека речь человека по губам. Проблема в том, что люди с телефона не ищут.
Единственный массовый случай, который я знаю — ищут адрес, пока ведут машину. В основном, таксисты. Все мобильные голосовые запросы делаются только тогда, когда визуальный канал почему-то занят, но свободен аудиальный. И это, мне кажется, не станет мэйнстримом, это нелепо — втыкать в экран и вместо быстрого нажатия клавиш что-то туда говорить.
Соцсети
О различиях аудитории разных площадок
В разных социальных средах аудитория разная, говорят про разное. На форуме Ленты.ру вакханалия "укров" против "ватников" или евреев против антисемитов, в это превращается любое комментирование статьи. На форуме банки.ру все по-другому, там политической драки нет. На Хабрахабре миллионы людей, в основном они разговаривают про железки и программирование. В соцсетях можно распознавать тематику, тональность, то есть отношение говорящего, и строить расширенный профиль пользователя. Можно понять, на чем он ездит, куда ездит, с кем дружит, какие у него политические взгляды, религиозная принадлежность, сексуальная ориентация.
Влияние рекламы в социальных сетях
Есть несколько способов добраться до аудитории. Есть классическая реклама — баннеры, медийка, новостные обменные сети и так далее. Все они ведут к тому, что я назвал бы по-английски high frequency advertising — это когда быстро работающие аукционы быстро решают, какому пользователю какой баннер показать, пытаясь предсказать конверсию в реальную покупку. Это все — сертифицированные способы доставки рекламы, это явная доставка. В соцсетях тоже есть явная доставка: можно пойти в агентство, которое работает с данной социальной сетью, и разместить там таргетированную рекламу, она очень хорошо работает. Есть smm и другие неявные способы доставки.
В СМИ бывает джинса, правда, они ее называют эвфемизмом "нативная реклама". Они, взяв у тебя деньги, пытаются ее замаскировать под статью, это такая серая зона закона о СМИ.
Есть огромное количество сайтов-отзовиков, на которых отзывы пишутся либо за деньги, либо пишут те, кто делает эти отзовики. А потом шантажируют всех, чтобы им за эти отзывы платили, либо заплатили за снятие, если отзывы негативные. В социальных сетях та же история — есть огромное количество ботов, которые пишут там всякую фигню за деньги. С моей точки зрения, эта реклама не годная. Сейчас пользователь пошел умный, он ботов отличает, коммерческий спам тоже видно. Если человек приходит в тред, где обсуждают что-то содержательное, и начинает что-то втюхивать — это что-то вроде MLM, так делать нельзя.
Полностью интервью можно посмотреть здесь.