Союз Журналистов
 / Тема / 21.06.2001
Нетоскоп
Тема

Новости
МАЙ ИЮНЬ ИЮЛЬ
ПН ВТ СР ЧТ ПТ СБ ВС
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30
2000 год 2001 2002 год

Форум
Клиенты подали в суд на PayPal за закрытие счетов (17)
Корейцы завалили сервер Олимпийского комитета США (6)
На "Газете.ру" решают судьбу российской олимпийской сборной (10)
"Коммерсант" опубликовал Топ-100 IT-менеджеров (11)
Новый сайт "За стеклом" сделал Павел Черкашин (13)
К 2020 году роботы получат гражданские права (10)
Физматшкола 239 компьютеризирована на пиратские деньги (22)
Японцы пытались сорвать сахалинский референдум (219)
Сергей Покровский: "Первые русские хакеры были работниками НИИ" (101)

Союз Журналистов

Разделы

     Три поисковика Рунета, не считая Google
Андрей Травин
andrew@guitar.ru


21.06.2001

версия для печати

Андрей Травин - специалист по маркетингу, в разное время участвовал в поддержке сайтов AtRus, Newspepper.ru, Boom.ru, Boomerang.ru и других, в 1999 году выпускал подписной лист "Новости поисковых систем" на e-mail.com.ua.

Найденные поисковой машиной документы относятся к одной из двух категорий: одни соответствуют запросу (релевантны), другие ему не соответствуют, то есть нерелевантны...
На этом простом механизме в настоящее время строится перспективный бизнес. Сами поисковые машины тоже относятся к одной из двух категорий: одни технологически эффективны, другие наоборот. Однако, современные поисковики настолько сложные системы, что уже не могут быть описаны в кооординатах "хорошо-плохо". Настоящий обзор представляет основные характеристики и текущее положение на рынке трех ведущих поисковых систем.


"Рамблер"

Поисковая машина "Рамблер" начала работу в октябре 1996 года, на стартовом этапе содержала всего 100 тысяч документов. "Рамблер" не был первой отечественной поисковой системой, однако в первый год своего существования (когда весь русский веб с приемлемой степенью правдоподобия индексировался "Рамблером", "Апортом", "Русской поисковой машиной", а также шведской и калифорнийской AltaVista) вынес основной груз поисковых запросов. Вторая версия "Рамблера" начала разрабатываться летом 2000 года, в марте нынешнего года приняла достаточно законченные очертания. В нее были введены функции, давно уже имевшиеся в конкурирующих системах. Она учитывает координаты слов, обучена строгой и нечеткой морфологии, связывает поиск с каталогом, в качестве которого используется Top100, группирует результаты поиска по сайтам, ищет по числам. Достаточно удачная архитектура продукта позволяет "Рамблеру" иметь для поисковика количество серверов в 2 раза меньшее, чем у "Яндекса", и в 3 раза меньшее, чем у "Апорта".

Важно для рекламодателей. Примерно половину показов на "Рамблере" дает поисковая система. Новый "Рамблер" распознает темы по аннотациям, чтобы связывать результаты поиска с другими разделами портала. Составлен тезаурус запросов, с помощью которого выделяются их темы. К примеру, запрос "лекарство такое-то" и реклама того же лекарства в некой аптеке дает CTR в 10 раз больше обычного. Делаются "перевязки" на другие разделы портала, которые выдаются вместе с результатами поиска, обеспечивая примерно 20% общей посещаемости разделов Rambler.ru (их средний CTR 4%). Существует статистический сервис, пока не сделанный публичным (доступен только работникам "Рамблера" и некоторым рекламодателям): выдача списка других запросов, которые делают авторы базового запроса, интересующего рекламодателя.

Важно для вебмастеров. "Паук" "Рамблера" производит индексирование в новостях 5 раз в день; в сайтах, входящих в Top100, - 1 раз в день; все прочие посещаются не чаще, чем 1 раз в две недели. Рамблер не индексирует личные странички, находящиеся на публичных зарубежных серверах (geocities, tripod и других), а страницы подобных отечественных сайтов (narod, boom) обходит медленней, чем другие ресурсы. Поскольку новостными считаются всего около 40 сайтов, выгодно иметь на своих страницах счетчик Top100 для быстрого отображения страниц в поисковой машине "Рамблера". К тому же, в рейтинг Top100 можно вносить подробные аннотации объемом до 4 Кб. Динамические страницы "Рамблер" пока не индексирует. На выставке "Комтек" руководством компании было указано, что именно нынешним летом эта ситуация может измениться. Новый и. о. президента "Рамблера" Антон Носик против этого запланированного нововведения.
Специалисты "Рамблера" пришли к выводу, что борьба с копиями не может идти только на уровне программных алгоритмов. Например, такая простая операция как отслеживание (с участием модератора) ситуации, при которой каждый документ, имеющий на 40 зеркалах библиотеки Мошкова, считается системой за один, экономит до 10% ресурсов поисковой базы.

"Апорт"

Поисковая машина "Апорт" была впервые продемонстрирована в феврале 1996 года на пресс-конференции "Агамы" по поводу открытия "Русского клуба". Тогда она искала только по сайту russia.agama.com. Потом она начала искать по четырем, потом по шести серверам... Короче, день рождения и фактический старт системы сильно "размазались" по времени, а официальная презентация "Апорта" состоялась только 11 ноября 1997 года. К тому времени в его базе был проиндексирован первый миллион документов, расположенных на 10 тысячах серверов. Создателем системы выступила компания "Агама" - разработчик программного обеспечения для платформы Windows, главным из которых являлся корректор орфографии "Пропись". Лингвистические разработки "Агамы" использовались при создании поисковой машины, в которой, скажем, в отличие от "Рамблера", изначально учитывалась морфология слов и осуществлялась по желанию клиента проверка орфографии запроса.

По тем же историческим причинам "Апорт" создавался и продолжает функционировать под Windows NT, хотя в XXI веке уже становится очевидным, что поисковая машина должна работать на платформе UNIX (когда речь идет о системе на базе NT, включающей 40-50 серверов, то кнопку Reset приходится нажимать несколько раз в день, а вовсе не один раз в месяц). Правда, "Апорт" не использует единственное кластерное решение, которое предлагает Microsoft (MS Claster Server со всеми его ограничениями), и вообще избегает универсальных решений (не используется, например, SQL-сервер или Oracle - они хороши для большого круга задач, но не для полнотекстового поиска).

Важнейшими свойствами первой версии "Апорта" являлся перевод запроса и результатов поиска на английский язык и обратно, а также реконструкция всех проидексированных страниц из собственной базы (что означает возможность просмотра страниц, уже несуществующих в оригинале).

В ноябре 1998 года компания "Агама" была куплена за 55 тысяч долларов израильским капиталом в лице Джозефа Авчука (с сохранением торговых марок "Апорт" и "Агама"). В марте 1999 года Авчук входит в долю, а летом того же года окончательно покупает каталог Ау!, торговой марке которого повезло существенно меньше - она была переименована сначала в AtRus, а потом и вовсе уничтожена при экспорте каталога на сайты "России он-лайн", "Омен" и "Апорт". К концу 1999 года Авчук вложил в "Апорт" и AtRus первый миллион долларов, позволивший в октябре того же года представить на компьютерных выставках по обе стороны океана принципиально новую поисковую машину "Апорт 2000", полностью интегрированную с Atrus (ныне "Каталог-Апорт").

"Апорт 2000" стал первым русским поисковиком, построенным на основе выдачи результатов по отдельно взятым сайтам. Для разделения ресурсов на сайты используется информация, которую "Апорту" предоставляет каталог AtRus или сведения, введенные в "Апорт" владельцами ресурсов. На худой конец, приходится опираться на алгоритм, который позволяет по некоторым формальным признакам выделить отдельные сайты.

"Апорт 2000" стал первой российской поисковой машиной, практически реализовавший две базовых технологии американской поисковой машины Google. Первая - учет "ранга страницы" (Page Rank), который характеризует ее популярность (вычисляется по количеству ссылок на ресурс из внешнего Интернета: вес ссылки с популярного сайта выше, чем вес ссылки с менее популярного; ссылки, включающие слова запроса, имеют больший вес, чем, скажем, слово "здесь"). Вторая - обработка запроса, ориентируясь на HTML-код страницы (к примеру, анализ текста, содержащегося между тегами шрифтов h1 и h6 дает больший приоритет для первого варианта). В "Апорт 2000" учитывается также вхождение слов запроса в URL. Среди недокументированных особенностей - больший приоритет сайтам, получившим высшую и элитную лигу в каталоге AtRus.

Еще на этапе разработки "Апорта 2000" в него были заложены "крючечки", позволяющие корректировать приоритеты в выдаче результатов с учетом посещаемости сайтов по счетчику Aport Top 1000 и для сайтов, чье название в службах реальных имен является синонимом или совпадает со словами запроса (так как любая служба имен модеририруется, и полной чуши в ее данных быть не может). Обе эти возможности до сих пор не реализованы.

Можно отметить и то, что "Апорт" первым устроил поиск по новостным лентам (какие бы ложные сведения о приоритете "Яндекса" в этом сервисе не распускал в свое время Internet.ru).

И, наконец, еще одно первенство "Апорта" - использование платной нулевой строки в выдаче (кстати, "Апорт" первым среди наших поисковиков начал покупать такой сервис у AltaVista, которая за небольшую плату выдавала его ссылку первой при запросе "Russian Search"). Однако в "Апорте" нельзя купить не нулевое, а просто более высокое место для своего сайта в результатах поиска.

Пользователи "Апорта" (в отличие завсегдатаев "Яндекса") мало пользуются расширенным поиском (на 8000 загрузок простой страницы приходится 300 вызовов страницы "Расширенный поиск").

Организация масштабируемости в архитектуре "Апорт 2000" такова, что можно дробить поисковую базу "Апорта" на несколько отдельных баз, каждый маленький "Апорт" работает на своем компьютере. "Апорт 2000" считает, что весь Интернет поделен на фрагменты. После проведения поиска по этим фрагментам, пользователю интегрируется и выдается общий ответ. Добавлять новые маленькие "апортики" можно путем не очень сложной процедуры. В случаях аварий отдельных машин выдаются несколько отличные от штатных интегральные результаты, что мы можем время от времени наблюдать.

31 июля 2000 года Golden Telecom купил семейство интернет-проектов "Агама", включающее "Апорт" и AtRus, для включения в "Россию-он-лайн" и околоконтентные проекты.
В мае 2001 года окончательно завершилась сделка по смене хозяина самого Golden Telecom. Андрей Косогов (первый заместитель председателя правления "Альфа-банка") сообщил "Интерфаксу" о том, что новые владельцы контрольного пакета будут осуществлять только стратегическое управление Golden Telecom через совет директоров (все прежние хозяева "Апорта" непосредственно вмешивались в управление проектом).

Важно для вебмастеров. "Апорт" индексирует динамические страницы, но не по умолчанию, а по отдельным просьбам владельцев сайтов. "Апорт" изначально и по настоящее время учитывает метатеги.

"Яндекс"

В 1996 году компанией CompTek, созданной со стопроцентным американским участием, на выставке Internetcom было официально объявлено о существовании "Яндекса". Это была морфологическая приставка к "Альтависте", которую отличало быстродействие и умение строить гипотезы. Пословный индекс для незнакомых слов организован также, как и для словарных - этим "Яндекс" отличается от других поисковиков.
23 сентября 1997 года "Яндекс" стал интернет-проектом. Релевантность документов вычислялась в зависимости от частотных характеристик искомых слов, веса слова или выражения, близости искомых слов в тексте документа друг к другу и так далее. В октябре 1999 года в интервью "ИнфоБизнесу" Аркадий Волож указал: "Финансирование "Яндекса" всегда было не ниже сегодняшнего финансирования "Апорта". В результате, 6 июня 2000 года была представлена вторая версия системы, а нынешняя версия функционирует с 23 мая 2001 года. Ее главное нововведение, которое потребовало неизбежной перестройки ядра, - ранжирование по ссылкам. Другие нововведения относятся, главным образом, к переформулированию системой запросов пользователя: "что такое предмет" преобразуется в "предмет - это...", а если запрос начинается на слово "как", то в результатах в первую очередь пытаются выдать FAQ или иной справочный документ. Новый "Яндекс" стал "понимать" альтернативную лексику, которая входит в 5 процентов запросов. Только в последней версии Яндекса индекс цитируемости стал непосредственно использоваться поисковой машиной.

В настоящее время "Яндекс" обладает самой полной базой документов среди русских искалок, а также самой узнаваемой маркой.

Сравнение качества поиска

Поисковая машина характеризуется двумя важнейшими параметрами: точностью и полнотой (полнота есть отношение количества найденных релевантных документов к полному количеству релевантных документов в базе данных).

Пример. Пусть по запросу найдено 50 документов. После просмотра их всех пользователь принимает решение, что 30 документов релевантны запросу, а 20 нерелевантны. Сплошной просмотр всей базы данных показывает, что в ней содержится 100 документов, релевантных запросу. Отсюда получаем, что полнота 30/100 = 0,3; точность 30/50 = 0,6. Как правило, улучшая один из названных параметров, ухудшаешь другой.

Используется также такая обобщенная характеристика, как техническая эффективность поисковых машин, включающая скорость поиска по запросу, объем базы, удобство представления результатов, скорость индексирования информации и так далее. Но особое место среди этих параметров занимают показатели качества поиска - в этом сходятся мнения всех создателей поисковых машин.

Отечественная компьютерная пресса, которая так любит устраивать тестирование лингвистических программ (например, систем оптического распознавания), пока ни разу не организовала ни одного тестирования отечественных поисковиков (в отличие от ZDnet). Научные тестирования поисковиков также представляются недостаточно объективными, так как используют, к примеру, всего четыре типа запросов (без учета реальной частоты этих запросов на некоторую поисковую машину). Поэтому остановимся на исследованиях для оценки точности по методике Н. Харина. Она используется во время периодических внутрифирменных тестирований поисковых машин в "Рамблере" группой приглашенных экспертов-лингвистов (обычно, в течение двух недель каждое). Можно считать это тестирование независимым, так как его результат не используется заказчиком в маркетинговых целях. Исследования проводились путем оценки результатов поиска различных поисковиков по одним и тем же 100 популярным запросам, состоящим из одного, двух, трех и четырех слов. Важным условием всех исследований были четкие формулировки, какие именно документы считать релевантными смыслу каждого из запросов (без этого были бы получены сильно завышенные оценки технической эффективности). Часто встречающиеся запросы, содержащие ненормативную лексику, не учитывались.
Результаты иследований представлены ниже. Значения годичной давности оставлены, чтобы показать изменения эффективности при переходе "Яндекса" на более совершенную версию поисковой машины в июне 2000 года и изменение точности "Рамблера", вследствие того, что с ноября 2000 года некоторые нововведения стали последовательно внедряться в старый движок.
Результаты для "Апорта", по словам его создателя Евгения Киреева, качественно похожи на правду, потому что за прошедший год ничего в технологиях повышения релевантности в этой системе не менялось, так как, по его мнению, ничего уже и невозможно принципиально изменить. По его словам, команда "Апорта" спокойно ждет, пока "Яндекс" и "Рамблер" подтянутся до такого же уровня, и это будет уровнем развития отрасли. Фактически, результаты последнего исследования от 24 мая 2001 года, проведенные на следующий день после представления новой версии "Яндекса", показывают, что с нынешнего лета уровень отрасли определяется им.

Сравнение релевантности поисковых систем

=Период="Апорт" ="Рамблер" ="Яндекс" =Google
=02.2000=0,959=0,643=0,845-
=11.2000=0,992=0,903=0,960-
=12.2000=0,992=0,922=0,960 -
=03.2001=0,992=0,956=0,960 -
=05.2001=0,992=0,957=0,998=0,992

Заинтересованным лицам - еще несколько абзацев о методике исследований (остальные могут перейти к следующей главе).

Тестировалось качество ранжирования с определением точности при 10, 30, 50, 70 и 100 документах из начальной части списка и с учетом градации значений точности (точность при 30 документах важнее точности при 300 документах, иными словами, основной интерес представляет зависимость между полнотой и точностью в области малых значений полноты).

Известно, что отношение суммарной частоты всех запросов, состоящих из одного слова, к суммарной частоте всех запросов равно примерно 0,5. Поэтому отбиралось 50 однословных запросов с максимальной частотой. Отношение суммарной частоты запросов из двух слов к суммарной частоте всех запросов равно 0,3. Поэтому отбиралось 30 двухсловных запросов с максимальной частотой. Дальше действуем аналогичным образом.

По каждому запросу проводился поиск во всех сравниваемых поисковых машинах. Решение о релевантности или нерелевантности документа принимается после просмотра его полного текста, а не аннотации, выдаваемой в результатах поиска по запросу.
На основе полученных оценок релевантности применительно к каждой машине формируется характеристическое множество запроса - значения точности, полученные при разном количестве документов из начальной части списка найденных документов.

Пример. Характеристическое множество содержит 5 элементов - значения точности при 10, 30, 50, 70, 100 документах из начальной части списка найденных документов. При такой структуре характеристического множества эксперт должен принять решение о релевантности первых 100 из найденных документов.
Предположим, что для одной из сравниваемых поисковых машин число документов - 10, из них релевантных 8, точность 8/10, первый член характеристического множества запроса - 0,8. Релевантность поиска по запросу вычисляется с учетом весовых коэффициентов. Задан следующий набор весов элементов характеристического множества запроса: (5, 4, 3, 2, 1). И пусть запрос имеет характеристическое множество (0,8; 0,5; 0,46; 0,43; 0,4). Тогда средняя релевантность равна: 0,8*5/15 + 0,5*4/15 + 0,46*3/15 + 0,43*2/15 + 0,4*1/15 = 0,267 + 0,133 + 0,092 + 0,057 + 0,027 = 0,576. Далее происходит вычисление средней релевантности поиска по всем запросам, которая и представлена в таблице выше.

Об исследовании других характеристик поисковых машин.

Небезынтересны оценки роботов-пауков ведущих поисковиков от создателей Metabot.ru, особенно в той части, где "Апорт" и "Рамблер" они относят к "локальным системам, со схемой выборочной индексации".

Исследования полноты поисковых систем заведомы неточны. Совершенно очевидно, что при том объеме базы, что имеется у "Яндекса", он является самой полной системой, независимо от того, как отслеживаются дубли в разных поисковиках. Определение полноты индексирования путем поиска некоторых образцовых документов в каждой из сравниваемых поисковых машин (еще одна очень сложная методика Харина) привело к следующим результатам.

="Апорт" ="Рамблер" ="Яндекс" =Google
=0,40=0,53=0,60=0,47

Полнота 0,53 для "Рамблера" означает, что из 15 документов, отобранных "Яндексом", "Апортом" и Google, "Рамблер" находит 8 документов.

Поскольку данная методика выглядит отчасти "от лукавого", предлагаю читателю ориентироваться на методику Сегаловича. Она заключается в том, что наугад берется N редких слов, настолько редких, чтобы было легко проверить весь результат их поиска. Потом сравнивается количество найденных релевантных документов по каждому слову. Усредненные результаты представлены в таблице. Надо отметить, что подобные оценки проводятся с конца прошлого года (первоначально самим Ильей Сегаловичем, главным разработчиком "Яндекса"), однако соотношения получаются практически идентичными.

="Апорт" ="Рамблер" ="Яндекс" =Google =Fast
=50%=30%=100%=31%=30%

Google вычисляет ранг матрицы 400 млн x 400 млн, причем последовательно. Российские поисковые машины еще не обладают такими вычислительными мощностями.

Пример. Для оценки корректности вычисления Page Rank можно использовать тест Носика: при запросе "Мастер и Маргарита" первой в выдаче должна получаться начальная страница названного романа в "Библиотеке Мошкова" (как это и происходит в Google). В "Апорте" тест выполняется правильно, в "Яндексе" искомый результат получается в выдаче шестым (тест давал устойчивый результат в промежутке 24.05 - 19.06). Кстати, нарцисстический тест (то есть запрос "Андрей Травин") давал в "Апорте" почти правильный ответ (вторым в выдаче "Апорта" идет первый ответ из Google, и это незначительное искажение имеет очевидные причины), в "Яндексе" получается неправильный, по сравнению с Google результат.

Отечественные поисковые машины на пьедестале почета

В нынешнем положении российских поисковиков стоит отметить две оптимистические для них тенденции. Первая - поисковики в Рунете популярнее каталогов-классификаторов. Согласно исследованиею "SpyLOG - Глобальная статистика", для средних и малых сайтов вклад поисковых систем уже в 2 раза превышает суммарный вклад каталогов и рейтингов.
Вторая (по порядку, а не по значению) - порог выхода на рынок поисковых систем довольно высок, значительно выше, чем на рынок счетчиков, и сравним с порогом выхода на рынок развесистых электроных энциклопедий. Иллюстрацией этого тезиса может служить новичок - Lupa.ru, напоминающий поисковую машину только издали.

Почему важна вторая тенденция? Любой потенциально массовый рынок осваивают первые компании-лидеры. Предположим, что среди них есть три, которые совместно держат 80 процентов этого рынка. В абсолютных величинах они пока охватывают всего 2-5 процентов населения. Вероятность, что эти три компании удержатся в лидерах, к тому моменту, когда рынок будет размером хотя бы в 30 процентов населения, прямо зависит от базовой характеристики рынка. Если рынок невысокотехнологичный, шансы у первопроходцев задавать тон в своей нише не очень высоки. Если высокотехнологичный, то шансы весомы (пример - Intel). В целом Интернет не является высокотехнологичным рынком и поэтому на нем будет постоянно происходить смена главных игроков. Поисковые системы одна из высокотехнологичных ниш в отрасли. Лидерство поисковых машин определяется сравнительно сложными технологиями, полнотой базы, большим парком компьютеров и привычками пользователей. В настоящее время в России разрабатывается или уже разработано около 10 поисковых машин, некоторые из них (к примеру, Punto) стартовали. Их база такова, что найти ими практически ничего нельзя.
Поскольку колонка эксперта пишется без учета журналистских принципов спортивной справедливости, а только о тех аспектах, что определяют погоду на рынке, перечислять всех крошечных конкурентов трех ведущих поисковиков я не буду: герои настоящего обзора еще продолжительное время побудут на воображаемом пьедестале почета.

Однако важно отметить, что наиболее вероятные перспективы "Апорта" - быть затоптанным слоновьей поступью Golden Telecom, как это случилось с Infoart, Atrus, Emedia и множеством других сайтов.
Релевантность "Рамблера" приблизилась к релевантности трех остальных поисковых машин, но сохраняющееся отставание в релевантности обусловлено отсутствием механизма ссылочного ранжирования и, скорее всего, непреодолимо без изменения ядра системы.
Мнение о подавляющем превосходстве Google над всеми остальными существующими в мире поисковыми машинами несколько преувеличено. Однако именно эта система может отъесть заметную долю русскоязычной аудитории (чуть подробнее об этом - в последней главе).

Возможные перспективы "Рамблера": приобрести лицензию на какой-либо сторонний каталог - для улучшения собственной поисковой машины, и другую поисковую машину - для улучшения сервиса для своих посетителей. Кстати, один из источников дохода самого "Рамблера" - желающие купить его поисковую машину в Украину и Прибалтику. Rambler.bg входит в тройку ведущих болгарских поисковых машин (о перспективах yandex.pl, rambler.de сказать пока еще ничего нельзя).
Источники дохода всех поисковиков: баннеропоказы по географии и по темам, профили и аналитические отчеты.

Общая проблема всех старых российских поисковиков-лидеров в том, что для того, чтобы обновить замусоренную базу и проиндексировать Рунет заново, требуется полностью обнулить индекс.

Для полного понимания можно отметить, что метапоисковые системы (а их история в России составляет почти такой же промежуток времени, что и история русских поисковых систем) не влияют на рынок существенным образом. С 1999 года на рынке присутствует практически идеальный, на мой взгляд, инструмент метапоиска - Диско Наблюдатель. Однако наш народ за двадцать долларов, которые стоит эта программа, "удавится". Поэтому некоторые перспективы имеет бесплатный метапоисковый сервис MetaBot.ru.

Позиционирование в поисковой системе

Андрей Иванов ввел термин "позиционирование в поисковой системе" для комплекса мероприятий, направленных на улучшение позиции ссылки на сайт в списке ответов поисковой системы.
По этому поводу можно сказать, что русские искалки сближаются по своим методам борьбы со спамдексингом (спамом индексов поисковых машин).
Прекращены публикации ста самых популярных запросов на "Рамблере" (последние такие данные сохранены в "Регистратуре.ру") и и публикация всех текущих запросов пользователей "Яндекса" в рамках "Прямого эфира" (1700 тысяч запросов к "Яндексу" сохранены в "Нейроне").
Семантический образ спаммера (который обязательно включает набор "Линукс, порно, реферат...") неплохо распознается, и подобные ресурсы "вычесывается" из систем еще на этапе индексирования.
К редиректу "Яндекс" относится категорически отрицательно. На рубеже года он провел чистку своей базы и повыкидывал сайты (причем, с запретом на регистрацию в дальнейшем), на страницах которых стоял редирект (в том числе и в виде Java-скрипта).
"Рамблер" пока идет по редиректу на новую ссылку (II), индексирует документ и заносит ссылку II в список своих адресов для обхода. А старую ссылку с редиректом выбрасывает из своих списков. Таким образом, в следующий раз он пойдет по новой ссылке II. А если она формируется с помощью Java-скрипта, "Рамблер" вообще по ней не пойдет, потому что он не исполняет скрипты. "Яндекс" поступает аналогично, однако его "паук" более "наглый", поэтому выполняет многие скрипты.

Начиная со своей второй версии, "Яндекс", также как и Апорт, начал учитывать основные метатеги. "Рамблер" и Google продолжают их игнорировать.

И, наконец, руководители "Яндекса" и "Рамблера" договорились об обмене информацией о злостных спаммерах поисковых систем с целью вообще выключить их из русского поиска.

Трафикогенерация с поисковых машин (согласно отчету SpyLOG за январь 2001 года) составляла в целом 42 процента от "Яндекса" против 17,5 процентов от "Рамблера" или "Апорта". Согласно тому же отчету, для интернет-магазинов это соотношение принципиально другое: Яндекс - 69%, Rambler- 15,3%, Апорт - 9,8%, Google - 2,6%. Это связано с тем, что поиск по товарам в Яндексе превосходит аналогичную услугу в "Апорте" как технологически, так и с точки зрения гибкости ценовой политики для владельцев магазинов. Последнее исследование SpyLOG показывает, что доли "Апорта" и "Рамблера" теперь соответственно 18% и 12%, Google - 14% (!), а "Яндекс" лидирует с теми же самыми, что и зимой, 42 процентами.

Зарубежные поисковики для русскоязычного пользователя

Среди поисковиков, в которых можно, задав русский запрос, получить на выдаче осмысленный ответ, пока еще остается Altavista (или не получивший развития Raging), но в ней русскоязычная база была порушена еще в 1999 году. Сейчас более или менее полноценными зарубежными искалками по Рунету можно считать лишь Fast и Google (или Yahoo!), которые предположительно получили себе тех пользователей, которые ранее искали русскоязычные ресурсы "АльтаВистой". Говорить о каких-либо долях рынка зарубежных искалок в Рунете до недавнего времени не имело смысла, а сравнивать с нашими их эффективность и технологии достаточно уместно.

Обсудить в форуме (Сообщений : 19)

ССЫЛКИ ПО ТЕМЕ
Апорт 2000, чеченские волки и коллективный разум - Находки, 08.10.99
Лучше и не найти - Инфобизнес, 10.04.01
ПридTт Google и всех съест? - Инфобизнес, 12.06.01

МАТЕРИАЛЫ ПО ТЕМЕ
Google плюс BMW: голосовой поиск в Сети из автомобиля - 22.06.01
Lycos идет в Россию с поисковиком, знающим русскую морфологию - 09.06.01
Вячеслав Ансимов Новый русский поисковик Punto придумали футурологи - 06.06.01
41 процент интернетчиков ищет информацию через Yahoo! - 31.05.01
Кубок "Яндекса" взял Антон Носик - 29.05.01
"Рамблер" готовится поменять свою поисковую систему на Google - 25.05.01
"Яндекс" запустил новую версию поиска и телерекламу - 24.05.01
"Яндекс" проводит Кубок России по поиску в Интернете - 12.04.01
Google грузит по-русски - 26.03.01
Lycos приходит в Россию - 16.03.01
РИФ-2001: "Рамблер" рассказывает о своем новом поисковом ядре - 14.03.01
Google внедряет механизм ранжирования на основе peer-to-peer - 01.03.01
"Рамблер" запустил поиск по новостям - 19.02.01
"Рамблер" тестирует новую версию своего поисковика - 04.01.01
"Яндекс" ищет товары сразу с ценами - 30.11.00
Rambler стал искать по ftp-серверам - 27.11.00
"Яндекс" выдает результаты поиска по-новому - 16.10.00


Союз Журналистов

ПРЕСС-РЕЛИЗЫ
Yellow NewsPillow
Возрождение легендарной NewsPillow

АИСТ
Стартует дилерская программа ASP-сервиса SiteManager для веб-студий

Caravan
Караван отменяет все регистрационные платежи на виртуальном хостинге и на размещение физических серверов (Colocation)

Экспресс-Интернет
Система управления сайтом для Веб-студий, а не для Владельцев сайтов. Экспресс-Интернет.

"Логика Бизнеса"
Мария Каменнова вошла в TOP-100 отечественной ИТ-индустрии

Copyright © 2000-2002 Нетоскоп
Информация о сайте

Hosted by uCoz