Библиотека Интернет Индустрии I2R.ru |
|||
|
Русские поисковики - большие гонкиВ жизни человека есть несколько святых вещей: родина, семья, вера (как вариант – партия). Непочтительно рассуждая или поминая всуе святыню, рискуешь человека смертельно оскорбить или нарваться на грубость. Техника безопасности рекомендует при обсуждении святыни почаще приговаривать: «по моему скромному мнению», «я, разумеется, не претендую на истину в последней инстанции», «как мне кажется» и т. п. Впрочем, и это мало помогает... И все же рискнем поговорить о преимуществах и недостатках русскоязычных поисковых машин. В поле зрения попадают четыре поисковые машины (в алфавитном порядке, чтобы без обид): Aport, Google, Rambler, Яndex. Почему в компанию с исконно русскими поисковиками попал американский Google? Ну, во-первых, в вопросе о национальности трех остальных участников стоит проявить некоторую осторожность (см. следующий раздел), а во-вторых, Google с недавних пор позиционируется как поисковик в том числе и для русского сегмента Сети, а на конкурсе РОТОР (www.ezhe.ru/POTOP/final.html), проводимом среди отечественных проектов, он даже получил премию как лучший программный продукт года. В то же время, по высказываниям западных экспертов, Google сегодня является лучшей поисковой машиной в большом Интернете. Русский интерфейс в числе двадцати других языков появился у Google год назад. Правда, поначалу настраивать его надо было вручную, но в конце марта поисковик полностью «русифицировался» и теперь автоматически устанавливает язык интерфейса для каждого пользователя. Просьба только не путать Google.com с Google.ru. Последний никакого отношения к компании Google не имеет (разве что машину применяет «гугловскую») и вообще нехорошо использует чужую славу. У кого-то (совсем у немногих) может возникнуть вопрос: почему не рассматривается открывшийся 9 августа русский «Лайкос» (lycos.ru)? К сожалению, «Лайкос» не является самой передовой машиной Интернета, да и, перенесенный на неродную почву, какое-то время будет акклиматизироваться. По крайней мере, сейчас отзывы о качестве его поиска не самые благоприятные. Ты помнишь, как все начиналось? Давайте начнем с маленького экскурса в историю. В год эдак 1996-й. В феврале компания «Агама», известная своими лингвистическими разработками, продемонстрировала созданную при поддержке Intel поисковую машину Aport, которая, правда, первоначально искала только по одному сайту. Со временем количество обслуживаемых серверов быстро росло, и к ноябрю 1997 года, когда состоялась презентация Aport, в базе были проиндексированы документы с 10 тысяч серверов. В том же 1996 году компанией CompTek, созданной со стопроцентным американским участием, было объявлено о существовании морфологической приставки к AltaVista под названием Яndex. Как самостоятельный интернет-проект Яndex стартовал только в сентябре 1997 года. Но самым первым из наших сегодняшний героев был все-таки Rambler, запущенный еще в октябре 1996 года. Тот год, на который Rambler опередил своих конкурентов, позволил ему завоевать в Рунете бешеную популярность. Что касается Google, то его в 1996 году не было и в помине. Точнее, не было марки и компании Google, но в Стенфорде уже увидела свет первая версия поискового механизма, называвшаяся тогда Back Rub. А под своим именем Google появится лишь в 1998 году. Национальные особенности У каждой из вновь созданных поисковых машин были свои особенности. Например, Aport с самого начала учитывал морфологию слов, а Rambler научился этому намного позже. Также самая первая версия Aport умела возвращать проиндексированные страницы из своей базы (полезно, если оригинал в Интернете более недоступен), Яndex не освоил это и до сих пор. Но если три российские машины первоначально вычисляли рейтинг страницы, основываясь только на анализе ее текста, то американский Google первым стал использовать индекс цитируемости, то есть число и характер ссылок на документ с популярных внешних сайтов. Получилось очень удачно, о Google даже заговорили как о новой вехе в интернет-поиске. Но только очень большой энтузиаст мог пытаться тогда с его помощью найти что-нибудь в Рунете. А что же отечественные поисковики? Получивший серьезное финансовое вливание Aport к концу 1999 года представил новую поисковую машину Aport-2000. В нее был интегрирован каталог, а при вычислении рейтинга страницы стала учитываться цитируемость. Также Aport стал принимать во внимание, между какими тегами расположены ключевые слова. Объем базы на начало 2001 года составил 14 млн документов. Яndex, получивший не меньшие вливания, в июне 2000 года, а затем в мае 2001 года также представил новые версии поискового механизма, учитывающие популярность страниц. На начало 2001 года он обладал самой большой базой документов Рунета – около 31 млн. Rambler в 2000 году также был существенно переделан. Поисковая машина была связана с каталогом, стала учитывать морфологию и координаты слов. Прорыва в будущее, правда, не произошло, но и ни одна из новейших технологий упущена не была. К началу 2001 года было проиндексировано 12 млн документов. Если же говорить о Google, то на указанный момент он проиндексировал около 1,25 млрд документов. Впрочем, русских из них порядка на два меньше, так что размеры баз всех упомянутых машин сравнимы. С качеством поиска у Google определенные проблемы – морфологию слов «американец» не понимает. На старт! Внимание... Чтобы не пересказывать данные, полученные из вторых (а то и третьих-четвертых) рук, было решено провести собственное тестирование. Или, если хотите, соревнование поисковиков. На приз «Ищейки». При создании методики использовались соображения Ильи Сегаловича (www.searchengines.ru/ubb/Forum4/HTML/000023.html), полезную идею высказал также редактор Александр Сергеев. Прежде всего, выбирается несколько запросов из разных областей знаний, причем они обязаны удовлетворять ряду требований. Так, в них не должно быть неоднозначности или двусмысленности. Очевидно, что запрос «руки вверх» является неудачным, поскольку в ответ на него выдаются ссылки и на материалы об известной поп-группе, и на тексты шпионских романов. Количество ссылок, возвращаемых по этим запросам каждой машиной, должно превышать два десятка. Этим мы ограничиваем область поиска снизу – нас не интересует поиск особо раритетных документов. Ограничение сверху установить труднее, так как поисковые машины по-разному обращаются с «хвостом» выборки. Поэтому в качестве критерия решено было использовать число документов, находимых Rambler, – их должно быть не более 500. Таким образом, мы не ориентируемся на поиск широко представленной в Сети информации. Нас интересует, как проявят себя поисковики при отыскании информации, которая может не найтись сразу, но все же далеко не уникальна. Вся механика Для нашего соревнования были выбраны следующие запросы: При работе с поисковиками все настройки оставляются по умолчанию. После получения результатов поиска делается попытка открыть ссылки, которые по описанию выглядят подходящими. Если ссылка не открывается, отмечаем, что она «мертвая». Если ссылка освещает тему достаточно полно, даем ей оценку 1. Если дана лишь минимальная информация, но она имеет отношение к теме или может помочь в дальнейшем поиске, то присваиваем ей оценку 0,5. Если документ совпадает (или почти совпадает) с текстом, который уже был открыт раньше, помечаем, что это копия, и не учитываем ссылку как полезную. Для каждого запроса находим сумму оценок по первой десятке ссылок, второй десятке и по десятке из середины списка (например, если найдено 90 документов, то средней десяткой будут документы с номерами 41–50). Для каждого запроса и интервала оценки нормируются так, чтобы их сумма по всем четырем поисковикам была равна 4. Таким образом, оценка больше 1 означает превышение над средним уровнем. Далее вычисляется среднее по всем запросам. Конечно, для получения более достоверных результатов следовало проверять машины не на пяти, а на 50, лучше 500 запросах, да и детали методики можно было бы еще долго шлифовать. Однако картина по 5 запросам подтверждает то, что заметно и по одному отдельно взятому. Поэтому рискнем сделать некоторые заключения. Результаты или... Крепко сидите на стуле? Заключение первое, маловажное. Из табл. 1 видно, что Rambler по количеству «мертвых» ссылок и копий документов никому не уступает первенства. Отсутствие «мертвых» ссылок во втором десятке ссылок у Aport явилось, конечно, всего лишь следствием малого размера выборки. Заключение второе, удивительное. Из табл. 2 видим, что на данной выборке лучшей поисковой машиной для Рунета оказывается американский Google, а прославленный Яndex «пасет задних». И обратите внимание: старичок Rambler совсем не так плох, как хотелось бы отдельным несознательным элементам. Почему этого не может быть никогда и почему это произошло Результат автора просто огорошил. Уже упоминалось, что Google не понимает формы слов, поэтому конкурировать с русскими машинами ему должно быть крайне тяжело. А по оценкам релевантности частотных запросов, которые проводили очень даже серьезные люди (www.netoscope.ru/theme/2001/06/21/2662.html), Яndex считается лучшей машиной для поиска в Рунете. Почему результаты двух тестирований различаются? Похоже, все дело в том, что измерялись разные параметры. Цифры во второй таблице с релевантностью связаны, но достаточно сложным образом. Сначала автору показалось, что расхождение можно объяснить тем, что в тестировании от «Ищейки» копии документов игнорируются, хотя являются релевантными ссылками. Показатели были пересчитаны и добавлены в таблицу. В результате Aport сильно поплохело, Rambler и Яndex – похорошело, но показатель последнего по-прежнему оставался самым низким. Вероятно, объяснить данный феномен можно тем, что первое тестирование проводилось на самых частых запросах, а запросы от «Ищейки» хоть и не экзотические, но и не самые частые. Кстати, обратите внимание: по результатам из середины списка Яndex лидирует! Создается впечатление, что распределение релевантных ссылок, выданных в ответ на наши запросы Яndex, имеет очень длинный и толстый «хвост», и если подсчитать количество документов в этом «хвосте», еще неизвестно, у какой из машин их будет больше. Хороша ли такая «хвостатость»? Вряд ли для кого-то будет актуально, что между 200-й и 300-й ссылками у Яndex на 10 полезных документов больше, чем у прочих поисковиков. Думаю, любой пользователь предпочтет иметь на один полезный документ больше, но на первой странице. Возможно, Яndex сумеет лучше себя проявить при поиске более редких страниц, но такое утверждение требует отдельного исследования. Теперь о Google. Объяснить его лидерство можно, например, следующими соображениями: 1. База данных русских документов у Google не такая маленькая, как может представляться из абстрактных соображений. 2. «Американец» индексирует странички, расположенные на «халявных» серверах в доменах .com и др., а прочие поисковики этого не делают (или делают в порядке исключения). 3. И, что, возможно, более важно, Google вычисляет индекс цитирования не только по Рунету (именно так поступают русские поисковики), а по всему Интернету. В результате на оценку релевантности документов работает вся огромная мировая база документов. Это, определенно, помогает ему отличать зерна от плевел. Обратите внимание, у Google не только высокий рейтинг в первой-второй десятке, но и самый низкий в середине списка. А это значит: когда остальные поисковики еще продолжают выплевывать релевантные ссылки, Google уже отдыхает – он выдал такие ссылки на первых страницах. Написав эти строки, автор отправился на Google и проверил: а действительно ли на запросы в тесте «Ищейки» выдается так много страниц с «халявных» зарубежных серверов? Оказалось, что страницы такие в результатах запроса есть, но их процентов пять, а то и меньше. Отсюда следует, что второй и третий аргументы в значительной мере теряют свою силу. И что же остается? А остается четвертый аргумент: поисковая машина Google имеет лучший алгоритм ранжирования ссылок. Марш-марш на Google? Затевая это исследование, автор, среди прочего, надеялся решить для себя вопрос, переходить ли с Aport на Яndex. Но результаты оказались настолько неожиданными, что вопрос трансформировался: Aport или Google. У Aport в последнее время серьезные финансовые проблемы (www.netoscope.ru/news/2001/06/28/2739.html), и, возможно, этот замечательный поисковик не доживет до конца года. К счастью, альтернатива есть. Почти полтора миллиарда ссылок. Похоже, тут действительно найдется все. Сергей Белецкий |
|
2000-2008 г. Все авторские права соблюдены. |
|