Главный редактор "Яндекса" Елена Колмановская комментирует статью, посвященную запуску "быстрого" робота "Яндекса", индексирующего определенную часть Рунета.
Как удалось увеличить скорость индексирования?
База быстрого робота — это менее 1% всей базы, поэтому процесс обхода документов и выкладывания может происходить заметно чаще без существенного увеличения нагрузки.
Выборка из быстрой базы делается одновременно с выборкой из медленной?
Да. В момент запроса метапоиск обращается как к основным поисковым машинам, так и к машинам с базой быстрого робота. Основную базу некорректно называть "медленной", ее обновление происходит каждые 2–3 дня.
Пришлось ли ради этого увеличивать серверный парк?
Мы добавили десяток серверов к примерно пяти сотням, на которых работал поиск и робот.
Насколько возросла нагрузка на сервера?
"Быстрая база" расположена на отдельных серверах.
Планируется ли в дальнейшем увеличивать скорость?
Возможно, но скорость выкладывания не является самоцелью. Работа над быстрым роботом подразумевает: обнаружение актуальных документов; оперативную индексацию и выкладывание; правильное ранжирование. Все три составляющие важны для пользователей.
Сейчас в вашей базе находится почти 800 млн документов. Если учесть все факторы, можно сказать примерно, когда ее размер достигнет миллиарда?
Когда на главной странице "Яндекса" будет написано "Поиск по 1 000 000 000 документов Рунета". :)
И еще — мне кажется, что в этой статье допущена ошибка. А именно — прочтя ее, остаешься под впечатлением, что "Яндекс" априори назначил какие-то сервера актуальными и включил их в быструю базу. На самом деле так не происходит, включение в базу идет постранично и динамично, поэтому состав страниц (и сайтов, с которых они взяты) постоянно обновляется.
Материалы по теме: