Библиотека Интернет Индустрии I2R.ru |
|||
|
Александр Быков о Персональном поиске ЯндексаАлександр Быков, руководитель проекта «Персональный поиск Яндекса» (ППЯ), согласился ответить на несколько вопросов Константина Рощупкина, известного росийского копирайтера, автора проекта SEOText. — Александр, ППЯ появился, когда программы для организации поиска на локальном компьютере были представлены на рынке в достаточном количестве. Что не устраивало сотрудников Яндекса, например, в Google Desktop, Copernic Desktop Search или в SearchInform? Например то, что эти продукты были не наши :-). То есть, не были предназначены для русскоязычных пользователей. Мы делали функциональный продукт с поиском по русскоязычным документам. Надеемся, что получилось. — А когда идея создать свой собственный desktopsearch в Яндексе оформилась в проект? Когда начались разработки? Непосредственно разработка началась в январе 2005-го, а вообще - идея годами витала в воздухе. — Сколько сотрудников работает над проектом ППЯ? Надо понимать, что 92% кода ППЯ – это поисковое ядро и парсеры, которые используются во всех поисковых проектах Яндекса, в их разработке участвуют десятки людей. Остальные 8% были написаны специально для этого проекта небольшой командой. — Сколько человек уже скачали ППЯ с вашего сервера? По нашим данным, ППЯ сейчас ежедневно используют более 10 тыс. человек. И это только те, кто приходит к нам за обновлениями. Непосредственно установок было больше – ведь ППЯ распространяется не только через наш сервер, но и другими способами (например, выходил на дисках – приложениях к нескольким журналам). — Когда будет следующая версия? На подходе - версия 1.0, которая должна быть «стабильной». То есть, в ней не будет новой функциональности, но будут исправлены многие недочёты. Новая функциональность добавится в следующих версиях, которые тоже не за горами. — В ППЯ используется тот же алгоритм ранжирования документов, что и в большом Яндексе? Да, алгоритм такой же, это определяется общим поисковым ядром. Тем не менее, этот алгоритм имеет множество настраиваемых параметров. У «большого» Яндекса одни настройки, у Яндекс.Сервера – другие, у ППЯ – третьи. Так, в ППЯ запрос из нескольких слов ищет слова во всем документе, а в «большом» Яндексе - в пределах предложения. В обоих случаях при ранжировании учитывается близость слов. — На локальном компьютере пользователя много документов Word. Но в отличие от документа HTML, в них нет такого блока как тег title, важного при расчете релевантности документа. Есть только глубоко в свойствах документа поле «заголовок», которое заполняется первой строкой текста. Значит ли это, что документы Word обречены иметь более низкий вес при ранжировании результатов поиска? Нет. Во-первых, вы сильно преувеличиваете роль тега title при ранжировании html-документов. Во-вторых, указанный вами заголовок из свойств документа Word обрабатывается аналогично тегу title. — Понимает ли ППЯ полностью язык запросов большого Яндекса? Язык запросов большого Яндекса является частной реализацией языка запросов поискового ядра. В основном в ППЯ и большом Яндексе язык запросов совпадает. — Какие еще типы файлов для индексации вы планируете подключать в ППЯ? Ответ очевиден - те, которые наиболее востребованы нашими пользователями. Следите за обновлениями ;-) — Можешь примерно сказать, сколько времени занимает программирование и реализация дополнительных возможностей ППЯ? Например, сколько месяцев вам понадобилось для того, чтобы подключить возможность индексации баз Outlook. Общего ответа нет: даже похожие задачи иногда различаются по трудоёмкости в десятки раз. Так, индексация писем в Outlook обошлась нам в полтора месяца работы, а вот Outlook Express был освоен за пару недель. Кроме того, мы иногда сознательно объединяем несколько задач в одну и делаем их параллельно. — Будет ли в ППЯ возможность навигации по недавно измененным (проиндексированным) документам? Например, за день, неделю или месяц? Она есть уже сейчас. Достаточно использовать оператор date="", который описан в справке по языку запросов Яндекса (http://help.yandex.ru/search/?id=481939). — Александр, расскажи, пожалуйста, подробнее про вкладку «Сохранённые страницы». Какие и откуда документы попадают в нее? Данная вкладка содержит в себе все документы из кеша браузера Internet Explorer. В следующих версиях туда же будут попадать документы из кеша Firefox и Opera, которые сейчас можно найти в разделе «Документы». — Думали ли вы сделать на большом поиске Яндекса еще одну вкладку «Персональный поиск», которая будет появляться, если у пользователя установлена программа? Думали. И пришли к выводу, что подобная смесь из локального и глобального поиска неудобна и неочевидна, и, более того, в первое время будет просто пугать пользователей, которым будет казаться, что их персональные данные видны всему свету. — Может ли ППЯ быть интегрирован в результаты поиска по Интернету? Станет ли ППЯ по настоящему персональным поиском, например, учитывая поведение пользователя или его предыдущие запросы? Что касается интеграции с большим поиском, то она, безусловно, будет. — Ведешь ли ты еще какие-то проекты в Яндексе? Безусловно – Яндекс.Бар, Яндекс.Сервер. — Что ты чаще всего ищешь своим Персональным поиском Яндекса? В основном – всяческие текстовые заметки, сделанные где-либо в срочном порядке. — Расскажи, пожалуйста, какой-нибудь забавный случай из истории ППЯ. Например, когда мы тестировали новую версию MP3-парсера, в результате первого же теста мне удалось лишиться всей своей MP3-коллекции. Из-за того, что в коде остался пережиток прошлого в виде команды «удалить весь созданный мусор после индексации». — Александр, большое спасибо за ответы на вопросы. Мы надеемся, что ППЯ будет развиваться и принесет большую пользу каждому пользователю. Желаю удачи тебе, Яндексу и ППЯ! Удачного поиска! Вопросы задавалКонстантин Рощупкин (seotext.ru) Рунет, январь 2006 г.
— Статьи по теме: Вопросы задавал |
|
2000-2008 г. Все авторские права соблюдены. |
|