Библиотека Интернет Индустрии I2R.ru |
|||
|
Персональный и публичный поиск Capel как альтернатива забвениюИтак, Вы решили подробнее ознакомиться с нашим поисковым сервисом. Немного аналитики, точнее выводов из нее.
Наверное, хватит перечислять то, что Вы и так видите каждый день. Что делать - вот вопрос на который мы должны ответить. Выходов из ситуации всего два. Первый и актуальный - создание поисковых тематических машин, либо Поисковых систем с разделенными базами сайтов. Второй - создание системы глобальных баз данных с возможностью интуитивного поиска. Мы пошли по обоим путям сразу. То есть, пока мы позиционируем нашу машину как тематическую. В основе взята база сайтов о наружной рекламе, полиграфии и сувенирной продукции. Здесь мы пытаемся заполнить её максимально осторожно. Нас интересуют только Российские сайты , правда. уже независимо от их доменного имени. Главное - владелец сайта Российская компания. Связано это только с тем, что вопросы таргетинга лучше всего работают на таргетинговой же базе. К языку сайта это неприменимо - Россия многонациональное государство и языков тоже много, так что неважно: кириллица или латинница лежит в основе языка автора - сайт должен быть проиндексирован. Индексируется только то, что не находится в запрете. Машина не заполняет формы, не вводит пароли. Закрытый от индексации сайт - это закрытый сайт. Даже, если кнопка входа будет одна и безо всяких паролей и форм авторизации. К стандарту robots.txt мы подходим сдержано.То, что можно индексировать, мы индексируем. Реклама , сувениры и полиграфия - три двигателя нашего поисковика, построенного на морфологии языка. Мы не используем чужих индексных баз и алгоритмов ранжирования, поэтому мы - четвертый поисковик рунета. Как это работает: после добавления сайта в базу поиска запускается робот линкатор, который собирает все ссылки с сайта, обходя его рекурсивно. Нам неважно, какая система принята за основную при построении навигации. Робот одинаково хорошо индексирует как статику , так и динамику. Ограничений на индексацию страниц нет, хоть несколько десятков тысяч. Он не коннектится к базам данных, не идет по ссылкам на джава скриптах - наличие их воспринимается нами как скрытая от бота навигация. Далее мы активируем робота-читателя (вы наверное видели в записях агента capel reader). Он собирает контент, делая это осторожно и бережно. Мы не собираемся ни в коем случае "уронить" сервер, поэтому таймаут довольно продолжительный. Все, после этого происходит ранжирование и запись в базу по нашим алгоритмам. Пользоваться поиском просто. В стандартном положении переключателя (свича) происходит поиск по страницам сайтов. Для удобства поиска мы выводим наиболее популярные запросы во вкладку "Статистика системы", где так же показаны кол-ва запросов в день и общее с 5 декабря 2005 года (запуск системы). При активации ссылки запрос, написаный в ней поступает в форму и начинается поиск. В результатах мы выводим скриншоты сайтов. Делается это для того, чтобы пользователь смог легко вспомнить был ли он на этом сайте или нет. Так же над поисковой формой размещены динамические ссылки на разделы. "Наружная реклама" - ссылка на выборку из базы сайтов, содержащих слова "наружная реклама". Слева находится меню "Все Сервисы" , при активации которого открывается вкладка с названиями сервисов. Пока по поиску все. Мало, конечно. Но это только старт. В настоящий момент заполняется база всех рекламных сайтов России для того, чтобы пользователи имели доступ ко всей информации.Это не быстрый процесс, и мы расчитываем на Вашу поддержку. Хотя у нас содержатся сайты со всеми словами русского языка, некоторые из них мы блокировали.Подробнее это описано в разделе "Новости".Так же бессмысленно в этой базе искать не рекламные ресурсы. Кондинционеры там есть и пластиковые окна тоже, но они являются рудиментами рекламных ресурсов и релевантности по ним практически никакой. Конечно, это вносит некий дизбаланс в сознание пользователей, нам приходится выслушивать издевки некоторых людей по поводу ограниченности наших возможностей ( к слову, потом они спрашивают в привате, можно ли на "народе" открыть Поисковую Систему). Но всему свое время. Точно так же мы реализуем остальные базы, которые "завяжем" в единую глобальную сеть.Старт программы CGI (Capel Global Internet) намечен на весну. О рекламе на поисковике рекламы мы расскажем несколько позже. Статьи по теме:
|
|
2000-2008 г. Все авторские права соблюдены. |
|