Capel.ru: основа поиска – инверсный индекс. Алгоритм, по которому работают все поисковые машины. Единственное отличие – система не использует ссылочного ранжирования. Понятно, что принцип ссылочного ранжирования должен работать в замкнутой сфере ( т.е. если идет индекс внутри доменной зоны .ru , то ссылки должны учитываться только с доменов .ru, так же как и глобальное ссылочное ранжирование справедливо для всего Интернет в целом. Правда, тогда нужно учитывать и ссылки со всех сайтов, включая китайские блогги). Отсутствие ссылочного ранжирования связано с тем, что система не глобальна, а ищет только в четырех основных тематиках : реклама/полиграфия/сувениры, недвижимость/строительство/материалы, авто/мото/другие виды транспорта и компьютеры/связь/электронные компоненты.
Алгоритм расчета релевантности представляет собой достаточно сложную структуру, которая учитывает плотность ключевых слов внутри предложений и/или текстовых блоков (абзацев).
Распределение релевантности приведено на графике ниже.
Несколько дополнительных тезисов нового алгоритма
- Система учитывает только точное совпадение. Если искомый текст разбросан по всей странице, но не описан единой фразой – это не точное совпадение. В этом случае релевантность будет учитываться, как минимальная.
- Если страница содержит более 6 внешних ссылок, то она в базу не заносится. Сайты, ориентированные на бизнес редко ставят внешние ссылки с внутренних страниц в большом количестве. Главные же страницы ( с которых ставят много ссылок) редко несут полезную для пользователя информацию.
В выдаче появился поиск по сайту, сохраненные данные (кэш), а так же подсветка найденных слов.
В настоящее время ведется работа по заполнению поисковой базы направлений услуги и промышленность. Так же ведется работа по созданию системы контекстной рекламы.
Статьи по теме: