Библиотека Интернет Индустрии I2R.ru |
|||
|
Хроническая болезнь поисковых системКонкуренция захватывает Интернет. Чтобы не отстать в борьбе за потребителей фирмы создают сайты и при помощи них привлекают новых клиентов. Для достижения успеха сайту необходимо выделиться в информационной среде, занять свое место, стать известным среди потребителей и легко находимым в поисковых системах. Отношения сайтов и поисковых систем далеко не простые. В 2000-м году был опубликован перевод статьи Дэвида Гиканди "Что надо знать о спамдексинге". Сегодня этот термин нуждается в ревизии, смысл слова "спамдексинг" намного шире, чем три года назад. Понимание спамдексинга как способа недобросовестной рекламы в поисковых системах уже не охватывает всех его проявлений и их последствий. В этой статье мы рассмотрим историю развития поискового спама и современное состояние проблемы. Спамдексинг - буквально - спам индексов поисковых систем. Само слово "спам" в определении придает ему негативную окраску. В самом деле, приемы, применяемые спамерами (слово "спамдексер" не прижилось, поисковых спамеров и почтовых спамеров называют одинаково), могут уничтожить качество результатов поиска и значительно увеличить нагрузку на серверы поисковика. Поэтому владельцы поисковых систем солидарны: спамдексинг - это зло. Лучше всего об этом сказано в Лицензии Яндекса (часть 3. "Индексация сайтов") Иная точка зрения у веб-мастеров, рекламирующих свои сайты при помощи спама. Спамдексинг - ряд приемов, позволяющих постоянно получать посетителей из поисковых систем либо практически бесплатно, либо с очень небольшими затратами по сравнению с расходами на рекламу в тех же поисковых системах. Пока есть возможность получать выгоду от использования неэтичных приемов "прописки" сайтов в поисковых системах, избавиться от поискового спама вряд ли удастся. Спамеры возникли одновременно с поисковыми системами, а цели спамеров и разработчиков поисковых машин, в принципе, одинаковы - и те, и другие хотят получать посетителей на свои ресурсы. Разработчики пытаются делать это, повышая качество поиска, в результате деятельности спамеров качество, наоборот, стремится к нулю. Но в борьбе со спамерами разработчики улучшают алгоритмы поисковиков, воплощают в жизнь новые идеи, поэтому развитие современных поисковых технологий многим обязано спамерам. Таким образом, спамдексинг, с одной стороны, является неизлечимой "хронической болезнью" поисковых систем. И одновременно - мощным стимулом их развития. Мы будем рассматривать этапы противостояния разработчиков поисковых машин и спамдексеров как борьбу идей, в отрыве от хронологии. О пользе порнографииНачало конфликту между поисковыми системами и спамерами положил тег meta keywords - "ключевые слова". По правилам хорошего тона, в него надо записывать слова, максимально точно соответствующие содержанию веб-страницы. Поисковые системы искали соответствие между словами запроса пользователя и словами, находящимися в этом теге. Очевидно, что чем чаще пользователи употребляют какое-то слово в поисковых запросах, тем чаще будут показываться ссылки на страницы, содержащие это слово в теге meta keywords. В те времена (1995-2000) только начали появляться и искать заказчиков первые веб-дизайнеры, и они не упустили возможности легкой рекламы, заполнив свои теги наиболее частотными ключевыми словами - sex, porno и т.п. - эта тематика очень популярна в Интернете. Но adult веб-мастерам конкуренция по "родным" запросам с дизайнерами пришлась не по вкусу и они добавили в свои теги не менее частотные слова "халява", "бесплатно", "работа", "компьютер", "дизайн" и т.п. В итоге теги большинства сайтов стали неотличимы друг от друга, а результаты поиска непредсказуемы. Легко было найти порноресурс по запросу "дизайн" и, наоборот, по запросу "эротика" наверху показывались предложения веб-разработчиков. Такая путаница привела к тому, что поисковые системы стали обращать внимание не только на специальные теги, но и на сам текст добавляемой в базу данных страницы. Это был очень большой шаг в развитии поисковых технологий. "Ожирение" у ключевых словКак алгоритмически отличить текст об автомобилях от текста о телевизорах? Скорее всего, в первом случае в тексте должно встречаться слово "автомобиль" и довольно часто. Во втором тексте будет повышена частота слова "телевизор". Отношение числа вхождений выбранного слова к общему числу слов в тексте называется весом выбранного слова. Логично предположить, что чем больше вес слова в документе, тем больше документ соответствует теме, определяемой этим словом. Именно такой принцип ранжирования применили разработчики первых поисковиков, индексирующих тексты документов: в ответ на запрос пользователя алгоритм выбирал из базы данных ссылки на документы, содержащие слова запроса, и ранжировал список ссылок по убыванию веса заданных пользователем слов. Спамеры не задержались с очевидным ответным ходом: если важен вес, его надо увеличить. Искусственное увеличение веса ключевых слов называется "накачка" и это один из базовых приемов спамдексинга. Целью спамера является не занятие своими ссылками верхних строчек результатов поиска, а показ пользователю страницы со своим рекламным предложением. Но накачанный текст абсолютно нечитаем для пользователя - это бессмысленная мешанина из нескольких слов или абзацы, состоящие из одного-единственного слова. Поэтому дальнейшие "разработки" спамеров были посвящены решению проблемы - как сделать, чтобы поисковые системы индексировали и ранжировали накачанный текст, а пользователи видели - нормальный. Обеспечивающие результат приемы можно разделить на три группы, это техники а) скрытия текста, б) перенаправления посетителя и в) замены текста. Игры в пряткиТекст, написанный белыми буквами на белом фоне, невидим для читателя, зато хорошо виден поисковому роботу. Таким нехитрым способом спамеры стали скрывать блоки накачанного текста от пользователей. Поисковики ответили на это разработкой фильтров, автоматически проверяющих цвета текста и фона, в случае совпадения страница исключалась из базы данных. Модификацией этого трюка является мелкий текст, часто, наряду с мелким шрифтом, используют еще и маскирующую цветовую гамму, например, светло-серым по белому. Сегодня при помощи каскадных таблиц стилей (CSS) можно обойти любой автофильтр и разместить на сайте сколько угодно скрытого текста. К счастью, на помощь поисковикам пришла конкуренция среди самих спамеров - наличие на сайте текста, не предназначенного для посетителей, однозначно трактуется как спамдексинг, и модераторы поисковых систем без сомнений исключают такие сайты из индекса. Обнаружить их помогают конкуренты, попросту "стуча на врагов" в поисковую систему. Если веб-мастер имеет конкурентов, разбирающихся в проблеме спама, разместить на своем сайте скрытый или мелкий текст - "самоубийство", через некоторое время ресурс гарантированно пропадет из поисковой выдачи. Еще одним местом сокрытия текста for search engines only является тег noframes, используемый для отображения страниц с фреймовой версткой на браузерах, не поддерживающих фреймов. Но сегодня вряд ли найдется сотня человек, у кого есть такие браузеры. Тег было удобно использовать как "естественное" хранилище для накачки, хорошо индексируемое поисковиками, показывая во фрейме информацию, предназначенную для пользователя - это называлось "бридж-страницами" и одно время успешно применялось. Шел в комнату, попал в другую...Крылатая грибоедовская фраза точно передает суть даже не технологии, а идеологии, которая является наиболее неприятной для поисковых систем - технологии входных страниц или дорвеев (doorway - калитка, вход). Следуя ей, продвигать в поисковых системах надо специальную страницу - дорвей. И когда из поисковика на дорвей перейдет посетитель перенаправить его на целевую (рекламную) страницу. Для одной целевой страницы можно создать и разместить в Сети неограниченное число дорвеев. В результате поисковые системы вынуждены индексировать и пытаться ранжировать огромную кучу мусора, не имеющего ничего общего с реальными текстами и предназначенного только для поисковых роботов. Была извращена сама идея поиска в документах - технология дорвеев вынуждает поисковые системы искать в специально созданной для них помойной яме. Для создания дорвеев использовались не только слова, прямо относящиеся к теме продвигаемого сайта, но и наиболее частотные запросы. Что это такое, мы уже рассмотрели. Дорвей, как правило, размещается не на рекламируемом сайте, поэтому удалить целевой сайт из индекса и наказать спамера модератор поисковой системы не может. Он может только удалить страницу или весь сайт, на котором размещены дорвеи. Но на смену удаленным тут же возникают новые. Существуют специальные программы - генераторы дорвеев, производящие эту "продукцию" десятками тысяч. Бороться с дорвеями сложно. Автоматически можно "поймать" только некоторые варианты редиректа (перенаправления) посетителя на целевую страницу. Но таким фильтрам спамеры противопоставили простейший прием: вместо автопереброса, пользователю предлагалось самому перейти на целевую страницу, человек видел лишь надпись "ВХОД НА САЙТ" и волен был выбрать - либо уйти с дорвея, либо посмотреть, что же все-таки есть на сайте. Вспышки массового появления дорвеев, как эпидемии, и сегодня периодически охватывают поисковые системы, радикального средства автоматического распознавания входных страниц еще не создано. Ловкость рук - и никакого мошенничестваСледующие два приема похожи на фокусы, когда в руках манипулятора шляпа превращается в букет роз, веревочная петля в кроличьи уши и т.п. Это клоакинг и своп - техники замены содержимого проиндексированной страницы. Клоакинг (cloaking - сокрытие) - методики распознавания визита на страницу сайта поискового робота и показа специально созданной для него страницы. Посетители видят другие тексты. Клоачная страница, своего рода, "оборотень". Это высший пилотаж спамдексинга, при успешном его применении вводятся в заблуждение не только поисковые роботы, но и конкуренты - они не могут увидеть реальное содержание страницы, ранжируемой поисковиком. Более простая техника - своп (swap - замена, обмен), иное название bait-and-switch. Поисковые роботы регулярно посещают известные им страницы и отслеживают изменения, но между двумя визитами робота проходит какое-то время, иногда несколько недель, а то и месяцев. Прием состоит в том, что содержание проиндексированной страницы, рассчитанное на поискового робота, после индексации заменяется на "пользовательское". Такие страницы живут недолго, пока не вернется робот, либо пока конкуренты не пожалуются модератору поисковой системы, но так как генерируются они большей частью автоматически, способ себя окупает. Принцип эхаПоисковые системы, по большому счету, являются машинами по поиску цитат, и каждый поиск отталкивается от слов, введенных пользователем в поисковую форму, - поискового запроса. Поисковики ищут цитаты запроса в текстах и тегах проиндексированных страниц. Чем полнее цитата, тем выше страница в результатах поиска. Литературный язык сайтов отличается от естественного языка поисковых запросов, поэтому для многих запросов, состоящих более чем из трех слов, полных цитат не находится, либо они находятся на форумах, где те же пользователи в том же виде формулируют интересующие их вопросы. Поисковая система "эхом" возвращает посетителю ссылку на страницу с его же вопросом. Как аукнется, так и откликнется. Поисковые системы аккумулируют гораздо большее количество запросов, чем форумы, и дают возможность наблюдать за спросом - реальными формулировками поисковых запросов и их частотами. Если разместить на дорвеях большое количество таких формулировок, то поисковые системы начнут выдавать ссылки на эти страницы по критерию "совпадение фразы", цитата. Этим свойством пользуются спамеры, автоматически собирая поисковые запросы и создавая на их базе входные страницы. Скажи мне, кто твой друг...Вышеперечисленные приемы и техники - это, так сказать, "классический" спамдексинг. Их объединяет одно свойство: все они основаны на идее соответствия текста продвигаемой страницы и поискового запроса, и любой из приемов спамер может реализовать самостоятельно, не прибегая к помощи других веб-мастеров. Сегодня поисковые системы убедились, что бороться со спамдексингом, принимая во внимание только текстовые критерии ранжирования, невозможно. В противовес текстовому спаму были разработаны методы ссылочного ранжирования. Идея ссылочного ранжирования - опереться на учет авторитетности веб-страниц при сортировке результатов поиска. Допустим, какае-то две страницы по текстовым критериям соответствует поисковому запросу. В качестве дополнительного критерия поисковик смотрит, как много других страниц (сайтов) в Интернете ссылаются на каждую из них. И при равных текстовых характеристиках в результатах поиска выше ставит ссылку на страницу, у которой больше "авторитет", т.е. на которую больше ссылаются с других ресурсов. С небольшими вариациями большинство поисковых систем уже ввели критерий ссылочного ранжирования в практику. Новация поисковиков вызвала к жизни волну "непотистского спама", термин И. Сегаловича. Слово "непотизм" означает кумовство, протекция. Непотистская ссылка - ссылка, поставленная "по протекции", исключительно с целью подъема позиции в результатах поиска. Расстановку таких ссылок можно делать несколькими способами.
Непот-спам не уродует результаты поиска, как это делают дорвеи - ссылки все-таки ставятся на страницы, предназначенные для посетителей. Его вред в другом. Все больше требуется страниц, с которых можно ставить ссылки, и Интернет начинает принимать довольно уродливые формы. На многих сайтах специально для этой цели создаются миникаталоги, разделы "Наши ссылки", "Интересные сайты" и т.п. Десятками появляются и быстро растут все новые "тематические каталоги" - их общее количество в Рунете уже перевалило за четыре сотни. Любая немодерируемая гостевая книга, где есть возможность автоматического добавления записи, быстро оказывается заполненной не сообщениями, относящимися к сайту, где она размещена, а рекламными текстами с обязательной прямой ссылкой. На страницах известных сайтов в самых неожиданных местах появляются "рекламные блоки", врезки "мы рекомендуем", "это стоит посмотреть" и т.п. Сайты, используемые для размещения непот-ссылок, так и называются - фермы ссылок (link farm). Борьба поисковых систем с ссылочными фермами заключается в добавлении все новых и новых ресурсов в так называемые "непот-фильтры", ссылки с сайтов, занесенных в эти списки, не учитываются при ранжировании результатов поиска. Точных формальных критериев отнесения сайтов к линкфармам нет, вопрос о помещении ресурса в непот-лист в каждом случае решает модератор поисковой системы. Стратегический спамдексингВ последние полтора-два года развивается новая технология конкурентной борьбы в поисковых системах, которая, с одной стороны, абсолютно безопасна в плане применения - поисковые системы не могут каким-то образом оштрафовать, исключить из индекса или иным образом наказать компании, ее использующие. С другой стороны, технологию можно смело отнести к спамдексингу, потому что смысл ее тот же - вытеснение конкурирующих ресурсов из результатов поиска. Мы назвали ее стратегическим спамдексингом, потому что, последовательно применяя все необходимые мероприятия, компания может добиться значительного преимущества, а в идеале и монополии в поисковых системах. Смысл технологии в следующем. Фирма, торгующая каким-либо товаром, создает в Сети более одного корпоративного сайта или Интернет-магазина. Сегодня уже имеются компании, у которых по три-четыре ресурса. Сайты сделаны профессионально и отличаются друг от друга дизайном, текстами, деталями структуры. Сходство в одном - они предлагают одни и те же товары одной и той же фирмы. Каждый из "филиалов" продвигается, как самостоятельный ресурс, прописывается во все поисковые системы и каталоги и для него выполняется полный комплекс работ по поисковой оптимизации. В результате по наиболее привлекательным с коммерческой стороны поисковым запросам в первой десятке результатов поиска появляется по 2-3 ссылки, ведущие на разные сайты одной фирмы. Несложно подсчитать, что если фирма создаст и сможет провести в десятку не три, а 10 сайтов, шансов на выигрыш у конкурентов уже не останется. К тому же продвигать 10 различных хорошо сделанных ресурсов намного легче и эффективнее, чем один, ведь неважно, какой из сайтов прорвется наверх по нужному запросу. Вред от такой технологии бесспорен. Во-первых, результаты поиска перестают быть объективными и превращаются в рекламу одной-двух компаний, которым удалось первыми создать и развить подобную "информационную сеть". Во-вторых, конкурентам ничего не остается, как следовать тем же путем и создавать ненужные филиалы - снова начинается рост количества страниц, предназначенных исключительно для поддержки позиций в поисковиках. Все это напоминает гонку вооружений: никто не может выиграть, но никто не может и остановиться. Ситуация начинает выходить из-под контроля поисковиков. Привлекательность высоких позиций в поиске настолько велика и коммерчески значима, что трудно предположить, будто бизнесменов остановят программные заявления администраций поисковых систем о необходимости поддерживать объективность и качество результатов поиска, либо соображения об этике. Видимо, нас ждет какой-то новый прорыв в поисковых технологиях. Ведь если владельцы поисковых систем не найдут способ, как самим управлять результатами поиска, за них это сделают спамеры. |
|
2000-2008 г. Все авторские права соблюдены. |
|