Библиотека Интернет Индустрии I2R.ru |
|||
|
Web 2.0 и тэговый спам05.01.2007 20:45 Зачем мне ваша флейта? Я через нее противника не могу наблюдать... Вначале был текст. Потом, чтобы различать тематику текстов, придумались ключевые слова. Два-три ключевых слова, как правило, точно и исчерпывающе описывали тематику статьи, поэтому применялись (и до сих пор применяются) в научных и серьезных статьях (монографиях). Поскольку первыми пользователями были ученые осваивающие Сеть, то использование ключевых слов дало простой, но достаточно мощный и эффективный механизм поиска и группировки статей на необходимую тему без использования сложного (и неудобного для Web) библиотечного каталога. Когда блоггеры столкнулись с той же проблемой - поиском и группировке записей по определенной теме, то применили тот же механизм - ключевые слова. Тэги С ростом социализации глобальной сети и распространением идей фолксономии в ход пошла несколько переработанная "версия" ключевых слов - тэги (tags). Реинкарнация потребовалась из-за того, что ключевые слова оптимизированы под каждый сайт или блог - и, если попытаться объединить ключевые слова с разных блогов в одну кучу, то такие разношерстные наборы фолксономия не потянет. Технически же тэги от ключевых слов мало чем отличаются, главным образом упрощением: таги (в отличие от ключевых слов) не могут быть иерархическими и состоять из нескольких слов. Отличие тэгов от ключевых слов - в основном в "схемах использования". Если ключевые слова чаще всего отражают основные темы записей (статей) и ориентированы на "внутреннее использование", то тэги ориентированы на "экспорт" (хотя никто не запрещает их использовать и локально) в общую копилку (распределенная фолксономия возможна, но сложна в реализации). Копилка может быть как глобальной (Technorati), так и не очень (на уровне сервиса; например, diigo). Наличие копилки приводит к двум интересным моментам: - для тэгов лучше не использовать уникальные слова - они будут тонуть на фоне частоупотребимых и, соответственно, "вылетать" из "облака тэгов" - популярного средства презентации тэгов посетителям, - поиск, если его специально не ограничивать, будет идти по этой копилке и показывать результаты сразу из нескольких источников при достаточно условной релевантности. Кроме того, тэги - это максимальное упрощение классификаторов, так как более продвинутые системы массовый лемминг может и не освоить - ему нужны максимально простые и удобные возможности. Шумы Такие нюансы и приводят к тому, что в тэгах присутствуют не только главные темы, но и все упомянутые в заметке или статье темы. Поэтому ситуация, когда на десять предложений в заметке приходится десять тэгов - вполне нормальная. Чем больше тэгов - тем больше вероятность, что статью (заметку) найдут. Так сайты и становятся генераторами шума (кстати, если взять текст заметки, выкинуть общеупотребимые слова, а оставшиеся использовать в качестве тэгов - то получится весьма продвинутый генератор шума). Обратная сторона такого подхода - при поиске по какому-то тэгу мы найдем кучу записей, но больше 90% записей будут для нас бесполезны, так как нужная нам тема упоминается в них вскользь и не является основной. В итоге: искать (делать выборку) по тэгам можно, но толку от этого мало - шумов много. Соответственно, эффективность использования тагов составляет порядка 10% от возможной. Зашумление, кстати, проблема не только тэгов, но и остальных социальных инструментов Web 2.0. Гадкие спаммеры Пользователям Web 2.0 невероятно везет. Спаммеры пока еще мало внимания обращают на социальные сети и сервисы. Но как только обратят - все сильные стороны (которые и привлекают пользователей) тут же станут их слабым местом. Например, в один прекрасный момент вы с удивлением обнаружите, что в закладочном сервисе по тэгу "php" выдаются линки не на php, а на порнуху, хотя их описание практически совпадает с "правильными". Если спаммеры перейдут с массовых методов ковровой бомбардировки на использование более тонких социальных методов (на использовании которых и основаны Web 2.0 сервисы и сети), то деваться будет уже некуда, так как спам будет распознаваться только в последний момент. Тогда же, наверное, и появится термин "социальный спам". По крайней мере, термины "тэговый дорвей" или "дорвей в стиле Web 2.0" уже есть. А фильтров, способных противостоять такой технологии, пока нет. В "Яндексе" вообще полагают, что спамить тэги нет смысла. В этой ситуации сервисы действительно ничего не проигрывают, а вот пользователи... пользователи будут вынуждены обратиться к информационным посредникам и менеджерам знаний. Автор: Владимир Чернышов Материалы по теме:
Текст - Вадим Артамонов последние новости 22.01.2007 19:31 | Firefox «ворует» идеи у Opera, Opera «ворует» идеи у Firefox...» 21.01.2007 15:46 | Первая конференция веб-разработчиков состоится в апреле...» 19.01.2007 19:27 | «Яндекс» оживил слоган шестилетней давности. У «Яндекса» лучший слоган 2006 года?...» 18.01.2007 16:15 | Adobe выпустила Flash Player 9 для Linux...» 17.01.2007 13:17 | Web 2.0 и тэговый спам...» 15.01.2007 15:34 | Corel поддержит и ODF, и Open XML...» 11.01.2007 17:22 | Контекстная реклама в AdWords становится слишком дорогой...» 10.01.2007 15:34 | Semonitor 3.5 расширяет возможности...» 05.01.2007 20:45 | Web 2.0 и тэговый спам...» 02.01.2007 17:20 | Оптимизация блога: аккуратный метод...» 02.01.2007 14:06 | Photoshop CS3: быстрее и богаче возможностями...» 01.01.2007 19:24 | "Кривые" сайты вызывают у людей синдром мышиного бешенства...» 01.01.2007 17:05 | Новый алгоритм Google для борьбы со спамом...» 01.01.2007 16:59 | Corel поддержит и ODF, и Open XML...» 30.12.2006 16:26 | Adobe делится новостями: After Effects & Creative Suite 3.0...» 27.12.2006 21:54 | О выходе версии 8.1 платформы "1С:Предприятие"...» 27.12.2006 20:59 | IE 7 будет проверять безопасность сайтов...» 22.12.2006 18:28 | Поисковая система Codavr.Ru для вебмастеров...» 20.12.2006 20:33 | Из популярных сайтов вычли поп-апы...» 19.12.2006 20:25 | Технология CSS отпраздновала десятилетие...» |
|
2000-2008 г. Все авторские права соблюдены. |
|