Sancta simplicitas или... Корпоративные поисковые машины. Библиотека I2R. На сегодняшний день современные корпорации, накопившие колоссальные объемы разнородных, зачастую не вполне структурированных данных, ощутили потребность в поисковых машинах для своих внутренних информационных полей.

Чтобы увидеть такое, мы охотно поднялись бы и на более высокие горы, нежели эта. Фридрих Ницше. Так говорил Заратустра. Приветствие

По мере того, как американская политическая воля и экономика все далее уходят от ранее вполне сознательно раздутых дот-комов, а вектор в виртуальные пространства просто размывается, для всех становится очевидным, что информация чем была, тем и остается — средством вспомоществования вполне прикладным потребностям банального земного существования. Именно потому в современном состоянии корпорации, накопившие колоссальные объемы разнородных, зачастую не вполне структурированных данных, ощутили потребность в поисковых машинах для своих внутренних информационных полей.

Protogenesis

Большую часть своей жизни, вероятно, немало десятков лет, каждый из тех, кто связал свою профессиональную судьбу с информацией, занимается именно ее поиском.

Собственно, еще в начале 70-х годов не было необходимости в том, чтобы понимать поиск информации в компьютерах как отдельную технологию — память ЭВМ была столь малообъемна, что все ссылки и индексы к данным помещались в памяти самих людей, оперировавших с компьютерами. В нужном случае можно было обратиться к линейным оглавлениям локальных ресурсов (каталогам) и быстро понять — что и где. Главные информационные ресурсы тогда оставались в бумажных архивах, библиотеках, хранилищах и т. д., для поиска в которых издавна существовали эволюционировавшие с древнейших времен системы индексации, каталогизации и уточнений (о чем доходчиво и интересно рассказал Умберто Эко в своем замечательном «Имени Розы»).

По мере развития компьютерных систем и их применения для хранения больших массивов научных и библиотечных данных в начале 80-х появились возможности компьютеризованного поиска информации не только на текстах «стационарных» материалов из библиотек и архивов, но и на потоках новых данных. Примерами тому являлись ныне уже не существующая система New York Times Information Bank или же дороговатая, но исключительно полезная и выжившая в новейших условиях система LexisNexis (www.lexisnexis.com, см. скриншот 1), образованная в 1966 году как компания Data Corp., приобретенная в 1968 году и продвинутая компанией Mead Data Central, в конце 1994 года, в свою очередь, ставшей частью медиаимперии Reed Elsevier.

По своей сути первоначальные системы поиска информации являлись средствами публичного доступа к печатным источникам. Но одновременно начали появляться и программные средства, которые помогали работать с корпоративными данными. В ряду ранних разработок этого вида можно вспомнить STAIRS (IBM), BASIS (Batelle Laborotories), STATUS (Исследовательские лаборатории атомной энергетики Объединенного королевства). Кое-что из этих продуктов было использовано в начале 90-х в поисковых системах для накопителей с оптической средой, емкость которых превышала возможности прямого обзора.

Нет нужды напоминать о нынешней невероятной конкуренции на рынке публичных поисковых машин, действующих в пространствах Интернета, среди которых такие монстры, как Google, AltaVista, Lycos, Excite и пр. Тем не менее, продолжалась и линия решений для корпораций, в числе которых можно назвать Verity (www.verity.com) и Autonomy (www.autonomy.com). В общем-то, к концу 90-х существовало три информационных пространства, в которых велись практически независимые поисковые операции: WWW; большие системы обслуживания и предоставления научных, медицинских и правовых документов и данных; всемирное множество корпоративных баз данных. А потом пришли корпоративные сети (intranets)…

Связанные внутри

Корпоративные сети чреваты рядом проблем. В идеальном мире поиск информации был бы столь интуитивно обеспеченным феноменом, что вряд ли, кроме катастрофических ситуаций (возможны ли они в идеальных мирах?), потребовалось вообще специально заниматься ее поисками.

Потому как наш мир не вполне совершенен (хотя, он, как решил Мари Франсуа Аруэ Вольтер, «…лучший из возможных миров»), часто случается так, что в корпоративной сети, связующей информационные ресурсы, «поисковой машиной» является системный администратор, а теперь, возможно, и CIO.

Собственно, речь идет о неправильных представлениях классификаций или метаданных. Причин этих проблем два вида. Во-первых, менеджер информационной инфраструктуры (чаще всего — это именно CIO) может впасть в уверенность, что для поисковой машины у него вообще нет дела — данные несвязны, нет представления о них как об общем поле, да и вообще, овчинка выделки не стоит. Во-вторых, поскольку руководители компании с удовольствием по привычке используют для поиска информации AltaVista или Google, то все они считают, что любой механизм выдаст в качестве результата поиска тысячи ссылок, совершенно неподвластных для детального изучения.

Здесь нужно заметить, что, несмотря на все более возрастающую осведомленность о пользе разного рода систем управления информацией в корпоративных сетях, еще мало кто рассматривает как насущную необходимость именно поисковые машины.

Говорить обо всех деталях и тонкостях поисковых технологий и инструментов в ограниченном объеме данной публикации просто невозможно. Тем не менее, следовало бы пролить свет на одну из самых затушеванных особенностей, характерных для большинства корпоративных сетей.

Процесс «поиска корпоративной информации» представляет собой последовательность трех шагов. Прежде всего, это предоставление помощи ответственным менеджером (специалистом) конкретному сотруднику компании в формулировании поискового запроса, который будет направлен задействованной корпоративной (иной) поисковой машине.

Скажем, специалисту, работающему в корпорации «Хитрая химия», нужно найти сведения о ванадиевом сплаве, который противостоит коррозии в среде серной кислоты при температурах до 250 градусов по Цельсию. Конечно, можно формулировать запрос просто как «ванадий сплав» или «кислота стойкость», но это приведет к тому, что будут вывалены тысячи результатов, среди которых релевантных может и вовсе не оказаться. Кроме того, нужно учитывать такие особенности, что в американском написании серная кислота — «sulfuric acid», а в английском — «sulphuric acid», в Европе принято обращение шкалы температур Цельсия, а в Америке — Фаренгейта. Оказывается, помощь в формулировании запросов действительно существенный момент.

Второй шаг заключается в том, чтобы сформулированный, наконец-то, запрос был направлен на некоторый набор документальных баз данных. Специфика этого шага состоит в выяснении, где расположены ресурсы — внутри корпоративного информационного поля или вне — в Интернете или других полях. В общем случае оказывается, что формулирование запросов и используемые инструменты поиска для внешнего и внутреннего информационных пространств могут оказаться весьма различными.

Завершающий шаг заключается в интерпретации результатов поиска, и в этом проявляется интересная специфика предмета как такового. Результативность поиска обозначается двумя, по существу, однонаправленными показателями: релевантность и отклик. Релевантность является интуитивной и субъективной оценкой соответствия обнаруженного документа цели поиска. А вот отклик — конкретная метрика, выраженная как доля (процент) релевантных документов в общем составе результатов поиска.

Нужно заметить, что релевантность — концепция, трудная для формализации. Разные поисковые машины, каждая по-своему, назначают меру релевантности каждого результата, часто выражая ее опять-таки в процентных выражениях. Успех универсальной поисковой машины Google, по мнению некоторых специалистов*, был обеспечен именно успешным поиском релевантных документов, который основан на методе так называемого обратного цитирования.

Если взглянуть на список сайтов или документов, полученных в результате поиска, окажется, что в нем, почти наверняка, будут присутствовать совершенно неадекватные запросу позиции, так называемые «false drops», что можно по-русски интерпретировать как «капли дегтя в бочку меда». Если искателю удается понять, каков источник этих «капель» (возможно, ошибка в правописании запроса), то доверие к поисковой машине вполне оправдано. Коли источник такого мусора непонятен, всякий искатель начинает не доверять инструменту.

Все же придется

Трудно бывает сделать выбор программных средств, помогающих управлять корпоративным информационным хозяйством, - сетевых систем, систем управления базами данных, прикладных программ, инструментов для вскрытия данных: Но проблема выбора еще более сложна, когда речь заходит о средствах поиска информации.

Решений корпоративных поисковых инструментов куда меньше, чем систем управления информационными ресурсами, известных издавна. Но специфические свойства и возможности поисковых машин чрезвычайно вариативны, что и затрудняет принятие решения выбора.

Прежде всего, нужно обратить внимание на инструменты, которые обеспечивают обработку запросов на естественном языке, например, на Albert Meaning Interpreter (www.albert.com, см. скриншот 2) или Lexiquest (так и не выяснил, почему сайт www.lexiquest.com не работал). Интерес представляют инструменты, помогающие строить таксономии, тем самым облегчающие основные цели поисков, среди которых можно назвать серию инструментов QKS (компания Quiver, www.quiver.com), Semio Tagger (компания Semio, www.semio.com), Portal Maximizer (компания ActiveNavigation, www.multicosm.com). Следует обратить внимание на группу инструментов, предлагающих расширенные возможности визуального представления результатов поисков, среди которых нужно отметить изделия Inxight** (www.inxight.com) и Antarcti.ca (antarcti.ca, см. скриншот 3). Возможности комбинирования упомянутых и множества других инструментов поистине безграничны. Но ключевой вопрос остается все тем же вопросом: что окажется более подходящим и эффективным для поисков в конкретной корпоративной сети информационных ресурсов?

В мире есть немало исследовательских компаний, ведущих наблюдения и проводящих сравнения и анализ инструментов управления и оперирования с контентом. Можно назвать такие авторитетные заведения, как Doculabs (www.doculabs.com) и Ovum (www.ovum.com)***. Далеко не всегда в их отчетах речь идет о поисковых корпоративных ресурсах, но, по меньшей мере, на основании этих исследований можно сузить круг нужных свойств и функциональности, сориентироваться во множестве альтернатив.

Собственно, критерий для выбора поискового инструментария традиционен - это отношение эффективности к затратам. Но провести некий единичный тест на реальном документе - не повод для принятия решения. Постройка автостоянки - задача несколько отличная от поездки на каком-то автомобиле. Была и остается такая возможность для научного сообщества: использовать базы данных TREC (Text Retrieval Conference), установленные и поддерживаемые Национальным институтом стандартов и технологий США (trec.nist.gov, см. скриншот 4). Эти базы в своем первичном назначении должны обеспечивать фундаментальную деятельность поиска в текстовых файлах - на основе сопоставления инструментов и выбора оптимального для данного задания. Были попытки такого рода и выполнять поисковые заказы на коммерческой основе.

Но даже использование якобы полноценных тестовых моделей не дает окончательного заключения по поводу выбора инструмента. Есть мнение, что выбор такого инструмента является самым сложным элементом в конструировании корпоративного сетевого обустройства. Наверное, нужно очень внимательно изучать основы и принципы поисковых решений, а в случаях неуверенности - обращаться к специалистам этого дела.

Установка поисковых механизмов не должна представляться как инсталляция некоторого программного продукта, скажем, за одну ночь с субботы на воскресенье - чтобы никому в компании не помешать. Опыт американских компаний показывает, что развертывание чего-то полнофункционального, более продвинутого по сравнению с Microsoft Site Server, занимает от 6 до 9 месяцев. Тогда можно помечтать о том, чтобы осесть в анналах достижений пока гипотетического заведения Search Procurement Hall of Fame. А во что может обойтись такое достижение? Средний контракт по внедрению и начальному сопровождению системы Autonomy стоит 360 тысяч долларов.

Ну, и еще нужно понимать, что когда речь идет о поиске информации, то не следует ограничиваться как объектами лишь текстовыми документами: есть такие вещи, как графика, фотоизображения, аудио, видео, много чего еще есть и будет:

О динозаврах и приматах

Истинный расцвет технологий поиска информации, безусловно, связан с распространением массовой среды WWW. О том, что информационное поле нашей цивилизации теперь едино, хотя и может разграничиваться на домены частные, корпоративные и государственные (и специальные), догадаться не так уж сложно.

Но последовавший генезис поисковых машин, действующих за всякого рода , то есть в корпоративных информационных системах, шел не только по пути, описанному выше, ведущему из глубин культуры бумажных рукописей и печатей. Другой путь был необычен для происхождения и эволюции технических систем, которые возникают как частные артефакты, а потом, в случае наличия успешных свойств, распространяются в глобальном шествии.

История корпоративных поисковых машин самого нового вида более напоминала историю естественного земного биогенезиса - если поисковые машины Интернета сравнить с динозаврами, то новейшие поисковики для корпоративных структур - млекопитающие (может быть, пока лишь типы вроде плазиодаписов, а может быть, уже приматы).

Если решения по классам продуктов, описанных выше, апробированы десятилетним опытом, то теперь нужно рассказывать именно о новом направлении. Тогда следует начинать с того, что граница поиска корпоративной информации размыта.

Дело тут заключается в следующем. В настоящее время корпоративные информационные поля можно было бы грубо разбить на три категории:

разнородные по форматам и структурам корпоративные базы данных;
базы данных в среде корпоративных сетей (возможно, с доступом через внутренние корпоративные порталы);
базы данных с доступом через внешние корпоративные сайты и порталы.

Собственно, в предыдущих разделах рассматривались инструменты, не специфичные для корпоративных сетей и порталов, основанных на технологии и идеологии Интернета. Появление немного лет назад сетей нового типа не отменило применения прежних решений, но вывело их на уровень <надстройки>, унифицировав основу. В большинстве корпоративных сетей сейчас поисковые решения строятся на основе методов и инструментов, подобных тем, которые нашли применение в <большом> Интернете.

	Библиотека Интернет Индустрии I2R.ru	Малобюджетные сайты... Продвижение веб-сайта... Контент и авторское право...
Забобрить! Блог		Поиск:	Рассылки для занятых...»

Библиотека Интернет Индустрии I2R.ru

Малобюджетные сайты...

Продвижение веб-сайта...

Контент и авторское право...