VoiceXML: речевая Web-инфраструктура. Библиотека I2R. Способность HTML описывать структуру документов и страниц стала важным фактором становления World Wide Web, однако сейчас пользователи хотят иметь доступ к Web не только с настольных систем, но и с телефонов, карманных устройств и даже бытовых приборов.

Сейчас пользователи хотят иметь доступ к Web не только с настольных систем, но и с телефонов, карманных устройств и даже бытовых приборов

Множество служб поддержки пользователей переведены сейчас на системы на базе Web, в силу чего возникает реальная потребность сделать так, чтобы к этим системам можно было обратиться с любого телефона

Способность HTML описывать структуру документов и страниц стала важным фактором становления World Wide Web. Однако у HTML есть существенный недостаток: он предполагает наличие полноценного графического дисплея. Лет пять-десять назад подобное ограничение мало что меняло — выход в Сеть осуществлялся именно с таких дисплеев. Но сейчас пользователи хотят иметь доступ к Web не только с настольных систем, но и с телефонов, пейджеров, карманных устройств и даже бытовых приборов. Хотя большинство этих устройств имеют графические дисплеи, эти дисплеи очень невелики по размеру, имеют ограниченную полосу пропускания и не подходят для нормального просмотра Web. Сами устройства, как правило, не имеют полнофункциональной клавиатуры для ввода данных или управления.

Другими словами, мы хотим иметь возможность в буквальном смысле слова обращаться к Web-страницам, а те должны уметь разговаривать с пользователями. Такой подход называется голосовым просмотром и дает пользователям возможность получать информацию из Web с помощью синтеза речи, предварительно записанных звуковых команд и средств распознавания речи.

Консорциум W3C работает над расширением доступа к Web, чтобы дать пользователям возможность обращаться к Сети с помощью клавиатур, голосовых команд, предварительно записанной речи, синтеза речи и музыки. Платформа, получившая название W3C Speech Interface Framework, включает в себя следующие компоненты.

VoiceXML 2.0, для определения диалогов и спецификации обмена данными между пользователем и голосовым приложением.
VoiceXML 2.1, небольшой набор расширений, реализованных различными разработчиками.
Speech Recognition Grammar Specification, для описания структуры данных при их вводе средствами голосового приложения.
Speech Synthesis Markup Language, для описания особенностей воспроизведения синтезированной речи, например, типа голоса и специфического произношения.
Semantic Interpretation for Speech Recognition, для определения связей между грамматическими правилами и семантикой приложения, что позволяет варианты употребления одного и того же элемента, например "кока" и "кока-кола", трактовать как эквивалентные.
CCXML, для описания функций управления звонками.

VoiceXML — наиболее заметная часть этой платформы, в то время как другие элементы, по существу, представляют собой инфраструктуру. VoiceXML использует спецификации для создания диалогов, которые поддерживают синтезированную речь, цифровое аудио, распознавание произносимой речи, запись произнесенных слов и телефонию. VoiceXML скрывает многие сложности платформ телефонии.

VoiceXML позволяет управлять аудиовводом и выводом, логикой презентации, потоками, обработкой событий и основными телефонными соединениями. Приложения, созданные с помощью VoiceXML, могут включать в себя предварительно записанные аудиоматериалы, точно так же, как HTML может интегрировать существующие изображения в графическую страницу.

В таких языках, как VoiceXML и его предшественниках, необходима поддержка двух родов разметки: один описывает текст в соответствии с его структурой или информационным наполнением, а другой управляет тем, как будет воспроизводиться речь, в частности определяет силу звука и ударения.

Основы синтеза речи

В последние годы вопросам распознавания речи уделяется много внимания: разработчики хотят заставить компьютер слышать и понимать то, что мы ему говорим. И значительно меньше внимания уделяется другой задаче: как компьютер отвечает на запрос, преобразуя текст в речь. Для этого с 1961 года, когда в Bell Labs запрограммировали IBM 7094 на исполнение «Дейзи» (это событие отмечено в фильме «2001: Космическая одиссея»), используется несколько систем.

В 1976 году Рей Курцвейл представил свою Reading Machine, способную сканировать напечатанный текст и произносить его. В то время все отмечали прорыв в сфере преобразования текста в речь, но немало шутили по поводу заметного акцента «шведского шефа».

По истечении трех десятилетий компьютеры стали намного мощнее, и было разработано немало инструментальных средств, способных воспроизводить речь гораздо качественнее.

Своими корнями VoiceXML уходит в проект AT&T Bell Labs, получивший название PhoneWeb, по рпзработке языка и платформы телефонной разметки для создания приложений телефонии как для переговорных центров, так и для потребителей.

Аналогичный подход использовала Motorola, поэтому она смогла предложить мобильным пользователям интерактивную и актуальную информацию. Motorola сосредоточила свои усилия на доступе к голосовым приложениям по принципу hands-free, особое внимание уделяя распознаванию речи, а не использованию тонального режима для ввода. Motorola создала свой язык на базе XML и в 1998 году анонсировала VoxML.

Еще один язык на базе XML, Sable, также был создан в 1998 году. Он основан на Spoken Text Markup Language (STML, разработан в 1997 году), Speech Synthesis Markup Language, предложенном в 1996-м, и Java Speech Markup Language, также анонсированном в 1997 году.

	Библиотека Интернет Индустрии I2R.ru	Малобюджетные сайты... Продвижение веб-сайта... Контент и авторское право...
Забобрить! Блог		Поиск:	Рассылки для занятых...»

Библиотека Интернет Индустрии I2R.ru

Малобюджетные сайты...

Продвижение веб-сайта...

Контент и авторское право...

VoiceXML: речевая Web-инфраструктура

Сейчас пользователи хотят иметь доступ к Web не только с настольных систем, но и с телефонов, карманных устройств и даже бытовых приборов

Основы синтеза речи