На главную

Библиотека Интернет Индустрии I2R.ru

Rambler's Top100

Малобюджетные сайты...

Продвижение веб-сайта...

Контент и авторское право...

Забобрить эту страницу! Забобрить! Блог Библиотека Сайтостроительства на toodoo
  Поиск:   
Рассылки для занятых...»
I2R » Сайтостроительство » Инструменты вебмастера

VoiceXML: речевая Web-инфраструктура

Сейчас пользователи хотят иметь доступ к Web не только с настольных систем, но и с телефонов, карманных устройств и даже бытовых приборов

Множество служб поддержки пользователей переведены сейчас на системы на базе Web, в силу чего возникает реальная потребность сделать так, чтобы к этим системам можно было обратиться с любого телефона

Способность HTML описывать структуру документов и страниц стала важным фактором становления World Wide Web. Однако у HTML есть существенный недостаток: он предполагает наличие полноценного графического дисплея. Лет пять-десять назад подобное ограничение мало что меняло — выход в Сеть осуществлялся именно с таких дисплеев. Но сейчас пользователи хотят иметь доступ к Web не только с настольных систем, но и с телефонов, пейджеров, карманных устройств и даже бытовых приборов. Хотя большинство этих устройств имеют графические дисплеи, эти дисплеи очень невелики по размеру, имеют ограниченную полосу пропускания и не подходят для нормального просмотра Web. Сами устройства, как правило, не имеют полнофункциональной клавиатуры для ввода данных или управления.

Другими словами, мы хотим иметь возможность в буквальном смысле слова обращаться к Web-страницам, а те должны уметь разговаривать с пользователями. Такой подход называется голосовым просмотром и дает пользователям возможность получать информацию из Web с помощью синтеза речи, предварительно записанных звуковых команд и средств распознавания речи.

Консорциум W3C работает над расширением доступа к Web, чтобы дать пользователям возможность обращаться к Сети с помощью клавиатур, голосовых команд, предварительно записанной речи, синтеза речи и музыки. Платформа, получившая название W3C Speech Interface Framework, включает в себя следующие компоненты.

  • VoiceXML 2.0, для определения диалогов и спецификации обмена данными между пользователем и голосовым приложением.
  • VoiceXML 2.1, небольшой набор расширений, реализованных различными разработчиками.
  • Speech Recognition Grammar Specification, для описания структуры данных при их вводе средствами голосового приложения.
  • Speech Synthesis Markup Language, для описания особенностей воспроизведения синтезированной речи, например, типа голоса и специфического произношения.
  • Semantic Interpretation for Speech Recognition, для определения связей между грамматическими правилами и семантикой приложения, что позволяет варианты употребления одного и того же элемента, например "кока" и "кока-кола", трактовать как эквивалентные.
  • CCXML, для описания функций управления звонками.

VoiceXML — наиболее заметная часть этой платформы, в то время как другие элементы, по существу, представляют собой инфраструктуру. VoiceXML использует спецификации для создания диалогов, которые поддерживают синтезированную речь, цифровое аудио, распознавание произносимой речи, запись произнесенных слов и телефонию. VoiceXML скрывает многие сложности платформ телефонии.

VoiceXML позволяет управлять аудиовводом и выводом, логикой презентации, потоками, обработкой событий и основными телефонными соединениями. Приложения, созданные с помощью VoiceXML, могут включать в себя предварительно записанные аудиоматериалы, точно так же, как HTML может интегрировать существующие изображения в графическую страницу.

В таких языках, как VoiceXML и его предшественниках, необходима поддержка двух родов разметки: один описывает текст в соответствии с его структурой или информационным наполнением, а другой управляет тем, как будет воспроизводиться речь, в частности определяет силу звука и ударения.

Основы синтеза речи

В последние годы вопросам распознавания речи уделяется много внимания: разработчики хотят заставить компьютер слышать и понимать то, что мы ему говорим. И значительно меньше внимания уделяется другой задаче: как компьютер отвечает на запрос, преобразуя текст в речь. Для этого с 1961 года, когда в Bell Labs запрограммировали IBM 7094 на исполнение «Дейзи» (это событие отмечено в фильме «2001: Космическая одиссея»), используется несколько систем.

В 1976 году Рей Курцвейл представил свою Reading Machine, способную сканировать напечатанный текст и произносить его. В то время все отмечали прорыв в сфере преобразования текста в речь, но немало шутили по поводу заметного акцента «шведского шефа».

По истечении трех десятилетий компьютеры стали намного мощнее, и было разработано немало инструментальных средств, способных воспроизводить речь гораздо качественнее.

Своими корнями VoiceXML уходит в проект AT&T Bell Labs, получивший название PhoneWeb, по рпзработке языка и платформы телефонной разметки для создания приложений телефонии как для переговорных центров, так и для потребителей.

Аналогичный подход использовала Motorola, поэтому она смогла предложить мобильным пользователям интерактивную и актуальную информацию. Motorola сосредоточила свои усилия на доступе к голосовым приложениям по принципу hands-free, особое внимание уделяя распознаванию речи, а не использованию тонального режима для ввода. Motorola создала свой язык на базе XML и в 1998 году анонсировала VoxML.

Еще один язык на базе XML, Sable, также был создан в 1998 году. Он основан на Spoken Text Markup Language (STML, разработан в 1997 году), Speech Synthesis Markup Language, предложенном в 1996-м, и Java Speech Markup Language, также анонсированном в 1997 году.

Автор: Рассел Кей
Источник: Еженедельник "Computerworld", #35, 2004 год // Издательство "Открытые системы"

Рассылки Subscribe.ru:

Библиотека сайтостроительства - новости, статьи, обзоры
Дискуссионный лист для web-разработчиков
Подписка на MailList.Ru
Автор: NunDesign
Другие разделы
Оптимизация сайтов
Web-студии
» Новое в разделе
Web-дизайн
Web-программирование
Интернет-реклама
Раскрутка сайта
Web-графика
Flash
Adobe Photoshop
Рассылка
Инструменты вебмастера
Контент для сайта
HTML/DHTML
Управление web-проектами
CSS
I2R-Журналы
I2R Business
I2R Web Creation
I2R Computer
рассылки библиотеки +
И2Р Программы
Всё о Windows
Программирование
Софт
Мир Linux
Галерея Попова
Каталог I2R
Партнеры
Amicus Studio
NunDesign
Горящие путевки, идеи путешествийMegaTIS.Ru

2000-2008 г.   
Все авторские права соблюдены.
Rambler's Top100