Библиотека Интернет Индустрии I2R.ru |
|||
|
VoiceXML: речевая Web-инфраструктураСейчас пользователи хотят иметь доступ к Web не только с настольных систем, но и с телефонов, карманных устройств и даже бытовых приборовМножество служб поддержки пользователей переведены сейчас на системы на базе Web, в силу чего возникает реальная потребность сделать так, чтобы к этим системам можно было обратиться с любого телефона Способность HTML описывать структуру документов и страниц стала важным фактором становления World Wide Web. Однако у HTML есть существенный недостаток: он предполагает наличие полноценного графического дисплея. Лет пять-десять назад подобное ограничение мало что меняло — выход в Сеть осуществлялся именно с таких дисплеев. Но сейчас пользователи хотят иметь доступ к Web не только с настольных систем, но и с телефонов, пейджеров, карманных устройств и даже бытовых приборов. Хотя большинство этих устройств имеют графические дисплеи, эти дисплеи очень невелики по размеру, имеют ограниченную полосу пропускания и не подходят для нормального просмотра Web. Сами устройства, как правило, не имеют полнофункциональной клавиатуры для ввода данных или управления. Другими словами, мы хотим иметь возможность в буквальном смысле слова обращаться к Web-страницам, а те должны уметь разговаривать с пользователями. Такой подход называется голосовым просмотром и дает пользователям возможность получать информацию из Web с помощью синтеза речи, предварительно записанных звуковых команд и средств распознавания речи. Консорциум W3C работает над расширением доступа к Web, чтобы дать пользователям возможность обращаться к Сети с помощью клавиатур, голосовых команд, предварительно записанной речи, синтеза речи и музыки. Платформа, получившая название W3C Speech Interface Framework, включает в себя следующие компоненты.
VoiceXML — наиболее заметная часть этой платформы, в то время как другие элементы, по существу, представляют собой инфраструктуру. VoiceXML использует спецификации для создания диалогов, которые поддерживают синтезированную речь, цифровое аудио, распознавание произносимой речи, запись произнесенных слов и телефонию. VoiceXML скрывает многие сложности платформ телефонии. VoiceXML позволяет управлять аудиовводом и выводом, логикой презентации, потоками, обработкой событий и основными телефонными соединениями. Приложения, созданные с помощью VoiceXML, могут включать в себя предварительно записанные аудиоматериалы, точно так же, как HTML может интегрировать существующие изображения в графическую страницу. В таких языках, как VoiceXML и его предшественниках, необходима поддержка двух родов разметки: один описывает текст в соответствии с его структурой или информационным наполнением, а другой управляет тем, как будет воспроизводиться речь, в частности определяет силу звука и ударения. Основы синтеза речиВ последние годы вопросам распознавания речи уделяется много внимания: разработчики хотят заставить компьютер слышать и понимать то, что мы ему говорим. И значительно меньше внимания уделяется другой задаче: как компьютер отвечает на запрос, преобразуя текст в речь. Для этого с 1961 года, когда в Bell Labs запрограммировали IBM 7094 на исполнение «Дейзи» (это событие отмечено в фильме «2001: Космическая одиссея»), используется несколько систем. В 1976 году Рей Курцвейл представил свою Reading Machine, способную сканировать напечатанный текст и произносить его. В то время все отмечали прорыв в сфере преобразования текста в речь, но немало шутили по поводу заметного акцента «шведского шефа». По истечении трех десятилетий компьютеры стали намного мощнее, и было разработано немало инструментальных средств, способных воспроизводить речь гораздо качественнее. Своими корнями VoiceXML уходит в проект AT&T Bell Labs, получивший название PhoneWeb, по рпзработке языка и платформы телефонной разметки для создания приложений телефонии как для переговорных центров, так и для потребителей. Аналогичный подход использовала Motorola, поэтому она смогла предложить мобильным пользователям интерактивную и актуальную информацию. Motorola сосредоточила свои усилия на доступе к голосовым приложениям по принципу hands-free, особое внимание уделяя распознаванию речи, а не использованию тонального режима для ввода. Motorola создала свой язык на базе XML и в 1998 году анонсировала VoxML. Еще один язык на базе XML, Sable, также был создан в 1998 году. Он основан на Spoken Text Markup Language (STML, разработан в 1997 году), Speech Synthesis Markup Language, предложенном в 1996-м, и Java Speech Markup Language, также анонсированном в 1997 году. Автор: Рассел Кей |
|
2000-2008 г. Все авторские права соблюдены. |
|