Сейчас смотрят: 1 604

Время чтения: 5 мин.

Наши первичные датчики

Наш мозг – это машина для обработки изображений. Мы можем понять сложную информацию быстрее, когда видим ее. Мы поглощаем большую часть информации с помощью нашего зрения. Короче говоря, наши глаза — наши первичные датчики.

Наши уши являются вторыми по важности датчиками. И в некоторых ситуациях голосовой разговор является очень эффективным каналом связи. Представьте себе на мгновение простой опыт покупок. Заказать вашу любимую пиццу намного проще, если вы просто назовете ее и закажете, вместо того чтобы проходить через все различные предложения на сайте. Но в более сложной ситуации недостаточно полагаться только на вербальное общение. Например, вы бы купили платье, не увидев его в первую очередь? Конечно, нет. Пользовательские интерфейсы все больше будут адаптироваться к нашим датчикам.

Наши глаза и уши — основные входные датчики. Мы очень хорошо разбираемся в распознавании образов и обработке изображений. Это означает, что мы можем обрабатывать сложную информацию быстрее визуально. С другой стороны, время реакции на звук быстрее, поэтому голос является хорошим вариантом для предупреждений.

Наш рот — самое эффективное устройство вывода. Потому что большинство людей могут говорить быстрее, чем они печатают или пишут.

Поскольку люди хорошо сочетают разные каналы, это приведет к тому, что компьютеры будут использовать мультимодальные интерфейсы для адаптации к возможностям человека. Интерфейсы будут адаптироваться к людям, используя среду и формат сообщений, наиболее удобный для людей в данной ситуации. Давайте рассмотрим некоторые примеры.

Чат-боты

Для базовой связи чат более эффективен, чем традиционные пользовательские интерфейсы. С помощью него продавцы и покупатели могут найти друг друга и обсудить различные сделки. В этом случае чат является оптимальным из-за общения «один на один». Но когда дело доходит до более сложного взаимодействия, например, для сравнения большого количества товаров, нам нужен более продвинутый пользовательский интерфейс. В этом случае добавляется возможность голосового общения с менеджером: позвонить в чате.

Цифровые помощники

Например, готовить на кухне и говорить «Красный перец Чили» проще, чем прокручивать каталог руками. С голосовым интерфейсом вы сможете автоматически добавить что-то в свой список покупок. Вам показываются продукты и голосом вы выбираете те, которые вам нравятся.

Когда пользователь находится на кухне и руки заняты, использование голосового управления — удобнее, чем прикосновение к экрану. Голосовой интерфейс – отличная функция и будет обязательной в будущих продуктах.

Для мультимодальных интерфейсов важно поддерживать синхронизацию голосовых и визуальных выходов. В противном случае люди легко запутаются. Например, когда мы разговариваем с кем-то, мы можем легко посмотреть на их лицо, чтобы узнать, получили ли они наше сообщение. В случае с мультимодальным интерфейсом мы захотим сделать то же самое, когда говорим с продуктом. Это нужно учитывать при разработки смешанных интерфейсов.

Приложение для здоровья

Например, приложение для измерения расстояния между зрачками для людей, которые носят очки (PD Measure). Это хороший пример объединения визуальных и голосовых интерфейсов.

Любой клиент должен знать данное расстояние, чтобы купить очки онлайн. Если они не знают, тогда им придется пойти в розничный магазин и измерить там. Инструмент измерения, доступный для любого пользователя, открывает огромный рынок онлайн-оптики.

С помощью такого приложения клиент сможет встать перед зеркалом и фотографировать себя, держа свой телефон в определенном положении и следуя точным инструкциям. Затем приложение автоматически вычисляет расстояние между зрачками. Этого достаточно, чтобы сделать онлайн-заказ.

Когда лучше использовать голос, а когда использовать визуальный пользовательский интерфейс

Визуальные пользовательские интерфейсы работают лучше в следующих ситуация:

  • Списки с большим количеством предметов (где чтение всех предметов вслух займет слишком много времени);
  • Сложная информация (графики, диаграммы и данные со многими атрибутами);
  • вещи, которые вы должны сравнить;
  • продукты, которые вы хотели бы видеть перед покупкой;
  • информация о состоянии, которую вы хотели бы периодически проверять (время, таймер, скорость и т. д.).
  • Команды (т.е. любая ситуация, в которой вы точно знаете, что хотите. Чтобы вы могли пропустить навигацию и просто диктовать свою команду);
  • Инструкции пользователям. Поскольку люди склонны следовать голосовым инструкциям лучше, чем письменным инструкциям;
  • Звуковая обратная связь для успешных ситуаций и ситуаций с ошибками, с разными сигналами;
  • Предупреждения и уведомления (потому что время реакции на голос быстрее);
  • Простые вопросы, которые требуют относительно простых ответов.

Советы для работы с мультимодальными интерфейсами

  • Синхронизация голосовых и визуальных интерфейсов. Всегда имейте визуальную обратную связь о том, что происходит.
  • Показывайте визуальные индикаторы, когда устройство прослушивает или думает об ответе.
  • Выделите слова голосовой команды в графическом интерфейсе.
  • Задайте правильные ожидания пользователей о возможностях интерфейса и убедитесь, что продукт объясняет, как он работает.
  • Продукт должен знать о контексте разговора и должен отвечать соответствующим образом.
  • Не игнорируйте безопасность и конфиденциальность. Разрешите людям отключать компоненты (например, микрофон).
  • Не читайте длинные аудиомонологи. Если он не может быть кратко изложен в нескольких словах, отобразите его на экране.
  • Потратьте время, чтобы понять специфику каждой платформы и выбрать правильный вариант.

Заключение

В будущем голосовой интерфейс станет обычным явлением. Новый интерфейс не означает, что мы должны игнорировать все, что успешно применяли к графическим интерфейсам. Произойдет объединение графических и голосовых интерфейсов, как более человечный способ общения между пользователем и компьютером.

Подобная мультимодальная эволюция уже происходила раньше. Радио и немые фильмы были объединены в фильмы, которые дополнительно улучшены с помощью 3D и т.д. В скором времени этот процесс произойдет и в интерактивном цифровом мире.

Читайте другие полезные статьи

Пересказ доклада UX-исследователя и экс-специалиста по речевым интерфейсам в Google Константина Самойлова о возможностях существующих виртуальных ассистентов.

В закладки

Константин Самойлов

Доклад рассказан на UX-марафоне «Взаимодействие будущего» 6 июля 2017 года, когда голосового помощника «Яндекса» ещё не было.

Что это

Чтобы не было путаницы, важно договориться, что в принципе понимается под голосовым интерфейсом (ГИ). Задача распознавания голоса активно решается. Его качество даже для не английского языка в неидеальных условиях (с акцентами и интонациями) составляет 95−98%. Если натренировать модель, качество можно повысить.

1. Естественный язык

Если говорить о ГИ как о замене печатания на клавиатуре или касания экрана, реализовать его просто - достаточно реализовать ввод команд голосом.

Но это не будет работать, так как язык команд не естественен для человека. В понимании пользователей преимущество голосового интерфейса заключается в том, что ему не надо учиться. Мы умеем говорить, мы - эксперты по взаимодействию друг с другом.

Сейчас язык взаимодействия со всеми существующими системами не естественный. Можно сказать «Алекса, начни играть такой-то трек», но это определённая грамматика, которой обучена система и которая на самом деле скрыта от пользователя.

2. Диалог

Даже если мы можем голосом передавать команды в компьютер, система всё равно не будет работать. Предполагается, что все данные вводятся в самом начале. В программировании, если разработчик ввёл неправильную команду, система не уточняет, что именно он имел в виду. Как правило, она просто не работает. Должен быть диалог.

3. Неограниченный словарный запас и грамматика

Та же Alexa работает на маленьком островке ответственности. В соответствии с заложенными алгоритмами она ожидает получить от пользователя определённые аргументы. Ожидания системы ограничивают грамматику и словарный запас, которые пользователь может использовать.

В Google разработчики продумали, какую грамматику и типы слов в английском языке могут использовать люди для самых распространённых задач - вроде установки будильника или создания напоминания.

Четыре года назад начали проводить тесты. На первом же тесте пользователь сказал что-то, чего разработчики не планировали. Система не сработала, разработчики сказали: «Чёрт, мы об этом не подумали».

Через три года в улучшенной версии той же системы пользователь снова произнёс что-то такое, от чего она не сработала, и разработчики сказали: «Чёрт, об этом мы тоже не подумали». Шло время, развивалось дерево решений и грамматики для конкретной задачи, и каждый новый тест выявлял исключение, которое не учитывали разработчики.

Естественный язык, диалог и словарный запас с грамматикой - фундаментальные вопросы, которые надо решить, чтобы ГИ на самом деле работал.

Типы

В обсуждениях голосовых и диалоговых интерфейсов обычно затрагивают целый спектр систем. Начиная с ботов, которые отвечают на самые простые вопросы и невпопад шутят, и заканчивая сложными системами, которые используются на промышленном уровне. Например, на удивление хорошая система подачи налоговой декларации в Англии.

Текущее состояние

Основные игроки:

  • Alexa от Amazon.
  • Siri от Apple.
  • OK Google.
  • Cortana от Microsoft (которой мало кто пользуется).

Samsung делает свою новую систему под названием Vera. Alibaba - помощника для китайских пользователей. Рынок взорвался, все работают в этой области.

Но возникла парадоксальная ситуация. Компании, обладающие ресурсами, знаниями и навыками для значительного шага вперёд и сильного изменения индустрии, не заинтересованы в этом шаге. ГИ и голосовые ассистенты - инновация, которая меняет текущее положение дел (disruptive technology).

Siri - достаточно хороший ассистент, который стимулирует продажи iPhone. Она выполняет свои задачи, и компании нет смысла делать что-то новое, что изменит экосистему приложений App Store.

Нынешняя модель взаимодействия человека с компьютером - ящик с инструментами. Мы находим инструмент, кладём его в ящик и в определённый момент используем для достижения цели. Мы сами отвечаем за поиск и владение инструментами и сами должны понимать, когда и в какой последовательности их использовать.

Преимущество ГИ в том, что мы выражаем своё желание естественным образом. Естественно сказать «Дорогая, принеси мне, пожалуйста, чай» - мы говорим о нужном результате, а не проговариваем все шаги, которые для этого необходимы.

Фундаментальное изменение модели взаимодействия приведёт к тому, что отдельные инструменты будут не нужны.

Проектирование

Пользователи ожидают, что можно естественным образом выражать свои желания, а система будет их понимать. Система должна подстраиваться под человека, а не наоборот. Поэтому проектирование ГИ - это в большей степени работа над пониманием человеческих особенностей.

Доверие

Одна девушка трижды участвовала в тестировании. Во второй раз, когда система уже работала достаточно хорошо, её реакция была «О боже мой, эта штука живёт в моём телефоне, теперь моя жизнь изменится». На третьем тестировании спустя месяц она сказала, что ни разу не использовала систему и не собирается.

Хоть система и работала в большинстве случаев, девушка ей просто не доверяла. Доверие - не технический вопрос, но если его не решить, вся остальная работа будет проделана зря.

Доверие противоположно контролю. Поговорка «Доверяй, но проверяй» - нонсенс. Не бывает, чтобы вы пришли домой и жена вам сказала: «Дорогой, ты вернулся в 12 часов ночи. Ты говорил, что на совещании. Поэтому я позвонила всем твоим друзьям, в твою компанию и твоему водителю, и ты действительно был на совещании. Я тебе доверяю, но проверяю». Такого не бывает.

Сначала мы узнаём, как система справляется, а потом начинаем делегировать ей задачи. Она становится чёрным ящиком - мы не знаем, как она это делает. Как и с живым ассистентом, мы отдаём контроль и заменяем его доверием.

Даже простая задача вроде установки будильника в определённом контексте не может быть так же легко делегирована. Одно дело - поставить будильник на субботу, чтобы просто не проспать до полудня. Другое - на 5 утра, чтобы приехать в аэропорт и встретить родителей. Люди не понимали, насколько система может ошибаться, поэтому не использовали её вовсе.

Невидимый интерфейс

Уникальность голосового интерфейса в том, что он невидимый. В графическом интерфейсе мы видим элементы управления: есть ли они, как выглядят, современный ли дизайн, есть ли кнопки «Назад» и «Вперёд», на каком шаге мы сейчас находимся - промежуточном или конечном.

ГИ не позволяет этого увидеть. Мы пытаемся создать умственную модель системы и ответить на вопросы вроде: «Если сейчас я скажу “Назад”, то попаду в начало диалога или в предыдущее состояние? И что это за состояние?».

Умственная модель отвечает на вопрос о возможностях системы. Причём эта модель всегда неправильная. Если мы только что общались с голосовым меню «Нажмите один, чтобы что-то», ожидания будут занижены. Если мы недавно смотрели фильм «Она», ожидания будут завышены.

Чтобы ГИ хоть как-то работал, необходимо помогать пользователю создать и скорректировать умственную модель системы.

Корректировка умственной модели

Система может задавать вопросы, предполагающие простые ответы:

Да (или нет).

А возможно, предполагающие развёрнутые ответы:

Вы хотите сделать что-то ещё?

Перенеси это событие на полчаса вперёд.

Из формата вопроса пользователь может сделать вывод, что в первом случае система довольно глупая. Он скажет «Нет, не сохранять» и последующие команды будет давать с такой же гранулярностью: «Новое событие. Когда хотите сделать? В 12:30. Что хотите сделать? Встретить родителей. Где? В аэропорту».

Во втором случае он может решить, что система «умная» и понимает развёрнутые ответы. Для корректировки введённой информации он скажет: «Вместо этого я хочу сделать новое событие на завтра, на 12:30, чтобы встретить родителей в аэропорту».

Человечность

Чтобы сделать ГИ, который естественен для человека, нужно понять, почему наш разговор с другим человеком считается естественным. За счёт каких характеристик? Мы поняли, что не знаем этого.

Есть умные люди, с которыми приятно общаться и с которыми нет. Есть люди с достаточно зрелыми реакциями: они иначе реагируют на наши ошибки и вопросы. 50 лет назад не было такого понятия, как эмоциональный интеллект. Наверняка мы не знаем многих других характеристик, благодаря которым мы можем комфортно общаться с другими людьми.

Не зная этих характеристик, нельзя внести их в систему и сделать общение с системой естественным. Один из возможных выходов - система не обязательно должна быть готовой. Можно выпустить полуфабрикат, который будет получать обратную связь от людей и узнавать, что он сделал правильно и неправильно.

Несмотря на то, что мы не знаем, какими эти характеристики должны быть, в какой-то момент система сама их выяснит и будет поддерживать.

Персоналити

Один из самых популярных вопросов - характер личности голосового ассистента. Сейчас технологии позволяют только имитировать дружелюбность, интеллектуальность, чувство юмора и так далее. Особенность человека в том, что это очень многоплановые характеристики. Подходы компаний разнятся и зависят от цели создания голосовой системы и философии компании.

Siri - проект компании, которая создаёт магический пользовательский опыт. Всё должно просто работать. И если пользователь угадывает с грамматикой и словарём, всё замечательно. Но если не угадывает, система перестаёт работать без малейшего указания на то, что не так и как скорректировать поведение, чтобы в следующий раз она работала лучше.

При этом огромное внимание уделено персоналити. Программисты работали над качеством голоса и человечным взаимодействием: Siri может пошутить, добавить забавный комментарий при выполнении стандартной задачи. Иногда это выглядит естественно, но мы быстро достигаем uncanny valley («зловещей долины »).

Эффект такой: чем больше система похожа на человека, тем больше она ему нравится. Но когда она становится очень похожей, приязнь резко снижается и восстанавливается только для полной имитации. Этот спад и называется «зловещей долиной».

«Зловещая долина»

С персоналити мы быстро в неё сваливаемся: система удачно шутит, человек расслабляется, использует другой набор слов и грамматику, и система начинает реагировать не так, как он ожидает. Пользователь может посчитать, что система над ним смеётся или не одобряет. Это намного хуже, чем если бы он просто думал, что перед ним глупый робот.

Одно из основных отличий ассистента Google в том, что у него даже нет имени (OK, Google). У Siri (Apple) и Alexa (Amazon) есть имена, и они пытаются вести себя как человек.

В Google мы пришли к выводу, что безопаснее всего не имитировать персоналити и показать пользователю, что это просто технологии без какого-либо человеческого общения.

Ответы на вопросы

Безопасность

Интересные решения есть у Alexa: она может контактировать с устройствами, которые есть дома, например, с «умным» замком. Можно подойти к двери и сказать: «Алекса, открой дверь, код такой-то».

Есть куча нюансов. Когда мы используем голос, нас слышат все, кто находится поблизости - это небезопасно и иногда неуместно. Люди используют ГИ у себя в машине для создания события, но не делают этого в автобусе, так как окружающие услышат, где, когда и с кем они планируют быть.

Мы решили не использовать ГИ, когда важна безопасность. В этом случае требования к системе выше. Если мы ставим будильник, и он срабатывает в 99 случаях из 100, это нормально. Если закрываем машину или сейф, срабатывание в 99 случаях из 100 неприемлемо.

Появляется вопрос обратной связи. Если мы ставим будильник, достаточно ответа, что он поставлен. Мы не уточняем все записанные системой параметры. При повышенных требованиях к безопасности мы должны полностью доверять системе, что невозможно в текущем состоянии.

Либо должны получать обратную связь: включена сигнализация такого-то плана, будет работать до такого-то момента, выключить её может этот человек и так далее. Если система сообщает это голосом, кто-то другой может это услышать. А если система сообщает конфиденциальную информацию?

Поэтому в своей работе мы решили не связываться с ситуациями, когда важны безопасность и приватность.

Ближайшее будущее

Крупные компании будут пытаться имитировать возможность ассистента ответить на любой вопрос, и это всё ещё не будет работать.

Применение будет возможно в узких сферах, где ожидания пользователя ограничивают его словарь и динамику взаимодействия. Например, билетному аппарату можно сказать, что нужен билет от Москвы до Калуги на завтрашний вечер. Если человек затем спросит, сколько лет Бараку Обаме, совершенно нормально, когда система не ответит на такой вопрос.

Будущее за фокусом на определённом пользовательском кейсе, поддержке всей связанной с ним грамматики и игнорировании всего, что за его пределами.

Использование в платежах

Голос используется для подтверждения платежей, но это лишь часть всего взаимодействия. Нет примеров, когда весь процесс можно пройти голосом. Отчасти это связано с юридическими особенностями и возвратом платежей.

В Европе есть cooldown period, когда в течение определённого времени (в разных странах оно разное) покупатель может вернуть товар, даже если с ним всё в порядке. Человек может поменять своё мнение без причины, и это поддерживается законом.

Платёжной системе также необходима гарантия, что человек оплатил продукт, зная, что он покупает, и это не ошибка. Если это ошибочная покупка, при возврате платежа действует совсем другое правило. Были случаи, когда ребёнок брал телефон (Amazon Fire), что-то говорил и запускал процесс покупки. В этом случае невозможно доказать, кто её инициировал.

Когда необходим

Принято считать, что новая технология просто заменит предыдущую, но это не всегда так. Сейчас говорят о голосификации приложений, когда для существующего приложения экран просто заменяется голосом. Очевидно, это так не работает. В основном потому, что голос используется в других условиях. Если человек может держать телефон и нажимать на экран, он, скорее всего, не будет использовать голос. Тачскрин чаще всего удобнее ГИ.

Голос удобен тогда, когда сложно использовать телефон: за рулём, в дороге с сумками или дома на диване, когда телефон лежит на столе и просто лень вставать, чтобы взять его в руки. Включить музыку голосом оказывается проще, даже если нажать на кнопку - быстрее.

ГИ необходим тогда, когда использование телефона обычным способом невозможно, например, в автомобиле. Но если компания говорит, что продукт можно использовать во время вождения, ей надо доказывать специальным органам, что все законодательные ограничения, связанные с вождением, приняты во внимание.

ГИ необходимо использовать, когда соблюдается два условия:

  1. Человек занимается чем-то многозадачным и не может сконцентрировать внимание на одном устройстве.
  2. То, что он делает с помощью ГИ, не является основной задачей.

Связь с визуальным интерфейсом

Огромное преимущество визуальных интерфейсов в том, что варианты взаимодействия видны. С ГИ мы не знаем, что нам доступно.

Взаимодействие с экранами - очень хорошо проработанная тема. Экран останется даже тогда, когда ГИ будет работать хорошо, хотя бы потому, что у нас есть глаза. Визуальное восприятие - основное. Голосовое - вспомогательное.

Голос может взаимодействовать с экранным представлением данных и при этом не быть подчинённой структурой. Например, в Alexa основной компонент - голос. Можно поставить приложение, чтобы видеть ответы системы на экране (некоторые ответы сложно воспринимать на слух). Правда, сейчас концепция меняется - следующая версия Amazon Echo будет со своим экраном.

Применение в критических процессах

Хирург - хороший пример многозадачности. Он фокусируется на одном виде деятельности, но ему может требоваться дополнительная информация. Здесь ГИ применяется уже сейчас.

IBM с проектом Watson пошла по другому пути. Компания начала работать над искусственным интеллектом. Сначала он выиграл у людей в викторину, а четыре года назад его внедрили в нескольких американских клиниках. Сейчас его используют для диагностики рака в 1000 клиниках. Система используются для критических процессов, но в очень узких юзкейсах. При этом персонал проходит специальную подготовку.

Примеры удачных решений

Amazon запустил продукт, который кардинально отличался: нет экрана, это физический объект, качество голоса намного выше (за счёт встроенного хранилища данных с предзаписанными сэмплами).

Интересное диалоговое взаимодействие Google. Если мы говорим, что хотим добавить что-то в календарь, запустится система диалогов, достаточно гибкая и довольно очевидная. Она уточняет информацию о мероприятии, вы можете корректировать данные и так далее.

Microsoft хорошо решила вопрос настройки в Cortana. Ожидается, что человеку не надо ничего знать о системе и настраивать. Когда я говорю это, то обычно имею в виду следующее: вот эти слова я использую не так, как остальные люди, и так далее. По идее это должно работать автоматически, но не работает, а значит, должна быть система настройки.

Apple полностью игнорирует вопрос настроек. Для Cortana можно указать свои интересы и так далее, и при этом интерфейс достаточно простой.

Конспект подготовил проектировщик интерфейсов Антон Григорьев .

Речевой интерфейс (РИ) нужен в целом для упрощения жизни пользователям. Если конкретней, для повышения удобства, повышения степени интеллектуализации человеко-машинного диалога. Все это вполне счетные величины. Разработчики давно уже борются за такие параметры, как время на обучение пользователя, время отдачи команды, количество движений для отдачи команды, время на поиск нужного контрольного элемента. По всем этим параметрам введение речевого канала в подсистему интерфейса приводит к существенным улучшениям. Есть ряд применений, в которых речевое управление - настоящее спасение. Это ситуации, когда руки и зрение пользователя заняты важными «неинтерфейсными» задачами (вождение транспорта, визуальный осмотр, тонкие манипуляции, просмотр фильма). Если в этот момент требуется помощь компьютерной системы информации или робота-ассистента, без речевого диалога не обойтись. Эти простые соображения и дают нам основные сферы применения речевых интерфейсов:

  • Бытовые сложные системы (бытовая техника, сервисные роботы и «умный дом»). Тут на первом месте скорость обучения пользователей, мобильность и упрощение интерфейсов.
  • Системы поддержки деятельности людей, занятых вне офисных столов. Это водители, спасатели, ремонтники, военные, логисты, сборщики - всех не перечесть. Речевой канал здесь востребован в качестве возможности освободить руки и глаза. Важна и большая компактность решения.

Из понимания областей применения следует и набор требований к РИ:

  • Безошибочность (количество ошибок на сотню слов, WER). Причем для промышленных и бытовых применений WER нужно считать при различных окружающих шумах (соотношение сигнал/шум SNR).
  • Количество различаемых команд в один момент времени. Чем сложнее объект управления и чем меньше времени мы хотим учить пользователя, тем больше должен быть этот параметр.
  • Антропоморфность. Это интегральный показатель, который отвечает за то, насколько интерфейс схож с человеческим общением. Очень широкая тема, но очевидно, что чем выше этот показатель, тем легче происходит обучение этому интерфейсу. Не следует путать с интуитивностью, которая лишь характеризует привычность и похожесть на уже известные пользователю интерфейсные системы.

Компания «ЗАО «Титан - информационный сервис» / Speereo Software была основана в 1998 г. В 2001 г. ее специалистам удалось создать систему распознавания слитной английской речи, а в 2011 г. - слитной русской речи. С 2002 г. компания разрабатывает и продает продукты и решения, основанные на SSR (распознавание речи Speereo).

Компания - официальный поставщик Intel, имеет совместный грант Microsoft и Сколково, победитель конкурса инновационных проектов МО РФ, обладатель нескольких Best Software Award of the Year. С 2011 г. - резидент Сколково.

Что делает решение Speereo?

Мы разработали РИ, который позволяет распознавать речевые команды и синтезировать речевые сообщения. Система состоит из программной части (Automatic Speech Recognition, ASR, и Text To Speech, TTS), и аппаратной части - различного типа Acoustic Front End, AFE. Для разработчиков - это готовые блоки, которые можно встраивать в системы на этапе проектирования или на этапе апгрейда систем. ASR и TTS существуют как в виде «облачного» решения, так и в виде кода для «тонких» клиентов. Минимальные требования - 200 MIPS и 5 Mбайт. AFE существует на сегодня в виде серийного изделия - универсального речевого пульта Speaky, а также в виде тестовых прототипов и серийных изделий партнеров - автомобильного, OutDoor-гарнитуры, бытовой и игровой гарнитур. AFE может быть и чужим, лишь бы обеспечивал приемлемое качество сигнала. Реальное расстояние от микрофона до диктора, на котором обеспечивается нормальная работа без экстраординарных затрат на оборудование, составляет 10–50 см. Необходимо средствами AFE маркировать начало (обязательно) и конец (желательно) командной фразы. Для этого используются аппаратные кнопки, камеры, ларингофоны и пр. В мобильных версиях это позволяет экономить заряд батарей.

Как это работает?

При минимальных требованиях по нагрузке вычислительной системы РИ Speereo работает с задержкой от конца фразы до выдачи результата не более 1,5 с. При этом мы добились очень высокого уровня по главным требованиям (табл. 1). Для сравнения приведем редчайшую таблицу (табл. 2).

Как видим, даже сравнивать систему РИ Speereo и системы диктовки, получившие широкое распространение, не стоит. Разница на один-два порядка.

Министр обороны РФ Сергей Шойгу посетил стенд Сколково на Неделе инноваций Министерства обороны в Алабино в августе 2014 г.
Фото пресс-службы Сколково

Количество одномоментно различаемых команд в нашей системе составляет от нескольких сот до 10 000. Управление мгновенным словарем отдано «на откуп» разработчику. Общий словарь системы не ограничен. Массив мгновенного словаря подается на вход системы динамически в виде текста. Это позволяет строить контекстно-зависимые диалоговые системы.

Системы диктовки имеют ограниченный несколькими сотнями тысяч (до 2 млн) слов мгновенный словарь. Он же - общий словарь. Добавлять новые слова может только разработчик системы.

Ограничение в 10 000 фраз мгновенного словаря в нашей системе, тем не менее, позволяет строить интерфейсы для любых мыслимых объектов управления. Более того, в 10 000 фраз вполне укладываются все разум­ные варианты произнесения командных фраз в конкретный момент диалога. Для облегчения построения графа состояний и команд-переходов можно использовать распространенные грамматики. Таким образом, мы получаем систему, для работы с которой вообще не нужно обучать пользователя. Этот подход отличается от дилетантского заблуждения: «возьму систему диктовки, а потом разберу текст». Уровень ошибок систем диктовки и сложность систем «понимания» текста всегда ставит на таких планах крест. Немного улучшает ситуацию лишь очень трудозатратная система учета статистики поведения пользователей и семантической обработки, которая помогла, в частности, построить Google Voice Search и Apple SIRI, но провалилась в Google Glass, Apple TV и прочих проектах. Такие надстройки не поставляются внешним разработчикам, а их создание тянет на десятки миллионов долларов. Поэтому так мало внедрений систем диктовки вне обозначившихся узких ниш. Часть разуверившихся в диктовку разработчиков приходят к нам как к альтернативному поставщику, и рассказывают очень похожие истории провала проектов.

Если еще учесть, что наша система дикторонезависима, устойчива к акценту, манере и темпу речи, не требует делать паузы между словами, то можно утверждать, что по параметру антропоморфности она находится на самом высоком современном уровне.

Немного о планах

Мы продолжим внедрение нашей системы в автомобильную, бытовую, специальную и промышленную электронику. Продолжим исследования по вычленению речевых сигналов из зашумленного потока, определению начала и конца команд. Мы также разворачиваем работы по повышению дальности от диктора до микрофона до нескольких метров, что позволит строить интерфейсные зоны в помещениях вообще без носимых устройств. Мы будем накапливать и делать доступными нашим потребителям тематические семантические сети, что облегчит построение «свободных» интерфейсов к целым классам техники. Продолжим работу и по увеличению размера мгновенного словаря. Все это вместе приближает нас к созданию близкого к идеалу речевого интерфейса.


Введение
Под речевыми технологиями в компьютерном мире подразумевают целый конгломерат программных и аппаратных средств, позволяющих осуществлять прежде всего синтез и распознавание человеческой речи, а также разрабатывать средства, позволяющие создавать системы обработки речи. Создание и разработка речевого интерфейса на сегодняшний момент времени является одной из самых сложных и противоречивых задач. С одной стороны, тема абсолютно не нова, с другой - активное развитие и применение этой технологии только начинается. С одной стороны, успели сформироваться устойчивые стереотипы и предубеждения, с другой - несмотря на почти полвека настойчивых усилий не нашли разрешения вопросы, стоявшие еще перед родоначальниками речевого ввода. Как бы то ни было, продолжатся поиски такого интерфейса, который устроил бы всех. Собственно говоря, это как раз то, к чему человечество всегда стремилось в общении с компьютером.
С 70-х годов отмечается большой интерес к решению проблемы речевого диалога пользователя со средствами вычислительной техники. Это объясняется рядом особенностей речевого ввода – вывода информации в ЭВМ:
    наибольшей естественностью общения и повышения вследствие этого степени сосредоточенности на выполняемой работе
    повышением скорости и надежности ввода информации
    освобождением тактильного и зрительного каналов для выполнения других операций
    возможностью работы в затемненном помещении и при произвольном положении оператора или его перемещении
    обеспечением связи с ЭВМ с помощью устройств (телефон)
Исследователи недалеко продвинулись за прошедшие десятки лет, что заставляет некоторых специалистов крайне скептически относиться к самой возможности реализации речевого интерфейса в ближайшем будущем. Другие же считают, что задача практически решена. Впрочем, все зависит от того, что следует считать решением этой задачи.
Так Билл Гейтс, являющий собой в некотором смысле идеал прагматизма, оказался не свободен от исторически сложившихся стереотипов. Начав в 95-96 году с разработки собственной универсальной системы распознавания речи, он в 97-м провозгласил очередную эру повсеместного внедрения речевого интерфейса. Средства речевого ввода планировались включить в стандартную поставку новой версии Windows NT - чисто офисной операционной системы. Для того, чтобы оценить проделанную ими работу, достаточно установить какой-либо звуковой «движок» взаимодействующий непосредственно с Microsoft SAPI, интегрированным в вашу систему.
Все, кто хоть как-то связан с разработкой речевых технологий, сталкиваются со следующими вопросами: первый - и, пожалуй, основной - касается области применения. Поиск приложений, где распознавание речи могло бы продемонстрировать все свои достоинства, вопреки устоявшемуся мнению, является задачей далеко не тривиальной. Сложившаяся практика применения компьютеров вовсе не способствует широкому внедрению речевого интерфейса. Для подачи команд, связанных с позиционированием в пространстве, человек всегда пользовался и будет пользоваться жестами, то есть системой «руки- глаза». На этом принципе построен современный графический интерфейс. Перспектива замены клавиатуры и мыши блоком распознавания речи абсолютно отпадает. При этом выигрыш от возложения на него части функций управления настолько мал, что не смог предоставить достаточных оснований даже для пробного внедрения в массовых компьютерах на протяжении уже более тридцати лет. Именно таким сроком оценивается существование коммерчески применимых систем распознавания речи.
Для сравнения: спонтанная речь произносится со средней скоростью 2,5 слов в секунду, профессиональная машинопись - 2 слова в секунду, непрофессиональная - 0,4. Таким образом, на первый взгляд, речевой ввод имеет значительное превосходство по производительности. Однако оценка средней скорости диктовки в реальных условиях снижается до 0,5-0,8 слова в секунду в связи с необходимостью четкого произнесения слов при речевом вводе и достаточно высоким процентом ошибок распознавания, нуждающихся в корректировке.
Речевой интерфейс естественен для человека и обеспечивает дополнительное удобство при наборе текстов. Однако даже профессионального диктора может не обрадовать перспектива в течение нескольких часов диктовать «малопонятливому» компьютеру. Кроме того, имеющийся опыт эксплуатации подобных систем свидетельствует о высокой вероятности заболевания голосовых связок операторов, что связано с неизбежной при диктовке компьютеру монотонностью речи.
Часто к достоинствам речевого ввода текста относят отсутствие необходимости в предварительном обучении. Однако одно из самых слабых мест современных систем распознавания речи - чувствительность к четкости произношения - приводит к потере этого, казалось бы, очевидного преимущества. Печатать на клавиатуре оператор учится в среднем 1-2 месяца. Постановка правильного произношения может занять несколько лет.
Существует и еще одно неприятное ограничение применимости: оператор, взаимодействующий с компьютером через речевой интерфейс, вынужден работать в звука изолированном отдельном помещении либо пользоваться звукоизолирующим шлемом. Иначе он будет мешать работе своих соседей по офису, которые, в свою очередь, создавая дополнительный шумовой фон, будут значительно затруднять работу речевого распознавателя. Таким образом, речевой интерфейс вступает в явное противоречие с современной организационной структурой предприятий, ориентированных на коллективный труд. Ситуация несколько смягчается с развитием удаленных форм трудовой деятельности, однако еще достаточно долго самая естественная для человека производительная и потенциально массовая форма пользовательского интерфейса обречена на узкий круг применения.
Ограничения применимости систем распознавания речи в рамках наиболее популярных традиционных приложений заставляют сделать вывод о необходимости поиска потенциально перспективных для внедрения речевого интерфейса приложений за пределами традиционной офисной сферы, что подтверждается коммерческими успехами узкоспециализированных речевых систем. Самый успешный на сегодня проект коммерческого применения распознавания речи - телефонная сеть фирмы АТ&Т. Клиент может запросить одну из пяти категорий услуг, используя любые слова. Он говорит до тех пор, пока в его высказывании не встретится одно из пяти ключевых слов. Эта система в настоящее время обслуживает около миллиарда звонков в год.
Несмотря на то, что одним из наиболее перспективных направлений для внедрений систем распознавания речи может стать сфера компьютерных игр, узкоспециализированных реабилитационных программ для инвалидов, телефонных и информационных систем, ведущие разработчики речевого распознавания наращивают усилия по достижению универсализации и увеличения объемов словаря даже в ущерб сокращению процедуры предварительной настройки на диктора.
Будущее речевого интерфейса в не меньшей степени зависит от умения современных исследователей и разработчиков не только создать технологическую основу речевого ввода, но и гармонично слить технологические находки в единую логически завершенную систему взаимодействия «человек-компьютер». Основная работа еще впереди.

Глава 1

1.1.Общая концепция речевого интерфейса

Начнем с главного термина. Что есть речь? Говоря о речи, мы должны различать такие понятия, как «речь», «звуковая речь», «звуковой сигнал», «сообщение», «текст». В нашем случае, в приложении к задаче распознавания такие понятия, как «речь» и «звуковая речь» означают одно и то же - некое генерируемое человеком звуковое сообщение, которое может быть объективно зарегистрировано, измерено, сохранено, обработано и, что важно, воспроизведено при помощи приборов и алгоритмов. То есть речь может быть представлена в виде некоего речевого сигнала, который в свою очередь может использоваться для обратного воспроизведения речи. То есть можно поставить знак эквивалентности между звуковой речью и ее представлением в виде речевого сигнала. При этом под понятием «сообщение» может скрываться любая полезная для получателя информация, а не только текст. Например, если интересоваться не словами а интонациями, то сообщением будут просодические нюансы речи. Что же касается распознавания речи, то в нашем случае задача сводится к извлечению из речи текста.
Но здесь мы сталкиваемся с одним противоречием. Текст, как известно, состоит из букв, слов, предложений, - то есть он дискретен. Речь же в нормальных условиях звучит слитно. Человеческая речь, в отличие от текста, вовсе не состоит из букв. Если мы запишем на магнитофонную ленту или на диск компьютера звучание каждой отдельной буквы, а потом попробуем скомпоновать из этих звуков речь, у нас ничего не получится.
Люди уже довольно давно догадались о том, что элементарные звуки, из которых состоит речь, не эквивалентны буквам. Поэтому придумали понятие фонемы для обозначения элементарных звуков речи. Хотя до сих пор специалисты никак не могут решить - сколько же всего различных фонем существует. Есть даже такой раздел лингвистики - фонетика. Большинство авторов даже для одного и того же языкового диалекта приводят разное количество фонем. В русском языке по одним данным 43 фонемы, по другим - 64, по третьим - более сотни... Но так уж повелось, что есть миф о незыблемости понятия фонемы. И о том, что речевой сигнал состоит непосредственно из кусочков сигнала, каждый из которых является фонемой. К сожалению, все далеко не так просто.
Поначалу ученые рассматривали речевой сигнал как набор неких универсалий, расположенных друг за другом на временной оси, и считали этими универсалиями фонемы. Однако дальнейшие исследования речевых сигналов никаких фонем не обнаружили. Тогда одни исследователи справедливо решили, что при генерации речевых сигналов наблюдается коартикуляция, то есть взаимопроникновение соседних звуков (мышцы лица, язык и челюсти обладают разной инерцией). Значит, речевой сигнал должен состоять не из фонем, а из аллофонов - комбинаций «слипшихся» фонем.
Другие исследователи, подобно физикам, атаковали идею элементарности фонем и стали утверждать, что фонемы надо поделить на еще более короткие кусочки или даже вообще отказаться от этого понятия и «расчленять» речевой сигнал как-то иначе. Так родились фоноиды и еще масса авторских названий элементарных звуков.

Каждый принялся рассматривать речевой сигнал со своей позиции, сообщай об успехах весьма туманно. Последнее, весьма вероятно, можно объяснить желанием сохранить ноу-хау.

Главной трудностью фонемного подхода является то, что темп речи варьируется в широких пределах, часто в несколько раз. При этом различные звуки речи растягиваются или сжимаются не пропорционально. Например, гласные изменяются значительно сильнее, чем полугласные и особенно смычные согласные. Для так называемых щелевых звуков есть свои закономерности. (Полугласные - это звуки при генерации которых необходимо участие голосовых связок, как и для гласных звуков, но сами они в обиходе считаются согласными. Например, так обычно звучат «м», «н», «л» и «р». Смычные звуки образуются при резком смыкании и размыкании органов артикуляции. Например «б», «л», «д», «т». Образование щелевых звуков связано с шипением и прочими эффектами турбулентности в органах артикуляции. Можно назвать «в», «ж», «с», а также «ш» и другие шипящие. Эта свойство называется временной нестационарностью образцов речевого сигнала. Произнося одно и то же слово или фразу в разное время, под влиянием различных факторов (настроения, состояния здоровья и др.), мы генерируем заметно не совпадающие спектрально-временные распределения энергии. Это справедливо даже для дважды подряд произнесенного слова. Намного сильнее этот эффект проявляется при сравнении спектрограмм одной и той же фразы, произнесенной разными людьми. Обычно этот эффект называют спектральной нестационарной сетью образцов речевого сигнала. Изменение темпа речи и четкости произношения является причиной коартикуляционной нестационарности, означающей изменение взаимовлияния соседних звуков от образца к образцу. Так же следует выделить проблему кластеризации слитной речи. Из непрерывного речевого потока довольно непросто выделить какие-либо речевые единицы. Многие звуки «слипаются» либо имеют нечеткие границы.

Большой интерес для ученых, работающих в области распознавания речи, представляют различные разделы лингвистики, науки о языках. Возможно, удачный синтез достижений этих наук и теории обработки речевых сигналов приведут к успешному созданию систем распознавания.
Построение речевого интерфейса распадается на три составляющие. Первая задача состоит в том, чтобы компьютер мог «понять» то, что ему говорит человек, то есть он доложен уметь извлекать из речи человека полезную информацию. Пока что, на нынешнем этапе, эта задача сводится к тому, чтобы извлечь из речи смысловую ее часть, текст (понимание таких составляющих, как скажем, интонация, пока не рассматривается). То есть эта задача сводится к замене клавиатуры микрофоном.
Вторая задача состоит в том, чтобы компьютер воспринял смысл сказанного. Пока речевое сообщение состоит из некоего стандартного набора понятных компьютеру команд (скажем, дублирующих пункты меню), ничего сложного в ее реализации нет. Однако вряд ли такой подход будет удобнее, чем ввод этих же команд с клавиатуры или при помощи мыши. В идеале компьютер должен четко «осмысливать» естественную речь человека и понимать, что, к примеру, слова «Хватит!» и «Кончай работу!» означают в одной ситуации разные понятия, а в другой - одно и то же.
Третья задача состоит в том, чтобы компьютер мог преобразовать информацию, с которой он оперирует, в речевое сообщение, понятное человеку. Так вот, из этих трех задач достаточно ясное и окончательное решение существует только для третьей. По сути, синтез речи - это чисто математическая задача, которая в настоящее время решена на довольно хорошем уровне. И в ближайшее время, скорее всего, будет совершенствоваться только ее техническая реализация.
Препятствием для окончательного решения первой задачи служит то, что никто до сих пор толком не знает, каким образом можно расчленить нашу речь, чтобы извлечь из нее те составляющие, в которых содержится смысл. В том звуковом потоке, который мы выдаем при разговоре, нельзя различить ни отдельных букв, ни слогов. Но, несмотря на это, после предварительной тренировки современные системы распознавания речи работают довольно сносно и делают ошибок не больше, чем делали оптические системы распознавания печатных символов лет десять назад.
Что касается второй задачи, то она, по мнению большинства специалистов, не может быть решена без помощи систем искусственного интеллекта. Последние, как известно, пока не созданы, хотя большие надежды возлагаются на появление так называемых квантовых ИИ. Если же подобные устройства появятся, это будет означать качественный переворот в вычислительных технологиях, и тогда, как знать, может быть, многие теперешние подходы к речевому интерфейсу вообще окажутся ненужными.
Поэтому пока удел речевого интерфейса - всего лишь дублирование голосом команд, которые могут быть введены с клавиатуры или при помощи мыши. А здесь его преимущества весьма сомнительны. Впрочем, есть одна область, которая для многих может оказаться очень привлекательной. Это речевой ввод текстов в компьютер. Действительно, чем стучать по клавиатуре, гораздо удобнее продиктовать все компьютеру, чтобы он записал услышанное в текстовый файл. Здесь вовсе не требуется, чтобы компьютер «осмысливал» услышанное, а задача перевода речи в текст более или менее решена. Недаром большинство выпускаемых ныне программ «речевого интерфейса» ориентированы именно на ввод речи.

1.2. Ввод речевых сообщений

Традиционно процесс распознавания речи подразделяется на несколько этапов. На первом - производится дискретизация непрерывного речевого сигнала, преобразованного в электрическую форму. Обычно частота дискретизации составляет 10-11 кГц, разрядность- 8 бит, что считается оптимальным для работы со словарями небольшого объема (10-1000 слов) и соответствует качеству передачи речи телефонного канала (ЗГц- 3.4кГц). понятно что увеличение объема активного словаря должно сопровождаться повышением частоты оцифровки н в некоторых случаях - поднятием разрядности.
На втором этапе дискретный речевой сигнал подвергается очистке от шумов и преобразуется в более компактную форму. Сжатие производится посредством вычисления через каждые 10 мс некоторого набора числовых параметров (обычно не более 16) с минимальными потерями информации, описывающей данный речевой сигнал. Состав набора зависит от особенностей реализации системы. Начиная с 70-х годов наиболее популярным методом (практически стандартом) построения сжатого параметрического описания стало линейно - предикативное кодирование (ЛПК), в основе которого лежит достаточно совершенная линейная модель голосового тракта. На втором месте по популярности находится, вероятно, спектральное описание, полученное с помощью дискретного преобразования Фурье.
Очень хорошие результаты, однако, могут быть достигнуты и при использовании других методов, часто менее требовательных к вычислительным ресурсам, например клипирования. В этом случае регистрируется количество изменений знака амплитуды речевого сигнала и временные интервалы между ними. Получаемая в результате последовательность значений, представляющих собой оценку длительностей периодов сохранения знака амплитудой, несмотря на кажущуюся примитивность метода, достаточно полно представляет различия между произносимыми звуками. На таком методе предобработки основана, в частности, система распознавания речи, разработанная в конце 80-х в НИИ счетного машиностроения (Москва).
Временной (10 мс) интервал вычисления был определен и обоснован экспериментально еще на заре развития технологии автоматического распознавания речи. На этом интервале дискретный случайный процесс, представляющий оцифрованный речевой сигнал считается стационарным, то есть на таком временном интервале параметры голосового тракта значительно не изменяются.
Следующий этап- распознавание. Хранимые в памяти компьютера эталоны произношения по очереди сравниваются с текущим участком последовательности десяти миллисекундных векторов, описывающих входной речевой сигнал. В зависимости от степени совпадения выбирается лучший вариант и формируется гипотеза о содержании высказывания. Здесь мы сталкиваемся с очень существенной проблемой - необходимостью нормализации сигнала по времени. Темп речи, длительность произношения отдельных слов и звуков даже для одного диктора варьируется в очень широких пределах. Таким образом, возможны значительные расхождения между отдельными участками хранимого эталона и теоретически совпадающим с ним входным сигналом за счет их временного рассогласования. Достаточно эффективно решать данную проблему позволяет разработанный в 70-х годах алгоритм динамического программирования и его разновидности (алгоритм Витерби). Особенностью таких алгоритмов является возможность динамического сжатия и растяжения сигнала по временной оси непосредственно в процессе сравнения с эталоном. С начала 80-х все более широкое применение находят Марковские модели, позволяющие на основе многоуровневого вероятностного подхода к описанию сигнала производить временную нормализацию и прогнозирование продолжений, что ускоряет процесс перебора эталонов и повышает надежность распознавания.

В основе действия любых систем ввода речевых сообщений лежит принцип распознавания образов. Система выделяет из поступающего речевого сигнала набор некоторых признаков, составляющих его “описание”, затем сравнивает полученное описание с эталонными, хранящимися в памяти системы ввода, т.е. вычисляет меры сходства. Если значение меры сходства превышает некоторый установленный уровень, то система “распознает” сигнал, присваивая ему значение соответствующего эталона. Помимо распознавания элементарных составляющих речевых сигналов, система должна интерпретировать речевые сообщения, т.е. находить соответствующие им орфографические текстовые последовательности, интерпретировать и выполнять команды, запоминать и заносить в память данные и т.п.
Базовым фонологическим элементом для большинства систем распознавания и интерпретирования речевых сообщений является слово; произнесенным словом может быть однозначно поставлен в соответствии их орфографическое представление.
В связи с этим все системы ввода речи принято делить по следующим критериям:

    способности распознавать слитную речь или отдельно произносимые слова;
    объему словаря распознаваемых слов (словари существующих систем содержат до 500 слов);
    ориентированности на одного говорящего или на произвольное число говорящих.
Большинство современных систем и устройств ввода речи предназначены для персональных и управляющих микро ЭВМ, следовательно, одним из основных требований, предъявляемых к таким системам ввода, является их низкая стоимость, которая достигается за счет ограничения словаря отдельно произносимых слов и упрощения алгоритмов обработки при ориентации системы на одного говорящего.
Обобщенная структурная схема такой системы речевого ввода:

Акустический речевой сигнал воспринимается микрофоном (М) и в виде аналогового электрического сигнала передается на высокочастотный фильтр (ФВЧ и АЦП). Цифровые отсчеты с выхода АЦП направляютя в препроцессор (ПП). Задача ПП состоит в том, чтобы уменьшить объем (а следовательно и скорость) передаваемых данных при сохранении существенной для распознавания речевых информации. В зависимости от принятого набора признаков, составляющих описание сигнала, ПП может представлять собой спектроанализатор, детектор форматных частот, анализатор ЛПК и т.п. Полученные в результате предварительной обработки сокращенное описание речевого сигнала передается п процессор выделения признаков (ПВП) и затем в систему принятия решений, включающую в себя блок классификатора (БК), память эталонных описаний (ПЭО) и блок настройки (БН). Система принятия решений работает в двух режимах – ввода и обучения.
В режиме ввода описание входного речевого сигнала подается в БК, который вычисляет меры сходства этого описания с эталонами, хранящимися в ПЗУ. В результате вычисления мер сходства для всей совокупности эталонов может быть найдена максимальная мера и принято решение о соответствии входного сигнала одному из эталонов. Входному речевому сигналу приписывается имя – идентификатор этого эталона. Затем найденный идентификатор передается прикладной программе или в центральную ЭВМ через блок сопряжения УС.
В режиме обучения описания входных речевых сигналов подаются в блок настройки. В этот же блок обычно с помощью клавиатуры Кл заносится имя – идентификатор речевого сигнала. БН находит “усредненное” описание для несколько раз повторенных слов или словосочетаний одним говорящим, затем приписывает это “усредненное” описание идентификатору, т.е. формирует эталон.
Все системы ввода речевых сигналов, как и системы распознавания образов вообще, принято характеризовать вероятностью правильного распознавания, вероятностью (частотой) отказов от распознавания, вероятностью (частотой) ошибок при распознавании. Численные значения этих характеристик зависят от объема словаря и используемых алгоритмов распознавания. Для словарей объемом 200-300 слов и словосочетаний вероятность правильного распознавания составляет 95-98 % .
В системах речевого ввода для повышения достоверности обычно предусматривают визуальную обратную связь. На рис. 3 эта связь показана в виде индикатора И, на экран которого выдается символьное представление произнесенного слова; непосредственный ввод этого представления в ЭВМ осуществляется только после подтверждения правильности распознавания, осуществляемого нажатием клавиши. При неправильном распознавании может быть подана устная команда отмены и ввод слова повторяется. Несмотря но то, что такая визуальная обратная связь лишает систему речевого ввода многих преимуществ, высокая достоверность ввода оправдывает ее применение во многих областях, в частности при подготовки данных. Рассматриваемая система обеспечивает более высокую скорость ввода по сравнению со скоростью ввода с клавиатуры.
1.3. Многообразие видов
Существующие системы распознавания речи можно классифицировать по разным признакам.
По назначению:
    командные системы
    системы диктовки текста.
По потребительским качествам:
    диктороориентированные (тренируемые на конкретного диктора)
    дикторонезависимые (рискую предложить термин «омнивойс»)
    распознающие отдельные слова
    распознающие слитную речь.
По механизмам функционирования:
    простейшие (корреляционные) детекторы
    экспертные системы с различным способом формирования и обработки базы знаний
    вероятностно-сетевые модели принятия решения, в том числе нейронные сети.
Довольно трудно выбрать удобный показатель качества работы системы распознавания речи. Наиболее просто такой показатель качества вводится для командных систем. При тестировании в случайном порядке произносятся все возможные команды достаточно большое число раз. Подсчитывается количество правильно распознанных команд и делится на общее количество произнесенных команд. В результате получается оценка вероятности правильного распознавания команды в заданной при эксперименте акустической обстановке. Для систем диктовки похожий показатель качества может вычисляться при диктовке некоторого тестового текста. Очевидно, что это не всегда удобный показатель качества. В действительности мы сталкиваемся с самыми различными акустическими обстановками. Но как быть со сменой дикторов и сопутствующей ей тренировкой системы?
В качестве примера разрешите взять на рассмотрение вариант простейшей командной системы распознавания речи. Функционирование системы основано на гипотезе о том, что спектрально-временные характеристики команд-слов для отдельно взятого диктора изменяются слабо. Акустическая модель такой системы представляет собой преобразователь из речевого сигналов спектрально-временную матрицу и может служить типичным примером изобретательского подхода. В самом простом случае команда локализуется во времени по паузам в речевом сигнале. Лингвистический блок способен обнаружить ограниченное число команд плюс еще одну, которая означает все остальные неизвестные системе слова. Как правило, лингвистическая модель строится как алгоритм поиска максимума функционала от входного образца и образцов всего «словарного запаса» системы. Часто это обычный двумерный коррелятор. Хотя выбор размерности пространства описания и его метрики может широко варьироваться разработчиком.
Уже исходя из «конструкции» описанной системы понятно, что она представляет собой скорее игрушку, нежели полезный инструмент. В настоящее время на рынке представлено множество коммерческих систем распознавания речи с гораздо большими возможностями:
        Voice Type Dictation , Voice Pilot , ViaVoice от IBM
        Voice Assist Creative от Techonology
        Listen for Windows от Verbex и многие другие.
Некоторые из них (например, ViaVoice) способны, как заявляют разработчики, вводить слитную речь.
Лингвистические блоки современных систем реализуют сложную модель естественного языка. Иногда она основана на математическом аппарате скрытых цепей Маркова, иногда использует последние достижения технологии нейронных сетей либо других ноу-хау. Устройство же акустических блоков подобных систем держится в строгом секрете. По некоторым признакам можно догадаться, что акустический блок некоторых систем пытается моделировать естественный слуховой аппарат.

1.3. Программные синтезаторы речи

Распознавание речи само по себе не представляет ничего нового. Системы диктования для отдельных профессий таких, как радиология, известны уже давно. Но они сами по себе очень дороги и требуют дорогих компьютеров. Менее дорогие программы более широкого применения предполагают специфическую манеру речи с паузами после каждого слова.
Компания Dragon Systems, выпустив NaturallySpeaking, заложила краеугольный камень в истории развития систем распознавания речи - это была первая программа, позволяющая диктовать текст естественным образом. Вскоре IBM предложил ViaVoice, аналогичную программу, стоившую на сотни долларов меньше конкурента.
Главным фактором, ускорившим развитие программ распознавания речи, было совершенствование компьютеров.
Программы распознавания речи требуют наличия довольно мощной звуковой карты, поскольку они выполняют сложную работу. Сначала произносимые вами слова захватываются микрофоном и обрабатываются звуковой картой.

и т.д.................

Фонограммы, записанные с использованием цифровых диктофонов «Гном Р» и «Гном 2М» удовлетворяют требованиям, предъявляемым к фонограммам, поступающим для проведения фоноскопических экспертиз, и пригодны для идентификации личности по голосу и речи...

Первый заместитель начальника

Диктофон «Гном 2М» неоднократно применялся для записи конференций и семинаров в сложной акустической обстановке, записанные фонограммы отличаются высоким качеством. Встроенная функция шумоочистки позволяет улучшить качество воспроизведения фонограмм...

Ведущий инженер ИПК БНТУ

Институт повышения квалификации и переподготовки кадров БНТУ

За срок эксплуатации «Гном Р» зарекомендовал себя с положительной стороны. Высокое качество записи при минимальных габаритах, большая продолжительность звукозаписи, оперативная передача накопленной информации из встроенной памяти диктофона в ПЭВМ...

Старший офицер 3-го отдела седьмого управления

Генерального штаба Вооруженных Сил РБ

Фонограммы, записанные с использованием системы «Незабудка II», удовлетворяют требованиям, предъявляемым к многоканальным цифровым комплексам регистрации речевых сообщений по телефонным каналам связи, и пригодны для идентификации личности по голосу и речи...

Начальник центра

Государственный экспертно-криминалистический центр

Неограниченное количество оповещаемых абонентов, большое количество одновременно обрабатываемых заданий сделает «Рупор» незаменимым помощником в работе сотрудников кредитного отдела филиала № 524 ОАО «АСБ Беларусбанка...

Заместитель директора – начальник центра розничного бизнеса

Филиал № 524 ОАО «АСБ Беларусбанк»

Система автоматического оповещения «Рупор» работала по аналоговым телефонным линиям и опробовалась с целью оповещения личного состава. Система обслуживала 100 абонентов, работала стабильно и не требовала постоянного технического обслуживания...

Исполняющий обязанности военного комиссара

Военный комиссариат г. Минска

Система записи «Незабудка II» обеспечивает прием голосовых сообщений жильцов, качественную запись их на компьютер, возможность прослушивания записанных сообщений и занесения информации в текстовую базу данных. Система оповещения «Рупор» производит автоматическое оповещение должников...

Начальник отдела АСУ

УП «ЖРЭО Советского района г. Минска»

Система «Рупор» обеспечивает оповещение большого количества абонентов в сжатые сроки в соответствии с установленными параметрами с предоставлением отчёта по проведённому оповещению, работает надёжно, полностью соответствует предъявленным к ней требованиям...

Директор департамента розничного бизнеса

В мобильную систему записи и документирования речи «Протокол» входит цифровой диктофон «Гном 2М» и компьютерный транскрайбер «Цезарь». Диктофон «Гном 2М» позволяет получать качественную запись совещаний и заседаний, а транскрайбер «Цезарь» значительно увеличивает скорость работы по переводу звуковой информации в текстовый документ...

Ведущий специалист

Институт государства и права Академии наук РБ

Голосовой пользовательский интерфейс: научная фантастика или реальность?

В области информационных технологий средства взаимодействия пользователя с технической системой принято называть интерфейсом. Интерфейсы бывают разные и реализуются разными средствами и методами. Например, всем известен графический интерфейс, который основан на использовании компьютерной графики для того, чтобы отображать пользователю необходимую ему информацию в наглядном виде. Необходимо отметить, что одной из важнейших задач разработки современных технических систем является обеспечение дружественного интерфейса с пользователем. Другими словами, современные компьютерные приложения все в большей степени становятся ориентированными на пользователя.

Очевидно, что одной из самых естественных форм взаимодействия для человека является речь. Широко распространено мнение, что, голосовой интерфейс может улучшить существующий пользовательский интерфейс, так как считается, что он обеспечивает более удобный и менее ограниченный способ взаимодействия человека с компьютером. Голосовой пользовательский интерфейс является, пожалуй, решающим фактором успеха любой системы автоматического распознавания речи, от него во многом зависит, каким будет впечатление пользователя от использования системы.

Голосовой пользовательский интерфейс позволяет человеку взаимодействовать с компьютером с целью запуска автоматизированного процесса или услуги. Элементами голосового пользовательского интерфейса являются системные подсказки, грамматика и алгоритм ведения диалога. Подсказки, или сообщения системы, представляют собой ранее записанные или синтезированные реплики, которые пользователь слышит во время диалога. Грамматика содержит набор возможных запросов и ответов пользователя. Система способна распознавать лишь те слова, предложения или фразы, которые включены в грамматику. Под алгоритмом ведения диалога понимается последовательность действий, которые выполняет система.

Несмотря на большую актуальность, далеко не все задачи разработки голосового интерфейса в настоящее время можно считать решенными. Проблема разработки голосового интерфейса является достаточно сложной и комплексной, что требует от разработчика знаний в различных предметных областях. Для создания качественного голосового пользовательского интерфейса необходимы знания в области компьютерных наук, лингвистики и психологии поведения человека. Даже при наличии продвинутых средств проектирования, разработка эффективного голосового пользовательского интерфейса требует от его создателей детального понимания как задач, выполняемых системой, так и психологии пользователей системы.

Проектируя голосовой пользовательский интерфейс, важно определить цель работы системы (например, заказать разговор по телефону, купить авиабилет или откорректировать рабочий график) и найти наиболее эффективный способ ее достижения. Для этого нужно ответить на следующие вопросы:

  1. Как человек обычно выполняет эту задачу?
  2. Есть ли возможность выполнить задачу за наименьшее количество шагов?
  3. Как большинство людей воспринимают эту задачу, т.е. их «ментальная модель» этой задачи?

Графические пользовательские интерфейсы используют возможность отображения информации на экране компьютера. Панель инструментов закреплена: она остается на экране, а иконки на ней не изменяются. Постоянство панели инструментов уменьшает необходимость запоминания пользователем целого ряда действий и команд. Речь же представляет собой поток звуков. Поэтому человеку необходимо полагаться на свою память, чтобы помнить, что произошло несколько секунд или минут назад. Это значит, что разработчикам голосовых пользовательских интерфейсов следует контролировать нагрузку, которую они оказывают на память пользователя. Обеспечение приемлемого уровня «когнитивной нагрузки» является одним из ключевых моментов в создании удобного в использовании голосового пользовательского интерфейса.

Как уже упоминалось выше, предугадать ответы пользователя – это задача эффективно разработанной грамматики. Грамматика определяет, что система может «понять» и как ей на это реагировать. Система, грамматика которой включает максимально ограниченный набор слов, распознает лишь ответы «да», «нет», в то время как расширенная грамматика позволяет системе правильно распознать такие ответы как «да, пожалуйста», «ммм... ага», «ну да». Некоторые грамматики позволяют распознать ответы вроде «я не знаю», после чего система предлагает несколько вариантов ответа для того, чтобы помочь пользователю определиться.

К сожалению, иногда в общении пользователя с системой возникают ошибки и непонимания. Предвосхищая возникновение наиболее распространенных ошибок, предлагая пользователю понятные вопросы и адекватно реагируя на его ответы, голосовой интерфейс может задавать диалогу правильный ход и быстро исправлять ошибки, в случае их возникновения. Например, если пользователь молчит, очевидно, не зная, что говорить, система может задать ему развернутый вопрос:

Если ответ пользователя не совпадает с теми, которые содержатся в грамматике, он может привести к ошибке распознавания, поэтому система должна уточнить, каким образом следует ответить:

Если система все же не справляется с ошибкой, она предлагает пользователю перевести вызов на оператора.

Если говорить о навигации по системе, то следует отметить, что работая с приложением, пользователь должен всегда иметь возможность вернуться на один шаг назад в диалоге, еще раз прослушать последнее сообщение системы или пропустить какой-либо уровень диалога и сразу перейти на следующий. Варианты команд пользователя для навигации по системе должны быть включены в грамматику. Грамматика должна содержать и все возможные синонимы команд. Например, для команды «Повторить » нужно учесть ряд синонимов, начиная от «Скажите еще раз, пожалуйста » до «Что? ».

Наличие гиперссылок позволяет пользователю дополнительно контролировать обычный ход диалога. Переходя по гиперссылке, пользователь может пропускать некоторые уровни диалога и сразу попадать в нужное ему место диалога. Типичным примером являются гиперссылки на главное меню, приостановление работы с приложением, соединение с представителем службы поддержки и завершение вызова.

Также следует тщательно продумать, какие команды пользователь должен подтверждать и когда. Подтверждение выбора команды особенно необходимо в случаях, где цена ошибки достаточно высока. Как в случае с командой «Отменить», когда пользователь может случайно завершить диалог с системой и прервать, например, процесс бронирования билета.

Возможность приостановить работу с приложением бывает необходимо пользователям, которые нуждаются в дополнительном времени, чтобы, например, найти номер своего счета или взять ручку и блокнот, или которые, работая с приложением, вынуждены отвлекаться, например, вести автомобиль. В таких случаях ход диалога приостанавливается до тех пор, пока система не получит соответствующую команду пользователя, например, «Продолжить ».

Важно уделить особое внимание и качеству озвучивания и записи сообщений системы. Правильно разработанная грамматика, содержащая все возможные синонимы, допускает разнообразие ответов пользователя, однако сообщения системы должны быть более четкими. При разработке голосового пользовательского интерфейса необходимо всегда пояснять пользователю, каким образом ему следует отвечать. Для этого, если допустимый ответ подсказать пользователю нельзя, разработчики приложения предусматривают наличие ряда ключевых слов, которые помогают пользователю дать понятный системе ответ. Например, «Вы хотите “выбрать пункт назначения”, “получить информацию о гостиницах ” или “забронировать комнату”?»

Остановимся немного на сообщениях системы. К сообщениям системы относятся подсказки, которые бывают трех типов:

  1. Запрос информации – обращение к пользователю с просьбой сделать выбор, выбрать из меню, выбрать часть информации, которую нужно исправить, а также ввести свои данные, к примеру, номер телефона.
  2. Сообщение о текущем состоянии системы – сообщение о возникновении ошибки, краткое изложение информации, которую нужно подтвердить, а также фразы вроде «Подождите, пожалуйста », которые сообщают пользователю о возникновении задержки при обработке данных. К данной категории также относятся так называемые «метки», которые сообщают пользователю, на каком уровне диалога он находится, например, «Вы вернулись в главное меню ».
  3. Сообщение информации – может быть инициировано системой либо пользователем. К первому относятся приветствие, а также сообщение пользователю инструкции по работе с приложением. Ко второму относится информация, которую запрашивает пользователь, например, справка, прогноз погоды и пр.

Речевые сообщения системы представляют собой синтезированные или заранее записанные фразы, или сочетание и того и другого. Синтез речи больше подходит для озвучивания динамического информационного содержимого, такого как сообщения электронной почты. С другой стороны, записанная речь, т.е. фразы, заранее записанные в студии профессиональным актером, более точно передают экспрессивность речи человека и делают диалог более естественным.

Во многих приложениях также имеется звуковое сопровождение речевых сообщений системы. Так, часто используются музыкальные логотипы, звуки, обозначающие возникновение ошибки, начало сообщения, звуки окружающей среды.

Однако не все деловые операции поддаются автоматизации с использованием голосового пользовательского интерфейса. Как правило, чем сложнее запросы и операции, тем проблематичнее их автоматизировать, и тем больше вероятность того, что в результате они не найдут популярности среди пользователей. К примеру, горячую линию юридической консультации достаточно сложно автоматизировать, поэтому в данном случае помощь оператора является единственным вариантом. С другой стороны, применение голосового пользовательского интерфейса удобно для автоматизации быстрых, постоянно повторяющихся операций, таких как оформление заказа, регистрация времени или платежа, перевод денежных средств с одного счета на другой.

Перечислим некоторые конкретные применения голосового пользовательского интерфейса, которые уже используются в различных системах:

  • системы защиты доступа к базам данных, информации и объектам;
  • системы оповещения в чрезвычайных ситуациях (несанкционированное проникновение на объект, экономическая безопасность, жизнеобеспечение объекта и пр.);
  • справочные голосовые системы реального времени, которые позволяют автоматически обновлять информацию сразу после ее изменения;
  • системы доступа к справочной информации через телефонную сеть общего доступа;
  • системы доступа к корпоративной информации, например, чтение или отправка электронной почты;
  • системы голосовой почты;
  • системы проведения голосований и конкурсов;
  • автоматические системы обслуживания клиентов, операции с лицевыми счетами, получение и обработка заказов.

Качественный голосовой интерфейс помогает преодолевать неприятие технологии пользователями, так как для его использования не нужно овладевать новыми навыками. Общаясь с системой, пользователь может выполнять различные операции быстро и легко, как будто общаясь с квалифицированным специалистом. Голосовой интерфейс качественным образом изменяет способ, а следовательно и эффективность взаимодействия пользователя с системой. Позволяет сделать работу с приложением более естественной для человека.