речи

Скрытые Марковские модели в распознавании речи

Самое быстрое и эффективное взаимодействие между людьми происходит посредством устной речи. С помощью речи могут быть переданы различные чувства и эмоции, а главное — полезная информация. Необходимость создания компьютерных интерфейсов звукового ввода-вывода не вызывает сомнений, поскольку их эффективность основана на практически неограниченных возможностях формулировки в самых различных областях человеческой деятельности.

Скрытые марковские модели (СММ), статистическая модель. В области распознавания речи.

В этом руководстве мы рассмотрим скрытые марковские модели и их применение в отдельных аспектах распознавания речи.

Происходящие явления можно описывать как сигналы. Сигналы могут быть дискретными, как письменная речь, или непрерывными, как фонограмма или кардиограмма. Сигналы с постоянными статистическими свойствами называются стабильными (стационарными), а с меняющимися — нестабильными (нестационарными). Сигнал может быть чистым, а может и искаженным, с помехами или посторонними сигналами.

Система распознавания речевых команд в Linux при помощи ПО julius

Для декодирования речевых команд можно использовать открытый проект Julius.

Пользователи Ubuntu могут установить готовые пакеты:

   sudo apt-get install julius julius-voxforge

Так как последний стабильный релиз Julius 4.2.1 некорректно работает с
подсистемой ALSA, при использовании ALSA может потребоваться пересобрать код из cvs-репозитория:

   cvs -z3 -d:pserver:anonymous@cvs.sourceforge.jp:/cvsroot/julius co julius4
   cd julius4
   ./configure --with-mictype=alsa
   make

Шумоподавление в CMU Sphinx

Можно смело заявить, что на сегодня CMU Sphinx стал лидером среди открытого софта для распознавания речи. Pocketsphinx поставляется вместе с Ubuntu, многообещающий проект Simon построен с широким его использованием, а структура корпуса Voxforge как бы намекает, что создан он для sphinxtrain.

Сверхбыстрое распознавание речи без серверов на реальном примере

В этой статье я подробно расскажу и покажу, как правильно и быстро прикрутить распознавание русской речи на движке Pocketsphinx (для iOS порт OpenEars) на реальном Hello World примере управления домашней техникой.

Восприятие речи

Восприятие речи состоит в ее распознавании. Причем речь воспринимается лишь в обязательной совокупности двух аспектов: как слухового раздражителя и как источника смыслового содержания воспринятых звуков. Первый аспект реализуется слуховой или зрительной системой (в зависимости от формы речи - голосовая или письменная).

Управляем Linux-десктопом с помощью голосовых команд

Вчера я рассказывал о том, как научить свой Linux-десктоп проговаривать различную информацию, сегодня я хочу несколько расширить начатую тему и рассказать о системах распознования речи, с помощью которых можно научить машину понимать простые голосовые команды.

Страницы

Обратная связь

Интересуют вопросы реализации алгоритмов, программирования, выбора электроники и прочая информация, постараюсь осветить в отдельных статьях

пишите мне на netdm@mail.ru

Подписка на речи