ИИ

Скрытые Марковские модели в распознавании речи

Самое быстрое и эффективное взаимодействие между людьми происходит посредством устной речи. С помощью речи могут быть переданы различные чувства и эмоции, а главное — полезная информация. Необходимость создания компьютерных интерфейсов звукового ввода-вывода не вызывает сомнений, поскольку их эффективность основана на практически неограниченных возможностях формулировки в самых различных областях человеческой деятельности.

Скрытые марковские модели (СММ), статистическая модель. В области распознавания речи.

В этом руководстве мы рассмотрим скрытые марковские модели и их применение в отдельных аспектах распознавания речи.

Происходящие явления можно описывать как сигналы. Сигналы могут быть дискретными, как письменная речь, или непрерывными, как фонограмма или кардиограмма. Сигналы с постоянными статистическими свойствами называются стабильными (стационарными), а с меняющимися — нестабильными (нестационарными). Сигнал может быть чистым, а может и искаженным, с помехами или посторонними сигналами.

Настройка синтеза речи в linux Ubuntu

Простой рецепт по установке и использованию синтезатора речи Festival в Ubuntu:

Устанавливаем festival и сопутствующие утилиты:

   sudo apt-get install festival speech-tools

Cтавим пакет с голосом, которые занимает 186 Мб.
В репозитории universe Ubuntu 9.10 уже есть готовый пакет festvox-ru:

   sudo apt-get install festvox-ru

Система распознавания речевых команд в Linux при помощи ПО julius

Для декодирования речевых команд можно использовать открытый проект Julius.

Пользователи Ubuntu могут установить готовые пакеты:

   sudo apt-get install julius julius-voxforge

Так как последний стабильный релиз Julius 4.2.1 некорректно работает с
подсистемой ALSA, при использовании ALSA может потребоваться пересобрать код из cvs-репозитория:

   cvs -z3 -d:pserver:anonymous@cvs.sourceforge.jp:/cvsroot/julius co julius4
   cd julius4
   ./configure --with-mictype=alsa
   make

Шумоподавление в CMU Sphinx

Можно смело заявить, что на сегодня CMU Sphinx стал лидером среди открытого софта для распознавания речи. Pocketsphinx поставляется вместе с Ubuntu, многообещающий проект Simon построен с широким его использованием, а структура корпуса Voxforge как бы намекает, что создан он для sphinxtrain.

Ru_tts - синтезатор русской речи для Linux. (language speech voice sound)

http://www.opennet.ru/base/rus/rus_speech.txt.html

Помню, как когда-то меня поразила работа программы "Говорилка" для
   Windows. Я впервые услышал, как компьютер читает голосом текстовый
   файл - вполне разборчиво и вполне по-русски. Фантастика. Позднее,
   когда Linux стал для меня системой номер 1, очень хотелось иметь что
   то подобное и в нем. Я даже провел небольшое исследование на эту тему
   - поиск голосовых движков для Linux, результатом чего явился обзор

Сверхбыстрое распознавание речи без серверов на реальном примере

В этой статье я подробно расскажу и покажу, как правильно и быстро прикрутить распознавание русской речи на движке Pocketsphinx (для iOS порт OpenEars) на реальном Hello World примере управления домашней техникой.

Восприятие речи

Восприятие речи состоит в ее распознавании. Причем речь воспринимается лишь в обязательной совокупности двух аспектов: как слухового раздражителя и как источника смыслового содержания воспринятых звуков. Первый аспект реализуется слуховой или зрительной системой (в зависимости от формы речи - голосовая или письменная).

Роль интонационно-выразительной окраски речи в жизни человека.

Хорошо известна та роль, которую играет устная речь как средство общения и взаимопонимания людей. Речевая деятельность для любого человека является жизненно необходимой потребностью – без неё невозможно активное общение. Благодаря речи человек приобретает знания, передаёт их.

     Если вслушаться в устную речь, то можно заметить, что мы произносим фразы по- разному: быстро или медленно, высоким или низким тоном, громко или тихо, протяжно или отрывисто, радостно или грустно. Достигается это благодаря  просодической стороне речи.

Страницы

Обратная связь

Интересуют вопросы реализации алгоритмов, программирования, выбора электроники и прочая информация, постараюсь осветить в отдельных статьях

пишите мне на netdm@mail.ru

Подписка на ИИ