Цифровая обработка звуковых сигналов: теория, алгоритмы и системы

Версия для печатиВерсия для печати

Аннотация

В рамках настоящего курса изучаются математические модели и алгоритмы, лежащие в основе современных методов обработки звуковых, в первую очередь, речевых сигналов. Рассматриваются все этапы процесса обработки сигнала, начиная с предварительного анализа и выделения характерных признаков, и заканчивая построением классифицирующей или распознающей системы. Большое внимание уделено таким методам цифрового анализа сигналов, как скрытые модели Маркова, преобразование Фурье, вейвлет преобразование, искусственные нейронные сети, кластеризация, фильтрация и др. Проводится анализ современных распознающих систем и инструментария для их разработки. Помимо распознавания речевых сигналов, также рассматриваются другие актуальные задачи в области анализа звуковых сигналов, например, классификация музыкальных фрагментов, верификация и идентификация диктора и др.

Общая информация

Курс 3-5
Форма контроля Зачет в осеннем семестре, экзамен в весеннем семестре
Аудиторных часов 72
Лектор доц. Шишкин А.Г.
Авторы учебного курса доц. Шишкин А.Г.

Тематический план

п/п Тема Лекции
(час.)
Самостоят.
работа (час.)
1 Проблемы цифровой обработки звуковых сигналов и история систем распознавания речи. 2 2
2 Цифровые модели звуковых сигналов. 8 4
3 Выделение характерных признаков звуковых сигналов. 22 20
4 Усиление сигналов. 8 4
5 Построение кодовой книги. 8 6
6 N-грамм модели. 4 2
7 Скрытые марковские модели (СММ). 18 16
8 Искусственные нейронные сети (ИНС). 8 4
9 Гибридные модели ИНС и СММ. 6 4
10 Многоканальная обработка речевых сигналов. 6 4
11 Современные системы распознавания речи и инструментарий для их разработки. 12 16
12 Другие применения цифровой обработки звуковых сигналов. 6 6
Всего 108 88
Итого 196

Содержание курса

  • Проблемы цифровой обработки звуковых сигналов и история систем распознавания речи. Цели и задачи курса. Общие принципы обработки звуковых сигналов и применяемые для этого методы. Различные постановки задачи. Основные этапы технологической цепочки обработки сигналов на ЭВМ. Общее и специальное программное обеспечение. История систем распознавания слитной речи. Архитектура современных систем распознавания речи.
  • Цифровые модели звуковых сигналов. Обзор основных направлений цифровой обработки сигналов. Квантование сигналов. Теорема Котельникова. Цифровые сигналы и системы. Цифровая фильтрация. Цифровые модели речевых сигналов. Процесс речеобразования. Акустическая теория образования речи. Модели с трубами без потерь. Фильтры с конечной и бесконечной импульсной характеристикой. Идеальный низкочастотный фильтр. Фильтры Калмана. Оценка параметрического стохастического процесса на основе зашумленных наблюдений. Обобщенные фильтры Калмана. Применение фильтров Калмана для обработки речевых сигналов. Цифровые модели речевых сигналов. Процесс речеобразования. Акустическая теория образования речи. Модели с трубами без потерь. Цифровые модели речевых сигналов. Голосовой тракт. Излучение. Возбуждение
  • Выделение характерных признаков звуковых сигналов. Сегментирование сигнала. Различные оконные функции. Непрерывное преобразование Фурье. Z-преобразование. Свойства преобразования Фурье. Прямое и обратное Z-преобразования. Дискретное преобразование Фурье. Быстрое преобразование Фурье. Кратковременный спектральный анализ.Обзор методов кратковременного анализа и синтеза речи Кодирование сигналов на основе линейного предсказания. Принцип ортогональности. Решение системы уравнений линейного предсказания на основе разложения Холецкого для ковариационного метода и алгоритм Дарбина. Спектральный анализ с помощью линейного предсказания. Ошибка предсказания. Соотношения между различными параметрами речи. Многоканальное линейное предсказание. Применение параметров линейного предсказания. Гомоморфные относительно свертки системы. Кепстральный анализ линейного и нелинейного масштаба. Действительный и комплексный кепстр. Разделение источник-фильтр с помощью кепстрального анализа. Билинейное преобразование. Перцептивное линейное предсказание. Вейвлет-преобразования. Кратномасштабное разложение. Масштабирующие функции. Вейвлет-функции. Разложение в вейвлет-ряды Дискретное вейвлет-преобразование. Интегральное вейвлет-преобразование. Алгоритм быстрого вейвлет-преобразования. Обработка звуковых сигналов, основанная на теории вейвлет-преобразования. Частота основного тона и форманты: их роль в обработке звуковых сигналов и методы определения (автокорреляционный, на основе вейвлет-преобразования, RAPT, YIN, SWIPE и др.). Определение вокализованных и невокализованных участков речевого сигнала. Методы разделения речи и пауз и особенности их реализации.
  • Усиление сигналов. Шум. Модель сигнала и постановка задачи. Устранение шума с помощью фильтрации. Устранение шума на основе спектрального восстановления. Устранение шума в речевых моделях. Методы спектрального усиления. Статистические модели. Априорная оценка отношения сигнал/шум. Оценка спектра шума. Реверберация. Разделение речи и реверберации на основе гомоморфного преобразования.
  • Построение кодовой книги. Основные понятия кластерного анализа. Примеры прикладных задач. Расстояния между элементами и кластерами. Правила объединения и связывания. Алгоритмы и методы кластеризации. Агломеративные (иерархические) методы. Методы, основанные на разделении кластеров. Методы К-средних. Методы теории адаптивного резонанса. Формула Ланса-Вильямса. Теорема о монотонности. Алгоритм построения дендрограммы. Потоковые (субквадратичные) алгоритмы кластеризации.
  • N-грамм модели. N-граммы. Обучающее и тестовое множества. Оценка N-грамм. Методы сглаживания. Метод Лапласа. Дисконтирование Гуда-Тьюринга. Интерполяция. Метод Катца.
  • Скрытые марковские модели (СММ). Марковские цепи. Основы динамического программирования. Метод динамической деформации времени. Непрерывные и полунепрерывные скрытые модели Маркова. Три основные задачи, решаемые с применением скрытых марковских моделей (СММ). Оценка правдоподобия: прямой алгоритм. Алгоритм Витерби. Улучшение параметров модели (алгоритм Баума-Уэлча). Адаптация СMM для распознавания речевого сигнала. Модель Бакиса. Гауссовы смеси. Модели с максимальной энтропией. Линейная регрессия. Логистическая регрессия. Марковские модели с максимальной энтропией. Специфика применения принципа максимального правдоподобия для оценивания параметров в вероятностных моделях со скрытой случайной переменной. Метод ожидания-максимизации и его численная реализация для скрытого процесса с конечным числом состояний и для нормального процесса в конечномерном линейном пространстве. Определение числа состояний модели. Инициализация параметров. Переоценка параметров модели. Проверка построенных моделей на множествах из тестовой выборки. Методы повышения апостериорной вероятности распознавания. Встроенное обучение.
  • Искусственные нейронные сети (ИНС). Искусственный нейрон. Геометрический смысл функционирования нейрона. Метод стохастического градиента. Теорема сходимости. Проблема «исключающего или». Проблема полноты. Теоремы Колмогорова и Стоуна. Нейронная сеть прямого распространения. Нейросеть с радиальными базисными функциями. Нейронная сеть с задерживанием времени. Рекуррентная нейросеть. Организация процесса настройки нейросети. Применение нейросетей для распознавания речи.
  • Гибридные модели ИНС и СММ. Описание гибридной модели. Обучение модели. Тестирование гибридных моделей.
  • Многоканальная обработка речевых сигналов. Решетки микрофонов. Дифференциальные решетки. Адаптивные системы решеток микрофонов. Оценка временной задержки и локализация источника. Слепое разделение сигналов. Модель разделения. Идентификация. Принципы разделения. Преимущества и недостатки временного и частотного разделения сигналов. Математическое представление поля акустической волны. Стереофония. Амбиофония.
  • Современные системы распознавания речи и инструментарий для их разработки. Архитектура автоматических систем распознавания речи. Организация диалога с пользователем. Адаптация к конкретному пользователю. Основные существующие системы распознавания речи и компьютерные среды их разработки, такие как HTK Speech Recognition Toolkit, CMUSphinx, CSLU Toolkit, iPhone Speech SDK, Microsoft Speech Platform SDK, Dragon Software Developer Kits, Dragon Naturally Speaking, Google Web Speech API.
  • Другие применения цифровой обработки звуковых сигналов. Верификация и идентификация диктора. Определение изменений эмоционального состояния по речевому сигналу. Классификация музыкальных сигналов. Автоматическое определение языка. Использование невербальных элементов для повышения качества распознавания речи.
  • Литература

    1. L. Rabiner, B.-H. Juang. Fundamentals of Speech Recognition. - Prentice Hall, 1995, 507p.
    2. Л.Р. Рабинер, Р.В. Шафер. Цифровая обработка речевых сигналов. - М. "Радио и связь", 1981, 496 с.
    3. X. D. Huang. Spoken Language Processing: a Guide to Theory, Algorithm, and System Development. - Prentice Hall, 2001, 980 p.
    4. S.V. Vaseghi. Advanced Digital Signal Processing and Noise Reduction. - 2nd edition, John Wiley & Sons, 2000, 470 p.
    5. J. Y. Stein. Digital Signal Processing: A Computer Science Perspective. - John Wiley & Sons, 2000, 830 p.
    6. X. D. Huang, Y. Ariki, M. A. Jack. Hidden Markov Models for Speech Recognition. - Edinburgh University Press, 1990, 275 p.
    7. Hidden Markov Models, Theory and Applications. - ed. P. Dymarski, InTech Publ., 2011, 314 p.
    8. S.E. Levinson. Mathematical Models for Speech for Speech Technology. - John Wiley & Sons, 2005, 261 p.
    9. Ф. Уоссерман. Нейрокомпьютерная техника. Теория и практика. - М.: Мир, 1992, 237с.
    10. Факторный, дискриминантный и кластерный анализ: Пер с англ./Дж. - О.Ким, Ч.У. Мьюллер, У.Р. Клекка и др.; Под ред. И.С. Енюкова. - М.: Финансы и статистика, 1989. - 215с.
    11. S. Young, G. Evermann, M. Gales et al. The HTK Book. - Cambridge University Engineering Department