Методы анализа данных

Версия для печатиВерсия для печати

Аннотация

В курсе рассматриваются различные вероятностно-статистические методы обработки и анализа данных. Описываются характерные этапы и задачи обработки наблюдений, методы их решения, имеющиеся программные реализации. В частности, применительно к типичным задачам автоматизации научных исследований подробно излагается техника линеаризации нелинейных функций случайных аргументов, методы имитационного моделирования генерацией случайных чисел, теория и применения множественного регрессионного анализа в линейном и нелинейном случае. Помимо этих вопросов, рассмотрены задачи проверки случайности, независимости и однородности (в том числе для произвольного непрерывного распределения данных), а также различные критерии согласия.

Общая информация

Курс 3
Семестр 6
Форма контроля экзамен по дисциплине
Аудиторных часов 32
Лектор 2007/2008 уч.г. ст.н.с. Уфимцев М.В.
Авторы учебного курса чл.-корр. РАН Костомаров Д.П., ст.н.с. Уфимцев М.В.

Тематический план

Название темы (лекции)
1 Введение: основные этапы и задачи обработки данных
2 Необходимый математический аппарат
3 Продолжение предыдущей темы; метод линеаризации для оценки среднего и дисперсии нелинейной функции
4 Проверка случайности и независимости в случае нормально распределенных данных
5 Проверка однородности (задача о двух выборках) для нормального распределения
6 Свободные от распределения критерии: проверка независимости и случайности; ранговые критерии
7 Задача о двух выборках: критерий Уилкоксона (Манна-Уитни) и нормальных меток
8 Критерии согласия: критерий Пирсона для простой гипотезы
9 Критерий Пирсона в случае сложной гипотезы
10 Критерии согласия, основанные на эмпирической функции распределения
11 Методы статистического моделирования (Монте-Карло)
12 Классическая модель множественной регрессии
13 Свойства оценок наименьших квадратов; обобщенная модель и НК-оценка Aitken'а
14 Свойства многомерного нормального распределения
15 Нормальная регрессия
16 Регрессионный анализ для нормальной модели. Нелинейная регрессионная модель

Содержание курса

  1. Введение: основные этапы и задачи обработки данных. Предмет курса и почему он нужен. Данные, наблюдения, случайные величины. Качественные и количественные наблюдения, подсчет и измерение. Понятие об измерительных шкалах. Классификация ошибок - систематические и случайные. Прямые и косвенные измерения; фундаментальная система, ее разрешимость. Этапы анализа и обработки данных, возникающие задачи.
  2. Необходимый математический аппарат. Характеристические функции и независимые случайные величины; воспроизводимость распределений; основные дискретные и непрерывные распределения; выборочные моменты, теорема Фишера.
  3. Продолжение предыдущей темы; метод линеаризации для оценки среднего и дисперсии нелинейной функции Понятия теории проверки статистических гипотез; критерий отношения правдоподобия. Метод линеаризации для оценки среднего и дисперсии нелинейной функции одной случайной величины; метод линеаризации для функций нескольких случайных величин.
  4. Проверка случайности и независимости в случае нормально распределенных данных Формулировка задач проверки случайности, независимости и однородности, их взаимосвязь. Свободные от распределения критерии. Важность отдельного рассмотрения нормально распределенных данных (центральная предельная теорема, асимптотики распределений, известны оптимальные процедуры решения рассматриваемых задач). Проверка случайности: критерий Аббе. Проверка независимости.
  5. Проверка однородности (задача о двух выборках) для нормального распределения Проверка однородности (задача о двух выборках): проверка отсутствия сдвига распределений; проверка равенства дисперсий; проверка равенства средних при различных дисперсиях.
  6. Свободные от распределения критерии: проверка независимости и случайности; ранговые критерии Проверка независимости: использование выборочного коэффициента корреляции; понятие о рангах. Коэффициент ранговой корреляции Спирмэна, статистика Кендалла. Проверка случайности ранговыми статистиками Спирмэна, Кендалла и нормальных меток.
  7. Задача о двух выборках: критерий Уилкоксона (Манна-Уитни) и нормальных меток. Формулировка задачи проверки отсутствия сдвига между распределениями двух выборок. Критерий Уилкоксона и статистика Манна-Уитни; их взаимосвязь. Свойства статистики Уилкоксона, ее эффективность. Критерий нормальных меток Фишера-Йейтса-Гефдинга-Терри.
  8. Критерии согласия: критерий Пирсона для простой гипотезы Формулировка задачи; простая и сложная гипотеза. Критерий Пирсона для простой гипотезы, асимптотическое распределение статистики Пирсона. Ее связь со статистикой отношения правдоподобия.
  9. Критерий Пирсона в случае сложной гипотезы Неприменимость доводов Пирсона при проверке сложной гипотезы. Статистики Фишера: отношения правдоподобия и минимума Хи-квадрат. Модифицированная статистика фон Неймана. Практические аспекты: выбор наилучшей конфигурации ячеек и их числа.
  10. Критерии согласия, основанные на эмпирической функции распределения Понятие эмпирической функции распределения, теорема Гливенко-Кантелли о равномерной сходимости эмпирической функции распределения к теоретической. Классы основанных на эмпирической ф.р. статистик: супремум-статистики (Колмогорова) и квадратичные статистики (Крамера-Мизеса, Андерсона-Дарлинга). Простая гипотеза - использование вероятностного интегрального преобразования для получения свободных от распределения процедур. Трудности при проверке согласия в случае сложной гипотезы. Сравнительная эффективность критериев согласия.
  11. Методы статистического моделирования (Монте-Карло) Задачи, требующие компьютерного моделирования с участием случайных чисел. Способы их получения. Требования к генераторам случайных чисел. Конгруэнтный метод и генераторы Фибоначчи для получения равномерно распределенных случайных чисел. Генерация непрерывных случайных величин, в том числе нормальных. Генерация дискретных величин: общий способ и методы генерации специальных распределений (на примере Пуассона), Пример применения метода Монте-Карло.
  12. Классическая модель множественной регрессии Постановка задачи, примеры ее актуальности и ее решение методом наименьших квадратов: нормальные уравнения и их разрешимость. Метод наименьших квадратов в случае неполноты матрицы данных.
  13. Свойства оценок наименьших квадратов; обобщенная модель и НК-оценка Aitken'а Свойства оценки наименьших квадратов. Геометрическая интерпретация метода. Оценка общей дисперсии в методе наименьших квадратов. Свойства идемпотентных и проекционных матриц. Некоррелированность вектора регрессионных остатков и оценки наименьших квадратов. Обобщенная модель наименьших квадратов и сведение ее к классической с помощью факторизации Холесского. НК-оценка Эйткена, ее целевая функция; свойства этой оценки.
  14. Свойства многомерного нормального распределения Определение многомерной нормальной случайной величины; смысл параметров нормального распределения. Эквивалентность некоррелированности и статистической независимости нормальных величин; свойство усиленной воспроизводимости. Теорема о нормальности произведения матрицы на многомерный нормальный вектор. Маргинальное распределение многомерных нормальных величин. Распределение случайной квадратичной формы в экспоненте нормального распределения.
  15. Нормальная регрессия НК-оценка не оптимальна в случае произвольного закона распределения ошибок (пример). Эквивалентность НК-оценок и оценок максимального правдоподобия при нормально распределенных ошибках. Свойства НК-оценок и квадратичных форм; независимость НК-оценки и остаточной суммы квадратов. Приложения нормальной регрессии: построение доверительных интервалы и областей
  16. Регрессионный анализ для нормальной модели Общая линейная гипотеза и ее проверка; одномерная линейная регрессия. Нелинейная регрессионная модель: постановка задачи, применимость НК-оценок при нормальном распределении ошибок, Градиентные методы минимизации квадратичной целевой функции: допустимый метод, условия допустимости шага; условия останова. Методы минимизации: Ньютона, Гаусса-Ньютона, модификация Левенберга-Марквардта.

Литература

Основная литература:

  • М.В. Уфимцев "Методы анализа данных: Учебное пособие". М.: МАКС ПРЕСС, 2007

Дополнительная литература:

  1. Джонсон Н., Лион Ф. Статистика и планирование эксперимента в технике и науке: Методы обработки данных. М.: Мир. 1980
  2. Кендалл М.Дж., Стъюарт А. Статистические выводы и связи. М.: Наука. 1973
  3. Бикел П., Доксам К. Математическая статистика. Вып. 1, 2. М.: Финансы и статистика. 1983
  4. Себер Дж. Линейный регрессионный анализ. М.: Мир. 1980
  5. Тихонов А.Н., Уфимцев М.В. Статистическая обработка результатов экспериментов. М.: изд. МГУ. 1988
  6. Уфимцев М.В. Методы многомерного статистического анализа. М.: изд-во МГУ. 1997
  7. Ивченко Г.И., Медведев Ю.И. Математическая статистика. М. 1984