Методы одномерного и многомерного статистического анализа

Версия для печатиВерсия для печати

Аннотация

В курсе рассматриваются различные вероятностно-статистические методы обработки и анализа данных. Описываются характерные этапы и задачи обработки наблюдений, методы их решения, имеющиеся программные реализации. В осеннем семестре (с изложением преимущественно методов одномерного статистического анализа) рассматриваются задачи проверки случайности, независимости и однородности (в том числе - свободные от распределения, для произвольного непрерывного распределения данных), а также различные критерии согласия, проверка данных на нормальность, теория и практика применения методов множественного регрессионного анализа. Наиболее употребительные методы многомерного статистического анализа рассмотрены в весеннем семестре. Прежде всего, это вопросы компьютерной реализации метода наименьших квадратов, а также нелинейного регрессионного анализа. После этого изложение переходит к таким многомерным методам изучения структуры корреляционных связей, как корреляционный анализ, анализ канонических корреляций. Введение линейной модели данных в методе главных компонент и факторном анализе, как показано, сильно облегчает анализ взаимозависимости компонент многомерных случайных величин. Наконец, слушатели получают представление о другом классе многомерных статистических методов - дискриминантном анализе, при котором данные относят к одной из нескольких совокупностей.

Общая информация

Курс 4, 5
Форма контроля экзамен по дисциплине в конце каждого семестра
Аудиторных часов 64
Лектор 2007/2008 уч.г. ст.н.с. Уфимцев М.В.
Авторы учебного курса чл.-корр. РАН Костомаров Д.П., ст.н.с. Уфимцев М.В.

Тематический план

Название темы (лекции)
Осенний семестр
1 Введение: основные этапы и задачи обработки данных
2 Необходимый математический аппарат
3 Продолжение предыдущей темы: проверка статистических гипотез. Проверка случайности, независимости и однородности. Важность рассмотрения случая нормального распределения данных.
4 Проверка случайности и независимости в случае нормально распределенных данных
5 Проверка однородности (задача о двух выборках) в случае нормального распределения: критерий отношения правдоподобия
6 Свободные от распределения критерии: проверка независимости и случайности; ранговые критерии.
7 Задача о двух выборках: критерий Уилкоксона (Манна-Уитни) и нормальных меток
8 Критерии согласия: критерий Пирсона для простой гипотезы
9 Критерий Пирсона в случае сложной гипотезы
10 Критерии согласия, основанные на эмпирической функции распределения.
11 Критерии согласия, основанные на корреляциях; критерии нормальности (Шапиро-Уилка и Пирсона)
12 Классическая модель множественной регрессии.
13 Свойства оценок наименьших квадратов; обобщенная модель и НК-оценка Aitken'а
14 Свойства многомерного нормального распределения
15 Нормальная регрессия.
16 Регрессионный анализ для нормальной модели
Весенний семестр
1 Мультиколлинеарность и гребневые регрессионные оценки
2 Вычислительные аспекты метода наименьших квадратов; нелинейная регрессия
3 Многомерные моментные характеристики; оценки максимального правдоподобия для выборки из многомерного нормального распределения
4 Корреляционный анализ в двумерном случае
5 Частные корреляции и их свойства
6 Коэффициент множественной корреляции
7 Анализ канонических корреляций
8 Метод главных компонент для популяции
9 Анализ главных компонент для выборки
10 Модели факторного анализа и их свойства
11 Метод главных факторов для оценки параметров факторной модели
12 Геометрическая интерпретация случайных величин в общем случае и для модели разведочного факторного анализа
13 Центроидный метод факторного анализа
14 Оценивание параметров факторной модели методом максимального правдоподобия
15 Постановка задач дискриминантного анализа; классифицирующая и разделяющая функции
16 Классическая дискриминантная функция Фишера и ее вычисление

Содержание курса

Осенний семестр

  1. Введение: основные этапы и задачи обработки данных Предмет курса и почему он нужен. Данные, наблюдения, случайные величины. Качественные и количественные наблюдения, подсчет и измерение. Понятие об измерительных шкалах. Классификация ошибок - систематические и случайные, причины их появления. Прямые и косвенные измерения; фундаментальная система, ее разрешимость. Этапы анализа и обработки данных, возникающие задачи.
  2. Необходимый математический аппарат. Характеристические функции и независимые случайные величины; воспроизводимость распределений; основные дискретные и непрерывные распределения; выборочные моменты, теорема Фишера.
  3. Продолжение предыдущей темы: проверка статистических гипотез. Проверка случайности, независимости и однородности. Важность рассмотрения случая нормального распределения данных. Аппарат проверки статистических гипотез; критерий отношения. Постановка задач проверки случайности, независимости и однородности, их взаимосвязь. Свободные от распределения критерии. Важность отдельного рассмотрения нормально распределенных данных (центральная предельная теорема, асимптотики распределений, известны оптимальные процедуры решения рассматриваемых задач).
  4. Проверка случайности и независимости в случае нормально распределенных данных Проверка случайности: критерий Аббе. Проверка независимости с помощью выборочного коэффициента корреляции.
  5. Проверка однородности (задача о двух выборках) в случае нормального распределения: критерий отношения правдоподобия Формулировка гипотезы однородности и ее альтернативы для нормального распределения. Проверка гипотезы против альтернативы сдвига. Получение критерия из "соображений здравого смысла". Применение критерия отношения правдоподобия к задаче с одной выборкой; с двумя выборками. Критерий равенства дисперсий. Проверка отсутствия сдвига для выборок с различными дисперсиями.
  6. Свободные от распределения критерии: проверка независимости и случайности; ранговые критерии. Проверка независимости: использование выборочного коэффициента корреляции; понятие о рангах. Коэффициент ранговой корреляции Спирмэна, статистика Кендалла. Проверка случайности ранговыми статистиками Спирмэна, Кендалла и нормальных меток.
  7. Задача о двух выборках: критерий Уилкоксона (Манна-Уитни) и нормальных меток Формулировка задачи проверки отсутствия сдвига между распределениями двух выборок. Критерий Уилкоксона и статистика Манна-Уитни; их взаимосвязь. Свойства статистики Уилкоксона, ее эффективность. Критерий нормальных меток Фишера-Йейтса-Гефдинга-Терри.
  8. Критерии согласия: критерий Пирсона для простой гипотезы Формулировка задачи; простая и сложная гипотеза. Критерий Пирсона для простой гипотезы, асимптотическое распределение статистики Пирсона. Ее связь со статистикой отношения правдоподобия.
  9. Критерий Пирсона в случае сложной гипотезы Неприменимость доводов Пирсона при проверке сложной гипотезы. Статистики Фишера: отношения правдоподобия и минимума Хи-квадрат. Модифицированная статистика фон Неймана. Практические аспекты: выбор наилучшей конфигурации ячеек и их числа.
  10. Критерии согласия, основанные на эмпирической функции распределения Понятие эмпирической функции распределения, теорема Гливенко-Кантелли о равномерной сходимости эмпирической функции распределения к теоретической. Классы основанных на эмпирической ф.р. статистик: супремум-статистики (Колмогорова) и квадратичные статистики (Крамера-Мизеса, Андерсона-Дарлинга). Простая гипотеза - использование вероятностного интегрального преобразования для получения свободных от распределения процедур. Трудности при проверке согласия в случае сложной гипотезы. Сравнительная эффективность критериев согласия.
  11. Критерии согласия, основанные на корреляциях; критерии нормальности (Шапиро-Уилка и Пирсона) Постановка задачи для специального вида распределений. Критерии согласия, основанные на корреляциях. Критерий Шапиро-Френсиа для проверки нормальности. Регрессионный подход: результаты Ллойда. Критерий Шапиро-Уилка. Проверка нормальности распределения, основанная на выборочных асимметрии и эксцессе.
  12. Классическая модель множественной регрессии. Постановка задачи, примеры ее актуальности и ее решение методом наименьших квадратов: нормальные уравнения и их разрешимость. Метод наименьших квадратов в случае неполноты матрицы данных.
  13. Свойства оценок наименьших квадратов; обобщенная модель и НК-оценка Aitken'а Свойства оценки наименьших квадратов. Геометрическая интерпретация метода. Оценка общей дисперсии в методе наименьших квадратов. Свойства идемпотентных и проекционных матриц. Некоррелированность вектора регрессионных остатков и оценки наименьших квадратов. Обобщенная модель наименьших квадратов и сведение ее к классической с помощью факторизации Холесского. НК-оценка Эйткена, ее целевая функция; свойства этой оценки.
  14. Свойства многомерного нормального распределения Определение многомерной нормальной случайной величины; смысл параметров нормального распределения. Эквивалентность некоррелированности и статистической независимости нормальных величин; свойство усиленной воспроизводимости. Теорема о нормальности произведения матрицы на многомерный нормальный вектор. Маргинальное распределение многомерных нормальных величин. Распределение случайной квадратичной формы в экспоненте нормального распределения.
  15. Нормальная регрессия НК-оценка не оптимальна в случае произвольного закона распределения ошибок (пример). Эквивалентность НК-оценок и оценок максимального правдоподобия при нормально распределенных ошибках. Свойства НК-оценок и квадратичных форм; независимость НК-оценки и остаточной суммы квадратов. Приложения нормальной регрессии: построение доверительных интервалы и областей
  16. Регрессионный анализ для нормальной модели Общая линейная гипотеза и ее проверка; эквивалентность F-отношения и статистики отношения правдоподобия; одномерная линейная регрессия.

Весенний семестр

  1. Мультиколлинеарность и гребневые регрессионные оценки Понятие мультиколлинеарности. Пример с полиномиальной регрессией на отрезке. Гребневая регрессия. Теорема существования ридж-оценок.
  2. Вычислительные аспекты метода наименьших квадратов; нелинейная регрессия Вычисление НК-оценок из решения нормальных уравнений. Возникающие проблемы. Число обусловленности матрицы. Сингулярное разложение и новое определение числа обусловленности. Возможность получения НК-оценок применением ортогональных преобразований. Ортогональные преобразования Гивенса, Хаусхолдера, ортогонализация Грама-Шмидта. Постановка задачи нелинейной регрессии. Проблемы существования оценок, их единственности, неподходящие решения. Градиентные процедуры получения оценок. Допустимые методы, условие допустимости шага. Правила останова. Методы минимизации: наискорейшего спуска, Ньютона, квази-ньютоновские методы. Метод Гаусса-Ньютона и модификация Левенберга-Марквардта.
  3. Многомерные моментные характеристики; оценки максимального правдоподобия для выборки из многомерного нормального распределения Основные многомерные понятия (переменные, популяция, матрица наблюдений). Моменты для популяции и для выборки (вектор выборочных средних, выборочная ковариационная и корреляционная матрица). Получение оценок параметров многомерного нормального распределения методом максимального правдоподобия.
  4. Корреляционный анализ в двумерном случае Применение критерия отношения правдоподобия в случае выборки из двумерного нормального распределения - выборочный коэффициент корреляции. Получение статистики для проверки независимости компонент, использующей выборочный коэффициент корреляции и имеющей распределение Стьюдента.
  5. Частные корреляции и их свойства Условное распределение многомерной нормальной случайной величины. Частные ковариации и частные корреляции. Использование рекуррентных формул для их вычисления. Выборочные частные корреляции, их распределение.
  6. Коэффициент множественной корреляции Постановка задачи и ее решение для популяции. Выборочный коэффициент множественной корреляции. Его связь с множественной регрессией.
  7. Анализ канонических корреляций Постановка задачи исследования корреляций для линейных комбинаций переменных и ее решение. Свойства канонических корреляций для популяции. Выборочные канонические корреляции.
  8. Метод главных компонент для популяции Приемы редукции данных. Три подхода к определению главных компонент для популяции. Свойства главных компонент.
  9. Анализ главных компонент для выборки Главные компоненты для выборочной ковариационной матрицы, их свойства. Главные компоненты для выборочной корреляционной матрицы. Методы оценки числа главных компонент (по доле вклада в общую вариацию; правило Кайзера; skree-test). Альтернативная модель главных компонент с матрицей нагрузок.
  10. Модели факторного анализа и их свойства Факторная модель. Ортогональные и косоугольные факторы. Основное соотношение факторного анализа. Неопределенность в задаче (проблема вращений). Существование и единственность задачи оценки параметров факторной модели. Разведочный и конфирматорный факторный анализ.
  11. Метод главных факторов для оценки параметров факторной модели Постановка задачи оценивания параметров модели в разведочном факторном анализе. Принципиальный алгоритм ее решения. Проблема общностей. Редуцированная корреляционная матрица. Метод главных факторов (главных осей) для оценки параметров факторной модели и его связь с методом главных компонент. Выбор числа факторов.
  12. Геометрическая интерпретация случайных величин в общем случае и для модели разведочного факторного анализа Геометрия векторного представления матрицы наблюдений: смысл стандартных отклонений и корреляций. Геометрия полного факторного пространства; геометрия пространства общих факторов.
  13. Центроидный метод факторного анализа Построение центроида как центра тяжести двух материальных точек в двумерном случае. Центроидный метод для произвольных размерностей.
  14. Оценивание параметров факторной модели методом максимального правдоподобия Функция правдоподобия в модели разведочного факторного анализа, если распределение нормальное; попытки ее минимизации. Градиентный метод: результаты Жореско. Градиентный алгоритм максимального правдоподобия в конфирматорном факторном анализе.
  15. Постановка задач дискриминантного анализа; классифицирующая и разделяющая функции Задача отнесения наблюдения к одной из нескольких популяций; подходы к ее решению. Классифицирующая и разделяющая дискриминантная функция в случае популяции и для выборок.
  16. Классическая дискриминантная функция Фишера и ее вычисление Определение классической дискриминантной функции Фишера и ее вычисление в случае двух выборок; связь с разделяющей дискриминантной функцией. Рассмотрение задачи для нескольких выборок и ее решение как обобщенной задачи на собственные значения.

Литература

Основная литература:

  1. Уфимцев М.В. "Методы анализа данных: Учебное пособие". М.: МАКС ПРЕСС, 2007
  2. Уфимцев М.В. Методы многомерного статистического анализа. М.: изд-во МГУ. 1997

Дополнительная литература:

  1. Джонсон Н., Лион Ф. Статистика и планирование эксперимента в технике и науке: Методы обработки данных. М.: Мир. 1980
  2. Кендалл М.Дж., Стъюарт А. Статистические выводы и связи. М.: Наука. 1973
  3. Бикел П., Доксам К. Математическая статистика. Вып. 1, 2. М.: Финансы и статистика. 1983
  4. Себер Дж. Линейный регрессионный анализ. М.: Мир. 1980
  5. Тихонов А.Н., Уфимцев М.В. Статистическая обработка результатов экспериментов. М.: изд. МГУ. 1988
  6. Харман Г. Современный факторный анализ. М.: Статистика. 1972
  7. Mardia,K.V., Kent,J.T. and Bibby,J.M. (1979) Multivariate Analysis. Academic Press, London