Введение в машинное обучение

Introduction to Machine learning

Аннотация курса

В этом курсе изложены основы анализа данных с применением методов машинного обучения. Рассматриваются линейные модели, деревья решений и нейронные сети. Основной акцент сделан на обучение с учителем, но уделено внимание алгоритмам обучения без учителя и обучения с подкреплением. Рабочий язык Python. Курс будет полезен студентам, которые планируют участвовать в анализе данных физических экспериментов.
Занятия проводятся в компьютерном классе

Авторы и/или преподаватели

Солдатов Е.Ю.
Солдатов Евгений Юрьевич
Ученая степень
кандидат физико-математических наук
Об авторе/преподавателе

Доцент Отделения института ядерной физики и технологий (кафедра физики элементарных частиц №40).
Зам.руководителя группы НИЯУ МИФИ в эксперименте ATLAS (CERN), координатор физического анализа данных.
Научный секретарь международной конференции по физике частиц и астрофизике (ICPPA).

Научные интересы: экспериментальная физика элементарных частиц, электрослабая теория, отклонения от Стандартной Модели, космология, статистический анализ данных, машинное обучение.

Гробов А.В.
Гробов Алексей Викторович
Ученая степень
кандидат физико-математических наук
Об авторе/преподавателе

Ведущий научный сотрудник НИЦ "Курчатовский институт". Доцент кафедры физики элементарных частиц №40.
Участник международных экспериментов по поиску темной материи DarkSide, DEAP-3600.

Научные интересы: физика редких процессов, машинное обучение и анализ данных, низкофоновые детекторы, тёмная материя, ядерная физика, космология.

Темы курса

1. Введение и инструментарий
Введение в курс, его цели и задачи. Предмет машинного обучения. Краткое введение в инструментарий необходимый на занятиях: Python, Jupiter Notebook и т.д.
2. Основные сведения из математической статистики
Сведения из математической статистики и теории вероятностей. Виды распределений случайных величин. Наиболее важные теоремы и методы математической статистики. Понятия гипотезы и критерия, примеры использования. Байесовский подход.
3. Анализ данных
Сбор и обработка данных. Корреляции и зависимости в данных. Критерий Пирсона. Критерий Колмогорова-Смирнова. Генетический алгоритм и градиентный спуск. Обучение с учителем. Задачи классификации и регрессии.
4. Линейные алгоритмы
Метод наименьших квадратов. Метод максимального правдоподобия. Функционал ошибок. Линейная регрессия, логистическая регрессия. Дискриминант Фишера. Метрики качества, ROC-кривая.
5. Решающие деревья
Решающие деревья и случайные леса. Регуляризация и настройка параметров. Градиентный бустинг. Критерии остановки обучения.
6. Кросс-валидация
Переобучение. Регуляризация и кросс-валидация. Отбор признаков, масштабирование, уменьшение размерности. Анализ главных компонент.
7. Нейронные сети.
Алгоритм работы нейронных сетей. Нейронные сети прямого распространения. Метод обратного распространения ошибки. Универсальная теорема аппроксимации. Многомерный персептрон. Сложные модели, стакинг.
8. Сверточные нейронные сети.
Обработка изображений. Сверточные нейронные сети. Вычисления на GPU.
9. Обучения без учителя.
Алгоритмы кластеризации. Проклятие размерности. Анализ независимых компонент.
10. Обучение с подкреплением.
Обучение робота. Скользящие средние. Стратегии оптимизации ценности.