├── HW ├── hw_1 │ ├── cybersequrity.csv │ └── itmo_dl_course_hw_1.md ├── hw_2 │ └── itmo_dl_course_hw_2.md ├── itmo_dl_course_extra_task_1.md ├── itmo_dl_course_extra_task_2.md ├── itmo_dl_course_extra_task_3.md └── itmo_dl_course_extra_task_4.md ├── Lecture 1 ├── Electrical_Grid_Stability.csv ├── itmo_dl_course_nn_base_01.ipynb └── Занятие 1.pptx ├── Lecture 10 ├── itmo_dl_course_huggingface.ipynb └── itmo_dl_course_nlp_clf_finetune.ipynb ├── Lecture 11-12 ├── itmo_dl_course_explainability.ipynb ├── itmo_dl_course_nlp_augmentation.ipynb ├── itmo_dl_course_nlp_knowledge_distillation.ipynb └── itmo_dl_cv_augmentation.ipynb ├── Lecture 2 ├── Electrical_Grid_Stability.csv ├── itmo_dl_course_nn_base_01.ipynb └── itmo_dl_course_nn_base_backprop.ipynb ├── Lecture 3 └── itmo_dl_course_nn_base_autograd.ipynb ├── Lecture 4-5 ├── Electrical_Grid_Stability.csv ├── itmo_dl_course_nn_activations_and_init.ipynb └── itmo_dl_course_nn_base_optimizers.ipynb ├── Lecture 6 └── itmo_dl_course_nn_dropout_and_bn.ipynb ├── Lecture 7 ├── itmo_dl_course_cnn.ipynb └── itmo_dl_course_pytorch_losses.ipynb ├── Lecture 8 └── itmo_dl_lightning_base.ipynb ├── Lecture 9 ├── itmo_dl_course__cnn_bn_and_dropout.ipynb └── itmo_dl_course__nlp_basics.ipynb └── readme.md /HW/hw_1/itmo_dl_course_hw_1.md: -------------------------------------------------------------------------------- 1 | ### Домашнее задание 1 - 10 баллов 2 | 3 | 1. Загрузите датасет артефактов вредоносного ПО, хранящихся в памяти - [cybersecurity.csv](cybersequrity.csv) 4 | 2. Подготовьте данные к обучению - **1 балл** 5 | - Разделите датасет на обучающую, валидационную и тестовую выборки со стратификацией в пропорции 60/20/20. В качестве целевой переменной используйте столбец `Class` - бинарный столбец (0 - нейтральное ПО, 1 - вредоносное ПО). 6 | - **hint**: для ускорения сходимости и стабилизации обучения можно стандартизировать входные признаки, например, с помощью `StandardScaler` 7 | - Создайте объекты для работы с данными в PyTorch - `Dataset` и `DataLoader` для обучающей, валидационной и тестовой выборок. Выберите оптимальный, на ваш взгляд, `batch_size`. 8 | 3. Реализуйте класс бейзлайновой нейросетевой модели (MLP) для решения задачи - **2 балла** 9 | - Определите оптимальное количество `Linear` слоев в структуре и их размерности. 10 | - Подберите оптимальные для задачи функции активации - `ReLU`, `Sigmoid`, `Tanh`, `LeakyReLU`... 11 | - Реализуйте логику прохождения данных по сети в методе `forward` 12 | - Cоздайте объект модели, реализуйте перевод модели на gpu 13 | 4. Напишите код цикла обучения - train-loop и валидации - eval-loop. В процессе обучения сохраняйте и визуализируйте на графике динамику функции потерь на тренировочной и валидационной выборках - **1 балл** 14 | 5. Обучите модель и проверьте ее качество - **1 балл** 15 | - Выберите оптимизатор, в качестве функции потерь используйте `nn.BCELoss` 16 | - Запустите обучение, постарайтесь подобрать оптимальные скорость обучения и количество эпох, ориентируясь на динамику функции потерь на train/val 17 | - Измерьте качество лучшей модели на тестовой выборке, постройте отчет о классификации - `classification_report` 18 | 6. Улучшите архитектуру модели из пункта 3 и добейтесь увеличения качества - **3 балла** 19 | - Попробуйте добавить слои `BatchNorm1d` и `Dropout` - поэкспериментируйте с их "расположением" в сети, напишите свои выводы о целесообразности их добавления в модель, оптимальном расположении, влиянии на качество/сходимость обучения. При использовании слоя `Dropout` - определите экспериментально или обоснуйте теоретически оптимальное значение параметра `p`. 20 | - Обучите улучшенную модель и проверьте ее качество (при необходимости измените гиперпараметры обучения - `batch_size`, скорость обучения и количество эпох, ориентируясь на динамику функции потерь на train/val и архитектуру модели) 21 | 22 | **Общее** 23 | 24 | - Принимаемые решения обоснованы (почему выбрана определенная архитектура/гиперпараметр/оптимизатор/преобразование и т.п.) - **1 балл** 25 | - Обеспечена воспроизводимость решения: зафиксированы random_state, ноутбук воспроизводится от начала до конца без ошибок - **1 балл** 26 | 27 | **Формат сдачи ДЗ** 28 | 29 | - Создать отдельный репозиторий (если еще не создавали) 30 | - Выдать доступ в репозиторий своему ментору и pacifikus (распределение по менторам и их ники на гитхабе есть в [таблице](https://docs.google.com/spreadsheets/d/1qneC-kHlNzgkCzRoGA9dgUbDthyQd-FA3GhvLCMQY_M/edit?usp=sharing) 31 | - Каждая домашняя работа – PR в отдельную ветку **hw_n**, где **n** - номер домашней работы 32 | - Добавить ментора и pacifikus в reviewers 33 | - Дождаться ревью, если все ок – мержим в main 34 | - Если не ок – вносим исправления и снова отправляем на ревью 35 | -------------------------------------------------------------------------------- /HW/hw_2/itmo_dl_course_hw_2.md: -------------------------------------------------------------------------------- 1 | ### Домашнее задание 2 - 10 баллов + 2 бонусных 2 | 3 | В этом задании вам предстоит воспроизвести и обучить одну из самых знаменитых архитектур среди CV-моделей - AlexNet. 4 | 5 | ![image](https://github.com/user-attachments/assets/7073f6d5-397e-4537-8b98-07a649673c0c) 6 | 7 | 8 | Данная модель была представлена в статье [ImageNet Classification with Deep Convolutional 9 | Neural Networks](https://proceedings.neurips.cc/paper_files/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf). 10 | 11 | Подробное описание архитектуры приведено в секции статьи `3.5 Overall Architecture`. 12 | 13 | 1. Загрузите и подготовьте данные к обучению - **2 балла** 14 | - В отличие от оригинальной статьи, в данном задании модель будет применятся для классификации изображений из датасета [CIFAR100](https://pytorch.org/vision/main/generated/torchvision.datasets.CIFAR100.html#torchvision.datasets.CIFAR100) - загрузите его из torchvision, разделите датасет на обучающую, валидационную и тестовую выборки. 15 | 2. Реализуйте класс модели AlexNet для решения задачи и обучите ее, продемонстрировав уменьшение функции потерь на train/validation данных, а также измерьте релевантную, на ваш взгляд метрику классификации на test-части данных - **7 баллов** 16 | 17 | 18 | **Общее** 19 | 20 | Обеспечена воспроизводимость решения: зафиксированы random_state, ноутбук воспроизводится от начала до конца без ошибок - **1 балл** 21 | 22 | 23 | **Дополнительные баллы** 24 | 25 | Все, описанное выше, реализовано на pytorch lightning - **2 балла** 26 | 27 | -------------------------------------------------------------------------------- /HW/itmo_dl_course_extra_task_1.md: -------------------------------------------------------------------------------- 1 | ### Дополнительное задание 1 - 5 баллов 2 | 3 | 1. Загрузите датасет оценки качества воздуха в различных регионах - [air_quality.csv](https://disk.yandex.ru/d/29AVoENYZR4NyA) 4 | 2. Подготовьте данные к обучению - **1 балл** 5 | - Разделите датасет на обучающую, валидационную и тестовую выборки со стратификацией. В качестве целевой переменной используйте столбец `air_quality` - бинарный столбец (0 - плохое качество воздуха, 1 - хорошее качество воздуха). 6 | - Создайте объекты для работы с данными в PyTorch - `Dataset` и `DataLoader` для обучающей, валидационной и тестовой выборок. Выберите оптимальный, на ваш взгляд, `batch_size`. 7 | 3. Реализуйте класс нейросетевой модели для решения задачи - **1 балл** 8 | - Минимальное количество `Linear` слоев в структуре - 3 штуки: входной слой, скрытый слой, выходной классификационный слой. 9 | - Подберите оптимальные для задачи функции активации - `ReLU`, `Sigmoid`, `Tanh`, `LeakyReLU`... 10 | - Реализуйте логику прохождения данных по сети в методе `forward` 11 | - Cоздайте объект модели, реализуйте перевод модели на gpu 12 | 4. Напишите код цикла обучения - train-loop и валидации - eval-loop. В процессе обучения сохраняйте значения функции потерь на тренировочной и валидационной выборках - **1 балл** 13 | 5. Обучите модель и проверьте ее качество - **1 балл** 14 | - Выберите оптимизатор, в качестве функции потерь используйте `nn.BCELoss` 15 | - Запустите обучение, постарайтесь подобрать оптимальные скорость обучения и количество эпох, ориентируясь на динамику функции потерь на train/val 16 | - Измерьте качество лучшей модели на тестовой выборке, постройте отчет о классификации - `classification_report` 17 | 18 | Обеспечена воспроизводимость решения: зафиксированы random_state, ноутбук воспроизводится от начала до конца без ошибок - **1 балл** 19 | -------------------------------------------------------------------------------- /HW/itmo_dl_course_extra_task_2.md: -------------------------------------------------------------------------------- 1 | ### Дополнительное задание 2 - 5 баллов 2 | 3 | Реализуйте модель для классификации изображений датасета [FashionMNIST](https://pytorch.org/vision/0.20/generated/torchvision.datasets.FashionMNIST.html#torchvision.datasets.FashionMNIST) на PyTorch Lightning 4 | 1. **1 балл** Создайте класс `FashionMNISTDataModule`, реализуйте в нем: 5 | - загрузку данных, 6 | - предобработку (перевод в тензоры, нормализация, etc 7 | - разбиение на train/val/test части 8 | - создание dataloader'ов- **1 балл** 9 | 2. **2 балла** Создайте класс модели `FashionMNIST` (наследник `LightningModule`), реализуйте в нем: 10 | - training_step, validation_step, test_step 11 | - расчет метрик на валидации и тестировании из TorchMetrics: F1, ROC AUC 12 | - логирование метрик и функций потерь на каждой эпохе валидации/теста 13 | - подберите подходящие, на ваш взгляд, optimizer и lr-scheduler, а также их гиперпараметры 14 | 3. **1 балл** Обучите модель с помощью trainer'а: 15 | - добавьте `EarlyStopping` 16 | - реализуйте визуализацию логов через tensorboard 17 | - проверьте качество на тестовой части данных 18 | 19 | 20 | Обеспечена воспроизводимость решения: зафиксированы random_state, ноутбук воспроизводится от начала до конца без ошибок - **1 балл** 21 | -------------------------------------------------------------------------------- /HW/itmo_dl_course_extra_task_3.md: -------------------------------------------------------------------------------- 1 | ### Дополнительное задание 3 - 5 баллов 2 | 3 | В этом задании вам предстоит обучить две модели для предсказания рейтинга отзывов об отелях. 4 | 5 | 1. Загрузите датасет отзывов - [Trip Advisor Hotel Reviews](https://www.kaggle.com/datasets/andrewmvd/trip-advisor-hotel-reviews) 6 | 2. Подготовьте данные к обучению - **1 балл** 7 | - Разделите датасет на обучающую, валидационную и тестовую выборки со стратификацией в пропорции 60/20/20. 8 | - Создайте `Dataset` и `DataLoader` для обучающей, валидационной и тестовой выборок. Выберите оптимальный, на ваш взгляд, `batch_size`. 9 | 3. Реализуйте и обучите сверточную сеть (сеть с использованием слоев Conv1d) для решения задачи - **1 балл** 10 | 4. Реализуйте и обучите рекуррентную сеть (сеть с использованием LSTM-слоя) для решения задачи - **1 балл** 11 | 5. Сравните между собой метрики и динамику обучения обеих моделей - **1 балл** 12 | 13 | **Общее** 14 | 15 | Обеспечена воспроизводимость решения: зафиксированы random_state, ноутбук воспроизводится от начала до конца без ошибок - **1 балл** 16 | -------------------------------------------------------------------------------- /HW/itmo_dl_course_extra_task_4.md: -------------------------------------------------------------------------------- 1 | ### Дополнительное задание 4 - 5 баллов 2 | 3 | В этом задании вам предстоит обучить трансформерную модель для классификации текстов. 4 | 5 | 1. Выберите набор данных для классификации текстов из HuggingFace Datasets - **0.5 балла** 6 | 2. Выберите модель архитектуры, подходящей для задачи классификации, в HuggingFace Hub (убедитесь, что она поддерживает язык вашего датасета) - **0.5 балла** 7 | 3. Измерьте качество классификации моделью as-is перед дообучением, с учетом метрик, специфичных для задачи классификации - **0.5 балла** 8 | 4. Дообучите выбранную модель - **2 балла** 9 | 5. Сравните качество до и после дообучения - **0.5 балла** 10 | 11 | **Общее** 12 | 13 | Обеспечена воспроизводимость решения: зафиксированы random_state, ноутбук воспроизводится от начала до конца без ошибок - **1 балл** 14 | -------------------------------------------------------------------------------- /Lecture 1/Занятие 1.pptx: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/pacifikus/itmo_dl_course/2d943148b39a576288ef48dadd8becdd9e6819ba/Lecture 1/Занятие 1.pptx -------------------------------------------------------------------------------- /Lecture 2/itmo_dl_course_nn_base_backprop.ipynb: -------------------------------------------------------------------------------- 1 | { 2 | "nbformat": 4, 3 | "nbformat_minor": 0, 4 | "metadata": { 5 | "colab": { 6 | "provenance": [], 7 | "toc_visible": true 8 | }, 9 | "kernelspec": { 10 | "name": "python3", 11 | "display_name": "Python 3" 12 | }, 13 | "language_info": { 14 | "name": "python" 15 | } 16 | }, 17 | "cells": [ 18 | { 19 | "cell_type": "markdown", 20 | "metadata": { 21 | "id": "hlHeqIYvV1xj" 22 | }, 23 | "source": [ 24 | "### Обучение нейронной сети" 25 | ] 26 | }, 27 | { 28 | "cell_type": "markdown", 29 | "metadata": { 30 | "id": "mDPK9XdUV1xj" 31 | }, 32 | "source": [ 33 | "На практике обучение нейронных сетей (подбор значений весов) производится при помощи **метода градиентного спуска**.\n", 34 | "\n", 35 | "Обучение заключается в **минимизации функции потерь по обучаемым параметрам нейронной сети** — весам и смещениям.\n", 36 | "\n", 37 | "Для минимизации функции потерь методом градиентного спуска **необходимо уметь вычислять градиент функции потерь по всем обучаемым параметрам модели**." 38 | ] 39 | }, 40 | { 41 | "cell_type": "markdown", 42 | "metadata": { 43 | "id": "Xwql9YztV1xj" 44 | }, 45 | "source": [ 46 | "#### Прямое и обратное распространение" 47 | ] 48 | }, 49 | { 50 | "cell_type": "markdown", 51 | "metadata": { 52 | "id": "fpqIKuuKV1xj" 53 | }, 54 | "source": [ 55 | "Процесс расчета градиента функции потерь по обучаемым параметрам состоит из двух этапов: **прямого и обратного распространения**." 56 | ] 57 | }, 58 | { 59 | "cell_type": "markdown", 60 | "metadata": { 61 | "id": "UMPriZaLV1xk" 62 | }, 63 | "source": [ 64 | "
" 65 | ] 66 | }, 67 | { 68 | "cell_type": "markdown", 69 | "metadata": { 70 | "id": "GthGfQhXV1xk" 71 | }, 72 | "source": [ 73 | "Во время **прямого распространения** (forward pass) производится расчет значений на выходе модели $y_{pred}$, которые передаются в функцию потерь $\\text{Loss}$ для сравнения с целевыми значениями $y_{true}$.\n", 74 | "\n", 75 | "$$\\large y_{pred}=\\text{model}\\left(x, 𝐖\\right)$$\n", 76 | "\n", 77 | "$$\\large L=\\text{Loss}\\left(y_{true}, y_{pred}\\right)$$" 78 | ] 79 | }, 80 | { 81 | "cell_type": "markdown", 82 | "metadata": { 83 | "id": "KNpjlopVV1xk" 84 | }, 85 | "source": [ 86 | "Значение функции потерь зависит от целевых значений $y_{true}$, входных данных $x$ и параметров модели $𝐖$.\n", 87 | "\n", 88 | "$$\\large L=\\text{Loss}\\left(y_{true}, \\text{model}\\left(x, 𝐖\\right)\\right) = f\\left(y_{true}, x, 𝐖\\right)$$" 89 | ] 90 | }, 91 | { 92 | "cell_type": "markdown", 93 | "metadata": { 94 | "id": "LJa-CmZrV1xk" 95 | }, 96 | "source": [ 97 | "А значит, если модель и функция потерь дифференцируемы, мы можем посчитать $\\nabla_𝐖L$ — градиент функции потерь по обучаемым параметрам. Для этого нужен этап **обратного распространения** (backward pass)." 98 | ] 99 | }, 100 | { 101 | "cell_type": "markdown", 102 | "metadata": { 103 | "id": "C4BUDZ3-V1xl" 104 | }, 105 | "source": [ 106 | "
" 107 | ] 108 | }, 109 | { 110 | "cell_type": "markdown", 111 | "metadata": { 112 | "id": "S5oa_irAV1xl" 113 | }, 114 | "source": [ 115 | "#### Метод обратного распространения ошибки" 116 | ] 117 | }, 118 | { 119 | "cell_type": "markdown", 120 | "source": [ 121 | "[Learning Internal Representations by Error Propagation](https://stanford.edu/~jlmcc/papers/PDP/Volume%201/Chap8_PDP86.pdf)" 122 | ], 123 | "metadata": { 124 | "id": "0W6hJCLenEGs" 125 | } 126 | }, 127 | { 128 | "cell_type": "markdown", 129 | "metadata": { 130 | "id": "3RBKnpKCV1xl" 131 | }, 132 | "source": [ 133 | "Для эффективного численного расчета градиента функции потерь по обучаемым параметрам модели применяется **метод обратного распространения ошибки (backpropagation)**. Благодаря данному методу становится практически возможным использование метода градиентного спуска для проведения процедуры обучения." 134 | ] 135 | }, 136 | { 137 | "cell_type": "markdown", 138 | "metadata": { 139 | "id": "cicyQDR-V1xm" 140 | }, 141 | "source": [ 142 | "Метод обратного распространения ошибки использует структуру многослойной нейронной сети как сложной функции, применяя **правило дифференцирования сложной функции** для вычисления градиента от функции потерь по весам сети. Градиент от функции потерь вычисляется при движении по нейронной сети от её выходов в направлении входов. Именно такой порядок обхода вычислительного графа и обуславливает название метода." 143 | ] 144 | }, 145 | { 146 | "cell_type": "markdown", 147 | "metadata": { 148 | "id": "EFuMXMeVV1xm" 149 | }, 150 | "source": [ 151 | "#### Вычислительный граф" 152 | ] 153 | }, 154 | { 155 | "cell_type": "markdown", 156 | "metadata": { 157 | "id": "XO57ukyWV1xm" 158 | }, 159 | "source": [ 160 | "По существу, нейронная сеть является сложной функцией, работу которой можно представить как последовательное выполнение математических операций. Такое представление функций называется **вычислительным графом**." 161 | ] 162 | }, 163 | { 164 | "cell_type": "markdown", 165 | "metadata": { 166 | "id": "m7mNdT2JV1xn" 167 | }, 168 | "source": [ 169 | "
" 170 | ] 171 | }, 172 | { 173 | "cell_type": "markdown", 174 | "metadata": { 175 | "id": "86Q-6mpnV1xn" 176 | }, 177 | "source": [ 178 | "Алгоритм обратного распространения ошибки позволяет находить градиенты для любого графа вычислений, если описываемая им функция дифференцируема.\n", 179 | "\n", 180 | "В его основе лежит правило взятия производной сложной функции (chain rule)." 181 | ] 182 | }, 183 | { 184 | "cell_type": "markdown", 185 | "metadata": { 186 | "id": "N1Iu7dVTV1xq" 187 | }, 188 | "source": [ 189 | "#### Пошаговый разбор метода обратного распространения" 190 | ] 191 | }, 192 | { 193 | "cell_type": "markdown", 194 | "metadata": { 195 | "id": "bVFH1gNmV1xq" 196 | }, 197 | "source": [ 198 | "Пусть в каком-то узле графа производится вычисление\n", 199 | "\n", 200 | "$$\\large z = f(x, y),$$\n", 201 | "\n", 202 | "и далее результат вычисления $\\large z$ используется для вычисления функции $\\large L(z)=L(f(x, y))$.\n", 203 | "\n", 204 | "Тогда правило вычисления производных $\\dfrac{\\partial L}{\\partial x}$ и $\\dfrac{\\partial L}{\\partial y}$ можно представить следующим образом:" 205 | ] 206 | }, 207 | { 208 | "cell_type": "markdown", 209 | "metadata": { 210 | "id": "hUzYkiG2V1xq" 211 | }, 212 | "source": [ 213 | "
" 214 | ] 215 | }, 216 | { 217 | "cell_type": "markdown", 218 | "metadata": { 219 | "id": "uei3RxpDV1xr" 220 | }, 221 | "source": [ 222 | "Рассмотрим следующую функцию:\n", 223 | "\n", 224 | "$$\\Large f(w,x)=\\frac{1}{1+e^{-(w_0x_0+w_1x_1+w_2)}}$$\n", 225 | "\n", 226 | "Представим ее в виде вычислительного графа, состоящего из элементарных операций, от которых просто берутся производные:" 227 | ] 228 | }, 229 | { 230 | "cell_type": "markdown", 231 | "metadata": { 232 | "id": "yT4ij4EWV1xs" 233 | }, 234 | "source": [ 235 | "
" 236 | ] 237 | }, 238 | { 239 | "cell_type": "markdown", 240 | "metadata": { 241 | "id": "-ecWG8s8V1xs" 242 | }, 243 | "source": [ 244 | "На примере данной функции рассмотрим алгоритм обратного распространения ошибки и найдём величину её градиента по параметрам $\\large w$.\n", 245 | "Нам потребуется вычислить частные производные $\\dfrac{\\partial f}{\\partial w_0}, \\dfrac{\\partial f}{\\partial w_1}, \\dfrac{\\partial f}{dw_2}, \\dfrac{\\partial f}{\\partial x_0}$ и $\\dfrac{\\partial f}{\\partial x_1}$.\n", 246 | "\n", 247 | "Пусть \"веса\" $w$ инициализированы значениями $w_0=2,\\;w_1=-3,\\;w_2=-3$, а \"входные признаки\" $x$ принимают значения $x_0=-1,\\;x_1=-2$.\n", 248 | "\n", 249 | "Делая прямой проход через граф вычислений для данной функции, получаем её значение для заданных $w$ и $x$ равным $f=0.73$:" 250 | ] 251 | }, 252 | { 253 | "cell_type": "markdown", 254 | "metadata": { 255 | "id": "ZoGOHSmIV1xt" 256 | }, 257 | "source": [ 258 | "
" 259 | ] 260 | }, 261 | { 262 | "cell_type": "markdown", 263 | "metadata": { 264 | "id": "c55zvjEQV1xv" 265 | }, 266 | "source": [ 267 | "Далее, в соответствии с алгоритмом обратного распространения ошибки, рассчитаем частные производные, пройдясь последовательно по графу вычислений, постепенно накапливая искомое значение для градиента функции.\n", 268 | "\n", 269 | "Для начала зададим $\\dfrac{df}{df}=1$.\n", 270 | "\n", 271 | "Начинаем обратный проход по графу вычислений. Первая вершина содержит функцию $f(x)=\\dfrac{1}{x}$, производная которой равна $\\dfrac{df}{dx}=-\\dfrac{1}{x^2}$" 272 | ] 273 | }, 274 | { 275 | "cell_type": "markdown", 276 | "metadata": { 277 | "id": "Keqd3OIYV1xw" 278 | }, 279 | "source": [ 280 | "
\n", 281 | "\n", 282 | "$$\\large f(x)=\\frac1x \\quad \\longrightarrow \\quad \\frac{df}{dx} = -\\frac{1}{x^2}$$" 283 | ] 284 | }, 285 | { 286 | "cell_type": "markdown", 287 | "metadata": { 288 | "id": "IZBqSFS0V1xx" 289 | }, 290 | "source": [ 291 | "В следующем узле находится функция $f(x)=1+x$. Производная от выражения в данном узле равняется $\\dfrac{df}{dx}=1$:" 292 | ] 293 | }, 294 | { 295 | "cell_type": "markdown", 296 | "metadata": { 297 | "id": "SO5Q6KXRV1xy" 298 | }, 299 | "source": [ 300 | "
\n", 301 | "\n", 302 | "$$\\large f(x)=c+x \\quad \\longrightarrow \\quad \\frac{df}{dx} = 1$$" 303 | ] 304 | }, 305 | { 306 | "cell_type": "markdown", 307 | "metadata": { 308 | "id": "ahPPNDQbV1xz" 309 | }, 310 | "source": [ 311 | "Третья вершина содержит экспоненту $f(x)=e^x$. Её производная также является экспонентой $\\dfrac{df}{dx}=e^x$:" 312 | ] 313 | }, 314 | { 315 | "cell_type": "markdown", 316 | "metadata": { 317 | "id": "yhxEF0dyV1x0" 318 | }, 319 | "source": [ 320 | "
\n", 321 | "\n", 322 | "$$\\large f(x)=e^x \\quad \\longrightarrow \\quad \\frac{df}{dx} = e^x$$" 323 | ] 324 | }, 325 | { 326 | "cell_type": "markdown", 327 | "metadata": { 328 | "id": "60CPzx3UV1x2" 329 | }, 330 | "source": [ 331 | "Следующая вершина, четвертая, содержит умножение на константу $f(x)=ax$. Производная равна $\\dfrac{df}{dx}=a$ (в данном случае $a=-1$):" 332 | ] 333 | }, 334 | { 335 | "cell_type": "markdown", 336 | "metadata": { 337 | "id": "xx9Ec7-lV1x2" 338 | }, 339 | "source": [ 340 | "
\n", 341 | "\n", 342 | "$$\\large f(x)=ax \\quad \\longrightarrow \\quad \\frac{df}{dx} = a$$" 343 | ] 344 | }, 345 | { 346 | "cell_type": "markdown", 347 | "metadata": { 348 | "id": "8ZlariWFV1x3" 349 | }, 350 | "source": [ 351 | "Двигаясь по графу вычислений, мы дошли до узла суммирования, который имеет два входа. Относительно каждого из входов локальный градиент в вершине суммирования будет равен $1$:\n", 352 | "$$\\large f(x,y)=x+y \\quad \\Rightarrow \\quad \\frac{\\partial f}{\\partial x}=1 \\quad \\quad \\frac{\\partial f}{\\partial y}=1$$\n", 353 | "Так как умножение на единицу не изменит значения входного градиента, всем входам узла суммирования мы можем приписать точно такое же значение входного градиента ($0.2$), что мы имели и для самого узла суммирования. Будем действовать аналогично и со всеми остальными узлами суммирования, которые встретятся нам в вычислительном графе." 354 | ] 355 | }, 356 | { 357 | "cell_type": "markdown", 358 | "metadata": { 359 | "id": "D3yCVlcTV1x3" 360 | }, 361 | "source": [ 362 | "
" 363 | ] 364 | }, 365 | { 366 | "cell_type": "markdown", 367 | "metadata": { 368 | "id": "bPWB4baZV1x3" 369 | }, 370 | "source": [ 371 | "Двигаясь далее к началу графа вычислений, мы подходим к вершинам умножения. Для такой вершины локальный градиент по отношению к какому-либо из входов будет равен значению оставшегося входа. Остается умножить локальный градиент на входящий.\n", 372 | "\n", 373 | "$$\\large f(w,x)=wx \\quad \\Rightarrow \\quad \\frac{\\partial f}{\\partial w}=x \\quad \\quad \\frac{\\partial f}{\\partial x}=w$$\n", 374 | "\n", 375 | "Точно так же мы можем поступить и с оставшейся второй вершиной умножения, которая привязана к $w_1$ и $x_1$:" 376 | ] 377 | }, 378 | { 379 | "cell_type": "markdown", 380 | "metadata": { 381 | "id": "bpB4pfBsV1x4" 382 | }, 383 | "source": [ 384 | "
" 385 | ] 386 | }, 387 | { 388 | "cell_type": "markdown", 389 | "metadata": { 390 | "id": "vb9pNHczV1x5" 391 | }, 392 | "source": [ 393 | "Так, двигаясь по графу вычислений в обратном направлении от выхода функции к входным аргументам, мы последовательно для каждого узла умножаем локальный градиент на входящий градиент, используя цепное правило дифференцирования сложной функции. В описанном примере мы полностью разбили граф вычислений на отдельные элементарные узлы. Разбиение вычислительного графа на элементарные узлы вовсе не обязательно — мы можем сгруппировать несколько вершин вместе, если они образуют дифференцируемую функцию, от которой \"удобно\" брать производную, и рассматривать их совместно." 394 | ] 395 | }, 396 | { 397 | "cell_type": "markdown", 398 | "metadata": { 399 | "id": "BD6embMcV1x6" 400 | }, 401 | "source": [ 402 | "В нашем примере мы можем заметить, что вычислительный граф можно свести к двум операциям: получению выражения $w_0x_0+w_1x_1+w_2$ и последующему вычислению от него сигмоидальной функции.\n", 403 | "\n", 404 | "Функция сигмоиды:\n", 405 | "\n", 406 | "$$\\large \\displaystyle \\sigma(x) = \\frac{1}{1+e^{-x}}.$$" 407 | ] 408 | }, 409 | { 410 | "cell_type": "markdown", 411 | "metadata": { 412 | "id": "qeRQj6F1V1x6" 413 | }, 414 | "source": [ 415 | "Важно отметить, что сигмоида обладает важным свойством: её производная может быть выражена через саму сигмоидальную функцию:\n", 416 | "\n", 417 | "$$\\large \\frac{d}{dx}\\sigma(x) = \\frac{d}{dx}(1+e^{-x})^{-1} = \\frac{e^{-x}}{(1+e^{-x})^{2}} = \\frac{1}{1+e^{-x}} \\cdot \\frac{1+e^{-x}-1}{1+e^{-x}} = \\sigma(x)\\cdot(1-\\sigma(x))$$" 418 | ] 419 | }, 420 | { 421 | "cell_type": "markdown", 422 | "metadata": { 423 | "id": "i4sesWufV1x7" 424 | }, 425 | "source": [ 426 | "
" 427 | ] 428 | }, 429 | { 430 | "cell_type": "code", 431 | "source": [], 432 | "metadata": { 433 | "id": "r-mf0yXMK4ag" 434 | }, 435 | "execution_count": null, 436 | "outputs": [] 437 | } 438 | ] 439 | } -------------------------------------------------------------------------------- /Lecture 3/itmo_dl_course_nn_base_autograd.ipynb: -------------------------------------------------------------------------------- 1 | { 2 | "nbformat": 4, 3 | "nbformat_minor": 0, 4 | "metadata": { 5 | "colab": { 6 | "provenance": [], 7 | "toc_visible": true 8 | }, 9 | "kernelspec": { 10 | "name": "python3", 11 | "display_name": "Python 3" 12 | }, 13 | "language_info": { 14 | "name": "python" 15 | } 16 | }, 17 | "cells": [ 18 | { 19 | "cell_type": "markdown", 20 | "metadata": { 21 | "id": "9NSTCyMhHbSq" 22 | }, 23 | "source": [ 24 | "### PyTorch Autograd - automatic differentiation engine\n", 25 | "\n", 26 | "[PyTorch 101, Part 1: Understanding Graphs, Automatic Differentiation and Autograd](https://blog.paperspace.com/pytorch-101-understanding-graphs-and-automatic-differentiation/)\n", 27 | "\n", 28 | "В центре большинства современных приемов машинного обучения лежит расчет градиентов. Это в особенности касается нейронных сетей, где для обновления весовых коэффициентов используется алгоритм обратного распространения\n", 29 | "\n", 30 | "Autograd предоставляет классы и функции, реализующие автоматическое дифференцирование произвольных скалярных функций. Это требует минимальных изменений в существующем коде - нужно только объявить Tensor, для которого должны вычисляться градиенты, с атрибутом `requires_grad=True`" 31 | ] 32 | }, 33 | { 34 | "cell_type": "code", 35 | "source": [ 36 | "import torch" 37 | ], 38 | "metadata": { 39 | "id": "q1TDxt6qamOm" 40 | }, 41 | "execution_count": 1, 42 | "outputs": [] 43 | }, 44 | { 45 | "cell_type": "code", 46 | "execution_count": 2, 47 | "metadata": { 48 | "colab": { 49 | "base_uri": "https://localhost:8080/" 50 | }, 51 | "id": "JcdJCnP5HbSr", 52 | "outputId": "49c2401a-98ab-4a60-d534-1105a6aed240" 53 | }, 54 | "outputs": [ 55 | { 56 | "output_type": "stream", 57 | "name": "stdout", 58 | "text": [ 59 | "tensor([[1., 1.],\n", 60 | " [1., 1.]], requires_grad=True)\n" 61 | ] 62 | } 63 | ], 64 | "source": [ 65 | "x = torch.ones(2, 2, requires_grad=True)\n", 66 | "print(x)" 67 | ] 68 | }, 69 | { 70 | "cell_type": "code", 71 | "source": [ 72 | "x.grad == None" 73 | ], 74 | "metadata": { 75 | "colab": { 76 | "base_uri": "https://localhost:8080/" 77 | }, 78 | "id": "JbgJ9x8CcFJ6", 79 | "outputId": "3c751d58-c5fc-4553-c892-2c74a131a8f7" 80 | }, 81 | "execution_count": 3, 82 | "outputs": [ 83 | { 84 | "output_type": "execute_result", 85 | "data": { 86 | "text/plain": [ 87 | "True" 88 | ] 89 | }, 90 | "metadata": {}, 91 | "execution_count": 3 92 | } 93 | ] 94 | }, 95 | { 96 | "cell_type": "code", 97 | "source": [ 98 | "x.grad_fn == None" 99 | ], 100 | "metadata": { 101 | "colab": { 102 | "base_uri": "https://localhost:8080/" 103 | }, 104 | "id": "b_i-OcPLb-Rv", 105 | "outputId": "8c5957ce-8deb-47fe-eb97-9325816a422c" 106 | }, 107 | "execution_count": 4, 108 | "outputs": [ 109 | { 110 | "output_type": "execute_result", 111 | "data": { 112 | "text/plain": [ 113 | "True" 114 | ] 115 | }, 116 | "metadata": {}, 117 | "execution_count": 4 118 | } 119 | ] 120 | }, 121 | { 122 | "cell_type": "markdown", 123 | "metadata": { 124 | "id": "U0VM8aIlHbSr" 125 | }, 126 | "source": [ 127 | "После применения какой-либо операции к тензору атрибуту `grad_fn` присваивается объект `Function`, который добавляется в граф вычислений для обратного распространения градиента.\n", 128 | "\n" 129 | ] 130 | }, 131 | { 132 | "cell_type": "code", 133 | "execution_count": 5, 134 | "metadata": { 135 | "colab": { 136 | "base_uri": "https://localhost:8080/" 137 | }, 138 | "id": "ZIcFl4AWHbSs", 139 | "outputId": "08016a23-8ade-478b-a0b9-9531c5eb5c9c" 140 | }, 141 | "outputs": [ 142 | { 143 | "output_type": "stream", 144 | "name": "stdout", 145 | "text": [ 146 | "tensor([[3., 3.],\n", 147 | " [3., 3.]], grad_fn=)\n" 148 | ] 149 | } 150 | ], 151 | "source": [ 152 | "y = x + 2\n", 153 | "print(y)" 154 | ] 155 | }, 156 | { 157 | "cell_type": "code", 158 | "execution_count": 6, 159 | "metadata": { 160 | "colab": { 161 | "base_uri": "https://localhost:8080/" 162 | }, 163 | "id": "of4Eh18aHbSs", 164 | "outputId": "86c88fc3-5e36-4ac0-fe4a-e6e9422a4c70" 165 | }, 166 | "outputs": [ 167 | { 168 | "output_type": "stream", 169 | "name": "stdout", 170 | "text": [ 171 | "tensor([[27., 27.],\n", 172 | " [27., 27.]], grad_fn=) tensor(27., grad_fn=)\n" 173 | ] 174 | } 175 | ], 176 | "source": [ 177 | "z = y * y * 3\n", 178 | "out = z.mean()\n", 179 | "\n", 180 | "print(z, out)" 181 | ] 182 | }, 183 | { 184 | "cell_type": "markdown", 185 | "metadata": { 186 | "id": "39gLEvmAHbSt" 187 | }, 188 | "source": [ 189 | "`.grad_fn` может менять \"на лету\"" 190 | ] 191 | }, 192 | { 193 | "cell_type": "code", 194 | "execution_count": 7, 195 | "metadata": { 196 | "colab": { 197 | "base_uri": "https://localhost:8080/" 198 | }, 199 | "id": "va5zd2xMHbSt", 200 | "outputId": "6d40b575-71e2-444a-c356-18abddaa383d" 201 | }, 202 | "outputs": [ 203 | { 204 | "output_type": "stream", 205 | "name": "stdout", 206 | "text": [ 207 | "False\n", 208 | "True\n", 209 | "\n" 210 | ] 211 | } 212 | ], 213 | "source": [ 214 | "a = torch.randn(2, 2)\n", 215 | "a = ((a * 3) / (a - 1))\n", 216 | "print(a.requires_grad)\n", 217 | "a.requires_grad_(True)\n", 218 | "print(a.requires_grad)\n", 219 | "b = (a * a).sum()\n", 220 | "print(b.grad_fn)" 221 | ] 222 | }, 223 | { 224 | "cell_type": "markdown", 225 | "metadata": { 226 | "id": "lZcXFmziHbSt" 227 | }, 228 | "source": [ 229 | "Метод `backward` корневого узла графа вычислений запускает процедуру вычисления градиентов в листовых (is_leaf) узлах, имеющих атрибут requires_grad. Граф дифференцируется по цепочке (chain rule)" 230 | ] 231 | }, 232 | { 233 | "cell_type": "code", 234 | "execution_count": 8, 235 | "metadata": { 236 | "id": "yyNpdWrzHbSu" 237 | }, 238 | "outputs": [], 239 | "source": [ 240 | "out.backward()" 241 | ] 242 | }, 243 | { 244 | "cell_type": "code", 245 | "execution_count": 9, 246 | "metadata": { 247 | "colab": { 248 | "base_uri": "https://localhost:8080/" 249 | }, 250 | "id": "bSpM1ECkHbSu", 251 | "outputId": "67a757d9-b23e-4b93-e1f1-a28fe03cfdd6" 252 | }, 253 | "outputs": [ 254 | { 255 | "output_type": "stream", 256 | "name": "stdout", 257 | "text": [ 258 | "tensor([[4.5000, 4.5000],\n", 259 | " [4.5000, 4.5000]])\n" 260 | ] 261 | } 262 | ], 263 | "source": [ 264 | "print(x.grad)" 265 | ] 266 | }, 267 | { 268 | "cell_type": "markdown", 269 | "source": [ 270 | "По умолчанию промежуточные (не листовые) узлы графа не хранят прошедшие через них градиентов." 271 | ], 272 | "metadata": { 273 | "id": "LpYFZQuze1u-" 274 | } 275 | }, 276 | { 277 | "cell_type": "code", 278 | "source": [ 279 | "print(y.grad)" 280 | ], 281 | "metadata": { 282 | "colab": { 283 | "base_uri": "https://localhost:8080/" 284 | }, 285 | "id": "AEcfJluqe1eQ", 286 | "outputId": "d9192cb7-aa09-43ed-a8d1-c97458858916" 287 | }, 288 | "execution_count": 10, 289 | "outputs": [ 290 | { 291 | "output_type": "stream", 292 | "name": "stdout", 293 | "text": [ 294 | "None\n" 295 | ] 296 | }, 297 | { 298 | "output_type": "stream", 299 | "name": "stderr", 300 | "text": [ 301 | ":1: UserWarning: The .grad attribute of a Tensor that is not a leaf Tensor is being accessed. Its .grad attribute won't be populated during autograd.backward(). If you indeed want the .grad field to be populated for a non-leaf Tensor, use .retain_grad() on the non-leaf Tensor. If you access the non-leaf Tensor by mistake, make sure you access the leaf Tensor instead. See github.com/pytorch/pytorch/pull/30531 for more informations. (Triggered internally at aten/src/ATen/core/TensorBody.h:489.)\n", 302 | " print(y.grad)\n" 303 | ] 304 | } 305 | ] 306 | }, 307 | { 308 | "cell_type": "markdown", 309 | "source": [ 310 | "Эту ситуацию можно изменить, вызвав для для конкретного узла метод retain_grad" 311 | ], 312 | "metadata": { 313 | "id": "6KEkSd3oe7g_" 314 | } 315 | }, 316 | { 317 | "cell_type": "code", 318 | "source": [ 319 | "x = torch.ones(2, 2, requires_grad=True)\n", 320 | "y = x + 2\n", 321 | "y.retain_grad()\n", 322 | "z = y * y * 3\n", 323 | "out = z.mean()\n", 324 | "out.backward()" 325 | ], 326 | "metadata": { 327 | "id": "19q2HQX8e7JW" 328 | }, 329 | "execution_count": 11, 330 | "outputs": [] 331 | }, 332 | { 333 | "cell_type": "code", 334 | "source": [ 335 | "print(x.grad)" 336 | ], 337 | "metadata": { 338 | "colab": { 339 | "base_uri": "https://localhost:8080/" 340 | }, 341 | "id": "LXSMmRATfHVO", 342 | "outputId": "51d5acb3-68a4-43f0-af81-b5ce3c745ea3" 343 | }, 344 | "execution_count": 12, 345 | "outputs": [ 346 | { 347 | "output_type": "stream", 348 | "name": "stdout", 349 | "text": [ 350 | "tensor([[4.5000, 4.5000],\n", 351 | " [4.5000, 4.5000]])\n" 352 | ] 353 | } 354 | ] 355 | }, 356 | { 357 | "cell_type": "code", 358 | "source": [ 359 | "print(y.grad)" 360 | ], 361 | "metadata": { 362 | "colab": { 363 | "base_uri": "https://localhost:8080/" 364 | }, 365 | "id": "S9KDgTYLfEib", 366 | "outputId": "07a9c87e-f288-4bcb-f71c-5c5029c7b755" 367 | }, 368 | "execution_count": 13, 369 | "outputs": [ 370 | { 371 | "output_type": "stream", 372 | "name": "stdout", 373 | "text": [ 374 | "tensor([[4.5000, 4.5000],\n", 375 | " [4.5000, 4.5000]])\n" 376 | ] 377 | } 378 | ] 379 | }, 380 | { 381 | "cell_type": "markdown", 382 | "metadata": { 383 | "id": "CD3WUBM3HbSw" 384 | }, 385 | "source": [ 386 | "Иногда с листовыми узлами необходимо проделать действия, не меняя при этом графа. Такие действия проводят, используя контекстный менедежр `no_grad`, которое блокирует создание новых узлов графа" 387 | ] 388 | }, 389 | { 390 | "cell_type": "code", 391 | "execution_count": 14, 392 | "metadata": { 393 | "colab": { 394 | "base_uri": "https://localhost:8080/" 395 | }, 396 | "id": "ueu6nMZQHbSw", 397 | "outputId": "a0f903ae-aa97-4d2c-d78d-582b9036b5dc" 398 | }, 399 | "outputs": [ 400 | { 401 | "output_type": "stream", 402 | "name": "stdout", 403 | "text": [ 404 | "True\n", 405 | "True\n", 406 | "False\n" 407 | ] 408 | } 409 | ], 410 | "source": [ 411 | "print(x.requires_grad)\n", 412 | "print((x ** 2).requires_grad)\n", 413 | "\n", 414 | "with torch.no_grad(): # потом можно включить вручную torch.enable_grad()\n", 415 | " print((x ** 2).requires_grad)\n" 416 | ] 417 | }, 418 | { 419 | "cell_type": "markdown", 420 | "source": [ 421 | "### Micrograd" 422 | ], 423 | "metadata": { 424 | "id": "-wyL8Sn9apWv" 425 | } 426 | }, 427 | { 428 | "cell_type": "markdown", 429 | "source": [ 430 | "[micrograd](https://github.com/karpathy/micrograd)" 431 | ], 432 | "metadata": { 433 | "id": "Mqba-3uHj2xE" 434 | } 435 | }, 436 | { 437 | "cell_type": "code", 438 | "source": [ 439 | "!git clone https://github.com/karpathy/micrograd.git" 440 | ], 441 | "metadata": { 442 | "id": "YdrSm6g6M4DE", 443 | "colab": { 444 | "base_uri": "https://localhost:8080/" 445 | }, 446 | "outputId": "843768c8-fc3f-42b4-fe09-e19e3fd66899" 447 | }, 448 | "execution_count": 15, 449 | "outputs": [ 450 | { 451 | "output_type": "stream", 452 | "name": "stdout", 453 | "text": [ 454 | "Cloning into 'micrograd'...\n", 455 | "remote: Enumerating objects: 98, done.\u001b[K\n", 456 | "remote: Counting objects: 100% (60/60), done.\u001b[K\n", 457 | "remote: Compressing objects: 100% (22/22), done.\u001b[K\n", 458 | "remote: Total 98 (delta 39), reused 38 (delta 38), pack-reused 38 (from 1)\u001b[K\n", 459 | "Receiving objects: 100% (98/98), 258.88 KiB | 1.18 MiB/s, done.\n", 460 | "Resolving deltas: 100% (44/44), done.\n" 461 | ] 462 | } 463 | ] 464 | }, 465 | { 466 | "cell_type": "code", 467 | "source": [ 468 | "%cd micrograd" 469 | ], 470 | "metadata": { 471 | "colab": { 472 | "base_uri": "https://localhost:8080/" 473 | }, 474 | "id": "3QXCWWD3iuRu", 475 | "outputId": "af4f614d-e9b2-4558-84b9-2e9e7fe760d3" 476 | }, 477 | "execution_count": 16, 478 | "outputs": [ 479 | { 480 | "output_type": "stream", 481 | "name": "stdout", 482 | "text": [ 483 | "/content/micrograd\n" 484 | ] 485 | } 486 | ] 487 | }, 488 | { 489 | "cell_type": "code", 490 | "source": [ 491 | "import random\n", 492 | "import numpy as np\n", 493 | "\n", 494 | "import matplotlib.pyplot as plt\n", 495 | "%matplotlib inline\n", 496 | "\n", 497 | "from graphviz import Digraph\n", 498 | "\n", 499 | "from micrograd.engine import Value\n", 500 | "from micrograd.nn import Neuron, Layer, MLP, Module\n", 501 | "\n", 502 | "from sklearn.datasets import make_moons, make_blobs" 503 | ], 504 | "metadata": { 505 | "id": "OAdhBb7V7G1T" 506 | }, 507 | "execution_count": 18, 508 | "outputs": [] 509 | }, 510 | { 511 | "cell_type": "code", 512 | "source": [ 513 | "np.random.seed(42)\n", 514 | "random.seed(42)" 515 | ], 516 | "metadata": { 517 | "id": "LoaIQx1y7G4g" 518 | }, 519 | "execution_count": 19, 520 | "outputs": [] 521 | }, 522 | { 523 | "cell_type": "markdown", 524 | "source": [ 525 | "#### Пример построения графа вычислений" 526 | ], 527 | "metadata": { 528 | "id": "0Mct2DfemyYb" 529 | } 530 | }, 531 | { 532 | "cell_type": "code", 533 | "source": [ 534 | "def trace(root):\n", 535 | " nodes, edges = set(), set()\n", 536 | " def build(v):\n", 537 | " if v not in nodes:\n", 538 | " nodes.add(v)\n", 539 | " for child in v._prev:\n", 540 | " edges.add((child, v))\n", 541 | " build(child)\n", 542 | " build(root)\n", 543 | " return nodes, edges\n", 544 | "\n", 545 | "def draw_dot(root, format='svg', rankdir='LR'):\n", 546 | " \"\"\"\n", 547 | " format: png | svg | ...\n", 548 | " rankdir: TB (top to bottom graph) | LR (left to right)\n", 549 | " \"\"\"\n", 550 | " assert rankdir in ['LR', 'TB']\n", 551 | " nodes, edges = trace(root)\n", 552 | " dot = Digraph(format=format, graph_attr={'rankdir': rankdir}) #, node_attr={'rankdir': 'TB'})\n", 553 | "\n", 554 | " for n in nodes:\n", 555 | " dot.node(name=str(id(n)), label = \"{ data %.4f | grad %.4f }\" % (n.data, n.grad), shape='record')\n", 556 | " if n._op:\n", 557 | " dot.node(name=str(id(n)) + n._op, label=n._op)\n", 558 | " dot.edge(str(id(n)) + n._op, str(id(n)))\n", 559 | "\n", 560 | " for n1, n2 in edges:\n", 561 | " dot.edge(str(id(n1)), str(id(n2)) + n2._op)\n", 562 | "\n", 563 | " return dot" 564 | ], 565 | "metadata": { 566 | "id": "9wJYCA--mdXl" 567 | }, 568 | "execution_count": 20, 569 | "outputs": [] 570 | }, 571 | { 572 | "cell_type": "code", 573 | "source": [ 574 | "Value??" 575 | ], 576 | "metadata": { 577 | "id": "EDeU_JVImqTv" 578 | }, 579 | "execution_count": 21, 580 | "outputs": [] 581 | }, 582 | { 583 | "cell_type": "markdown", 584 | "source": [ 585 | "Для отслеживания, как считаются градиенты в примере ниже, временно \"пропатчим\" функции `__add__`, `__mul__`, `relu` и `backward` из класса `Value` так, чтобы видеть, в логах как применяются операции" 586 | ], 587 | "metadata": { 588 | "id": "5eRoT_-QIXV1" 589 | } 590 | }, 591 | { 592 | "cell_type": "code", 593 | "source": [ 594 | "old_relu = Value.relu\n", 595 | "old_backward = Value.backward\n", 596 | "old_add = Value.__add__\n", 597 | "old_mul = Value.__mul__\n", 598 | "\n", 599 | "def new_relu(self):\n", 600 | " out = Value(0 if self.data < 0 else self.data, (self,), 'ReLU')\n", 601 | "\n", 602 | " def _backward():\n", 603 | " self.grad += (out.data > 0) * out.grad\n", 604 | " print(f\"\"\"\n", 605 | " Считаем производную relu:\n", 606 | " входной градиент = {out.grad}\n", 607 | " локальный градиент = {int(out.data > 0)}\n", 608 | " выходной градиент = {out.grad} * {int(out.data > 0)} = {self.grad}\n", 609 | " \"\"\"\n", 610 | " )\n", 611 | " out._backward = _backward\n", 612 | "\n", 613 | " return out\n", 614 | "\n", 615 | "def new_mul(self, other):\n", 616 | " other = other if isinstance(other, Value) else Value(other)\n", 617 | " out = Value(self.data * other.data, (self, other), '*')\n", 618 | "\n", 619 | " def _backward():\n", 620 | " self.grad += other.data * out.grad\n", 621 | " other.grad += self.data * out.grad\n", 622 | "\n", 623 | " print(f\"\"\"\n", 624 | " Считаем производную умножения.\n", 625 | " Для умножения локальный градиент по отношению к какому-либо из входов будет равен значению оставшегося входа:\n", 626 | " входной градиент = {out.grad}\n", 627 | " локальный градиент для первого множителя = {other.data}\n", 628 | " локальный градиент для второго множителя = {self.data}\n", 629 | " выходной градиент для первого множителя = {out.grad} * {other.data} = {self.grad}\n", 630 | " выходной градиент для второго множителя = {out.grad} * {self.data} = {other.grad}\n", 631 | " \"\"\"\n", 632 | " )\n", 633 | " out._backward = _backward\n", 634 | "\n", 635 | " return out\n", 636 | "\n", 637 | "\n", 638 | "def new_add(self, other):\n", 639 | " other = other if isinstance(other, Value) else Value(other)\n", 640 | " out = Value(self.data + other.data, (self, other), '+')\n", 641 | "\n", 642 | " def _backward():\n", 643 | " self.grad += out.grad\n", 644 | " other.grad += out.grad\n", 645 | "\n", 646 | " print(f\"\"\"\n", 647 | " Считаем производную сложения.\n", 648 | " Относительно каждого из входов локальный градиент в вершине суммирования будет равен 1.\n", 649 | " входной градиент = {out.grad}\n", 650 | " локальный градиент для первого слагаемого = 1\n", 651 | " локальный градиент для второго слагаемого = 1\n", 652 | " выходной градиент для первого слагаемого = 1 * {out.grad}\n", 653 | " выходной градиент для второго слагаемого = 1 * {out.grad}\n", 654 | " \"\"\"\n", 655 | " )\n", 656 | " out._backward = _backward\n", 657 | "\n", 658 | " return out\n", 659 | "\n", 660 | "def new_backward(self):\n", 661 | "\n", 662 | " # topological order all of the children in the graph\n", 663 | " topo = []\n", 664 | " visited = set()\n", 665 | " def build_topo(v):\n", 666 | " if v not in visited:\n", 667 | " visited.add(v)\n", 668 | " for child in v._prev:\n", 669 | " build_topo(child)\n", 670 | " topo.append(v)\n", 671 | " build_topo(self)\n", 672 | "\n", 673 | " # go one variable at a time and apply the chain rule to get its gradient\n", 674 | " self.grad = 1\n", 675 | " print(\"\"\"\n", 676 | " Начинаем обратное распространение.\n", 677 | "\n", 678 | " На каждом шаге метода обратного распространения будем считать выходной градиент как входной * локальный.\n", 679 | " Входной градиент - градиент с прошлого шага метода обратного распространения.\n", 680 | " Локальный градиент - значение производной элементарной функции на данном шаге.\n", 681 | " Входной градиент на первом шаге = 1 (так как df/df = 1).\n", 682 | " \"\"\"\n", 683 | " )\n", 684 | " for v in reversed(topo):\n", 685 | " v._backward()" 686 | ], 687 | "metadata": { 688 | "id": "Y26ugyrQIujv" 689 | }, 690 | "execution_count": 22, 691 | "outputs": [] 692 | }, 693 | { 694 | "cell_type": "code", 695 | "source": [ 696 | "Value.relu = new_relu\n", 697 | "Value.backward = new_backward\n", 698 | "Value.__add__ = new_add\n", 699 | "Value.__mul__ = new_mul" 700 | ], 701 | "metadata": { 702 | "id": "8FolW8ZEItGl" 703 | }, 704 | "execution_count": 23, 705 | "outputs": [] 706 | }, 707 | { 708 | "cell_type": "code", 709 | "source": [ 710 | "x = Value(1.0)\n", 711 | "y = (x * 2 + 1).relu()\n", 712 | "y.backward()\n", 713 | "draw_dot(y)" 714 | ], 715 | "metadata": { 716 | "colab": { 717 | "base_uri": "https://localhost:8080/", 718 | "height": 748 719 | }, 720 | "id": "qxvDyeJnmdVU", 721 | "outputId": "80ea37fc-7308-4b16-cc0a-c54130a115dd" 722 | }, 723 | "execution_count": 24, 724 | "outputs": [ 725 | { 726 | "output_type": "stream", 727 | "name": "stdout", 728 | "text": [ 729 | "\n", 730 | " Начинаем обратное распространение.\n", 731 | " \n", 732 | " На каждом шаге метода обратного распространения будем считать выходной градиент как входной * локальный.\n", 733 | " Входной градиент - градиент с прошлого шага метода обратного распространения.\n", 734 | " Локальный градиент - значение производной элементарной функции на данном шаге.\n", 735 | " Входной градиент на первом шаге = 1 (так как df/df = 1).\n", 736 | " \n", 737 | "\n", 738 | " Считаем производную relu: \n", 739 | " входной градиент = 1\n", 740 | " локальный градиент = 1\n", 741 | " выходной градиент = 1 * 1 = 1\n", 742 | " \n", 743 | "\n", 744 | " Считаем производную сложения.\n", 745 | " Относительно каждого из входов локальный градиент в вершине суммирования будет равен 1.\n", 746 | " входной градиент = 1\n", 747 | " локальный градиент для первого слагаемого = 1\n", 748 | " локальный градиент для второго слагаемого = 1\n", 749 | " выходной градиент для первого слагаемого = 1 * 1\n", 750 | " выходной градиент для второго слагаемого = 1 * 1\n", 751 | " \n", 752 | "\n", 753 | " Считаем производную умножения.\n", 754 | " Для умножения локальный градиент по отношению к какому-либо из входов будет равен значению оставшегося входа:\n", 755 | " входной градиент = 1\n", 756 | " локальный градиент для первого множителя = 2\n", 757 | " локальный градиент для второго множителя = 1.0\n", 758 | " выходной градиент для первого множителя = 1 * 2 = 2\n", 759 | " выходной градиент для второго множителя = 1 * 1.0 = 1.0\n", 760 | " \n" 761 | ] 762 | }, 763 | { 764 | "output_type": "execute_result", 765 | "data": { 766 | "image/svg+xml": "\n\n\n\n\n\n%3\n\n\n\n133697222993440\n\ndata 3.0000\n\ngrad 1.0000\n\n\n\n133697222984752ReLU\n\nReLU\n\n\n\n133697222993440->133697222984752ReLU\n\n\n\n\n\n133697222993440+\n\n+\n\n\n\n133697222993440+->133697222993440\n\n\n\n\n\n133697222984752\n\ndata 3.0000\n\ngrad 1.0000\n\n\n\n133697222984752ReLU->133697222984752\n\n\n\n\n\n133697222996032\n\ndata 2.0000\n\ngrad 1.0000\n\n\n\n133697222996032->133697222993440+\n\n\n\n\n\n133697222996032*\n\n*\n\n\n\n133697222996032*->133697222996032\n\n\n\n\n\n133697222996608\n\ndata 2.0000\n\ngrad 1.0000\n\n\n\n133697222996608->133697222996032*\n\n\n\n\n\n133697222995264\n\ndata 1.0000\n\ngrad 2.0000\n\n\n\n133697222995264->133697222996032*\n\n\n\n\n\n133697222996416\n\ndata 1.0000\n\ngrad 1.0000\n\n\n\n133697222996416->133697222993440+\n\n\n\n\n\n", 767 | "text/plain": [ 768 | "" 769 | ] 770 | }, 771 | "metadata": {}, 772 | "execution_count": 24 773 | } 774 | ] 775 | }, 776 | { 777 | "cell_type": "markdown", 778 | "source": [ 779 | "Вернем старые реализации функций обратно, чтобы при обучении модели не утонуть в логах" 780 | ], 781 | "metadata": { 782 | "id": "vUbNUKBfJtJs" 783 | } 784 | }, 785 | { 786 | "cell_type": "code", 787 | "source": [ 788 | "Value.relu = old_relu\n", 789 | "Value.backward = old_backward\n", 790 | "Value.__add__ = old_add\n", 791 | "Value.__mul__ = old_mul" 792 | ], 793 | "metadata": { 794 | "id": "APZHmn_1JyhR" 795 | }, 796 | "execution_count": 25, 797 | "outputs": [] 798 | }, 799 | { 800 | "cell_type": "code", 801 | "source": [ 802 | "Neuron??" 803 | ], 804 | "metadata": { 805 | "id": "M_Mb3eVnmq_W" 806 | }, 807 | "execution_count": 23, 808 | "outputs": [] 809 | }, 810 | { 811 | "cell_type": "code", 812 | "source": [ 813 | "random.seed(1337)\n", 814 | "n = Neuron(2)\n", 815 | "x = [Value(1.0), Value(-2.0)]\n", 816 | "y = n(x)\n", 817 | "y.backward()\n", 818 | "\n", 819 | "dot = draw_dot(y)\n", 820 | "dot" 821 | ], 822 | "metadata": { 823 | "colab": { 824 | "base_uri": "https://localhost:8080/", 825 | "height": 357 826 | }, 827 | "id": "lEw9JEWkmdSv", 828 | "outputId": "ef4a2c98-bbed-4b53-83d2-10add880869e" 829 | }, 830 | "execution_count": 26, 831 | "outputs": [ 832 | { 833 | "output_type": "execute_result", 834 | "data": { 835 | "image/svg+xml": "\n\n\n\n\n\n%3\n\n\n\n133696956211808\n\ndata 0.1024\n\ngrad 1.0000\n\n\n\n133696956212384ReLU\n\nReLU\n\n\n\n133696956211808->133696956212384ReLU\n\n\n\n\n\n133696956211808+\n\n+\n\n\n\n133696956211808+->133696956211808\n\n\n\n\n\n133696956214928\n\ndata 0.0665\n\ngrad -2.0000\n\n\n\n133696956208352*\n\n*\n\n\n\n133696956214928->133696956208352*\n\n\n\n\n\n133696956212384\n\ndata 0.1024\n\ngrad 1.0000\n\n\n\n133696956212384ReLU->133696956212384\n\n\n\n\n\n133696956218000\n\ndata 0.0000\n\ngrad 1.0000\n\n\n\n133696956208112+\n\n+\n\n\n\n133696956218000->133696956208112+\n\n\n\n\n\n133696956213920\n\ndata 0.2355\n\ngrad 1.0000\n\n\n\n133696956213920->133696956208112+\n\n\n\n\n\n133696956213920*\n\n*\n\n\n\n133696956213920*->133696956213920\n\n\n\n\n\n133700378863280\n\ndata 1.0000\n\ngrad 0.2355\n\n\n\n133700378863280->133696956213920*\n\n\n\n\n\n133696956208352\n\ndata -0.1331\n\ngrad 1.0000\n\n\n\n133696956208352->133696956211808+\n\n\n\n\n\n133696956208352*->133696956208352\n\n\n\n\n\n133696956217616\n\ndata -2.0000\n\ngrad 0.0665\n\n\n\n133696956217616->133696956208352*\n\n\n\n\n\n133696956212096\n\ndata 0.2355\n\ngrad 1.0000\n\n\n\n133696956212096->133696956213920*\n\n\n\n\n\n133696956208112\n\ndata 0.2355\n\ngrad 1.0000\n\n\n\n133696956208112->133696956211808+\n\n\n\n\n\n133696956208112+->133696956208112\n\n\n\n\n\n", 836 | "text/plain": [ 837 | "" 838 | ] 839 | }, 840 | "metadata": {}, 841 | "execution_count": 26 842 | } 843 | ] 844 | }, 845 | { 846 | "cell_type": "markdown", 847 | "source": [ 848 | "#### MLP для бинарной классификации" 849 | ], 850 | "metadata": { 851 | "id": "1dv25IPTm3BT" 852 | } 853 | }, 854 | { 855 | "cell_type": "code", 856 | "source": [ 857 | "X, y = make_moons(n_samples=100, noise=0.1)\n", 858 | "\n", 859 | "y = y*2 - 1 # make y be -1 or 1\n", 860 | "# visualize in 2D\n", 861 | "plt.figure(figsize=(5,5))\n", 862 | "plt.scatter(X[:,0], X[:,1], c=y, s=20, cmap='jet')" 863 | ], 864 | "metadata": { 865 | "id": "SxlwcBdg7G66", 866 | "colab": { 867 | "base_uri": "https://localhost:8080/", 868 | "height": 466 869 | }, 870 | "outputId": "ac117ff4-d572-4271-847a-4b612339a9cc" 871 | }, 872 | "execution_count": 27, 873 | "outputs": [ 874 | { 875 | "output_type": "execute_result", 876 | "data": { 877 | "text/plain": [ 878 | "" 879 | ] 880 | }, 881 | "metadata": {}, 882 | "execution_count": 27 883 | }, 884 | { 885 | "output_type": "display_data", 886 | "data": { 887 | "text/plain": [ 888 | "
" 889 | ], 890 | "image/png": "\n" 891 | }, 892 | "metadata": {} 893 | } 894 | ] 895 | }, 896 | { 897 | "cell_type": "code", 898 | "source": [ 899 | "X[0], y[0]" 900 | ], 901 | "metadata": { 902 | "colab": { 903 | "base_uri": "https://localhost:8080/" 904 | }, 905 | "id": "1qxsjISDk5cg", 906 | "outputId": "4b287cd6-d093-4dd2-b42b-abb53f112fba" 907 | }, 908 | "execution_count": 28, 909 | "outputs": [ 910 | { 911 | "output_type": "execute_result", 912 | "data": { 913 | "text/plain": [ 914 | "(array([ 1.58202308, -0.44581483]), 1)" 915 | ] 916 | }, 917 | "metadata": {}, 918 | "execution_count": 28 919 | } 920 | ] 921 | }, 922 | { 923 | "cell_type": "code", 924 | "source": [ 925 | "MLP??" 926 | ], 927 | "metadata": { 928 | "id": "EU_zgjaVkfq9" 929 | }, 930 | "execution_count": 28, 931 | "outputs": [] 932 | }, 933 | { 934 | "cell_type": "code", 935 | "source": [ 936 | "Layer??" 937 | ], 938 | "metadata": { 939 | "id": "MjTtPjPi9GB-" 940 | }, 941 | "execution_count": 29, 942 | "outputs": [] 943 | }, 944 | { 945 | "cell_type": "code", 946 | "source": [ 947 | "Module??" 948 | ], 949 | "metadata": { 950 | "id": "zLu5jABPkqEK" 951 | }, 952 | "execution_count": 30, 953 | "outputs": [] 954 | }, 955 | { 956 | "cell_type": "code", 957 | "source": [ 958 | "model = MLP(2, [16, 16, 1]) # 2-layer neural network\n", 959 | "print(\"number of parameters\", len(model.parameters()))" 960 | ], 961 | "metadata": { 962 | "colab": { 963 | "base_uri": "https://localhost:8080/" 964 | }, 965 | "id": "8uWxWtpSj-Gr", 966 | "outputId": "7b2d1cc5-136f-4bb6-bc4e-f0c06017ca4d" 967 | }, 968 | "execution_count": 29, 969 | "outputs": [ 970 | { 971 | "output_type": "stream", 972 | "name": "stdout", 973 | "text": [ 974 | "number of parameters 337\n" 975 | ] 976 | } 977 | ] 978 | }, 979 | { 980 | "cell_type": "code", 981 | "source": [ 982 | "model.layers" 983 | ], 984 | "metadata": { 985 | "colab": { 986 | "base_uri": "https://localhost:8080/" 987 | }, 988 | "id": "CDFlsn00j-JO", 989 | "outputId": "6138f302-c7e4-4d9c-926e-0401ace43f19" 990 | }, 991 | "execution_count": 30, 992 | "outputs": [ 993 | { 994 | "output_type": "execute_result", 995 | "data": { 996 | "text/plain": [ 997 | "[Layer of [ReLUNeuron(2), ReLUNeuron(2), ReLUNeuron(2), ReLUNeuron(2), ReLUNeuron(2), ReLUNeuron(2), ReLUNeuron(2), ReLUNeuron(2), ReLUNeuron(2), ReLUNeuron(2), ReLUNeuron(2), ReLUNeuron(2), ReLUNeuron(2), ReLUNeuron(2), ReLUNeuron(2), ReLUNeuron(2)],\n", 998 | " Layer of [ReLUNeuron(16), ReLUNeuron(16), ReLUNeuron(16), ReLUNeuron(16), ReLUNeuron(16), ReLUNeuron(16), ReLUNeuron(16), ReLUNeuron(16), ReLUNeuron(16), ReLUNeuron(16), ReLUNeuron(16), ReLUNeuron(16), ReLUNeuron(16), ReLUNeuron(16), ReLUNeuron(16), ReLUNeuron(16)],\n", 999 | " Layer of [LinearNeuron(16)]]" 1000 | ] 1001 | }, 1002 | "metadata": {}, 1003 | "execution_count": 30 1004 | } 1005 | ] 1006 | }, 1007 | { 1008 | "cell_type": "code", 1009 | "source": [ 1010 | "# посчитаем параметры\n", 1011 | "(2 * 16 + 16) + (16 * 16 + 16) + (16 * 1 + 1)" 1012 | ], 1013 | "metadata": { 1014 | "colab": { 1015 | "base_uri": "https://localhost:8080/" 1016 | }, 1017 | "id": "yRxUBd6Jj-Ln", 1018 | "outputId": "64ed55ce-6258-45e3-fb22-ec4d2da5a44f" 1019 | }, 1020 | "execution_count": 31, 1021 | "outputs": [ 1022 | { 1023 | "output_type": "execute_result", 1024 | "data": { 1025 | "text/plain": [ 1026 | "337" 1027 | ] 1028 | }, 1029 | "metadata": {}, 1030 | "execution_count": 31 1031 | } 1032 | ] 1033 | }, 1034 | { 1035 | "cell_type": "code", 1036 | "source": [ 1037 | "def loss(batch_size=None):\n", 1038 | " Xb, yb = X, y\n", 1039 | " inputs = [list(map(Value, xrow)) for xrow in Xb]\n", 1040 | "\n", 1041 | " # forward the model to get scores\n", 1042 | " scores = list(map(model, inputs))\n", 1043 | "\n", 1044 | " # svm \"max-margin\" loss\n", 1045 | " losses = [(1 + -yi * score_i).relu() for yi, score_i in zip(yb, scores)]\n", 1046 | " data_loss = sum(losses) * (1.0 / len(losses))\n", 1047 | " # L2 regularization\n", 1048 | " alpha = 1e-4\n", 1049 | " reg_loss = alpha * sum((p * p for p in model.parameters()))\n", 1050 | " total_loss = data_loss + reg_loss\n", 1051 | "\n", 1052 | " # also get accuracy\n", 1053 | " accuracy = [(yi > 0) == (score_i.data > 0) for yi, score_i in zip(yb, scores)]\n", 1054 | " return total_loss, sum(accuracy) / len(accuracy)\n", 1055 | "\n", 1056 | "total_loss, acc = loss()\n", 1057 | "print(total_loss, acc)" 1058 | ], 1059 | "metadata": { 1060 | "colab": { 1061 | "base_uri": "https://localhost:8080/" 1062 | }, 1063 | "id": "s5zk3OeMj-OJ", 1064 | "outputId": "b65ed918-bc38-4933-b37b-2b6cc7dfd90a" 1065 | }, 1066 | "execution_count": 32, 1067 | "outputs": [ 1068 | { 1069 | "output_type": "stream", 1070 | "name": "stdout", 1071 | "text": [ 1072 | "Value(data=0.41454652413193865, grad=0) 0.82\n" 1073 | ] 1074 | } 1075 | ] 1076 | }, 1077 | { 1078 | "cell_type": "code", 1079 | "source": [ 1080 | "for k in range(100):\n", 1081 | " # forward\n", 1082 | " total_loss, acc = loss()\n", 1083 | "\n", 1084 | " # backward\n", 1085 | " model.zero_grad()\n", 1086 | " total_loss.backward()\n", 1087 | "\n", 1088 | " # update (sgd)\n", 1089 | " learning_rate = 1.0 - 0.9 * k / 100\n", 1090 | " for p in model.parameters():\n", 1091 | " p.data -= learning_rate * p.grad\n", 1092 | "\n", 1093 | " if k % 1 == 0:\n", 1094 | " print(f\"step {k} loss {total_loss.data}, accuracy {acc*100}%\")" 1095 | ], 1096 | "metadata": { 1097 | "colab": { 1098 | "base_uri": "https://localhost:8080/" 1099 | }, 1100 | "id": "27ZNbO4fj-RF", 1101 | "outputId": "e2008ae3-6998-4e2a-f357-0dd79b5fa8fc" 1102 | }, 1103 | "execution_count": 33, 1104 | "outputs": [ 1105 | { 1106 | "output_type": "stream", 1107 | "name": "stdout", 1108 | "text": [ 1109 | "step 0 loss 0.41454652413193865, accuracy 82.0%\n", 1110 | "step 1 loss 0.7863805046215181, accuracy 81.0%\n", 1111 | "step 2 loss 0.461961145267714, accuracy 83.0%\n", 1112 | "step 3 loss 0.5085892319645842, accuracy 83.0%\n", 1113 | "step 4 loss 0.31049052687261214, accuracy 86.0%\n", 1114 | "step 5 loss 0.2689947571730255, accuracy 89.0%\n", 1115 | "step 6 loss 0.24554659072506863, accuracy 89.0%\n", 1116 | "step 7 loss 0.23622330038400666, accuracy 90.0%\n", 1117 | "step 8 loss 0.21720946703312552, accuracy 90.0%\n", 1118 | "step 9 loss 0.21400559443772385, accuracy 91.0%\n", 1119 | "step 10 loss 0.20939260057894807, accuracy 91.0%\n", 1120 | "step 11 loss 0.3300210916807542, accuracy 92.0%\n", 1121 | "step 12 loss 0.38174928707618516, accuracy 87.0%\n", 1122 | "step 13 loss 0.4508064668364713, accuracy 85.0%\n", 1123 | "step 14 loss 0.24799516110878045, accuracy 89.0%\n", 1124 | "step 15 loss 0.19302863848938961, accuracy 91.0%\n", 1125 | "step 16 loss 0.18158693713880056, accuracy 93.0%\n", 1126 | "step 17 loss 0.18371866789300473, accuracy 94.0%\n", 1127 | "step 18 loss 0.17646529149266213, accuracy 92.0%\n", 1128 | "step 19 loss 0.2118644238610899, accuracy 95.0%\n", 1129 | "step 20 loss 0.23740708747640143, accuracy 90.0%\n", 1130 | "step 21 loss 0.2424213728622781, accuracy 91.0%\n", 1131 | "step 22 loss 0.16352206202435898, accuracy 93.0%\n", 1132 | "step 23 loss 0.14055706166037016, accuracy 94.0%\n", 1133 | "step 24 loss 0.12641650696039422, accuracy 95.0%\n", 1134 | "step 25 loss 0.11779662914897572, accuracy 96.0%\n", 1135 | "step 26 loss 0.11656157360300687, accuracy 96.0%\n", 1136 | "step 27 loss 0.10693241862855216, accuracy 97.0%\n", 1137 | "step 28 loss 0.10958624114174169, accuracy 96.0%\n", 1138 | "step 29 loss 0.10134992156481276, accuracy 98.0%\n", 1139 | "step 30 loss 0.10930078228361885, accuracy 95.0%\n", 1140 | "step 31 loss 0.08885676934639257, accuracy 98.0%\n", 1141 | "step 32 loss 0.0822624174703037, accuracy 98.0%\n", 1142 | "step 33 loss 0.07952622026383123, accuracy 97.0%\n", 1143 | "step 34 loss 0.08377693512335735, accuracy 98.0%\n", 1144 | "step 35 loss 0.09834976703042793, accuracy 97.0%\n", 1145 | "step 36 loss 0.0805034897187587, accuracy 98.0%\n", 1146 | "step 37 loss 0.0882343743831684, accuracy 98.0%\n", 1147 | "step 38 loss 0.07944486631852585, accuracy 98.0%\n", 1148 | "step 39 loss 0.10287087028218089, accuracy 96.0%\n", 1149 | "step 40 loss 0.11136981231707056, accuracy 96.0%\n", 1150 | "step 41 loss 0.10982494830215679, accuracy 95.0%\n", 1151 | "step 42 loss 0.05744935437701046, accuracy 98.0%\n", 1152 | "step 43 loss 0.04896980932498546, accuracy 98.0%\n", 1153 | "step 44 loss 0.04452824806589162, accuracy 98.0%\n", 1154 | "step 45 loss 0.03857659354607201, accuracy 99.0%\n", 1155 | "step 46 loss 0.03629101324493242, accuracy 100.0%\n", 1156 | "step 47 loss 0.03618323133012296, accuracy 99.0%\n", 1157 | "step 48 loss 0.04728429210924266, accuracy 99.0%\n", 1158 | "step 49 loss 0.03248749654352533, accuracy 100.0%\n", 1159 | "step 50 loss 0.030335357997559816, accuracy 100.0%\n", 1160 | "step 51 loss 0.028156244389769505, accuracy 100.0%\n", 1161 | "step 52 loss 0.029230812235729126, accuracy 100.0%\n", 1162 | "step 53 loss 0.027270821931031152, accuracy 100.0%\n", 1163 | "step 54 loss 0.024973498876801573, accuracy 100.0%\n", 1164 | "step 55 loss 0.02558550342438838, accuracy 100.0%\n", 1165 | "step 56 loss 0.024083011912084673, accuracy 100.0%\n", 1166 | "step 57 loss 0.0255029133464586, accuracy 100.0%\n", 1167 | "step 58 loss 0.021453874084932222, accuracy 100.0%\n", 1168 | "step 59 loss 0.019916045963472316, accuracy 100.0%\n", 1169 | "step 60 loss 0.020874485829553507, accuracy 100.0%\n", 1170 | "step 61 loss 0.02352369573570373, accuracy 100.0%\n", 1171 | "step 62 loss 0.03326503825041317, accuracy 99.0%\n", 1172 | "step 63 loss 0.019791643375603657, accuracy 100.0%\n", 1173 | "step 64 loss 0.021290815578892223, accuracy 100.0%\n", 1174 | "step 65 loss 0.030884203516995862, accuracy 100.0%\n", 1175 | "step 66 loss 0.018927539525833106, accuracy 100.0%\n", 1176 | "step 67 loss 0.018852402065537233, accuracy 100.0%\n", 1177 | "step 68 loss 0.02078797948389191, accuracy 100.0%\n", 1178 | "step 69 loss 0.01563093592456672, accuracy 100.0%\n", 1179 | "step 70 loss 0.01905328666327437, accuracy 100.0%\n", 1180 | "step 71 loss 0.01619222407425494, accuracy 100.0%\n", 1181 | "step 72 loss 0.024471109661991345, accuracy 100.0%\n", 1182 | "step 73 loss 0.01564616679328279, accuracy 100.0%\n", 1183 | "step 74 loss 0.019398658398722304, accuracy 100.0%\n", 1184 | "step 75 loss 0.020862785805321207, accuracy 100.0%\n", 1185 | "step 76 loss 0.014047328210772154, accuracy 100.0%\n", 1186 | "step 77 loss 0.01944617841459297, accuracy 100.0%\n", 1187 | "step 78 loss 0.021606808339660943, accuracy 100.0%\n", 1188 | "step 79 loss 0.014148971740402144, accuracy 100.0%\n", 1189 | "step 80 loss 0.014910996431333663, accuracy 100.0%\n", 1190 | "step 81 loss 0.01721007109292912, accuracy 100.0%\n", 1191 | "step 82 loss 0.012366212108223178, accuracy 100.0%\n", 1192 | "step 83 loss 0.012257445936183161, accuracy 100.0%\n", 1193 | "step 84 loss 0.012186318425017391, accuracy 100.0%\n", 1194 | "step 85 loss 0.01257294527319086, accuracy 100.0%\n", 1195 | "step 86 loss 0.012632904962825906, accuracy 100.0%\n", 1196 | "step 87 loss 0.01381341587243698, accuracy 100.0%\n", 1197 | "step 88 loss 0.013181444719459269, accuracy 100.0%\n", 1198 | "step 89 loss 0.012112123429310276, accuracy 100.0%\n", 1199 | "step 90 loss 0.011991619681594404, accuracy 100.0%\n", 1200 | "step 91 loss 0.01191484101087392, accuracy 100.0%\n", 1201 | "step 92 loss 0.011841435415422583, accuracy 100.0%\n", 1202 | "step 93 loss 0.011891835891202848, accuracy 100.0%\n", 1203 | "step 94 loss 0.011849492283132935, accuracy 100.0%\n", 1204 | "step 95 loss 0.011772922324668656, accuracy 100.0%\n", 1205 | "step 96 loss 0.011713712499624353, accuracy 100.0%\n", 1206 | "step 97 loss 0.011658024588577119, accuracy 100.0%\n", 1207 | "step 98 loss 0.011630878060508679, accuracy 100.0%\n", 1208 | "step 99 loss 0.011662977441662272, accuracy 100.0%\n" 1209 | ] 1210 | } 1211 | ] 1212 | }, 1213 | { 1214 | "cell_type": "code", 1215 | "source": [ 1216 | "h = 0.25\n", 1217 | "x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1\n", 1218 | "y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1\n", 1219 | "xx, yy = np.meshgrid(\n", 1220 | " np.arange(x_min, x_max, h),\n", 1221 | " np.arange(y_min, y_max, h)\n", 1222 | ")\n", 1223 | "Xmesh = np.c_[xx.ravel(), yy.ravel()]\n", 1224 | "inputs = [list(map(Value, xrow)) for xrow in Xmesh]\n", 1225 | "scores = list(map(model, inputs))\n", 1226 | "Z = np.array([s.data > 0 for s in scores])\n", 1227 | "Z = Z.reshape(xx.shape)\n", 1228 | "\n", 1229 | "fig = plt.figure()\n", 1230 | "plt.contourf(xx, yy, Z, cmap=plt.cm.Spectral, alpha=0.8)\n", 1231 | "plt.scatter(X[:, 0], X[:, 1], c=y, s=40, cmap=plt.cm.Spectral)\n", 1232 | "plt.xlim(xx.min(), xx.max())\n", 1233 | "plt.ylim(yy.min(), yy.max())" 1234 | ], 1235 | "metadata": { 1236 | "colab": { 1237 | "base_uri": "https://localhost:8080/", 1238 | "height": 447 1239 | }, 1240 | "id": "ByZKLTnPj-Tf", 1241 | "outputId": "5754caba-bbfc-4104-97c8-ff0b3717c9bf" 1242 | }, 1243 | "execution_count": 34, 1244 | "outputs": [ 1245 | { 1246 | "output_type": "execute_result", 1247 | "data": { 1248 | "text/plain": [ 1249 | "(-1.5978882018302847, 2.1521117981697153)" 1250 | ] 1251 | }, 1252 | "metadata": {}, 1253 | "execution_count": 34 1254 | }, 1255 | { 1256 | "output_type": "display_data", 1257 | "data": { 1258 | "text/plain": [ 1259 | "
" 1260 | ], 1261 | "image/png": "\n" 1262 | }, 1263 | "metadata": {} 1264 | } 1265 | ] 1266 | } 1267 | ] 1268 | } -------------------------------------------------------------------------------- /readme.md: -------------------------------------------------------------------------------- 1 | ### Курс "Основы глубокого обучения" в ИТМО (осень 2024) 2 | - [1.1 Вводное занятие, знакомство с PyTorch (06.12.2024)](Lecture%201) 3 | - [1.2 Полносвязные сети, метод обратного распространения (09.12.2024)](Lecture%202) 4 | - [1.3 Autograd, Micrograd, SGD (13.12.2024)](Lecture%203) 5 | - [1.4 Оптимизаторы, функции активации, инициализация весов (16.12.2024)](Lecture%204-5) 6 | - [1.5 Dropout & BatchNorm (23.12.2024)](Lecture%206) 7 | 8 | 9 | - [2.1 Функции потерь, сверточные сети (28.12.2024)](Lecture%207) 10 | - [2.2 PyTorch Lightning, Learning Rate Schedulers (30.12.2024)](Lecture%208) 11 | 12 | 13 | - [3.1 Dropout2d, BatchNorm2d, NLP basics (13.01.2025, 17.01.2025)](Lecture%209) 14 | 15 | - [4.1 Huggingface Transformers (20.01.2025)](Lecture%2010) 16 | - [4.2 Аугментация, интерпретация, дистилляция (27.01.2025)](Lecture%2011-12) 17 | ______ 18 | 19 | #### Домашние задания 20 | 21 | | # | Тема | Max Балл | Мягкий Дедлайн | Жесткий Дедлайн | 22 | |------|----------|-----------|----------------|-----------------| 23 | | [ДЗ 1](HW/hw_1/itmo_dl_course_hw_1.md) | Создание и обучение MLP | 10 | 11.01.2025 20:00 МСК| 14.01.2025 20:00 МСК| 24 | | [ДЗ 2](HW/hw_2/itmo_dl_course_hw_2.md) | Создание и обучение AlexNet | 10 | 21.01.2025 20:00 МСК| 27.01.2025 20:00 МСК| 25 | 26 | ______ 27 | 28 | #### Дополнительные задания 29 | 30 | | # | Тема | Max Балл | Жесткий Дедлайн | 31 | |------|----------|-----------|-----------------| 32 | | [Extra Task 1](HW/itmo_dl_course_extra_task_1.md) | Создание и обучение MLP | 5 | 31.12.2024 20:00 МСК| 33 | | [Extra Task 2](HW/itmo_dl_course_extra_task_2.md) | Классификатор FashionMNIST на PyTorch Lightning | 5 | 18.01.2025 20:00 МСК| 34 | | [Extra Task 3](HW/itmo_dl_course_extra_task_3.md) | Классификация текстов с CNN и RNN | 5 | 25.01.2025 20:00 МСК| 35 | | [Extra Task 4](HW/itmo_dl_course_extra_task_4.md) | Классификация текстов с transformers | 5 | 28.01.2025 18:00 МСК| 36 | ______ 37 | 38 | #### Соревнование 39 | 40 | | Ссылка | Max Балл | Жесткий Дедлайн | 41 | |----------|----------|-----------------| 42 | | [AITH DL Competition - Tabular data](https://www.kaggle.com/t/bde680ca0f054b4c85fc5065c9ef6fbf) | 30 | 27.01.2025 19:00 МСК| 43 | | [AITH DL Competition - Text data](https://www.kaggle.com/t/1afde63d76e04a4b91bb3b6bdd5e08e3) | 30 | 27.01.2025 19:00 МСК| 44 | 45 | Необходимо выбрать одно соревнование (можно больше, но баллы в итоге будут выставлены за лучший результат). 46 | 47 | Для решения задач необходимо использовать **только нейросетевые модели**. 48 | 49 | ##### Схема выставления баллов 50 | 51 | - за позицию на private LB - max 15 баллов (по 5 баллов за преодоление каждого бенчмарка) 52 | - оставшиеся 15 баллов - за код решения, посланный на ревью **@pacifikus** через github, как все ДЗ, отдельным PR 53 | 54 | Баллы за позицию на LB выставляются только в случае создания PR с воспроизводимым решением! 55 | 56 | #### Критерии для оценки кода 57 | 58 | - Решение реализовано без концептуальных ошибок в архитектуре / дата-ликов в предобработке данных и т.п. - **5 баллов** 59 | - Принимаемые решения обоснованы (почему выбрана определенная архитектура/гиперпараметр/оптимизатор/преобразование и т.п.) - **3 балла** 60 | - Обеспечена воспроизводимость решения: зафиксированы random_state, ноутбук воспроизводится от начала до конца без ошибок - **5 баллов** 61 | - Ноутбук структурирован, код экспериментов не содержит дублирования, оформление соответствует стандарту pep8 - **2 балла** 62 | --------------------------------------------------------------------------------