├── HW
├── hw_1
│ ├── cybersequrity.csv
│ └── itmo_dl_course_hw_1.md
├── hw_2
│ └── itmo_dl_course_hw_2.md
├── itmo_dl_course_extra_task_1.md
├── itmo_dl_course_extra_task_2.md
├── itmo_dl_course_extra_task_3.md
└── itmo_dl_course_extra_task_4.md
├── Lecture 1
├── Electrical_Grid_Stability.csv
├── itmo_dl_course_nn_base_01.ipynb
└── Занятие 1.pptx
├── Lecture 10
├── itmo_dl_course_huggingface.ipynb
└── itmo_dl_course_nlp_clf_finetune.ipynb
├── Lecture 11-12
├── itmo_dl_course_explainability.ipynb
├── itmo_dl_course_nlp_augmentation.ipynb
├── itmo_dl_course_nlp_knowledge_distillation.ipynb
└── itmo_dl_cv_augmentation.ipynb
├── Lecture 2
├── Electrical_Grid_Stability.csv
├── itmo_dl_course_nn_base_01.ipynb
└── itmo_dl_course_nn_base_backprop.ipynb
├── Lecture 3
└── itmo_dl_course_nn_base_autograd.ipynb
├── Lecture 4-5
├── Electrical_Grid_Stability.csv
├── itmo_dl_course_nn_activations_and_init.ipynb
└── itmo_dl_course_nn_base_optimizers.ipynb
├── Lecture 6
└── itmo_dl_course_nn_dropout_and_bn.ipynb
├── Lecture 7
├── itmo_dl_course_cnn.ipynb
└── itmo_dl_course_pytorch_losses.ipynb
├── Lecture 8
└── itmo_dl_lightning_base.ipynb
├── Lecture 9
├── itmo_dl_course__cnn_bn_and_dropout.ipynb
└── itmo_dl_course__nlp_basics.ipynb
└── readme.md
/HW/hw_1/itmo_dl_course_hw_1.md:
--------------------------------------------------------------------------------
1 | ### Домашнее задание 1 - 10 баллов
2 |
3 | 1. Загрузите датасет артефактов вредоносного ПО, хранящихся в памяти - [cybersecurity.csv](cybersequrity.csv)
4 | 2. Подготовьте данные к обучению - **1 балл**
5 | - Разделите датасет на обучающую, валидационную и тестовую выборки со стратификацией в пропорции 60/20/20. В качестве целевой переменной используйте столбец `Class` - бинарный столбец (0 - нейтральное ПО, 1 - вредоносное ПО).
6 | - **hint**: для ускорения сходимости и стабилизации обучения можно стандартизировать входные признаки, например, с помощью `StandardScaler`
7 | - Создайте объекты для работы с данными в PyTorch - `Dataset` и `DataLoader` для обучающей, валидационной и тестовой выборок. Выберите оптимальный, на ваш взгляд, `batch_size`.
8 | 3. Реализуйте класс бейзлайновой нейросетевой модели (MLP) для решения задачи - **2 балла**
9 | - Определите оптимальное количество `Linear` слоев в структуре и их размерности.
10 | - Подберите оптимальные для задачи функции активации - `ReLU`, `Sigmoid`, `Tanh`, `LeakyReLU`...
11 | - Реализуйте логику прохождения данных по сети в методе `forward`
12 | - Cоздайте объект модели, реализуйте перевод модели на gpu
13 | 4. Напишите код цикла обучения - train-loop и валидации - eval-loop. В процессе обучения сохраняйте и визуализируйте на графике динамику функции потерь на тренировочной и валидационной выборках - **1 балл**
14 | 5. Обучите модель и проверьте ее качество - **1 балл**
15 | - Выберите оптимизатор, в качестве функции потерь используйте `nn.BCELoss`
16 | - Запустите обучение, постарайтесь подобрать оптимальные скорость обучения и количество эпох, ориентируясь на динамику функции потерь на train/val
17 | - Измерьте качество лучшей модели на тестовой выборке, постройте отчет о классификации - `classification_report`
18 | 6. Улучшите архитектуру модели из пункта 3 и добейтесь увеличения качества - **3 балла**
19 | - Попробуйте добавить слои `BatchNorm1d` и `Dropout` - поэкспериментируйте с их "расположением" в сети, напишите свои выводы о целесообразности их добавления в модель, оптимальном расположении, влиянии на качество/сходимость обучения. При использовании слоя `Dropout` - определите экспериментально или обоснуйте теоретически оптимальное значение параметра `p`.
20 | - Обучите улучшенную модель и проверьте ее качество (при необходимости измените гиперпараметры обучения - `batch_size`, скорость обучения и количество эпох, ориентируясь на динамику функции потерь на train/val и архитектуру модели)
21 |
22 | **Общее**
23 |
24 | - Принимаемые решения обоснованы (почему выбрана определенная архитектура/гиперпараметр/оптимизатор/преобразование и т.п.) - **1 балл**
25 | - Обеспечена воспроизводимость решения: зафиксированы random_state, ноутбук воспроизводится от начала до конца без ошибок - **1 балл**
26 |
27 | **Формат сдачи ДЗ**
28 |
29 | - Создать отдельный репозиторий (если еще не создавали)
30 | - Выдать доступ в репозиторий своему ментору и pacifikus (распределение по менторам и их ники на гитхабе есть в [таблице](https://docs.google.com/spreadsheets/d/1qneC-kHlNzgkCzRoGA9dgUbDthyQd-FA3GhvLCMQY_M/edit?usp=sharing)
31 | - Каждая домашняя работа – PR в отдельную ветку **hw_n**, где **n** - номер домашней работы
32 | - Добавить ментора и pacifikus в reviewers
33 | - Дождаться ревью, если все ок – мержим в main
34 | - Если не ок – вносим исправления и снова отправляем на ревью
35 |
--------------------------------------------------------------------------------
/HW/hw_2/itmo_dl_course_hw_2.md:
--------------------------------------------------------------------------------
1 | ### Домашнее задание 2 - 10 баллов + 2 бонусных
2 |
3 | В этом задании вам предстоит воспроизвести и обучить одну из самых знаменитых архитектур среди CV-моделей - AlexNet.
4 |
5 | 
6 |
7 |
8 | Данная модель была представлена в статье [ImageNet Classification with Deep Convolutional
9 | Neural Networks](https://proceedings.neurips.cc/paper_files/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf).
10 |
11 | Подробное описание архитектуры приведено в секции статьи `3.5 Overall Architecture`.
12 |
13 | 1. Загрузите и подготовьте данные к обучению - **2 балла**
14 | - В отличие от оригинальной статьи, в данном задании модель будет применятся для классификации изображений из датасета [CIFAR100](https://pytorch.org/vision/main/generated/torchvision.datasets.CIFAR100.html#torchvision.datasets.CIFAR100) - загрузите его из torchvision, разделите датасет на обучающую, валидационную и тестовую выборки.
15 | 2. Реализуйте класс модели AlexNet для решения задачи и обучите ее, продемонстрировав уменьшение функции потерь на train/validation данных, а также измерьте релевантную, на ваш взгляд метрику классификации на test-части данных - **7 баллов**
16 |
17 |
18 | **Общее**
19 |
20 | Обеспечена воспроизводимость решения: зафиксированы random_state, ноутбук воспроизводится от начала до конца без ошибок - **1 балл**
21 |
22 |
23 | **Дополнительные баллы**
24 |
25 | Все, описанное выше, реализовано на pytorch lightning - **2 балла**
26 |
27 |
--------------------------------------------------------------------------------
/HW/itmo_dl_course_extra_task_1.md:
--------------------------------------------------------------------------------
1 | ### Дополнительное задание 1 - 5 баллов
2 |
3 | 1. Загрузите датасет оценки качества воздуха в различных регионах - [air_quality.csv](https://disk.yandex.ru/d/29AVoENYZR4NyA)
4 | 2. Подготовьте данные к обучению - **1 балл**
5 | - Разделите датасет на обучающую, валидационную и тестовую выборки со стратификацией. В качестве целевой переменной используйте столбец `air_quality` - бинарный столбец (0 - плохое качество воздуха, 1 - хорошее качество воздуха).
6 | - Создайте объекты для работы с данными в PyTorch - `Dataset` и `DataLoader` для обучающей, валидационной и тестовой выборок. Выберите оптимальный, на ваш взгляд, `batch_size`.
7 | 3. Реализуйте класс нейросетевой модели для решения задачи - **1 балл**
8 | - Минимальное количество `Linear` слоев в структуре - 3 штуки: входной слой, скрытый слой, выходной классификационный слой.
9 | - Подберите оптимальные для задачи функции активации - `ReLU`, `Sigmoid`, `Tanh`, `LeakyReLU`...
10 | - Реализуйте логику прохождения данных по сети в методе `forward`
11 | - Cоздайте объект модели, реализуйте перевод модели на gpu
12 | 4. Напишите код цикла обучения - train-loop и валидации - eval-loop. В процессе обучения сохраняйте значения функции потерь на тренировочной и валидационной выборках - **1 балл**
13 | 5. Обучите модель и проверьте ее качество - **1 балл**
14 | - Выберите оптимизатор, в качестве функции потерь используйте `nn.BCELoss`
15 | - Запустите обучение, постарайтесь подобрать оптимальные скорость обучения и количество эпох, ориентируясь на динамику функции потерь на train/val
16 | - Измерьте качество лучшей модели на тестовой выборке, постройте отчет о классификации - `classification_report`
17 |
18 | Обеспечена воспроизводимость решения: зафиксированы random_state, ноутбук воспроизводится от начала до конца без ошибок - **1 балл**
19 |
--------------------------------------------------------------------------------
/HW/itmo_dl_course_extra_task_2.md:
--------------------------------------------------------------------------------
1 | ### Дополнительное задание 2 - 5 баллов
2 |
3 | Реализуйте модель для классификации изображений датасета [FashionMNIST](https://pytorch.org/vision/0.20/generated/torchvision.datasets.FashionMNIST.html#torchvision.datasets.FashionMNIST) на PyTorch Lightning
4 | 1. **1 балл** Создайте класс `FashionMNISTDataModule`, реализуйте в нем:
5 | - загрузку данных,
6 | - предобработку (перевод в тензоры, нормализация, etc
7 | - разбиение на train/val/test части
8 | - создание dataloader'ов- **1 балл**
9 | 2. **2 балла** Создайте класс модели `FashionMNIST` (наследник `LightningModule`), реализуйте в нем:
10 | - training_step, validation_step, test_step
11 | - расчет метрик на валидации и тестировании из TorchMetrics: F1, ROC AUC
12 | - логирование метрик и функций потерь на каждой эпохе валидации/теста
13 | - подберите подходящие, на ваш взгляд, optimizer и lr-scheduler, а также их гиперпараметры
14 | 3. **1 балл** Обучите модель с помощью trainer'а:
15 | - добавьте `EarlyStopping`
16 | - реализуйте визуализацию логов через tensorboard
17 | - проверьте качество на тестовой части данных
18 |
19 |
20 | Обеспечена воспроизводимость решения: зафиксированы random_state, ноутбук воспроизводится от начала до конца без ошибок - **1 балл**
21 |
--------------------------------------------------------------------------------
/HW/itmo_dl_course_extra_task_3.md:
--------------------------------------------------------------------------------
1 | ### Дополнительное задание 3 - 5 баллов
2 |
3 | В этом задании вам предстоит обучить две модели для предсказания рейтинга отзывов об отелях.
4 |
5 | 1. Загрузите датасет отзывов - [Trip Advisor Hotel Reviews](https://www.kaggle.com/datasets/andrewmvd/trip-advisor-hotel-reviews)
6 | 2. Подготовьте данные к обучению - **1 балл**
7 | - Разделите датасет на обучающую, валидационную и тестовую выборки со стратификацией в пропорции 60/20/20.
8 | - Создайте `Dataset` и `DataLoader` для обучающей, валидационной и тестовой выборок. Выберите оптимальный, на ваш взгляд, `batch_size`.
9 | 3. Реализуйте и обучите сверточную сеть (сеть с использованием слоев Conv1d) для решения задачи - **1 балл**
10 | 4. Реализуйте и обучите рекуррентную сеть (сеть с использованием LSTM-слоя) для решения задачи - **1 балл**
11 | 5. Сравните между собой метрики и динамику обучения обеих моделей - **1 балл**
12 |
13 | **Общее**
14 |
15 | Обеспечена воспроизводимость решения: зафиксированы random_state, ноутбук воспроизводится от начала до конца без ошибок - **1 балл**
16 |
--------------------------------------------------------------------------------
/HW/itmo_dl_course_extra_task_4.md:
--------------------------------------------------------------------------------
1 | ### Дополнительное задание 4 - 5 баллов
2 |
3 | В этом задании вам предстоит обучить трансформерную модель для классификации текстов.
4 |
5 | 1. Выберите набор данных для классификации текстов из HuggingFace Datasets - **0.5 балла**
6 | 2. Выберите модель архитектуры, подходящей для задачи классификации, в HuggingFace Hub (убедитесь, что она поддерживает язык вашего датасета) - **0.5 балла**
7 | 3. Измерьте качество классификации моделью as-is перед дообучением, с учетом метрик, специфичных для задачи классификации - **0.5 балла**
8 | 4. Дообучите выбранную модель - **2 балла**
9 | 5. Сравните качество до и после дообучения - **0.5 балла**
10 |
11 | **Общее**
12 |
13 | Обеспечена воспроизводимость решения: зафиксированы random_state, ноутбук воспроизводится от начала до конца без ошибок - **1 балл**
14 |
--------------------------------------------------------------------------------
/Lecture 1/Занятие 1.pptx:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/pacifikus/itmo_dl_course/2d943148b39a576288ef48dadd8becdd9e6819ba/Lecture 1/Занятие 1.pptx
--------------------------------------------------------------------------------
/Lecture 2/itmo_dl_course_nn_base_backprop.ipynb:
--------------------------------------------------------------------------------
1 | {
2 | "nbformat": 4,
3 | "nbformat_minor": 0,
4 | "metadata": {
5 | "colab": {
6 | "provenance": [],
7 | "toc_visible": true
8 | },
9 | "kernelspec": {
10 | "name": "python3",
11 | "display_name": "Python 3"
12 | },
13 | "language_info": {
14 | "name": "python"
15 | }
16 | },
17 | "cells": [
18 | {
19 | "cell_type": "markdown",
20 | "metadata": {
21 | "id": "hlHeqIYvV1xj"
22 | },
23 | "source": [
24 | "### Обучение нейронной сети"
25 | ]
26 | },
27 | {
28 | "cell_type": "markdown",
29 | "metadata": {
30 | "id": "mDPK9XdUV1xj"
31 | },
32 | "source": [
33 | "На практике обучение нейронных сетей (подбор значений весов) производится при помощи **метода градиентного спуска**.\n",
34 | "\n",
35 | "Обучение заключается в **минимизации функции потерь по обучаемым параметрам нейронной сети** — весам и смещениям.\n",
36 | "\n",
37 | "Для минимизации функции потерь методом градиентного спуска **необходимо уметь вычислять градиент функции потерь по всем обучаемым параметрам модели**."
38 | ]
39 | },
40 | {
41 | "cell_type": "markdown",
42 | "metadata": {
43 | "id": "Xwql9YztV1xj"
44 | },
45 | "source": [
46 | "#### Прямое и обратное распространение"
47 | ]
48 | },
49 | {
50 | "cell_type": "markdown",
51 | "metadata": {
52 | "id": "fpqIKuuKV1xj"
53 | },
54 | "source": [
55 | "Процесс расчета градиента функции потерь по обучаемым параметрам состоит из двух этапов: **прямого и обратного распространения**."
56 | ]
57 | },
58 | {
59 | "cell_type": "markdown",
60 | "metadata": {
61 | "id": "UMPriZaLV1xk"
62 | },
63 | "source": [
64 | "
"
65 | ]
66 | },
67 | {
68 | "cell_type": "markdown",
69 | "metadata": {
70 | "id": "GthGfQhXV1xk"
71 | },
72 | "source": [
73 | "Во время **прямого распространения** (forward pass) производится расчет значений на выходе модели $y_{pred}$, которые передаются в функцию потерь $\\text{Loss}$ для сравнения с целевыми значениями $y_{true}$.\n",
74 | "\n",
75 | "$$\\large y_{pred}=\\text{model}\\left(x, 𝐖\\right)$$\n",
76 | "\n",
77 | "$$\\large L=\\text{Loss}\\left(y_{true}, y_{pred}\\right)$$"
78 | ]
79 | },
80 | {
81 | "cell_type": "markdown",
82 | "metadata": {
83 | "id": "KNpjlopVV1xk"
84 | },
85 | "source": [
86 | "Значение функции потерь зависит от целевых значений $y_{true}$, входных данных $x$ и параметров модели $𝐖$.\n",
87 | "\n",
88 | "$$\\large L=\\text{Loss}\\left(y_{true}, \\text{model}\\left(x, 𝐖\\right)\\right) = f\\left(y_{true}, x, 𝐖\\right)$$"
89 | ]
90 | },
91 | {
92 | "cell_type": "markdown",
93 | "metadata": {
94 | "id": "LJa-CmZrV1xk"
95 | },
96 | "source": [
97 | "А значит, если модель и функция потерь дифференцируемы, мы можем посчитать $\\nabla_𝐖L$ — градиент функции потерь по обучаемым параметрам. Для этого нужен этап **обратного распространения** (backward pass)."
98 | ]
99 | },
100 | {
101 | "cell_type": "markdown",
102 | "metadata": {
103 | "id": "C4BUDZ3-V1xl"
104 | },
105 | "source": [
106 | " "
107 | ]
108 | },
109 | {
110 | "cell_type": "markdown",
111 | "metadata": {
112 | "id": "S5oa_irAV1xl"
113 | },
114 | "source": [
115 | "#### Метод обратного распространения ошибки"
116 | ]
117 | },
118 | {
119 | "cell_type": "markdown",
120 | "source": [
121 | "[Learning Internal Representations by Error Propagation](https://stanford.edu/~jlmcc/papers/PDP/Volume%201/Chap8_PDP86.pdf)"
122 | ],
123 | "metadata": {
124 | "id": "0W6hJCLenEGs"
125 | }
126 | },
127 | {
128 | "cell_type": "markdown",
129 | "metadata": {
130 | "id": "3RBKnpKCV1xl"
131 | },
132 | "source": [
133 | "Для эффективного численного расчета градиента функции потерь по обучаемым параметрам модели применяется **метод обратного распространения ошибки (backpropagation)**. Благодаря данному методу становится практически возможным использование метода градиентного спуска для проведения процедуры обучения."
134 | ]
135 | },
136 | {
137 | "cell_type": "markdown",
138 | "metadata": {
139 | "id": "cicyQDR-V1xm"
140 | },
141 | "source": [
142 | "Метод обратного распространения ошибки использует структуру многослойной нейронной сети как сложной функции, применяя **правило дифференцирования сложной функции** для вычисления градиента от функции потерь по весам сети. Градиент от функции потерь вычисляется при движении по нейронной сети от её выходов в направлении входов. Именно такой порядок обхода вычислительного графа и обуславливает название метода."
143 | ]
144 | },
145 | {
146 | "cell_type": "markdown",
147 | "metadata": {
148 | "id": "EFuMXMeVV1xm"
149 | },
150 | "source": [
151 | "#### Вычислительный граф"
152 | ]
153 | },
154 | {
155 | "cell_type": "markdown",
156 | "metadata": {
157 | "id": "XO57ukyWV1xm"
158 | },
159 | "source": [
160 | "По существу, нейронная сеть является сложной функцией, работу которой можно представить как последовательное выполнение математических операций. Такое представление функций называется **вычислительным графом**."
161 | ]
162 | },
163 | {
164 | "cell_type": "markdown",
165 | "metadata": {
166 | "id": "m7mNdT2JV1xn"
167 | },
168 | "source": [
169 | " "
170 | ]
171 | },
172 | {
173 | "cell_type": "markdown",
174 | "metadata": {
175 | "id": "86Q-6mpnV1xn"
176 | },
177 | "source": [
178 | "Алгоритм обратного распространения ошибки позволяет находить градиенты для любого графа вычислений, если описываемая им функция дифференцируема.\n",
179 | "\n",
180 | "В его основе лежит правило взятия производной сложной функции (chain rule)."
181 | ]
182 | },
183 | {
184 | "cell_type": "markdown",
185 | "metadata": {
186 | "id": "N1Iu7dVTV1xq"
187 | },
188 | "source": [
189 | "#### Пошаговый разбор метода обратного распространения"
190 | ]
191 | },
192 | {
193 | "cell_type": "markdown",
194 | "metadata": {
195 | "id": "bVFH1gNmV1xq"
196 | },
197 | "source": [
198 | "Пусть в каком-то узле графа производится вычисление\n",
199 | "\n",
200 | "$$\\large z = f(x, y),$$\n",
201 | "\n",
202 | "и далее результат вычисления $\\large z$ используется для вычисления функции $\\large L(z)=L(f(x, y))$.\n",
203 | "\n",
204 | "Тогда правило вычисления производных $\\dfrac{\\partial L}{\\partial x}$ и $\\dfrac{\\partial L}{\\partial y}$ можно представить следующим образом:"
205 | ]
206 | },
207 | {
208 | "cell_type": "markdown",
209 | "metadata": {
210 | "id": "hUzYkiG2V1xq"
211 | },
212 | "source": [
213 | " "
214 | ]
215 | },
216 | {
217 | "cell_type": "markdown",
218 | "metadata": {
219 | "id": "uei3RxpDV1xr"
220 | },
221 | "source": [
222 | "Рассмотрим следующую функцию:\n",
223 | "\n",
224 | "$$\\Large f(w,x)=\\frac{1}{1+e^{-(w_0x_0+w_1x_1+w_2)}}$$\n",
225 | "\n",
226 | "Представим ее в виде вычислительного графа, состоящего из элементарных операций, от которых просто берутся производные:"
227 | ]
228 | },
229 | {
230 | "cell_type": "markdown",
231 | "metadata": {
232 | "id": "yT4ij4EWV1xs"
233 | },
234 | "source": [
235 | " "
236 | ]
237 | },
238 | {
239 | "cell_type": "markdown",
240 | "metadata": {
241 | "id": "-ecWG8s8V1xs"
242 | },
243 | "source": [
244 | "На примере данной функции рассмотрим алгоритм обратного распространения ошибки и найдём величину её градиента по параметрам $\\large w$.\n",
245 | "Нам потребуется вычислить частные производные $\\dfrac{\\partial f}{\\partial w_0}, \\dfrac{\\partial f}{\\partial w_1}, \\dfrac{\\partial f}{dw_2}, \\dfrac{\\partial f}{\\partial x_0}$ и $\\dfrac{\\partial f}{\\partial x_1}$.\n",
246 | "\n",
247 | "Пусть \"веса\" $w$ инициализированы значениями $w_0=2,\\;w_1=-3,\\;w_2=-3$, а \"входные признаки\" $x$ принимают значения $x_0=-1,\\;x_1=-2$.\n",
248 | "\n",
249 | "Делая прямой проход через граф вычислений для данной функции, получаем её значение для заданных $w$ и $x$ равным $f=0.73$:"
250 | ]
251 | },
252 | {
253 | "cell_type": "markdown",
254 | "metadata": {
255 | "id": "ZoGOHSmIV1xt"
256 | },
257 | "source": [
258 | " "
259 | ]
260 | },
261 | {
262 | "cell_type": "markdown",
263 | "metadata": {
264 | "id": "c55zvjEQV1xv"
265 | },
266 | "source": [
267 | "Далее, в соответствии с алгоритмом обратного распространения ошибки, рассчитаем частные производные, пройдясь последовательно по графу вычислений, постепенно накапливая искомое значение для градиента функции.\n",
268 | "\n",
269 | "Для начала зададим $\\dfrac{df}{df}=1$.\n",
270 | "\n",
271 | "Начинаем обратный проход по графу вычислений. Первая вершина содержит функцию $f(x)=\\dfrac{1}{x}$, производная которой равна $\\dfrac{df}{dx}=-\\dfrac{1}{x^2}$"
272 | ]
273 | },
274 | {
275 | "cell_type": "markdown",
276 | "metadata": {
277 | "id": "Keqd3OIYV1xw"
278 | },
279 | "source": [
280 | " \n",
281 | "\n",
282 | "$$\\large f(x)=\\frac1x \\quad \\longrightarrow \\quad \\frac{df}{dx} = -\\frac{1}{x^2}$$"
283 | ]
284 | },
285 | {
286 | "cell_type": "markdown",
287 | "metadata": {
288 | "id": "IZBqSFS0V1xx"
289 | },
290 | "source": [
291 | "В следующем узле находится функция $f(x)=1+x$. Производная от выражения в данном узле равняется $\\dfrac{df}{dx}=1$:"
292 | ]
293 | },
294 | {
295 | "cell_type": "markdown",
296 | "metadata": {
297 | "id": "SO5Q6KXRV1xy"
298 | },
299 | "source": [
300 | " \n",
301 | "\n",
302 | "$$\\large f(x)=c+x \\quad \\longrightarrow \\quad \\frac{df}{dx} = 1$$"
303 | ]
304 | },
305 | {
306 | "cell_type": "markdown",
307 | "metadata": {
308 | "id": "ahPPNDQbV1xz"
309 | },
310 | "source": [
311 | "Третья вершина содержит экспоненту $f(x)=e^x$. Её производная также является экспонентой $\\dfrac{df}{dx}=e^x$:"
312 | ]
313 | },
314 | {
315 | "cell_type": "markdown",
316 | "metadata": {
317 | "id": "yhxEF0dyV1x0"
318 | },
319 | "source": [
320 | " \n",
321 | "\n",
322 | "$$\\large f(x)=e^x \\quad \\longrightarrow \\quad \\frac{df}{dx} = e^x$$"
323 | ]
324 | },
325 | {
326 | "cell_type": "markdown",
327 | "metadata": {
328 | "id": "60CPzx3UV1x2"
329 | },
330 | "source": [
331 | "Следующая вершина, четвертая, содержит умножение на константу $f(x)=ax$. Производная равна $\\dfrac{df}{dx}=a$ (в данном случае $a=-1$):"
332 | ]
333 | },
334 | {
335 | "cell_type": "markdown",
336 | "metadata": {
337 | "id": "xx9Ec7-lV1x2"
338 | },
339 | "source": [
340 | " \n",
341 | "\n",
342 | "$$\\large f(x)=ax \\quad \\longrightarrow \\quad \\frac{df}{dx} = a$$"
343 | ]
344 | },
345 | {
346 | "cell_type": "markdown",
347 | "metadata": {
348 | "id": "8ZlariWFV1x3"
349 | },
350 | "source": [
351 | "Двигаясь по графу вычислений, мы дошли до узла суммирования, который имеет два входа. Относительно каждого из входов локальный градиент в вершине суммирования будет равен $1$:\n",
352 | "$$\\large f(x,y)=x+y \\quad \\Rightarrow \\quad \\frac{\\partial f}{\\partial x}=1 \\quad \\quad \\frac{\\partial f}{\\partial y}=1$$\n",
353 | "Так как умножение на единицу не изменит значения входного градиента, всем входам узла суммирования мы можем приписать точно такое же значение входного градиента ($0.2$), что мы имели и для самого узла суммирования. Будем действовать аналогично и со всеми остальными узлами суммирования, которые встретятся нам в вычислительном графе."
354 | ]
355 | },
356 | {
357 | "cell_type": "markdown",
358 | "metadata": {
359 | "id": "D3yCVlcTV1x3"
360 | },
361 | "source": [
362 | " "
363 | ]
364 | },
365 | {
366 | "cell_type": "markdown",
367 | "metadata": {
368 | "id": "bPWB4baZV1x3"
369 | },
370 | "source": [
371 | "Двигаясь далее к началу графа вычислений, мы подходим к вершинам умножения. Для такой вершины локальный градиент по отношению к какому-либо из входов будет равен значению оставшегося входа. Остается умножить локальный градиент на входящий.\n",
372 | "\n",
373 | "$$\\large f(w,x)=wx \\quad \\Rightarrow \\quad \\frac{\\partial f}{\\partial w}=x \\quad \\quad \\frac{\\partial f}{\\partial x}=w$$\n",
374 | "\n",
375 | "Точно так же мы можем поступить и с оставшейся второй вершиной умножения, которая привязана к $w_1$ и $x_1$:"
376 | ]
377 | },
378 | {
379 | "cell_type": "markdown",
380 | "metadata": {
381 | "id": "bpB4pfBsV1x4"
382 | },
383 | "source": [
384 | " "
385 | ]
386 | },
387 | {
388 | "cell_type": "markdown",
389 | "metadata": {
390 | "id": "vb9pNHczV1x5"
391 | },
392 | "source": [
393 | "Так, двигаясь по графу вычислений в обратном направлении от выхода функции к входным аргументам, мы последовательно для каждого узла умножаем локальный градиент на входящий градиент, используя цепное правило дифференцирования сложной функции. В описанном примере мы полностью разбили граф вычислений на отдельные элементарные узлы. Разбиение вычислительного графа на элементарные узлы вовсе не обязательно — мы можем сгруппировать несколько вершин вместе, если они образуют дифференцируемую функцию, от которой \"удобно\" брать производную, и рассматривать их совместно."
394 | ]
395 | },
396 | {
397 | "cell_type": "markdown",
398 | "metadata": {
399 | "id": "BD6embMcV1x6"
400 | },
401 | "source": [
402 | "В нашем примере мы можем заметить, что вычислительный граф можно свести к двум операциям: получению выражения $w_0x_0+w_1x_1+w_2$ и последующему вычислению от него сигмоидальной функции.\n",
403 | "\n",
404 | "Функция сигмоиды:\n",
405 | "\n",
406 | "$$\\large \\displaystyle \\sigma(x) = \\frac{1}{1+e^{-x}}.$$"
407 | ]
408 | },
409 | {
410 | "cell_type": "markdown",
411 | "metadata": {
412 | "id": "qeRQj6F1V1x6"
413 | },
414 | "source": [
415 | "Важно отметить, что сигмоида обладает важным свойством: её производная может быть выражена через саму сигмоидальную функцию:\n",
416 | "\n",
417 | "$$\\large \\frac{d}{dx}\\sigma(x) = \\frac{d}{dx}(1+e^{-x})^{-1} = \\frac{e^{-x}}{(1+e^{-x})^{2}} = \\frac{1}{1+e^{-x}} \\cdot \\frac{1+e^{-x}-1}{1+e^{-x}} = \\sigma(x)\\cdot(1-\\sigma(x))$$"
418 | ]
419 | },
420 | {
421 | "cell_type": "markdown",
422 | "metadata": {
423 | "id": "i4sesWufV1x7"
424 | },
425 | "source": [
426 | " "
427 | ]
428 | },
429 | {
430 | "cell_type": "code",
431 | "source": [],
432 | "metadata": {
433 | "id": "r-mf0yXMK4ag"
434 | },
435 | "execution_count": null,
436 | "outputs": []
437 | }
438 | ]
439 | }
--------------------------------------------------------------------------------
/Lecture 3/itmo_dl_course_nn_base_autograd.ipynb:
--------------------------------------------------------------------------------
1 | {
2 | "nbformat": 4,
3 | "nbformat_minor": 0,
4 | "metadata": {
5 | "colab": {
6 | "provenance": [],
7 | "toc_visible": true
8 | },
9 | "kernelspec": {
10 | "name": "python3",
11 | "display_name": "Python 3"
12 | },
13 | "language_info": {
14 | "name": "python"
15 | }
16 | },
17 | "cells": [
18 | {
19 | "cell_type": "markdown",
20 | "metadata": {
21 | "id": "9NSTCyMhHbSq"
22 | },
23 | "source": [
24 | "### PyTorch Autograd - automatic differentiation engine\n",
25 | "\n",
26 | "[PyTorch 101, Part 1: Understanding Graphs, Automatic Differentiation and Autograd](https://blog.paperspace.com/pytorch-101-understanding-graphs-and-automatic-differentiation/)\n",
27 | "\n",
28 | "В центре большинства современных приемов машинного обучения лежит расчет градиентов. Это в особенности касается нейронных сетей, где для обновления весовых коэффициентов используется алгоритм обратного распространения\n",
29 | "\n",
30 | "Autograd предоставляет классы и функции, реализующие автоматическое дифференцирование произвольных скалярных функций. Это требует минимальных изменений в существующем коде - нужно только объявить Tensor, для которого должны вычисляться градиенты, с атрибутом `requires_grad=True`"
31 | ]
32 | },
33 | {
34 | "cell_type": "code",
35 | "source": [
36 | "import torch"
37 | ],
38 | "metadata": {
39 | "id": "q1TDxt6qamOm"
40 | },
41 | "execution_count": 1,
42 | "outputs": []
43 | },
44 | {
45 | "cell_type": "code",
46 | "execution_count": 2,
47 | "metadata": {
48 | "colab": {
49 | "base_uri": "https://localhost:8080/"
50 | },
51 | "id": "JcdJCnP5HbSr",
52 | "outputId": "49c2401a-98ab-4a60-d534-1105a6aed240"
53 | },
54 | "outputs": [
55 | {
56 | "output_type": "stream",
57 | "name": "stdout",
58 | "text": [
59 | "tensor([[1., 1.],\n",
60 | " [1., 1.]], requires_grad=True)\n"
61 | ]
62 | }
63 | ],
64 | "source": [
65 | "x = torch.ones(2, 2, requires_grad=True)\n",
66 | "print(x)"
67 | ]
68 | },
69 | {
70 | "cell_type": "code",
71 | "source": [
72 | "x.grad == None"
73 | ],
74 | "metadata": {
75 | "colab": {
76 | "base_uri": "https://localhost:8080/"
77 | },
78 | "id": "JbgJ9x8CcFJ6",
79 | "outputId": "3c751d58-c5fc-4553-c892-2c74a131a8f7"
80 | },
81 | "execution_count": 3,
82 | "outputs": [
83 | {
84 | "output_type": "execute_result",
85 | "data": {
86 | "text/plain": [
87 | "True"
88 | ]
89 | },
90 | "metadata": {},
91 | "execution_count": 3
92 | }
93 | ]
94 | },
95 | {
96 | "cell_type": "code",
97 | "source": [
98 | "x.grad_fn == None"
99 | ],
100 | "metadata": {
101 | "colab": {
102 | "base_uri": "https://localhost:8080/"
103 | },
104 | "id": "b_i-OcPLb-Rv",
105 | "outputId": "8c5957ce-8deb-47fe-eb97-9325816a422c"
106 | },
107 | "execution_count": 4,
108 | "outputs": [
109 | {
110 | "output_type": "execute_result",
111 | "data": {
112 | "text/plain": [
113 | "True"
114 | ]
115 | },
116 | "metadata": {},
117 | "execution_count": 4
118 | }
119 | ]
120 | },
121 | {
122 | "cell_type": "markdown",
123 | "metadata": {
124 | "id": "U0VM8aIlHbSr"
125 | },
126 | "source": [
127 | "После применения какой-либо операции к тензору атрибуту `grad_fn` присваивается объект `Function`, который добавляется в граф вычислений для обратного распространения градиента.\n",
128 | "\n"
129 | ]
130 | },
131 | {
132 | "cell_type": "code",
133 | "execution_count": 5,
134 | "metadata": {
135 | "colab": {
136 | "base_uri": "https://localhost:8080/"
137 | },
138 | "id": "ZIcFl4AWHbSs",
139 | "outputId": "08016a23-8ade-478b-a0b9-9531c5eb5c9c"
140 | },
141 | "outputs": [
142 | {
143 | "output_type": "stream",
144 | "name": "stdout",
145 | "text": [
146 | "tensor([[3., 3.],\n",
147 | " [3., 3.]], grad_fn=)\n"
148 | ]
149 | }
150 | ],
151 | "source": [
152 | "y = x + 2\n",
153 | "print(y)"
154 | ]
155 | },
156 | {
157 | "cell_type": "code",
158 | "execution_count": 6,
159 | "metadata": {
160 | "colab": {
161 | "base_uri": "https://localhost:8080/"
162 | },
163 | "id": "of4Eh18aHbSs",
164 | "outputId": "86c88fc3-5e36-4ac0-fe4a-e6e9422a4c70"
165 | },
166 | "outputs": [
167 | {
168 | "output_type": "stream",
169 | "name": "stdout",
170 | "text": [
171 | "tensor([[27., 27.],\n",
172 | " [27., 27.]], grad_fn=) tensor(27., grad_fn=)\n"
173 | ]
174 | }
175 | ],
176 | "source": [
177 | "z = y * y * 3\n",
178 | "out = z.mean()\n",
179 | "\n",
180 | "print(z, out)"
181 | ]
182 | },
183 | {
184 | "cell_type": "markdown",
185 | "metadata": {
186 | "id": "39gLEvmAHbSt"
187 | },
188 | "source": [
189 | "`.grad_fn` может менять \"на лету\""
190 | ]
191 | },
192 | {
193 | "cell_type": "code",
194 | "execution_count": 7,
195 | "metadata": {
196 | "colab": {
197 | "base_uri": "https://localhost:8080/"
198 | },
199 | "id": "va5zd2xMHbSt",
200 | "outputId": "6d40b575-71e2-444a-c356-18abddaa383d"
201 | },
202 | "outputs": [
203 | {
204 | "output_type": "stream",
205 | "name": "stdout",
206 | "text": [
207 | "False\n",
208 | "True\n",
209 | "\n"
210 | ]
211 | }
212 | ],
213 | "source": [
214 | "a = torch.randn(2, 2)\n",
215 | "a = ((a * 3) / (a - 1))\n",
216 | "print(a.requires_grad)\n",
217 | "a.requires_grad_(True)\n",
218 | "print(a.requires_grad)\n",
219 | "b = (a * a).sum()\n",
220 | "print(b.grad_fn)"
221 | ]
222 | },
223 | {
224 | "cell_type": "markdown",
225 | "metadata": {
226 | "id": "lZcXFmziHbSt"
227 | },
228 | "source": [
229 | "Метод `backward` корневого узла графа вычислений запускает процедуру вычисления градиентов в листовых (is_leaf) узлах, имеющих атрибут requires_grad. Граф дифференцируется по цепочке (chain rule)"
230 | ]
231 | },
232 | {
233 | "cell_type": "code",
234 | "execution_count": 8,
235 | "metadata": {
236 | "id": "yyNpdWrzHbSu"
237 | },
238 | "outputs": [],
239 | "source": [
240 | "out.backward()"
241 | ]
242 | },
243 | {
244 | "cell_type": "code",
245 | "execution_count": 9,
246 | "metadata": {
247 | "colab": {
248 | "base_uri": "https://localhost:8080/"
249 | },
250 | "id": "bSpM1ECkHbSu",
251 | "outputId": "67a757d9-b23e-4b93-e1f1-a28fe03cfdd6"
252 | },
253 | "outputs": [
254 | {
255 | "output_type": "stream",
256 | "name": "stdout",
257 | "text": [
258 | "tensor([[4.5000, 4.5000],\n",
259 | " [4.5000, 4.5000]])\n"
260 | ]
261 | }
262 | ],
263 | "source": [
264 | "print(x.grad)"
265 | ]
266 | },
267 | {
268 | "cell_type": "markdown",
269 | "source": [
270 | "По умолчанию промежуточные (не листовые) узлы графа не хранят прошедшие через них градиентов."
271 | ],
272 | "metadata": {
273 | "id": "LpYFZQuze1u-"
274 | }
275 | },
276 | {
277 | "cell_type": "code",
278 | "source": [
279 | "print(y.grad)"
280 | ],
281 | "metadata": {
282 | "colab": {
283 | "base_uri": "https://localhost:8080/"
284 | },
285 | "id": "AEcfJluqe1eQ",
286 | "outputId": "d9192cb7-aa09-43ed-a8d1-c97458858916"
287 | },
288 | "execution_count": 10,
289 | "outputs": [
290 | {
291 | "output_type": "stream",
292 | "name": "stdout",
293 | "text": [
294 | "None\n"
295 | ]
296 | },
297 | {
298 | "output_type": "stream",
299 | "name": "stderr",
300 | "text": [
301 | ":1: UserWarning: The .grad attribute of a Tensor that is not a leaf Tensor is being accessed. Its .grad attribute won't be populated during autograd.backward(). If you indeed want the .grad field to be populated for a non-leaf Tensor, use .retain_grad() on the non-leaf Tensor. If you access the non-leaf Tensor by mistake, make sure you access the leaf Tensor instead. See github.com/pytorch/pytorch/pull/30531 for more informations. (Triggered internally at aten/src/ATen/core/TensorBody.h:489.)\n",
302 | " print(y.grad)\n"
303 | ]
304 | }
305 | ]
306 | },
307 | {
308 | "cell_type": "markdown",
309 | "source": [
310 | "Эту ситуацию можно изменить, вызвав для для конкретного узла метод retain_grad"
311 | ],
312 | "metadata": {
313 | "id": "6KEkSd3oe7g_"
314 | }
315 | },
316 | {
317 | "cell_type": "code",
318 | "source": [
319 | "x = torch.ones(2, 2, requires_grad=True)\n",
320 | "y = x + 2\n",
321 | "y.retain_grad()\n",
322 | "z = y * y * 3\n",
323 | "out = z.mean()\n",
324 | "out.backward()"
325 | ],
326 | "metadata": {
327 | "id": "19q2HQX8e7JW"
328 | },
329 | "execution_count": 11,
330 | "outputs": []
331 | },
332 | {
333 | "cell_type": "code",
334 | "source": [
335 | "print(x.grad)"
336 | ],
337 | "metadata": {
338 | "colab": {
339 | "base_uri": "https://localhost:8080/"
340 | },
341 | "id": "LXSMmRATfHVO",
342 | "outputId": "51d5acb3-68a4-43f0-af81-b5ce3c745ea3"
343 | },
344 | "execution_count": 12,
345 | "outputs": [
346 | {
347 | "output_type": "stream",
348 | "name": "stdout",
349 | "text": [
350 | "tensor([[4.5000, 4.5000],\n",
351 | " [4.5000, 4.5000]])\n"
352 | ]
353 | }
354 | ]
355 | },
356 | {
357 | "cell_type": "code",
358 | "source": [
359 | "print(y.grad)"
360 | ],
361 | "metadata": {
362 | "colab": {
363 | "base_uri": "https://localhost:8080/"
364 | },
365 | "id": "S9KDgTYLfEib",
366 | "outputId": "07a9c87e-f288-4bcb-f71c-5c5029c7b755"
367 | },
368 | "execution_count": 13,
369 | "outputs": [
370 | {
371 | "output_type": "stream",
372 | "name": "stdout",
373 | "text": [
374 | "tensor([[4.5000, 4.5000],\n",
375 | " [4.5000, 4.5000]])\n"
376 | ]
377 | }
378 | ]
379 | },
380 | {
381 | "cell_type": "markdown",
382 | "metadata": {
383 | "id": "CD3WUBM3HbSw"
384 | },
385 | "source": [
386 | "Иногда с листовыми узлами необходимо проделать действия, не меняя при этом графа. Такие действия проводят, используя контекстный менедежр `no_grad`, которое блокирует создание новых узлов графа"
387 | ]
388 | },
389 | {
390 | "cell_type": "code",
391 | "execution_count": 14,
392 | "metadata": {
393 | "colab": {
394 | "base_uri": "https://localhost:8080/"
395 | },
396 | "id": "ueu6nMZQHbSw",
397 | "outputId": "a0f903ae-aa97-4d2c-d78d-582b9036b5dc"
398 | },
399 | "outputs": [
400 | {
401 | "output_type": "stream",
402 | "name": "stdout",
403 | "text": [
404 | "True\n",
405 | "True\n",
406 | "False\n"
407 | ]
408 | }
409 | ],
410 | "source": [
411 | "print(x.requires_grad)\n",
412 | "print((x ** 2).requires_grad)\n",
413 | "\n",
414 | "with torch.no_grad(): # потом можно включить вручную torch.enable_grad()\n",
415 | " print((x ** 2).requires_grad)\n"
416 | ]
417 | },
418 | {
419 | "cell_type": "markdown",
420 | "source": [
421 | "### Micrograd"
422 | ],
423 | "metadata": {
424 | "id": "-wyL8Sn9apWv"
425 | }
426 | },
427 | {
428 | "cell_type": "markdown",
429 | "source": [
430 | "[micrograd](https://github.com/karpathy/micrograd)"
431 | ],
432 | "metadata": {
433 | "id": "Mqba-3uHj2xE"
434 | }
435 | },
436 | {
437 | "cell_type": "code",
438 | "source": [
439 | "!git clone https://github.com/karpathy/micrograd.git"
440 | ],
441 | "metadata": {
442 | "id": "YdrSm6g6M4DE",
443 | "colab": {
444 | "base_uri": "https://localhost:8080/"
445 | },
446 | "outputId": "843768c8-fc3f-42b4-fe09-e19e3fd66899"
447 | },
448 | "execution_count": 15,
449 | "outputs": [
450 | {
451 | "output_type": "stream",
452 | "name": "stdout",
453 | "text": [
454 | "Cloning into 'micrograd'...\n",
455 | "remote: Enumerating objects: 98, done.\u001b[K\n",
456 | "remote: Counting objects: 100% (60/60), done.\u001b[K\n",
457 | "remote: Compressing objects: 100% (22/22), done.\u001b[K\n",
458 | "remote: Total 98 (delta 39), reused 38 (delta 38), pack-reused 38 (from 1)\u001b[K\n",
459 | "Receiving objects: 100% (98/98), 258.88 KiB | 1.18 MiB/s, done.\n",
460 | "Resolving deltas: 100% (44/44), done.\n"
461 | ]
462 | }
463 | ]
464 | },
465 | {
466 | "cell_type": "code",
467 | "source": [
468 | "%cd micrograd"
469 | ],
470 | "metadata": {
471 | "colab": {
472 | "base_uri": "https://localhost:8080/"
473 | },
474 | "id": "3QXCWWD3iuRu",
475 | "outputId": "af4f614d-e9b2-4558-84b9-2e9e7fe760d3"
476 | },
477 | "execution_count": 16,
478 | "outputs": [
479 | {
480 | "output_type": "stream",
481 | "name": "stdout",
482 | "text": [
483 | "/content/micrograd\n"
484 | ]
485 | }
486 | ]
487 | },
488 | {
489 | "cell_type": "code",
490 | "source": [
491 | "import random\n",
492 | "import numpy as np\n",
493 | "\n",
494 | "import matplotlib.pyplot as plt\n",
495 | "%matplotlib inline\n",
496 | "\n",
497 | "from graphviz import Digraph\n",
498 | "\n",
499 | "from micrograd.engine import Value\n",
500 | "from micrograd.nn import Neuron, Layer, MLP, Module\n",
501 | "\n",
502 | "from sklearn.datasets import make_moons, make_blobs"
503 | ],
504 | "metadata": {
505 | "id": "OAdhBb7V7G1T"
506 | },
507 | "execution_count": 18,
508 | "outputs": []
509 | },
510 | {
511 | "cell_type": "code",
512 | "source": [
513 | "np.random.seed(42)\n",
514 | "random.seed(42)"
515 | ],
516 | "metadata": {
517 | "id": "LoaIQx1y7G4g"
518 | },
519 | "execution_count": 19,
520 | "outputs": []
521 | },
522 | {
523 | "cell_type": "markdown",
524 | "source": [
525 | "#### Пример построения графа вычислений"
526 | ],
527 | "metadata": {
528 | "id": "0Mct2DfemyYb"
529 | }
530 | },
531 | {
532 | "cell_type": "code",
533 | "source": [
534 | "def trace(root):\n",
535 | " nodes, edges = set(), set()\n",
536 | " def build(v):\n",
537 | " if v not in nodes:\n",
538 | " nodes.add(v)\n",
539 | " for child in v._prev:\n",
540 | " edges.add((child, v))\n",
541 | " build(child)\n",
542 | " build(root)\n",
543 | " return nodes, edges\n",
544 | "\n",
545 | "def draw_dot(root, format='svg', rankdir='LR'):\n",
546 | " \"\"\"\n",
547 | " format: png | svg | ...\n",
548 | " rankdir: TB (top to bottom graph) | LR (left to right)\n",
549 | " \"\"\"\n",
550 | " assert rankdir in ['LR', 'TB']\n",
551 | " nodes, edges = trace(root)\n",
552 | " dot = Digraph(format=format, graph_attr={'rankdir': rankdir}) #, node_attr={'rankdir': 'TB'})\n",
553 | "\n",
554 | " for n in nodes:\n",
555 | " dot.node(name=str(id(n)), label = \"{ data %.4f | grad %.4f }\" % (n.data, n.grad), shape='record')\n",
556 | " if n._op:\n",
557 | " dot.node(name=str(id(n)) + n._op, label=n._op)\n",
558 | " dot.edge(str(id(n)) + n._op, str(id(n)))\n",
559 | "\n",
560 | " for n1, n2 in edges:\n",
561 | " dot.edge(str(id(n1)), str(id(n2)) + n2._op)\n",
562 | "\n",
563 | " return dot"
564 | ],
565 | "metadata": {
566 | "id": "9wJYCA--mdXl"
567 | },
568 | "execution_count": 20,
569 | "outputs": []
570 | },
571 | {
572 | "cell_type": "code",
573 | "source": [
574 | "Value??"
575 | ],
576 | "metadata": {
577 | "id": "EDeU_JVImqTv"
578 | },
579 | "execution_count": 21,
580 | "outputs": []
581 | },
582 | {
583 | "cell_type": "markdown",
584 | "source": [
585 | "Для отслеживания, как считаются градиенты в примере ниже, временно \"пропатчим\" функции `__add__`, `__mul__`, `relu` и `backward` из класса `Value` так, чтобы видеть, в логах как применяются операции"
586 | ],
587 | "metadata": {
588 | "id": "5eRoT_-QIXV1"
589 | }
590 | },
591 | {
592 | "cell_type": "code",
593 | "source": [
594 | "old_relu = Value.relu\n",
595 | "old_backward = Value.backward\n",
596 | "old_add = Value.__add__\n",
597 | "old_mul = Value.__mul__\n",
598 | "\n",
599 | "def new_relu(self):\n",
600 | " out = Value(0 if self.data < 0 else self.data, (self,), 'ReLU')\n",
601 | "\n",
602 | " def _backward():\n",
603 | " self.grad += (out.data > 0) * out.grad\n",
604 | " print(f\"\"\"\n",
605 | " Считаем производную relu:\n",
606 | " входной градиент = {out.grad}\n",
607 | " локальный градиент = {int(out.data > 0)}\n",
608 | " выходной градиент = {out.grad} * {int(out.data > 0)} = {self.grad}\n",
609 | " \"\"\"\n",
610 | " )\n",
611 | " out._backward = _backward\n",
612 | "\n",
613 | " return out\n",
614 | "\n",
615 | "def new_mul(self, other):\n",
616 | " other = other if isinstance(other, Value) else Value(other)\n",
617 | " out = Value(self.data * other.data, (self, other), '*')\n",
618 | "\n",
619 | " def _backward():\n",
620 | " self.grad += other.data * out.grad\n",
621 | " other.grad += self.data * out.grad\n",
622 | "\n",
623 | " print(f\"\"\"\n",
624 | " Считаем производную умножения.\n",
625 | " Для умножения локальный градиент по отношению к какому-либо из входов будет равен значению оставшегося входа:\n",
626 | " входной градиент = {out.grad}\n",
627 | " локальный градиент для первого множителя = {other.data}\n",
628 | " локальный градиент для второго множителя = {self.data}\n",
629 | " выходной градиент для первого множителя = {out.grad} * {other.data} = {self.grad}\n",
630 | " выходной градиент для второго множителя = {out.grad} * {self.data} = {other.grad}\n",
631 | " \"\"\"\n",
632 | " )\n",
633 | " out._backward = _backward\n",
634 | "\n",
635 | " return out\n",
636 | "\n",
637 | "\n",
638 | "def new_add(self, other):\n",
639 | " other = other if isinstance(other, Value) else Value(other)\n",
640 | " out = Value(self.data + other.data, (self, other), '+')\n",
641 | "\n",
642 | " def _backward():\n",
643 | " self.grad += out.grad\n",
644 | " other.grad += out.grad\n",
645 | "\n",
646 | " print(f\"\"\"\n",
647 | " Считаем производную сложения.\n",
648 | " Относительно каждого из входов локальный градиент в вершине суммирования будет равен 1.\n",
649 | " входной градиент = {out.grad}\n",
650 | " локальный градиент для первого слагаемого = 1\n",
651 | " локальный градиент для второго слагаемого = 1\n",
652 | " выходной градиент для первого слагаемого = 1 * {out.grad}\n",
653 | " выходной градиент для второго слагаемого = 1 * {out.grad}\n",
654 | " \"\"\"\n",
655 | " )\n",
656 | " out._backward = _backward\n",
657 | "\n",
658 | " return out\n",
659 | "\n",
660 | "def new_backward(self):\n",
661 | "\n",
662 | " # topological order all of the children in the graph\n",
663 | " topo = []\n",
664 | " visited = set()\n",
665 | " def build_topo(v):\n",
666 | " if v not in visited:\n",
667 | " visited.add(v)\n",
668 | " for child in v._prev:\n",
669 | " build_topo(child)\n",
670 | " topo.append(v)\n",
671 | " build_topo(self)\n",
672 | "\n",
673 | " # go one variable at a time and apply the chain rule to get its gradient\n",
674 | " self.grad = 1\n",
675 | " print(\"\"\"\n",
676 | " Начинаем обратное распространение.\n",
677 | "\n",
678 | " На каждом шаге метода обратного распространения будем считать выходной градиент как входной * локальный.\n",
679 | " Входной градиент - градиент с прошлого шага метода обратного распространения.\n",
680 | " Локальный градиент - значение производной элементарной функции на данном шаге.\n",
681 | " Входной градиент на первом шаге = 1 (так как df/df = 1).\n",
682 | " \"\"\"\n",
683 | " )\n",
684 | " for v in reversed(topo):\n",
685 | " v._backward()"
686 | ],
687 | "metadata": {
688 | "id": "Y26ugyrQIujv"
689 | },
690 | "execution_count": 22,
691 | "outputs": []
692 | },
693 | {
694 | "cell_type": "code",
695 | "source": [
696 | "Value.relu = new_relu\n",
697 | "Value.backward = new_backward\n",
698 | "Value.__add__ = new_add\n",
699 | "Value.__mul__ = new_mul"
700 | ],
701 | "metadata": {
702 | "id": "8FolW8ZEItGl"
703 | },
704 | "execution_count": 23,
705 | "outputs": []
706 | },
707 | {
708 | "cell_type": "code",
709 | "source": [
710 | "x = Value(1.0)\n",
711 | "y = (x * 2 + 1).relu()\n",
712 | "y.backward()\n",
713 | "draw_dot(y)"
714 | ],
715 | "metadata": {
716 | "colab": {
717 | "base_uri": "https://localhost:8080/",
718 | "height": 748
719 | },
720 | "id": "qxvDyeJnmdVU",
721 | "outputId": "80ea37fc-7308-4b16-cc0a-c54130a115dd"
722 | },
723 | "execution_count": 24,
724 | "outputs": [
725 | {
726 | "output_type": "stream",
727 | "name": "stdout",
728 | "text": [
729 | "\n",
730 | " Начинаем обратное распространение.\n",
731 | " \n",
732 | " На каждом шаге метода обратного распространения будем считать выходной градиент как входной * локальный.\n",
733 | " Входной градиент - градиент с прошлого шага метода обратного распространения.\n",
734 | " Локальный градиент - значение производной элементарной функции на данном шаге.\n",
735 | " Входной градиент на первом шаге = 1 (так как df/df = 1).\n",
736 | " \n",
737 | "\n",
738 | " Считаем производную relu: \n",
739 | " входной градиент = 1\n",
740 | " локальный градиент = 1\n",
741 | " выходной градиент = 1 * 1 = 1\n",
742 | " \n",
743 | "\n",
744 | " Считаем производную сложения.\n",
745 | " Относительно каждого из входов локальный градиент в вершине суммирования будет равен 1.\n",
746 | " входной градиент = 1\n",
747 | " локальный градиент для первого слагаемого = 1\n",
748 | " локальный градиент для второго слагаемого = 1\n",
749 | " выходной градиент для первого слагаемого = 1 * 1\n",
750 | " выходной градиент для второго слагаемого = 1 * 1\n",
751 | " \n",
752 | "\n",
753 | " Считаем производную умножения.\n",
754 | " Для умножения локальный градиент по отношению к какому-либо из входов будет равен значению оставшегося входа:\n",
755 | " входной градиент = 1\n",
756 | " локальный градиент для первого множителя = 2\n",
757 | " локальный градиент для второго множителя = 1.0\n",
758 | " выходной градиент для первого множителя = 1 * 2 = 2\n",
759 | " выходной градиент для второго множителя = 1 * 1.0 = 1.0\n",
760 | " \n"
761 | ]
762 | },
763 | {
764 | "output_type": "execute_result",
765 | "data": {
766 | "image/svg+xml": "\n\n\n\n\n\n%3 \n \n\n\n133697222993440 \n \ndata 3.0000 \n \ngrad 1.0000 \n \n\n\n133697222984752ReLU \n\nReLU \n \n\n\n133697222993440->133697222984752ReLU \n \n \n \n\n\n133697222993440+ \n\n+ \n \n\n\n133697222993440+->133697222993440 \n \n \n \n\n\n133697222984752 \n \ndata 3.0000 \n \ngrad 1.0000 \n \n\n\n133697222984752ReLU->133697222984752 \n \n \n \n\n\n133697222996032 \n \ndata 2.0000 \n \ngrad 1.0000 \n \n\n\n133697222996032->133697222993440+ \n \n \n \n\n\n133697222996032* \n\n* \n \n\n\n133697222996032*->133697222996032 \n \n \n \n\n\n133697222996608 \n \ndata 2.0000 \n \ngrad 1.0000 \n \n\n\n133697222996608->133697222996032* \n \n \n \n\n\n133697222995264 \n \ndata 1.0000 \n \ngrad 2.0000 \n \n\n\n133697222995264->133697222996032* \n \n \n \n\n\n133697222996416 \n \ndata 1.0000 \n \ngrad 1.0000 \n \n\n\n133697222996416->133697222993440+ \n \n \n \n \n \n",
767 | "text/plain": [
768 | ""
769 | ]
770 | },
771 | "metadata": {},
772 | "execution_count": 24
773 | }
774 | ]
775 | },
776 | {
777 | "cell_type": "markdown",
778 | "source": [
779 | "Вернем старые реализации функций обратно, чтобы при обучении модели не утонуть в логах"
780 | ],
781 | "metadata": {
782 | "id": "vUbNUKBfJtJs"
783 | }
784 | },
785 | {
786 | "cell_type": "code",
787 | "source": [
788 | "Value.relu = old_relu\n",
789 | "Value.backward = old_backward\n",
790 | "Value.__add__ = old_add\n",
791 | "Value.__mul__ = old_mul"
792 | ],
793 | "metadata": {
794 | "id": "APZHmn_1JyhR"
795 | },
796 | "execution_count": 25,
797 | "outputs": []
798 | },
799 | {
800 | "cell_type": "code",
801 | "source": [
802 | "Neuron??"
803 | ],
804 | "metadata": {
805 | "id": "M_Mb3eVnmq_W"
806 | },
807 | "execution_count": 23,
808 | "outputs": []
809 | },
810 | {
811 | "cell_type": "code",
812 | "source": [
813 | "random.seed(1337)\n",
814 | "n = Neuron(2)\n",
815 | "x = [Value(1.0), Value(-2.0)]\n",
816 | "y = n(x)\n",
817 | "y.backward()\n",
818 | "\n",
819 | "dot = draw_dot(y)\n",
820 | "dot"
821 | ],
822 | "metadata": {
823 | "colab": {
824 | "base_uri": "https://localhost:8080/",
825 | "height": 357
826 | },
827 | "id": "lEw9JEWkmdSv",
828 | "outputId": "ef4a2c98-bbed-4b53-83d2-10add880869e"
829 | },
830 | "execution_count": 26,
831 | "outputs": [
832 | {
833 | "output_type": "execute_result",
834 | "data": {
835 | "image/svg+xml": "\n\n\n\n\n\n%3 \n \n\n\n133696956211808 \n \ndata 0.1024 \n \ngrad 1.0000 \n \n\n\n133696956212384ReLU \n\nReLU \n \n\n\n133696956211808->133696956212384ReLU \n \n \n \n\n\n133696956211808+ \n\n+ \n \n\n\n133696956211808+->133696956211808 \n \n \n \n\n\n133696956214928 \n \ndata 0.0665 \n \ngrad -2.0000 \n \n\n\n133696956208352* \n\n* \n \n\n\n133696956214928->133696956208352* \n \n \n \n\n\n133696956212384 \n \ndata 0.1024 \n \ngrad 1.0000 \n \n\n\n133696956212384ReLU->133696956212384 \n \n \n \n\n\n133696956218000 \n \ndata 0.0000 \n \ngrad 1.0000 \n \n\n\n133696956208112+ \n\n+ \n \n\n\n133696956218000->133696956208112+ \n \n \n \n\n\n133696956213920 \n \ndata 0.2355 \n \ngrad 1.0000 \n \n\n\n133696956213920->133696956208112+ \n \n \n \n\n\n133696956213920* \n\n* \n \n\n\n133696956213920*->133696956213920 \n \n \n \n\n\n133700378863280 \n \ndata 1.0000 \n \ngrad 0.2355 \n \n\n\n133700378863280->133696956213920* \n \n \n \n\n\n133696956208352 \n \ndata -0.1331 \n \ngrad 1.0000 \n \n\n\n133696956208352->133696956211808+ \n \n \n \n\n\n133696956208352*->133696956208352 \n \n \n \n\n\n133696956217616 \n \ndata -2.0000 \n \ngrad 0.0665 \n \n\n\n133696956217616->133696956208352* \n \n \n \n\n\n133696956212096 \n \ndata 0.2355 \n \ngrad 1.0000 \n \n\n\n133696956212096->133696956213920* \n \n \n \n\n\n133696956208112 \n \ndata 0.2355 \n \ngrad 1.0000 \n \n\n\n133696956208112->133696956211808+ \n \n \n \n\n\n133696956208112+->133696956208112 \n \n \n \n \n \n",
836 | "text/plain": [
837 | ""
838 | ]
839 | },
840 | "metadata": {},
841 | "execution_count": 26
842 | }
843 | ]
844 | },
845 | {
846 | "cell_type": "markdown",
847 | "source": [
848 | "#### MLP для бинарной классификации"
849 | ],
850 | "metadata": {
851 | "id": "1dv25IPTm3BT"
852 | }
853 | },
854 | {
855 | "cell_type": "code",
856 | "source": [
857 | "X, y = make_moons(n_samples=100, noise=0.1)\n",
858 | "\n",
859 | "y = y*2 - 1 # make y be -1 or 1\n",
860 | "# visualize in 2D\n",
861 | "plt.figure(figsize=(5,5))\n",
862 | "plt.scatter(X[:,0], X[:,1], c=y, s=20, cmap='jet')"
863 | ],
864 | "metadata": {
865 | "id": "SxlwcBdg7G66",
866 | "colab": {
867 | "base_uri": "https://localhost:8080/",
868 | "height": 466
869 | },
870 | "outputId": "ac117ff4-d572-4271-847a-4b612339a9cc"
871 | },
872 | "execution_count": 27,
873 | "outputs": [
874 | {
875 | "output_type": "execute_result",
876 | "data": {
877 | "text/plain": [
878 | ""
879 | ]
880 | },
881 | "metadata": {},
882 | "execution_count": 27
883 | },
884 | {
885 | "output_type": "display_data",
886 | "data": {
887 | "text/plain": [
888 | ""
889 | ],
890 | "image/png": "\n"
891 | },
892 | "metadata": {}
893 | }
894 | ]
895 | },
896 | {
897 | "cell_type": "code",
898 | "source": [
899 | "X[0], y[0]"
900 | ],
901 | "metadata": {
902 | "colab": {
903 | "base_uri": "https://localhost:8080/"
904 | },
905 | "id": "1qxsjISDk5cg",
906 | "outputId": "4b287cd6-d093-4dd2-b42b-abb53f112fba"
907 | },
908 | "execution_count": 28,
909 | "outputs": [
910 | {
911 | "output_type": "execute_result",
912 | "data": {
913 | "text/plain": [
914 | "(array([ 1.58202308, -0.44581483]), 1)"
915 | ]
916 | },
917 | "metadata": {},
918 | "execution_count": 28
919 | }
920 | ]
921 | },
922 | {
923 | "cell_type": "code",
924 | "source": [
925 | "MLP??"
926 | ],
927 | "metadata": {
928 | "id": "EU_zgjaVkfq9"
929 | },
930 | "execution_count": 28,
931 | "outputs": []
932 | },
933 | {
934 | "cell_type": "code",
935 | "source": [
936 | "Layer??"
937 | ],
938 | "metadata": {
939 | "id": "MjTtPjPi9GB-"
940 | },
941 | "execution_count": 29,
942 | "outputs": []
943 | },
944 | {
945 | "cell_type": "code",
946 | "source": [
947 | "Module??"
948 | ],
949 | "metadata": {
950 | "id": "zLu5jABPkqEK"
951 | },
952 | "execution_count": 30,
953 | "outputs": []
954 | },
955 | {
956 | "cell_type": "code",
957 | "source": [
958 | "model = MLP(2, [16, 16, 1]) # 2-layer neural network\n",
959 | "print(\"number of parameters\", len(model.parameters()))"
960 | ],
961 | "metadata": {
962 | "colab": {
963 | "base_uri": "https://localhost:8080/"
964 | },
965 | "id": "8uWxWtpSj-Gr",
966 | "outputId": "7b2d1cc5-136f-4bb6-bc4e-f0c06017ca4d"
967 | },
968 | "execution_count": 29,
969 | "outputs": [
970 | {
971 | "output_type": "stream",
972 | "name": "stdout",
973 | "text": [
974 | "number of parameters 337\n"
975 | ]
976 | }
977 | ]
978 | },
979 | {
980 | "cell_type": "code",
981 | "source": [
982 | "model.layers"
983 | ],
984 | "metadata": {
985 | "colab": {
986 | "base_uri": "https://localhost:8080/"
987 | },
988 | "id": "CDFlsn00j-JO",
989 | "outputId": "6138f302-c7e4-4d9c-926e-0401ace43f19"
990 | },
991 | "execution_count": 30,
992 | "outputs": [
993 | {
994 | "output_type": "execute_result",
995 | "data": {
996 | "text/plain": [
997 | "[Layer of [ReLUNeuron(2), ReLUNeuron(2), ReLUNeuron(2), ReLUNeuron(2), ReLUNeuron(2), ReLUNeuron(2), ReLUNeuron(2), ReLUNeuron(2), ReLUNeuron(2), ReLUNeuron(2), ReLUNeuron(2), ReLUNeuron(2), ReLUNeuron(2), ReLUNeuron(2), ReLUNeuron(2), ReLUNeuron(2)],\n",
998 | " Layer of [ReLUNeuron(16), ReLUNeuron(16), ReLUNeuron(16), ReLUNeuron(16), ReLUNeuron(16), ReLUNeuron(16), ReLUNeuron(16), ReLUNeuron(16), ReLUNeuron(16), ReLUNeuron(16), ReLUNeuron(16), ReLUNeuron(16), ReLUNeuron(16), ReLUNeuron(16), ReLUNeuron(16), ReLUNeuron(16)],\n",
999 | " Layer of [LinearNeuron(16)]]"
1000 | ]
1001 | },
1002 | "metadata": {},
1003 | "execution_count": 30
1004 | }
1005 | ]
1006 | },
1007 | {
1008 | "cell_type": "code",
1009 | "source": [
1010 | "# посчитаем параметры\n",
1011 | "(2 * 16 + 16) + (16 * 16 + 16) + (16 * 1 + 1)"
1012 | ],
1013 | "metadata": {
1014 | "colab": {
1015 | "base_uri": "https://localhost:8080/"
1016 | },
1017 | "id": "yRxUBd6Jj-Ln",
1018 | "outputId": "64ed55ce-6258-45e3-fb22-ec4d2da5a44f"
1019 | },
1020 | "execution_count": 31,
1021 | "outputs": [
1022 | {
1023 | "output_type": "execute_result",
1024 | "data": {
1025 | "text/plain": [
1026 | "337"
1027 | ]
1028 | },
1029 | "metadata": {},
1030 | "execution_count": 31
1031 | }
1032 | ]
1033 | },
1034 | {
1035 | "cell_type": "code",
1036 | "source": [
1037 | "def loss(batch_size=None):\n",
1038 | " Xb, yb = X, y\n",
1039 | " inputs = [list(map(Value, xrow)) for xrow in Xb]\n",
1040 | "\n",
1041 | " # forward the model to get scores\n",
1042 | " scores = list(map(model, inputs))\n",
1043 | "\n",
1044 | " # svm \"max-margin\" loss\n",
1045 | " losses = [(1 + -yi * score_i).relu() for yi, score_i in zip(yb, scores)]\n",
1046 | " data_loss = sum(losses) * (1.0 / len(losses))\n",
1047 | " # L2 regularization\n",
1048 | " alpha = 1e-4\n",
1049 | " reg_loss = alpha * sum((p * p for p in model.parameters()))\n",
1050 | " total_loss = data_loss + reg_loss\n",
1051 | "\n",
1052 | " # also get accuracy\n",
1053 | " accuracy = [(yi > 0) == (score_i.data > 0) for yi, score_i in zip(yb, scores)]\n",
1054 | " return total_loss, sum(accuracy) / len(accuracy)\n",
1055 | "\n",
1056 | "total_loss, acc = loss()\n",
1057 | "print(total_loss, acc)"
1058 | ],
1059 | "metadata": {
1060 | "colab": {
1061 | "base_uri": "https://localhost:8080/"
1062 | },
1063 | "id": "s5zk3OeMj-OJ",
1064 | "outputId": "b65ed918-bc38-4933-b37b-2b6cc7dfd90a"
1065 | },
1066 | "execution_count": 32,
1067 | "outputs": [
1068 | {
1069 | "output_type": "stream",
1070 | "name": "stdout",
1071 | "text": [
1072 | "Value(data=0.41454652413193865, grad=0) 0.82\n"
1073 | ]
1074 | }
1075 | ]
1076 | },
1077 | {
1078 | "cell_type": "code",
1079 | "source": [
1080 | "for k in range(100):\n",
1081 | " # forward\n",
1082 | " total_loss, acc = loss()\n",
1083 | "\n",
1084 | " # backward\n",
1085 | " model.zero_grad()\n",
1086 | " total_loss.backward()\n",
1087 | "\n",
1088 | " # update (sgd)\n",
1089 | " learning_rate = 1.0 - 0.9 * k / 100\n",
1090 | " for p in model.parameters():\n",
1091 | " p.data -= learning_rate * p.grad\n",
1092 | "\n",
1093 | " if k % 1 == 0:\n",
1094 | " print(f\"step {k} loss {total_loss.data}, accuracy {acc*100}%\")"
1095 | ],
1096 | "metadata": {
1097 | "colab": {
1098 | "base_uri": "https://localhost:8080/"
1099 | },
1100 | "id": "27ZNbO4fj-RF",
1101 | "outputId": "e2008ae3-6998-4e2a-f357-0dd79b5fa8fc"
1102 | },
1103 | "execution_count": 33,
1104 | "outputs": [
1105 | {
1106 | "output_type": "stream",
1107 | "name": "stdout",
1108 | "text": [
1109 | "step 0 loss 0.41454652413193865, accuracy 82.0%\n",
1110 | "step 1 loss 0.7863805046215181, accuracy 81.0%\n",
1111 | "step 2 loss 0.461961145267714, accuracy 83.0%\n",
1112 | "step 3 loss 0.5085892319645842, accuracy 83.0%\n",
1113 | "step 4 loss 0.31049052687261214, accuracy 86.0%\n",
1114 | "step 5 loss 0.2689947571730255, accuracy 89.0%\n",
1115 | "step 6 loss 0.24554659072506863, accuracy 89.0%\n",
1116 | "step 7 loss 0.23622330038400666, accuracy 90.0%\n",
1117 | "step 8 loss 0.21720946703312552, accuracy 90.0%\n",
1118 | "step 9 loss 0.21400559443772385, accuracy 91.0%\n",
1119 | "step 10 loss 0.20939260057894807, accuracy 91.0%\n",
1120 | "step 11 loss 0.3300210916807542, accuracy 92.0%\n",
1121 | "step 12 loss 0.38174928707618516, accuracy 87.0%\n",
1122 | "step 13 loss 0.4508064668364713, accuracy 85.0%\n",
1123 | "step 14 loss 0.24799516110878045, accuracy 89.0%\n",
1124 | "step 15 loss 0.19302863848938961, accuracy 91.0%\n",
1125 | "step 16 loss 0.18158693713880056, accuracy 93.0%\n",
1126 | "step 17 loss 0.18371866789300473, accuracy 94.0%\n",
1127 | "step 18 loss 0.17646529149266213, accuracy 92.0%\n",
1128 | "step 19 loss 0.2118644238610899, accuracy 95.0%\n",
1129 | "step 20 loss 0.23740708747640143, accuracy 90.0%\n",
1130 | "step 21 loss 0.2424213728622781, accuracy 91.0%\n",
1131 | "step 22 loss 0.16352206202435898, accuracy 93.0%\n",
1132 | "step 23 loss 0.14055706166037016, accuracy 94.0%\n",
1133 | "step 24 loss 0.12641650696039422, accuracy 95.0%\n",
1134 | "step 25 loss 0.11779662914897572, accuracy 96.0%\n",
1135 | "step 26 loss 0.11656157360300687, accuracy 96.0%\n",
1136 | "step 27 loss 0.10693241862855216, accuracy 97.0%\n",
1137 | "step 28 loss 0.10958624114174169, accuracy 96.0%\n",
1138 | "step 29 loss 0.10134992156481276, accuracy 98.0%\n",
1139 | "step 30 loss 0.10930078228361885, accuracy 95.0%\n",
1140 | "step 31 loss 0.08885676934639257, accuracy 98.0%\n",
1141 | "step 32 loss 0.0822624174703037, accuracy 98.0%\n",
1142 | "step 33 loss 0.07952622026383123, accuracy 97.0%\n",
1143 | "step 34 loss 0.08377693512335735, accuracy 98.0%\n",
1144 | "step 35 loss 0.09834976703042793, accuracy 97.0%\n",
1145 | "step 36 loss 0.0805034897187587, accuracy 98.0%\n",
1146 | "step 37 loss 0.0882343743831684, accuracy 98.0%\n",
1147 | "step 38 loss 0.07944486631852585, accuracy 98.0%\n",
1148 | "step 39 loss 0.10287087028218089, accuracy 96.0%\n",
1149 | "step 40 loss 0.11136981231707056, accuracy 96.0%\n",
1150 | "step 41 loss 0.10982494830215679, accuracy 95.0%\n",
1151 | "step 42 loss 0.05744935437701046, accuracy 98.0%\n",
1152 | "step 43 loss 0.04896980932498546, accuracy 98.0%\n",
1153 | "step 44 loss 0.04452824806589162, accuracy 98.0%\n",
1154 | "step 45 loss 0.03857659354607201, accuracy 99.0%\n",
1155 | "step 46 loss 0.03629101324493242, accuracy 100.0%\n",
1156 | "step 47 loss 0.03618323133012296, accuracy 99.0%\n",
1157 | "step 48 loss 0.04728429210924266, accuracy 99.0%\n",
1158 | "step 49 loss 0.03248749654352533, accuracy 100.0%\n",
1159 | "step 50 loss 0.030335357997559816, accuracy 100.0%\n",
1160 | "step 51 loss 0.028156244389769505, accuracy 100.0%\n",
1161 | "step 52 loss 0.029230812235729126, accuracy 100.0%\n",
1162 | "step 53 loss 0.027270821931031152, accuracy 100.0%\n",
1163 | "step 54 loss 0.024973498876801573, accuracy 100.0%\n",
1164 | "step 55 loss 0.02558550342438838, accuracy 100.0%\n",
1165 | "step 56 loss 0.024083011912084673, accuracy 100.0%\n",
1166 | "step 57 loss 0.0255029133464586, accuracy 100.0%\n",
1167 | "step 58 loss 0.021453874084932222, accuracy 100.0%\n",
1168 | "step 59 loss 0.019916045963472316, accuracy 100.0%\n",
1169 | "step 60 loss 0.020874485829553507, accuracy 100.0%\n",
1170 | "step 61 loss 0.02352369573570373, accuracy 100.0%\n",
1171 | "step 62 loss 0.03326503825041317, accuracy 99.0%\n",
1172 | "step 63 loss 0.019791643375603657, accuracy 100.0%\n",
1173 | "step 64 loss 0.021290815578892223, accuracy 100.0%\n",
1174 | "step 65 loss 0.030884203516995862, accuracy 100.0%\n",
1175 | "step 66 loss 0.018927539525833106, accuracy 100.0%\n",
1176 | "step 67 loss 0.018852402065537233, accuracy 100.0%\n",
1177 | "step 68 loss 0.02078797948389191, accuracy 100.0%\n",
1178 | "step 69 loss 0.01563093592456672, accuracy 100.0%\n",
1179 | "step 70 loss 0.01905328666327437, accuracy 100.0%\n",
1180 | "step 71 loss 0.01619222407425494, accuracy 100.0%\n",
1181 | "step 72 loss 0.024471109661991345, accuracy 100.0%\n",
1182 | "step 73 loss 0.01564616679328279, accuracy 100.0%\n",
1183 | "step 74 loss 0.019398658398722304, accuracy 100.0%\n",
1184 | "step 75 loss 0.020862785805321207, accuracy 100.0%\n",
1185 | "step 76 loss 0.014047328210772154, accuracy 100.0%\n",
1186 | "step 77 loss 0.01944617841459297, accuracy 100.0%\n",
1187 | "step 78 loss 0.021606808339660943, accuracy 100.0%\n",
1188 | "step 79 loss 0.014148971740402144, accuracy 100.0%\n",
1189 | "step 80 loss 0.014910996431333663, accuracy 100.0%\n",
1190 | "step 81 loss 0.01721007109292912, accuracy 100.0%\n",
1191 | "step 82 loss 0.012366212108223178, accuracy 100.0%\n",
1192 | "step 83 loss 0.012257445936183161, accuracy 100.0%\n",
1193 | "step 84 loss 0.012186318425017391, accuracy 100.0%\n",
1194 | "step 85 loss 0.01257294527319086, accuracy 100.0%\n",
1195 | "step 86 loss 0.012632904962825906, accuracy 100.0%\n",
1196 | "step 87 loss 0.01381341587243698, accuracy 100.0%\n",
1197 | "step 88 loss 0.013181444719459269, accuracy 100.0%\n",
1198 | "step 89 loss 0.012112123429310276, accuracy 100.0%\n",
1199 | "step 90 loss 0.011991619681594404, accuracy 100.0%\n",
1200 | "step 91 loss 0.01191484101087392, accuracy 100.0%\n",
1201 | "step 92 loss 0.011841435415422583, accuracy 100.0%\n",
1202 | "step 93 loss 0.011891835891202848, accuracy 100.0%\n",
1203 | "step 94 loss 0.011849492283132935, accuracy 100.0%\n",
1204 | "step 95 loss 0.011772922324668656, accuracy 100.0%\n",
1205 | "step 96 loss 0.011713712499624353, accuracy 100.0%\n",
1206 | "step 97 loss 0.011658024588577119, accuracy 100.0%\n",
1207 | "step 98 loss 0.011630878060508679, accuracy 100.0%\n",
1208 | "step 99 loss 0.011662977441662272, accuracy 100.0%\n"
1209 | ]
1210 | }
1211 | ]
1212 | },
1213 | {
1214 | "cell_type": "code",
1215 | "source": [
1216 | "h = 0.25\n",
1217 | "x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1\n",
1218 | "y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1\n",
1219 | "xx, yy = np.meshgrid(\n",
1220 | " np.arange(x_min, x_max, h),\n",
1221 | " np.arange(y_min, y_max, h)\n",
1222 | ")\n",
1223 | "Xmesh = np.c_[xx.ravel(), yy.ravel()]\n",
1224 | "inputs = [list(map(Value, xrow)) for xrow in Xmesh]\n",
1225 | "scores = list(map(model, inputs))\n",
1226 | "Z = np.array([s.data > 0 for s in scores])\n",
1227 | "Z = Z.reshape(xx.shape)\n",
1228 | "\n",
1229 | "fig = plt.figure()\n",
1230 | "plt.contourf(xx, yy, Z, cmap=plt.cm.Spectral, alpha=0.8)\n",
1231 | "plt.scatter(X[:, 0], X[:, 1], c=y, s=40, cmap=plt.cm.Spectral)\n",
1232 | "plt.xlim(xx.min(), xx.max())\n",
1233 | "plt.ylim(yy.min(), yy.max())"
1234 | ],
1235 | "metadata": {
1236 | "colab": {
1237 | "base_uri": "https://localhost:8080/",
1238 | "height": 447
1239 | },
1240 | "id": "ByZKLTnPj-Tf",
1241 | "outputId": "5754caba-bbfc-4104-97c8-ff0b3717c9bf"
1242 | },
1243 | "execution_count": 34,
1244 | "outputs": [
1245 | {
1246 | "output_type": "execute_result",
1247 | "data": {
1248 | "text/plain": [
1249 | "(-1.5978882018302847, 2.1521117981697153)"
1250 | ]
1251 | },
1252 | "metadata": {},
1253 | "execution_count": 34
1254 | },
1255 | {
1256 | "output_type": "display_data",
1257 | "data": {
1258 | "text/plain": [
1259 | ""
1260 | ],
1261 | "image/png": "\n"
1262 | },
1263 | "metadata": {}
1264 | }
1265 | ]
1266 | }
1267 | ]
1268 | }
--------------------------------------------------------------------------------
/readme.md:
--------------------------------------------------------------------------------
1 | ### Курс "Основы глубокого обучения" в ИТМО (осень 2024)
2 | - [1.1 Вводное занятие, знакомство с PyTorch (06.12.2024)](Lecture%201)
3 | - [1.2 Полносвязные сети, метод обратного распространения (09.12.2024)](Lecture%202)
4 | - [1.3 Autograd, Micrograd, SGD (13.12.2024)](Lecture%203)
5 | - [1.4 Оптимизаторы, функции активации, инициализация весов (16.12.2024)](Lecture%204-5)
6 | - [1.5 Dropout & BatchNorm (23.12.2024)](Lecture%206)
7 |
8 |
9 | - [2.1 Функции потерь, сверточные сети (28.12.2024)](Lecture%207)
10 | - [2.2 PyTorch Lightning, Learning Rate Schedulers (30.12.2024)](Lecture%208)
11 |
12 |
13 | - [3.1 Dropout2d, BatchNorm2d, NLP basics (13.01.2025, 17.01.2025)](Lecture%209)
14 |
15 | - [4.1 Huggingface Transformers (20.01.2025)](Lecture%2010)
16 | - [4.2 Аугментация, интерпретация, дистилляция (27.01.2025)](Lecture%2011-12)
17 | ______
18 |
19 | #### Домашние задания
20 |
21 | | # | Тема | Max Балл | Мягкий Дедлайн | Жесткий Дедлайн |
22 | |------|----------|-----------|----------------|-----------------|
23 | | [ДЗ 1](HW/hw_1/itmo_dl_course_hw_1.md) | Создание и обучение MLP | 10 | 11.01.2025 20:00 МСК| 14.01.2025 20:00 МСК|
24 | | [ДЗ 2](HW/hw_2/itmo_dl_course_hw_2.md) | Создание и обучение AlexNet | 10 | 21.01.2025 20:00 МСК| 27.01.2025 20:00 МСК|
25 |
26 | ______
27 |
28 | #### Дополнительные задания
29 |
30 | | # | Тема | Max Балл | Жесткий Дедлайн |
31 | |------|----------|-----------|-----------------|
32 | | [Extra Task 1](HW/itmo_dl_course_extra_task_1.md) | Создание и обучение MLP | 5 | 31.12.2024 20:00 МСК|
33 | | [Extra Task 2](HW/itmo_dl_course_extra_task_2.md) | Классификатор FashionMNIST на PyTorch Lightning | 5 | 18.01.2025 20:00 МСК|
34 | | [Extra Task 3](HW/itmo_dl_course_extra_task_3.md) | Классификация текстов с CNN и RNN | 5 | 25.01.2025 20:00 МСК|
35 | | [Extra Task 4](HW/itmo_dl_course_extra_task_4.md) | Классификация текстов с transformers | 5 | 28.01.2025 18:00 МСК|
36 | ______
37 |
38 | #### Соревнование
39 |
40 | | Ссылка | Max Балл | Жесткий Дедлайн |
41 | |----------|----------|-----------------|
42 | | [AITH DL Competition - Tabular data](https://www.kaggle.com/t/bde680ca0f054b4c85fc5065c9ef6fbf) | 30 | 27.01.2025 19:00 МСК|
43 | | [AITH DL Competition - Text data](https://www.kaggle.com/t/1afde63d76e04a4b91bb3b6bdd5e08e3) | 30 | 27.01.2025 19:00 МСК|
44 |
45 | Необходимо выбрать одно соревнование (можно больше, но баллы в итоге будут выставлены за лучший результат).
46 |
47 | Для решения задач необходимо использовать **только нейросетевые модели**.
48 |
49 | ##### Схема выставления баллов
50 |
51 | - за позицию на private LB - max 15 баллов (по 5 баллов за преодоление каждого бенчмарка)
52 | - оставшиеся 15 баллов - за код решения, посланный на ревью **@pacifikus** через github, как все ДЗ, отдельным PR
53 |
54 | Баллы за позицию на LB выставляются только в случае создания PR с воспроизводимым решением!
55 |
56 | #### Критерии для оценки кода
57 |
58 | - Решение реализовано без концептуальных ошибок в архитектуре / дата-ликов в предобработке данных и т.п. - **5 баллов**
59 | - Принимаемые решения обоснованы (почему выбрана определенная архитектура/гиперпараметр/оптимизатор/преобразование и т.п.) - **3 балла**
60 | - Обеспечена воспроизводимость решения: зафиксированы random_state, ноутбук воспроизводится от начала до конца без ошибок - **5 баллов**
61 | - Ноутбук структурирован, код экспериментов не содержит дублирования, оформление соответствует стандарту pep8 - **2 балла**
62 |
--------------------------------------------------------------------------------