├── .gitignore
├── README.md
├── README_EN.md
├── data
    ├── Advertising.csv
    ├── BZ_010201_160207.csv
    ├── Default.csv
    ├── EURRUB_010201_160208.csv
    ├── GDP.csv
    ├── SAT_GPA.csv
    ├── USDRUB_010201_160207.csv
    ├── auto-mpg.data
    ├── boston-house-price.csv
    ├── cars.csv
    ├── data-4275-2021-02-09.xlsx
    └── mo.geojson
├── env
    ├── README.md
    ├── conda
    │   └── mlmethods.yaml
    └── docker
    │   ├── Dockerfile
    │   ├── Makefile
    │   ├── entrypoint.sh
    │   └── requirements.txt
├── lib
    ├── datasets
    │   ├── __init__.py
    │   ├── fashion_mnist.py
    │   └── twenty_languages.py
    ├── plot_confusion_matrix.py
    ├── plot_stats.py
    └── plot_utils.py
└── notebooks
    ├── C0_PyBasics.ipynb
    ├── C1_Intro.ipynb
    ├── C2_Matplotlib.ipynb
    ├── C2_Numpy.ipynb
    ├── C2_Pandas.ipynb
    ├── C2_Pandas_Places.ipynb
    ├── C3_GD.ipynb
    ├── C3_GD_Appendix.ipynb
    ├── C3_Inference.ipynb
    ├── C3_Linear_Regression.ipynb
    ├── C3_SGD.ipynb
    ├── C3_SGD_Appendix.ipynb
    ├── C3_Sklearn_Basics.ipynb
    ├── C4_Correlation.ipynb
    ├── C4_Distributions.ipynb
    ├── C4_Statistics.ipynb
    ├── C4_Statistics_Examples.ipynb
    ├── C5_Classification.ipynb
    ├── C5_DT.ipynb
    ├── C5_DT_Housing.ipynb
    ├── C5_DT_Purchase.ipynb
    ├── C5_HAR.ipynb
    ├── C5_Imbalanced_Classification.ipynb
    ├── C5_Language_Detector.ipynb
    ├── C5_Linear_Regression_Fuel_Consumption.ipynb
    ├── C5_Logistic_Regression.ipynb
    ├── C5_NN_Text.ipynb
    ├── C5_Polynomial_Regression.ipynb
    ├── C5_Regression.ipynb
    ├── C6_CV.ipynb
    ├── C6_Metrics.ipynb
    ├── C6_Regularization.ipynb
    ├── C7_Audio_Recognition.ipynb
    ├── C7_Feature_Selection.ipynb
    ├── C7_Text_Classification.ipynb
    ├── C8_Clustering.ipynb
    ├── C8_Number_of_Clusters.ipynb
    ├── C8_PCA.ipynb
    ├── C8_Preprocessing_And_SemiSupervised.ipynb
    ├── C9_Topic_Modeling.ipynb
    ├── css
        └── style.css
    ├── img
        ├── gd-one-var-alpha-left.png
        ├── gd-one-var-alpha-right.png
        ├── gd-two-var-alpha-left-sum.png
        ├── gd-two-var-alpha-left.png
        ├── gd-two-var-alpha-right-sum.png
        ├── gd-two-var-alpha-right.png
        ├── sgd-two-var-alpha-left.png
        ├── sgd-two-var-alpha-right.png
        └── vectors.png
    └── nn
        ├── C5_NN.ipynb
        ├── C5_NN_Embedding.ipynb
        └── C5_NN_Pretrained.ipynb


/.gitignore:
--------------------------------------------------------------------------------
1 | .ipynb_checkpoints
2 | debug*
3 | __pycache__


--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
 1 | # Семинары
 2 | 
 3 | С.Ю. Папулин (papulin.study@yandex.ru)
 4 | 
 5 | 
 6 | ## Средства разработки и библиотеки
 7 | 
 8 | [Развертывание среды разработки](env/README.md)
 9 | 
10 | Дистрибутив `Anaconda-2024.2` c `python 3.11`
11 | - Дополнительно: [requirements.txt](env/docker/requirements.txt)
12 | 
13 | ## Пререквизиты
14 | 
15 | - [Основы программирования на Python](notebooks/C0_PyBasics.ipynb)
16 | 
17 | ## Темы
18 | 
19 | 1. [Введение](notebooks/C1_Intro.ipynb)
20 | 2. Основные средства
21 |     - [Numpy](notebooks/C2_Numpy.ipynb)
22 |     - [Matplotlib](notebooks/C2_Matplotlib.ipynb)
23 |     - Pandas
24 |         - [Основные команды](notebooks/C2_Pandas.ipynb)
25 |         - [Пример с общепитом](notebooks/C2_Pandas_Places.ipynb)
26 |     - [Основы разработки под sklearn](notebooks/C3_Sklearn_Basics.ipynb)
27 | 3. Статистика
28 |     - [Общие понятия](https://nbviewer.jupyter.org/github/MLMethods/Practice/blob/master/notebooks/C4_Statistics.ipynb)
29 |     - [Законы распределения](notebooks/C4_Distributions.ipynb)
30 |     - [Корреляция](notebooks/C4_Correlation.ipynb)
31 |     - [Дополнительный пример](notebooks/C4_Statistics_Examples.ipynb)
32 | 4. Градиентный спуск
33 |     - [Градиентный спуск](notebooks/C3_GD.ipynb)
34 |     - [Стохастический градиентный спуск](notebooks/C3_SGD.ipynb)
35 | 5. Регрессия
36 |     - [Обучение линейной регрессии: МНК, ГС, СГС](notebooks/C3_Linear_Regression.ipynb)
37 |     - [Линейная регрессия и статистический вывод](notebooks/C3_Inference.ipynb)
38 |     - [Линейная полиномиальная регрессия](notebooks/C5_Polynomial_Regression.ipynb)
39 |     - [Пример с расходом топлива](notebooks/C5_Linear_Regression_Fuel_Consumption.ipynb)
40 |     - [Регрессия](notebooks/C5_Regression.ipynb)
41 | 6. Классификация
42 |     - [Логистическая регрессия](notebooks/C5_Logistic_Regression.ipynb)
43 |     - [Классификация с несбалансированной выборкой](notebooks/C5_Imbalanced_Classification.ipynb)
44 |     - [Распознавание активности](notebooks/C5_HAR.ipynb)
45 |     - [Распознавание голосовых команд](notebooks/C7_Audio_Recognition.ipynb)
46 |     - [Классификация](notebooks/C5_Classification.ipynb)
47 | 7. Деревья решений и их ансамбли
48 |     - [Деревья решений и их ансамбли](notebooks/C5_DT.ipynb)
49 |     - [Деревья решений для задачи регрессии](notebooks/C5_DT_Housing.ipynb)
50 |     - [Пример с предсказанием покупок](notebooks/C5_DT_Purchase.ipynb)
51 | 8. [Метрики качества](notebooks/C6_Metrics.ipynb)
52 | 9. Выбор модели
53 |     - [Оценка качества и выбор модели с использованием кросс-валидации](notebooks/C6_CV.ipynb)
54 |     - [Регуляризация и выбор модели](notebooks/C6_Regularization.ipynb)
55 | 10. [Выбор признаков](notebooks/C7_Feature_Selection.ipynb)
56 | 11. [Классификация текстов](notebooks/C7_Text_Classification.ipynb)
57 | 12. Нейронные сети
58 |     - [Нейронные сети](notebooks/nn/C5_NN.ipynb)
59 |     - [Векторное представление слов](notebooks/nn/C5_NN_Embedding.ipynb)
60 | 13. Кластеризация
61 |     - [Основные методы](notebooks/C8_Clustering.ipynb)
62 |     - [Определение количества кластеров](notebooks/C8_Number_of_Clusters.ipynb)
63 |     - [Использование кластеризации при классификации данных](notebooks/C8_Preprocessing_And_SemiSupervised.ipynb)
64 | 14. [Метод главных компонент и уменьшение размерности](notebooks/C8_PCA.ipynb)
65 | 15. [Тематическое моделирование](notebooks/C9_Topic_Modeling.ipynb)
66 | 
67 | 
68 | 


--------------------------------------------------------------------------------
/README_EN.md:
--------------------------------------------------------------------------------
 1 | <div align=right><a href="README.md">RU</a></div>
 2 | 
 3 | # Practice
 4 | 
 5 | Sergei Yu. Papulin (papulin.study@yandex.ru)
 6 | 
 7 | ## IDE and libraries
 8 | 
 9 | - [Anaconda Python 3.x](https://www.anaconda.com/distribution/):
10 |     - jupyter
11 |     - numpy
12 |     - scipy
13 |     - pandas
14 |     - sklearn
15 |     - nltk
16 | - gensim: `pip install gensim`
17 | 
18 | ## Topics
19 | 
20 | 1. [Introduction](notebooks/C1_Intro.ipynb)
21 | 2. [Numpy for Vector and Matrix](notebooks/C2_Numpy.ipynb)
22 | 3. [Matplotlib](notebooks/C2_Matplotlib.ipynb)
23 | 4. [Pandas](notebooks/C2_Pandas.ipynb)
24 | 5. [OLS and Gradient Descent](notebooks/C3_GD.ipynb)
25 | 6. [Stochastic Gradient Descent](notebooks/C3_SGD.ipynb)
26 | 7. Statistics
27 |     - [Basic Notions](notebooks/C4_Distributions.ipynb)
28 |     - [Distributions](notebooks/C4_Distributions.ipynb)
29 |     - [Correlation](notebooks/C4_Correlation.ipynb)
30 |     - [Additional examples](notebooks/C4_Statistics_Examples.ipynb)
31 | 8. [Regression](notebooks/C5_Regression.ipynb)
32 | 9. [Classification](notebooks/C5_Classification.ipynb)
33 | 10. [Decision Tree](notebooks/C5_DT.ipynb)
34 | 11. [Metrics](notebooks/C6_Metrics.ipynb)
35 | 12. [Text Classification using Naive Bayes Models](notebooks/C7_Text_Classification.ipynb)
36 | 13. Clustering
37 |     - [Basic methods](notebooks/C8_Clustering.ipynb)
38 |     - [Determining the number of clusters ](notebooks/C8_Number_of_Clusters.ipynb)
39 | 14. [PCA and Dimension Reduction](notebooks/C8_PCA.ipynb)
40 | 15. [Topic Modeling](notebooks/C9_Topic_Modeling.ipynb)


--------------------------------------------------------------------------------
/data/Advertising.csv:
--------------------------------------------------------------------------------
  1 | ,TV,radio,newspaper,sales
  2 | 1,230.1,37.8,69.2,22.1
  3 | 2,44.5,39.3,45.1,10.4
  4 | 3,17.2,45.9,69.3,9.3
  5 | 4,151.5,41.3,58.5,18.5
  6 | 5,180.8,10.8,58.4,12.9
  7 | 6,8.7,48.9,75,7.2
  8 | 7,57.5,32.8,23.5,11.8
  9 | 8,120.2,19.6,11.6,13.2
 10 | 9,8.6,2.1,1,4.8
 11 | 10,199.8,2.6,21.2,10.6
 12 | 11,66.1,5.8,24.2,8.6
 13 | 12,214.7,24,4,17.4
 14 | 13,23.8,35.1,65.9,9.2
 15 | 14,97.5,7.6,7.2,9.7
 16 | 15,204.1,32.9,46,19
 17 | 16,195.4,47.7,52.9,22.4
 18 | 17,67.8,36.6,114,12.5
 19 | 18,281.4,39.6,55.8,24.4
 20 | 19,69.2,20.5,18.3,11.3
 21 | 20,147.3,23.9,19.1,14.6
 22 | 21,218.4,27.7,53.4,18
 23 | 22,237.4,5.1,23.5,12.5
 24 | 23,13.2,15.9,49.6,5.6
 25 | 24,228.3,16.9,26.2,15.5
 26 | 25,62.3,12.6,18.3,9.7
 27 | 26,262.9,3.5,19.5,12
 28 | 27,142.9,29.3,12.6,15
 29 | 28,240.1,16.7,22.9,15.9
 30 | 29,248.8,27.1,22.9,18.9
 31 | 30,70.6,16,40.8,10.5
 32 | 31,292.9,28.3,43.2,21.4
 33 | 32,112.9,17.4,38.6,11.9
 34 | 33,97.2,1.5,30,9.6
 35 | 34,265.6,20,0.3,17.4
 36 | 35,95.7,1.4,7.4,9.5
 37 | 36,290.7,4.1,8.5,12.8
 38 | 37,266.9,43.8,5,25.4
 39 | 38,74.7,49.4,45.7,14.7
 40 | 39,43.1,26.7,35.1,10.1
 41 | 40,228,37.7,32,21.5
 42 | 41,202.5,22.3,31.6,16.6
 43 | 42,177,33.4,38.7,17.1
 44 | 43,293.6,27.7,1.8,20.7
 45 | 44,206.9,8.4,26.4,12.9
 46 | 45,25.1,25.7,43.3,8.5
 47 | 46,175.1,22.5,31.5,14.9
 48 | 47,89.7,9.9,35.7,10.6
 49 | 48,239.9,41.5,18.5,23.2
 50 | 49,227.2,15.8,49.9,14.8
 51 | 50,66.9,11.7,36.8,9.7
 52 | 51,199.8,3.1,34.6,11.4
 53 | 52,100.4,9.6,3.6,10.7
 54 | 53,216.4,41.7,39.6,22.6
 55 | 54,182.6,46.2,58.7,21.2
 56 | 55,262.7,28.8,15.9,20.2
 57 | 56,198.9,49.4,60,23.7
 58 | 57,7.3,28.1,41.4,5.5
 59 | 58,136.2,19.2,16.6,13.2
 60 | 59,210.8,49.6,37.7,23.8
 61 | 60,210.7,29.5,9.3,18.4
 62 | 61,53.5,2,21.4,8.1
 63 | 62,261.3,42.7,54.7,24.2
 64 | 63,239.3,15.5,27.3,15.7
 65 | 64,102.7,29.6,8.4,14
 66 | 65,131.1,42.8,28.9,18
 67 | 66,69,9.3,0.9,9.3
 68 | 67,31.5,24.6,2.2,9.5
 69 | 68,139.3,14.5,10.2,13.4
 70 | 69,237.4,27.5,11,18.9
 71 | 70,216.8,43.9,27.2,22.3
 72 | 71,199.1,30.6,38.7,18.3
 73 | 72,109.8,14.3,31.7,12.4
 74 | 73,26.8,33,19.3,8.8
 75 | 74,129.4,5.7,31.3,11
 76 | 75,213.4,24.6,13.1,17
 77 | 76,16.9,43.7,89.4,8.7
 78 | 77,27.5,1.6,20.7,6.9
 79 | 78,120.5,28.5,14.2,14.2
 80 | 79,5.4,29.9,9.4,5.3
 81 | 80,116,7.7,23.1,11
 82 | 81,76.4,26.7,22.3,11.8
 83 | 82,239.8,4.1,36.9,12.3
 84 | 83,75.3,20.3,32.5,11.3
 85 | 84,68.4,44.5,35.6,13.6
 86 | 85,213.5,43,33.8,21.7
 87 | 86,193.2,18.4,65.7,15.2
 88 | 87,76.3,27.5,16,12
 89 | 88,110.7,40.6,63.2,16
 90 | 89,88.3,25.5,73.4,12.9
 91 | 90,109.8,47.8,51.4,16.7
 92 | 91,134.3,4.9,9.3,11.2
 93 | 92,28.6,1.5,33,7.3
 94 | 93,217.7,33.5,59,19.4
 95 | 94,250.9,36.5,72.3,22.2
 96 | 95,107.4,14,10.9,11.5
 97 | 96,163.3,31.6,52.9,16.9
 98 | 97,197.6,3.5,5.9,11.7
 99 | 98,184.9,21,22,15.5
100 | 99,289.7,42.3,51.2,25.4
101 | 100,135.2,41.7,45.9,17.2
102 | 101,222.4,4.3,49.8,11.7
103 | 102,296.4,36.3,100.9,23.8
104 | 103,280.2,10.1,21.4,14.8
105 | 104,187.9,17.2,17.9,14.7
106 | 105,238.2,34.3,5.3,20.7
107 | 106,137.9,46.4,59,19.2
108 | 107,25,11,29.7,7.2
109 | 108,90.4,0.3,23.2,8.7
110 | 109,13.1,0.4,25.6,5.3
111 | 110,255.4,26.9,5.5,19.8
112 | 111,225.8,8.2,56.5,13.4
113 | 112,241.7,38,23.2,21.8
114 | 113,175.7,15.4,2.4,14.1
115 | 114,209.6,20.6,10.7,15.9
116 | 115,78.2,46.8,34.5,14.6
117 | 116,75.1,35,52.7,12.6
118 | 117,139.2,14.3,25.6,12.2
119 | 118,76.4,0.8,14.8,9.4
120 | 119,125.7,36.9,79.2,15.9
121 | 120,19.4,16,22.3,6.6
122 | 121,141.3,26.8,46.2,15.5
123 | 122,18.8,21.7,50.4,7
124 | 123,224,2.4,15.6,11.6
125 | 124,123.1,34.6,12.4,15.2
126 | 125,229.5,32.3,74.2,19.7
127 | 126,87.2,11.8,25.9,10.6
128 | 127,7.8,38.9,50.6,6.6
129 | 128,80.2,0,9.2,8.8
130 | 129,220.3,49,3.2,24.7
131 | 130,59.6,12,43.1,9.7
132 | 131,0.7,39.6,8.7,1.6
133 | 132,265.2,2.9,43,12.7
134 | 133,8.4,27.2,2.1,5.7
135 | 134,219.8,33.5,45.1,19.6
136 | 135,36.9,38.6,65.6,10.8
137 | 136,48.3,47,8.5,11.6
138 | 137,25.6,39,9.3,9.5
139 | 138,273.7,28.9,59.7,20.8
140 | 139,43,25.9,20.5,9.6
141 | 140,184.9,43.9,1.7,20.7
142 | 141,73.4,17,12.9,10.9
143 | 142,193.7,35.4,75.6,19.2
144 | 143,220.5,33.2,37.9,20.1
145 | 144,104.6,5.7,34.4,10.4
146 | 145,96.2,14.8,38.9,11.4
147 | 146,140.3,1.9,9,10.3
148 | 147,240.1,7.3,8.7,13.2
149 | 148,243.2,49,44.3,25.4
150 | 149,38,40.3,11.9,10.9
151 | 150,44.7,25.8,20.6,10.1
152 | 151,280.7,13.9,37,16.1
153 | 152,121,8.4,48.7,11.6
154 | 153,197.6,23.3,14.2,16.6
155 | 154,171.3,39.7,37.7,19
156 | 155,187.8,21.1,9.5,15.6
157 | 156,4.1,11.6,5.7,3.2
158 | 157,93.9,43.5,50.5,15.3
159 | 158,149.8,1.3,24.3,10.1
160 | 159,11.7,36.9,45.2,7.3
161 | 160,131.7,18.4,34.6,12.9
162 | 161,172.5,18.1,30.7,14.4
163 | 162,85.7,35.8,49.3,13.3
164 | 163,188.4,18.1,25.6,14.9
165 | 164,163.5,36.8,7.4,18
166 | 165,117.2,14.7,5.4,11.9
167 | 166,234.5,3.4,84.8,11.9
168 | 167,17.9,37.6,21.6,8
169 | 168,206.8,5.2,19.4,12.2
170 | 169,215.4,23.6,57.6,17.1
171 | 170,284.3,10.6,6.4,15
172 | 171,50,11.6,18.4,8.4
173 | 172,164.5,20.9,47.4,14.5
174 | 173,19.6,20.1,17,7.6
175 | 174,168.4,7.1,12.8,11.7
176 | 175,222.4,3.4,13.1,11.5
177 | 176,276.9,48.9,41.8,27
178 | 177,248.4,30.2,20.3,20.2
179 | 178,170.2,7.8,35.2,11.7
180 | 179,276.7,2.3,23.7,11.8
181 | 180,165.6,10,17.6,12.6
182 | 181,156.6,2.6,8.3,10.5
183 | 182,218.5,5.4,27.4,12.2
184 | 183,56.2,5.7,29.7,8.7
185 | 184,287.6,43,71.8,26.2
186 | 185,253.8,21.3,30,17.6
187 | 186,205,45.1,19.6,22.6
188 | 187,139.5,2.1,26.6,10.3
189 | 188,191.1,28.7,18.2,17.3
190 | 189,286,13.9,3.7,15.9
191 | 190,18.7,12.1,23.4,6.7
192 | 191,39.5,41.1,5.8,10.8
193 | 192,75.5,10.8,6,9.9
194 | 193,17.2,4.1,31.6,5.9
195 | 194,166.8,42,3.6,19.6
196 | 195,149.7,35.6,6,17.3
197 | 196,38.2,3.7,13.8,7.6
198 | 197,94.2,4.9,8.1,9.7
199 | 198,177,9.3,6.4,12.8
200 | 199,283.6,42,66.2,25.5
201 | 200,232.1,8.6,8.7,13.4
202 | 


--------------------------------------------------------------------------------
/data/BZ_010201_160207.csv:
--------------------------------------------------------------------------------
  1 | <TICKER>;<PER>;<DATE>;<TIME>;<OPEN>;<HIGH>;<LOW>;<CLOSE>;<VOL>
  2 | BZ;M;20010201;000000;26.5600000;30.9000000;24.7300000;24.7300000;0
  3 | BZ;M;20010301;000000;24.8800000;26.4600000;22.9700000;23.6300000;0
  4 | BZ;M;20010401;000000;23.8200000;27.7500000;23.0000000;27.2800000;0
  5 | BZ;M;20010501;000000;27.3000000;30.0000000;26.7200000;29.2100000;0
  6 | BZ;M;20010601;000000;29.1900000;29.6100000;25.1100000;26.4500000;0
  7 | BZ;M;20010701;000000;26.0700000;26.6600000;22.9200000;24.2500000;0
  8 | BZ;M;20010801;000000;24.6400000;27.0000000;24.3600000;26.7100000;0
  9 | BZ;M;20010901;000000;26.4900000;30.8500000;19.8200000;21.9600000;0
 10 | BZ;M;20011001;000000;21.9000000;21.9000000;19.6500000;19.7900000;0
 11 | BZ;M;20011101;000000;19.7700000;21.0900000;16.3600000;19.2900000;0
 12 | BZ;M;20011201;000000;18.5500000;20.3100000;17.2600000;19.3000000;0
 13 | BZ;M;20020101;000000;19.6000000;21.5800000;17.9400000;19.4100000;0
 14 | BZ;M;20020201;000000;19.4100000;21.8700000;19.1000000;21.0700000;0
 15 | BZ;M;20020301;000000;21.0600000;25.6000000;21.0600000;25.6000000;0
 16 | BZ;M;20020401;000000;25.6000000;27.5900000;22.1300000;27.0100000;0
 17 | BZ;M;20020501;000000;26.6600000;27.1700000;23.4900000;23.8900000;0
 18 | BZ;M;20020601;000000;23.4900000;25.4900000;22.6000000;25.4400000;0
 19 | BZ;M;20020701;000000;25.4400000;26.6700000;24.8300000;25.8500000;0
 20 | BZ;M;20020801;000000;25.8400000;28.1500000;25.1600000;27.3800000;0
 21 | BZ;M;20020901;000000;27.4300000;29.7500000;26.6400000;28.8700000;0
 22 | BZ;M;20021001;000000;28.8700000;29.4100000;25.2300000;25.6800000;0
 23 | BZ;M;20021101;000000;25.6800000;25.9300000;22.6100000;25.2000000;0
 24 | BZ;M;20021201;000000;24.9600000;32.4200000;24.9100000;29.9900000;0
 25 | BZ;M;20030101;000000;31.1300000;32.5600000;28.9700000;31.4500000;0
 26 | BZ;M;20030201;000000;31.5700000;34.4200000;30.4400000;33.9100000;0
 27 | BZ;M;20030301;000000;33.0600000;35.3300000;24.9800000;27.9800000;0
 28 | BZ;M;20030401;000000;28.1900000;28.1900000;23.0300000;23.5900000;0
 29 | BZ;M;20030501;000000;23.9100000;27.4100000;23.3700000;26.8000000;0
 30 | BZ;M;20030601;000000;26.4800000;28.8000000;26.0100000;28.1600000;0
 31 | BZ;M;20030701;000000;28.1600000;29.2700000;27.4000000;28.5900000;0
 32 | BZ;M;20030801;000000;28.5900000;30.7000000;28.5900000;30.0500000;0
 33 | BZ;M;20030901;000000;29.8000000;29.8000000;25.2400000;28.3400000;0
 34 | BZ;M;20031001;000000;28.3400000;31.8100000;27.5500000;27.9400000;0
 35 | BZ;M;20031101;000000;27.6600000;30.3600000;27.4300000;28.7600000;0
 36 | BZ;M;20031201;000000;28.7600000;31.4600000;28.1500000;30.4800000;0
 37 | BZ;M;20040101;000000;30.1200000;32.6700000;29.2900000;29.5100000;0
 38 | BZ;M;20040201;000000;29.2900000;33.0100000;28.8900000;33.0100000;0
 39 | BZ;M;20040301;000000;33.0100000;35.0700000;32.2900000;32.3600000;0
 40 | BZ;M;20040401;000000;32.3600000;35.3100000;30.9000000;35.1200000;0
 41 | BZ;M;20040501;000000;34.4700000;39.9500000;34.3700000;36.9800000;0
 42 | BZ;M;20040601;000000;38.0400000;39.4000000;32.3700000;33.5100000;0
 43 | BZ;M;20040701;000000;33.4800000;42.1900000;33.3000000;41.6000000;0
 44 | BZ;M;20040801;000000;41.3800000;46.1700000;39.2700000;39.3300000;0
 45 | BZ;M;20040901;000000;39.3800000;47.9000000;39.3800000;47.0800000;0
 46 | BZ;M;20041001;000000;47.0600000;52.3900000;46.2400000;48.7800000;0
 47 | BZ;M;20041101;000000;49.0200000;49.4200000;39.0300000;44.0300000;0
 48 | BZ;M;20041201;000000;43.7400000;43.8800000;35.7100000;40.2400000;0
 49 | BZ;M;20050101;000000;40.2400000;47.0900000;38.7400000;45.8700000;0
 50 | BZ;M;20050201;000000;45.4200000;50.2800000;41.6000000;50.1400000;0
 51 | BZ;M;20050301;000000;50.1200000;56.3300000;49.2800000;53.0500000;0
 52 | BZ;M;20050401;000000;53.0800000;55.9300000;48.5100000;49.3300000;0
 53 | BZ;M;20050501;000000;51.6500000;51.9200000;46.2000000;49.8300000;0
 54 | BZ;M;20050601;000000;49.7300000;58.9300000;49.7100000;54.8500000;0
 55 | BZ;M;20050701;000000;54.8700000;60.0200000;54.5300000;59.7000000;0
 56 | BZ;M;20050801;000000;59.5300000;68.7600000;59.5300000;66.6800000;0
 57 | BZ;M;20050901;000000;66.7000000;67.4700000;59.9200000;62.5600000;0
 58 | BZ;M;20051001;000000;62.9700000;63.1500000;55.8800000;58.3500000;0
 59 | BZ;M;20051101;000000;58.3300000;61.0800000;51.9100000;53.4100000;0
 60 | BZ;M;20051201;000000;53.4500000;59.8500000;53.0300000;58.8700000;0
 61 | BZ;M;20060101;000000;57.7300000;67.1100000;57.2600000;65.4300000;0
 62 | BZ;M;20060201;000000;65.3000000;66.5300000;55.9400000;60.0500000;0
 63 | BZ;M;20060301;000000;59.7600000;65.9600000;57.6100000;64.9400000;0
 64 | BZ;M;20060401;000000;65.6100000;74.8800000;64.8600000;72.0000000;0
 65 | BZ;M;20060501;000000;70.8100000;75.0000000;66.6600000;69.0000000;0
 66 | BZ;M;20060601;000000;69.0400000;73.6800000;65.5200000;73.2800000;0
 67 | BZ;M;20060701;000000;72.8800000;76.9000000;71.1700000;75.1600000;0
 68 | BZ;M;20060801;000000;75.1600000;78.7500000;67.5400000;69.6400000;0
 69 | BZ;M;20060901;000000;69.6900000;70.0500000;58.3200000;61.3700000;0
 70 | BZ;M;20061001;000000;60.8800000;61.6900000;55.5600000;56.9700000;0
 71 | BZ;M;20061101;000000;56.7100000;64.9300000;55.6600000;64.4200000;0
 72 | BZ;M;20061201;000000;63.0000000;65.4300000;59.3900000;60.1300000;0
 73 | BZ;M;20070101;000000;59.9900000;61.9800000;50.4000000;57.2100000;0
 74 | BZ;M;20070201;000000;57.2300000;61.2700000;54.3400000;60.6600000;0
 75 | BZ;M;20070301;000000;60.6900000;69.1800000;58.7000000;68.4200000;0
 76 | BZ;M;20070401;000000;67.7000000;69.7200000;64.2700000;67.2800000;0
 77 | BZ;M;20070501;000000;66.7500000;73.0600000;63.1900000;68.8200000;0
 78 | BZ;M;20070601;000000;68.8200000;73.7900000;68.3400000;73.2600000;0
 79 | BZ;M;20070701;000000;75.2400000;80.5300000;75.1400000;78.0500000;0
 80 | BZ;M;20070801;000000;78.0500000;78.8500000;68.1900000;73.5300000;0
 81 | BZ;M;20070901;000000;73.5300000;82.1700000;73.5300000;81.7500000;0
 82 | BZ;M;20071001;000000;82.0600000;91.1800000;76.9400000;91.1400000;503751
 83 | BZ;M;20071101;000000;91.0200000;96.6500000;87.4100000;88.0000000;753077
 84 | BZ;M;20071201;000000;87.9700000;95.8700000;86.5600000;93.8500000;582070
 85 | BZ;M;20080101;000000;94.4700000;98.5000000;85.0000000;91.9800000;714965
 86 | BZ;M;20080201;000000;91.9100000;101.2700000;86.8300000;100.0400000;720429
 87 | BZ;M;20080301;000000;100.1000000;107.9700000;96.9800000;100.5100000;626914
 88 | BZ;M;20080401;000000;100.5000000;117.5600000;99.0000000;112.7100000;668036
 89 | BZ;M;20080501;000000;112.6900000;135.1400000;108.4200000;128.2700000;629343
 90 | BZ;M;20080601;000000;127.2200000;143.9100000;121.3200000;140.3000000;576905
 91 | BZ;M;20080701;000000;140.4300000;148.4000000;120.9900000;123.9600000;520900
 92 | BZ;M;20080801;000000;124.0200000;127.8800000;110.3400000;115.1700000;489003
 93 | BZ;M;20080901;000000;115.5600000;115.5600000;88.9000000;98.9600000;575917
 94 | BZ;M;20081001;000000;99.1900000;100.3100000;59.2200000;65.6000000;520392
 95 | BZ;M;20081101;000000;65.3900000;67.7600000;47.4000000;53.4900000;527815
 96 | BZ;M;20081201;000000;53.0000000;53.0000000;36.2000000;45.5900000;628018
 97 | BZ;M;20090101;000000;43.8500000;52.1900000;41.6000000;45.9300000;668603
 98 | BZ;M;20090201;000000;46.0600000;49.6000000;39.3500000;45.8400000;485963
 99 | BZ;M;20090301;000000;45.5600000;53.8000000;41.6000000;48.6800000;477244
100 | BZ;M;20090401;000000;48.6500000;55.1300000;47.2700000;50.6400000;675383
101 | BZ;M;20090501;000000;50.6800000;65.8000000;49.9600000;65.8000000;865871
102 | BZ;M;20090601;000000;66.0000000;73.5000000;64.9100000;69.4200000;885022
103 | BZ;M;20090701;000000;69.5500000;72.1100000;59.5300000;71.5200000;961429
104 | BZ;M;20090801;000000;71.4600000;76.0000000;68.8500000;69.3200000;881507
105 | BZ;M;20090901;000000;69.3400000;72.2000000;64.0800000;68.9200000;998092
106 | BZ;M;20091001;000000;68.9500000;80.2600000;65.9100000;75.0900000;1093004
107 | BZ;M;20091101;000000;75.2300000;80.1400000;73.7000000;78.3600000;1206788
108 | BZ;M;20091201;000000;78.3200000;79.9100000;71.8500000;77.9300000;961690
109 | BZ;M;20100101;000000;78.4100000;82.9500000;71.0200000;71.1800000;972394
110 | BZ;M;20100201;000000;71.4200000;78.9400000;67.8800000;78.0300000;1114945
111 | BZ;M;20100301;000000;78.0900000;82.8200000;76.2100000;82.1700000;1123724
112 | BZ;M;20100401;000000;82.2600000;87.9600000;82.2000000;87.3500000;1161460
113 | BZ;M;20100501;000000;87.2600000;89.5800000;68.1500000;74.6000000;1430468
114 | BZ;M;20100601;000000;74.9000000;79.8600000;70.5000000;74.6600000;1694047
115 | BZ;M;20100701;000000;74.6500000;78.3100000;70.7700000;78.2600000;1564294
116 | BZ;M;20100801;000000;78.1100000;82.8600000;71.7500000;74.4200000;1569322
117 | BZ;M;20100901;000000;74.4900000;82.4000000;74.3700000;82.1100000;1696391
118 | BZ;M;20101001;000000;82.2100000;86.0200000;80.7500000;83.2600000;1796166
119 | BZ;M;20101101;000000;83.2000000;89.7000000;82.4300000;85.4500000;1859326
120 | BZ;M;20101201;000000;85.7100000;95.2000000;85.4100000;94.5900000;1268023
121 | BZ;M;20110101;000000;94.7400000;101.7300000;92.3700000;100.5600000;1547361
122 | BZ;M;20110201;000000;101.0100000;119.7900000;97.5100000;112.1000000;1836935
123 | BZ;M;20110301;000000;111.9000000;118.5000000;107.4000000;117.1700000;2193264
124 | BZ;M;20110401;000000;117.6100000;126.9100000;116.7500000;126.0300000;1736772
125 | BZ;M;20110501;000000;126.0000000;126.5400000;105.1500000;116.6800000;2421181
126 | BZ;M;20110601;000000;117.0700000;120.0000000;102.2800000;111.8000000;2511187
127 | BZ;M;20110701;000000;111.8000000;119.8700000;109.5000000;117.5400000;1863999
128 | BZ;M;20110801;000000;117.5800000;120.4000000;98.8600000;114.4900000;2591383
129 | BZ;M;20110901;000000;114.8500000;116.6000000;101.6600000;102.1500000;2376524
130 | BZ;M;20111001;000000;101.9000000;113.8600000;99.1100000;109.1900000;2417460
131 | BZ;M;20111101;000000;109.1800000;116.4800000;105.6500000;110.3700000;2320442
132 | BZ;M;20111201;000000;110.7500000;111.6200000;102.3700000;107.2200000;1709504
133 | BZ;M;20120101;000000;108.3500000;114.7700000;108.3500000;111.1600000;2112198
134 | BZ;M;20120201;000000;111.3000000;125.5500000;111.0200000;123.0400000;2125901
135 | BZ;M;20120301;000000;123.0000000;128.4000000;121.3800000;122.8000000;2182752
136 | BZ;M;20120401;000000;122.3000000;125.3600000;116.7000000;119.4700000;1784928
137 | BZ;M;20120501;000000;119.2500000;119.7000000;101.2700000;101.6200000;1918407
138 | BZ;M;20120601;000000;101.2200000;101.9500000;88.4900000;97.5700000;2272889
139 | BZ;M;20120701;000000;97.8500000;108.1800000;95.3500000;104.6200000;1954832
140 | BZ;M;20120801;000000;103.4700000;116.3800000;102.9700000;114.9200000;1820877
141 | BZ;M;20120901;000000;114.1400000;117.9500000;107.1000000;112.1400000;1883884
142 | BZ;M;20121001;000000;112.1400000;114.9500000;106.8000000;108.4000000;2052252
143 | BZ;M;20121101;000000;107.4200000;112.2000000;104.0900000;111.1700000;1810427
144 | BZ;M;20121201;000000;110.1000000;111.5200000;105.8000000;111.1100000;1139236
145 | BZ;M;20130101;000000;110.1500000;115.7600000;108.9000000;114.5600000;1693942
146 | BZ;M;20130201;000000;114.9000000;118.2900000;110.8700000;111.0000000;1826813
147 | BZ;M;20130301;000000;109.9000000;111.2900000;106.9000000;109.8900000;1710552
148 | BZ;M;20130401;000000;109.9100000;111.5300000;96.7500000;101.7400000;2340247
149 | BZ;M;20130501;000000;101.5100000;105.4200000;98.3200000;100.1500000;1900382
150 | BZ;M;20130601;000000;99.8000000;106.6700000;99.4700000;101.5000000;2124918
151 | BZ;M;20130701;000000;101.4900000;109.1800000;101.2300000;107.7000000;1796078
152 | BZ;M;20130801;000000;106.9100000;117.3400000;104.5900000;114.4500000;1878065
153 | BZ;M;20130901;000000;112.2000000;114.8500000;107.2200000;108.2000000;1789282
154 | BZ;M;20131001;000000;107.4200000;111.3000000;106.0000000;108.9000000;2131554
155 | BZ;M;20131101;000000;108.7800000;111.6600000;103.1300000;110.1100000;2000149
156 | BZ;M;20131201;000000;109.3000000;112.8000000;107.6100000;110.9000000;1413124
157 | BZ;M;20140101;000000;110.7400000;111.0700000;105.0600000;105.7900000;1778507
158 | BZ;M;20140201;000000;105.7500000;110.8200000;104.7800000;108.6500000;1593813
159 | BZ;M;20140301;000000;108.8300000;111.8700000;105.4100000;107.7000000;1746747
160 | BZ;M;20140401;000000;107.5500000;110.6400000;103.9600000;108.1400000;1951225
161 | BZ;M;20140501;000000;107.5400000;111.0400000;106.3200000;109.4900000;1530457
162 | BZ;M;20140601;000000;108.7700000;115.7100000;107.1100000;112.4000000;1967529
163 | BZ;M;20140701;000000;112.5000000;112.6000000;105.4100000;105.5200000;2267661
164 | BZ;M;20140801;000000;105.6000000;107.4500000;101.0700000;103.1100000;1928171
165 | BZ;M;20140901;000000;103.1000000;103.8100000;94.2400000;94.8000000;2089763
166 | BZ;M;20141001;000000;94.7700000;96.7800000;82.9300000;85.9600000;3311957
167 | BZ;M;20141101;000000;86.2800000;86.9000000;68.2200000;68.3400000;2284679
168 | BZ;M;20141201;000000;68.3000000;73.4000000;55.8100000;57.5400000;2220624
169 | BZ;M;20150101;000000;58.0200000;58.5400000;45.1900000;52.9500000;3071410
170 | BZ;M;20150201;000000;52.6000000;63.0000000;51.4100000;62.4800000;2994412
171 | BZ;M;20150301;000000;62.8300000;62.9600000;52.5700000;55.1000000;2560451
172 | BZ;M;20150401;000000;55.1700000;66.9300000;54.7000000;66.8000000;2693082
173 | BZ;M;20150501;000000;66.7800000;69.6300000;61.2400000;65.1900000;2673781
174 | BZ;M;20150601;000000;65.2400000;66.9400000;61.3500000;63.1400000;2643807
175 | BZ;M;20150701;000000;63.0200000;63.6400000;51.6300000;51.8500000;2738087
176 | BZ;M;20150801;000000;51.5500000;54.3200000;42.2300000;53.1200000;3908759
177 | BZ;M;20150901;000000;52.9200000;53.4700000;46.7600000;48.4400000;3501234
178 | BZ;M;20151001;000000;48.4000000;54.0500000;46.4100000;49.5000000;3169551
179 | BZ;M;20151101;000000;49.4200000;50.9100000;43.1600000;44.5000000;3090339
180 | BZ;M;20151201;000000;44.6200000;45.1800000;35.9800000;37.6000000;3437508
181 | BZ;M;20160101;000000;37.8500000;38.9900000;27.1000000;35.9100000;3952620
182 | BZ;M;20160201;000000;35.9200000;36.0500000;32.2300000;34.1300000;1239834
183 | 


--------------------------------------------------------------------------------
/data/EURRUB_010201_160208.csv:
--------------------------------------------------------------------------------
  1 | <TICKER>;<PER>;<DATE>;<TIME>;<OPEN>;<HIGH>;<LOW>;<CLOSE>;<VOL>
  2 | EURRUB;M;20010201;000000;26.7865000;27.0124000;25.8947000;26.3731000;0
  3 | EURRUB;M;20010301;000000;26.4970000;26.8857000;25.2590000;25.2731000;0
  4 | EURRUB;M;20010401;000000;25.2587000;26.2452000;25.2245000;25.5490000;0
  5 | EURRUB;M;20010501;000000;25.6629000;26.0838000;24.6672000;24.5440000;0
  6 | EURRUB;M;20010601;000000;24.6223000;25.2716000;24.5394000;24.5130000;0
  7 | EURRUB;M;20010701;000000;24.6922000;25.8035000;24.3431000;25.6827000;0
  8 | EURRUB;M;20010801;000000;25.8080000;27.1303000;24.6400000;26.7253000;0
  9 | EURRUB;M;20010901;000000;26.7420000;27.4756000;26.0179000;26.7991000;0
 10 | EURRUB;M;20011001;000000;26.8090000;27.2580000;26.2400000;26.7400000;0
 11 | EURRUB;M;20011101;000000;26.7400000;27.1300000;26.1156000;26.8100000;0
 12 | EURRUB;M;20011201;000000;26.8000000;27.6312000;26.4200000;27.1600000;0
 13 | EURRUB;M;20020101;000000;27.1320000;27.7059000;26.2600000;26.3300000;0
 14 | EURRUB;M;20020201;000000;26.3700000;27.1620000;26.3400000;26.8800000;0
 15 | EURRUB;M;20020301;000000;26.9400000;27.6140000;26.7900000;27.1900000;0
 16 | EURRUB;M;20020401;000000;27.1900000;28.2610000;27.1900000;28.1100000;0
 17 | EURRUB;M;20020501;000000;28.1100000;29.4800000;28.1000000;29.2400000;0
 18 | EURRUB;M;20020601;000000;29.2200000;31.4700000;29.1700000;31.2200000;0
 19 | EURRUB;M;20020701;000000;31.2100000;32.1800000;30.6580000;30.7800000;0
 20 | EURRUB;M;20020801;000000;30.8000000;31.3000000;30.3900000;31.0000000;0
 21 | EURRUB;M;20020901;000000;30.5600000;31.6100000;29.9800000;31.2800000;0
 22 | EURRUB;M;20021001;000000;31.2800000;31.6430000;30.1300000;31.4900000;0
 23 | EURRUB;M;20021101;000000;31.4900000;32.5360000;30.3660000;31.6370000;0
 24 | EURRUB;M;20021201;000000;31.6370000;33.5900000;31.2640000;33.5000000;0
 25 | EURRUB;M;20030101;000000;33.4900000;34.7000000;33.0000000;34.2700000;0
 26 | EURRUB;M;20030201;000000;34.2600000;34.8310000;33.6700000;34.0800000;0
 27 | EURRUB;M;20030301;000000;34.1100000;34.9000000;33.1000000;34.2500000;0
 28 | EURRUB;M;20030401;000000;34.2200000;34.7900000;33.0520000;34.7700000;0
 29 | EURRUB;M;20030501;000000;34.7900000;36.6300000;34.7100000;36.1500000;0
 30 | EURRUB;M;20030601;000000;36.0600000;36.3730000;34.6000000;34.9300000;0
 31 | EURRUB;M;20030701;000000;34.9500000;35.1400000;33.9100000;33.9800000;0
 32 | EURRUB;M;20030801;000000;33.9600000;34.6300000;32.7800000;33.5000000;0
 33 | EURRUB;M;20030901;000000;33.5100000;35.8700000;32.9400000;35.6500000;0
 34 | EURRUB;M;20031001;000000;35.6300000;35.9460000;34.6700000;34.7100000;0
 35 | EURRUB;M;20031101;000000;34.7200000;35.7150000;33.9200000;35.6400000;0
 36 | EURRUB;M;20031201;000000;35.6500000;36.9600000;35.4810000;36.7900000;0
 37 | EURRUB;M;20040101;000000;36.8100000;37.4200000;35.2200000;35.5700000;0
 38 | EURRUB;M;20040201;000000;35.5800000;36.8000000;35.2900000;35.6100000;0
 39 | EURRUB;M;20040301;000000;35.6300000;35.7500000;34.4100000;35.1200000;0
 40 | EURRUB;M;20040401;000000;34.8730000;35.3100000;33.9900000;34.7400000;0
 41 | EURRUB;M;20040501;000000;34.7600000;35.6580000;34.1640000;35.3200000;0
 42 | EURRUB;M;20040601;000000;35.3300000;35.8700000;34.7100000;35.4200000;0
 43 | EURRUB;M;20040701;000000;35.4000000;36.2400000;34.9100000;34.9500000;0
 44 | EURRUB;M;20040801;000000;34.9500000;36.2100000;34.9380000;35.6100000;0
 45 | EURRUB;M;20040901;000000;35.1100000;36.3500000;35.1100000;36.3200000;0
 46 | EURRUB;M;20041001;000000;36.3200000;37.0500000;35.6180000;36.7400000;0
 47 | EURRUB;M;20041101;000000;36.7600000;37.7300000;36.4700000;37.3500000;0
 48 | EURRUB;M;20041201;000000;37.3400000;37.9600000;36.8300000;37.5600000;0
 49 | EURRUB;M;20050101;000000;37.5600000;37.6300000;36.1800000;36.5150000;0
 50 | EURRUB;M;20050201;000000;36.5300000;36.8800000;35.8400000;36.5940000;0
 51 | EURRUB;M;20050301;000000;36.5960000;37.0400000;35.7300000;36.1270000;0
 52 | EURRUB;M;20050401;000000;36.1210000;36.3600000;35.6200000;35.7500000;0
 53 | EURRUB;M;20050501;000000;35.7670000;36.0920000;34.7300000;34.7200000;0
 54 | EURRUB;M;20050601;000000;34.7510000;35.0410000;34.2200000;34.6340000;0
 55 | EURRUB;M;20050701;000000;34.6150000;35.0340000;34.0900000;34.7170000;0
 56 | EURRUB;M;20050801;000000;34.8340000;35.4900000;34.6300000;35.1500000;0
 57 | EURRUB;M;20050901;000000;35.1500000;35.6160000;34.2330000;34.3220000;0
 58 | EURRUB;M;20051001;000000;34.1200000;34.7400000;34.0760000;34.2460000;0
 59 | EURRUB;M;20051101;000000;34.2090000;34.5550000;33.6000000;33.9540000;0
 60 | EURRUB;M;20051201;000000;33.9460000;34.5330000;33.7530000;34.0330000;0
 61 | EURRUB;M;20060101;000000;34.0200000;34.9950000;33.8710000;34.1850000;0
 62 | EURRUB;M;20060201;000000;34.1770000;34.2230000;33.2990000;33.4140000;0
 63 | EURRUB;M;20060301;000000;33.4860000;33.7470000;33.2170000;33.5620000;0
 64 | EURRUB;M;20060401;000000;33.3660000;34.4060000;33.3660000;34.4060000;0
 65 | EURRUB;M;20060501;000000;34.4030000;34.8430000;34.2250000;34.6300000;0
 66 | EURRUB;M;20060601;000000;34.5350000;34.7480000;33.8800000;34.3140000;0
 67 | EURRUB;M;20060701;000000;34.3080000;34.4800000;33.7600000;34.2230000;0
 68 | EURRUB;M;20060801;000000;34.1930000;34.4760000;34.1190000;34.2660000;0
 69 | EURRUB;M;20060901;000000;34.2480000;34.4090000;33.8310000;33.9570000;0
 70 | EURRUB;M;20061001;000000;33.9490000;34.1200000;33.7010000;34.0200000;0
 71 | EURRUB;M;20061101;000000;34.0090000;34.8100000;33.8600000;34.7780000;0
 72 | EURRUB;M;20061201;000000;34.8000000;34.9260000;34.1810000;34.7430000;0
 73 | EURRUB;M;20070101;000000;34.7210000;34.9650000;34.1810000;34.4280000;0
 74 | EURRUB;M;20070201;000000;34.5000000;34.5970000;34.2020000;34.5140000;0
 75 | EURRUB;M;20070301;000000;34.5360000;34.7960000;34.3650000;34.6370000;0
 76 | EURRUB;M;20070401;000000;34.6380000;35.1280000;34.4800000;35.0710000;0
 77 | EURRUB;M;20070501;000000;35.0950000;35.1080000;34.4800000;34.7510000;0
 78 | EURRUB;M;20070601;000000;34.7560000;34.9980000;34.5180000;34.8520000;0
 79 | EURRUB;M;20070701;000000;34.8110000;35.1710000;34.7360000;35.0040000;0
 80 | EURRUB;M;20070801;000000;34.9590000;35.2120000;34.4750000;34.9370000;0
 81 | EURRUB;M;20070901;000000;34.9610000;35.6920000;34.3470000;35.4300000;0
 82 | EURRUB;M;20071001;000000;35.4520000;35.6870000;35.1470000;35.6680000;0
 83 | EURRUB;M;20071101;000000;35.6740000;36.1970000;35.5650000;35.7950000;0
 84 | EURRUB;M;20071201;000000;35.8370000;36.1250000;35.4770000;35.7900000;0
 85 | EURRUB;M;20080101;000000;35.7610000;36.3620000;35.5810000;36.2900000;0
 86 | EURRUB;M;20080201;000000;36.3180000;36.5420000;35.7220000;36.4420000;0
 87 | EURRUB;M;20080301;000000;36.3340000;37.2340000;36.4510000;36.9990000;0
 88 | EURRUB;M;20080401;000000;36.9970000;37.3540000;36.7550000;36.8740000;0
 89 | EURRUB;M;20080501;000000;36.9180000;37.2510000;36.5820000;36.8470000;0
 90 | EURRUB;M;20080601;000000;36.8220000;37.2180000;36.5160000;36.8980000;0
 91 | EURRUB;M;20080701;000000;36.9760000;37.1360000;36.4630000;36.5470000;0
 92 | EURRUB;M;20080801;000000;36.5340000;36.8180000;35.8980000;36.0680000;0
 93 | EURRUB;M;20080901;000000;36.0940000;37.0980000;35.8570000;36.0930000;0
 94 | EURRUB;M;20081001;000000;36.0990000;36.2460000;33.9410000;34.4930000;0
 95 | EURRUB;M;20081101;000000;34.4710000;35.7310000;34.0740000;35.5260000;0
 96 | EURRUB;M;20081201;000000;35.5320000;41.8360000;35.2070000;41.2600000;0
 97 | EURRUB;M;20090101;000000;41.2330000;46.0450000;38.8780000;45.8090000;0
 98 | EURRUB;M;20090201;000000;45.6970000;47.0410000;43.9150000;45.5280000;0
 99 | EURRUB;M;20090301;000000;45.4580000;46.0440000;44.3500000;45.1270000;0
100 | EURRUB;M;20090401;000000;44.9740000;45.2030000;43.3320000;43.7680000;0
101 | EURRUB;M;20090501;000000;43.7610000;44.2530000;43.0990000;43.6140000;0
102 | EURRUB;M;20090601;000000;43.5320000;44.1160000;42.9480000;43.7250000;0
103 | EURRUB;M;20090701;000000;43.7120000;46.1610000;43.6440000;44.7220000;0
104 | EURRUB;M;20090801;000000;44.7720000;46.4210000;44.3880000;45.5490000;0
105 | EURRUB;M;20090901;000000;45.5410000;45.7280000;43.7980000;43.9390000;0
106 | EURRUB;M;20091001;000000;43.9380000;44.2730000;42.8410000;42.9120000;0
107 | EURRUB;M;20091101;000000;42.8690000;44.4630000;42.6380000;43.8650000;0
108 | EURRUB;M;20091201;000000;43.8590000;45.3970000;42.2550000;43.1560000;0
109 | EURRUB;M;20100101;000000;43.5330000;43.8480000;41.7720000;42.1110000;0
110 | EURRUB;M;20100201;000000;41.9560000;42.2950000;40.4530000;40.7980000;0
111 | EURRUB;M;20100301;000000;40.7980000;40.9610000;39.2950000;39.7650000;0
112 | EURRUB;M;20100401;000000;39.7560000;39.9850000;38.5870000;38.8210000;0
113 | EURRUB;M;20100501;000000;38.8380000;39.9760000;37.1020000;37.9890000;0
114 | EURRUB;M;20100601;000000;37.9930000;38.8190000;37.5860000;38.2320000;0
115 | EURRUB;M;20100701;000000;38.2260000;39.6390000;38.1160000;39.4810000;0
116 | EURRUB;M;20100801;000000;39.4770000;39.7090000;38.7800000;39.1020000;0
117 | EURRUB;M;20100901;000000;39.0970000;41.8220000;39.0830000;41.6720000;0
118 | EURRUB;M;20101001;000000;41.6690000;43.5780000;41.2750000;43.0060000;0
119 | EURRUB;M;20101101;000000;43.0590000;43.9110000;40.7830000;40.9240000;0
120 | EURRUB;M;20101201;000000;40.9490000;42.0220000;39.6570000;40.8370000;0
121 | EURRUB;M;20110101;000000;40.7370000;41.9840000;39.3070000;40.7758000;0
122 | EURRUB;M;20110201;000000;40.7940000;40.9450000;39.3680000;39.8317000;0
123 | EURRUB;M;20110301;000000;39.8273000;42.8239000;39.0430000;40.2647000;0
124 | EURRUB;M;20110401;000000;40.2846000;40.9340000;39.6253000;40.4770000;0
125 | EURRUB;M;20110501;000000;40.4710000;40.8230000;39.4519000;40.2421000;0
126 | EURRUB;M;20110601;000000;40.2557000;40.8930000;39.6733000;40.4774000;0
127 | EURRUB;M;20110701;000000;40.4556000;40.6000000;39.3387000;39.7120000;0
128 | EURRUB;M;20110801;000000;39.8620000;42.9546000;39.3270000;41.4567000;11
129 | EURRUB;M;20110901;000000;41.4630000;43.8220000;40.6942000;43.1200000;0
130 | EURRUB;M;20111001;000000;43.1197000;43.6284000;40.5760000;41.8020000;0
131 | EURRUB;M;20111101;000000;41.9760000;42.4580000;40.5760000;41.2785000;0
132 | EURRUB;M;20111201;000000;41.2630000;42.1987000;40.5589000;41.6120000;0
133 | EURRUB;M;20120101;000000;41.6307000;41.9320000;39.5489000;39.6190000;0
134 | EURRUB;M;20120201;000000;39.6380000;39.8976000;38.7470000;38.7490000;179
135 | EURRUB;M;20120301;000000;38.7612000;39.3930000;38.2640000;39.2430000;0
136 | EURRUB;M;20120401;000000;39.1920000;39.3010000;38.3060000;38.8550000;0
137 | EURRUB;M;20120501;000000;38.8399000;41.6816000;38.5500000;41.2830000;0
138 | EURRUB;M;20120601;000000;41.2800000;42.3390000;39.5828000;41.0360000;0
139 | EURRUB;M;20120701;000000;41.0541000;41.2640000;38.7410000;39.6182000;0
140 | EURRUB;M;20120801;000000;39.6230000;40.8560000;38.7940000;40.5370000;2176
141 | EURRUB;M;20120901;000000;40.5510000;41.1660000;35.8580000;40.0470000;0
142 | EURRUB;M;20121001;000000;40.0691000;41.0250000;35.5630000;40.8200000;0
143 | EURRUB;M;20121101;000000;40.6410000;41.0090000;39.8778000;40.1110000;0
144 | EURRUB;M;20121201;000000;40.1090000;40.9710000;39.6485000;40.3071000;0
145 | EURRUB;M;20130101;000000;40.3095000;40.8210000;39.3200000;40.7505000;0
146 | EURRUB;M;20130201;000000;40.7610000;40.9360000;38.7676000;39.9450000;0
147 | EURRUB;M;20130301;000000;39.9840000;40.3360000;39.4720000;39.7890000;0
148 | EURRUB;M;20130401;000000;39.8010000;41.5960000;39.6251000;40.9970000;0
149 | EURRUB;M;20130501;000000;40.9970000;41.5364000;40.0980000;41.4979000;0
150 | EURRUB;M;20130601;000000;41.4860000;43.7695000;41.4010000;42.6990000;0
151 | EURRUB;M;20130701;000000;42.7258000;43.9909000;41.9989000;43.7610000;0
152 | EURRUB;M;20130801;000000;43.8440000;44.4480000;43.4780000;43.9940000;0
153 | EURRUB;M;20130901;000000;43.8870000;44.1790000;42.6160000;43.8170000;0
154 | EURRUB;M;20131001;000000;43.8200000;44.3006000;43.2044000;43.5150000;0
155 | EURRUB;M;20131101;000000;43.5140000;45.2180000;43.0940000;45.0070000;0
156 | EURRUB;M;20131201;000000;45.0010000;45.4120000;44.4690000;45.0800000;0
157 | EURRUB;M;20140101;000000;45.0830000;48.2330000;44.8970000;47.4121000;0
158 | EURRUB;M;20140201;000000;47.4040000;49.9730000;46.7915000;49.7238000;8152
159 | EURRUB;M;20140301;000000;49.7330000;51.1000000;48.2400000;48.2410000;0
160 | EURRUB;M;20140401;000000;48.2700000;50.1750000;48.1210000;49.3966000;0
161 | EURRUB;M;20140501;000000;49.4100000;49.7860000;46.3095000;47.5560000;10
162 | EURRUB;M;20140601;000000;47.5990000;47.9820000;45.6946000;46.5090000;0
163 | EURRUB;M;20140701;000000;46.5230000;48.1700000;45.9980000;47.8380000;0
164 | EURRUB;M;20140801;000000;47.8170000;48.9500000;47.3520000;48.6690000;0
165 | EURRUB;M;20140901;000000;48.6401000;50.3240000;47.4980000;49.9790000;0
166 | EURRUB;M;20141001;000000;50.0040000;55.1340000;49.5820000;53.8429000;36580
167 | EURRUB;M;20141101;000000;53.9430000;62.9240000;53.7280000;62.5680000;1174100
168 | EURRUB;M;20141201;000000;63.0220000;97.9070000;62.2171000;72.0110000;1161596
169 | EURRUB;M;20150101;000000;70.2750000;81.5210000;69.0730000;77.9880000;1189131
170 | EURRUB;M;20150201;000000;79.1556000;79.7930000;67.7390000;68.3290000;2096635
171 | EURRUB;M;20150301;000000;69.3220000;71.3400000;61.0450000;62.3190000;2462191
172 | EURRUB;M;20150401;000000;62.4590000;63.0170000;52.2374000;57.6160000;4397019
173 | EURRUB;M;20150501;000000;57.9910000;58.7235000;53.5299000;57.5480000;328540
174 | EURRUB;M;20150601;000000;57.1850000;64.8880000;57.0800000;61.4590000;1104461
175 | EURRUB;M;20150701;000000;61.6390000;67.8490000;60.6110000;66.5530000;3900649
176 | EURRUB;M;20150801;000000;67.8250000;83.5910000;66.4890000;72.1250000;5093079
177 | EURRUB;M;20150901;000000;72.1050000;77.9390000;70.7410000;72.9610000;5088833
178 | EURRUB;M;20151001;000000;72.9850000;75.3670000;67.4863000;70.1060000;5291739
179 | EURRUB;M;20151101;000000;70.4700000;72.8560000;67.6420000;70.0730000;6978686
180 | EURRUB;M;20151201;000000;70.0610000;81.1350000;69.8330000;79.0200000;8049234
181 | EURRUB;M;20160101;000000;78.9790000;93.6900000;77.4429000;81.7450000;7689824
182 | EURRUB;M;20160201;000000;82.6100000;88.5290000;81.5410000;86.7380000;2403060
183 | 


--------------------------------------------------------------------------------
/data/GDP.csv:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/MLMethods/Practice/ed03a18b83e0973a8fd540fcc6c1f766db857c64/data/GDP.csv


--------------------------------------------------------------------------------
/data/SAT_GPA.csv:
--------------------------------------------------------------------------------
  1 | high_GPA math_SAT verb_SAT comp_GPA univ_GPA
  2 | 3.45 643 589 3.76 3.52
  3 | 2.78 558 512 2.87 2.91
  4 | 2.52 583 503 2.54 2.4
  5 | 3.67 685 602 3.83 3.47
  6 | 3.24 592 538 3.29 3.47
  7 | 2.1 562 486 2.64 2.37
  8 | 2.82 573 548 2.86 2.4
  9 | 2.36 559 536 2.03 2.24
 10 | 2.42 552 583 2.81 3.02
 11 | 3.51 617 591 3.41 3.32
 12 | 3.48 684 649 3.61 3.59
 13 | 2.14 568 592 2.48 2.54
 14 | 2.59 604 582 3.21 3.19
 15 | 3.46 619 624 3.52 3.71
 16 | 3.51 642 619 3.41 3.58
 17 | 3.68 683 642 3.52 3.4
 18 | 3.91 703 684 3.84 3.73
 19 | 3.72 712 652 3.64 3.49
 20 | 2.15 564 501 2.14 2.25
 21 | 2.48 557 549 2.21 2.37
 22 | 3.09 591 584 3.17 3.29
 23 | 2.71 599 562 3.01 3.19
 24 | 2.46 607 619 3.17 3.28
 25 | 3.32 619 558 3.01 3.37
 26 | 3.61 700 721 3.72 3.61
 27 | 3.82 718 732 3.78 3.81
 28 | 2.64 580 538 2.51 2.4
 29 | 2.19 562 507 2.1 2.21
 30 | 3.34 683 648 3.21 3.58
 31 | 3.48 717 724 3.68 3.51
 32 | 3.56 701 714 3.48 3.62
 33 | 3.81 691 684 3.71 3.6
 34 | 3.92 714 706 3.81 3.65
 35 | 4 689 673 3.84 3.76
 36 | 2.52 554 507 2.09 2.27
 37 | 2.71 564 543 2.17 2.35
 38 | 3.15 668 604 2.98 3.17
 39 | 3.22 691 662 3.28 3.47
 40 | 2.29 573 591 2.74 3
 41 | 2.03 568 517 2.19 2.74
 42 | 3.14 607 624 3.28 3.37
 43 | 3.52 651 683 3.68 3.54
 44 | 2.91 604 583 3.17 3.28
 45 | 2.83 560 542 3.17 3.39
 46 | 2.65 604 617 3.31 3.28
 47 | 2.41 574 548 3.07 3.19
 48 | 2.54 564 500 2.38 2.52
 49 | 2.66 607 528 2.94 3.08
 50 | 3.21 619 573 2.84 3.01
 51 | 3.34 647 608 3.17 3.42
 52 | 3.68 651 683 3.72 3.6
 53 | 2.84 571 543 2.17 2.4
 54 | 2.74 583 510 2.42 2.83
 55 | 2.71 554 538 2.49 2.38
 56 | 2.24 568 519 3.38 3.21
 57 | 2.48 574 602 2.07 2.24
 58 | 3.14 605 619 3.22 3.4
 59 | 2.83 591 584 2.71 3.07
 60 | 3.44 642 608 3.31 3.52
 61 | 2.89 608 573 3.28 3.47
 62 | 2.67 574 538 3.19 3.08
 63 | 3.24 643 607 3.24 3.38
 64 | 3.29 608 649 3.53 3.41
 65 | 3.87 709 688 3.72 3.64
 66 | 3.94 691 645 3.98 3.71
 67 | 3.42 667 583 3.09 3.01
 68 | 3.52 656 609 3.42 3.37
 69 | 2.24 554 542 2.07 2.34
 70 | 3.29 692 563 3.17 3.29
 71 | 3.41 684 672 3.51 3.4
 72 | 3.56 717 649 3.49 3.38
 73 | 3.61 712 708 3.51 3.28
 74 | 3.28 641 608 3.4 3.31
 75 | 3.21 675 632 3.38 3.42
 76 | 3.48 692 698 3.54 3.39
 77 | 3.62 684 609 3.48 3.51
 78 | 2.92 564 591 3.09 3.17
 79 | 2.81 554 509 3.14 3.2
 80 | 3.11 685 694 3.28 3.41
 81 | 3.28 671 609 3.41 3.29
 82 | 2.7 571 503 3.02 3.17
 83 | 2.62 582 591 2.97 3.12
 84 | 3.72 621 589 4 3.71
 85 | 3.42 651 642 3.34 3.5
 86 | 3.51 673 681 3.28 3.34
 87 | 3.28 651 640 3.32 3.48
 88 | 3.42 672 607 3.51 3.44
 89 | 3.9 591 587 3.68 3.59
 90 | 3.12 582 612 3.07 3.28
 91 | 2.83 609 555 2.78 3
 92 | 2.09 554 480 3.68 3.42
 93 | 3.17 612 590 3.3 3.41
 94 | 3.28 628 580 3.34 3.49
 95 | 3.02 567 602 3.17 3.28
 96 | 3.42 619 623 3.07 3.17
 97 | 3.06 691 683 3.19 3.24
 98 | 2.76 564 549 2.15 2.34
 99 | 3.19 650 684 3.11 3.28
100 | 2.23 551 554 2.17 2.29
101 | 2.48 568 541 2.14 2.08
102 | 3.76 605 590 3.74 3.64
103 | 3.49 692 683 3.27 3.42
104 | 3.07 680 692 3.19 3.25
105 | 2.19 617 503 2.98 2.76
106 | 3.46 516 528 3.28 3.41


--------------------------------------------------------------------------------
/data/USDRUB_010201_160207.csv:
--------------------------------------------------------------------------------
  1 | <TICKER>;<PER>;<DATE>;<TIME>;<OPEN>;<HIGH>;<LOW>;<CLOSE>;<VOL>
  2 | USDRUB;M;20010201;000000;28.4700000;28.7850000;28.4560000;28.4200000;0
  3 | USDRUB;M;20010301;000000;28.6580000;28.7890000;28.4200000;28.5400000;0
  4 | USDRUB;M;20010401;000000;28.7890000;28.9400000;28.7890000;28.6900000;0
  5 | USDRUB;M;20010501;000000;28.8370000;29.1700000;28.8370000;28.9200000;0
  6 | USDRUB;M;20010601;000000;28.9200000;29.1800000;28.8600000;28.9000000;0
  7 | USDRUB;M;20010701;000000;28.9000000;29.3400000;28.8900000;29.1000000;0
  8 | USDRUB;M;20010801;000000;29.1000000;29.4500000;29.0700000;29.1700000;0
  9 | USDRUB;M;20010901;000000;29.4540000;29.4800000;28.4800000;29.2200000;0
 10 | USDRUB;M;20011001;000000;29.4350000;29.7300000;28.0100000;29.7100000;0
 11 | USDRUB;M;20011101;000000;29.7300000;30.0200000;29.4800000;29.9300000;0
 12 | USDRUB;M;20011201;000000;29.6900000;30.8000000;29.6900000;30.2000000;0
 13 | USDRUB;M;20020101;000000;30.2500000;30.7400000;30.2100000;30.7000000;0
 14 | USDRUB;M;20020201;000000;30.7200000;31.0200000;30.5000000;30.9600000;0
 15 | USDRUB;M;20020301;000000;30.7100000;31.2200000;30.7100000;31.1100000;0
 16 | USDRUB;M;20020401;000000;31.2300000;31.2700000;30.9200000;31.2400000;0
 17 | USDRUB;M;20020501;000000;31.0800000;31.3500000;30.9900000;31.3300000;0
 18 | USDRUB;M;20020601;000000;31.0900000;31.5200000;31.0900000;31.5100000;0
 19 | USDRUB;M;20020701;000000;31.5200000;31.7200000;31.2600000;31.5300000;0
 20 | USDRUB;M;20020801;000000;31.2800000;31.6400000;31.2800000;31.6000000;0
 21 | USDRUB;M;20020901;000000;31.3600000;31.7200000;31.3600000;31.7100000;0
 22 | USDRUB;M;20021001;000000;31.7300000;32.0600000;31.4300000;31.7500000;0
 23 | USDRUB;M;20021101;000000;31.7900000;32.1300000;31.5400000;31.8500000;0
 24 | USDRUB;M;20021201;000000;31.6000000;32.3700000;31.3600000;31.9300000;0
 25 | USDRUB;M;20030101;000000;31.7700000;31.9800000;31.1900000;31.8400000;0
 26 | USDRUB;M;20030201;000000;31.8400000;31.8700000;31.3700000;31.5600000;0
 27 | USDRUB;M;20030301;000000;31.5700000;31.8600000;31.3600000;31.3600000;0
 28 | USDRUB;M;20030401;000000;31.3800000;31.3800000;31.0900000;31.1100000;0
 29 | USDRUB;M;20030501;000000;31.0900000;31.1200000;30.6100000;30.6900000;0
 30 | USDRUB;M;20030601;000000;30.6300000;30.7600000;30.3000000;30.1900000;0
 31 | USDRUB;M;20030701;000000;30.3400000;30.5600000;30.2400000;30.2600000;0
 32 | USDRUB;M;20030801;000000;30.2600000;30.5400000;30.2600000;30.5000000;0
 33 | USDRUB;M;20030901;000000;30.5100000;30.7400000;30.4000000;30.4300000;0
 34 | USDRUB;M;20031001;000000;30.5600000;30.5700000;29.8100000;29.9500000;0
 35 | USDRUB;M;20031101;000000;29.9300000;29.9600000;29.6600000;29.7300000;0
 36 | USDRUB;M;20031201;000000;29.7400000;29.7400000;29.1500000;29.2300000;0
 37 | USDRUB;M;20040101;000000;29.2500000;29.2600000;28.4600000;28.5300000;0
 38 | USDRUB;M;20040201;000000;28.5100000;28.6800000;28.4100000;28.5100000;0
 39 | USDRUB;M;20040301;000000;28.5000000;28.7100000;28.4800000;28.5100000;0
 40 | USDRUB;M;20040401;000000;28.5100000;29.0200000;28.5100000;29.0000000;0
 41 | USDRUB;M;20040501;000000;29.0100000;29.0900000;28.8600000;28.9800000;0
 42 | USDRUB;M;20040601;000000;29.0000000;29.0900000;29.0000000;29.0100000;0
 43 | USDRUB;M;20040701;000000;29.0600000;29.1400000;28.9800000;29.0700000;0
 44 | USDRUB;M;20040801;000000;29.1000000;29.2700000;29.0900000;29.2500000;0
 45 | USDRUB;M;20040901;000000;29.2200000;29.2500000;29.2000000;29.2100000;0
 46 | USDRUB;M;20041001;000000;29.2100000;29.2200000;28.7200000;28.7400000;0
 47 | USDRUB;M;20041101;000000;28.7300000;28.7900000;28.1400000;28.1200000;0
 48 | USDRUB;M;20041201;000000;28.1300000;28.1600000;27.7300000;27.7200000;0
 49 | USDRUB;M;20050101;000000;27.7100000;28.1800000;27.7100000;28.0100000;0
 50 | USDRUB;M;20050201;000000;28.0200000;28.2100000;27.6700000;27.9900000;0
 51 | USDRUB;M;20050301;000000;27.6800000;27.9000000;27.4400000;27.8500000;0
 52 | USDRUB;M;20050401;000000;27.8800000;27.9400000;27.7000000;27.8900000;0
 53 | USDRUB;M;20050501;000000;27.8900000;28.2600000;27.7800000;28.2600000;0
 54 | USDRUB;M;20050601;000000;28.2500000;28.6900000;28.0110000;28.6000000;0
 55 | USDRUB;M;20050701;000000;28.6600000;28.8430000;28.5640000;28.6110000;0
 56 | USDRUB;M;20050801;000000;28.5850000;28.6240000;28.3050000;28.4870000;0
 57 | USDRUB;M;20050901;000000;28.5500000;28.5680000;28.1350000;28.4800000;0
 58 | USDRUB;M;20051001;000000;28.5780000;28.6970000;28.4020000;28.5050000;0
 59 | USDRUB;M;20051101;000000;28.5650000;28.9250000;28.5380000;28.7960000;0
 60 | USDRUB;M;20051201;000000;28.8070000;29.0040000;28.6180000;28.7300000;0
 61 | USDRUB;M;20060101;000000;28.7410000;28.7410000;27.9080000;28.1200000;0
 62 | USDRUB;M;20060201;000000;28.0830000;28.3370000;28.0320000;28.0240000;0
 63 | USDRUB;M;20060301;000000;28.0310000;28.0650000;27.6400000;27.7150000;0
 64 | USDRUB;M;20060401;000000;27.7560000;27.7600000;27.2250000;27.2510000;0
 65 | USDRUB;M;20060501;000000;27.2460000;27.2880000;26.8850000;26.9780000;0
 66 | USDRUB;M;20060601;000000;27.0220000;27.1400000;26.6780000;26.8580000;0
 67 | USDRUB;M;20060701;000000;26.8490000;27.0900000;26.7620000;26.8010000;0
 68 | USDRUB;M;20060801;000000;26.8170000;26.8450000;26.6380000;26.7440000;0
 69 | USDRUB;M;20060901;000000;26.7570000;26.8400000;26.6330000;26.7750000;0
 70 | USDRUB;M;20061001;000000;26.8090000;27.0020000;26.6940000;26.6990000;0
 71 | USDRUB;M;20061101;000000;26.7060000;26.7780000;26.2350000;26.2350000;0
 72 | USDRUB;M;20061201;000000;26.2430000;26.4530000;26.1470000;26.3200000;0
 73 | USDRUB;M;20070101;000000;26.3100000;26.6210000;26.2940000;26.4840000;0
 74 | USDRUB;M;20070201;000000;26.4710000;26.6420000;26.0910000;26.1320000;0
 75 | USDRUB;M;20070301;000000;26.1180000;26.2830000;25.9170000;25.9650000;0
 76 | USDRUB;M;20070401;000000;25.9910000;26.0130000;25.6490000;25.6700000;0
 77 | USDRUB;M;20070501;000000;25.6930000;25.9330000;25.6700000;25.8840000;0
 78 | USDRUB;M;20070601;000000;25.8830000;26.2520000;25.7400000;25.7480000;0
 79 | USDRUB;M;20070701;000000;25.7210000;25.7800000;25.3740000;25.5340000;0
 80 | USDRUB;M;20070801;000000;25.5770000;25.9190000;25.3130000;25.6300000;0
 81 | USDRUB;M;20070901;000000;25.6420000;25.7280000;24.8500000;24.8500000;0
 82 | USDRUB;M;20071001;000000;24.8500000;25.0840000;24.6424000;24.6734000;0
 83 | USDRUB;M;20071101;000000;24.6734000;24.7250000;24.2317000;24.4610000;0
 84 | USDRUB;M;20071201;000000;24.4610000;24.7970000;24.3818000;24.5650000;0
 85 | USDRUB;M;20080101;000000;24.5650000;24.9275000;24.2504000;24.4503000;0
 86 | USDRUB;M;20080201;000000;24.4503000;24.8193000;23.9566000;24.0170000;0
 87 | USDRUB;M;20080301;000000;24.0170000;24.0677000;23.3744000;23.4950000;0
 88 | USDRUB;M;20080401;000000;23.4950000;23.7169000;23.2952000;23.6747000;0
 89 | USDRUB;M;20080501;000000;23.6747000;23.9200000;23.4850000;23.6905000;0
 90 | USDRUB;M;20080601;000000;23.6905000;23.8536000;23.3728000;23.4791000;0
 91 | USDRUB;M;20080701;000000;23.4791000;23.5841000;23.0614000;23.4290000;0
 92 | USDRUB;M;20080801;000000;23.4300000;24.7584000;23.3527000;24.5890000;0
 93 | USDRUB;M;20080901;000000;24.6764000;25.8533000;24.6400000;25.6450000;0
 94 | USDRUB;M;20081001;000000;25.6380000;27.4784000;25.5730000;27.0720000;0
 95 | USDRUB;M;20081101;000000;27.0490000;27.9580000;26.6570000;27.9580000;0
 96 | USDRUB;M;20081201;000000;27.9440000;29.4330000;27.1580000;29.4000000;0
 97 | USDRUB;M;20090101;000000;29.4010000;35.8310000;29.1400000;35.8050000;0
 98 | USDRUB;M;20090201;000000;35.8050000;36.5260000;34.4569000;35.8800000;0
 99 | USDRUB;M;20090301;000000;35.8800000;36.3290000;33.1360000;33.9750000;0
100 | USDRUB;M;20090401;000000;33.9750000;34.2280000;32.9240000;33.0810000;97
101 | USDRUB;M;20090501;000000;33.0990000;33.1210000;30.7730000;30.8530000;745
102 | USDRUB;M;20090601;000000;30.7350000;31.6130000;30.4810000;31.1690000;0
103 | USDRUB;M;20090701;000000;31.1530000;33.0750000;30.6150000;31.3920000;0
104 | USDRUB;M;20090801;000000;31.4750000;32.8990000;30.9240000;31.7650000;0
105 | USDRUB;M;20090901;000000;31.7970000;32.1060000;29.9320000;30.0320000;342
106 | USDRUB;M;20091001;000000;30.0430000;30.2550000;28.8690000;29.1510000;0
107 | USDRUB;M;20091101;000000;29.1570000;29.9130000;28.6020000;29.2350000;245
108 | USDRUB;M;20091201;000000;29.2350000;30.8895000;29.0130000;30.1710000;210
109 | USDRUB;M;20100101;000000;30.1740000;30.4780000;29.2695000;30.4080000;0
110 | USDRUB;M;20100201;000000;30.3650000;30.5770000;29.8083000;30.0000000;0
111 | USDRUB;M;20100301;000000;29.9160000;30.0510000;29.1110000;29.4320000;0
112 | USDRUB;M;20100401;000000;29.4355000;29.4810000;28.8947000;29.1965000;0
113 | USDRUB;M;20100501;000000;29.2080000;31.6791000;29.1650000;30.8790000;0
114 | USDRUB;M;20100601;000000;30.8795000;31.9413000;30.6771000;31.2600000;0
115 | USDRUB;M;20100701;000000;31.2700000;31.4000000;30.0800000;30.2700000;3372
116 | USDRUB;M;20100801;000000;30.2500000;30.9800000;29.6600000;30.8400000;0
117 | USDRUB;M;20100901;000000;30.8500000;31.3700000;30.3500000;30.5800000;0
118 | USDRUB;M;20101001;000000;30.5800000;30.9000000;29.5700000;30.7400000;0
119 | USDRUB;M;20101101;000000;30.8400000;31.5500000;30.3400000;31.5200000;0
120 | USDRUB;M;20101201;000000;31.5400000;31.5700000;30.1800000;30.5700000;633
121 | USDRUB;M;20110101;000000;30.5800000;30.7700000;29.5500000;29.8000000;0
122 | USDRUB;M;20110201;000000;29.7900000;29.8100000;28.7700000;28.8500000;0
123 | USDRUB;M;20110301;000000;28.8700000;28.9500000;28.0900000;28.4200000;0
124 | USDRUB;M;20110401;000000;28.4300000;28.5100000;27.2400000;27.3400000;0
125 | USDRUB;M;20110501;000000;27.4100000;28.5400000;27.1300000;27.9700000;2851
126 | USDRUB;M;20110601;000000;27.9600000;28.3900000;27.6500000;27.9300000;0
127 | USDRUB;M;20110701;000000;27.9300000;28.4500000;27.3900000;27.6000000;0
128 | USDRUB;M;20110801;000000;27.7000000;30.1700000;27.4900000;28.8600000;565
129 | USDRUB;M;20110901;000000;28.8800000;32.5200000;28.8000000;32.2000000;0
130 | USDRUB;M;20111001;000000;32.2100000;32.8900000;29.6600000;30.2300000;0
131 | USDRUB;M;20111101;000000;30.2300000;31.7000000;30.0500000;30.7000000;0
132 | USDRUB;M;20111201;000000;30.7400000;32.3400000;30.6600000;32.1200000;0
133 | USDRUB;M;20120101;000000;32.2100000;32.3200000;30.0300000;30.2900000;0
134 | USDRUB;M;20120201;000000;30.3000000;30.4300000;28.8400000;29.0800000;24
135 | USDRUB;M;20120301;000000;29.0700000;29.7800000;28.8500000;29.4300000;0
136 | USDRUB;M;20120401;000000;29.3300000;29.8700000;29.1300000;29.3800000;0
137 | USDRUB;M;20120501;000000;29.3700000;33.6500000;29.2900000;33.3800000;0
138 | USDRUB;M;20120601;000000;33.4100000;34.1200000;32.0300000;32.4200000;0
139 | USDRUB;M;20120701;000000;32.4100000;33.0900000;31.7500000;32.2000000;0
140 | USDRUB;M;20120801;000000;32.2200000;32.6770000;31.4100000;32.2500000;117
141 | USDRUB;M;20120901;000000;32.2500000;32.5000000;30.3800000;31.1900000;0
142 | USDRUB;M;20121001;000000;31.1900000;31.6700000;30.6400000;31.3500000;0
143 | USDRUB;M;20121101;000000;31.5200000;31.9400000;30.7700000;30.8500000;0
144 | USDRUB;M;20121201;000000;30.8700000;31.1200000;30.2300000;30.5600000;0
145 | USDRUB;M;20130101;000000;30.5600000;30.6100000;29.9500000;30.0000000;0
146 | USDRUB;M;20130201;000000;30.0400000;30.6900000;29.5200000;30.6100000;0
147 | USDRUB;M;20130301;000000;30.6000000;31.1300000;30.5600000;31.0500000;0
148 | USDRUB;M;20130401;000000;31.0700000;31.9100000;30.7500000;31.1400000;0
149 | USDRUB;M;20130501;000000;31.1400000;32.0100000;30.9500000;31.9200000;0
150 | USDRUB;M;20130601;000000;31.9400000;33.0900000;31.4900000;32.8400000;0
151 | USDRUB;M;20130701;000000;32.8400000;33.3700000;32.2000000;32.9600000;0
152 | USDRUB;M;20130801;000000;32.9600000;33.3400000;32.6800000;33.2700000;0
153 | USDRUB;M;20130901;000000;33.3400000;33.5400000;31.5000000;32.4000000;0
154 | USDRUB;M;20131001;000000;32.4000000;32.5500000;31.6200000;32.0700000;0
155 | USDRUB;M;20131101;000000;32.0900000;33.2400000;32.0500000;33.1200000;0
156 | USDRUB;M;20131201;000000;33.1400000;33.3600000;32.4700000;32.8400000;0
157 | USDRUB;M;20140101;000000;32.8700000;35.4500000;32.7800000;35.1600000;0
158 | USDRUB;M;20140201;000000;35.1800000;36.2600000;34.5300000;35.9700000;7679
159 | USDRUB;M;20140301;000000;35.9800000;36.8700000;35.0400000;35.0400000;0
160 | USDRUB;M;20140401;000000;35.0300000;36.3500000;34.9200000;35.6100000;0
161 | USDRUB;M;20140501;000000;35.6200000;35.9000000;34.0000000;34.8800000;1564
162 | USDRUB;M;20140601;000000;34.9000000;35.2500000;33.5400000;33.9612000;0
163 | USDRUB;M;20140701;000000;33.9777000;35.9346000;33.7765000;35.7171000;0
164 | USDRUB;M;20140801;000000;35.7171000;37.2025000;35.6077000;37.0662000;0
165 | USDRUB;M;20140901;000000;37.0567000;39.7989000;36.5750000;39.5944000;0
166 | USDRUB;M;20141001;000000;39.5990000;43.8250000;39.3543000;43.0322000;96461
167 | USDRUB;M;20141101;000000;42.9971000;50.6855000;42.9971000;50.0231000;3066635
168 | USDRUB;M;20141201;000000;49.3420000;79.5151000;49.3420000;59.2332000;2686129
169 | USDRUB;M;20150101;000000;59.2332000;71.8497000;56.6874000;69.9877000;4217739
170 | USDRUB;M;20150201;000000;69.9388000;70.4760000;59.6730000;61.5268000;6259590
171 | USDRUB;M;20150301;000000;61.7806000;63.8614000;55.6183000;58.0886000;7225401
172 | USDRUB;M;20150401;000000;58.0616000;58.9106000;48.4271000;51.4814000;7084999
173 | USDRUB;M;20150501;000000;51.6765000;53.6441000;48.4928000;51.9659000;971484
174 | USDRUB;M;20150601;000000;52.0864000;57.2916000;50.9288000;55.2282000;2575842
175 | USDRUB;M;20150701;000000;55.3429000;61.7854000;54.2659000;61.2897000;5036201
176 | USDRUB;M;20150801;000000;61.7480000;71.6191000;60.1152000;64.1353000;7516072
177 | USDRUB;M;20150901;000000;64.3233000;69.7622000;62.1441000;65.1214000;7202423
178 | USDRUB;M;20151001;000000;65.3094000;67.1236000;60.4926000;63.8312000;7091057
179 | USDRUB;M;20151101;000000;63.6750000;67.9462000;61.5638000;66.2676000;8386976
180 | USDRUB;M;20151201;000000;66.3109000;75.6785000;65.0406000;72.6905000;9209252
181 | USDRUB;M;20160101;000000;72.1374000;85.9493000;70.9965000;75.4820000;10041217
182 | USDRUB;M;20160201;000000;75.3169000;81.0247000;74.3500000;77.3281000;3235375
183 | 


--------------------------------------------------------------------------------
/data/cars.csv:
--------------------------------------------------------------------------------
 1 | "","speed","dist"
 2 | "1",4,2
 3 | "2",4,10
 4 | "3",7,4
 5 | "4",7,22
 6 | "5",8,16
 7 | "6",9,10
 8 | "7",10,18
 9 | "8",10,26
10 | "9",10,34
11 | "10",11,17
12 | "11",11,28
13 | "12",12,14
14 | "13",12,20
15 | "14",12,24
16 | "15",12,28
17 | "16",13,26
18 | "17",13,34
19 | "18",13,34
20 | "19",13,46
21 | "20",14,26
22 | "21",14,36
23 | "22",14,60
24 | "23",14,80
25 | "24",15,20
26 | "25",15,26
27 | "26",15,54
28 | "27",16,32
29 | "28",16,40
30 | "29",17,32
31 | "30",17,40
32 | "31",17,50
33 | "32",18,42
34 | "33",18,56
35 | "34",18,76
36 | "35",18,84
37 | "36",19,36
38 | "37",19,46
39 | "38",19,68
40 | "39",20,32
41 | "40",20,48
42 | "41",20,52
43 | "42",20,56
44 | "43",20,64
45 | "44",22,66
46 | "45",23,54
47 | "46",24,70
48 | "47",24,92
49 | "48",24,93
50 | "49",24,120
51 | "50",25,85
52 | 


--------------------------------------------------------------------------------
/data/data-4275-2021-02-09.xlsx:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/MLMethods/Practice/ed03a18b83e0973a8fd540fcc6c1f766db857c64/data/data-4275-2021-02-09.xlsx


--------------------------------------------------------------------------------
/env/README.md:
--------------------------------------------------------------------------------
  1 | # Развертывание среды разработки
  2 | 
  3 | ### Содержание
  4 | 
  5 | - [Дистрибутив Anaconda](#Дистрибутив-Anaconda)
  6 | - [Образ под VirtualBox](#Образ-под-VirtualBox)
  7 | - [Docker контейнер](#Docker-контейнер)
  8 | - [Conda](#Conda)
  9 | 
 10 | 
 11 | ## Дистрибутив Anaconda
 12 | 
 13 | [Ссылка на репозиторий](https://repo.anaconda.com/archive/)
 14 | 
 15 | Загрузите и установите дистрибутив `Anaconda` в  соответствии с ОС вашего хоста.
 16 | 
 17 | ⚠️ **Замечание.** Актуальная версия для курса `Anaconda 2024.02`
 18 | 
 19 | ## Образ под VirtualBox
 20 | 
 21 | [Ссылка на образ](https://drive.google.com/file/d/1p43yVot-I7xIwKwkz4DJnMfINMeK4Jj7/view)
 22 | 
 23 | Образ на базе ОС Ubuntu предназначен для установки под `VirtualBox`
 24 | 
 25 | ⚠️ **Замечание.** Размер образа ~6,9ГБ
 26 | 
 27 | Установленное ПО:
 28 | 
 29 | - Ubuntu 18
 30 | - Anaconda3-2024.02 (python 3.11)
 31 | - PyCharm 2024.1.7
 32 | 
 33 | 
 34 | Пароль: `ubuntu`
 35 | 
 36 | Для доступа к общим каталогам на виртуалке необходимо добавить пользователя `ubuntu` в группу `vboxsf`:
 37 | 
 38 | ```bash
 39 | sudo adduser $USER vboxsf
 40 | ```
 41 | 
 42 | После импорта образа в `VirtualBox`, запустите виртуальную машину. Откройте терминал и введите одну из следующих команд:
 43 | 
 44 | ```bash
 45 | # 1. Синхронизация с github репозиторием
 46 | make sync
 47 | 
 48 | # 2. Запуск jupyter notebook
 49 | make jupyter
 50 | 
 51 | # 3. Запуск PyCharm
 52 | make pycharm
 53 | ```
 54 | 
 55 | ⚠️ **Замечание.** Команды в файле `~/Makefile`
 56 | 
 57 | ### 📚 Полезные ресурсы:
 58 | 
 59 | - [Установка VirtualBox](https://www.virtualbox.org/wiki/Downloads)
 60 | - [Основные команды в Ubuntu](https://github.com/BigDataProcSystems/Practice/blob/master/common/docs/basic_shell_commands.md)
 61 | 
 62 | 
 63 | ## Docker контейнер
 64 | 
 65 | Файлы для развертывания расположены в директории `env/docker`
 66 | 
 67 | [Ссылка на репозиторий](https://github.com/MLMethods/Practice/tree/master/env/docker)
 68 | 
 69 | ### Makefile
 70 | 
 71 | `Makefile` содержит команды для построения образа и запуска `jupyter`. Откройте терминал и перейдите в директорию, в которой размещен `Makefile`. После этого введите одну из следующих команд:
 72 | 
 73 | ```bash
 74 | 
 75 | # 1. Построение образа (если образа ещё нет, то это ваша первая команда,
 76 | # выполняется один раз)
 77 | make build
 78 | 
 79 | # 2. Запуск jupyter (если образ уже построен)
 80 | make run
 81 | 
 82 | # 3. Синхронизация репозиториев (запускайте периодически по ходу изменения 
 83 | # репозиториев курса на github)
 84 | make sync
 85 | 
 86 | # 4. Остановка и удаление контейнера (используйте эту команду, только если 
 87 | # что-то пошло не так)
 88 | make rm
 89 | ```
 90 | 
 91 | ### Docker команды
 92 | 
 93 | Откройте терминал и перейдите в директорию с `Dockerfile`. Далее по необходимости выполняйте следующие команды.
 94 | 
 95 | 1. Построение образа
 96 | 
 97 | ```bash
 98 | docker build --tag ml-student-image --file Dockerfile .
 99 | ```
100 | 
101 | ⚠️ **Замечание.** В данной случае в конце обязательно должна быть точка
102 | 
103 | 2. Запуск `jupyter`
104 | 
105 | ```bash
106 | docker run \
107 |     --rm \
108 |     --interactive \
109 |     --tty \
110 |     --publish 8888:8888 \
111 |     --name ml-student \
112 |     --volume ./Repos:/home/ubuntu/Repos \
113 |     ml-student-image
114 | ```
115 | 
116 | 3. Синхронизация репозиториев
117 | 
118 | ```bash
119 | docker exec ml-student bash -c "cd /home/ubuntu/Repos/mlmethods/Practice && git pull"
120 | docker exec ml-student bash -c "cd /home/ubuntu/Repos/mlmethods/Assignments && git pull"
121 | ```
122 | 
123 | 4. Остановка и удаление
124 | 
125 | ```bash
126 | docker rm -f ml-student
127 | ```
128 | 
129 | ### 📚 Полезные ресурсы:
130 | 
131 | - [Docker container with a bootstrapped installation of Anaconda ](https://github.com/ContinuumIO/docker-images/tree/main/anaconda3)
132 | 
133 | ## Conda
134 | 
135 | Conda - это менеджер пакетов, который используется для установки, управления и обновления пакетов и зависимостей в Python. Он помогает создавать виртуальные окружения для различных проектов, чтобы зависимости для одного проекта не мешали другому. 
136 | 
137 | Файл YAML - это файл конфигурации, который используется для хранения зависимостей и других конфигураций. Вы можете создать YAML-файл со списком пакетов и версий, которые вы хотите установить в окружении.
138 | 
139 | Conda поставляется в двух дистрибутивах:
140 | - Miniconda: Включает только пакеты, необходимые для работы Conda. (400 МБ)
141 | - Anaconda: включает все стандартные пакеты, необходимые для машинного обучения. (2 ГБ)
142 | 
143 | ### Установка Miniconda
144 | 
145 | **Если вы будете устанавливать Anaconda Navigator, то данный раздел можно пропустить**
146 | 
147 | 1. Загрузите последнюю версию Conda с [официального сайта](https://docs.conda.io/en/latest/miniconda.html). 
148 | 2. Убедитесь, что выбрали подходящий установщик для вашей операционной системы (например, Windows, macOS или Linux).
149 | 3. После завершения загрузки откройте установщик и следуйте инструкциям на экране для установки Conda. В процессе установки вам будет предложено выбрать папку назначения и добавить Conda в системный путь. Рекомендуется выбрать параметры по умолчанию, если у вас нет особых причин для их изменения.
150 | 4. После завершения установки откройте новый терминал или окно командной строки. Это обеспечит применение изменений к вашему системному пути.
151 | 5. Введите следующую команду, чтобы убедиться, что Conda установлена правильно:
152 | ```bash
153 | conda --version
154 | ```
155 | 6. Если Conda установлена правильно, вы должны увидеть номер версии, выведенный на консоль.
156 | 
157 | ### Создание нового окружения через Conda
158 | 
159 | Создать новое окружение из YAML-файла:
160 | ```bash
161 | conda env create -f <.yaml file>
162 | ```
163 | 
164 | Клонирование существующего окружения для создания нового окружения:
165 | ```bash
166 | conda create -n <new env name> --clone <existing env name>
167 | ```
168 | 
169 | [Ссылка на пример `.yaml` файла для создания окружения](/conda/mlmethds.yaml)
170 | 
171 | Чтобы активировать окружение, используйте следующую команду:
172 | ```bash
173 | conda activate env_name
174 | ```
175 | где env_name - имя окружения. Вы увидите имя среды в командной строке, чтобы подтвердить, что среда активирована.
176 | 
177 | Чтобы отключить среду, используйте следующую команду:
178 | ```bash
179 | conda deactivate
180 | ```
181 | Это приведет к выходу из среды и возврату к базовой среде.
182 | 
183 | Чтобы удалить окружение, выполните следующую команду:
184 | ```bash
185 | conda env remove -n <env name>
186 | ```
187 | Это приведет к удалению окружения и всех установленных в нем пакетов.
188 | 
189 | ### Создание нового окружения через Anaconda Navigator
190 | 
191 | [Ссылка на установку Anaconda Navigator](https://docs.anaconda.com/navigator/install/#)
192 | 
193 | 1. Откройте Anaconda Navigator
194 | 2. Открыв Anaconda Navigator, вы увидите графический интерфейс пользователя с различными опциями. Перейдите на вкладку "Environments" в левой части экрана.
195 | 3. На вкладке "Environments" вы увидите список существующих в вашей системе окружений, если таковые имеются. Чтобы создать новую среду, нажмите на кнопку "Create", расположенную в левом нижнем углу экрана.
196 | 4. В окне "Create new environment" вам будет предложено ввести имя для новой среды. Вы также можете выбрать версию Python и любые другие пакеты, которые вы хотите включить в эту среду. Если у вас есть пользовательский файл .yaml, вы можете выбрать его, нажав кнопку "Import" и перейдя к расположению файла.
197 | 5. После того как вы ввели все данные для новой среды, нажмите кнопку "Create" в нижней части окна. Новое окружение будет создано, и вы сможете увидеть его в списке остальных окружений.
198 | 
199 | 


--------------------------------------------------------------------------------
/env/conda/mlmethods.yaml:
--------------------------------------------------------------------------------
 1 | name: mlmethods
 2 | channels:
 3 |   - defaults
 4 | dependencies:
 5 |   - python=3.7
 6 |   - pip
 7 |   - scikit-learn
 8 |   - scikit-image
 9 |   - matplotlib
10 |   - seaborn
11 |   - nltk
12 |   - jupyter
13 |   - scipy
14 |   - numpy
15 |   - pandas
16 |   - geopandas
17 |   - rtree
18 |   - folium
19 |   - pip:
20 |     - gensim
21 |     - tensorflow==2.5.0
22 | 


--------------------------------------------------------------------------------
/env/docker/Dockerfile:
--------------------------------------------------------------------------------
 1 | FROM debian:bullseye-slim
 2 | 
 3 | LABEL maintainer="Sergei Papulin <papulin.study@yandex.ru>"
 4 | 
 5 | ENV LANG=C.UTF-8 LC_ALL=C.UTF-8
 6 | ENV PATH=/opt/conda/bin:$PATH
 7 | 
 8 | ARG SHA256SUM="c536ddb7b4ba738bddbd4e581b29308cb332fa12ae3fa2cd66814bd735dff231"
 9 | ARG ANACONDA_URL="https://repo.anaconda.com/archive/Anaconda3-2024.02-1-Linux-x86_64.sh"
10 | 
11 | # setup environment
12 | 
13 | RUN set -x \
14 |     && apt-get update --fix-missing \
15 |     && apt-get install -y --no-install-recommends \
16 |         ca-certificates \
17 |         git \
18 |         wget \
19 |         graphviz \ 
20 |     && apt-get clean \
21 |     && rm -rf /var/lib/apt/lists/*
22 | 
23 | # setup anaconda
24 | 
25 | # COPY ./Sources/Anaconda3-2024.02-1-Linux-x86_64.sh /usr/local/bin/
26 | 
27 | RUN set -x \
28 |     && wget ${ANACONDA_URL} -O anaconda.sh -q \
29 |     && echo "${SHA256SUM} anaconda.sh" > shasum \
30 |     && sha256sum --check --status shasum \
31 |     && /bin/bash anaconda.sh -b -p /opt/conda \
32 |     && rm anaconda.sh shasum \
33 |     && ln -s /opt/conda/etc/profile.d/conda.sh /etc/profile.d/conda.sh \ 
34 |     && echo ". /opt/conda/etc/profile.d/conda.sh" >> ~/.bashrc \ 
35 |     && echo "conda activate base" >> ~/.bashrc \ 
36 |     && find /opt/conda/ -follow -type f -name '*.a' -delete \ 
37 |     && find /opt/conda/ -follow -type f -name '*.js.map' -delete \ 
38 |     && /opt/conda/bin/conda clean -afy
39 | 
40 | # Copy python requirements and the entrypoint script
41 | 
42 | COPY --chmod=500 requirements.txt entrypoint.sh /usr/local/bin/
43 | 
44 | RUN \
45 |     # Install python packages from the requirements file
46 |     python3 -m pip install --no-cache-dir -r /usr/local/bin/requirements.txt
47 | 
48 | # Default command on start
49 | ENTRYPOINT ["/bin/bash", "/usr/local/bin/entrypoint.sh"]
50 | 


--------------------------------------------------------------------------------
/env/docker/Makefile:
--------------------------------------------------------------------------------
 1 | # Commands
 2 | 
 3 | IMAGE := ml-student-image
 4 | CONTAINTER := ml-student
 5 | 
 6 | build:
 7 | 	docker build --tag $(IMAGE) --file Dockerfile .
 8 | 
 9 | run:
10 | 	docker run \
11 |     --rm \
12 |     --interactive \
13 |     --tty \
14 |     --publish 8888:8888 \
15 |     --name $(CONTAINTER) \
16 |     --volume ./Repos:/home/ubuntu/Repos \
17 |     $(IMAGE)
18 | 
19 | sync:
20 | 	docker exec $(CONTAINTER) bash -c "cd /home/ubuntu/Repos/mlmethods/Practice && git pull"
21 | 	docker exec $(CONTAINTER) bash -c "cd /home/ubuntu/Repos/mlmethods/Assignments && git pull"
22 | 
23 | exec:
24 | 	docker exec -it $(CONTAINTER) bash
25 | 
26 | rm:
27 | 	docker rm -f $(CONTAINTER)
28 | 
29 | rmi:
30 | 	docker rmi -f $(IMAGE)
31 | 


--------------------------------------------------------------------------------
/env/docker/entrypoint.sh:
--------------------------------------------------------------------------------
 1 | #!/bin/bash
 2 | 
 3 | set -e
 4 | 
 5 | echo "Running entrypoint script..."
 6 | 
 7 | if [ ! -d /home/ubuntu/Repos/mlmethods/Practice ]; then
 8 |     echo "Cloning Practice repository..."
 9 | 	git clone https://github.com/MLMethods/Practice /home/ubuntu/Repos/mlmethods/Practice
10 | fi
11 | 
12 | if [ ! -d /home/ubuntu/Repos/mlmethods/Assignments ]; then
13 |     echo "Cloning Assignments repository..."
14 |     git clone https://github.com/MLMethods/Assignments /home/ubuntu/Repos/mlmethods/Assignments
15 | fi
16 | 
17 | jupyter notebook --ip='*' --notebook-dir /home/ubuntu/Repos --allow-root


--------------------------------------------------------------------------------
/env/docker/requirements.txt:
--------------------------------------------------------------------------------
 1 | # Base
 2 | scikit-learn==1.5.2 # fix tensorflow + transformers compatibility
 3 | ipywidgets==8.0.4   # prevent widget crash in notebook
 4 | ipympl==0.9.7       # fix widget matplotlib animation 
 5 | geopandas==0.13.2
 6 | folium
 7 | # Tensorflow and related
 8 | tensorflow-cpu==2.19.0
 9 | # keras==3.10.0
10 | tf_keras==2.19.0    # fix transformers + keras compatibility
11 | scikeras==0.13.0
12 | pydot==3.0.4 
13 | # Hugging face
14 | datasets==3.6.0
15 | transformers==4.49.0
16 | evaluate==0.4.3
17 | # Others
18 | gensim
19 | wordcloud==1.9.4


--------------------------------------------------------------------------------
/lib/datasets/__init__.py:
--------------------------------------------------------------------------------
1 | from .fashion_mnist import fetch_fashion_mnist
2 | from .twenty_languages import fetch_20languages
3 | 
4 | 
5 | __all__ = ['fetch_fashion_mnist',
6 |            'fetch_20languages']
7 | 


--------------------------------------------------------------------------------
/lib/datasets/fashion_mnist.py:
--------------------------------------------------------------------------------
  1 | """
  2 | Fashion MNIST Dataset: https://github.com/zalandoresearch/fashion-mnist
  3 | """
  4 | 
  5 | from os import makedirs
  6 | from os.path import exists, join
  7 | import gzip
  8 | 
  9 | from sklearn.datasets._base import RemoteFileMetadata, _fetch_remote
 10 | from sklearn.datasets import get_data_home
 11 | from sklearn.utils import Bunch
 12 | 
 13 | import numpy as np
 14 | import logging
 15 | 
 16 | 
 17 | logger = logging.getLogger(__name__)
 18 | 
 19 | ARCHIVES = [
 20 |     RemoteFileMetadata(
 21 |         filename='train-images-idx3-ubyte.gz',
 22 |         url='http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-images-idx3-ubyte.gz',
 23 |         checksum=('3aede38d61863908ad78613f6a32ed271626dd12800ba2636569512369268a84')),
 24 |     RemoteFileMetadata(
 25 |         filename='train-labels-idx1-ubyte.gz',
 26 |         url='http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-labels-idx1-ubyte.gz',
 27 |         checksum=('a04f17134ac03560a47e3764e11b92fc97de4d1bfaf8ba1a3aa29af54cc90845')),
 28 |     RemoteFileMetadata(
 29 |         filename='test-images-idx3-ubyte.gz',
 30 |         url='http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-images-idx3-ubyte.gz',
 31 |         checksum=('346e55b948d973a97e58d2351dde16a484bd415d4595297633bb08f03db6a073')),
 32 |     RemoteFileMetadata(
 33 |         filename='test-labels-idx1-ubyte.gz',
 34 |         url='http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-labels-idx1-ubyte.gz',
 35 |         checksum=('67da17c76eaffca5446c3361aaab5c3cd6d1c2608764d35dfb1850b086bf8dd5'))
 36 | ]
 37 | 
 38 | 
 39 | def fetch_fashion_mnist(data_home=None, download_if_missing=True, subset='all', return_X_y=False):
 40 |     """
 41 |     Load the Fashion MNIST dataset (classification).
 42 | 
 43 |     Note: Based on https://github.com/scikit-learn/scikit-learn
 44 |     """
 45 |     data_home = get_data_home(data_home=data_home)
 46 |     if not exists(data_home):
 47 |         makedirs(data_home)
 48 | 
 49 |     for archive in ARCHIVES:
 50 |         filepath = join(data_home, archive.filename)
 51 |         if not exists(filepath):
 52 |             if not download_if_missing:
 53 |                 raise IOError("Data not found and `download_if_missing` is False")
 54 |             logger.info('Downloading Fashion mnist from {} to {}'.format(
 55 |                 archive.url, filepath))
 56 |             archive_path = _fetch_remote(archive, dirname=data_home)
 57 | 
 58 |     if return_X_y:
 59 | 
 60 |         DESCR = '''
 61 |             Fashion-MNIST is a dataset of Zalando's article images—consisting of 
 62 |             a training set of 60,000 examples and a test set of 10,000 examples. 
 63 |             Each example is a 28x28 grayscale image, associated with a label from 
 64 |             10 classes. We intend Fashion-MNIST to serve as a direct drop-in 
 65 |             replacement for the original MNIST dataset for benchmarking machine 
 66 |             learning algorithms. It shares the same image size and structure of 
 67 |             training and testing splits.
 68 |             '''
 69 | 
 70 |         feature_names = [
 71 |             'T-shirt/top', 'Trouser', 'Pullover', 'Dress', 'Coat',
 72 |             'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle boot'
 73 |         ]
 74 | 
 75 |         if subset == 'train':
 76 |             X, y = _load_X_y(data_home, 'train')
 77 |             return Bunch(
 78 |                 data=X,
 79 |                 target=y,
 80 |                 feature_names=feature_names,
 81 |                 DESCR=DESCR
 82 |             )
 83 |         elif subset == 'test':
 84 |             X, y = _load_X_y(data_home, 'test')
 85 |             return Bunch(
 86 |                 data=X,
 87 |                 target=y,
 88 |                 feature_names=feature_names,
 89 |                 DESCR=DESCR
 90 |             )
 91 |         X_train, y_train = _load_X_y(data_home, 'train')
 92 |         X_test, y_test = _load_X_y(data_home, 'test')
 93 |         return Bunch(
 94 |             data={'train': X_train, 'test': X_test},
 95 |             target={'train': y_train, 'test': y_test},
 96 |             feature_names=feature_names,
 97 |             DESCR=DESCR
 98 |         )
 99 | 
100 | 
101 | def _load_X_y(path, subset='train'):
102 |     """
103 |     Load MNIST data from `path`.
104 | 
105 |     Note: Based on
106 |     https://github.com/zalandoresearch/fashion-mnist/blob/master/utils/mnist_reader.py
107 |     """
108 |     y_path = join(path, '{}-labels-idx1-ubyte.gz'.format(subset))
109 |     X_path = join(path, '{}-images-idx3-ubyte.gz'.format(subset))
110 | 
111 |     with gzip.open(y_path, 'rb') as y_file:
112 |         y = np.frombuffer(y_file.read(), dtype=np.uint8,
113 |                           offset=8)
114 |     with gzip.open(X_path, 'rb') as X_file:
115 |         X = np.frombuffer(X_file.read(), dtype=np.uint8,
116 |                           offset=16).reshape(len(y), 784)
117 |     return X, y
118 | 


--------------------------------------------------------------------------------
/lib/datasets/twenty_languages.py:
--------------------------------------------------------------------------------
 1 | """
 2 | 20 Languages Dataset:
 3 | https://huggingface.co/datasets/papluca/language-identification
 4 | """
 5 | 
 6 | from os import makedirs
 7 | from os.path import exists, join
 8 | 
 9 | from sklearn.datasets._base import RemoteFileMetadata, _fetch_remote
10 | from sklearn.datasets import get_data_home
11 | from sklearn.utils import Bunch
12 | 
13 | import pandas as pd
14 | import logging
15 | 
16 | 
17 | logger = logging.getLogger(__name__)
18 | 
19 | ARCHIVES = [
20 |     RemoteFileMetadata(
21 |         filename='languages_train.csv',
22 |         url='https://huggingface.co/datasets/papluca/language-identification/resolve/main/train.csv',
23 |         checksum=('f180d78a1f0e758fd33bb1bae37f62eebc538d78ece2affb3d05a967850ba474')),
24 |     RemoteFileMetadata(
25 |         filename='languages_test.csv',
26 |         url='https://huggingface.co/datasets/papluca/language-identification/resolve/main/test.csv',
27 |         checksum=('cb7dfe272142815573b735b5d555d42d28d0d648187020f2d2eb3eebd772e759'))
28 | 
29 | ]
30 | 
31 | 
32 | def fetch_20languages(data_home=None, download_if_missing=True, subset='all', return_X_y=False):
33 |     data_home = get_data_home(data_home=data_home)
34 |     if not exists(data_home):
35 |         makedirs(data_home)
36 |     for archive in ARCHIVES:
37 |         filepath = join(data_home, archive.filename)
38 |         if not exists(filepath):
39 |             if not download_if_missing:
40 |                 raise IOError("Data not found and `download_if_missing` is False")
41 |             logger.info('Downloading Languages from {} to {}'.format(
42 |                 archive.url, filepath))
43 |             archive_path = _fetch_remote(archive, dirname=data_home)
44 |     if return_X_y:
45 |         DESCR = (
46 |             '20 Languages Dataset\n'
47 |             '--------------------\n'
48 |             'The Language Identification dataset is a collection of 90k samples consisting of text passages and corresponding language label. This dataset was created by collecting data from 3 sources: [Multilingual Amazon Reviews Corpus](https://huggingface.co/datasets/amazon_reviews_multi), [XNLI](https://huggingface.co/datasets/xnli), and [STSb Multi MT](https://huggingface.co/datasets/stsb_multi_mt).\n'
49 |             '\n'
50 |             'The Language Identification dataset contains text in 20 languages, which are:\n'
51 |             'arabic (ar), bulgarian (bg), german (de), modern greek (el), english (en), spanish (es), french (fr), hindi (hi), italian (it), japanese (ja), dutch (nl), polish (pl), portuguese (pt), russian (ru), swahili (sw), thai (th), turkish (tr), urdu (ur), vietnamese (vi), and chinese (zh)\n'
52 |             '\n'
53 |             'For each instance, there is a string for the text and a string for the label (the language tag). Here is an example:\n'
54 |             "{'labels': 'fr', 'text': 'Conforme à la description, produit pratique.'}"
55 |         )
56 |         if subset == 'train':
57 |             train_df = _load_X_y(data_home, 'train')
58 |             return Bunch(
59 |                 data=train_df,
60 |                 DESCR=DESCR
61 |             )
62 |         elif subset == 'test':
63 |             test_df = _load_X_y(data_home, 'test')
64 |             return Bunch(
65 |                 data=test_df,
66 |                 DESCR=DESCR
67 |             )
68 |         train_df = _load_X_y(data_home, 'train')
69 |         test_df = _load_X_y(data_home, 'test')
70 |         return Bunch(
71 |             data={'train': train_df, 'test': test_df},
72 |             DESCR=DESCR
73 |         )
74 | 
75 | 
76 | def _load_X_y(path, subset='train'):
77 |     return pd.read_csv(join(path, 'languages_{}.csv'.format(subset)))
78 | 


--------------------------------------------------------------------------------
/lib/plot_confusion_matrix.py:
--------------------------------------------------------------------------------
 1 | import numpy as np
 2 | import matplotlib.pyplot as plt
 3 | from sklearn.metrics import confusion_matrix
 4 | 
 5 | # https://scikit-learn.org/0.21/auto_examples/model_selection/plot_confusion_matrix.html
 6 | def plot_confusion_matrix(y_true, y_pred, classes,
 7 |                           normalize=False,
 8 |                           title=None,
 9 |                           cmap=plt.cm.Blues, figsize=None):
10 | 
11 |     from sklearn.utils.multiclass import unique_labels
12 |     
13 |     """
14 |     This function prints and plots the confusion matrix.
15 |     Normalization can be applied by setting `normalize=True`.
16 |     """
17 |     if not title:
18 |         if normalize:
19 |             title = 'Normalized confusion matrix'
20 |         else:
21 |             title = 'Confusion matrix, without normalization'
22 | 
23 |     # Compute confusion matrix
24 |     cm = confusion_matrix(y_true, y_pred)
25 |     # Only use the labels that appear in the data
26 |     classes = classes[unique_labels(y_true, y_pred)]
27 |     if normalize:
28 |         cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
29 |         print("Normalized confusion matrix")
30 |     else:
31 |         print('Confusion matrix, without normalization')
32 | 
33 |     fig, ax = plt.subplots(figsize=figsize)
34 |     im = ax.imshow(cm, interpolation='nearest', cmap=cmap)
35 |     ax.figure.colorbar(im, ax=ax)
36 |     # We want to show all ticks...
37 |     ax.set(xticks=np.arange(cm.shape[1]),
38 |            yticks=np.arange(cm.shape[0]),
39 |            # ... and label them with the respective list entries
40 |            xticklabels=classes, yticklabels=classes,
41 |            title=title,
42 |            ylabel='True label',
43 |            xlabel='Predicted label')
44 | 
45 |     plt.ylim(len(classes)-0.5, -0.5)
46 |     
47 |     # Rotate the tick labels and set their alignment.
48 |     plt.setp(ax.get_xticklabels(), rotation=45, ha="right",
49 |              rotation_mode="anchor")
50 | 
51 |     
52 |     # Loop over data dimensions and create text annotations.
53 |     fmt = '.2f' if normalize else 'd'
54 |     thresh = cm.max() / 2.
55 |     for i in range(cm.shape[0]):
56 |         for j in range(cm.shape[1]):
57 |             ax.text(j, i, format(cm[i, j], fmt),
58 |                     ha="center", va="center",
59 |                     color="white" if cm[i, j] > thresh else "black")
60 |     fig.tight_layout()
61 |     return ax
62 | 


--------------------------------------------------------------------------------
/lib/plot_stats.py:
--------------------------------------------------------------------------------
  1 | import numpy as np
  2 | import matplotlib.pyplot as plt
  3 | from scipy import stats
  4 | 
  5 | 
  6 | def plot_one_tailed_right_tdistribution(xlim, value, df):
  7 |     x = np.linspace(xlim[0], xlim[1], 1000)
  8 |     y = stats.t.pdf(x, df=df)
  9 |     pr = stats.t.cdf(value, df=df)
 10 |     plt.axvspan(value, xlim[1], color="g", alpha=0.1)
 11 |     plt.plot(x, y, lw=2, color="green")
 12 |     plt.title("t-distribution")
 13 |     plt.xlim(xlim)
 14 |     plt.fill_between(x, 0, y, where=x>value, facecolor="green", alpha=0.5)
 15 |     plt.axvline(value, color="black", linestyle="--")
 16 |     plt.annotate("$1-F_{one}(%0.2f)=%0.2f$" % (value, 1-pr), fontsize=14, xycoords="data", xytext=(-1.5, 0.1), xy=(-2.6, 0.01))
 17 |     plt.grid(True)
 18 | 
 19 |     
 20 | def plot_one_tailed_left_tdistribution(xlim, value, df):
 21 |     x = np.linspace(xlim[0], xlim[1], 1000)
 22 |     y = stats.t.pdf(x, df=df)
 23 |     pr = stats.t.cdf(value, df=df)
 24 |     plt.axvspan(xlim[0], value, color="g", alpha=0.1)
 25 |     plt.plot(x, y, lw=2, color="green")
 26 |     plt.title("t-distribution")
 27 |     plt.xlim(xlim)
 28 |     plt.fill_between(x, 0, y, where=x<=value, facecolor="green", alpha=0.5)
 29 |     plt.axvline(value, color="black", linestyle="--")
 30 |     plt.annotate("$F_{one}(%0.2f)=%0.2f$" % (value, pr), fontsize=14, xycoords="data", xytext=(-1.5, 0.1), xy=(-2.6, 0.01))
 31 |     plt.grid(True)
 32 | 
 33 |     
 34 | def plot_two_tailed_tdistribution(xlim, value, df):
 35 |     x = np.linspace(xlim[0], xlim[1], 1000)
 36 |     y = stats.t.pdf(x, df=df)   
 37 |     pr = 2* stats.t.cdf(-abs(value), df=df)
 38 |     plt.plot(x, y, lw=2, color="green")
 39 |     plt.axvspan(xlim[0], -value, color="g", alpha=0.1)
 40 |     plt.axvspan(value, xlim[1], color="g", alpha=0.1)
 41 |     plt.title("t-distribution")
 42 |     plt.xlim(xlim)
 43 |     plt.fill_between(x, 0, y, where=y<stats.t.pdf(value, df=df), facecolor="green", alpha=0.5)
 44 |     plt.axvline(-value, color="black", linestyle="--")
 45 |     plt.axvline(value, color="black", linestyle="--")
 46 |     plt.annotate("$F_{two}(%0.2f)=%0.2f$" % (value, pr), fontsize=14, xy=(-2.6, 0.01), xycoords="data", xytext=(-1.5, 0.1))
 47 |     plt.grid(True)
 48 |     
 49 |     
 50 | def plot_one_tailed_right_normal_distribution(xlim, value):
 51 |     x = np.linspace(xlim[0], xlim[1], 1000)    
 52 |     y = stats.norm.pdf(x, loc=0, scale=1)
 53 |     pr = stats.norm.cdf(value, loc=0, scale=1)
 54 |     plt.axvspan(value, xlim[1], color="g", alpha=0.1)
 55 |     plt.plot(x, y, lw=2, color="green")
 56 |     plt.title("Standard Normal Distribution")
 57 |     plt.xlim(xlim)
 58 |     plt.fill_between(x, 0, y, where=x>value, facecolor="green", alpha=0.5)
 59 |     plt.axvline(value, color="black", linestyle="--")
 60 |     plt.annotate("$1-\\Phi_N({:.2f})={:.2f}$".format(value, 1-pr), (0.35,0.4), 
 61 |                  fontsize=14, xycoords="axes fraction")
 62 |     plt.grid(True)
 63 |     
 64 |     
 65 | def plot_one_tailed_left_normal_distribution(xlim, value):
 66 |     x = np.linspace(xlim[0], xlim[1], 1000)    
 67 |     y = stats.norm.pdf(x, loc=0, scale=1)
 68 |     pr = stats.norm.cdf(value, loc=0, scale=1)
 69 |     plt.axvspan( xlim[0], value, color="g", alpha=0.1)
 70 |     plt.plot(x, y, lw=2, color="green")
 71 |     plt.title("Standard Normal Distribution")
 72 |     plt.xlim(xlim)
 73 |     plt.fill_between(x, 0, y, where=x<=value, facecolor="green", alpha=0.5)
 74 |     plt.axvline(value, color="black", linestyle="--")
 75 |     plt.annotate("$\\Phi_N({:.2f})={:.2f}$".format(value, pr), (0.35,0.4), 
 76 |                  fontsize=14, xycoords="axes fraction")
 77 |     plt.grid(True)
 78 |     
 79 |     
 80 | def plot_two_tailed_normal_distribution(xlim, value):
 81 |     x = np.linspace(xlim[0], xlim[1], 1000)
 82 |     y = stats.norm(loc=0, scale=1).pdf(x) 
 83 |     pr = stats.norm(loc=0, scale=1).cdf(value) - stats.norm(loc=0, scale=1).cdf(-value)
 84 |     plt.axvspan(-value, value, color="g", alpha=0.1)
 85 |     plt.plot(x, y, lw=2, color="green")
 86 |     plt.title("Standard Normal Distribution")
 87 |     plt.xlim(xlim)
 88 |     plt.fill_between(x, 0, y, where=y>stats.norm(loc=0, scale=1).pdf(value), facecolor="green", alpha=0.5)
 89 |     plt.axvline(-value, color="black", linestyle="--")
 90 |     plt.axvline(value, color="black", linestyle="--")
 91 |     plt.annotate("$\\gamma({:.2f})={:.2f}$".format(value, pr), (0.35,0.4), 
 92 |                      fontsize=14, xycoords="axes fraction") 
 93 |     plt.grid(True)
 94 | 
 95 | 
 96 | def plot_two_tailed_outside_normal_distribution(xlim, value):
 97 |     x = np.linspace(xlim[0], xlim[1], 1000)
 98 |     y = stats.norm(loc=0, scale=1).pdf(x) 
 99 |     pr = stats.norm(loc=0, scale=1).cdf(-abs(value))
100 |     plt.axvspan(xlim[0], -value, color="g", alpha=0.1)
101 |     plt.axvspan(value, xlim[1], color="g", alpha=0.1)
102 |     plt.plot(x, y, lw=2, color="green")
103 |     plt.title("Standard Normal Distribution")
104 |     plt.xlim(xlim)
105 |     plt.fill_between(x, 0, y, where=y<stats.norm(loc=0, scale=1).pdf(value), facecolor="green", alpha=0.5)
106 |     plt.axvline(-value, color="black", linestyle="--")
107 |     plt.axvline(value, color="black", linestyle="--")
108 |     plt.annotate("$2\\cdot(1-\\Phi({:.2f})={:.2f}$".format(value, pr), (0.35,0.4), 
109 |                      fontsize=14, xycoords="axes fraction") 
110 |     plt.grid(True)
111 | 
112 |     
113 | def get_z_by_alpha_for_two_tailed(alpha):
114 |     return stats.norm.ppf(alpha/2, loc=0, scale=1)
115 | 
116 | 
117 | def get_t_by_alpha_for_two_tailed(alpha, df):
118 |     return stats.t.ppf(1 - alpha/2, df) 
119 | 
120 | 
121 | def get_pvalue_for_two_tails_norm(z):
122 |     return 2 * (stats.norm.cdf(-abs(z), loc=0, scale=1))
123 | 
124 | 
125 | def get_pvalue_for_two_tails_tdistribtion(t, df):
126 |     return 2 * stats.t.cdf(-abs(t), df)
127 | 
128 | 
129 | def get_z(x, mu, se):
130 |     return (x - mu) / se
131 | 
132 | 
133 | def plot_two_tailed_pvalue_for_standard_norm(z, alpha=0.05, xlim=(-4,4)):
134 | 
135 |     z_alpha_lower = get_z_by_alpha_for_two_tailed(alpha)
136 |     z_alpha_upper = -z_alpha_lower
137 | 
138 |     z_upper = abs(z)
139 |     z_lower = -z_upper
140 | 
141 |     x = np.linspace(xlim[0], xlim[1], 1000)
142 |     y = stats.norm.pdf(x, loc=0, scale=1)
143 |     pvalue = get_pvalue_for_two_tails_norm(z)
144 | 
145 |     plt.title("Standard Normal Distribution")
146 | 
147 |     zorder = 1
148 |     plt.plot(x, y, lw=2, color="green", zorder=zorder)
149 |     plt.xlim(xlim)
150 | 
151 |     zorder += 1
152 |     plt.fill_between(x, 0, y, where=x<=z_lower, facecolor="red", alpha=0.5, zorder=zorder+1 if z_upper > z_alpha_upper else zorder)
153 |     plt.fill_between(x, 0, y, where=x>=z_upper, facecolor="red", alpha=0.5, zorder=zorder+1 if z_upper > z_alpha_upper else zorder)
154 | 
155 |     plt.fill_between(x, 0, y, where=x<=z_alpha_lower, facecolor="green", alpha=1, zorder=zorder if z_upper > z_alpha_upper else zorder+1)
156 |     plt.fill_between(x, 0, y, where=x>=z_alpha_upper, facecolor="green", alpha=1, zorder=zorder if z_upper > z_alpha_upper else zorder+1)
157 | 
158 |     zorder += 2
159 |     plt.axvline(z_alpha_lower, color="g", linestyle="--", zorder=zorder)
160 |     plt.axvline(z_alpha_upper, color="g", linestyle="--", zorder=zorder)
161 |     plt.axvline(z_lower, color="r", linestyle="--", zorder=zorder)
162 |     plt.axvline(z_upper, color="r", linestyle="--", zorder=zorder)
163 | 
164 |     zorder += 1
165 |     plt.annotate("$\\alpha$", fontsize=14, xy=(z_alpha_lower, 0.004), xycoords="data", xytext=(-0.1, 0.2),
166 |                                  arrowprops=dict(arrowstyle="->", connectionstyle="arc3"), zorder=zorder)
167 |     plt.annotate("", fontsize=14, xy=(z_alpha_upper, 0.004), xycoords="data",
168 |                                xytext=(0.1, 0.19), arrowprops=dict(arrowstyle="->", connectionstyle="arc3"), zorder=zorder)
169 | 
170 |     plt.annotate("p-value", fontsize=14, xy=(z_lower, 0.004), xycoords="data", xytext=(-0.7, 0.1),
171 |                                  arrowprops=dict(arrowstyle="->", connectionstyle="arc3"), zorder=zorder)
172 |     plt.annotate("", fontsize=14, xy=(z_upper, 0.004), xycoords="data",
173 |                                xytext=(0.1, 0.09), arrowprops=dict(arrowstyle="->", connectionstyle="arc3"), zorder=zorder)
174 | 
175 |     plt.annotate("$z$", fontsize=14, xy=(z, 0), xycoords="data",
176 |                                xytext=(z, -0.08), zorder=zorder)
177 | 
178 |     plt.annotate("$z_{\\alpha}$", fontsize=14, xy=(z_alpha_upper if z > 0 else z_alpha_lower, 0), xycoords="data",
179 |                                xytext=(z_alpha_upper if z > 0 else z_alpha_lower, -0.08), zorder=zorder)
180 | 
181 |     zorder += 1
182 |     plt.annotate("$\\alpha={:0.2f}$".format(alpha), (0.67,0.9), fontsize=14, xycoords="axes fraction", zorder=zorder)
183 |     plt.annotate("p-value=${:0.4f}$".format(pvalue), (0.67,0.8), fontsize=14, xycoords="axes fraction", zorder=zorder)
184 |     plt.annotate("$z={:0.2f}$".format(z), (0.67,0.7), fontsize=14, xycoords="axes fraction", zorder=zorder)
185 |     plt.annotate("$z_{\\alpha}=%0.2f$"%(z_alpha_upper if z > 0 else z_alpha_lower), (0.67,0.6), fontsize=14, xycoords="axes fraction", zorder=zorder)
186 | 
187 |     plt.grid(True)
188 |   
189 |     
190 | def plot_two_tailed_pvalue_for_norm(x_bar, mu=0, se=1, alpha=0.05, xlim=(-4,4)):
191 | 
192 |     x = np.linspace(xlim[0], xlim[1], 1000)
193 |     y = stats.norm.pdf(x, loc=mu, scale=se)
194 | 
195 |     pvalue = get_pvalue_for_two_tails_norm(get_z(x_bar, mu, se))
196 |     z_alpha = abs(get_z_by_alpha_for_two_tailed(alpha))
197 | 
198 |     upper_bound = x_bar if x_bar > mu else 2*mu - x_bar
199 |     lower_bound = 2*mu - x_bar if x_bar > mu else x_bar
200 | 
201 |     x_alpha_upper = mu + z_alpha*se
202 |     x_alpha_lower = mu - z_alpha*se
203 |     
204 |     plt.title("Normal Distribution with $\mu$ and $SE$")
205 | 
206 |     zorder = 1
207 |     plt.plot(x, y, lw=2, color="green", zorder=zorder)
208 |     plt.xlim(xlim)
209 | 
210 |     zorder += 1
211 |     plt.fill_between(x, 0, y, where=x<=lower_bound, facecolor="red", alpha=0.5, zorder=zorder+1 if alpha > pvalue else zorder)
212 |     plt.fill_between(x, 0, y, where=x>=upper_bound, facecolor="red", alpha=0.5, zorder=zorder+1 if alpha > pvalue else zorder)
213 | 
214 |     plt.fill_between(x, 0, y, where=x<=x_alpha_lower, facecolor="green", alpha=1, zorder=zorder if alpha > pvalue else zorder+1)
215 |     plt.fill_between(x, 0, y, where=x>=x_alpha_upper, facecolor="green", alpha=1, zorder=zorder if alpha > pvalue else zorder+1)
216 | 
217 |     zorder += 2
218 |     plt.axvline(x_alpha_upper, color="g", linestyle="--", zorder=zorder)
219 |     plt.axvline(x_alpha_lower, color="g", linestyle="--", zorder=zorder)
220 | 
221 |     plt.axvline(lower_bound, color="r", linestyle="--", zorder=zorder)
222 |     plt.axvline(upper_bound, color="r", linestyle="--", zorder=zorder)
223 | 
224 |     zorder += 1
225 | 
226 |     # TODO: Add p-value and alpha arrows
227 | #     plt.annotate("$\\alpha$", fontsize=14, xy=(z_alpha_lower, 0.005), xycoords="data", xytext=(19, 0.06),
228 | #                                  arrowprops=dict(arrowstyle="->", connectionstyle="arc3"))
229 | #     plt.annotate("", fontsize=14, xy=(z_alpha_upper, 0.005), xycoords="data",
230 | #                                xytext=(21, 0.057), arrowprops=dict(arrowstyle="->", connectionstyle="arc3"))
231 | 
232 | #     plt.annotate("p-value", fontsize=14, xy=(lower_bound, 0.005), xycoords="data", xytext=(17, 0.03),
233 | #                                  arrowprops=dict(arrowstyle="->", connectionstyle="arc3"))
234 | #     plt.annotate("", fontsize=14, xy=(upper_bound, 0.005), xycoords="data",
235 | #                                xytext=(22, 0.027), arrowprops=dict(arrowstyle="->", connectionstyle="arc3"))
236 | 
237 |     plt.annotate("$\\mu$", fontsize=14, xy=(mu, 0), xycoords="data",
238 |                                xytext=(mu, 0), zorder=zorder)
239 | 
240 |     plt.annotate("$\\bar{x}$", fontsize=14, xy=(x_bar, 0), xycoords="data",
241 |                                xytext=(x_bar, 0), zorder=zorder)
242 | 
243 |     plt.annotate("$\\bar{x}_{\\alpha}$", fontsize=14, xy=(x_alpha_upper if x_bar > mu else x_alpha_lower, 0), xycoords="data",
244 |                                xytext=(x_alpha_upper if x_bar > mu else x_alpha_lower, 0), zorder=zorder)
245 | 
246 |     zorder += 1
247 |     plt.annotate("$\\alpha={:0.2f}$".format(alpha), (0.67,0.9), fontsize=14, xycoords="axes fraction", zorder=zorder)
248 |     plt.annotate("p-value=${:0.4f}$".format(pvalue), (0.67,0.8), fontsize=14, xycoords="axes fraction", zorder=zorder)
249 |     plt.annotate("$\\bar{x}=%0.2f$" % (x_bar), (0.67,0.7), fontsize=14, xycoords="axes fraction", zorder=zorder)
250 |     plt.annotate("$\\bar{x}_{\\alpha}=%0.2f$" % (x_alpha_upper if x_bar > mu else x_alpha_lower), (0.67,0.6), fontsize=14, xycoords="axes fraction", zorder=zorder)
251 |         
252 |     plt.grid(True)
253 | 
254 | 
255 | def plot_two_tailed_pvalue_for_tdistribution(t, df, alpha=0.05, xlim=(-4,4)):
256 | 
257 |     t_alpha_upper = get_t_by_alpha_for_two_tailed(alpha, df)
258 |     t_alpha_lower = -t_alpha_upper
259 | 
260 |     t_upper = abs(t)
261 |     t_lower = -t_upper
262 | 
263 |     x = np.linspace(xlim[0], xlim[1], 1000)
264 |     y = stats.norm.pdf(x, loc=0, scale=1)
265 |     pvalue = get_pvalue_for_two_tails_tdistribtion(t, df)
266 | 
267 |     plt.title("t-Distribution")
268 | 
269 |     zorder = 1
270 |     plt.plot(x, y, lw=2, color="green", zorder=zorder)
271 |     plt.xlim(xlim)
272 | 
273 |     zorder += 1
274 |     plt.fill_between(x, 0, y, where=x<=t_lower, facecolor="red", alpha=0.5, zorder=zorder+1 if t_upper > t_alpha_upper else zorder)
275 |     plt.fill_between(x, 0, y, where=x>=t_upper, facecolor="red", alpha=0.5, zorder=zorder+1 if t_upper > t_alpha_upper else zorder)
276 | 
277 |     plt.fill_between(x, 0, y, where=x<=t_alpha_lower, facecolor="green", alpha=1, zorder=zorder if t_upper > t_alpha_upper else zorder+1)
278 |     plt.fill_between(x, 0, y, where=x>=t_alpha_upper, facecolor="green", alpha=1, zorder=zorder if t_upper > t_alpha_upper else zorder+1)
279 | 
280 |     zorder += 2
281 |     plt.axvline(t_alpha_lower, color="g", linestyle="--", zorder=zorder)
282 |     plt.axvline(t_alpha_upper, color="g", linestyle="--", zorder=zorder)
283 |     plt.axvline(t_lower, color="r", linestyle="--", zorder=zorder)
284 |     plt.axvline(t_upper, color="r", linestyle="--", zorder=zorder)
285 | 
286 |     zorder += 1
287 |     plt.annotate("$t$", fontsize=14, xy=(t, 0), xycoords="data",
288 |                                xytext=(t, -0.08), zorder=zorder)
289 | 
290 |     plt.annotate("$t_{\\alpha}$", fontsize=14, xy=(t_alpha_upper if t > 0 else t_alpha_lower, 0), xycoords="data",
291 |                                xytext=(t_alpha_upper if t > 0 else t_alpha_lower, -0.08), zorder=zorder)
292 | 
293 |     zorder += 1
294 |     plt.annotate("$\\alpha={:0.2f}$".format(alpha), (0.67,0.9), fontsize=14, xycoords="axes fraction", zorder=zorder)
295 |     plt.annotate("p-value=${:0.4f}$".format(pvalue), (0.67,0.8), fontsize=14, xycoords="axes fraction", zorder=zorder)
296 |     plt.annotate("$t={:0.2f}$".format(t), (0.67,0.7), fontsize=14, xycoords="axes fraction", zorder=zorder)
297 |     plt.annotate("$t_{\\alpha}=%0.2f$"%(t_alpha_upper if t > 0 else t_alpha_lower), (0.67,0.6), fontsize=14, xycoords="axes fraction", zorder=zorder)
298 | 
299 |     plt.grid(True)
300 | 
301 | if __name__ == "__main__":
302 |     pass
303 | 


--------------------------------------------------------------------------------
/lib/plot_utils.py:
--------------------------------------------------------------------------------
  1 | import numpy as np
  2 | import matplotlib.pyplot as plt
  3 | from matplotlib import cm
  4 | 
  5 | 
  6 | class CPlot:
  7 |     """Classification plot class with static methods"""
  8 |     
  9 |     @staticmethod
 10 |     def show_init_data_plot(X, y, cmap="tab10"):
 11 | 
 12 |         plt.title("Initial Data")
 13 |         scatter = plt.scatter(X[:,0], X[:,1], c=y, cmap=cmap)
 14 |         plt.grid(True)
 15 |         plt.xlabel("X1")
 16 |         plt.ylabel("X2")
 17 |         # FIXME: version 0.20 
 18 |         # plt.legend(*scatter.legend_elements(), title="Class:")
 19 |         plt.show()
 20 | 
 21 |     @staticmethod
 22 |     def show_train_test_plots(model, X_train, y_train, X_test, y_test, 
 23 |                               title=None, cmap="tab10", proba=False, 
 24 |                               show_colorbar=True):
 25 | 
 26 |         step = 0.01
 27 | 
 28 |         x1_min = np.min([X_train[:,0].min(), X_test[:,0].min()])
 29 |         x1_max = np.max([X_train[:,0].max(), X_test[:,0].max()])
 30 | 
 31 |         x2_min = np.min([X_train[:,1].min(), X_test[:,1].min()])
 32 |         x2_max = np.max([X_train[:,1].max(), X_test[:,1].max()])
 33 | 
 34 |         x1_min = x1_min - (0.1*np.abs(x1_min))
 35 |         x1_max = x1_max + (0.1*np.abs(x1_max))
 36 |         x2_min = x2_min - (0.1*np.abs(x2_min))
 37 |         x2_max = x2_max + (0.1*np.abs(x2_max))
 38 | 
 39 |         xx, yy = np.meshgrid(np.arange(x1_min, x1_max, step), 
 40 |                              np.arange(x2_min, x2_max, step))
 41 |         points = np.c_[xx.ravel(), yy.ravel()]
 42 | 
 43 |         if proba is True and hasattr(model, "predict_proba") and len(model.classes_) == 2:
 44 |             cmap = cm.bwr
 45 |             Z = model.predict_proba(points)[:, 1]
 46 |         elif proba is True and hasattr(model, "decision_function") and len(model.classes_) == 2:
 47 |             cmap = cm.bwr
 48 |             Z = model.decision_function(points)
 49 |         else:
 50 |             Z = model.predict(points)
 51 |         
 52 |         Z = Z.reshape(xx.shape)
 53 | 
 54 |         plt.figure(1, figsize=[12, 4])
 55 | 
 56 |         if title:
 57 |             plt.suptitle(title, fontsize=16)
 58 | 
 59 |         plt.subplot(1,2,1)
 60 |         plt.title("Train data")
 61 |         plt.contourf(xx, yy, Z, cmap=cmap, alpha=.5)
 62 |         scatter = plt.scatter(X_train[:,0], X_train[:,1], c=y_train, s=80, cmap=cmap, alpha=0.5, label="True")
 63 |         plt.scatter(X_train[:,0], X_train[:,1], c=model.predict(X_train), s=20, cmap=cmap, label="Predicted")
 64 |         if show_colorbar:
 65 |             plt.colorbar()
 66 |         plt.xlabel("X1")
 67 |         plt.ylabel("X2")
 68 |         plt.xlim(x1_min, x1_max)
 69 |         plt.ylim(x2_min, x2_max)    
 70 |         # FIXME: legend_elements is not supported in matplotlib 3.0.3
 71 | #         plt.legend(*scatter.legend_elements(), title="Class:")
 72 |         plt.legend()
 73 |         plt.grid(True)
 74 | 
 75 |         plt.subplot(1,2,2)
 76 |         plt.title("Test data")
 77 |         plt.contourf(xx, yy, Z, cmap=cmap, alpha=.5)
 78 |         scatter = plt.scatter(X_test[:,0], X_test[:,1], c=y_test, s=80, cmap=cmap, alpha=0.5, label="True")
 79 |         plt.scatter(X_test[:,0], X_test[:,1], c=model.predict(X_test), s=20, cmap=cmap, label="Predicted")
 80 |         if show_colorbar:
 81 |             plt.colorbar()
 82 |         plt.xlabel("X1")
 83 |         plt.ylabel("X2")
 84 |         plt.xlim(x1_min, x1_max)
 85 |         plt.ylim(x2_min, x2_max)    
 86 |         # FIXME: legend_elements is not supported in matplotlib 3.0.3
 87 | #         plt.legend(*scatter.legend_elements(), title="Class:")
 88 |         plt.legend()
 89 |         plt.grid(True)
 90 | 
 91 |         plt.show()
 92 |         
 93 |     @staticmethod
 94 |     def show_prediction_plot(model, X, y, title=None, cmap="tab10", proba=False):
 95 | 
 96 |         step = 0.01
 97 | 
 98 |         x1_min = np.min([X[:,0].min(), X[:,0].min()])
 99 |         x1_max = np.max([X[:,0].max(), X[:,0].max()])
100 | 
101 |         x2_min = np.min([X[:,1].min(), X[:,1].min()])
102 |         x2_max = np.max([X[:,1].max(), X[:,1].max()])
103 | 
104 |         x1_min = x1_min - (0.1*np.abs(x1_min))
105 |         x1_max = x1_max + (0.1*np.abs(x1_max))
106 |         x2_min = x2_min - (0.1*np.abs(x2_min))
107 |         x2_max = x2_max + (0.1*np.abs(x2_max))
108 | 
109 |         xx, yy = np.meshgrid(np.arange(x1_min, x1_max, step), 
110 |                              np.arange(x2_min, x2_max, step))
111 |         points = np.c_[xx.ravel(), yy.ravel()]
112 | 
113 |         if proba is True and hasattr(model, "predict_proba") and len(model.classes_) == 2:
114 |             cmap = cm.bwr
115 |             Z = model.predict_proba(points)[:, 1]
116 |         elif proba is True and hasattr(model, "decision_function") and len(model.classes_) == 2:
117 |             cmap = cm.bwr
118 |             Z = model.decision_function(points)
119 |         else:
120 |             Z = model.predict(points)
121 |         
122 |         Z = Z.reshape(xx.shape)
123 | 
124 |         plt.figure(1, figsize=[6, 4])
125 | 
126 |         if title:
127 |             plt.suptitle(title, fontsize=16)
128 | 
129 |         plt.subplot(1,1,1)
130 |         plt.title("Train data")
131 |         plt.contourf(xx, yy, Z, cmap=cmap, alpha=.5)
132 |         scatter = plt.scatter(X[:,0], X[:,1], c=y, s=80, cmap=cmap, alpha=0.5)
133 |         plt.scatter(X[:,0], X[:,1], c=model.predict(X), s=20, cmap=cmap)
134 |         plt.xlabel("X1")
135 |         plt.ylabel("X2")
136 |         plt.xlim(x1_min, x1_max)
137 |         plt.ylim(x2_min, x2_max)                   
138 | #         plt.legend(*scatter.legend_elements(), title="Class:")
139 |         plt.grid(True)
140 | 
141 |         plt.show()
142 | 
143 | class RPlot:
144 |     """Regression plot class with static methods"""
145 |     
146 |     @staticmethod
147 |     def show_init_data_plot(x, y):
148 |         plt.title("Initial Data")
149 |         plt.plot(x, y, "o", c="g")
150 |         plt.xlabel("X")
151 |         plt.ylabel("Y")
152 |         plt.grid(True)
153 |         plt.show()
154 | 
155 |     @staticmethod
156 |     def show_train_test_plots(model, X_train, y_train, X_test, y_test, title=None):
157 |     
158 |         plt.figure(1, figsize=[12, 4])
159 | 
160 |         if title:
161 |             plt.suptitle(title, fontsize=16)
162 |         
163 |         x_min = np.min([X_train.min(), X_test.min()])
164 |         x_max = np.max([X_train.max(), X_test.max()])
165 |         
166 |         x_min = x_min + 0.1*x_min
167 |         x_max = x_max + 0.1*x_max
168 |         
169 |         xx = np.arange(x_min, x_max, 0.01)[:, np.newaxis]
170 |         
171 |         plt.subplot(1,2,1)
172 |         plt.title("Train data")
173 |         plt.plot(X_train, y_train, "o", c="g")
174 |         plt.plot(xx, model.predict(xx), c="g", linewidth=2)
175 |         plt.plot(X_train, model.predict(X_train), "o", color="red", lw=2)
176 |         plt.vlines(X_train, ymin=y_train, ymax=model.predict(X_train), colors="black", linestyles="dotted")
177 |         plt.xlabel("X")
178 |         plt.ylabel("Y")
179 |         plt.grid(True)
180 | 
181 |         plt.subplot(1,2,2)
182 |         plt.title("Test data")
183 |         plt.plot(X_test, y_test, "o", c="g")
184 |         plt.plot(xx, model.predict(xx), c="green", label="max_depth=5", linewidth=2)
185 |         plt.plot(X_test, model.predict(X_test), "o", color="red", lw=2)
186 |         plt.vlines(X_test, ymin=y_test, ymax=model.predict(X_test), colors="black", linestyles="dotted")
187 |         plt.xlabel("X")
188 |         plt.ylabel("Y")
189 |         plt.grid(True)
190 | 
191 |         plt.show()
192 | 
193 | 
194 | show_cplots = CPlot.show_train_test_plots
195 | show_init_cplots = CPlot.show_init_data_plot
196 | show_prediction_cplots = CPlot.show_prediction_plot
197 | 
198 | show_rplots = RPlot.show_train_test_plots
199 | show_init_rplots = RPlot.show_init_data_plot
200 | 


--------------------------------------------------------------------------------
/notebooks/C3_GD.ipynb:
--------------------------------------------------------------------------------
  1 | {
  2 |  "cells": [
  3 |   {
  4 |    "cell_type": "markdown",
  5 |    "metadata": {},
  6 |    "source": [
  7 |     "<div style=\"font-size:18pt; padding-top:20px; text-align:center; line-height: 1.5;\">СЕМИНАР. <b>Безусловная оптимизация.</b> Градиентный спуск</div><hr>\n",
  8 |     "<div style=\"text-align:right;\">Папулин С.Ю. <span style=\"font-style: italic;font-weight: bold;\">(papulin.study@yandex.ru)</span></div>"
  9 |    ]
 10 |   },
 11 |   {
 12 |    "cell_type": "markdown",
 13 |    "metadata": {},
 14 |    "source": [
 15 |     "<a name=\"0\"></a>\n",
 16 |     "<div><span style=\"font-size:14pt; font-weight:bold\">Содержание</span>\n",
 17 |     "    <ol>\n",
 18 |     "        <li><a href=\"#1\">Производная</a></li>\n",
 19 |     "        <li><a href=\"#2\">Градиентный спуск</a></li>\n",
 20 |     "    </ol>\n",
 21 |     "</div>"
 22 |    ]
 23 |   },
 24 |   {
 25 |    "cell_type": "code",
 26 |    "execution_count": null,
 27 |    "metadata": {},
 28 |    "outputs": [],
 29 |    "source": [
 30 |     "import numpy as np\n",
 31 |     "import pandas as pnd\n",
 32 |     "import matplotlib.pyplot as plt\n",
 33 |     "from mpl_toolkits.mplot3d import Axes3D\n",
 34 |     "from matplotlib import cm\n",
 35 |     "%matplotlib inline"
 36 |    ]
 37 |   },
 38 |   {
 39 |    "cell_type": "markdown",
 40 |    "metadata": {},
 41 |    "source": [
 42 |     "<a name=\"1\"></a>\n",
 43 |     "<div style=\"display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey\">\n",
 44 |     "    <div style=\"display:table-row\">\n",
 45 |     "        <div style=\"display:table-cell; width:80%; font-size:16pt; font-weight:bold\">1. Производная</div>\n",
 46 |     "    \t<div style=\"display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey\"><a href=\"#0\">К содержанию</a></div>\n",
 47 |     "    </div>\n",
 48 |     "</div>"
 49 |    ]
 50 |   },
 51 |   {
 52 |    "cell_type": "code",
 53 |    "execution_count": null,
 54 |    "metadata": {},
 55 |    "outputs": [],
 56 |    "source": [
 57 |     "from scipy.misc import derivative"
 58 |    ]
 59 |   },
 60 |   {
 61 |    "cell_type": "markdown",
 62 |    "metadata": {},
 63 |    "source": [
 64 |     "Производная в точке"
 65 |    ]
 66 |   },
 67 |   {
 68 |    "cell_type": "code",
 69 |    "execution_count": null,
 70 |    "metadata": {},
 71 |    "outputs": [],
 72 |    "source": [
 73 |     "x0 = -4\n",
 74 |     "f = lambda x: x**2\n",
 75 |     "\n",
 76 |     "\n",
 77 |     "# Производная в точке x0\n",
 78 |     "df_x0 = derivative(f, x0, n=1)\n",
 79 |     "print(\"f'(x0) =\", df_x0)\n",
 80 |     "\n",
 81 |     "# Вторая производная в точке x0\n",
 82 |     "ddf_x0 = derivative(f, x0, n=2)\n",
 83 |     "print(\"f''(x0) =\", ddf_x0)"
 84 |    ]
 85 |   },
 86 |   {
 87 |    "cell_type": "markdown",
 88 |    "metadata": {},
 89 |    "source": [
 90 |     "Производные на итервале значений"
 91 |    ]
 92 |   },
 93 |   {
 94 |    "cell_type": "code",
 95 |    "execution_count": null,
 96 |    "metadata": {},
 97 |    "outputs": [],
 98 |    "source": [
 99 |     "x_start = -4\n",
100 |     "x_end = 5\n",
101 |     "step = 1\n",
102 |     "\n",
103 |     "# Набор значений от x_start до x_end с шагом step\n",
104 |     "x = np.arange(x_start, x_end, step)\n",
105 |     "print(\"Значения:\", x)\n",
106 |     "\n",
107 |     "# Производные\n",
108 |     "df = derivative(f, x, n=1)\n",
109 |     "print(\"Производные:\", df)\n",
110 |     "\n",
111 |     "# Вторые производные\n",
112 |     "ddf = derivative(f, x, n=2)\n",
113 |     "print(\"Вторые производные:\", ddf)"
114 |    ]
115 |   },
116 |   {
117 |    "cell_type": "markdown",
118 |    "metadata": {},
119 |    "source": [
120 |     "Отрицательная функция"
121 |    ]
122 |   },
123 |   {
124 |    "cell_type": "code",
125 |    "execution_count": null,
126 |    "metadata": {},
127 |    "outputs": [],
128 |    "source": [
129 |     "f_neg = lambda x: - x**2"
130 |    ]
131 |   },
132 |   {
133 |    "cell_type": "code",
134 |    "execution_count": null,
135 |    "metadata": {},
136 |    "outputs": [],
137 |    "source": [
138 |     "# Производные\n",
139 |     "df_neg = derivative(f_neg, x, n=1)\n",
140 |     "print(\"Производные:\", df_neg)\n",
141 |     "\n",
142 |     "# Вторые производные\n",
143 |     "ddf_neg = derivative(f_neg, x, n=2)\n",
144 |     "print(\"Вторые производные:\", ddf_neg)"
145 |    ]
146 |   },
147 |   {
148 |    "cell_type": "markdown",
149 |    "metadata": {},
150 |    "source": [
151 |     "Графики"
152 |    ]
153 |   },
154 |   {
155 |    "cell_type": "code",
156 |    "execution_count": null,
157 |    "metadata": {},
158 |    "outputs": [],
159 |    "source": [
160 |     "plt.figure(\"4\", figsize=[15,6])\n",
161 |     "\n",
162 |     "ax1 = plt.subplot(1,2,1)\n",
163 |     "\n",
164 |     "plt.plot(x, f(x), \"-o\", label=\"$f(x)=x^2$\")\n",
165 |     "plt.plot(x, df, \"-o\", label=\"$f'(x)$\")\n",
166 |     "plt.plot(x, ddf, \"-o\", label=\"$f''(x)$\")\n",
167 |     "\n",
168 |     "plt.title(\"$f(x)=x^2$\")\n",
169 |     "\n",
170 |     "plt.xlabel(\"x\")\n",
171 |     "plt.ylabel(\"y\")\n",
172 |     "\n",
173 |     "plt.grid(True)\n",
174 |     "\n",
175 |     "plt.legend()\n",
176 |     "\n",
177 |     "ax2 = plt.subplot(1,2,2)\n",
178 |     "\n",
179 |     "plt.plot(x, f_neg(x), \"-o\",  label=\"$f_{neg}(x)=-x^2$\")\n",
180 |     "plt.plot(x, df_neg, \"-o\", label=\"$f'_{neg}(x)$\")\n",
181 |     "plt.plot(x, ddf_neg, \"-o\", label=\"$f''_{neg}(x)$\")\n",
182 |     "\n",
183 |     "plt.title(\"$f(x)=-x^2$\")\n",
184 |     "\n",
185 |     "plt.xlabel(\"x\")\n",
186 |     "plt.ylabel(\"y\")\n",
187 |     "\n",
188 |     "plt.grid(True)\n",
189 |     "\n",
190 |     "plt.legend()\n",
191 |     "\n",
192 |     "plt.show()"
193 |    ]
194 |   },
195 |   {
196 |    "cell_type": "markdown",
197 |    "metadata": {},
198 |    "source": [
199 |     "Функция:\n",
200 |     "\n",
201 |     "$$f(x) = x^2 + 10 \\cdot \\sin(x)$$"
202 |    ]
203 |   },
204 |   {
205 |    "cell_type": "code",
206 |    "execution_count": null,
207 |    "metadata": {},
208 |    "outputs": [],
209 |    "source": [
210 |     "# Исходные данные\n",
211 |     "x = np.arange(-10, 10, 0.1)\n",
212 |     "f = lambda x: x**2 + 10 * np.sin(x)\n",
213 |     "\n",
214 |     "# Производные\n",
215 |     "df = derivative(f, x, n=1)\n",
216 |     "ddf = derivative(f, x, n=2)"
217 |    ]
218 |   },
219 |   {
220 |    "cell_type": "code",
221 |    "execution_count": null,
222 |    "metadata": {},
223 |    "outputs": [],
224 |    "source": [
225 |     "# Поиск экстремумов (brute force)\n",
226 |     "indx = np.where(np.logical_and(df >= -0.35, df <= 0.25))\n",
227 |     "indx"
228 |    ]
229 |   },
230 |   {
231 |    "cell_type": "markdown",
232 |    "metadata": {},
233 |    "source": [
234 |     "Графики"
235 |    ]
236 |   },
237 |   {
238 |    "cell_type": "code",
239 |    "execution_count": null,
240 |    "metadata": {},
241 |    "outputs": [],
242 |    "source": [
243 |     "plt.figure(\"4\", figsize=[8,6])\n",
244 |     "\n",
245 |     "ax1 = plt.subplot(1,1,1)\n",
246 |     "\n",
247 |     "plt.plot(x, f(x), \"-\", label=\"$f(x)$\")\n",
248 |     "plt.plot(x, df, \"-\", label=\"$f'(x)$\")\n",
249 |     "plt.plot(x, ddf, \"-\", label=\"$f''(x)$\")\n",
250 |     "\n",
251 |     "plt.plot(x[indx], f(x[indx]), \"o\", color=\"darkblue\")\n",
252 |     "\n",
253 |     "for xx in x[indx]:\n",
254 |     "    plt.axvline(x=xx, color=\"grey\", linestyle=\"dashed\", linewidth=1)\n",
255 |     "\n",
256 |     "plt.title(\"$f(x)=x^2 + 10 \\cdot \\sin(x)$\")\n",
257 |     "\n",
258 |     "plt.xlabel(\"x\")\n",
259 |     "plt.ylabel(\"y\")\n",
260 |     "\n",
261 |     "plt.grid(True)\n",
262 |     "\n",
263 |     "plt.legend()\n",
264 |     "\n",
265 |     "plt.show()"
266 |    ]
267 |   },
268 |   {
269 |    "cell_type": "markdown",
270 |    "metadata": {},
271 |    "source": [
272 |     "<a name=\"2\"></a>\n",
273 |     "<div style=\"display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey\">\n",
274 |     "    <div style=\"display:table-row\">\n",
275 |     "        <div style=\"display:table-cell; width:80%; font-size:16pt; font-weight:bold\">2. Градиентный спуск</div>\n",
276 |     "    \t<div style=\"display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey\"><a href=\"#0\">К содержанию</a></div>\n",
277 |     "    </div>\n",
278 |     "</div>"
279 |    ]
280 |   },
281 |   {
282 |    "cell_type": "markdown",
283 |    "metadata": {},
284 |    "source": [
285 |     "$$ \\mathbf{x}^{(i+1)} = \\mathbf{x}^{(i)}-\\alpha \\cdot \\bigtriangledown f \\left( \\mathbf{x}\\right)$$"
286 |    ]
287 |   },
288 |   {
289 |    "cell_type": "markdown",
290 |    "metadata": {},
291 |    "source": [
292 |     "### Функция с одной переменной"
293 |    ]
294 |   },
295 |   {
296 |    "cell_type": "markdown",
297 |    "metadata": {},
298 |    "source": [
299 |     "$$f(x) = x^2 + 10 \\sin(x)$$\n",
300 |     "$$f^{'}(x) = 2x + 10 \\cos(x)$$"
301 |    ]
302 |   },
303 |   {
304 |    "cell_type": "code",
305 |    "execution_count": null,
306 |    "metadata": {},
307 |    "outputs": [],
308 |    "source": [
309 |     "# Функция\n",
310 |     "def f(x):\n",
311 |     "    return x**2 + 10 * np.sin(x)\n",
312 |     "\n",
313 |     "# Производная\n",
314 |     "def df(x):\n",
315 |     "    return 2*x + 10 * np.cos(x)\n",
316 |     "\n",
317 |     "# Значения аргумента\n",
318 |     "x = np.arange(-10, 10, 0.1)"
319 |    ]
320 |   },
321 |   {
322 |    "cell_type": "code",
323 |    "execution_count": null,
324 |    "metadata": {},
325 |    "outputs": [],
326 |    "source": [
327 |     "plt.figure(\"1\")\n",
328 |     "\n",
329 |     "plt.grid(True)\n",
330 |     "plt.plot(x, f(x))\n",
331 |     "plt.plot(x, df(x))\n",
332 |     "plt.title(\"$f(x) = x^2+10\\sin(x)$\")\n",
333 |     "plt.xlabel(\"x\")\n",
334 |     "plt.ylabel(\"f(x)\")\n",
335 |     "plt.legend((\"$f(x)$\", \"$f^{\\prime}(x)$\"), loc=\"lower right\")\n",
336 |     "plt.grid(True)\n",
337 |     "\n",
338 |     "plt.show()"
339 |    ]
340 |   },
341 |   {
342 |    "cell_type": "markdown",
343 |    "metadata": {},
344 |    "source": [
345 |     "<p>Исследование влияния значения коэффициента альфа</p>"
346 |    ]
347 |   },
348 |   {
349 |    "cell_type": "markdown",
350 |    "metadata": {},
351 |    "source": [
352 |     "<p><b><i>Начальная точка 1</i></b></p>"
353 |    ]
354 |   },
355 |   {
356 |    "cell_type": "markdown",
357 |    "metadata": {},
358 |    "source": [
359 |     "$$x_0 = -8$$\n",
360 |     "$$\\alpha \\in \\{ 0.02, 0.05, 0.1, 0.2, 0.4, 0.6\\}$$\n",
361 |     "$$err_{min} = 10^{-3}$$\n",
362 |     "$$iteration_{max} = 20$$"
363 |    ]
364 |   },
365 |   {
366 |    "cell_type": "markdown",
367 |    "metadata": {},
368 |    "source": [
369 |     "<img src=\"img/gd-one-var-alpha-left.png\">"
370 |    ]
371 |   },
372 |   {
373 |    "cell_type": "markdown",
374 |    "metadata": {},
375 |    "source": [
376 |     "<p><b><i>Начальная точка 2</i></b></p>"
377 |    ]
378 |   },
379 |   {
380 |    "cell_type": "markdown",
381 |    "metadata": {},
382 |    "source": [
383 |     "$$x_0 = 8$$\n",
384 |     "$$\\alpha \\in \\{ 0.02, 0.05, 0.1, 0.2, 0.4, 0.6\\}$$\n",
385 |     "$$err_{min} = 10^{-3}$$\n",
386 |     "$$iteration_{max} = 20$$"
387 |    ]
388 |   },
389 |   {
390 |    "cell_type": "markdown",
391 |    "metadata": {},
392 |    "source": [
393 |     "<img src=\"img/gd-one-var-alpha-right.png\">"
394 |    ]
395 |   },
396 |   {
397 |    "cell_type": "markdown",
398 |    "metadata": {},
399 |    "source": [
400 |     "### Функция с двумя переменными"
401 |    ]
402 |   },
403 |   {
404 |    "cell_type": "markdown",
405 |    "metadata": {},
406 |    "source": [
407 |     "Исходная функция:\n",
408 |     "\n",
409 |     "$$f(x_1, x_2) = 2x_1^2 + x_2^2 + x_1x_2$$\n",
410 |     "\n",
411 |     "Частная производная по $x_1$:\n",
412 |     "\n",
413 |     "$$\\frac {\\partial f(x_1, x_2)}{\\partial x_1}  = 4x_1 + x_2$$\n",
414 |     "\n",
415 |     "Частная производная по $x_2$:\n",
416 |     "$$\\frac {\\partial f(x_1, x_2)}{\\partial x_2}  = 2x_2 + x_1$$"
417 |    ]
418 |   },
419 |   {
420 |    "cell_type": "code",
421 |    "execution_count": null,
422 |    "metadata": {},
423 |    "outputs": [],
424 |    "source": [
425 |     "f = lambda x1, x2: 2*x1**2 + x2**2 +x1*x2  # функция\n",
426 |     "dfx1 = lambda x1, x2: 4*x1 + x2  # частная производная по x1\n",
427 |     "dfx2 = lambda x1, x2: 2*x2 + x1  # частная производная по x2\n",
428 |     "\n",
429 |     "coord_x1 = np.arange(-4, 5, 0.1)  # значения x c шагом 1\n",
430 |     "coord_x2 = np.arange(-4, 5, 0.1)  # значения x c шагом 1\n",
431 |     "\n",
432 |     "x1, x2 = np.meshgrid(coord_x1, coord_x2)"
433 |    ]
434 |   },
435 |   {
436 |    "cell_type": "code",
437 |    "execution_count": null,
438 |    "metadata": {},
439 |    "outputs": [],
440 |    "source": [
441 |     "fig = plt.figure(1, figsize=(10, 10))\n",
442 |     "\n",
443 |     "ax0 = fig.add_subplot(2, 2, 1, projection=\"3d\")\n",
444 |     "ax0.set_title(\"$f(x_1,x_2)=2x^2_{1}+x^2_{2}+x_{1}x_{2}$\")\n",
445 |     "ax0.plot_surface(x1, x2, f(x1,x2), rstride=1, cstride=1, cmap=cm.coolwarm,\n",
446 |     "                       linewidth=0, antialiased=True)\n",
447 |     "ax0.set_xlabel(\"$x_1$\")\n",
448 |     "ax0.set_ylabel(\"$x_2$\")\n",
449 |     "ax0.set_zlabel(\"$f(x_1,x_2)$\")\n",
450 |     "\n",
451 |     "ax1 = plt.subplot(2,2,2)\n",
452 |     "ax1.set_title(\"$f(x_1,x_2)=2x^2_{1}+x^2_{2}+x_{1}x_{2}$\")\n",
453 |     "cf = ax1.contourf(x1, x2, f(x1,x2), 20, alpha=0.5, cmap=cm.coolwarm)\n",
454 |     "plt.colorbar(cf)\n",
455 |     "ax1.set_xlabel(\"$x_1$\")\n",
456 |     "ax1.set_ylabel(\"$x_2$\")\n",
457 |     "\n",
458 |     "ax2 = plt.subplot(2,2,3)\n",
459 |     "ax2.set_title(\"Gradient\")\n",
460 |     "ax2.set_xlabel(\"$x_1$\")\n",
461 |     "ax2.set_ylabel(\"$x_2$\")\n",
462 |     "ax2.quiver(x1[0::5, 0::5], x2[0::5, 0::5], \n",
463 |     "           dfx1(x1[0::5, 0::5],x2[0::5, 0::5]), dfx2(x1[0::5, 0::5],x2[0::5, 0::5]), scale=100)\n",
464 |     "\n",
465 |     "ax3 = plt.subplot(2,2,4)\n",
466 |     "ax3.set_title(\"Gradient\")\n",
467 |     "ax3.set_xlabel(\"$x_1$\")\n",
468 |     "ax3.set_ylabel(\"$x_2$\")\n",
469 |     "cf = ax3.contourf(x1, x2, f(x1,x2), 20, cmap=cm.coolwarm)\n",
470 |     "plt.colorbar(cf)\n",
471 |     "ax3.quiver(x1[0::5, 0::5], x2[0::5, 0::5], \n",
472 |     "           dfx1(x1[0::5, 0::5],x2[0::5, 0::5]), dfx2(x1[0::5, 0::5],x2[0::5, 0::5]), scale=100)\n",
473 |     "\n",
474 |     "plt.tight_layout()\n",
475 |     "\n",
476 |     "plt.show()"
477 |    ]
478 |   },
479 |   {
480 |    "cell_type": "markdown",
481 |    "metadata": {},
482 |    "source": [
483 |     "<p>Исследование влияния значения коэффициента альфа</p>"
484 |    ]
485 |   },
486 |   {
487 |    "cell_type": "markdown",
488 |    "metadata": {},
489 |    "source": [
490 |     "<p><b><i>Начальная точка 1</i></b></p>"
491 |    ]
492 |   },
493 |   {
494 |    "cell_type": "markdown",
495 |    "metadata": {},
496 |    "source": [
497 |     "$$x_{1,0} = 3$$\n",
498 |     "$$x_{2,0} = 0$$\n",
499 |     "$$\\alpha \\in \\{ 0.02, 0.05, 0.1, 0.2, 0.3, 0.45\\}$$\n",
500 |     "$$err_{min} = 10^{-3}$$\n",
501 |     "$$iteration_{max} = 20$$"
502 |    ]
503 |   },
504 |   {
505 |    "cell_type": "markdown",
506 |    "metadata": {},
507 |    "source": [
508 |     "<img src=\"img/gd-two-var-alpha-right.png\">"
509 |    ]
510 |   },
511 |   {
512 |    "cell_type": "markdown",
513 |    "metadata": {},
514 |    "source": [
515 |     "<p><b><i>Начальная точка 2</i></b></p>"
516 |    ]
517 |   },
518 |   {
519 |    "cell_type": "markdown",
520 |    "metadata": {},
521 |    "source": [
522 |     "$$x_{1,0} = -3$$\n",
523 |     "$$x_{2,0} = -2$$\n",
524 |     "$$\\alpha \\in \\{ 0.02, 0.05, 0.1, 0.2, 0.3, 0.45\\}$$\n",
525 |     "$$err_{min} = 10^{-3}$$\n",
526 |     "$$iteration_{max} = 20$$"
527 |    ]
528 |   },
529 |   {
530 |    "cell_type": "markdown",
531 |    "metadata": {},
532 |    "source": [
533 |     "<img src=\"img/gd-two-var-alpha-left.png\">"
534 |    ]
535 |   },
536 |   {
537 |    "cell_type": "code",
538 |    "execution_count": null,
539 |    "metadata": {},
540 |    "outputs": [],
541 |    "source": []
542 |   }
543 |  ],
544 |  "metadata": {
545 |   "kernelspec": {
546 |    "display_name": "Python 3",
547 |    "language": "python",
548 |    "name": "python3"
549 |   },
550 |   "language_info": {
551 |    "codemirror_mode": {
552 |     "name": "ipython",
553 |     "version": 3
554 |    },
555 |    "file_extension": ".py",
556 |    "mimetype": "text/x-python",
557 |    "name": "python",
558 |    "nbconvert_exporter": "python",
559 |    "pygments_lexer": "ipython3",
560 |    "version": "3.7.3"
561 |   }
562 |  },
563 |  "nbformat": 4,
564 |  "nbformat_minor": 2
565 | }
566 | 


--------------------------------------------------------------------------------
/notebooks/C3_GD_Appendix.ipynb:
--------------------------------------------------------------------------------
  1 | {
  2 |  "cells": [
  3 |   {
  4 |    "cell_type": "markdown",
  5 |    "metadata": {},
  6 |    "source": [
  7 |     "<div style=\"font-size:18pt; padding-top:20px; text-align:center; line-height: 1.5;\">СЕМИНАР. <b>Оптимизация. Часть 1.</b> Исследование влияния значения коэффициента альфа в градиентном спуске</div><hr>\n",
  8 |     "<div style=\"text-align:right;\">Папулин С.Ю. <span style=\"font-style: italic;font-weight: bold;\">(papulin.study@yandex.ru)</span></div>"
  9 |    ]
 10 |   },
 11 |   {
 12 |    "cell_type": "code",
 13 |    "execution_count": null,
 14 |    "metadata": {},
 15 |    "outputs": [],
 16 |    "source": [
 17 |     "import numpy as np\n",
 18 |     "import pandas as pnd\n",
 19 |     "import matplotlib.pyplot as plt\n",
 20 |     "from mpl_toolkits.mplot3d import Axes3D\n",
 21 |     "from matplotlib import cm\n",
 22 |     "%matplotlib inline"
 23 |    ]
 24 |   },
 25 |   {
 26 |    "cell_type": "markdown",
 27 |    "metadata": {},
 28 |    "source": [
 29 |     "## Функция одной переменной"
 30 |    ]
 31 |   },
 32 |   {
 33 |    "cell_type": "code",
 34 |    "execution_count": null,
 35 |    "metadata": {},
 36 |    "outputs": [],
 37 |    "source": [
 38 |     "def gradient_descent(f, df, start_pos, alpha, max_iter=20, tol=0.0001, return_progress=False):\n",
 39 |     "    \"\"\"Градиентный спуск.\"\"\"\n",
 40 |     "    \n",
 41 |     "    curr_pos = start_pos\n",
 42 |     "    f_prev = f(*start_pos)\n",
 43 |     "    \n",
 44 |     "    if return_progress:\n",
 45 |     "        progress = dict()\n",
 46 |     "        progress[\"points\"] = [curr_pos]\n",
 47 |     "    \n",
 48 |     "    \n",
 49 |     "    for i in range(max_iter):\n",
 50 |     "        \n",
 51 |     "        curr_pos = curr_pos - alpha * df(*curr_pos)\n",
 52 |     "        \n",
 53 |     "        if return_progress:\n",
 54 |     "             progress[\"points\"].append(curr_pos)\n",
 55 |     "    \n",
 56 |     "        f_curr = f(*curr_pos)\n",
 57 |     "\n",
 58 |     "        if abs(f_prev - f_curr) <= tol:\n",
 59 |     "            break\n",
 60 |     "\n",
 61 |     "        f_prev = f_curr\n",
 62 |     "    \n",
 63 |     "    if return_progress:\n",
 64 |     "        progress[\"points\"] = np.array(progress[\"points\"])\n",
 65 |     "        return (curr_pos, f_curr, i+1, progress)\n",
 66 |     "    \n",
 67 |     "    return (curr_pos, f_curr, i+1)"
 68 |    ]
 69 |   },
 70 |   {
 71 |    "cell_type": "code",
 72 |    "execution_count": null,
 73 |    "metadata": {},
 74 |    "outputs": [],
 75 |    "source": [
 76 |     "def plot_progress(x, f, points):\n",
 77 |     "    \n",
 78 |     "    for i in range(1, len(points)):\n",
 79 |     "        start_xy = (points[i-1], f(points[i-1]))\n",
 80 |     "        end_xy = (points[i], f(points[i]))\n",
 81 |     "        plt.annotate(\"\", \n",
 82 |     "                     xy=start_xy, xytext=end_xy, \n",
 83 |     "                     arrowprops=dict(\n",
 84 |     "                         arrowstyle=\"<-\", \n",
 85 |     "                         color=\"grey\",  \n",
 86 |     "                         linestyle =\"dashed\"), \n",
 87 |     "                     zorder=3)    \n",
 88 |     "    plt.annotate(\"\", \n",
 89 |     "                 xy=(points[0], f(points[0])), xytext=(points[-1], f(points[-1])), \n",
 90 |     "                 arrowprops=dict(arrowstyle=\"<-\", color=\"red\"), \n",
 91 |     "                 zorder=4)\n",
 92 |     "    plt.plot(points[0], f(points[0]), \"o\", color=\"green\", zorder=4)\n",
 93 |     "    plt.plot(points[-1], f(points[-1]), \"o\", color=\"red\", zorder=4)\n",
 94 |     "    \n",
 95 |     "\n",
 96 |     "def plot_function(x, f):\n",
 97 |     "    plt.plot(x, f(x), '-', color = \"blue\", zorder=1)\n",
 98 |     "\n",
 99 |     "\n",
100 |     "def plot_derivative(x, df):\n",
101 |     "     plt.plot(x, df(x), '-', color = \"orange\", zorder=2)"
102 |    ]
103 |   },
104 |   {
105 |    "cell_type": "markdown",
106 |    "metadata": {},
107 |    "source": [
108 |     "$$f(x) = x^2 + 10 \\cdot \\cos(x)$$"
109 |    ]
110 |   },
111 |   {
112 |    "cell_type": "code",
113 |    "execution_count": null,
114 |    "metadata": {},
115 |    "outputs": [],
116 |    "source": [
117 |     "# Функция и производная\n",
118 |     "\n",
119 |     "f = lambda x: x**2 + 10*np.cos(x)\n",
120 |     "df = lambda x: 2*x - 10*np.sin(x)\n",
121 |     "\n",
122 |     "\n",
123 |     "x = np.arange(-10, 10, 0.5)\n",
124 |     "\n",
125 |     "\n",
126 |     "# Параметры\n",
127 |     "\n",
128 |     "alpha = 0.05\n",
129 |     "max_iter = 20\n",
130 |     "alphas = [0.01, 0.05, 0.1, 0.15]\n",
131 |     "\n",
132 |     "\n",
133 |     "# Начальное значение\n",
134 |     "\n",
135 |     "x_start = (8,)\n",
136 |     "\n",
137 |     "\n",
138 |     "# Количеста строк при отображении графиков\n",
139 |     "\n",
140 |     "subplot_rows = np.ceil(len(alphas) / 2.0)\n",
141 |     "\n",
142 |     "\n",
143 |     "# Создание области отображения графиков\n",
144 |     "\n",
145 |     "plt.figure(figsize=(10, 4*subplot_rows))\n",
146 |     "plt.suptitle(\"$x^2 + 10 \\cos(x)$\", fontsize=16, y=1.05)\n",
147 |     "\n",
148 |     "# Поиск минимального значения функции при различных alpha\n",
149 |     "\n",
150 |     "for i in range(len(alphas)):\n",
151 |     "    \n",
152 |     "    # Градиентный спуск\n",
153 |     "    final_x, final_f, num_iter, progress = gradient_descent(f, df, x_start, alphas[i], return_progress=True)\n",
154 |     "    \n",
155 |     "    # Отображение результата на графике\n",
156 |     "    plt.subplot(subplot_rows, 2, i+1)\n",
157 |     "    plt.title(\"$x_0=%s, \\\\alpha=%s$\" % (x_start, alphas[i]))\n",
158 |     "    plot_function(x, f)\n",
159 |     "    plot_derivative(x, df)\n",
160 |     "    plot_progress(x, f, progress[\"points\"])\n",
161 |     "    plt.xlabel(\"$x$\")\n",
162 |     "    plt.ylabel(\"$f(x)$\")\n",
163 |     "    plt.grid(True)\n",
164 |     "\n",
165 |     "    \n",
166 |     "# Отбражения графиков\n",
167 |     "\n",
168 |     "plt.tight_layout()\n",
169 |     "plt.show()"
170 |    ]
171 |   },
172 |   {
173 |    "cell_type": "code",
174 |    "execution_count": null,
175 |    "metadata": {},
176 |    "outputs": [],
177 |    "source": [
178 |     "def show_plots(f, df, x_start, alphas, max_iter, tol, func):\n",
179 |     "\n",
180 |     "    # Количеста строк при отображении графиков\n",
181 |     "\n",
182 |     "    subplot_rows = np.ceil(len(alphas) / 2.0)\n",
183 |     "\n",
184 |     "\n",
185 |     "    # Количеста строк при отображении графиков\n",
186 |     "\n",
187 |     "    subplot_rows = np.ceil(len(alphas) / 2.0)\n",
188 |     "\n",
189 |     "\n",
190 |     "    # Создание области отображения графиков\n",
191 |     "\n",
192 |     "    plt.figure(figsize=(10, 4*subplot_rows))\n",
193 |     "    plt.suptitle(\"$x^2 + 10 \\sin(x)$\", fontsize=16, y=1.05)\n",
194 |     "\n",
195 |     "    # Поиск минимального значения функции при различных alpha\n",
196 |     "\n",
197 |     "    for i in range(len(alphas)):\n",
198 |     "\n",
199 |     "        # Градиентный спуск\n",
200 |     "        final_x, final_f, num_iter, progress = func(f, df, x_start, alphas[i], max_iter=max_iter, tol=err, return_progress=True)\n",
201 |     "\n",
202 |     "        # Отображение результата на графике\n",
203 |     "        plt.subplot(subplot_rows, 2, i+1)\n",
204 |     "        plt.title(\"$x_0=%s, \\\\alpha=%s$\" % (x_start, alphas[i]))\n",
205 |     "        plot_function(x, f)\n",
206 |     "        plot_derivative(x, df)\n",
207 |     "        plot_progress(x, f, progress[\"points\"])\n",
208 |     "        plt.xlabel(\"$x$\")\n",
209 |     "        plt.ylabel(\"$f(x)$\")\n",
210 |     "        plt.grid(True)\n",
211 |     "\n",
212 |     "\n",
213 |     "    # Отбражения графиков\n",
214 |     "\n",
215 |     "    plt.tight_layout()\n",
216 |     "    plt.show()"
217 |    ]
218 |   },
219 |   {
220 |    "cell_type": "code",
221 |    "execution_count": null,
222 |    "metadata": {},
223 |    "outputs": [],
224 |    "source": [
225 |     "# Функция и производная\n",
226 |     "\n",
227 |     "f = lambda x: x**2 + 10 * np.sin(x)\n",
228 |     "df = lambda x: 2*x + 10 * np.cos(x)\n",
229 |     "\n",
230 |     "\n",
231 |     "x = np.arange(-10, 10, 0.5)\n",
232 |     "\n",
233 |     "\n",
234 |     "# Параметры\n",
235 |     "\n",
236 |     "alpha = 0.05\n",
237 |     "max_iter = 20\n",
238 |     "alphas = [0.02, 0.05, 0.1, 0.2, 0.4, 0.6]\n",
239 |     "err = 1e-3  # минимальное изменение функции (ошибка)"
240 |    ]
241 |   },
242 |   {
243 |    "cell_type": "code",
244 |    "execution_count": null,
245 |    "metadata": {},
246 |    "outputs": [],
247 |    "source": [
248 |     "# Начальное значение\n",
249 |     "\n",
250 |     "x_start = (8,)\n",
251 |     "show_plots(f, df, x_start, alphas, max_iter, tol=err, func=gradient_descent)"
252 |    ]
253 |   },
254 |   {
255 |    "cell_type": "code",
256 |    "execution_count": null,
257 |    "metadata": {},
258 |    "outputs": [],
259 |    "source": [
260 |     "# Начальное значение\n",
261 |     "\n",
262 |     "x_start = (-8,)\n",
263 |     "show_plots(f, df, x_start, alphas, max_iter, tol=err, func=gradient_descent)"
264 |    ]
265 |   },
266 |   {
267 |    "cell_type": "markdown",
268 |    "metadata": {},
269 |    "source": [
270 |     "## Функция двух переменных"
271 |    ]
272 |   },
273 |   {
274 |    "cell_type": "markdown",
275 |    "metadata": {},
276 |    "source": [
277 |     "Функция с двумя переменными $f(x_1,x_2)$:\n",
278 |     "\n",
279 |     "$$f(x_1, x_2) = 2x_1^2 + x_2^2 + x_1x_2$$"
280 |    ]
281 |   },
282 |   {
283 |    "cell_type": "code",
284 |    "execution_count": null,
285 |    "metadata": {},
286 |    "outputs": [],
287 |    "source": [
288 |     "# Функция и частные производные по x1 и x2\n",
289 |     "\n",
290 |     "f = lambda x1, x2: 2*x1**2 + x2**2 +x1*x2\n",
291 |     "dfx1 = lambda x1, x2: 4*x1 + x2\n",
292 |     "dfx2 = lambda x1, x2: 2*x2 + x1\n",
293 |     "\n",
294 |     "df = lambda x1, x2: np.array((dfx1(x1, x2), dfx2(x1,x2)))\n",
295 |     "\n",
296 |     "coord_x1 = np.arange(-4, 5, 0.1)  # Значения x1 c шагом 1\n",
297 |     "coord_x2 = np.arange(-4, 5, 0.1)  # Значения x2 c шагом 1\n",
298 |     "\n",
299 |     "x1, x2 = np.meshgrid(coord_x1, coord_x2)\n",
300 |     "\n",
301 |     "\n",
302 |     "# Отображение фукции и её градиент\n",
303 |     "\n",
304 |     "fig = plt.figure(1, figsize=(10, 10))\n",
305 |     "\n",
306 |     "ax0 = fig.add_subplot(2, 2, 1, projection=\"3d\")\n",
307 |     "ax0.plot_surface(x1, x2, f(x1,x2), rstride=1, cstride=1, cmap=cm.coolwarm,\n",
308 |     "                       linewidth=0, antialiased=True)\n",
309 |     "ax0.set_title(\"$f(x_1,x_2)=2x^2_{1}+x^2_{2}+x_{1}x_{2}$\")\n",
310 |     "ax0.set_xlabel(\"$x_1$\")\n",
311 |     "ax0.set_ylabel(\"$x_2$\")\n",
312 |     "ax0.set_zlabel(\"$f(x_1,x_2)$\")\n",
313 |     "\n",
314 |     "ax1 = plt.subplot(2,2,2)\n",
315 |     "cf = ax1.contourf(x1, x2, f(x1,x2), 50, alpha=0.5, cmap=cm.coolwarm)\n",
316 |     "plt.colorbar(cf)\n",
317 |     "ax1.set_title(\"$f(x_1,x_2)=2x^2_{1}+x^2_{2}+x_{1}x_{2}$\")\n",
318 |     "ax1.set_xlabel(\"$x_1$\")\n",
319 |     "ax1.set_ylabel(\"$x_2$\")\n",
320 |     "\n",
321 |     "ax2 = plt.subplot(2,2,3)\n",
322 |     "ax2.set_title(\"Gradient\")\n",
323 |     "ax2.set_xlabel(\"$x_1$\")\n",
324 |     "ax2.set_ylabel(\"$x_2$\")\n",
325 |     "ax2.quiver(x1[0::5, 0::5], x2[0::5, 0::5], dfx1(x1[0::5, 0::5],x2[0::5, 0::5]), dfx2(x1[0::5, 0::5],x2[0::5, 0::5]), scale=100)\n",
326 |     "\n",
327 |     "ax3 = plt.subplot(2,2,4)\n",
328 |     "ax3.set_xlabel(\"$x_1$\")\n",
329 |     "ax3.set_ylabel(\"$x_2$\")\n",
330 |     "ax3.set_title(\"Gradient\")\n",
331 |     "ax3.contourf(x1, x2, f(x1,x2), 50, cmap=cm.coolwarm)\n",
332 |     "ax3.quiver(x1[0::5, 0::5], x2[0::5, 0::5], dfx1(x1[0::5, 0::5],x2[0::5, 0::5]), dfx2(x1[0::5, 0::5],x2[0::5, 0::5]), scale=100)\n",
333 |     "\n",
334 |     "plt.tight_layout()\n",
335 |     "\n",
336 |     "plt.show()"
337 |    ]
338 |   },
339 |   {
340 |    "cell_type": "code",
341 |    "execution_count": null,
342 |    "metadata": {},
343 |    "outputs": [],
344 |    "source": [
345 |     "def plot_progress_two(points):\n",
346 |     "    \n",
347 |     "    for i in range(1, len(points)):\n",
348 |     "        start_xy = points[i-1]\n",
349 |     "        end_xy = points[i]\n",
350 |     "        plt.plot(start_xy[0], start_xy[1], \"o\", color = \"blue\")\n",
351 |     "        plt.annotate(\"\", xy=start_xy, xytext=end_xy, arrowprops=dict(arrowstyle=\"<-\", color=\"grey\",  \n",
352 |     "                                                                                   linestyle =\"dashed\"), zorder=3)\n",
353 |     "    \n",
354 |     "    plt.annotate(\"\", xy=points[0], xytext=points[-1], \n",
355 |     "                 arrowprops=dict(arrowstyle=\"<-\", color=\"red\",  linestyle =\"dashed\"), \n",
356 |     "                 zorder=3)\n",
357 |     "    plt.plot(*points[0], \"o\", color=\"green\", zorder=4)\n",
358 |     "    plt.plot(*points[-1], \"o\", color=\"red\", zorder=4)\n",
359 |     "\n",
360 |     "    \n",
361 |     "def plot_info_two(final_x, final_f, num_iter):\n",
362 |     "        text = \"Number of iterations: \"+str(num_iter) + \"\\n $x_{1,min} = \" + \\\n",
363 |     "            str(np.around(final_x[0], decimals = 2)) +\"$, $x_{2,min} = \" + str(np.around(final_x[1], decimals = 2)) +\"$ \\n\" + \\\n",
364 |     "            \"$f(x_{1,min}, x_{2,min}) = \" + str(np.around(final_f, decimals = 4)) + \"$\"\n",
365 |     "        plt.annotate(text, (0.10, 0.80), xytext=(0.10, 0.75), textcoords=\"axes fraction\", size=14)\n",
366 |     "    \n",
367 |     "\n",
368 |     "def plot_function_two(x1, x2, f):\n",
369 |     "    plt.contourf(x1, x2, f(x1, x2), 10, alpha=0.5, cmap=cm.coolwarm)\n",
370 |     "    \n",
371 |     "\n",
372 |     "def show_plots_two(f, df, start_pos, alphas, max_iter, tol, func):\n",
373 |     "\n",
374 |     "    # Количеста строк при отображении графиков\n",
375 |     "\n",
376 |     "    subplot_rows = np.ceil(len(alphas) / 2.0)\n",
377 |     "\n",
378 |     "\n",
379 |     "    # Количеста строк при отображении графиков\n",
380 |     "\n",
381 |     "    subplot_rows = np.ceil(len(alphas) / 2.0)\n",
382 |     "\n",
383 |     "\n",
384 |     "    # Создание области отображения графиков\n",
385 |     "\n",
386 |     "    plt.figure(figsize=(10, 4*subplot_rows))\n",
387 |     "    plt.suptitle(\"$f(x_1, x_2) = 2x_1^2 + x_2^2 + x_1x_2$\", fontsize=16, y=1.05)\n",
388 |     "\n",
389 |     "    # Поиск минимального значения функции при различных alpha\n",
390 |     "\n",
391 |     "    for i in range(len(alphas)):\n",
392 |     "\n",
393 |     "        # Градиентный спуск\n",
394 |     "        final_x, final_f, num_iter, progress = func(f, df, start_pos, alphas[i], max_iter=max_iter, tol=err, return_progress=True)\n",
395 |     "\n",
396 |     "        # Отображение результата на графике\n",
397 |     "        plt.subplot(subplot_rows, 2, i+1)\n",
398 |     "        plt.title(\"$x_0=%s, \\\\alpha=%s$\" % (start_pos, alpha))\n",
399 |     "        plot_function_two(x1, x2, f)\n",
400 |     "        plot_info_two(final_x, final_f, num_iter)\n",
401 |     "        plot_progress_two(progress[\"points\"])\n",
402 |     "        plt.xlabel(\"$x1$\")\n",
403 |     "        plt.ylabel(\"$x2$\")\n",
404 |     "        plt.grid(True)\n",
405 |     "\n",
406 |     "    # Отбражения графиков\n",
407 |     "\n",
408 |     "    plt.tight_layout()\n",
409 |     "    plt.show()"
410 |    ]
411 |   },
412 |   {
413 |    "cell_type": "code",
414 |    "execution_count": null,
415 |    "metadata": {},
416 |    "outputs": [],
417 |    "source": [
418 |     "# Параметры\n",
419 |     "\n",
420 |     "max_iter = 20\n",
421 |     "err = 0.0001\n",
422 |     "alphas = [0.01, 0.05, 0.1, 0.2, 0.3, 0.45]"
423 |    ]
424 |   },
425 |   {
426 |    "cell_type": "code",
427 |    "execution_count": null,
428 |    "metadata": {},
429 |    "outputs": [],
430 |    "source": [
431 |     "# Начальное значение\n",
432 |     "\n",
433 |     "start_pos = (3, 0)\n",
434 |     "show_plots_two(f, df, start_pos, alphas, max_iter, tol=err, func=gradient_descent)"
435 |    ]
436 |   },
437 |   {
438 |    "cell_type": "code",
439 |    "execution_count": null,
440 |    "metadata": {},
441 |    "outputs": [],
442 |    "source": [
443 |     "# Начальное значение\n",
444 |     "\n",
445 |     "start_pos = (-3, -2)\n",
446 |     "show_plots_two(f, df, start_pos, alphas, max_iter, tol=err, func=gradient_descent)"
447 |    ]
448 |   },
449 |   {
450 |    "cell_type": "code",
451 |    "execution_count": null,
452 |    "metadata": {},
453 |    "outputs": [],
454 |    "source": []
455 |   },
456 |   {
457 |    "cell_type": "code",
458 |    "execution_count": null,
459 |    "metadata": {},
460 |    "outputs": [],
461 |    "source": []
462 |   }
463 |  ],
464 |  "metadata": {
465 |   "kernelspec": {
466 |    "display_name": "Python 3",
467 |    "language": "python",
468 |    "name": "python3"
469 |   },
470 |   "language_info": {
471 |    "codemirror_mode": {
472 |     "name": "ipython",
473 |     "version": 3
474 |    },
475 |    "file_extension": ".py",
476 |    "mimetype": "text/x-python",
477 |    "name": "python",
478 |    "nbconvert_exporter": "python",
479 |    "pygments_lexer": "ipython3",
480 |    "version": "3.7.4"
481 |   }
482 |  },
483 |  "nbformat": 4,
484 |  "nbformat_minor": 2
485 | }
486 | 


--------------------------------------------------------------------------------
/notebooks/C3_Sklearn_Basics.ipynb:
--------------------------------------------------------------------------------
  1 | {
  2 |  "cells": [
  3 |   {
  4 |    "cell_type": "markdown",
  5 |    "metadata": {},
  6 |    "source": [
  7 |     "# Основы разработки под sklearn\n",
  8 |     "---\n",
  9 |     "С.Ю. Папулин (papulin.study@yandex.ru)"
 10 |    ]
 11 |   },
 12 |   {
 13 |    "cell_type": "markdown",
 14 |    "metadata": {},
 15 |    "source": [
 16 |     "### Содержание\n",
 17 |     "\n",
 18 |     "- [Общие сведения](#Общие-сведения)\n",
 19 |     "- [Реализация модели предсказания](#Реализация-модели-предсказания)\n",
 20 |     "- [Реализация транформации](#Реализация-транформации)\n",
 21 |     "- [Применение `Pipeline`](#Применение-Pipeline)\n",
 22 |     "- [Источники](#Источники)"
 23 |    ]
 24 |   },
 25 |   {
 26 |    "cell_type": "code",
 27 |    "execution_count": null,
 28 |    "metadata": {},
 29 |    "outputs": [],
 30 |    "source": [
 31 |     "import numpy as np\n",
 32 |     "import matplotlib.pyplot as plt\n",
 33 |     "%matplotlib inline"
 34 |    ]
 35 |   },
 36 |   {
 37 |    "cell_type": "markdown",
 38 |    "metadata": {},
 39 |    "source": [
 40 |     "## Общие сведения"
 41 |    ]
 42 |   },
 43 |   {
 44 |    "cell_type": "markdown",
 45 |    "metadata": {},
 46 |    "source": [
 47 |     "Объекты `sklearn` и их методы:\n",
 48 |     "- **Estimator**: `fit` и `partial_fit` (дообучение)\n",
 49 |     "- **Predictor**: `predict` + для классификации дополнительно `decision_function` и/или `predict_proba`\n",
 50 |     "- **Transformer**: `transform` и `fit_transform`\n",
 51 |     "- **Model**: `score`"
 52 |    ]
 53 |   },
 54 |   {
 55 |    "cell_type": "markdown",
 56 |    "metadata": {},
 57 |    "source": [
 58 |     "Аргументы методов:\n",
 59 |     "- `fit(X, y, **kwargs) -> self`\n",
 60 |     "- `partial_fit(X, y, **kwargs) -> self`\n",
 61 |     "- `set_params(*args, **kwargs)` и `get_params(deep=True) -> dict`\n",
 62 |     "- `score(X, y, **kwargs) -> float`\n",
 63 |     "- `transform(X, **kwargs) -> X_t`\n",
 64 |     "- `fit_transform(X, y, **kwargs) -> X_t`\n",
 65 |     "\n",
 66 |     "`X` - массив размера (n_samples, n_features), `y` - массив размера (n_samples,)\n",
 67 |     "\n",
 68 |     "Результат оценки (обучения):\n",
 69 |     "- `coef_`, `idf_` и пр.\n",
 70 |     "\n",
 71 |     "Перезаписываются каждый раз после вызова `fit`"
 72 |    ]
 73 |   },
 74 |   {
 75 |    "cell_type": "markdown",
 76 |    "metadata": {},
 77 |    "source": [
 78 |     "## Реализация модели предсказания"
 79 |    ]
 80 |   },
 81 |   {
 82 |    "cell_type": "code",
 83 |    "execution_count": null,
 84 |    "metadata": {},
 85 |    "outputs": [],
 86 |    "source": [
 87 |     "from sklearn.base import BaseEstimator, RegressorMixin, TransformerMixin\n",
 88 |     "from sklearn.utils.validation import check_X_y, check_array, check_is_fitted"
 89 |    ]
 90 |   },
 91 |   {
 92 |    "cell_type": "code",
 93 |    "execution_count": null,
 94 |    "metadata": {},
 95 |    "outputs": [],
 96 |    "source": [
 97 |     "help(BaseEstimator)"
 98 |    ]
 99 |   },
100 |   {
101 |    "cell_type": "code",
102 |    "execution_count": null,
103 |    "metadata": {},
104 |    "outputs": [],
105 |    "source": [
106 |     "help(RegressorMixin)"
107 |    ]
108 |   },
109 |   {
110 |    "cell_type": "code",
111 |    "execution_count": null,
112 |    "metadata": {},
113 |    "outputs": [],
114 |    "source": [
115 |     "class CustomLinearRegression(BaseEstimator, RegressorMixin):\n",
116 |     "    \n",
117 |     "    def __init__(self, method='ols'):\n",
118 |     "        self.method = method\n",
119 |     "    \n",
120 |     "    def fit(self, X, y):\n",
121 |     "        X, y = check_X_y(X, y)\n",
122 |     "        self.n_features_in_ = X.shape[1]\n",
123 |     "        X_ = np.c_[np.ones(X.shape[0]), X]\n",
124 |     "        # Вариант 1. не пройдет тесты check_estimator\n",
125 |     "        self.coef_ = np.linalg.inv(X_.T @ X_) @ X_.T @ y\n",
126 |     "        # Вариант 2. пройдет тесты check_estimator\n",
127 |     "        # self.coef_ = np.linalg.pinv(X_) @ y\n",
128 |     "        return self\n",
129 |     "    \n",
130 |     "    def predict(self, X):\n",
131 |     "        check_is_fitted(self, 'coef_')\n",
132 |     "        X = check_array(X)\n",
133 |     "        X_ = np.c_[np.ones(X.shape[0]), X]\n",
134 |     "        return X_ @ self.coef_"
135 |    ]
136 |   },
137 |   {
138 |    "cell_type": "markdown",
139 |    "metadata": {},
140 |    "source": [
141 |     "Доступ к параметрам"
142 |    ]
143 |   },
144 |   {
145 |    "cell_type": "code",
146 |    "execution_count": null,
147 |    "metadata": {},
148 |    "outputs": [],
149 |    "source": [
150 |     "model = CustomLinearRegression()\n",
151 |     "# model.get_params(deep=True)"
152 |    ]
153 |   },
154 |   {
155 |    "cell_type": "code",
156 |    "execution_count": null,
157 |    "metadata": {},
158 |    "outputs": [],
159 |    "source": [
160 |     "# model.set_params(method='gd')"
161 |    ]
162 |   },
163 |   {
164 |    "cell_type": "markdown",
165 |    "metadata": {},
166 |    "source": [
167 |     "Проверка на совместимость с `sklearn`"
168 |    ]
169 |   },
170 |   {
171 |    "cell_type": "code",
172 |    "execution_count": null,
173 |    "metadata": {},
174 |    "outputs": [],
175 |    "source": [
176 |     "from sklearn.utils.estimator_checks import check_estimator\n",
177 |     "from sklearn.base import is_regressor "
178 |    ]
179 |   },
180 |   {
181 |    "cell_type": "code",
182 |    "execution_count": null,
183 |    "metadata": {},
184 |    "outputs": [],
185 |    "source": [
186 |     "# Если есть проблемы с нижележащей командой, обновите threadpoolctl\n",
187 |     "# %pip install threadpoolctl==3.1.0"
188 |    ]
189 |   },
190 |   {
191 |    "cell_type": "code",
192 |    "execution_count": null,
193 |    "metadata": {},
194 |    "outputs": [],
195 |    "source": [
196 |     "try:\n",
197 |     "    check_estimator(estimator=CustomLinearRegression())\n",
198 |     "except Exception as e:\n",
199 |     "    print(e)"
200 |    ]
201 |   },
202 |   {
203 |    "cell_type": "code",
204 |    "execution_count": null,
205 |    "metadata": {},
206 |    "outputs": [],
207 |    "source": [
208 |     "# Note: Based on _estimator_type\n",
209 |     "is_regressor(CustomLinearRegression())"
210 |    ]
211 |   },
212 |   {
213 |    "cell_type": "markdown",
214 |    "metadata": {},
215 |    "source": [
216 |     "Совместимые с `sklearn` объекты можно использовать в `GridSearchCV` для выбора моделей и в `Pipeline` для организации последовательности обработки данных."
217 |    ]
218 |   },
219 |   {
220 |    "cell_type": "markdown",
221 |    "metadata": {},
222 |    "source": [
223 |     "### Пример"
224 |    ]
225 |   },
226 |   {
227 |    "cell_type": "code",
228 |    "execution_count": null,
229 |    "metadata": {},
230 |    "outputs": [],
231 |    "source": [
232 |     "def generate_data(n=100, start_x=4, length_x=8, mu=0, sigma=0.5):\n",
233 |     "    \"\"\"Генерация данных.\"\"\"\n",
234 |     "    from scipy import stats\n",
235 |     "    f = lambda x: 2 + 0.3*x\n",
236 |     "    x = stats.uniform.rvs(size=n, loc=start_x, scale=length_x, random_state=1)\n",
237 |     "    e = stats.norm.rvs(size=n, loc=mu, scale=sigma, random_state=1)\n",
238 |     "    return x.reshape(-1,1), f(x) + e"
239 |    ]
240 |   },
241 |   {
242 |    "cell_type": "code",
243 |    "execution_count": null,
244 |    "metadata": {},
245 |    "outputs": [],
246 |    "source": [
247 |     "X, y = generate_data()"
248 |    ]
249 |   },
250 |   {
251 |    "cell_type": "code",
252 |    "execution_count": null,
253 |    "metadata": {},
254 |    "outputs": [],
255 |    "source": [
256 |     "# Отображение наблюдений\n",
257 |     "plt.figure(1, figsize=[4, 4])\n",
258 |     "\n",
259 |     "plt.subplot(1,1,1)\n",
260 |     "plt.scatter(X[:,0], y, color=\"green\", label=\"Sample\", zorder=2)\n",
261 |     "plt.legend()\n",
262 |     "plt.xlabel(\"$x$\")\n",
263 |     "plt.ylabel(\"$f(x)$\")\n",
264 |     "plt.grid(True)"
265 |    ]
266 |   },
267 |   {
268 |    "cell_type": "code",
269 |    "execution_count": null,
270 |    "metadata": {},
271 |    "outputs": [],
272 |    "source": [
273 |     "from sklearn.model_selection import train_test_split"
274 |    ]
275 |   },
276 |   {
277 |    "cell_type": "code",
278 |    "execution_count": null,
279 |    "metadata": {},
280 |    "outputs": [],
281 |    "source": [
282 |     "# Разбиение данных на обучающие и тестовые\n",
283 |     "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=10)\n",
284 |     "X_train[:5], y_train[:5]"
285 |    ]
286 |   },
287 |   {
288 |    "cell_type": "code",
289 |    "execution_count": null,
290 |    "metadata": {},
291 |    "outputs": [],
292 |    "source": [
293 |     "model = CustomLinearRegression()"
294 |    ]
295 |   },
296 |   {
297 |    "cell_type": "code",
298 |    "execution_count": null,
299 |    "metadata": {},
300 |    "outputs": [],
301 |    "source": [
302 |     "# Обучение\n",
303 |     "model.fit(X_train, y_train)\n",
304 |     "model.coef_"
305 |    ]
306 |   },
307 |   {
308 |    "cell_type": "code",
309 |    "execution_count": null,
310 |    "metadata": {},
311 |    "outputs": [],
312 |    "source": [
313 |     "# Отображение наблюдений и линии регрессии\n",
314 |     "plt.figure(2, figsize=[4, 4])\n",
315 |     "\n",
316 |     "xx = np.linspace(X[:,0].min(),X[:,0].max(), 2).reshape(-1,1)\n",
317 |     "\n",
318 |     "plt.subplot(1,1,1)\n",
319 |     "plt.scatter(X[:,0], y, color=\"green\", label=\"Sample\", zorder=2)\n",
320 |     "plt.plot(xx, model.predict(xx), \"-\", color=\"grey\", label=\"Regression\")\n",
321 |     "plt.xlabel(\"$x$\")\n",
322 |     "plt.ylabel(\"$f(x)$\")\n",
323 |     "plt.legend()\n",
324 |     "plt.grid(True)"
325 |    ]
326 |   },
327 |   {
328 |    "cell_type": "code",
329 |    "execution_count": null,
330 |    "metadata": {},
331 |    "outputs": [],
332 |    "source": [
333 |     "model.score(X_test, y_test)"
334 |    ]
335 |   },
336 |   {
337 |    "cell_type": "markdown",
338 |    "metadata": {},
339 |    "source": [
340 |     "Сравнение с реализацией в `sklearn`"
341 |    ]
342 |   },
343 |   {
344 |    "cell_type": "code",
345 |    "execution_count": null,
346 |    "metadata": {},
347 |    "outputs": [],
348 |    "source": [
349 |     "from sklearn.linear_model import LinearRegression"
350 |    ]
351 |   },
352 |   {
353 |    "cell_type": "code",
354 |    "execution_count": null,
355 |    "metadata": {},
356 |    "outputs": [],
357 |    "source": [
358 |     "buildin_model = LinearRegression().fit(X_train, y_train)\n",
359 |     "buildin_model.intercept_, buildin_model.coef_"
360 |    ]
361 |   },
362 |   {
363 |    "cell_type": "code",
364 |    "execution_count": null,
365 |    "metadata": {},
366 |    "outputs": [],
367 |    "source": [
368 |     "buildin_model.score(X_test, y_test)"
369 |    ]
370 |   },
371 |   {
372 |    "cell_type": "markdown",
373 |    "metadata": {},
374 |    "source": [
375 |     "## Реализация транформации"
376 |    ]
377 |   },
378 |   {
379 |    "cell_type": "code",
380 |    "execution_count": null,
381 |    "metadata": {},
382 |    "outputs": [],
383 |    "source": [
384 |     "help(TransformerMixin)"
385 |    ]
386 |   },
387 |   {
388 |    "cell_type": "code",
389 |    "execution_count": null,
390 |    "metadata": {},
391 |    "outputs": [],
392 |    "source": [
393 |     "class CustomStandardTransformer(BaseEstimator, TransformerMixin):\n",
394 |     "    \n",
395 |     "    def __init__(self):\n",
396 |     "        pass\n",
397 |     "    \n",
398 |     "    def fit(self, X, y=None):\n",
399 |     "        # TODO(X, y)\n",
400 |     "        self.params_ = ...\n",
401 |     "        return self\n",
402 |     "    \n",
403 |     "    def transform(self, X):\n",
404 |     "        # TODO(X, params_)\n",
405 |     "        X_ = ...\n",
406 |     "        return X_"
407 |    ]
408 |   },
409 |   {
410 |    "cell_type": "markdown",
411 |    "metadata": {},
412 |    "source": [
413 |     "## Применение Pipeline"
414 |    ]
415 |   },
416 |   {
417 |    "cell_type": "code",
418 |    "execution_count": null,
419 |    "metadata": {},
420 |    "outputs": [],
421 |    "source": [
422 |     "from sklearn.pipeline import Pipeline"
423 |    ]
424 |   },
425 |   {
426 |    "cell_type": "code",
427 |    "execution_count": null,
428 |    "metadata": {},
429 |    "outputs": [],
430 |    "source": [
431 |     "# TODO: AddOneTransformer\n",
432 |     "# TODO: CustomLinearRegression"
433 |    ]
434 |   },
435 |   {
436 |    "cell_type": "code",
437 |    "execution_count": null,
438 |    "metadata": {},
439 |    "outputs": [],
440 |    "source": [
441 |     "pipeline = Pipeline([\n",
442 |     "    (\"addone\", AddOneTransformer()),\n",
443 |     "    (\"regressor\", CustomLinearRegression())\n",
444 |     "])"
445 |    ]
446 |   },
447 |   {
448 |    "cell_type": "code",
449 |    "execution_count": null,
450 |    "metadata": {},
451 |    "outputs": [],
452 |    "source": [
453 |     "# Обучение\n",
454 |     "pipeline.fit(X_train, y_train)\n",
455 |     "\n",
456 |     "# Параметры модели\n",
457 |     "print(f'w = {pipeline.named_steps[\"regressor\"].coef_}')\n",
458 |     "\n",
459 |     "# Качество модели\n",
460 |     "print(f'R^2 = {pipeline.score(X_test, y_test)}')\n",
461 |     "\n",
462 |     "# Предсказание\n",
463 |     "y_test__pred = pipeline.predict(X_test)\n",
464 |     "y_test__pred[:5]"
465 |    ]
466 |   },
467 |   {
468 |    "cell_type": "code",
469 |    "execution_count": null,
470 |    "metadata": {},
471 |    "outputs": [],
472 |    "source": [
473 |     "# Отображение наблюдений и линии регрессии\n",
474 |     "plt.figure(2, figsize=[4, 4])\n",
475 |     "\n",
476 |     "xx = np.linspace(X[:,0].min(),X[:,0].max(), 2).reshape(-1,1)\n",
477 |     "\n",
478 |     "plt.subplot(1,1,1)\n",
479 |     "plt.scatter(X[:,0], y, color=\"green\", label=\"Sample\", zorder=2)\n",
480 |     "plt.plot(xx, pipeline.predict(xx), \"-\", color=\"grey\", label=\"Regression\")\n",
481 |     "plt.xlabel(\"$x$\")\n",
482 |     "plt.ylabel(\"$f(x)$\")\n",
483 |     "plt.legend()\n",
484 |     "plt.grid(True)"
485 |    ]
486 |   },
487 |   {
488 |    "cell_type": "markdown",
489 |    "metadata": {},
490 |    "source": [
491 |     "## Сериализация модели"
492 |    ]
493 |   },
494 |   {
495 |    "cell_type": "markdown",
496 |    "metadata": {},
497 |    "source": [
498 |     "`joblib`"
499 |    ]
500 |   },
501 |   {
502 |    "cell_type": "code",
503 |    "execution_count": null,
504 |    "metadata": {},
505 |    "outputs": [],
506 |    "source": [
507 |     "from joblib import dump, load"
508 |    ]
509 |   },
510 |   {
511 |    "cell_type": "code",
512 |    "execution_count": null,
513 |    "metadata": {},
514 |    "outputs": [],
515 |    "source": [
516 |     "# Обученная модель\n",
517 |     "linear_model = LinearRegression().fit(X_train, y_train)\n",
518 |     "linear_model.intercept_, buildin_model.coef_"
519 |    ]
520 |   },
521 |   {
522 |    "cell_type": "code",
523 |    "execution_count": null,
524 |    "metadata": {},
525 |    "outputs": [],
526 |    "source": [
527 |     "FILE_NAME = 'linear_model.joblib'"
528 |    ]
529 |   },
530 |   {
531 |    "cell_type": "code",
532 |    "execution_count": null,
533 |    "metadata": {},
534 |    "outputs": [],
535 |    "source": [
536 |     "# Сохранение модели (сериализация модели)\n",
537 |     "dump(linear_model, FILE_NAME) "
538 |    ]
539 |   },
540 |   {
541 |    "cell_type": "code",
542 |    "execution_count": null,
543 |    "metadata": {},
544 |    "outputs": [],
545 |    "source": [
546 |     "# Там где загружается модель, должен быть\n",
547 |     "# доступен класс модели\n",
548 |     "from sklearn.linear_model import LinearRegression\n",
549 |     "\n",
550 |     "# Загрузка модели (десериализация модели)\n",
551 |     "linear_model = load(FILE_NAME)\n",
552 |     "\n",
553 |     "# Проверка\n",
554 |     "linear_model.intercept_, buildin_model.coef_"
555 |    ]
556 |   },
557 |   {
558 |    "cell_type": "markdown",
559 |    "metadata": {},
560 |    "source": [
561 |     "## Источники"
562 |    ]
563 |   },
564 |   {
565 |    "cell_type": "markdown",
566 |    "metadata": {},
567 |    "source": [
568 |     "- [Developing scikit-learn estimators](https://scikit-learn.org/stable/developers/develop.html)\n",
569 |     "- [Utilities for Developers](https://scikit-learn.org/stable/developers/utilities.html#developers-utils)\n",
570 |     "- [Glossary of Common Terms and API Elements](https://scikit-learn.org/stable/glossary.html#glossary)\n",
571 |     "- [A template for scikit-learn contributions](https://github.com/scikit-learn-contrib/project-template)"
572 |    ]
573 |   },
574 |   {
575 |    "cell_type": "code",
576 |    "execution_count": null,
577 |    "metadata": {},
578 |    "outputs": [],
579 |    "source": []
580 |   }
581 |  ],
582 |  "metadata": {
583 |   "kernelspec": {
584 |    "display_name": "Python 3 (ipykernel)",
585 |    "language": "python",
586 |    "name": "python3"
587 |   },
588 |   "language_info": {
589 |    "codemirror_mode": {
590 |     "name": "ipython",
591 |     "version": 3
592 |    },
593 |    "file_extension": ".py",
594 |    "mimetype": "text/x-python",
595 |    "name": "python",
596 |    "nbconvert_exporter": "python",
597 |    "pygments_lexer": "ipython3",
598 |    "version": "3.11.7"
599 |   }
600 |  },
601 |  "nbformat": 4,
602 |  "nbformat_minor": 4
603 | }
604 | 


--------------------------------------------------------------------------------
/notebooks/C5_HAR.ipynb:
--------------------------------------------------------------------------------
  1 | {
  2 |  "cells": [
  3 |   {
  4 |    "cell_type": "markdown",
  5 |    "metadata": {},
  6 |    "source": [
  7 |     "# Распознавание активности (Human Activity Recognition - HAR)\n",
  8 |     "\n",
  9 |     "С.Ю. Папулин (papulin.study@yandex.ru)"
 10 |    ]
 11 |   },
 12 |   {
 13 |    "cell_type": "markdown",
 14 |    "metadata": {},
 15 |    "source": [
 16 |     "### Содержание\n",
 17 |     "\n",
 18 |     "- [Анализ исходных данных]()\n",
 19 |     "- [Построение модели распознавания активности]()\n",
 20 |     "- [Выбор модели]()"
 21 |    ]
 22 |   },
 23 |   {
 24 |    "cell_type": "markdown",
 25 |    "metadata": {},
 26 |    "source": [
 27 |     "Подключение модулей"
 28 |    ]
 29 |   },
 30 |   {
 31 |    "cell_type": "code",
 32 |    "execution_count": null,
 33 |    "metadata": {},
 34 |    "outputs": [],
 35 |    "source": [
 36 |     "import pandas as pd\n",
 37 |     "import numpy as np\n",
 38 |     "\n",
 39 |     "import matplotlib.pyplot as plt\n",
 40 |     "%matplotlib inline"
 41 |    ]
 42 |   },
 43 |   {
 44 |    "cell_type": "code",
 45 |    "execution_count": null,
 46 |    "metadata": {},
 47 |    "outputs": [],
 48 |    "source": [
 49 |     "RANDOM_STATE = 1234"
 50 |    ]
 51 |   },
 52 |   {
 53 |    "cell_type": "markdown",
 54 |    "metadata": {},
 55 |    "source": [
 56 |     "## Анализ исходных данных"
 57 |    ]
 58 |   },
 59 |   {
 60 |    "cell_type": "markdown",
 61 |    "metadata": {},
 62 |    "source": [
 63 |     "Описание: [Human Activity Recognition Using Smartphones Data Set](https://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones)\n",
 64 |     "\n",
 65 |     "Ссылка: [UCI HAR Dataset.zip](https://archive.ics.uci.edu/ml/machine-learning-databases/00240/UCI%20HAR%20Dataset.zip)"
 66 |    ]
 67 |   },
 68 |   {
 69 |    "cell_type": "markdown",
 70 |    "metadata": {},
 71 |    "source": [
 72 |     "Загрузка исходных данных"
 73 |    ]
 74 |   },
 75 |   {
 76 |    "cell_type": "code",
 77 |    "execution_count": null,
 78 |    "metadata": {},
 79 |    "outputs": [],
 80 |    "source": [
 81 |     "YOUR_PATH = \"/YOUR_PATH/UCI HAR Dataset\""
 82 |    ]
 83 |   },
 84 |   {
 85 |    "cell_type": "code",
 86 |    "execution_count": null,
 87 |    "metadata": {},
 88 |    "outputs": [],
 89 |    "source": [
 90 |     "# Наименования активностей\n",
 91 |     "LABEL_NAMES_FILE = f\"{YOUR_PATH}/activity_labels.txt\"\n",
 92 |     "\n",
 93 |     "# Наименование столбцов признаков\n",
 94 |     "FEATURE_NAMES_FILE = f\"{YOUR_PATH}/features.txt\"\n",
 95 |     "\n",
 96 |     "# Идентификаторы испытуемых\n",
 97 |     "X_TRAIN_SUBJECT_FILE = f\"{YOUR_PATH}/train/subject_train.txt\"\n",
 98 |     "\n",
 99 |     "\n",
100 |     "# Признаки (временные, частотные) и целевых значения (активности)\n",
101 |     "\n",
102 |     "# Обучающая часть\n",
103 |     "X_TRAIN_FILE = f\"{YOUR_PATH}/train/X_train.txt\"\n",
104 |     "Y_TRAIN_FILE = f\"{YOUR_PATH}/train/y_train.txt\"\n",
105 |     "\n",
106 |     "# Тестовая часть\n",
107 |     "X_TEST_FILE = f\"{YOUR_PATH}/test/X_test.txt\"\n",
108 |     "Y_TEST_FILE = f\"{YOUR_PATH}/test/y_test.txt\""
109 |    ]
110 |   },
111 |   {
112 |    "cell_type": "code",
113 |    "execution_count": null,
114 |    "metadata": {},
115 |    "outputs": [],
116 |    "source": [
117 |     "# Загрузка наименований активностей\n",
118 |     "LABEL_NAMES = list()\n",
119 |     "with open(LABEL_NAMES_FILE, \"r\") as fin:\n",
120 |     "    for line in fin:\n",
121 |     "        LABEL_NAMES.append(line.split()[1])\n",
122 |     "LABEL_NAMES"
123 |    ]
124 |   },
125 |   {
126 |    "cell_type": "code",
127 |    "execution_count": null,
128 |    "metadata": {},
129 |    "outputs": [],
130 |    "source": [
131 |     "# Загрузка наименований столбцов\n",
132 |     "CLMS = list()\n",
133 |     "with open(FEATURE_NAMES_FILE, \"r\") as fin:\n",
134 |     "    for line in fin:\n",
135 |     "        CLMS.append(line.split()[1])\n",
136 |     "len(CLMS)"
137 |    ]
138 |   },
139 |   {
140 |    "cell_type": "code",
141 |    "execution_count": null,
142 |    "metadata": {},
143 |    "outputs": [],
144 |    "source": [
145 |     "CLMS = [str(indx+1) +\".\" + el for indx, el in enumerate(CLMS)]"
146 |    ]
147 |   },
148 |   {
149 |    "cell_type": "code",
150 |    "execution_count": null,
151 |    "metadata": {},
152 |    "outputs": [],
153 |    "source": [
154 |     "# Вывод нескольких наименований\n",
155 |     "CLMS[:5]"
156 |    ]
157 |   },
158 |   {
159 |    "cell_type": "code",
160 |    "execution_count": null,
161 |    "metadata": {},
162 |    "outputs": [],
163 |    "source": [
164 |     "# Загрузка идентификаторов испытуемых\n",
165 |     "df_subjects = pd.read_csv(X_TRAIN_SUBJECT_FILE, header=None, sep=\"\\s+\", names=[\"subject\"])\n",
166 |     "df_subjects.head()"
167 |    ]
168 |   },
169 |   {
170 |    "cell_type": "code",
171 |    "execution_count": null,
172 |    "metadata": {},
173 |    "outputs": [],
174 |    "source": [
175 |     "# Загрузка признаков\n",
176 |     "df_features = pd.read_csv(X_TRAIN_FILE, header=None, sep=\"\\s+\", names=CLMS)\n",
177 |     "df_features.head()"
178 |    ]
179 |   },
180 |   {
181 |    "cell_type": "code",
182 |    "execution_count": null,
183 |    "metadata": {},
184 |    "outputs": [],
185 |    "source": [
186 |     "# Загрузка целевых значений\n",
187 |     "df_labels = pd.read_csv(Y_TRAIN_FILE, header=None, names=[\"activity\"])\n",
188 |     "df_labels.head(5)"
189 |    ]
190 |   },
191 |   {
192 |    "cell_type": "code",
193 |    "execution_count": null,
194 |    "metadata": {},
195 |    "outputs": [],
196 |    "source": [
197 |     "# Формирование одного датафрейма\n",
198 |     "df = pd.concat([df_subjects, df_features, df_labels], axis=1)\n",
199 |     "df.head()"
200 |    ]
201 |   },
202 |   {
203 |    "cell_type": "markdown",
204 |    "metadata": {},
205 |    "source": [
206 |     "Отображение количества различных активностей"
207 |    ]
208 |   },
209 |   {
210 |    "cell_type": "code",
211 |    "execution_count": null,
212 |    "metadata": {},
213 |    "outputs": [],
214 |    "source": [
215 |     "fig, ax = plt.subplots(1, 1)\n",
216 |     "\n",
217 |     "fig.set_figheight(4)\n",
218 |     "fig.set_figwidth(6)\n",
219 |     "\n",
220 |     "\n",
221 |     "ax = df.groupby(\"activity\").size().plot.bar(ax=ax)\n",
222 |     "ax.set_xticklabels(LABEL_NAMES, rotation=60)\n",
223 |     "ax.set_ylabel(\"window count\")\n",
224 |     "ax.grid(True)"
225 |    ]
226 |   },
227 |   {
228 |    "cell_type": "markdown",
229 |    "metadata": {},
230 |    "source": [
231 |     "Распредление активностей 5го испытуемого"
232 |    ]
233 |   },
234 |   {
235 |    "cell_type": "code",
236 |    "execution_count": null,
237 |    "metadata": {},
238 |    "outputs": [],
239 |    "source": [
240 |     "SUBJECT_ID = 5"
241 |    ]
242 |   },
243 |   {
244 |    "cell_type": "code",
245 |    "execution_count": null,
246 |    "metadata": {},
247 |    "outputs": [],
248 |    "source": [
249 |     "fig, ax = plt.subplots(1, 1)\n",
250 |     "\n",
251 |     "fig.set_figheight(4)\n",
252 |     "fig.set_figwidth(6)\n",
253 |     "\n",
254 |     "ax = df[df[\"subject\"]==SUBJECT_ID]\\\n",
255 |     "    .groupby(\"activity\")\\\n",
256 |     "    .size()\\\n",
257 |     "    .plot.bar(ax=ax)\n",
258 |     "ax.set_xticklabels(LABEL_NAMES, rotation=60)\n",
259 |     "ax.set_ylabel(\"window count\")\n",
260 |     "ax.grid(True)"
261 |    ]
262 |   },
263 |   {
264 |    "cell_type": "markdown",
265 |    "metadata": {},
266 |    "source": [
267 |     "Отображение данных от акселерометра по координатам"
268 |    ]
269 |   },
270 |   {
271 |    "cell_type": "code",
272 |    "execution_count": null,
273 |    "metadata": {},
274 |    "outputs": [],
275 |    "source": [
276 |     "ACC_CLMS = [\"1.tBodyAcc-mean()-X\", \"2.tBodyAcc-mean()-Y\", \"3.tBodyAcc-mean()-Z\", \"activity\"]\n",
277 |     "\n",
278 |     "df_acc = df.loc[\n",
279 |     "    df[\"subject\"]==SUBJECT_ID,\n",
280 |     "    ACC_CLMS\n",
281 |     "]\n",
282 |     "\n",
283 |     "df_acc.index = range(len(df_acc))\n",
284 |     "df_acc.head()"
285 |    ]
286 |   },
287 |   {
288 |    "cell_type": "code",
289 |    "execution_count": null,
290 |    "metadata": {},
291 |    "outputs": [],
292 |    "source": [
293 |     "fig, axes = plt.subplots(3, 1)\n",
294 |     "\n",
295 |     "fig.set_figheight(12)\n",
296 |     "fig.set_figwidth(12)\n",
297 |     "\n",
298 |     "for indx, ax in enumerate(axes):\n",
299 |     "\n",
300 |     "    df_acc[ACC_CLMS[indx]].plot(ax=ax, color=\"grey\")\n",
301 |     "\n",
302 |     "    ax.set_title(\"Subject {}: {}\".format(SUBJECT_ID, ACC_CLMS[indx]))\n",
303 |     "    ax.set_xlabel(\"window index\")\n",
304 |     "    ax.set_ylabel(\"acc\")\n",
305 |     "\n",
306 |     "    for i in range(1, len(LABEL_NAMES)+1):\n",
307 |     "        df_acc[df_acc[\"activity\"]==i][ACC_CLMS[indx]].plot(\n",
308 |     "            marker=\"o\", linestyle=\"\", ax=ax, \n",
309 |     "            label=LABEL_NAMES[i-1]\n",
310 |     "        )\n",
311 |     "\n",
312 |     "    ax.grid(True)\n",
313 |     "    ax.legend()\n",
314 |     "\n",
315 |     "plt.tight_layout()\n",
316 |     "plt.show()"
317 |    ]
318 |   },
319 |   {
320 |    "cell_type": "markdown",
321 |    "metadata": {},
322 |    "source": [
323 |     "## Построение модели распознавания активности"
324 |    ]
325 |   },
326 |   {
327 |    "cell_type": "code",
328 |    "execution_count": null,
329 |    "metadata": {},
330 |    "outputs": [],
331 |    "source": [
332 |     "from sklearn.linear_model import LogisticRegression\n",
333 |     "from sklearn.metrics import classification_report"
334 |    ]
335 |   },
336 |   {
337 |    "cell_type": "code",
338 |    "execution_count": null,
339 |    "metadata": {},
340 |    "outputs": [],
341 |    "source": [
342 |     "import sys\n",
343 |     "sys.path.insert(0, \"../lib/\")\n",
344 |     "from plot_confusion_matrix import plot_confusion_matrix"
345 |    ]
346 |   },
347 |   {
348 |    "cell_type": "code",
349 |    "execution_count": null,
350 |    "metadata": {},
351 |    "outputs": [],
352 |    "source": [
353 |     "from sklearn.utils import shuffle"
354 |    ]
355 |   },
356 |   {
357 |    "cell_type": "code",
358 |    "execution_count": null,
359 |    "metadata": {},
360 |    "outputs": [],
361 |    "source": [
362 |     "df_ = shuffle(df, random_state=RANDOM_STATE)\n",
363 |     "df_.head()"
364 |    ]
365 |   },
366 |   {
367 |    "cell_type": "code",
368 |    "execution_count": null,
369 |    "metadata": {},
370 |    "outputs": [],
371 |    "source": [
372 |     "# Построение модели\n",
373 |     "model = LogisticRegression(penalty=\"l2\", \n",
374 |     "                           max_iter=100, \n",
375 |     "                           solver=\"newton-cg\", \n",
376 |     "                           multi_class=\"multinomial\",\n",
377 |     "                           random_state=RANDOM_STATE)\n",
378 |     "\n",
379 |     "# Обучение\n",
380 |     "model.fit(df_[CLMS], df_[\"activity\"])"
381 |    ]
382 |   },
383 |   {
384 |    "cell_type": "markdown",
385 |    "metadata": {},
386 |    "source": [
387 |     "Базовая отметка"
388 |    ]
389 |   },
390 |   {
391 |    "cell_type": "code",
392 |    "execution_count": null,
393 |    "metadata": {},
394 |    "outputs": [],
395 |    "source": [
396 |     "# TODO"
397 |    ]
398 |   },
399 |   {
400 |    "cell_type": "markdown",
401 |    "metadata": {},
402 |    "source": [
403 |     "Проверка на тестовом множестве"
404 |    ]
405 |   },
406 |   {
407 |    "cell_type": "code",
408 |    "execution_count": null,
409 |    "metadata": {},
410 |    "outputs": [],
411 |    "source": [
412 |     "# Загрузка тестового множества\n",
413 |     "df_test_features = pd.read_csv(X_TEST_FILE, header=None, sep=\"\\s+\", names=CLMS)\n",
414 |     "df_test_labels = pd.read_csv(Y_TEST_FILE, header=None, names=[\"activity\"])\n",
415 |     "\n",
416 |     "df_test = pd.concat([df_test_features, df_test_labels], axis=1)\n",
417 |     "df_test.head()"
418 |    ]
419 |   },
420 |   {
421 |    "cell_type": "code",
422 |    "execution_count": null,
423 |    "metadata": {},
424 |    "outputs": [],
425 |    "source": [
426 |     "# Педсказанные значения\n",
427 |     "df_test[\"pred\"] = model.predict(df_test[CLMS])\n",
428 |     "df_test[[\"pred\", \"activity\"]].head()"
429 |    ]
430 |   },
431 |   {
432 |    "cell_type": "code",
433 |    "execution_count": null,
434 |    "metadata": {},
435 |    "outputs": [],
436 |    "source": [
437 |     "# Педсказанные значения\n",
438 |     "df_test[\"pred\"] = model.predict(df_test[CLMS])\n",
439 |     "\n",
440 |     "# Расчет доли правильных классификаций\n",
441 |     "accuracy = model.score(df_test[CLMS], df_test[\"activity\"])\n",
442 |     "print(\"Accuracy = {}\\n\".format(accuracy))\n",
443 |     "\n",
444 |     "# Вывод других метрик\n",
445 |     "print(classification_report(df_test[\"activity\"], \n",
446 |     "                            df_test[\"pred\"], \n",
447 |     "                            target_names=LABEL_NAMES))"
448 |    ]
449 |   },
450 |   {
451 |    "cell_type": "code",
452 |    "execution_count": null,
453 |    "metadata": {},
454 |    "outputs": [],
455 |    "source": [
456 |     "# Вывод матрицы ошибок\n",
457 |     "ax = plot_confusion_matrix(df_test[\"activity\"]-1,\n",
458 |     "                           df_test[\"pred\"]-1,\n",
459 |     "                           classes=np.array(LABEL_NAMES),\n",
460 |     "                           figsize=[8,8])"
461 |    ]
462 |   },
463 |   {
464 |    "cell_type": "markdown",
465 |    "metadata": {},
466 |    "source": [
467 |     "## Выбор модели"
468 |    ]
469 |   },
470 |   {
471 |    "cell_type": "code",
472 |    "execution_count": null,
473 |    "metadata": {},
474 |    "outputs": [],
475 |    "source": [
476 |     "from sklearn.model_selection import StratifiedKFold\n",
477 |     "from sklearn.model_selection import GridSearchCV\n",
478 |     "\n",
479 |     "from sklearn.ensemble import RandomForestClassifier\n",
480 |     "from sklearn.neighbors import KNeighborsClassifier"
481 |    ]
482 |   },
483 |   {
484 |    "cell_type": "code",
485 |    "execution_count": null,
486 |    "metadata": {},
487 |    "outputs": [],
488 |    "source": [
489 |     "kf = StratifiedKFold(n_splits=3)"
490 |    ]
491 |   },
492 |   {
493 |    "cell_type": "code",
494 |    "execution_count": null,
495 |    "metadata": {},
496 |    "outputs": [],
497 |    "source": [
498 |     "models = dict()\n",
499 |     "\n",
500 |     "# k-ближайших соседей\n",
501 |     "models[\"knn\"] = (\n",
502 |     "    KNeighborsClassifier(), {\n",
503 |     "        \"n_neighbors\": [5, 11]\n",
504 |     "    })\n",
505 |     "\n",
506 |     "# Логистическая регрессия\n",
507 |     "models[\"logreg\"] = (\n",
508 |     "    LogisticRegression(\n",
509 |     "        penalty=\"l2\", \n",
510 |     "        solver=\"newton-cg\", \n",
511 |     "        multi_class=\"multinomial\",\n",
512 |     "        random_state=1234), {\n",
513 |     "        \"C\": [0.1, 1]  \n",
514 |     "    })\n",
515 |     "\n",
516 |     "# Случайный лес\n",
517 |     "models[\"rforest\"] = (\n",
518 |     "    RandomForestClassifier(\n",
519 |     "        criterion=\"gini\",\n",
520 |     "        random_state=RANDOM_STATE), {\n",
521 |     "        \"n_estimators\": [50, 100]  \n",
522 |     "    })"
523 |    ]
524 |   },
525 |   {
526 |    "cell_type": "code",
527 |    "execution_count": null,
528 |    "metadata": {},
529 |    "outputs": [],
530 |    "source": [
531 |     "df_result = pd.DataFrame(columns=[\"params\", \"accuracy\"])\n",
532 |     "\n",
533 |     "for name, (model, params) in models.items():\n",
534 |     "    grid = GridSearchCV(estimator=model, \n",
535 |     "                        param_grid=params, \n",
536 |     "                        cv=kf,\n",
537 |     "                        verbose=2)\n",
538 |     "    grid.fit(df_[CLMS], df_[\"activity\"])\n",
539 |     "    df_result.loc[model.__class__.__name__] = (\n",
540 |     "        grid.best_params_,\n",
541 |     "        grid.score(df_test[CLMS], df_test[\"activity\"]))"
542 |    ]
543 |   },
544 |   {
545 |    "cell_type": "code",
546 |    "execution_count": null,
547 |    "metadata": {},
548 |    "outputs": [],
549 |    "source": [
550 |     "# Вывод лучших моделей, их параметров и доли правильных классификаций\n",
551 |     "df_result.head()"
552 |    ]
553 |   },
554 |   {
555 |    "cell_type": "code",
556 |    "execution_count": null,
557 |    "metadata": {},
558 |    "outputs": [],
559 |    "source": []
560 |   }
561 |  ],
562 |  "metadata": {
563 |   "kernelspec": {
564 |    "display_name": "Python 3 (ipykernel)",
565 |    "language": "python",
566 |    "name": "python3"
567 |   },
568 |   "language_info": {
569 |    "codemirror_mode": {
570 |     "name": "ipython",
571 |     "version": 3
572 |    },
573 |    "file_extension": ".py",
574 |    "mimetype": "text/x-python",
575 |    "name": "python",
576 |    "nbconvert_exporter": "python",
577 |    "pygments_lexer": "ipython3",
578 |    "version": "3.11.7"
579 |   }
580 |  },
581 |  "nbformat": 4,
582 |  "nbformat_minor": 4
583 | }
584 | 


--------------------------------------------------------------------------------
/notebooks/C5_Language_Detector.ipynb:
--------------------------------------------------------------------------------
  1 | {
  2 |  "cells": [
  3 |   {
  4 |    "cell_type": "markdown",
  5 |    "metadata": {},
  6 |    "source": [
  7 |     "# Распознавание языка текста\n",
  8 |     "\n",
  9 |     "<hr>\n",
 10 |     "\n",
 11 |     "С.Ю. Папулин (papulin.study@yandex.ru)"
 12 |    ]
 13 |   },
 14 |   {
 15 |    "cell_type": "markdown",
 16 |    "metadata": {},
 17 |    "source": [
 18 |     "### Содержание\n",
 19 |     "\n",
 20 |     "- [Статический текст](#Статический-текст)\n",
 21 |     "- [Динамический текст](#Динамический-текст)\n",
 22 |     "    - [Построение модели](#Построение-модели)\n",
 23 |     "    - [Проверка динамического распознавания](#Проверка-динамического-распознавания)"
 24 |    ]
 25 |   },
 26 |   {
 27 |    "cell_type": "markdown",
 28 |    "metadata": {},
 29 |    "source": [
 30 |     "Подключение библиотек:"
 31 |    ]
 32 |   },
 33 |   {
 34 |    "cell_type": "code",
 35 |    "execution_count": null,
 36 |    "metadata": {},
 37 |    "outputs": [],
 38 |    "source": [
 39 |     "import numpy as np\n",
 40 |     "import pandas as pd\n",
 41 |     "import matplotlib.pyplot as plt\n",
 42 |     "%matplotlib inline"
 43 |    ]
 44 |   },
 45 |   {
 46 |    "cell_type": "code",
 47 |    "execution_count": null,
 48 |    "metadata": {},
 49 |    "outputs": [],
 50 |    "source": [
 51 |     "from sklearn.model_selection import train_test_split\n",
 52 |     "from sklearn.pipeline import Pipeline\n",
 53 |     "from sklearn.preprocessing import PolynomialFeatures\n",
 54 |     "from sklearn.feature_extraction.text import TfidfVectorizer\n",
 55 |     "from sklearn.naive_bayes import MultinomialNB"
 56 |    ]
 57 |   },
 58 |   {
 59 |    "cell_type": "code",
 60 |    "execution_count": null,
 61 |    "metadata": {},
 62 |    "outputs": [],
 63 |    "source": [
 64 |     "import sys\n",
 65 |     "sys.path.insert(0, \"../lib/\")\n",
 66 |     "from datasets import fetch_20languages"
 67 |    ]
 68 |   },
 69 |   {
 70 |    "cell_type": "markdown",
 71 |    "metadata": {},
 72 |    "source": [
 73 |     "## Статический текст"
 74 |    ]
 75 |   },
 76 |   {
 77 |    "cell_type": "markdown",
 78 |    "metadata": {},
 79 |    "source": [
 80 |     "[Набор данных](https://huggingface.co/datasets/papluca/language-identification)"
 81 |    ]
 82 |   },
 83 |   {
 84 |    "cell_type": "code",
 85 |    "execution_count": null,
 86 |    "metadata": {},
 87 |    "outputs": [],
 88 |    "source": [
 89 |     "# Загрузка данных\n",
 90 |     "dataset = fetch_20languages(return_X_y=True)\n",
 91 |     "\n",
 92 |     "# Вывод описания\n",
 93 |     "print(dataset.DESCR)"
 94 |    ]
 95 |   },
 96 |   {
 97 |    "cell_type": "code",
 98 |    "execution_count": null,
 99 |    "metadata": {},
100 |    "outputs": [],
101 |    "source": [
102 |     "df_train = dataset.data['train']\n",
103 |     "df_train"
104 |    ]
105 |   },
106 |   {
107 |    "cell_type": "code",
108 |    "execution_count": null,
109 |    "metadata": {},
110 |    "outputs": [],
111 |    "source": [
112 |     "# from sklearn.datasets import get_data_home\n",
113 |     "\n",
114 |     "# # Директория по умолчанию, где хранятся данных\n",
115 |     "# get_data_home()"
116 |    ]
117 |   },
118 |   {
119 |    "cell_type": "code",
120 |    "execution_count": null,
121 |    "metadata": {},
122 |    "outputs": [],
123 |    "source": [
124 |     "df_train.describe()"
125 |    ]
126 |   },
127 |   {
128 |    "cell_type": "code",
129 |    "execution_count": null,
130 |    "metadata": {},
131 |    "outputs": [],
132 |    "source": [
133 |     "# Количество текстов по каждому классу\n",
134 |     "df_train['labels'].value_counts()"
135 |    ]
136 |   },
137 |   {
138 |    "cell_type": "code",
139 |    "execution_count": null,
140 |    "metadata": {},
141 |    "outputs": [],
142 |    "source": [
143 |     "# Среднее количество символов в текстах по каждому классу\n",
144 |     "df_train.groupby('labels')['text'].agg(\n",
145 |     "    lambda text: text.str.len().mean()\n",
146 |     ")"
147 |    ]
148 |   },
149 |   {
150 |    "cell_type": "code",
151 |    "execution_count": null,
152 |    "metadata": {},
153 |    "outputs": [],
154 |    "source": [
155 |     "pipeline = Pipeline([\n",
156 |     "    ('vectorizer', TfidfVectorizer()),\n",
157 |     "    ('classifier', MultinomialNB())\n",
158 |     "])"
159 |    ]
160 |   },
161 |   {
162 |    "cell_type": "code",
163 |    "execution_count": null,
164 |    "metadata": {},
165 |    "outputs": [],
166 |    "source": [
167 |     "pipeline.fit(df_train['text'], df_train['labels'])"
168 |    ]
169 |   },
170 |   {
171 |    "cell_type": "code",
172 |    "execution_count": null,
173 |    "metadata": {},
174 |    "outputs": [],
175 |    "source": [
176 |     "df_test = dataset.data['test']"
177 |    ]
178 |   },
179 |   {
180 |    "cell_type": "code",
181 |    "execution_count": null,
182 |    "metadata": {},
183 |    "outputs": [],
184 |    "source": [
185 |     "pipeline.score(df_test['text'], df_test['labels'])"
186 |    ]
187 |   },
188 |   {
189 |    "cell_type": "markdown",
190 |    "metadata": {},
191 |    "source": [
192 |     "## Динамический текст"
193 |    ]
194 |   },
195 |   {
196 |    "cell_type": "markdown",
197 |    "metadata": {},
198 |    "source": [
199 |     "### Построение модели"
200 |    ]
201 |   },
202 |   {
203 |    "cell_type": "code",
204 |    "execution_count": null,
205 |    "metadata": {},
206 |    "outputs": [],
207 |    "source": [
208 |     "import re"
209 |    ]
210 |   },
211 |   {
212 |    "cell_type": "code",
213 |    "execution_count": null,
214 |    "metadata": {
215 |     "scrolled": true
216 |    },
217 |    "outputs": [],
218 |    "source": [
219 |     "# Исходные данные\n",
220 |     "df_train.head()"
221 |    ]
222 |   },
223 |   {
224 |    "cell_type": "code",
225 |    "execution_count": null,
226 |    "metadata": {},
227 |    "outputs": [],
228 |    "source": [
229 |     "# Шаблон для делителя строки на слова\n",
230 |     "COMPILER = re.compile(\"\\W+\", re.UNICODE)"
231 |    ]
232 |   },
233 |   {
234 |    "cell_type": "code",
235 |    "execution_count": null,
236 |    "metadata": {},
237 |    "outputs": [],
238 |    "source": [
239 |     "def split_sentence(lang, text):\n",
240 |     "    for word in set(COMPILER.split(text)):\n",
241 |     "        if word:\n",
242 |     "            yield (lang, word)\n",
243 |     "\n",
244 |     "\n",
245 |     "def sentence_flat_map(df):\n",
246 |     "    def fetch_word_lang_pair():\n",
247 |     "        for i, row in df.iterrows():\n",
248 |     "            for item in split_sentence(row['labels'], row['text']):\n",
249 |     "                yield item\n",
250 |     "    return pd.DataFrame(\n",
251 |     "        data=fetch_word_lang_pair(), \n",
252 |     "        columns=['labels', 'word']\n",
253 |     "    ).drop_duplicates()\n",
254 |     "\n",
255 |     "\n",
256 |     "# Формивание датафрейма язык-слово и удаление повторений\n",
257 |     "df_train_new = sentence_flat_map(df_train)\n",
258 |     "df_test_new = sentence_flat_map(df_test)\n",
259 |     "\n",
260 |     "df_train_new"
261 |    ]
262 |   },
263 |   {
264 |    "cell_type": "code",
265 |    "execution_count": null,
266 |    "metadata": {},
267 |    "outputs": [],
268 |    "source": [
269 |     "df_train_new.shape"
270 |    ]
271 |   },
272 |   {
273 |    "cell_type": "code",
274 |    "execution_count": null,
275 |    "metadata": {},
276 |    "outputs": [],
277 |    "source": [
278 |     "INPUT = 'обуч'\n",
279 |     "\n",
280 |     "print(\n",
281 |     "    df_train_new[df_train_new['word'].str.contains(INPUT)]\\\n",
282 |     "        .groupby('labels')\\\n",
283 |     "        .count().T\n",
284 |     ")"
285 |    ]
286 |   },
287 |   {
288 |    "cell_type": "code",
289 |    "execution_count": null,
290 |    "metadata": {},
291 |    "outputs": [],
292 |    "source": [
293 |     "# Априорные вероятности классов\n",
294 |     "# class_prior=[\n",
295 |     "#     0.04, 0.04, 0.05, 0.05, 0.1, 0.05, 0.05, 0.04, 0.05, 0.05,\n",
296 |     "#     0.05, 0.05, 0.05, 0.05, 0.05, 0.04, 0.04, 0.05, 0.05, 0.05\n",
297 |     "# ]\n",
298 |     "class_prior=[0.05]*20\n",
299 |     "\n",
300 |     "# Пострение модели классификации\n",
301 |     "pipeline = Pipeline([\n",
302 |     "    ('vectorizer', TfidfVectorizer(analyzer='char', ngram_range=(2,4))),\n",
303 |     "    ('classifier', MultinomialNB(class_prior=class_prior))\n",
304 |     "])\n",
305 |     "\n",
306 |     "# Обучение модели\n",
307 |     "pipeline.fit(df_train_new['word'], df_train_new['labels'])\n",
308 |     "\n",
309 |     "test_accuracy_on_words = pipeline.score(df_test_new['word'], df_test_new['labels'])\n",
310 |     "test_accuracy_on_texts = pipeline.score(df_test['text'], df_test['labels'])\n",
311 |     "\n",
312 |     "# Оценка качества на тестовом множестве\n",
313 |     "print(f\"Accuracy on Test (word-lang) = {test_accuracy_on_words}\")"
314 |    ]
315 |   },
316 |   {
317 |    "cell_type": "code",
318 |    "execution_count": null,
319 |    "metadata": {},
320 |    "outputs": [],
321 |    "source": [
322 |     "# Оценка качества на тестовом множестве (из первой задачи)\n",
323 |     "print(f\"Accuracy on Test (text-lang) = {test_accuracy_on_texts}\")"
324 |    ]
325 |   },
326 |   {
327 |    "cell_type": "code",
328 |    "execution_count": null,
329 |    "metadata": {},
330 |    "outputs": [],
331 |    "source": [
332 |     "# Словарь\n",
333 |     "pipeline.named_steps['vectorizer'].vocabulary_"
334 |    ]
335 |   },
336 |   {
337 |    "cell_type": "code",
338 |    "execution_count": null,
339 |    "metadata": {},
340 |    "outputs": [],
341 |    "source": [
342 |     "# Классы\n",
343 |     "langs = pipeline.named_steps['classifier'].classes_\n",
344 |     "langs"
345 |    ]
346 |   },
347 |   {
348 |    "cell_type": "code",
349 |    "execution_count": null,
350 |    "metadata": {},
351 |    "outputs": [],
352 |    "source": [
353 |     "INPUT = 'tra'\n",
354 |     "\n",
355 |     "# Вероятности принадлежности классам для некоторого слова\n",
356 |     "probs = pipeline.predict_proba([INPUT,])[0]\n",
357 |     "probs"
358 |    ]
359 |   },
360 |   {
361 |    "cell_type": "code",
362 |    "execution_count": null,
363 |    "metadata": {},
364 |    "outputs": [],
365 |    "source": [
366 |     "print(\n",
367 |     "    pd.DataFrame(\n",
368 |     "        data={'prob': probs}, \n",
369 |     "        index=langs)\\\n",
370 |     "    .sort_values(by='prob', ascending=False)\n",
371 |     ")"
372 |    ]
373 |   },
374 |   {
375 |    "cell_type": "markdown",
376 |    "metadata": {},
377 |    "source": [
378 |     "### Проверка динамического распознавания "
379 |    ]
380 |   },
381 |   {
382 |    "cell_type": "code",
383 |    "execution_count": null,
384 |    "metadata": {},
385 |    "outputs": [],
386 |    "source": [
387 |     "import ipywidgets as widgets\n",
388 |     "from IPython.display import display, clear_output"
389 |    ]
390 |   },
391 |   {
392 |    "cell_type": "code",
393 |    "execution_count": null,
394 |    "metadata": {},
395 |    "outputs": [],
396 |    "source": [
397 |     "def display_prediction(langs, probs):\n",
398 |     "    \"\"\"\n",
399 |     "    Отображение вероятностей по языкам \n",
400 |     "    в виде датафрейма.\n",
401 |     "    \"\"\"\n",
402 |     "    print(\n",
403 |     "        pd.DataFrame(\n",
404 |     "            data={'prob': probs},\n",
405 |     "            index=langs\n",
406 |     "        )\\\n",
407 |     "        .sort_values('prob', ascending=False)\\\n",
408 |     "        .head(10)\n",
409 |     "    )"
410 |    ]
411 |   },
412 |   {
413 |    "cell_type": "code",
414 |    "execution_count": null,
415 |    "metadata": {},
416 |    "outputs": [],
417 |    "source": [
418 |     "# Ввод текста\n",
419 |     "text_input = widgets.Text()\n",
420 |     "display(text_input)\n",
421 |     "\n",
422 |     "# Вывод результата предсказания\n",
423 |     "output = widgets.Output()\n",
424 |     "display(output)\n",
425 |     "\n",
426 |     "\n",
427 |     "def handle_process_text(sender):\n",
428 |     "    with output:\n",
429 |     "        clear_output()\n",
430 |     "        probs = pipeline.predict_proba([sender.new,])[0]\n",
431 |     "        langs = pipeline.named_steps['classifier'].classes_\n",
432 |     "        display_prediction(langs, probs)\n",
433 |     "\n",
434 |     "\n",
435 |     "# Отслеживание ввода\n",
436 |     "text_input.observe(handle_process_text, names='value')"
437 |    ]
438 |   },
439 |   {
440 |    "cell_type": "code",
441 |    "execution_count": null,
442 |    "metadata": {},
443 |    "outputs": [],
444 |    "source": []
445 |   }
446 |  ],
447 |  "metadata": {
448 |   "kernelspec": {
449 |    "display_name": "Python 3 (ipykernel)",
450 |    "language": "python",
451 |    "name": "python3"
452 |   },
453 |   "language_info": {
454 |    "codemirror_mode": {
455 |     "name": "ipython",
456 |     "version": 3
457 |    },
458 |    "file_extension": ".py",
459 |    "mimetype": "text/x-python",
460 |    "name": "python",
461 |    "nbconvert_exporter": "python",
462 |    "pygments_lexer": "ipython3",
463 |    "version": "3.11.7"
464 |   }
465 |  },
466 |  "nbformat": 4,
467 |  "nbformat_minor": 4
468 | }
469 | 


--------------------------------------------------------------------------------
/notebooks/C5_Linear_Regression_Fuel_Consumption.ipynb:
--------------------------------------------------------------------------------
  1 | {
  2 |  "cells": [
  3 |   {
  4 |    "cell_type": "markdown",
  5 |    "metadata": {},
  6 |    "source": [
  7 |     "# Линейная полиномиальная регрессия\n",
  8 |     "\n",
  9 |     "Предсказание расхода топлива автомобилем\n",
 10 |     "\n",
 11 |     "<hr>\n",
 12 |     "\n",
 13 |     "С.Ю. Папулин (papulin.study@yandex.ru)"
 14 |    ]
 15 |   },
 16 |   {
 17 |    "cell_type": "markdown",
 18 |    "metadata": {},
 19 |    "source": [
 20 |     "### Содержание\n",
 21 |     "\n",
 22 |     "- [Загрузка данных](#Загрузка-данных)\n",
 23 |     "- [Предсказание расхода топлива](#Предсказание-расхода-топлива)\n",
 24 |     "- [Источники](#Источники)"
 25 |    ]
 26 |   },
 27 |   {
 28 |    "cell_type": "markdown",
 29 |    "metadata": {},
 30 |    "source": [
 31 |     "Увеличение области вывода:"
 32 |    ]
 33 |   },
 34 |   {
 35 |    "cell_type": "code",
 36 |    "execution_count": null,
 37 |    "metadata": {},
 38 |    "outputs": [],
 39 |    "source": [
 40 |     "# FIXME: \n",
 41 |     "# %%javascript\n",
 42 |     "# IPython.OutputArea.auto_scroll_threshold = 9999;"
 43 |    ]
 44 |   },
 45 |   {
 46 |    "cell_type": "markdown",
 47 |    "metadata": {},
 48 |    "source": [
 49 |     "Подключение библиотек:"
 50 |    ]
 51 |   },
 52 |   {
 53 |    "cell_type": "code",
 54 |    "execution_count": null,
 55 |    "metadata": {},
 56 |    "outputs": [],
 57 |    "source": [
 58 |     "import numpy as np\n",
 59 |     "import pandas as pd\n",
 60 |     "import matplotlib.pyplot as plt\n",
 61 |     "%matplotlib inline"
 62 |    ]
 63 |   },
 64 |   {
 65 |    "cell_type": "code",
 66 |    "execution_count": null,
 67 |    "metadata": {},
 68 |    "outputs": [],
 69 |    "source": [
 70 |     "from pandas.plotting import scatter_matrix"
 71 |    ]
 72 |   },
 73 |   {
 74 |    "cell_type": "code",
 75 |    "execution_count": null,
 76 |    "metadata": {},
 77 |    "outputs": [],
 78 |    "source": [
 79 |     "from sklearn.model_selection import train_test_split\n",
 80 |     "from sklearn.linear_model import LinearRegression\n",
 81 |     "from sklearn.metrics import mean_squared_error"
 82 |    ]
 83 |   },
 84 |   {
 85 |    "cell_type": "code",
 86 |    "execution_count": null,
 87 |    "metadata": {},
 88 |    "outputs": [],
 89 |    "source": [
 90 |     "from sklearn.preprocessing import PolynomialFeatures"
 91 |    ]
 92 |   },
 93 |   {
 94 |    "cell_type": "markdown",
 95 |    "metadata": {},
 96 |    "source": [
 97 |     "## Загрузка данных"
 98 |    ]
 99 |   },
100 |   {
101 |    "cell_type": "code",
102 |    "execution_count": null,
103 |    "metadata": {},
104 |    "outputs": [],
105 |    "source": [
106 |     "FILE_PATH = \"../data/auto-mpg.data\""
107 |    ]
108 |   },
109 |   {
110 |    "cell_type": "markdown",
111 |    "metadata": {},
112 |    "source": [
113 |     "Признаки:\n",
114 |     "1. `mpg`: миль на галлон, действительное значение\n",
115 |     "2. `cylinders`: количество цилиндров, дискретное значение\n",
116 |     "3. `displacement`: объем двигателя, куб. дюймы, действительное значение\n",
117 |     "4. `horsepower`: horsepower: действительное значение\n",
118 |     "5. `weight`: вес автомобиля: lbs., действительное значение\n",
119 |     "6. `acceleration`: время разгона до 60 mph, сек., действительное значение\n",
120 |     "7. `model_year`: год выпуска модели, (по модулю 100), дискретное значение\n",
121 |     "8. `origin`: регион (1. American, 2. European, 3. Japanese), дискретное значение\n",
122 |     "9. `name`: наименование модели, строка (уникально для каждого экземпляра)"
123 |    ]
124 |   },
125 |   {
126 |    "cell_type": "code",
127 |    "execution_count": null,
128 |    "metadata": {},
129 |    "outputs": [],
130 |    "source": [
131 |     "CLMNS = [\n",
132 |     "    \"mpg\", \"cylinders\", \"displacement\", \"horsepower\", \n",
133 |     "    \"weight\", \"acceleration\", \"model_year\", \"origin\", \"name\"\n",
134 |     "]\n",
135 |     "\n",
136 |     "# Загрузка датасета\n",
137 |     "# Замечание: \n",
138 |     "#  1) Разбиваем на столбцы по пробелам (один и более)\n",
139 |     "#  2) Там, где ?, заменяем на NaN\n",
140 |     "#  3) Удаляем строки с NaN\n",
141 |     "\n",
142 |     "df = pd.read_csv(FILE_PATH, \n",
143 |     "                 sep=\"\\s+\", \n",
144 |     "                 names=CLMNS, \n",
145 |     "                 na_values=[\"?\",]).dropna()\n",
146 |     "\n",
147 |     "df.head()"
148 |    ]
149 |   },
150 |   {
151 |    "cell_type": "code",
152 |    "execution_count": null,
153 |    "metadata": {},
154 |    "outputs": [],
155 |    "source": [
156 |     "scatter_matrix(df, figsize=[12,12])\n",
157 |     "plt.show()"
158 |    ]
159 |   },
160 |   {
161 |    "cell_type": "code",
162 |    "execution_count": null,
163 |    "metadata": {},
164 |    "outputs": [],
165 |    "source": [
166 |     "# График\n",
167 |     "plt.figure(1, figsize=[12, 4])\n",
168 |     "plt.subplot(1,2,1)\n",
169 |     "plt.title(\"horsepower\")\n",
170 |     "plt.scatter(df[\"horsepower\"], df[\"mpg\"], color=\"green\")\n",
171 |     "plt.xlabel(\"$horsepower$\")\n",
172 |     "plt.ylabel(\"$mpg$\")\n",
173 |     "plt.grid(True)\n",
174 |     "\n",
175 |     "plt.subplot(1,2,2)\n",
176 |     "plt.title(\"weight\")\n",
177 |     "plt.scatter(df[\"weight\"], df[\"mpg\"], color=\"green\")\n",
178 |     "plt.xlabel(\"$weight$\")\n",
179 |     "plt.ylabel(\"$mpg$\")\n",
180 |     "plt.grid(True)\n",
181 |     "plt.show()"
182 |    ]
183 |   },
184 |   {
185 |    "cell_type": "markdown",
186 |    "metadata": {},
187 |    "source": [
188 |     "## Предсказание расхода топлива"
189 |    ]
190 |   },
191 |   {
192 |    "cell_type": "markdown",
193 |    "metadata": {},
194 |    "source": [
195 |     "Модель 1:\n",
196 |     "\n",
197 |     "$$h_1(x) = \\theta_0 + \\theta_1\\cdot\\text{horsepower}$$\n",
198 |     "\n",
199 |     "Модель 2:\n",
200 |     "\n",
201 |     "$$h_2(x) = \\theta_0 + \\theta_1\\cdot\\text{horsepower} + \\theta_2\\cdot\\text{horsepower}^2$$\n",
202 |     "\n",
203 |     "Модель 3:\n",
204 |     "\n",
205 |     "$$h_3(x) = \\theta_0 + \\theta_1\\cdot\\text{horsepower} + \\theta_2\\cdot\\text{weight} $$\n",
206 |     "\n",
207 |     "Модель 4:\n",
208 |     "\n",
209 |     "$$h_4(x) = \\theta_0 + \\theta_1\\cdot\\text{horsepower} + \\theta_2\\cdot\\text{horsepower}^2 + \\theta_3\\cdot\\text{weight} $$"
210 |    ]
211 |   },
212 |   {
213 |    "cell_type": "code",
214 |    "execution_count": null,
215 |    "metadata": {},
216 |    "outputs": [],
217 |    "source": [
218 |     "def create_poly_as_dataframe(df_train, df_test, degree):\n",
219 |     "    \"\"\"\n",
220 |     "    Создает датафреймы с полиномами для обучающей и тестовой частей.\n",
221 |     "    \n",
222 |     "    Замечание: В данном случае нет необходимости создавать полиномы отдельно\n",
223 |     "    для обучающего и тестового датафреймов. Можно было бы это сделать для всего\n",
224 |     "    исходного датафрейма. Однако интерфейс PolynomialFeatures подразумевает\n",
225 |     "    использование методов fit и transform. Поэтому разделение применяется\n",
226 |     "    для соблюдения общего подхода.\n",
227 |     "    \"\"\"\n",
228 |     "    pf = PolynomialFeatures(degree=degree)\n",
229 |     "    train_poly = pf.fit_transform(df_train)\n",
230 |     "    test_poly = pf.transform(df_test)\n",
231 |     "    return pd.DataFrame(train_poly, index=df_train.index), pd.DataFrame(test_poly, index=df_test.index)\n",
232 |     "\n",
233 |     "\n",
234 |     "def create_poly_as_matrix(df_train, df_test, degree):\n",
235 |     "    \"\"\"\n",
236 |     "    Создает матрицы с полиномами для обучающей и тестовой частей.\n",
237 |     "    \"\"\"\n",
238 |     "    pf = PolynomialFeatures(degree=degree)\n",
239 |     "    train_poly = pf.fit_transform(df_train)\n",
240 |     "    test_poly = pf.transform(df_test)\n",
241 |     "    return np.asmatrix(train_poly), np.asmatrix(test_poly)"
242 |    ]
243 |   },
244 |   {
245 |    "cell_type": "code",
246 |    "execution_count": null,
247 |    "metadata": {},
248 |    "outputs": [],
249 |    "source": [
250 |     "# # Формирование датафрейма признаков: \n",
251 |     "# # исходный датафрейм признаков + датафрейм полиномов (кроме самих признаков и 1)\n",
252 |     "# poly_degree = 3\n",
253 |     "# num_poly_features = df_train_X[feature_clmns_1].columns.size\n",
254 |     "\n",
255 |     "# df_train_poly, df_test_poly = create_poly_as_dataframe(df_train_X[feature_clmns_1], \n",
256 |     "#                                                        df_test_X[feature_clmns_1], \n",
257 |     "#                                                        degree=poly_degree)\n",
258 |     "\n",
259 |     "# # Замечание: Используется цикл вместо concat, чтобы избежать\n",
260 |     "# # повторного включения столбцов\n",
261 |     "# for i in range(num_poly_features+1, df_train_poly.columns.size):\n",
262 |     "#     df_train_X[i] = df_train_poly[i]\n",
263 |     "    \n",
264 |     "# df_train_X.head()"
265 |    ]
266 |   },
267 |   {
268 |    "cell_type": "code",
269 |    "execution_count": null,
270 |    "metadata": {},
271 |    "outputs": [],
272 |    "source": [
273 |     "def plot_true_predicted(df_X, df_y, label_clmn=\"label\", prediction_clmn=\"prediction\", title=None):\n",
274 |     "    \"\"\"\n",
275 |     "    Построение графиков действительных значений и предсказанных \n",
276 |     "    по каждому признаку.\n",
277 |     "    \"\"\"\n",
278 |     "    \n",
279 |     "    feature_names = df_X.columns\n",
280 |     "    num_features = feature_names.size\n",
281 |     "    num_plot_rows = int(np.ceil((num_features+1)/2.0))\n",
282 |     "    columns = df_X.columns\n",
283 |     "    \n",
284 |     "    fig = plt.figure(figsize=[12, 4*num_plot_rows])\n",
285 |     "    for i in range(num_features):\n",
286 |     "        plt.subplot(num_plot_rows, 2, i+1)\n",
287 |     "        plt.vlines(df_X[feature_names[i]], ymin=df_y[label_clmn], ymax=df_y[prediction_clmn], \n",
288 |     "                   colors=\"black\", linestyles=\"dotted\", lw=1, zorder=1)\n",
289 |     "        plt.scatter(df_X[feature_names[i]], df_y[label_clmn], \n",
290 |     "                    color=\"green\", label=\"true\", zorder=2)\n",
291 |     "        plt.scatter(df_X[feature_names[i]], df_y[prediction_clmn], \n",
292 |     "                    color=\"red\", label=\"predicted\", zorder=3)\n",
293 |     "        plt.xlabel(\"$%s$\" % feature_names[i])\n",
294 |     "        plt.ylabel(\"$%s$\" % label_clmn)\n",
295 |     "        plt.legend()\n",
296 |     "        plt.grid(True) \n",
297 |     "    \n",
298 |     "    plt.subplot(num_plot_rows, 2, num_features+1)\n",
299 |     "    plt.scatter(df_y[prediction_clmn], df_y[label_clmn], color=\"slategrey\")\n",
300 |     "    xlim = plt.gca().get_xlim() \n",
301 |     "    plt.plot(xlim, xlim, '--', color=\"grey\")\n",
302 |     "    plt.xlim(xlim) \n",
303 |     "    plt.xlabel(\"$\\\\bar{y}$\")\n",
304 |     "    plt.ylabel(\"$y$\")\n",
305 |     "    plt.grid(True) \n",
306 |     "    \n",
307 |     "    plt.tight_layout()\n",
308 |     "    \n",
309 |     "#     if title:\n",
310 |     "#         plt.subplots_adjust(left=0.1, right=0.9, top=0.9, bottom=0.1)\n",
311 |     "#         plt.suptitle(title,  y=.98, fontsize=16)\n",
312 |     "    plt.show()"
313 |    ]
314 |   },
315 |   {
316 |    "cell_type": "code",
317 |    "execution_count": null,
318 |    "metadata": {
319 |     "scrolled": true
320 |    },
321 |    "outputs": [],
322 |    "source": [
323 |     "# Столбец целевого значения (действительного значения)\n",
324 |     "target_clmn = [\"mpg\"]\n",
325 |     "\n",
326 |     "# Столбцы признаков (все кроме целевого значения)\n",
327 |     "all_feature_clmns = df.columns.delete(df.columns.get_loc(target_clmn[0]))\n",
328 |     "\n",
329 |     "# Столбцы признаков для моделей\n",
330 |     "feature_clmns_1 = [\"horsepower\"]\n",
331 |     "feature_clmns_2 = [\"horsepower\", \"horsepower^2\"]\n",
332 |     "feature_clmns_3 = [\"horsepower\", \"weight\"]\n",
333 |     "feature_clmns_4 = [\"horsepower\", \"horsepower^2\", \"weight\"]\n",
334 |     "\n",
335 |     "# Разбиение исходных данных на обучающее и тестовое множества\n",
336 |     "df_train_X, df_test_X, df_train_y, df_test_y = train_test_split(\n",
337 |     "    df[all_feature_clmns], df[target_clmn], \n",
338 |     "    test_size=0.3, random_state=1234)\n",
339 |     "\n",
340 |     "# Добавление полинома в датафрейм признаков (в данном случае \n",
341 |     "# нужна только степень 2 для horsepower)\n",
342 |     "\n",
343 |     "# Вариант 1\n",
344 |     "\n",
345 |     "# Добавление столбца (можно сделать и для всего датафрейма)\n",
346 |     "df_train_X[\"horsepower^2\"] = df_train_X[\"horsepower\"]**2\n",
347 |     "df_test_X[\"horsepower^2\"] = df_test_X[\"horsepower\"]**2\n",
348 |     "\n",
349 |     "\n",
350 |     "# Вариант 2 (с использованием PolynomialFeatures)\n",
351 |     "\n",
352 |     "# poly_degree = 2\n",
353 |     "\n",
354 |     "# train_poly_matrix, test_poly_matrix = create_poly_as_matrix(df_train_X[feature_clmns_1], \n",
355 |     "#                                                             df_test_X[feature_clmns_1], \n",
356 |     "#                                                             degree=poly_degree)\n",
357 |     "# df_train_X[\"horsepower^2\"] = train_poly_matrix[:,2]\n",
358 |     "# df_test_X[\"horsepower^2\"] = test_poly_matrix[:,2]\n",
359 |     "\n",
360 |     "\n",
361 |     "# Список столбцов признаков для всех моделей\n",
362 |     "features_set = [feature_clmns_1, feature_clmns_2, feature_clmns_3, feature_clmns_4]\n",
363 |     "\n",
364 |     "# Обучение и оценка качества моделей\n",
365 |     "for indx, features in enumerate(features_set):\n",
366 |     "    \n",
367 |     "    # Обучение\n",
368 |     "    model = LinearRegression()\n",
369 |     "    model.fit(df_train_X[features], df_train_y[target_clmn[0]])\n",
370 |     "    \n",
371 |     "    # Параметры обученных моделей\n",
372 |     "    print(\"Model\", indx + 1)\n",
373 |     "    print(\"\\tw0 =\", model.intercept_)\n",
374 |     "    for i, coef in enumerate(model.coef_):\n",
375 |     "        print(\"\\tw{} = {}\".format(i+1, coef))\n",
376 |     "    \n",
377 |     "    # Предсказания\n",
378 |     "    model_name = \"model_{}_pred\".format(indx+1)\n",
379 |     "    df_train_y[model_name] = model.predict(df_train_X[features])\n",
380 |     "    df_test_y[model_name] = model.predict(df_test_X[features])\n",
381 |     "    \n",
382 |     "    # Среднеквадратические ошибки на тестовом подмножестве для всех моделей\n",
383 |     "    mse = mean_squared_error(df_test_y[target_clmn], model.predict(df_test_X[features]))\n",
384 |     "    print(\"\\tMSE = {}\".format(mse))\n",
385 |     "    \n",
386 |     "    # Графики\n",
387 |     "    plot_true_predicted(df_test_X[features], \n",
388 |     "                        df_test_y, \n",
389 |     "                        label_clmn=target_clmn[0], \n",
390 |     "                        prediction_clmn=model_name)\n",
391 |     "\n",
392 |     "# Действительные и предсказанные значения для тестовых данных (первые пять)\n",
393 |     "df_test_y.head(5)"
394 |    ]
395 |   },
396 |   {
397 |    "cell_type": "markdown",
398 |    "metadata": {},
399 |    "source": [
400 |     "## Альтернативная реализация"
401 |    ]
402 |   },
403 |   {
404 |    "cell_type": "code",
405 |    "execution_count": null,
406 |    "metadata": {},
407 |    "outputs": [],
408 |    "source": [
409 |     "def transform_to_poly(df, clmn, inplace=True):\n",
410 |     "    \"\"\"Трансформация\"\"\"\n",
411 |     "    clmn_new = \"{}^2\".format(clmn)\n",
412 |     "    if inplace:\n",
413 |     "        df[clmn_new] = df[clmn]**2\n",
414 |     "        return df\n",
415 |     "    return df.assign(**{clmn_new: df[clmn]**2})\n",
416 |     "\n",
417 |     "\n",
418 |     "def train_and_predit(df, model, feature_clmns, label_clmn, predicted_clmn=\"predicted\", inplace=True):\n",
419 |     "    \"\"\"Обучение и предсказание\"\"\"\n",
420 |     "    model.fit(df[feature_clmns], df[label_clmn])\n",
421 |     "    if inplace:\n",
422 |     "        df[predicted_clmn] = model.predict(df[feature_clmns])\n",
423 |     "        return df\n",
424 |     "    return df.assign(**{predicted_clmn: model.predict(df[feature_clmns])})\n",
425 |     "\n",
426 |     "\n",
427 |     "def predict(df, model, feature_clmns, predicted_clmn=\"predicted\", inplace=True):\n",
428 |     "    \"\"\"Предсказание\"\"\"\n",
429 |     "    if inplace:\n",
430 |     "        df[predicted_clmn] = model.predict(df[feature_clmns])\n",
431 |     "        return df\n",
432 |     "    return df.assign(**{predicted_clmn: model.predict(df[feature_clmns])})\n",
433 |     "\n",
434 |     "\n",
435 |     "def describe(df, name, model, feature_clmns, label_clmn, predicted_clmn=\"predicted\"):\n",
436 |     "    \"\"\"Вывод информации о модели\"\"\"\n",
437 |     "   \n",
438 |     "    # Наименование\n",
439 |     "    print(name)\n",
440 |     "    \n",
441 |     "    # Параметры обученных моделей\n",
442 |     "    print(\"\\tw0 =\", model.intercept_)\n",
443 |     "    for i, coef in enumerate(model.coef_):\n",
444 |     "        print(\"\\tw{} = {}\".format(i+1, coef))\n",
445 |     "        \n",
446 |     "    # Среднеквадратические ошибки на тестовом подмножестве для всех моделей\n",
447 |     "    mse = mean_squared_error(df[label_clmn], df[predicted_clmn])\n",
448 |     "    print(\"\\tMSE = {}\".format(mse))\n",
449 |     "    \n",
450 |     "    # Графики\n",
451 |     "    plot_true_predicted(df[feature_clmns], df, \n",
452 |     "                       label_clmn=label_clmn, \n",
453 |     "                       prediction_clmn=predicted_clmn)\n",
454 |     "    \n",
455 |     "    return df\n",
456 |     "    \n",
457 |     "    \n",
458 |     "# Разбиение исходных данных на обучающее и тестовое множества\n",
459 |     "df_train, df_test = train_test_split(df, test_size=0.3, random_state=1234)\n",
460 |     "\n",
461 |     "# Столбцы признаков и целевого значения\n",
462 |     "target_clmn = \"mpg\"\n",
463 |     "feature_clmns = [\"horsepower\", \"horsepower^2\"]\n",
464 |     "\n",
465 |     "# Инициализация модели\n",
466 |     "model = LinearRegression()   \n",
467 |     "\n",
468 |     "# Обучение и тестирование\n",
469 |     "df_train__predicted = df_train\\\n",
470 |     "    .pipe(transform_to_poly, \"horsepower\", False)\\\n",
471 |     "    .pipe(train_and_predit, model, feature_clmns, target_clmn)\\\n",
472 |     "    .pipe(describe, \"Train\", model, feature_clmns, target_clmn)\n",
473 |     "\n",
474 |     "df_test__predicted = df_test\\\n",
475 |     "    .pipe(transform_to_poly, \"horsepower\", False)\\\n",
476 |     "    .pipe(predict, model, feature_clmns)\\\n",
477 |     "    .pipe(describe, \"Test\", model, feature_clmns, target_clmn)\n",
478 |     "\n",
479 |     "df_test__predicted[feature_clmns + [target_clmn] + [\"predicted\"]].head(5)"
480 |    ]
481 |   },
482 |   {
483 |    "cell_type": "markdown",
484 |    "metadata": {},
485 |    "source": [
486 |     "## Источники"
487 |    ]
488 |   },
489 |   {
490 |    "cell_type": "markdown",
491 |    "metadata": {},
492 |    "source": [
493 |     "[Auto MPG Data Set](https://archive.ics.uci.edu/ml/datasets/auto+mpg)"
494 |    ]
495 |   },
496 |   {
497 |    "cell_type": "code",
498 |    "execution_count": null,
499 |    "metadata": {},
500 |    "outputs": [],
501 |    "source": []
502 |   }
503 |  ],
504 |  "metadata": {
505 |   "kernelspec": {
506 |    "display_name": "Python 3 (ipykernel)",
507 |    "language": "python",
508 |    "name": "python3"
509 |   },
510 |   "language_info": {
511 |    "codemirror_mode": {
512 |     "name": "ipython",
513 |     "version": 3
514 |    },
515 |    "file_extension": ".py",
516 |    "mimetype": "text/x-python",
517 |    "name": "python",
518 |    "nbconvert_exporter": "python",
519 |    "pygments_lexer": "ipython3",
520 |    "version": "3.11.7"
521 |   }
522 |  },
523 |  "nbformat": 4,
524 |  "nbformat_minor": 4
525 | }
526 | 


--------------------------------------------------------------------------------
/notebooks/C8_Preprocessing_And_SemiSupervised.ipynb:
--------------------------------------------------------------------------------
  1 | {
  2 |  "cells": [
  3 |   {
  4 |    "cell_type": "markdown",
  5 |    "metadata": {},
  6 |    "source": [
  7 |     "# Кластеризация. Предобработка и обучение с частичным привлечением учителя\n",
  8 |     "\n",
  9 |     "\n",
 10 |     "<hr>\n",
 11 |     "\n",
 12 |     "С.Ю. Папулин (papulin.study@yandex.ru)"
 13 |    ]
 14 |   },
 15 |   {
 16 |    "cell_type": "markdown",
 17 |    "metadata": {},
 18 |    "source": [
 19 |     "### Содержание\n",
 20 |     "\n",
 21 |     "- [Предобработка данных для задачи классификации](#Предобработка-данных-для-задачи-классификации)\n",
 22 |     "- [Обучение с частичным привлечением учителя](#Обучение-с-частичным-привлечением-учителя)\n",
 23 |     "- [Источники](#Источники)"
 24 |    ]
 25 |   },
 26 |   {
 27 |    "cell_type": "markdown",
 28 |    "metadata": {},
 29 |    "source": [
 30 |     "Подключение библиотек:"
 31 |    ]
 32 |   },
 33 |   {
 34 |    "cell_type": "code",
 35 |    "execution_count": null,
 36 |    "metadata": {},
 37 |    "outputs": [],
 38 |    "source": [
 39 |     "import warnings\n",
 40 |     "warnings.filterwarnings('ignore') "
 41 |    ]
 42 |   },
 43 |   {
 44 |    "cell_type": "code",
 45 |    "execution_count": null,
 46 |    "metadata": {},
 47 |    "outputs": [],
 48 |    "source": [
 49 |     "import time\n",
 50 |     "import numpy as np\n",
 51 |     "import matplotlib.pyplot as plt\n",
 52 |     "%matplotlib inline"
 53 |    ]
 54 |   },
 55 |   {
 56 |    "cell_type": "code",
 57 |    "execution_count": null,
 58 |    "metadata": {},
 59 |    "outputs": [],
 60 |    "source": [
 61 |     "from sklearn.svm import SVC\n",
 62 |     "from sklearn.linear_model import LogisticRegression\n",
 63 |     "from sklearn.cluster import KMeans\n",
 64 |     "from sklearn.pipeline import Pipeline"
 65 |    ]
 66 |   },
 67 |   {
 68 |    "cell_type": "code",
 69 |    "execution_count": null,
 70 |    "metadata": {},
 71 |    "outputs": [],
 72 |    "source": [
 73 |     "import sys\n",
 74 |     "sys.path.insert(0, \"../lib/\")\n",
 75 |     "from datasets import fetch_fashion_mnist"
 76 |    ]
 77 |   },
 78 |   {
 79 |    "cell_type": "markdown",
 80 |    "metadata": {},
 81 |    "source": [
 82 |     "## Предобработка данных для задачи классификации"
 83 |    ]
 84 |   },
 85 |   {
 86 |    "cell_type": "markdown",
 87 |    "metadata": {},
 88 |    "source": [
 89 |     "Загрузка данных"
 90 |    ]
 91 |   },
 92 |   {
 93 |    "cell_type": "code",
 94 |    "execution_count": null,
 95 |    "metadata": {},
 96 |    "outputs": [],
 97 |    "source": [
 98 |     "fashion_dataset = fetch_fashion_mnist(return_X_y=True)\n",
 99 |     "\n",
100 |     "print('Overview\\n', fashion_dataset.DESCR)\n",
101 |     "print('Feature names\\n', fashion_dataset.feature_names)"
102 |    ]
103 |   },
104 |   {
105 |    "cell_type": "code",
106 |    "execution_count": null,
107 |    "metadata": {},
108 |    "outputs": [],
109 |    "source": [
110 |     "IMAGE_INDX = 20\n",
111 |     "\n",
112 |     "print('Image:')\n",
113 |     "plt.figure(figsize=[4, 4])\n",
114 |     "plt.imshow(fashion_dataset.data['train'][IMAGE_INDX].reshape(-1, 28))\n",
115 |     "plt.show()\n",
116 |     "\n",
117 |     "print('Target:', fashion_dataset.target['train'][IMAGE_INDX])\n",
118 |     "print('Name:', fashion_dataset.feature_names[fashion_dataset.target['train'][IMAGE_INDX]])"
119 |    ]
120 |   },
121 |   {
122 |    "cell_type": "markdown",
123 |    "metadata": {},
124 |    "source": [
125 |     "Размерность данных"
126 |    ]
127 |   },
128 |   {
129 |    "cell_type": "code",
130 |    "execution_count": null,
131 |    "metadata": {},
132 |    "outputs": [],
133 |    "source": [
134 |     "fashion_dataset.data['train'].shape, fashion_dataset.data['test'].shape"
135 |    ]
136 |   },
137 |   {
138 |    "cell_type": "code",
139 |    "execution_count": null,
140 |    "metadata": {},
141 |    "outputs": [],
142 |    "source": [
143 |     "fashion_dataset.target['train'].shape, fashion_dataset.target['test'].shape"
144 |    ]
145 |   },
146 |   {
147 |    "cell_type": "markdown",
148 |    "metadata": {},
149 |    "source": [
150 |     "Обучающее и тестовое подмножества"
151 |    ]
152 |   },
153 |   {
154 |    "cell_type": "code",
155 |    "execution_count": null,
156 |    "metadata": {},
157 |    "outputs": [],
158 |    "source": [
159 |     "X_train_, X_test, y_train_, y_test = *fashion_dataset.data.values(), *fashion_dataset.target.values()\n",
160 |     "\n",
161 |     "# Уменьшение количества элементов обучающего множества\n",
162 |     "X_train = X_train_[:10000]\n",
163 |     "y_train = y_train_[:10000]\n",
164 |     "\n",
165 |     "# Уменьшение размера изображений\n",
166 |     "# X_train = X_train.reshape(-1, 28, 28)[:, ::2, ::2].reshape(-1, 14*14)"
167 |    ]
168 |   },
169 |   {
170 |    "cell_type": "code",
171 |    "execution_count": null,
172 |    "metadata": {},
173 |    "outputs": [],
174 |    "source": [
175 |     "np.unique(y_train, return_counts=True)"
176 |    ]
177 |   },
178 |   {
179 |    "cell_type": "markdown",
180 |    "metadata": {},
181 |    "source": [
182 |     "Обучения классификатора"
183 |    ]
184 |   },
185 |   {
186 |    "cell_type": "code",
187 |    "execution_count": null,
188 |    "metadata": {},
189 |    "outputs": [],
190 |    "source": [
191 |     "tick = time.time()\n",
192 |     "model = SVC(**{'C': 10, 'kernel': 'poly', 'gamma': 'scale', 'degree': 2})\n",
193 |     "model.fit(X_train, y_train)\n",
194 |     "print(\"Time =\", time.time() - tick)\n",
195 |     "model.score(X_test, y_test)"
196 |    ]
197 |   },
198 |   {
199 |    "cell_type": "markdown",
200 |    "metadata": {},
201 |    "source": [
202 |     "Формирование признаков посредством кластеризации"
203 |    ]
204 |   },
205 |   {
206 |    "cell_type": "code",
207 |    "execution_count": null,
208 |    "metadata": {},
209 |    "outputs": [],
210 |    "source": [
211 |     "tick = time.time()\n",
212 |     "cluster_model = KMeans(n_clusters=50, random_state=12345)\n",
213 |     "cluster_model.fit(X_train)\n",
214 |     "print(\"Time =\", time.time() - tick)"
215 |    ]
216 |   },
217 |   {
218 |    "cell_type": "code",
219 |    "execution_count": null,
220 |    "metadata": {},
221 |    "outputs": [],
222 |    "source": [
223 |     "cluster_model.transform(X_train).shape"
224 |    ]
225 |   },
226 |   {
227 |    "cell_type": "code",
228 |    "execution_count": null,
229 |    "metadata": {},
230 |    "outputs": [],
231 |    "source": [
232 |     "# Расстояние до центров кластеров\n",
233 |     "cluster_model.transform(X_train)[:1]"
234 |    ]
235 |   },
236 |   {
237 |    "cell_type": "code",
238 |    "execution_count": null,
239 |    "metadata": {},
240 |    "outputs": [],
241 |    "source": [
242 |     "# Предсказание кластеров\n",
243 |     "# print(np.argmin(cluster_model.transform(X_train), axis=1)[:5])\n",
244 |     "# print(cluster_model.predict(X_train[:5]))"
245 |    ]
246 |   },
247 |   {
248 |    "cell_type": "markdown",
249 |    "metadata": {},
250 |    "source": [
251 |     "Классификатор с новым наборам признаков"
252 |    ]
253 |   },
254 |   {
255 |    "cell_type": "code",
256 |    "execution_count": null,
257 |    "metadata": {},
258 |    "outputs": [],
259 |    "source": [
260 |     "tick = time.time()\n",
261 |     "model = SVC(**{'C':10, 'kernel':'poly', 'gamma': 'scale', 'degree': 2})\n",
262 |     "model.fit(cluster_model.transform(X_train), y_train)\n",
263 |     "print('Time =', time.time() - tick)\n",
264 |     "model.score(cluster_model.transform(X_test), y_test)"
265 |    ]
266 |   },
267 |   {
268 |    "cell_type": "markdown",
269 |    "metadata": {},
270 |    "source": [
271 |     "Реализация посредством `Pipeline`"
272 |    ]
273 |   },
274 |   {
275 |    "cell_type": "code",
276 |    "execution_count": null,
277 |    "metadata": {},
278 |    "outputs": [],
279 |    "source": [
280 |     "tick = time.time()\n",
281 |     "pipeline = Pipeline([\n",
282 |     "    ('cluster_model', KMeans(n_clusters=50, random_state=12345)),\n",
283 |     "    ('classifier', SVC(**{'C':10, 'kernel': 'poly', 'gamma': 'scale', 'degree': 2})),\n",
284 |     "])\n",
285 |     "pipeline.fit(X_train, y_train)\n",
286 |     "print('Time =', time.time() - tick)\n",
287 |     "pipeline.score(X_test, y_test)"
288 |    ]
289 |   },
290 |   {
291 |    "cell_type": "markdown",
292 |    "metadata": {},
293 |    "source": [
294 |     "## Обучение с частичным привлечением учителя"
295 |    ]
296 |   },
297 |   {
298 |    "cell_type": "code",
299 |    "execution_count": null,
300 |    "metadata": {},
301 |    "outputs": [],
302 |    "source": [
303 |     "# Везьмем первые n наблюдений\n",
304 |     "N = 50\n",
305 |     "X_train_n = X_train[:N]\n",
306 |     "y_train_n = y_train[:N]"
307 |    ]
308 |   },
309 |   {
310 |    "cell_type": "code",
311 |    "execution_count": null,
312 |    "metadata": {},
313 |    "outputs": [],
314 |    "source": [
315 |     "np.unique(y_train_n, return_counts=True)"
316 |    ]
317 |   },
318 |   {
319 |    "cell_type": "code",
320 |    "execution_count": null,
321 |    "metadata": {},
322 |    "outputs": [],
323 |    "source": [
324 |     "# Обучаем модель классификации\n",
325 |     "tick = time.time()\n",
326 |     "model = SVC(**{'C': 10, 'kernel': 'poly', 'gamma': 'scale', 'degree': 2})\n",
327 |     "# model = LogisticRegression()\n",
328 |     "model.fit(X_train_n, y_train_n)\n",
329 |     "print('Accuracy =', model.score(X_test, y_test))\n",
330 |     "print('Time =', time.time() - tick)"
331 |    ]
332 |   },
333 |   {
334 |    "cell_type": "code",
335 |    "execution_count": null,
336 |    "metadata": {},
337 |    "outputs": [],
338 |    "source": [
339 |     "# Обучаем модель кластеризации\n",
340 |     "tick = time.time()\n",
341 |     "cluster_model = KMeans(n_clusters=N, random_state=12345)\n",
342 |     "cluster_model.fit(X_train)\n",
343 |     "print('Time =', time.time() - tick)"
344 |    ]
345 |   },
346 |   {
347 |    "cell_type": "markdown",
348 |    "metadata": {},
349 |    "source": [
350 |     "Разметка данных ближайших к кластерам"
351 |    ]
352 |   },
353 |   {
354 |    "cell_type": "code",
355 |    "execution_count": null,
356 |    "metadata": {},
357 |    "outputs": [],
358 |    "source": [
359 |     "# Индексы наблюдений с минимальным расстоянием до ближайщего кластера\n",
360 |     "indices = np.argmin(cluster_model.transform(X_train), axis=0)\n",
361 |     "indices"
362 |    ]
363 |   },
364 |   {
365 |    "cell_type": "code",
366 |    "execution_count": null,
367 |    "metadata": {},
368 |    "outputs": [],
369 |    "source": [
370 |     "cols = 10\n",
371 |     "row_num = -(-len(indices) // cols)\n",
372 |     "\n",
373 |     "fig, axs = plt.subplots(row_num, cols, figsize=(14, 2*row_num), squeeze=False)\n",
374 |     "for i in range(row_num):\n",
375 |     "    for j in range(cols):\n",
376 |     "        indx = i * cols + j\n",
377 |     "        if indx >= len(indices):\n",
378 |     "            fig.delaxes(axs[i, j])\n",
379 |     "        else:\n",
380 |     "            image = X_train[indices[indx]].reshape(-1, 28)\n",
381 |     "            axs[i, j].imshow(image)\n",
382 |     "            axs[i, j].set_title(\n",
383 |     "                \"cluster={}\".format(indx))\n",
384 |     "            axs[i, j].axis(\"off\")\n",
385 |     "# plt.tight_layout()\n",
386 |     "plt.show()"
387 |    ]
388 |   },
389 |   {
390 |    "cell_type": "code",
391 |    "execution_count": null,
392 |    "metadata": {},
393 |    "outputs": [],
394 |    "source": [
395 |     "# Массив наблюдений, соответствующих ранее полученным индексам\n",
396 |     "X_train_n_labeled = X_train[indices]\n",
397 |     "\n",
398 |     "# Замечания: Эти значения должны быть внесены вручную на основе\n",
399 |     "# изображений выше. Однако здесь мы используем уже размеченный \n",
400 |     "# набор с целевыми значениями\n",
401 |     "y_train_n_labeled = y_train[indices]"
402 |    ]
403 |   },
404 |   {
405 |    "cell_type": "code",
406 |    "execution_count": null,
407 |    "metadata": {},
408 |    "outputs": [],
409 |    "source": [
410 |     "np.unique(y_train_n_labeled, return_counts=True)"
411 |    ]
412 |   },
413 |   {
414 |    "cell_type": "code",
415 |    "execution_count": null,
416 |    "metadata": {},
417 |    "outputs": [],
418 |    "source": [
419 |     "# Обучение на новом наборе из N размеченных данных\n",
420 |     "model = SVC(**{'C': 10, 'kernel': 'poly', 'gamma': 'scale', 'degree': 2})\n",
421 |     "model.fit(X_train_n_labeled, y_train_n_labeled)\n",
422 |     "print('Accuracy =', model.score(X_test, y_test))\n",
423 |     "print('Time =', time.time() - tick)"
424 |    ]
425 |   },
426 |   {
427 |    "cell_type": "markdown",
428 |    "metadata": {},
429 |    "source": [
430 |     "Разметка всего набора данных"
431 |    ]
432 |   },
433 |   {
434 |    "cell_type": "code",
435 |    "execution_count": null,
436 |    "metadata": {},
437 |    "outputs": [],
438 |    "source": [
439 |     "# Предсказание кластеров\n",
440 |     "с__pred = cluster_model.predict(X_train)"
441 |    ]
442 |   },
443 |   {
444 |    "cell_type": "code",
445 |    "execution_count": null,
446 |    "metadata": {},
447 |    "outputs": [],
448 |    "source": [
449 |     "# Сопоставим индексы кластеров и индексы классов (для размеченных вручную изображений)\n",
450 |     "y_train_labeled = y_train[indices[с__pred]]\n",
451 |     "y_train_labeled"
452 |    ]
453 |   },
454 |   {
455 |    "cell_type": "code",
456 |    "execution_count": null,
457 |    "metadata": {},
458 |    "outputs": [],
459 |    "source": [
460 |     "# Обучение на новых размеченных данных\n",
461 |     "tick = time.time()\n",
462 |     "model = SVC(**{'C': 10, 'kernel': 'poly', 'gamma': 'scale', 'degree': 2})\n",
463 |     "model.fit(X_train, y_train_labeled)\n",
464 |     "print('Accuracy =', model.score(X_test, y_test))\n",
465 |     "print('Time =', time.time() - tick)"
466 |    ]
467 |   },
468 |   {
469 |    "cell_type": "markdown",
470 |    "metadata": {},
471 |    "source": [
472 |     "Приведенные выше способы подходят для повышения качества предсказания моделей при небольшом количестве размеченных данных. Если у нас достаточно большой набор размеченных данных, то не стоит ожидать значительного увеличения качества предсказания"
473 |    ]
474 |   },
475 |   {
476 |    "cell_type": "markdown",
477 |    "metadata": {},
478 |    "source": [
479 |     "##  Источники"
480 |    ]
481 |   },
482 |   {
483 |    "cell_type": "markdown",
484 |    "metadata": {},
485 |    "source": [
486 |     "Hands-on Machine Learning with Scikit-Learn, Keras, and TensorFlow by Aurélien Géron"
487 |    ]
488 |   },
489 |   {
490 |    "cell_type": "code",
491 |    "execution_count": null,
492 |    "metadata": {},
493 |    "outputs": [],
494 |    "source": []
495 |   }
496 |  ],
497 |  "metadata": {
498 |   "kernelspec": {
499 |    "display_name": "Python 3 (ipykernel)",
500 |    "language": "python",
501 |    "name": "python3"
502 |   },
503 |   "language_info": {
504 |    "codemirror_mode": {
505 |     "name": "ipython",
506 |     "version": 3
507 |    },
508 |    "file_extension": ".py",
509 |    "mimetype": "text/x-python",
510 |    "name": "python",
511 |    "nbconvert_exporter": "python",
512 |    "pygments_lexer": "ipython3",
513 |    "version": "3.11.7"
514 |   }
515 |  },
516 |  "nbformat": 4,
517 |  "nbformat_minor": 4
518 | }
519 | 


--------------------------------------------------------------------------------
/notebooks/css/style.css:
--------------------------------------------------------------------------------
 1 | .msg-block {
 2 |   padding: 10px;
 3 | }
 4 | .msg-warning {
 5 |   background-color: lightyellow;
 6 |   border: 1px solid orange;
 7 |   border-left: 10px solid orange;
 8 | }
 9 | .msg-info {
10 |   background-color: #e6f2ff;
11 |   border: 1px solid #0099ff;
12 |   border-left: 10px solid #0099ff;
13 | }
14 | .msg-text-warn {
15 | 
16 | }
17 | .msg-text-warn:before {
18 |   content: "предупреждение!\A";
19 |   text-transform: uppercase;
20 |   font-weight: bold;
21 |   color: darkorange;
22 |   white-space: pre;
23 | }
24 | .msg-text-info {
25 | 
26 | }
27 | .msg-text-info:before {
28 |   content: "замечание!\A";
29 |   text-transform: uppercase;
30 |   font-weight: bold;
31 |   color: #007acc;
32 |   white-space: pre;
33 | }
34 | .msg-imp {
35 |   background-color: #ffe6e6;
36 |   border: 1px solid red;
37 |   border-left: 10px solid red;
38 | }
39 | .msg-text-imp {
40 | 
41 | }
42 | .msg-text-imp:before {
43 |   content: "внимание!\A";
44 |   text-transform: uppercase;
45 |   font-weight: bold;
46 |   color: darkred;
47 |   margin-bottom: 15px;
48 |   white-space: pre;
49 | 
50 | }
51 | .code-font, .bold, .code-key {
52 |   font-family: monospace;
53 | }
54 | .code-key {
55 |   color: green;
56 |   font-weight: bold;
57 | }
58 | .code-text-key {
59 |   color: #007a99;
60 |   font-weight: bold;
61 | }
62 | 
63 | .code-block {
64 |   margin-left: 20px;
65 |   padding: 10px;
66 |   border-left: 2px solid lightgrey;
67 | }
68 | .bold {
69 |   font-weight: bold;
70 | }
71 | 


--------------------------------------------------------------------------------
/notebooks/img/gd-one-var-alpha-left.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/MLMethods/Practice/ed03a18b83e0973a8fd540fcc6c1f766db857c64/notebooks/img/gd-one-var-alpha-left.png


--------------------------------------------------------------------------------
/notebooks/img/gd-one-var-alpha-right.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/MLMethods/Practice/ed03a18b83e0973a8fd540fcc6c1f766db857c64/notebooks/img/gd-one-var-alpha-right.png


--------------------------------------------------------------------------------
/notebooks/img/gd-two-var-alpha-left-sum.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/MLMethods/Practice/ed03a18b83e0973a8fd540fcc6c1f766db857c64/notebooks/img/gd-two-var-alpha-left-sum.png


--------------------------------------------------------------------------------
/notebooks/img/gd-two-var-alpha-left.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/MLMethods/Practice/ed03a18b83e0973a8fd540fcc6c1f766db857c64/notebooks/img/gd-two-var-alpha-left.png


--------------------------------------------------------------------------------
/notebooks/img/gd-two-var-alpha-right-sum.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/MLMethods/Practice/ed03a18b83e0973a8fd540fcc6c1f766db857c64/notebooks/img/gd-two-var-alpha-right-sum.png


--------------------------------------------------------------------------------
/notebooks/img/gd-two-var-alpha-right.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/MLMethods/Practice/ed03a18b83e0973a8fd540fcc6c1f766db857c64/notebooks/img/gd-two-var-alpha-right.png


--------------------------------------------------------------------------------
/notebooks/img/sgd-two-var-alpha-left.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/MLMethods/Practice/ed03a18b83e0973a8fd540fcc6c1f766db857c64/notebooks/img/sgd-two-var-alpha-left.png


--------------------------------------------------------------------------------
/notebooks/img/sgd-two-var-alpha-right.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/MLMethods/Practice/ed03a18b83e0973a8fd540fcc6c1f766db857c64/notebooks/img/sgd-two-var-alpha-right.png


--------------------------------------------------------------------------------
/notebooks/img/vectors.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/MLMethods/Practice/ed03a18b83e0973a8fd540fcc6c1f766db857c64/notebooks/img/vectors.png


--------------------------------------------------------------------------------