"
242 | ],
243 | "text/plain": [
244 | " species island bill_length_mm ... flipper_length_mm body_mass_g sex\n",
245 | "0 Adelie Torgersen 39.1 ... 181.0 3750.0 Male\n",
246 | "1 Adelie Torgersen 39.5 ... 186.0 3800.0 Female\n",
247 | "2 Adelie Torgersen 40.3 ... 195.0 3250.0 Female\n",
248 | "3 Adelie Torgersen NaN ... NaN NaN NaN\n",
249 | "4 Adelie Torgersen 36.7 ... 193.0 3450.0 Female\n",
250 | ".. ... ... ... ... ... ... ...\n",
251 | "339 Gentoo Biscoe NaN ... NaN NaN NaN\n",
252 | "340 Gentoo Biscoe 46.8 ... 215.0 4850.0 Female\n",
253 | "341 Gentoo Biscoe 50.4 ... 222.0 5750.0 Male\n",
254 | "342 Gentoo Biscoe 45.2 ... 212.0 5200.0 Female\n",
255 | "343 Gentoo Biscoe 49.9 ... 213.0 5400.0 Male\n",
256 | "\n",
257 | "[344 rows x 7 columns]"
258 | ]
259 | },
260 | "metadata": {
261 | "tags": []
262 | },
263 | "execution_count": 2
264 | }
265 | ]
266 | },
267 | {
268 | "cell_type": "markdown",
269 | "metadata": {
270 | "id": "6Kke9L_8eKgM"
271 | },
272 | "source": [
273 | "El dataset viene con datos nulos, que no nos sirven para entrenar un modelo de machine learning. Por ende, los contaremos y luego los eliminaremos. "
274 | ]
275 | },
276 | {
277 | "cell_type": "code",
278 | "metadata": {
279 | "colab": {
280 | "base_uri": "https://localhost:8080/"
281 | },
282 | "id": "217LQBfZtsHg",
283 | "outputId": "6fc1da77-d96d-4de5-edf2-0eb3068d4e3d"
284 | },
285 | "source": [
286 | "df.isnull().sum()"
287 | ],
288 | "execution_count": 8,
289 | "outputs": [
290 | {
291 | "output_type": "execute_result",
292 | "data": {
293 | "text/plain": [
294 | "species 0\n",
295 | "island 0\n",
296 | "bill_length_mm 2\n",
297 | "bill_depth_mm 2\n",
298 | "flipper_length_mm 2\n",
299 | "body_mass_g 2\n",
300 | "sex 11\n",
301 | "dtype: int64"
302 | ]
303 | },
304 | "metadata": {
305 | "tags": []
306 | },
307 | "execution_count": 8
308 | }
309 | ]
310 | },
311 | {
312 | "cell_type": "code",
313 | "metadata": {
314 | "id": "Pli5XaQEt1Ny"
315 | },
316 | "source": [
317 | "df.dropna(inplace=True)"
318 | ],
319 | "execution_count": 9,
320 | "outputs": []
321 | },
322 | {
323 | "cell_type": "markdown",
324 | "metadata": {
325 | "id": "G_7z0jjeea-0"
326 | },
327 | "source": [
328 | "Para este ejercicio, crearemos un gráfico de correlación linear como el que hicimos anteriormente. En este caso suponemos que existe una relación entre la masa corporal de los pingüinos y el tamaño de sus alas."
329 | ]
330 | },
331 | {
332 | "cell_type": "code",
333 | "metadata": {
334 | "colab": {
335 | "base_uri": "https://localhost:8080/",
336 | "height": 625
337 | },
338 | "id": "K6jWtgpTsE3q",
339 | "outputId": "7af6876b-1659-43eb-f318-211aa5f8571c"
340 | },
341 | "source": [
342 | "sns.regplot(x=df[\"body_mass_g\"], y=df[\"flipper_length_mm\"])"
343 | ],
344 | "execution_count": 45,
345 | "outputs": [
346 | {
347 | "output_type": "execute_result",
348 | "data": {
349 | "text/plain": [
350 | ""
351 | ]
352 | },
353 | "metadata": {
354 | "tags": []
355 | },
356 | "execution_count": 45
357 | },
358 | {
359 | "output_type": "display_data",
360 | "data": {
361 | "image/png": "\n",
362 | "text/plain": [
363 | ""
364 | ]
365 | },
366 | "metadata": {
367 | "tags": []
368 | }
369 | }
370 | ]
371 | },
372 | {
373 | "cell_type": "markdown",
374 | "metadata": {
375 | "id": "u83QqoA5sqF8"
376 | },
377 | "source": [
378 | "# Entrenamiento del Modelo\n",
379 | "\n",
380 | "A partir de la correlación linear anterior, entrenaremos un modelo simple de regresión linear. \n",
381 | "\n",
382 | "Lo primero es crear dos vectores. En este caso usamos la masa corporal como nuestro vector X (predictor) y el tamaño de las alas como el vector y (valor por predecirse).\n",
383 | "\n",
384 | "La función *train_test_split* es fundamental en machine learning, ya que nos divide nuestro data sets en datos de entrenamiento y prueba. Los datos de prueba nos servirán para medir el desempeño de nuestro modelo.\n",
385 | "\n",
386 | "Las funciones *values* y *reshape* nos permiten crear un arreglo artificial en 2D que nos permitirá entrenar nuestro modelo.\n",
387 | "\n",
388 | "Para entrenar al modelo, solo tenemos que invocar a *Linear Regression* y luego entrenar al modelo con la función *fit*."
389 | ]
390 | },
391 | {
392 | "cell_type": "code",
393 | "metadata": {
394 | "id": "geqh7kcjzAVN"
395 | },
396 | "source": [
397 | "X = df[\"body_mass_g\"].values.reshape(-1,1)\n",
398 | "y = df[\"flipper_length_mm\"]\n",
399 | "\n",
400 | "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.20, random_state = 42)"
401 | ],
402 | "execution_count": 48,
403 | "outputs": []
404 | },
405 | {
406 | "cell_type": "code",
407 | "metadata": {
408 | "colab": {
409 | "base_uri": "https://localhost:8080/"
410 | },
411 | "id": "KMrZah8Tzcd8",
412 | "outputId": "80b66d50-14fd-456c-df70-54ac3d94fc4a"
413 | },
414 | "source": [
415 | "reg = LinearRegression()\n",
416 | "reg.fit(X_train, y_train)"
417 | ],
418 | "execution_count": 49,
419 | "outputs": [
420 | {
421 | "output_type": "execute_result",
422 | "data": {
423 | "text/plain": [
424 | "LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)"
425 | ]
426 | },
427 | "metadata": {
428 | "tags": []
429 | },
430 | "execution_count": 49
431 | }
432 | ]
433 | },
434 | {
435 | "cell_type": "markdown",
436 | "metadata": {
437 | "id": "jCdwCPWd0TtP"
438 | },
439 | "source": [
440 | "# Suma de Errores Cuadráticos\n",
441 | "\n",
442 | "En este modelo tenemos ya un modelo entrenado y listo para ser medido.\n",
443 | "\n",
444 | "*Scikit Learn* no tiene un modulo para calcular la summa de errores cuadráticos por lo que lo haremos manualemente.\n",
445 | "\n",
446 | "Lo que tenemos es una vector llamado *y_test* (datos reales) que utiliza a *X_test* para generar una predicción. Lo que hacemos con una sola línea de código es sumar todos los vectores al cuadrado."
447 | ]
448 | },
449 | {
450 | "cell_type": "code",
451 | "metadata": {
452 | "colab": {
453 | "base_uri": "https://localhost:8080/"
454 | },
455 | "id": "ZhEYwh6h0R6o",
456 | "outputId": "2dd8ee9b-0bbb-4b27-f6b6-6b3f9815d5c2"
457 | },
458 | "source": [
459 | "sec = np.sum((y_test - reg.predict(X_test))**2)\n",
460 | "sec"
461 | ],
462 | "execution_count": 71,
463 | "outputs": [
464 | {
465 | "output_type": "execute_result",
466 | "data": {
467 | "text/plain": [
468 | "2913.7808139174745"
469 | ]
470 | },
471 | "metadata": {
472 | "tags": []
473 | },
474 | "execution_count": 71
475 | }
476 | ]
477 | },
478 | {
479 | "cell_type": "markdown",
480 | "metadata": {
481 | "id": "znhuZj_P1MDh"
482 | },
483 | "source": [
484 | "# Otras Métricas de Desempeño\n",
485 | "\n",
486 | "En este caso usamos dos métricas adicionales que vienen preconstruidas en *Scikit Learn*. \n",
487 | "\n",
488 | "Por un lado tenemos al promedio de los errores cuadráticos (mean_squared_error). Como su nombre lo indica, hace un promedio de los errores cuadráticos en vez de sumarlos.\n",
489 | "\n",
490 | "Una métrica que se usa popularmente en regresión linear son los mínimos cuadrados ordinarios (r²). Este genera un rango de 0 a 1 para medir la varianza capturada por el modelo. \n"
491 | ]
492 | },
493 | {
494 | "cell_type": "code",
495 | "metadata": {
496 | "colab": {
497 | "base_uri": "https://localhost:8080/"
498 | },
499 | "id": "XfEhnt6QNRJt",
500 | "outputId": "3816b7a2-ea87-49f1-8988-72ef08868c9e"
501 | },
502 | "source": [
503 | "y_test_predict = reg.predict(X_test)\n",
504 | "\n",
505 | "rmse = mean_squared_error(y_test, y_test_predict)\n",
506 | "r2 = r2_score(y_test, y_test_predict)\n",
507 | "\n",
508 | "print(rmse)\n",
509 | "print(r2)"
510 | ],
511 | "execution_count": 65,
512 | "outputs": [
513 | {
514 | "output_type": "stream",
515 | "text": [
516 | "43.48926587936529\n",
517 | "0.7903633255525706\n"
518 | ],
519 | "name": "stdout"
520 | }
521 | ]
522 | }
523 | ]
524 | }
--------------------------------------------------------------------------------
/LICENSE:
--------------------------------------------------------------------------------
1 | MIT License
2 |
3 | Copyright (c) 2021 Xavier Carrera
4 |
5 | Permission is hereby granted, free of charge, to any person obtaining a copy
6 | of this software and associated documentation files (the "Software"), to deal
7 | in the Software without restriction, including without limitation the rights
8 | to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
9 | copies of the Software, and to permit persons to whom the Software is
10 | furnished to do so, subject to the following conditions:
11 |
12 | The above copyright notice and this permission notice shall be included in all
13 | copies or substantial portions of the Software.
14 |
15 | THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
16 | IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
17 | FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
18 | AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
19 | LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
20 | OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
21 | SOFTWARE.
22 |
--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
1 | # Tutorial Machine Learning: Regresión Lineal
2 |
3 | La Regresión Lineal es uno de los algoritmos clásicos de Machine Learning. Se usa para problemas como la predicción de precios o hasta para saber cuanto bajaríamos de peso.
4 |
5 | En este apunte encontrarás la explicación teorica y matemática de regresión lineal. En los apuntes, pasamos al código para ilustrar los temas cubiertos acá. Para este propósito usamos el data set de pingüinos que pertenece a la librería *Seaborn*.
6 |
7 | Si tienes alguna pregunta, no dudes en contactarme en Twitter: @XaviGrowth
8 |
9 | Nota 1: La notación para vectores es en negritas. Es decir, podrás identificar a los vectores cuando aparezcan de la siguiente manera: **y**.
10 |
11 | Nota 2: Los términos error cuadrado y error cuadrático no son diferentes.
12 |
13 | ## Introducción
14 |
15 | Muchos data sets tienen una relación linear entre sus variables. En estos casos, podemos predecir una variable usando un valor conocido. A esto lo conocemos como la **línea de mejor ajuste**. Esta línea la podemos calcular usando la siguiente ecuación:
16 |
17 | 
18 |
19 | Gráficamente se ve de la siguiente manera:
20 |
21 | 
22 |
23 | Aquí la *x* es el predictor de la variable porque será usado para precedir a *y*. A *y* la conocemos como la respuesta a la variable. Esta técnica es la regresión linear, la cual es uno de los algoritmos clásicos de machine learning.
24 |
25 | El principio fundamental de la regresión linear es que un cambio en uno o más variables del predictor generarán un cambio en la respuesta de la variable.
26 |
27 | ## 1. Regresión Linear y Estadística
28 |
29 | En principio, machine learning es estadística inferencial ya que tomamos datos históricos para extrapolar y hacer predicciones de datos futuros. La estadística es de gran utilidad para encontrar la línea de mejor ajuste. Nuestros data sets son una colección de puntos distribuidos en un gráfico de dispersión, en los cuales tenemos promedios de *x*, *y*, sus desviaciones standard y coeficientes de correlación.
30 |
31 | ### Promedios y Desviación Estándard
32 |
33 | Los promedios son simplemente la suma de *x* y *y* entre el número de elementos, en esta caso representado por *n*.
34 |
35 | Después de calcular los promedios (identificados como *x̅* y *y̅*) podemos encontrar la desviación estándard con la siguiente fórmula:
36 |
37 | 
38 |
39 | La desviación estándard no es otra cosa más que un forma de entender que tan lejos estan nuestros data points del promedio. Una desviación estándard pequeña significa que los data points están bastante cerca del promedio, mientras que una desviación estándard grande significa mayor dispersión. Por ejemplo:
40 |
41 | 
42 |
43 | Es importante recordar que la desviación estándard no mide precisión, sino variabilidad. Una desviación estándard grande no es indicador de que tengamos data points equivocados, sino que se encuentran más alejados del promedio.
44 |
45 | ### Coeficiente de Correlación
46 |
47 | Teniendo las desviaciones estándard de *x* y *y*, podemos calcular el coeficiente de correlación (identificado como *r*). Para calcularlo, tenemos que convertir *x* y *y* en unidades estándard. Usamos 1 ≤ *i* ≤ *n* para poner *xi* y *yi* en la siguiente fórmula:
48 |
49 | 
50 |
51 | Esta fórmula nos permite obtener las desviaciones estándard de *xi* y *yi* sobre la media.
52 |
53 | Hecho esto, podemos aplicar la fórmula para calcular el coeficiente de correlación tomando el promedio del producto:
54 |
55 | 
56 |
57 | Todo lo anterior puede parecer complicado. Lo que es importante recordar es que el resultado de esta fórmula va de -1 a 1 y nos indica que tan linearmente correlacionados están nuestros data points. Cuando *r* esta cerca de 0, existe poca correlación linear. Cuando *r* está cerca de 1 existe una correlación positiva. Al contrario, si *r* está cerca de -1 tenemos una correlación negativa.
58 |
59 | Por ejemplo, imagina que queremos analizar una correlación sobre bajar de peso. Supongamos que tenemos el dato de cuantos libros leen un grupo de personas. Posiblemente el coeficiente de correlación será cercano a 0 porque leer libros no tendría porque ser indicador del peso de una persona. Sin embargo, el número de horas de ejercicio podria estar cercano a 1 (entre más ejercicio hace una persona, más baja de peso) y el número de calorias que consume podría estar cercano a -1 (entre más calorias consume una persona, menos baja de peso).
60 |
61 | No te preocupes si todo esto parece complicado; solo tienes que recordar lo que cada uno de estos conceptos representa teóricamente. Los cálculos son hechos al final del día por las computadoras.
62 |
63 | Con toda esta información podemos calcular la línea de mejor ajuste. En unidades estándard se vería así: *y̅= rx̅*, donde *r* es el coeficiente de correlación. Esto se traduce a la siguiente ecuación:
64 |
65 | 
66 |
67 | La línea resultante no puede pasar por todos los data points, pero nos muestra una buena representación de todos estos. Con los valores de *xi* podemos calcular valores *yi* que son desconocidos en un principio. Sin embargo, esto solo es posible si existe una correlación linear (ya sea de 1 o -1).
68 |
69 | ## 2. Regresión Linear y Algebra Linear
70 |
71 | La algebra linear es de gran ayuda cuando trabajamos con regresión linear porque podemos desarrollar una intuición sobre como se ve la línea de mejor ajuste.
72 |
73 | En esta parte vamos a hablar sobre otra forma de calcular la línea de mejor ajuste. Sin embargo, puedes elegir si usar un método estadístico o uno algebráico para este propósito.
74 |
75 | La fórmula que hemos visto anteriormente para calcular la línea de mejor ajuste también se le conoce como la línea de regresión de mínimos cuadrados, la cual indica que la suma de los cuadrados de las distancias verticales de cada data point hacía la línea de mejor ajuste es menor en comparación a cualquier otra línea.
76 |
77 | Esto nos permite definir una función de error para cualquier línea *y = mx +b* que resulta en la suma de errores cuadráticos. Es decir, la suma del cuadrado de cada distancia vertical entre los puntos y la línea. La ecuación se ve de la siguiente manera:
78 |
79 | 
80 |
81 | Aunque lo anterior puede sonar complicado, solo tienes que recordar que la regresión de mínimos cuadrados es la distancia (o error) entre nuestros data points y nuestra línea.
82 |
83 | Por ejemplo, si tenemos una línea y cuatro puntos distanciados por valores 3, 5, 2 y 2. En esta caso solo tenemos que llevarlos al cuadrado.
84 |
85 | 
86 |
87 | Es decir, 9, 25, 4 y 4 respectívamente. Al final solo hay que sumarlos todos para que nos de un resultado de 42.
88 |
89 | No olvides que esto es otra manera de calcular la línea de mejor ajuste. Suponiendo que tenemos un conjunto de puntos *(x1, y1),(x2,y2),...(xn,yn)*, tendríamos que derivar una formula para obtener la línea de mínimos cuadrados. Una primera aproximación sería poner nuestros puntos en términos de vectores. Es decir, **x** es igual a:
90 |
91 | [m]
92 | [b]
93 |
94 | Ahora definiriamos una matriz A en *n* × 2. Por 1 ≤ i ≤ n en la fila número *i* contedrá *xi* en la primera columna y 1 en la segunda.
95 |
96 | Veamos ahora este vector de A:
97 |
98 | [*x1 1*]
99 | [*x2 1*]
100 | [ ... ]
101 | [xn 1 ]
102 |
103 | El vector *A* **x** contendrá valores que la línea representada por **x** predecirá por cada valor *x* en nuestro data set. Es decir, calcular *A* **x** es nutrir el valor *x* de cada punto representado por **x**.
104 |
105 | Como resultado, si definimos un vector **b** para que esté en el elemento número *i* tendremos como resultado *yi*. De esta forma podemos encontrar la distancia vertical entre cada punto y el valor *y* predecido por restar **b** a *A* **x**.
106 |
107 | Así podemos encontrar la suma de errores cuadráticos al llevar al cuadrado individualmente cada valor dentro de *A* **x** - **b** y añadiéndolos todos. En fórmula la veríamos así:
108 |
109 | = ||*AX* - b||²
110 |
111 | Por ejemplo, digamos que tenemos una serie de números (1, 0), (3,4), (2,3). Aquí *m* = 3 (número de datos) y *b* = 2 (promedio).
112 |
113 | Empecemos armando la matriz que se vería así:
114 |
115 | [1 1]
116 | [3 1]
117 | [2 1]
118 |
119 | Podemos predecir los valores de *y* al predecir la linea de cada valor *x* calculando *Ax*:
120 |
121 | [1 1]
122 | = [3 1] [3]
123 | [2 1] [2]
124 |
125 | [1 ⋅ 3 + 1 ⋅ 2]
126 | = [3 ⋅ 3 + 1 ⋅ 2]
127 | [2 ⋅ 3 + 1 ⋅ 2]
128 |
129 | [5]
130 | = [11]
131 | [8]
132 |
133 | Ahora incluimos a *b* con los valores y:
134 |
135 | [0]
136 | = [4]
137 | [3]
138 |
139 | Todo junto, podríamos caclular la suma de errores cuadráticos de la siguiente manera:
140 |
141 | = ||*AX* - b||²
142 |
143 | ||[5] [0]||²
144 | = ||[11] - [4]||
145 | ||[8] [3]||
146 |
147 | ||[5]||²
148 | = ||[7]||
149 | ||[5]||
150 |
151 | = 5² + 7² + 5²
152 |
153 | = 99
154 |
155 | Hay que tomar en cuenta que al minimizar ||*A* **x** - **b**||, también estamos minimizano la distancia entre *A* **x** y **b** dado que minimizar la distancia a un cuadrado positivo minimiza también los valores.
156 |
157 | Si has tenido problemas para entender esta última parte, no te preocupes. Repasar un poco de algebra lineal puede ayudarte a desarrollar un instinto para entender como se forman las líneas de mejor ajuste.
158 |
159 | De momento quédate con que esto nos ayudará despues a entender que tan bien nuestro modelo de machine learning predice datos desconocidos.
160 |
161 | ## 3. Regresión en Alta Dimensionalidad
162 |
163 | Aunque hasta el momento hemos trabajado solo con matrices bidimensionales, la realidad es que en la mayoría de los casos nos enfrentaremos a datasets multidimensionales. Sin embargo, la regresión de cuadrados mínimos es muy buena para generalizar en alta dimensionalidad.
164 |
165 | En esta caso, si tenemos variables predictoras [*x1, x2, ...., xp*] y una variable de respuesta *y*, entonces la ecuación linear que produce *y* se vería así:
166 |
167 | *y = m1x1 + m2x2 + ... + mp xp +b*
168 |
169 | Lo que intentamos hacer acá es una fórmula para la línea de mejor ajuste para nuestra regresión lineal en alta dimensionalidad. Pero en este caso, no obtenemos una línea de mejor ajuste sino un hiperplano de mejor ajuste.
170 |
171 | Podemos crear una matriz *A* que cuando se multiplica con **x** resulta en un vector conteniendo el valor predecido de *y* de cada data point:
172 |
173 | [m1]
174 | [m2]
175 | [..]
176 | [mp]
177 | [b ]
178 |
179 | Para producir alta dimensionalidad necesitamos solo añadir una columna más a cada variable predictor. En un dataset con *n* data points y variables predictoras *p*:
180 |
181 |
182 | [*x11 x12 ... x1p 1]
183 | [x21 x22 ... x2p 1]
184 | [ ... ... ]
185 | [xn1 xn2 ... xnp 1]
186 |
187 | De esta forma inicializamos el vector **b** para contener valores y los valores *y* de cada data point.
188 |
189 | Resulta ser que de este punto en la derivación es exáctamente lo mismo que antes. Tenemos un vector **x** por cada *A* **x** que está tan cerca como sea posible de *b*.
190 |
191 | De esta forma, los elementos en **x** tendrán el valor de coeficientes del hiperplano de mejor ajuste.
192 |
193 | En este punto podemos encontrar el hiperplano de mejor ajuste para cualquier dataset, siempre que haya más datapoints que predictores. Pero también puede pasar que los data points sean muy predecibles pero no en una forma linear. En este caso, solo tenemos que añadir nuevos términos no-lineares a nuestra función y actualizar nuestras formulas. Lo anterior se hace añadiendo exponentes a nuestras variables predictoras, dando como resultado una regresión polinomial.
194 |
195 | 
196 |
197 | Por ejemplo, si tuvieramos una variables predictora *x* y una variable a predecir *y* solo tendríamos que representar *y* para representar un polinomio de segundo grado de *x*. Es decir, en vez de representar una línea de mejor ajuste como:
198 |
199 | *y = mx + b*
200 |
201 | lo que haríamos es representarlo como un mejor ajuste polinomial:
202 |
203 | *y = m1x² + m2x + b*
204 |
205 | En muchas formas, es lo mismo que crear otra variable predictora. Todo lo que hemos hecho es tomar cada punto en nuestro dataset y añadir otro valor x². Después de esto, podemos calcular el coeficiente como lo hacemos normalmente en una regresión linear de alta dimensionalidad.
206 |
207 | ## 4. Limitaciones de Regresión Linear
208 |
209 | Aunque la regresión linear es una herramienta poderosa de machine learning, solo puede ser utilizada si hay una relación linear obvia. Pero este no es el caso cuando si tenemos una variable a predecir que no obedece a una variable predictora.
210 |
211 | ### Outliers
212 |
213 | Otro factor que puede limitar el uso de regresión linear son los outliers. Estos son elementos en nuestro dataset que son muy distintos al resto de nuestros data points. Un outlier bastante alejado de nuestro data set podría afectar la línea de mejor ajuste. Este es un ejemplo de detección de outliers en una gráfica de caja:
214 |
215 | 
216 |
217 | Por lo general, los outliers son simplemente excluidos del resto de elementos que se encuentran distantes a ellos. Un método más complicado es modelar los datos y luego excluir data points que contribuyan de más a calcular el error.
218 |
219 | Sin embargo, no debemos olvidar que estos data points podrían tener información valiosa. Hay que tener cuidado si decidimos excluirlos.
220 |
221 | ### Multicolinealidad
222 |
223 | A multicolinealidad la conocemos cuando hay demasiadas variables que parecen estar fuertemente relacionadas. La mayor preocupación en este punto es que la multicolinealidad puede resultar en múltiples ecuaciones para encontrar el mejor ajuste y que su regresión de cuadrados mínimos produce resultados inestables. Es decir, podríamos tener problemas al extrapolar en situaciones en las que no hay tanta multicolinealidad.
224 |
225 | Además, se vuelve más difícil medir el impacto de cada variable predictora en el valor a predecir. También podemos caer en una situación en la que con tantos valores predictores, nuestra regresión linear se especialice en un data set pero tenga problemas para predecir valores nuevos. Hay que recordar que el nombre del juego en este caso es **generalizar**.
226 |
227 | ### Heterocedasticidad
228 |
229 | Otro caso que limita el uso de regresión linear es la popiedad de heterocedasticidad, la cual produce grandes diferencias en las desviaciones estándard. Esto puede causar que algunos data points tengán un peso desproporcionado al calcular su importancia en las regresiones. En la siguiente imagen podemos ver la heterocedasticidad en la distancia entre puntos y la línea de mejor ajuste:
230 |
231 | 
232 |
233 | ### Sobreajuste
234 |
235 | El sobreajuste es probablemente el problema más común cuando utilizamos regresión linear. En estos casos los errores entre los data points tienen un gran efecto en la ecuación de mejor ajuste. Como mencionamos antes, un modelo sobreajustado se desempeña bien en los datos usados para entrenar un modelo. Sin embargo, no será tan bueno para entrenarse con datos nuevos. Variables que no explican el fenómeno en cuestión puden tener demasiado peso, lo que puede dar resultados inesperados.
236 |
237 | ## 5. Alternativas a la Regresión Linear
238 |
239 | Aunque la regresión linear de mínimos cuadrados es la forma más común de regresión, hay muchas otras variantes que pueden resolver problemas similares. A continuación veremos algunas de ellas.
240 |
241 | ### Regresión de Ridge
242 |
243 | Esta es similar a la regresión linear, con la diferencia que modifica un poco la función de error. Para la regresión linear usamos la suma de errores cuadrados como una métrica de desempeño. En ridge el objetivo es minimizar los valores cuadrados de los coeficientes también.
244 |
245 | ### Lasso
246 |
247 | Lasso es muy similar a Ridge. Este también penaliza los coeficientes en la función de erros, pero lo hace basado en el tamaño linear en vez del tamaño cuadrado.
248 |
249 | ### Comparasión Ridge vs Lasso
250 |
251 | Una forma fácil de entender los usos de los errores cuadrados en Ridge y Lasso es cuando hay dos variables predictoras como se muestra en la siguiente imagen. Los ejes *x* y *y* representan los valores del coeficiente en un plano de mejor ajuste y las elipses todos los pares de coeficientes que producen cierto valor de la suma de errores cuadrados. A medida que la suma del error cuadrado aumenta, las elipses se hacen más grandes.
252 |
253 | 
254 |
255 | En la izquierda tenemos un rombo que representa los valores del coeficiente permitidos por Lasso y el círculo los permitidos por Ridge.
256 |
257 | Debido a que ambas regresiones buscan minimizar la suma de errores cuadráticos mientras permanecen en su espacio de coeficientes permitibles. Esto significa que el par de valores seleccionados para ser coeficientes estarán en la elipse más pequeña que intersecta con el diamante o el círculo en los diagramas.
258 |
259 | Es decir, la elipse iniciará con la suma de errores cuadrados más pequeña y crecerá hasta que tope con alguna de las formas. Este será el pico de los coeficientes.
260 |
261 | Al ver el diagrama, queda claro que si la elipsis se expande hacia el círculo, es improbable que tope con un punto donde el coeficiente sea cero. Pero al expandirse hacia el rombo, hay buenas posibilidades de que tope con uno de los vértices en el eje *x* o *y*. De esta manera podemos ver que Lasso difiere de Ridge dado que puede reducir el coeficiente a cero.
262 |
263 | En la práctica, ambas regresiones se comportan de forma muy similar. Pero dado que Lasso puede reducir lo pesos de las variables predictoras a cero, puede distinguir entre variables predictoras. Esta es una buena solución cuando tenemos el riesgo de caer en sobreajustar nuestro modelo.
264 |
265 | Sin embargo, ambas regresiones penalizan la línea de mejor ajuste al tener coeficientes más grandes. Con esto podemos producir ecuaciones que hacen un uso mínimo de las variables predictoras para que impacten lo menos posible los resultados.
266 |
267 | Podemos imaginar todo esto como que Ridge y Lassos tienen recursos limitados, por lo que dan pesos importantes solo a las variables importantes.
268 |
269 | ### Regresión de K Vecinos Más Próximos
270 |
271 | Los K-Vecinos Más Próximos (KNN por sus siglas en inglés) son otra forma de medir la regresión linear. Como en casos pasados, necesitamos pares de variables predictoras **xi** que resulta en un variable *yi*. Con esto podemos predecir el valor resultante de una variable *y* desde el vector de la variable predictora **x**.
272 |
273 | Para hacer una predicción desde **x**, graficamos **xi** en nuestro dataset y seleccionamos puntos *k* que están geométricamente cercanos a **x**. La estimación de la regressión KNN nos da un promedio de los valores resultantes.
274 |
275 | Una propiedad poderosa de KNN es que hace pocas suposiciones sobre los datasets en el que se construye. Mientras la regresión linear asume que hay relaciones lineares, la regresión KNN puede acomodarse a casi cualquier problema.
276 |
277 | Además de que al ajustar el valor *k*, podemos cambiar la flexibilidad de la regresión KNN. Si tomamos incluso la menor de las tendencias, podemos usar el valor *k* más pequeño. Por el otro lado, los valores *k* más grandes eliminarán las desviaciones pequeñas en favor de tendencias grandes.
278 |
279 | Considera la siguiente regresión:
280 |
281 | 
282 |
283 | Tenemos un nuevo punto en *y* cada que en *x* tenemos un valor predictor de 3.5 y un valor de 2 para *k*. Recordando que tomamos nuestro valor *k* más cercano a **x** y el promedio de sus valores resultantes, estamos buscando dos puntos cercanos a *x* = 3.5. Al ver la gráfica, notamos que estos puntos son *x* = 3 y *x* = 4.
284 |
285 | Estos puntos corresponden con las variables resultantes *y* = 9 y *y* = *16*, por lo que nuestra predicción es el promedio entre 9 y 16. Es decir, 12.
286 |
--------------------------------------------------------------------------------
/img/.gitkeep:
--------------------------------------------------------------------------------
1 |
2 |
--------------------------------------------------------------------------------
/img/correlacion.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XavierCarrera/Tutorial-Machine-Learning-Regresion-Lineal/a797c234b8e0e139b6ba4a9a31248ca9a2b2a007/img/correlacion.png
--------------------------------------------------------------------------------
/img/correlacion_1.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XavierCarrera/Tutorial-Machine-Learning-Regresion-Lineal/a797c234b8e0e139b6ba4a9a31248ca9a2b2a007/img/correlacion_1.png
--------------------------------------------------------------------------------
/img/correlacion_3.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XavierCarrera/Tutorial-Machine-Learning-Regresion-Lineal/a797c234b8e0e139b6ba4a9a31248ca9a2b2a007/img/correlacion_3.png
--------------------------------------------------------------------------------
/img/correlación_2.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XavierCarrera/Tutorial-Machine-Learning-Regresion-Lineal/a797c234b8e0e139b6ba4a9a31248ca9a2b2a007/img/correlación_2.png
--------------------------------------------------------------------------------
/img/distribucion_normal.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XavierCarrera/Tutorial-Machine-Learning-Regresion-Lineal/a797c234b8e0e139b6ba4a9a31248ca9a2b2a007/img/distribucion_normal.png
--------------------------------------------------------------------------------
/img/hetero.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XavierCarrera/Tutorial-Machine-Learning-Regresion-Lineal/a797c234b8e0e139b6ba4a9a31248ca9a2b2a007/img/hetero.png
--------------------------------------------------------------------------------
/img/hiperplano.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XavierCarrera/Tutorial-Machine-Learning-Regresion-Lineal/a797c234b8e0e139b6ba4a9a31248ca9a2b2a007/img/hiperplano.png
--------------------------------------------------------------------------------
/img/outliers.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XavierCarrera/Tutorial-Machine-Learning-Regresion-Lineal/a797c234b8e0e139b6ba4a9a31248ca9a2b2a007/img/outliers.png
--------------------------------------------------------------------------------
/img/suma_errores_cuadrados.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XavierCarrera/Tutorial-Machine-Learning-Regresion-Lineal/a797c234b8e0e139b6ba4a9a31248ca9a2b2a007/img/suma_errores_cuadrados.png
--------------------------------------------------------------------------------