├── README.md
├── .ipynb_checkpoints
    ├── README-checkpoint.md
    ├── MultivariateRegression-checkpoint.ipynb
    └── homeprices-checkpoint.csv
├── Exercise
    ├── .ipynb_checkpoints
    │   ├── Hiring-checkpoint.ipynb
    │   └── hiring-checkpoint.csv
    ├── hiring.csv
    └── Hiring.ipynb
├── homeprices.csv
└── MultivariateRegression.ipynb


/README.md:
--------------------------------------------------------------------------------
1 | # Multivariate Regression
2 | 
3 | This is a repository for practicing Multivariate Regression.


--------------------------------------------------------------------------------
/.ipynb_checkpoints/README-checkpoint.md:
--------------------------------------------------------------------------------
1 | # Multivariate Regression
2 | 
3 | This is a repository for practicing Multivariate Regression.


--------------------------------------------------------------------------------
/Exercise/.ipynb_checkpoints/Hiring-checkpoint.ipynb:
--------------------------------------------------------------------------------
1 | {
2 |  "cells": [],
3 |  "metadata": {},
4 |  "nbformat": 4,
5 |  "nbformat_minor": 5
6 | }
7 | 


--------------------------------------------------------------------------------
/.ipynb_checkpoints/MultivariateRegression-checkpoint.ipynb:
--------------------------------------------------------------------------------
1 | {
2 |  "cells": [],
3 |  "metadata": {},
4 |  "nbformat": 4,
5 |  "nbformat_minor": 5
6 | }
7 | 


--------------------------------------------------------------------------------
/homeprices.csv:
--------------------------------------------------------------------------------
1 | area,bedrooms,age,price
2 | 2600,3,20,550000
3 | 3000,4,15,565000
4 | 3200,,18,610000
5 | 3600,3,30,595000
6 | 4000,5,8,760000
7 | 4100,6,8,810000
8 | 


--------------------------------------------------------------------------------
/.ipynb_checkpoints/homeprices-checkpoint.csv:
--------------------------------------------------------------------------------
1 | area,bedrooms,age,price
2 | 2600,3,20,550000
3 | 3000,4,15,565000
4 | 3200,,18,610000
5 | 3600,3,30,595000
6 | 4000,5,8,760000
7 | 4100,6,8,810000
8 | 


--------------------------------------------------------------------------------
/Exercise/hiring.csv:
--------------------------------------------------------------------------------
 1 | experience,test_score(out of 10),interview_score(out of 10),salary($)
 2 | ,8,9,50000
 3 | ,8,6,45000
 4 | five,6,7,60000
 5 | two,10,10,65000
 6 | seven,9,6,70000
 7 | three,7,10,62000
 8 | ten,,7,72000
 9 | eleven,7,8,80000
10 | 


--------------------------------------------------------------------------------
/Exercise/.ipynb_checkpoints/hiring-checkpoint.csv:
--------------------------------------------------------------------------------
 1 | experience,test_score(out of 10),interview_score(out of 10),salary($)
 2 | ,8,9,50000
 3 | ,8,6,45000
 4 | five,6,7,60000
 5 | two,10,10,65000
 6 | seven,9,6,70000
 7 | three,7,10,62000
 8 | ten,,7,72000
 9 | eleven,7,8,80000
10 | 


--------------------------------------------------------------------------------
/MultivariateRegression.ipynb:
--------------------------------------------------------------------------------
  1 | {
  2 |  "cells": [
  3 |   {
  4 |    "cell_type": "markdown",
  5 |    "id": "163bb9db-1f10-4f7d-8704-44516220ba9d",
  6 |    "metadata": {},
  7 |    "source": [
  8 |     "## Import Modules"
  9 |    ]
 10 |   },
 11 |   {
 12 |    "cell_type": "code",
 13 |    "execution_count": 1,
 14 |    "id": "0162937c-2be6-43a6-abaf-b41d10c1da6d",
 15 |    "metadata": {},
 16 |    "outputs": [],
 17 |    "source": [
 18 |     "import numpy as np\n",
 19 |     "import pandas as pd\n",
 20 |     "import matplotlib.pyplot as plt\n",
 21 |     "from sklearn import linear_model"
 22 |    ]
 23 |   },
 24 |   {
 25 |    "cell_type": "markdown",
 26 |    "id": "c07135e1-0c4c-48c6-b9ab-c6d6619ee9cc",
 27 |    "metadata": {},
 28 |    "source": [
 29 |     "## Loading the data to Dataframe"
 30 |    ]
 31 |   },
 32 |   {
 33 |    "cell_type": "code",
 34 |    "execution_count": 2,
 35 |    "id": "6f78a703-4a18-4e70-a1eb-a3a6c3b7674f",
 36 |    "metadata": {},
 37 |    "outputs": [
 38 |     {
 39 |      "data": {
 40 |       "text/html": [
 41 |        "<div>\n",
 42 |        "<style scoped>\n",
 43 |        "    .dataframe tbody tr th:only-of-type {\n",
 44 |        "        vertical-align: middle;\n",
 45 |        "    }\n",
 46 |        "\n",
 47 |        "    .dataframe tbody tr th {\n",
 48 |        "        vertical-align: top;\n",
 49 |        "    }\n",
 50 |        "\n",
 51 |        "    .dataframe thead th {\n",
 52 |        "        text-align: right;\n",
 53 |        "    }\n",
 54 |        "</style>\n",
 55 |        "<table border=\"1\" class=\"dataframe\">\n",
 56 |        "  <thead>\n",
 57 |        "    <tr style=\"text-align: right;\">\n",
 58 |        "      <th></th>\n",
 59 |        "      <th>area</th>\n",
 60 |        "      <th>bedrooms</th>\n",
 61 |        "      <th>age</th>\n",
 62 |        "      <th>price</th>\n",
 63 |        "    </tr>\n",
 64 |        "  </thead>\n",
 65 |        "  <tbody>\n",
 66 |        "    <tr>\n",
 67 |        "      <th>0</th>\n",
 68 |        "      <td>2600</td>\n",
 69 |        "      <td>3.0</td>\n",
 70 |        "      <td>20</td>\n",
 71 |        "      <td>550000</td>\n",
 72 |        "    </tr>\n",
 73 |        "    <tr>\n",
 74 |        "      <th>1</th>\n",
 75 |        "      <td>3000</td>\n",
 76 |        "      <td>4.0</td>\n",
 77 |        "      <td>15</td>\n",
 78 |        "      <td>565000</td>\n",
 79 |        "    </tr>\n",
 80 |        "    <tr>\n",
 81 |        "      <th>2</th>\n",
 82 |        "      <td>3200</td>\n",
 83 |        "      <td>NaN</td>\n",
 84 |        "      <td>18</td>\n",
 85 |        "      <td>610000</td>\n",
 86 |        "    </tr>\n",
 87 |        "    <tr>\n",
 88 |        "      <th>3</th>\n",
 89 |        "      <td>3600</td>\n",
 90 |        "      <td>3.0</td>\n",
 91 |        "      <td>30</td>\n",
 92 |        "      <td>595000</td>\n",
 93 |        "    </tr>\n",
 94 |        "    <tr>\n",
 95 |        "      <th>4</th>\n",
 96 |        "      <td>4000</td>\n",
 97 |        "      <td>5.0</td>\n",
 98 |        "      <td>8</td>\n",
 99 |        "      <td>760000</td>\n",
100 |        "    </tr>\n",
101 |        "    <tr>\n",
102 |        "      <th>5</th>\n",
103 |        "      <td>4100</td>\n",
104 |        "      <td>6.0</td>\n",
105 |        "      <td>8</td>\n",
106 |        "      <td>810000</td>\n",
107 |        "    </tr>\n",
108 |        "  </tbody>\n",
109 |        "</table>\n",
110 |        "</div>"
111 |       ],
112 |       "text/plain": [
113 |        "   area  bedrooms  age   price\n",
114 |        "0  2600       3.0   20  550000\n",
115 |        "1  3000       4.0   15  565000\n",
116 |        "2  3200       NaN   18  610000\n",
117 |        "3  3600       3.0   30  595000\n",
118 |        "4  4000       5.0    8  760000\n",
119 |        "5  4100       6.0    8  810000"
120 |       ]
121 |      },
122 |      "execution_count": 2,
123 |      "metadata": {},
124 |      "output_type": "execute_result"
125 |     }
126 |    ],
127 |    "source": [
128 |     "df = pd.read_csv('homeprices.csv')\n",
129 |     "df"
130 |    ]
131 |   },
132 |   {
133 |    "cell_type": "markdown",
134 |    "id": "672f3fd9-40b8-4823-9f22-5e1252b5534b",
135 |    "metadata": {},
136 |    "source": [
137 |     "## Data Preprocessing"
138 |    ]
139 |   },
140 |   {
141 |    "cell_type": "markdown",
142 |    "id": "36119832-5df3-480e-8177-0b6e3273e115",
143 |    "metadata": {},
144 |    "source": [
145 |     "#### Fill NaN values with the median of the column"
146 |    ]
147 |   },
148 |   {
149 |    "cell_type": "code",
150 |    "execution_count": 3,
151 |    "id": "c867e803-f11d-44b5-8a3e-db1d96490d90",
152 |    "metadata": {},
153 |    "outputs": [
154 |     {
155 |      "data": {
156 |       "text/plain": [
157 |        "4.0"
158 |       ]
159 |      },
160 |      "execution_count": 3,
161 |      "metadata": {},
162 |      "output_type": "execute_result"
163 |     }
164 |    ],
165 |    "source": [
166 |     "df.bedrooms.median()"
167 |    ]
168 |   },
169 |   {
170 |    "cell_type": "code",
171 |    "execution_count": 4,
172 |    "id": "0787912e-d584-4dad-bc5c-c86cb7cd3f80",
173 |    "metadata": {},
174 |    "outputs": [
175 |     {
176 |      "data": {
177 |       "text/html": [
178 |        "<div>\n",
179 |        "<style scoped>\n",
180 |        "    .dataframe tbody tr th:only-of-type {\n",
181 |        "        vertical-align: middle;\n",
182 |        "    }\n",
183 |        "\n",
184 |        "    .dataframe tbody tr th {\n",
185 |        "        vertical-align: top;\n",
186 |        "    }\n",
187 |        "\n",
188 |        "    .dataframe thead th {\n",
189 |        "        text-align: right;\n",
190 |        "    }\n",
191 |        "</style>\n",
192 |        "<table border=\"1\" class=\"dataframe\">\n",
193 |        "  <thead>\n",
194 |        "    <tr style=\"text-align: right;\">\n",
195 |        "      <th></th>\n",
196 |        "      <th>area</th>\n",
197 |        "      <th>bedrooms</th>\n",
198 |        "      <th>age</th>\n",
199 |        "      <th>price</th>\n",
200 |        "    </tr>\n",
201 |        "  </thead>\n",
202 |        "  <tbody>\n",
203 |        "    <tr>\n",
204 |        "      <th>0</th>\n",
205 |        "      <td>2600</td>\n",
206 |        "      <td>3.0</td>\n",
207 |        "      <td>20</td>\n",
208 |        "      <td>550000</td>\n",
209 |        "    </tr>\n",
210 |        "    <tr>\n",
211 |        "      <th>1</th>\n",
212 |        "      <td>3000</td>\n",
213 |        "      <td>4.0</td>\n",
214 |        "      <td>15</td>\n",
215 |        "      <td>565000</td>\n",
216 |        "    </tr>\n",
217 |        "    <tr>\n",
218 |        "      <th>2</th>\n",
219 |        "      <td>3200</td>\n",
220 |        "      <td>4.0</td>\n",
221 |        "      <td>18</td>\n",
222 |        "      <td>610000</td>\n",
223 |        "    </tr>\n",
224 |        "    <tr>\n",
225 |        "      <th>3</th>\n",
226 |        "      <td>3600</td>\n",
227 |        "      <td>3.0</td>\n",
228 |        "      <td>30</td>\n",
229 |        "      <td>595000</td>\n",
230 |        "    </tr>\n",
231 |        "    <tr>\n",
232 |        "      <th>4</th>\n",
233 |        "      <td>4000</td>\n",
234 |        "      <td>5.0</td>\n",
235 |        "      <td>8</td>\n",
236 |        "      <td>760000</td>\n",
237 |        "    </tr>\n",
238 |        "    <tr>\n",
239 |        "      <th>5</th>\n",
240 |        "      <td>4100</td>\n",
241 |        "      <td>6.0</td>\n",
242 |        "      <td>8</td>\n",
243 |        "      <td>810000</td>\n",
244 |        "    </tr>\n",
245 |        "  </tbody>\n",
246 |        "</table>\n",
247 |        "</div>"
248 |       ],
249 |       "text/plain": [
250 |        "   area  bedrooms  age   price\n",
251 |        "0  2600       3.0   20  550000\n",
252 |        "1  3000       4.0   15  565000\n",
253 |        "2  3200       4.0   18  610000\n",
254 |        "3  3600       3.0   30  595000\n",
255 |        "4  4000       5.0    8  760000\n",
256 |        "5  4100       6.0    8  810000"
257 |       ]
258 |      },
259 |      "execution_count": 4,
260 |      "metadata": {},
261 |      "output_type": "execute_result"
262 |     }
263 |    ],
264 |    "source": [
265 |     "df.bedrooms = df.bedrooms.fillna(df.bedrooms.median())\n",
266 |     "df"
267 |    ]
268 |   },
269 |   {
270 |    "cell_type": "markdown",
271 |    "id": "ef5a5b21-ad7f-4b7a-95b5-111dc8fa6169",
272 |    "metadata": {},
273 |    "source": [
274 |     "## Creating Linear Regression Object"
275 |    ]
276 |   },
277 |   {
278 |    "cell_type": "code",
279 |    "execution_count": 7,
280 |    "id": "7394b82a-d646-4c18-9e6f-67ec32ff216d",
281 |    "metadata": {},
282 |    "outputs": [
283 |     {
284 |      "data": {
285 |       "text/html": [
286 |        "<style>#sk-container-id-3 {color: black;}#sk-container-id-3 pre{padding: 0;}#sk-container-id-3 div.sk-toggleable {background-color: white;}#sk-container-id-3 label.sk-toggleable__label {cursor: pointer;display: block;width: 100%;margin-bottom: 0;padding: 0.3em;box-sizing: border-box;text-align: center;}#sk-container-id-3 label.sk-toggleable__label-arrow:before {content: \"▸\";float: left;margin-right: 0.25em;color: #696969;}#sk-container-id-3 label.sk-toggleable__label-arrow:hover:before {color: black;}#sk-container-id-3 div.sk-estimator:hover label.sk-toggleable__label-arrow:before {color: black;}#sk-container-id-3 div.sk-toggleable__content {max-height: 0;max-width: 0;overflow: hidden;text-align: left;background-color: #f0f8ff;}#sk-container-id-3 div.sk-toggleable__content pre {margin: 0.2em;color: black;border-radius: 0.25em;background-color: #f0f8ff;}#sk-container-id-3 input.sk-toggleable__control:checked~div.sk-toggleable__content {max-height: 200px;max-width: 100%;overflow: auto;}#sk-container-id-3 input.sk-toggleable__control:checked~label.sk-toggleable__label-arrow:before {content: \"▾\";}#sk-container-id-3 div.sk-estimator input.sk-toggleable__control:checked~label.sk-toggleable__label {background-color: #d4ebff;}#sk-container-id-3 div.sk-label input.sk-toggleable__control:checked~label.sk-toggleable__label {background-color: #d4ebff;}#sk-container-id-3 input.sk-hidden--visually {border: 0;clip: rect(1px 1px 1px 1px);clip: rect(1px, 1px, 1px, 1px);height: 1px;margin: -1px;overflow: hidden;padding: 0;position: absolute;width: 1px;}#sk-container-id-3 div.sk-estimator {font-family: monospace;background-color: #f0f8ff;border: 1px dotted black;border-radius: 0.25em;box-sizing: border-box;margin-bottom: 0.5em;}#sk-container-id-3 div.sk-estimator:hover {background-color: #d4ebff;}#sk-container-id-3 div.sk-parallel-item::after {content: \"\";width: 100%;border-bottom: 1px solid gray;flex-grow: 1;}#sk-container-id-3 div.sk-label:hover label.sk-toggleable__label {background-color: #d4ebff;}#sk-container-id-3 div.sk-serial::before {content: \"\";position: absolute;border-left: 1px solid gray;box-sizing: border-box;top: 0;bottom: 0;left: 50%;z-index: 0;}#sk-container-id-3 div.sk-serial {display: flex;flex-direction: column;align-items: center;background-color: white;padding-right: 0.2em;padding-left: 0.2em;position: relative;}#sk-container-id-3 div.sk-item {position: relative;z-index: 1;}#sk-container-id-3 div.sk-parallel {display: flex;align-items: stretch;justify-content: center;background-color: white;position: relative;}#sk-container-id-3 div.sk-item::before, #sk-container-id-3 div.sk-parallel-item::before {content: \"\";position: absolute;border-left: 1px solid gray;box-sizing: border-box;top: 0;bottom: 0;left: 50%;z-index: -1;}#sk-container-id-3 div.sk-parallel-item {display: flex;flex-direction: column;z-index: 1;position: relative;background-color: white;}#sk-container-id-3 div.sk-parallel-item:first-child::after {align-self: flex-end;width: 50%;}#sk-container-id-3 div.sk-parallel-item:last-child::after {align-self: flex-start;width: 50%;}#sk-container-id-3 div.sk-parallel-item:only-child::after {width: 0;}#sk-container-id-3 div.sk-dashed-wrapped {border: 1px dashed gray;margin: 0 0.4em 0.5em 0.4em;box-sizing: border-box;padding-bottom: 0.4em;background-color: white;}#sk-container-id-3 div.sk-label label {font-family: monospace;font-weight: bold;display: inline-block;line-height: 1.2em;}#sk-container-id-3 div.sk-label-container {text-align: center;}#sk-container-id-3 div.sk-container {/* jupyter's `normalize.less` sets `[hidden] { display: none; }` but bootstrap.min.css set `[hidden] { display: none !important; }` so we also need the `!important` here to be able to override the default hidden behavior on the sphinx rendered scikit-learn.org. See: https://github.com/scikit-learn/scikit-learn/issues/21755 */display: inline-block !important;position: relative;}#sk-container-id-3 div.sk-text-repr-fallback {display: none;}</style><div id=\"sk-container-id-3\" class=\"sk-top-container\"><div class=\"sk-text-repr-fallback\"><pre>LinearRegression()</pre><b>In a Jupyter environment, please rerun this cell to show the HTML representation or trust the notebook. <br />On GitHub, the HTML representation is unable to render, please try loading this page with nbviewer.org.</b></div><div class=\"sk-container\" hidden><div class=\"sk-item\"><div class=\"sk-estimator sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"sk-estimator-id-3\" type=\"checkbox\" checked><label for=\"sk-estimator-id-3\" class=\"sk-toggleable__label sk-toggleable__label-arrow\">LinearRegression</label><div class=\"sk-toggleable__content\"><pre>LinearRegression()</pre></div></div></div></div></div>"
287 |       ],
288 |       "text/plain": [
289 |        "LinearRegression()"
290 |       ]
291 |      },
292 |      "execution_count": 7,
293 |      "metadata": {},
294 |      "output_type": "execute_result"
295 |     }
296 |    ],
297 |    "source": [
298 |     "reg = linear_model.LinearRegression()\n",
299 |     "reg.fit(df.drop('price', axis = 'columns'), df.price)"
300 |    ]
301 |   },
302 |   {
303 |    "cell_type": "code",
304 |    "execution_count": 9,
305 |    "id": "eb5e418d-7a33-4d5f-8756-e6d80da868ab",
306 |    "metadata": {},
307 |    "outputs": [
308 |     {
309 |      "data": {
310 |       "text/plain": [
311 |        "array([  112.06244194, 23388.88007794, -3231.71790863])"
312 |       ]
313 |      },
314 |      "execution_count": 9,
315 |      "metadata": {},
316 |      "output_type": "execute_result"
317 |     }
318 |    ],
319 |    "source": [
320 |     "reg.coef_"
321 |    ]
322 |   },
323 |   {
324 |    "cell_type": "code",
325 |    "execution_count": 10,
326 |    "id": "bc32ab26-ac1b-4bd2-8b66-7f4d6d8c9bb9",
327 |    "metadata": {},
328 |    "outputs": [
329 |     {
330 |      "data": {
331 |       "text/plain": [
332 |        "221323.00186540408"
333 |       ]
334 |      },
335 |      "execution_count": 10,
336 |      "metadata": {},
337 |      "output_type": "execute_result"
338 |     }
339 |    ],
340 |    "source": [
341 |     "reg.intercept_"
342 |    ]
343 |   },
344 |   {
345 |    "cell_type": "markdown",
346 |    "id": "4c327650-3712-4046-a60c-6c56ed6bbfb3",
347 |    "metadata": {},
348 |    "source": [
349 |     "#### Find price of home with 3000 sqr ft area, 3 bedrooms, 40 year old"
350 |    ]
351 |   },
352 |   {
353 |    "cell_type": "code",
354 |    "execution_count": 11,
355 |    "id": "b70e39de-ffec-4010-b652-dd0d5dae3a36",
356 |    "metadata": {},
357 |    "outputs": [
358 |     {
359 |      "name": "stderr",
360 |      "output_type": "stream",
361 |      "text": [
362 |       "/opt/homebrew/lib/python3.11/site-packages/sklearn/base.py:464: UserWarning: X does not have valid feature names, but LinearRegression was fitted with feature names\n",
363 |       "  warnings.warn(\n"
364 |      ]
365 |     },
366 |     {
367 |      "data": {
368 |       "text/plain": [
369 |        "array([498408.25158031])"
370 |       ]
371 |      },
372 |      "execution_count": 11,
373 |      "metadata": {},
374 |      "output_type": "execute_result"
375 |     }
376 |    ],
377 |    "source": [
378 |     "reg.predict([[3000,3,40]])"
379 |    ]
380 |   },
381 |   {
382 |    "cell_type": "markdown",
383 |    "id": "21510c85-a29d-47ea-ad13-a66714966e0f",
384 |    "metadata": {},
385 |    "source": [
386 |     "#### Find price of home with 2500 sqr ft area, 4 bedrooms, 5 year old"
387 |    ]
388 |   },
389 |   {
390 |    "cell_type": "code",
391 |    "execution_count": 12,
392 |    "id": "e2d7cc86-069d-4105-a41d-c5f33d1af4e4",
393 |    "metadata": {},
394 |    "outputs": [
395 |     {
396 |      "name": "stderr",
397 |      "output_type": "stream",
398 |      "text": [
399 |       "/opt/homebrew/lib/python3.11/site-packages/sklearn/base.py:464: UserWarning: X does not have valid feature names, but LinearRegression was fitted with feature names\n",
400 |       "  warnings.warn(\n"
401 |      ]
402 |     },
403 |     {
404 |      "data": {
405 |       "text/plain": [
406 |        "array([578876.03748933])"
407 |       ]
408 |      },
409 |      "execution_count": 12,
410 |      "metadata": {},
411 |      "output_type": "execute_result"
412 |     }
413 |    ],
414 |    "source": [
415 |     "reg.predict([[2500,4,5]])"
416 |    ]
417 |   }
418 |  ],
419 |  "metadata": {
420 |   "kernelspec": {
421 |    "display_name": "Python 3 (ipykernel)",
422 |    "language": "python",
423 |    "name": "python3"
424 |   },
425 |   "language_info": {
426 |    "codemirror_mode": {
427 |     "name": "ipython",
428 |     "version": 3
429 |    },
430 |    "file_extension": ".py",
431 |    "mimetype": "text/x-python",
432 |    "name": "python",
433 |    "nbconvert_exporter": "python",
434 |    "pygments_lexer": "ipython3",
435 |    "version": "3.11.4"
436 |   }
437 |  },
438 |  "nbformat": 4,
439 |  "nbformat_minor": 5
440 | }
441 | 


--------------------------------------------------------------------------------
/Exercise/Hiring.ipynb:
--------------------------------------------------------------------------------
  1 | {
  2 |  "cells": [
  3 |   {
  4 |    "cell_type": "markdown",
  5 |    "id": "30ebf0fa-b490-4686-8637-1070d4cc72c2",
  6 |    "metadata": {},
  7 |    "source": [
  8 |     "## Importing Modules"
  9 |    ]
 10 |   },
 11 |   {
 12 |    "cell_type": "code",
 13 |    "execution_count": 1,
 14 |    "id": "6f39c976-e5f2-4922-a12b-f45c19b3577b",
 15 |    "metadata": {},
 16 |    "outputs": [],
 17 |    "source": [
 18 |     "import numpy as np\n",
 19 |     "import pandas as pd\n",
 20 |     "import matplotlib.pyplot as plt\n",
 21 |     "from sklearn import linear_model"
 22 |    ]
 23 |   },
 24 |   {
 25 |    "cell_type": "markdown",
 26 |    "id": "1590695d-25c2-42a2-b934-b2dc288db055",
 27 |    "metadata": {},
 28 |    "source": [
 29 |     "## Loading the data to Dataframe"
 30 |    ]
 31 |   },
 32 |   {
 33 |    "cell_type": "code",
 34 |    "execution_count": 35,
 35 |    "id": "3fc93792-4067-4d9c-a2e9-bd1d28400022",
 36 |    "metadata": {},
 37 |    "outputs": [
 38 |     {
 39 |      "data": {
 40 |       "text/html": [
 41 |        "<div>\n",
 42 |        "<style scoped>\n",
 43 |        "    .dataframe tbody tr th:only-of-type {\n",
 44 |        "        vertical-align: middle;\n",
 45 |        "    }\n",
 46 |        "\n",
 47 |        "    .dataframe tbody tr th {\n",
 48 |        "        vertical-align: top;\n",
 49 |        "    }\n",
 50 |        "\n",
 51 |        "    .dataframe thead th {\n",
 52 |        "        text-align: right;\n",
 53 |        "    }\n",
 54 |        "</style>\n",
 55 |        "<table border=\"1\" class=\"dataframe\">\n",
 56 |        "  <thead>\n",
 57 |        "    <tr style=\"text-align: right;\">\n",
 58 |        "      <th></th>\n",
 59 |        "      <th>experience</th>\n",
 60 |        "      <th>test_score(out of 10)</th>\n",
 61 |        "      <th>interview_score(out of 10)</th>\n",
 62 |        "      <th>salary($)</th>\n",
 63 |        "    </tr>\n",
 64 |        "  </thead>\n",
 65 |        "  <tbody>\n",
 66 |        "    <tr>\n",
 67 |        "      <th>0</th>\n",
 68 |        "      <td>NaN</td>\n",
 69 |        "      <td>8.0</td>\n",
 70 |        "      <td>9</td>\n",
 71 |        "      <td>50000</td>\n",
 72 |        "    </tr>\n",
 73 |        "    <tr>\n",
 74 |        "      <th>1</th>\n",
 75 |        "      <td>NaN</td>\n",
 76 |        "      <td>8.0</td>\n",
 77 |        "      <td>6</td>\n",
 78 |        "      <td>45000</td>\n",
 79 |        "    </tr>\n",
 80 |        "    <tr>\n",
 81 |        "      <th>2</th>\n",
 82 |        "      <td>five</td>\n",
 83 |        "      <td>6.0</td>\n",
 84 |        "      <td>7</td>\n",
 85 |        "      <td>60000</td>\n",
 86 |        "    </tr>\n",
 87 |        "    <tr>\n",
 88 |        "      <th>3</th>\n",
 89 |        "      <td>two</td>\n",
 90 |        "      <td>10.0</td>\n",
 91 |        "      <td>10</td>\n",
 92 |        "      <td>65000</td>\n",
 93 |        "    </tr>\n",
 94 |        "    <tr>\n",
 95 |        "      <th>4</th>\n",
 96 |        "      <td>seven</td>\n",
 97 |        "      <td>9.0</td>\n",
 98 |        "      <td>6</td>\n",
 99 |        "      <td>70000</td>\n",
100 |        "    </tr>\n",
101 |        "    <tr>\n",
102 |        "      <th>5</th>\n",
103 |        "      <td>three</td>\n",
104 |        "      <td>7.0</td>\n",
105 |        "      <td>10</td>\n",
106 |        "      <td>62000</td>\n",
107 |        "    </tr>\n",
108 |        "    <tr>\n",
109 |        "      <th>6</th>\n",
110 |        "      <td>ten</td>\n",
111 |        "      <td>NaN</td>\n",
112 |        "      <td>7</td>\n",
113 |        "      <td>72000</td>\n",
114 |        "    </tr>\n",
115 |        "    <tr>\n",
116 |        "      <th>7</th>\n",
117 |        "      <td>eleven</td>\n",
118 |        "      <td>7.0</td>\n",
119 |        "      <td>8</td>\n",
120 |        "      <td>80000</td>\n",
121 |        "    </tr>\n",
122 |        "  </tbody>\n",
123 |        "</table>\n",
124 |        "</div>"
125 |       ],
126 |       "text/plain": [
127 |        "  experience  test_score(out of 10)  interview_score(out of 10)  salary($)\n",
128 |        "0        NaN                    8.0                           9      50000\n",
129 |        "1        NaN                    8.0                           6      45000\n",
130 |        "2       five                    6.0                           7      60000\n",
131 |        "3        two                   10.0                          10      65000\n",
132 |        "4      seven                    9.0                           6      70000\n",
133 |        "5      three                    7.0                          10      62000\n",
134 |        "6        ten                    NaN                           7      72000\n",
135 |        "7     eleven                    7.0                           8      80000"
136 |       ]
137 |      },
138 |      "execution_count": 35,
139 |      "metadata": {},
140 |      "output_type": "execute_result"
141 |     }
142 |    ],
143 |    "source": [
144 |     "df = pd.read_csv(\"hiring.csv\")\n",
145 |     "df"
146 |    ]
147 |   },
148 |   {
149 |    "cell_type": "markdown",
150 |    "id": "366c3127-265b-4640-bff9-80dc3bee7c36",
151 |    "metadata": {},
152 |    "source": [
153 |     "## Data preprocessing"
154 |    ]
155 |   },
156 |   {
157 |    "cell_type": "code",
158 |    "execution_count": 3,
159 |    "id": "c6cc1407-42f7-47d7-9854-8a3241be8a0e",
160 |    "metadata": {},
161 |    "outputs": [
162 |     {
163 |      "data": {
164 |       "text/plain": [
165 |        "Index(['experience', 'test_score(out of 10)', 'interview_score(out of 10)',\n",
166 |        "       'salary($)'],\n",
167 |        "      dtype='object')"
168 |       ]
169 |      },
170 |      "execution_count": 3,
171 |      "metadata": {},
172 |      "output_type": "execute_result"
173 |     }
174 |    ],
175 |    "source": [
176 |     "df.columns"
177 |    ]
178 |   },
179 |   {
180 |    "cell_type": "code",
181 |    "execution_count": 36,
182 |    "id": "0d012d4b-e183-44fb-bb54-4e6b225adaad",
183 |    "metadata": {},
184 |    "outputs": [
185 |     {
186 |      "data": {
187 |       "text/plain": [
188 |        "7"
189 |       ]
190 |      },
191 |      "execution_count": 36,
192 |      "metadata": {},
193 |      "output_type": "execute_result"
194 |     }
195 |    ],
196 |    "source": [
197 |     "import math\n",
198 |     "median_test_score = math.floor(df['test_score(out of 10)'].mean())\n",
199 |     "median_test_score"
200 |    ]
201 |   },
202 |   {
203 |    "cell_type": "code",
204 |    "execution_count": 37,
205 |    "id": "f82adb09-5c25-4227-9804-6c0761c8d05f",
206 |    "metadata": {},
207 |    "outputs": [
208 |     {
209 |      "data": {
210 |       "text/html": [
211 |        "<div>\n",
212 |        "<style scoped>\n",
213 |        "    .dataframe tbody tr th:only-of-type {\n",
214 |        "        vertical-align: middle;\n",
215 |        "    }\n",
216 |        "\n",
217 |        "    .dataframe tbody tr th {\n",
218 |        "        vertical-align: top;\n",
219 |        "    }\n",
220 |        "\n",
221 |        "    .dataframe thead th {\n",
222 |        "        text-align: right;\n",
223 |        "    }\n",
224 |        "</style>\n",
225 |        "<table border=\"1\" class=\"dataframe\">\n",
226 |        "  <thead>\n",
227 |        "    <tr style=\"text-align: right;\">\n",
228 |        "      <th></th>\n",
229 |        "      <th>experience</th>\n",
230 |        "      <th>test_score(out of 10)</th>\n",
231 |        "      <th>interview_score(out of 10)</th>\n",
232 |        "      <th>salary($)</th>\n",
233 |        "    </tr>\n",
234 |        "  </thead>\n",
235 |        "  <tbody>\n",
236 |        "    <tr>\n",
237 |        "      <th>0</th>\n",
238 |        "      <td>NaN</td>\n",
239 |        "      <td>8.0</td>\n",
240 |        "      <td>9</td>\n",
241 |        "      <td>50000</td>\n",
242 |        "    </tr>\n",
243 |        "    <tr>\n",
244 |        "      <th>1</th>\n",
245 |        "      <td>NaN</td>\n",
246 |        "      <td>8.0</td>\n",
247 |        "      <td>6</td>\n",
248 |        "      <td>45000</td>\n",
249 |        "    </tr>\n",
250 |        "    <tr>\n",
251 |        "      <th>2</th>\n",
252 |        "      <td>five</td>\n",
253 |        "      <td>6.0</td>\n",
254 |        "      <td>7</td>\n",
255 |        "      <td>60000</td>\n",
256 |        "    </tr>\n",
257 |        "    <tr>\n",
258 |        "      <th>3</th>\n",
259 |        "      <td>two</td>\n",
260 |        "      <td>10.0</td>\n",
261 |        "      <td>10</td>\n",
262 |        "      <td>65000</td>\n",
263 |        "    </tr>\n",
264 |        "    <tr>\n",
265 |        "      <th>4</th>\n",
266 |        "      <td>seven</td>\n",
267 |        "      <td>9.0</td>\n",
268 |        "      <td>6</td>\n",
269 |        "      <td>70000</td>\n",
270 |        "    </tr>\n",
271 |        "    <tr>\n",
272 |        "      <th>5</th>\n",
273 |        "      <td>three</td>\n",
274 |        "      <td>7.0</td>\n",
275 |        "      <td>10</td>\n",
276 |        "      <td>62000</td>\n",
277 |        "    </tr>\n",
278 |        "    <tr>\n",
279 |        "      <th>6</th>\n",
280 |        "      <td>ten</td>\n",
281 |        "      <td>7.0</td>\n",
282 |        "      <td>7</td>\n",
283 |        "      <td>72000</td>\n",
284 |        "    </tr>\n",
285 |        "    <tr>\n",
286 |        "      <th>7</th>\n",
287 |        "      <td>eleven</td>\n",
288 |        "      <td>7.0</td>\n",
289 |        "      <td>8</td>\n",
290 |        "      <td>80000</td>\n",
291 |        "    </tr>\n",
292 |        "  </tbody>\n",
293 |        "</table>\n",
294 |        "</div>"
295 |       ],
296 |       "text/plain": [
297 |        "  experience  test_score(out of 10)  interview_score(out of 10)  salary($)\n",
298 |        "0        NaN                    8.0                           9      50000\n",
299 |        "1        NaN                    8.0                           6      45000\n",
300 |        "2       five                    6.0                           7      60000\n",
301 |        "3        two                   10.0                          10      65000\n",
302 |        "4      seven                    9.0                           6      70000\n",
303 |        "5      three                    7.0                          10      62000\n",
304 |        "6        ten                    7.0                           7      72000\n",
305 |        "7     eleven                    7.0                           8      80000"
306 |       ]
307 |      },
308 |      "execution_count": 37,
309 |      "metadata": {},
310 |      "output_type": "execute_result"
311 |     }
312 |    ],
313 |    "source": [
314 |     "df['test_score(out of 10)'] = df['test_score(out of 10)'].fillna(median_test_score)\n",
315 |     "df"
316 |    ]
317 |   },
318 |   {
319 |    "cell_type": "markdown",
320 |    "id": "212400f7-1493-470f-93b8-67a059b33e77",
321 |    "metadata": {},
322 |    "source": [
323 |     "#### importing word2number module"
324 |    ]
325 |   },
326 |   {
327 |    "cell_type": "code",
328 |    "execution_count": 7,
329 |    "id": "f7f74731-45ee-463e-9833-13e566869c44",
330 |    "metadata": {},
331 |    "outputs": [],
332 |    "source": [
333 |     "from word2number import w2n"
334 |    ]
335 |   },
336 |   {
337 |    "cell_type": "code",
338 |    "execution_count": 38,
339 |    "id": "5f29bebb-597f-4b43-a2d2-77a90827e617",
340 |    "metadata": {},
341 |    "outputs": [
342 |     {
343 |      "data": {
344 |       "text/html": [
345 |        "<div>\n",
346 |        "<style scoped>\n",
347 |        "    .dataframe tbody tr th:only-of-type {\n",
348 |        "        vertical-align: middle;\n",
349 |        "    }\n",
350 |        "\n",
351 |        "    .dataframe tbody tr th {\n",
352 |        "        vertical-align: top;\n",
353 |        "    }\n",
354 |        "\n",
355 |        "    .dataframe thead th {\n",
356 |        "        text-align: right;\n",
357 |        "    }\n",
358 |        "</style>\n",
359 |        "<table border=\"1\" class=\"dataframe\">\n",
360 |        "  <thead>\n",
361 |        "    <tr style=\"text-align: right;\">\n",
362 |        "      <th></th>\n",
363 |        "      <th>experience</th>\n",
364 |        "      <th>test_score(out of 10)</th>\n",
365 |        "      <th>interview_score(out of 10)</th>\n",
366 |        "      <th>salary($)</th>\n",
367 |        "    </tr>\n",
368 |        "  </thead>\n",
369 |        "  <tbody>\n",
370 |        "    <tr>\n",
371 |        "      <th>0</th>\n",
372 |        "      <td>zero</td>\n",
373 |        "      <td>8.0</td>\n",
374 |        "      <td>9</td>\n",
375 |        "      <td>50000</td>\n",
376 |        "    </tr>\n",
377 |        "    <tr>\n",
378 |        "      <th>1</th>\n",
379 |        "      <td>zero</td>\n",
380 |        "      <td>8.0</td>\n",
381 |        "      <td>6</td>\n",
382 |        "      <td>45000</td>\n",
383 |        "    </tr>\n",
384 |        "    <tr>\n",
385 |        "      <th>2</th>\n",
386 |        "      <td>five</td>\n",
387 |        "      <td>6.0</td>\n",
388 |        "      <td>7</td>\n",
389 |        "      <td>60000</td>\n",
390 |        "    </tr>\n",
391 |        "    <tr>\n",
392 |        "      <th>3</th>\n",
393 |        "      <td>two</td>\n",
394 |        "      <td>10.0</td>\n",
395 |        "      <td>10</td>\n",
396 |        "      <td>65000</td>\n",
397 |        "    </tr>\n",
398 |        "    <tr>\n",
399 |        "      <th>4</th>\n",
400 |        "      <td>seven</td>\n",
401 |        "      <td>9.0</td>\n",
402 |        "      <td>6</td>\n",
403 |        "      <td>70000</td>\n",
404 |        "    </tr>\n",
405 |        "    <tr>\n",
406 |        "      <th>5</th>\n",
407 |        "      <td>three</td>\n",
408 |        "      <td>7.0</td>\n",
409 |        "      <td>10</td>\n",
410 |        "      <td>62000</td>\n",
411 |        "    </tr>\n",
412 |        "    <tr>\n",
413 |        "      <th>6</th>\n",
414 |        "      <td>ten</td>\n",
415 |        "      <td>7.0</td>\n",
416 |        "      <td>7</td>\n",
417 |        "      <td>72000</td>\n",
418 |        "    </tr>\n",
419 |        "    <tr>\n",
420 |        "      <th>7</th>\n",
421 |        "      <td>eleven</td>\n",
422 |        "      <td>7.0</td>\n",
423 |        "      <td>8</td>\n",
424 |        "      <td>80000</td>\n",
425 |        "    </tr>\n",
426 |        "  </tbody>\n",
427 |        "</table>\n",
428 |        "</div>"
429 |       ],
430 |       "text/plain": [
431 |        "  experience  test_score(out of 10)  interview_score(out of 10)  salary($)\n",
432 |        "0       zero                    8.0                           9      50000\n",
433 |        "1       zero                    8.0                           6      45000\n",
434 |        "2       five                    6.0                           7      60000\n",
435 |        "3        two                   10.0                          10      65000\n",
436 |        "4      seven                    9.0                           6      70000\n",
437 |        "5      three                    7.0                          10      62000\n",
438 |        "6        ten                    7.0                           7      72000\n",
439 |        "7     eleven                    7.0                           8      80000"
440 |       ]
441 |      },
442 |      "execution_count": 38,
443 |      "metadata": {},
444 |      "output_type": "execute_result"
445 |     }
446 |    ],
447 |    "source": [
448 |     "df.experience = df.experience.fillna('zero')\n",
449 |     "df"
450 |    ]
451 |   },
452 |   {
453 |    "cell_type": "code",
454 |    "execution_count": 39,
455 |    "id": "22a6e7a3-61cf-45ec-a066-dfb5625d3f6a",
456 |    "metadata": {},
457 |    "outputs": [
458 |     {
459 |      "data": {
460 |       "text/html": [
461 |        "<div>\n",
462 |        "<style scoped>\n",
463 |        "    .dataframe tbody tr th:only-of-type {\n",
464 |        "        vertical-align: middle;\n",
465 |        "    }\n",
466 |        "\n",
467 |        "    .dataframe tbody tr th {\n",
468 |        "        vertical-align: top;\n",
469 |        "    }\n",
470 |        "\n",
471 |        "    .dataframe thead th {\n",
472 |        "        text-align: right;\n",
473 |        "    }\n",
474 |        "</style>\n",
475 |        "<table border=\"1\" class=\"dataframe\">\n",
476 |        "  <thead>\n",
477 |        "    <tr style=\"text-align: right;\">\n",
478 |        "      <th></th>\n",
479 |        "      <th>experience</th>\n",
480 |        "      <th>test_score(out of 10)</th>\n",
481 |        "      <th>interview_score(out of 10)</th>\n",
482 |        "      <th>salary($)</th>\n",
483 |        "    </tr>\n",
484 |        "  </thead>\n",
485 |        "  <tbody>\n",
486 |        "    <tr>\n",
487 |        "      <th>0</th>\n",
488 |        "      <td>0</td>\n",
489 |        "      <td>8.0</td>\n",
490 |        "      <td>9</td>\n",
491 |        "      <td>50000</td>\n",
492 |        "    </tr>\n",
493 |        "    <tr>\n",
494 |        "      <th>1</th>\n",
495 |        "      <td>0</td>\n",
496 |        "      <td>8.0</td>\n",
497 |        "      <td>6</td>\n",
498 |        "      <td>45000</td>\n",
499 |        "    </tr>\n",
500 |        "    <tr>\n",
501 |        "      <th>2</th>\n",
502 |        "      <td>5</td>\n",
503 |        "      <td>6.0</td>\n",
504 |        "      <td>7</td>\n",
505 |        "      <td>60000</td>\n",
506 |        "    </tr>\n",
507 |        "    <tr>\n",
508 |        "      <th>3</th>\n",
509 |        "      <td>2</td>\n",
510 |        "      <td>10.0</td>\n",
511 |        "      <td>10</td>\n",
512 |        "      <td>65000</td>\n",
513 |        "    </tr>\n",
514 |        "    <tr>\n",
515 |        "      <th>4</th>\n",
516 |        "      <td>7</td>\n",
517 |        "      <td>9.0</td>\n",
518 |        "      <td>6</td>\n",
519 |        "      <td>70000</td>\n",
520 |        "    </tr>\n",
521 |        "    <tr>\n",
522 |        "      <th>5</th>\n",
523 |        "      <td>3</td>\n",
524 |        "      <td>7.0</td>\n",
525 |        "      <td>10</td>\n",
526 |        "      <td>62000</td>\n",
527 |        "    </tr>\n",
528 |        "    <tr>\n",
529 |        "      <th>6</th>\n",
530 |        "      <td>10</td>\n",
531 |        "      <td>7.0</td>\n",
532 |        "      <td>7</td>\n",
533 |        "      <td>72000</td>\n",
534 |        "    </tr>\n",
535 |        "    <tr>\n",
536 |        "      <th>7</th>\n",
537 |        "      <td>11</td>\n",
538 |        "      <td>7.0</td>\n",
539 |        "      <td>8</td>\n",
540 |        "      <td>80000</td>\n",
541 |        "    </tr>\n",
542 |        "  </tbody>\n",
543 |        "</table>\n",
544 |        "</div>"
545 |       ],
546 |       "text/plain": [
547 |        "   experience  test_score(out of 10)  interview_score(out of 10)  salary($)\n",
548 |        "0           0                    8.0                           9      50000\n",
549 |        "1           0                    8.0                           6      45000\n",
550 |        "2           5                    6.0                           7      60000\n",
551 |        "3           2                   10.0                          10      65000\n",
552 |        "4           7                    9.0                           6      70000\n",
553 |        "5           3                    7.0                          10      62000\n",
554 |        "6          10                    7.0                           7      72000\n",
555 |        "7          11                    7.0                           8      80000"
556 |       ]
557 |      },
558 |      "execution_count": 39,
559 |      "metadata": {},
560 |      "output_type": "execute_result"
561 |     }
562 |    ],
563 |    "source": [
564 |     "df.experience = df.experience.apply(w2n.word_to_num)\n",
565 |     "df"
566 |    ]
567 |   },
568 |   {
569 |    "cell_type": "markdown",
570 |    "id": "da085474-684c-460b-9786-72b77802706e",
571 |    "metadata": {},
572 |    "source": [
573 |     "#### define a mapping of number words to numbers. This can be done using word2number module."
574 |    ]
575 |   },
576 |   {
577 |    "cell_type": "code",
578 |    "execution_count": 12,
579 |    "id": "b7a45514-9abf-4a71-8d28-7e1b5c3cd7ca",
580 |    "metadata": {},
581 |    "outputs": [],
582 |    "source": [
583 |     "word_to_number = {\n",
584 |     "    'zero': 0, 'one': 1, 'two': 2, 'three': 3,  'four': 4,\n",
585 |     "    'five': 5, 'six': 6, 'seven': 7, 'eight': 8, 'nine': 9, 'ten': 10,\n",
586 |     "    'eleven': 11, 'twelve': 12, 'thirteen': 13, 'fourteen': 14, 'fifteen': 15\n",
587 |     "}"
588 |    ]
589 |   },
590 |   {
591 |    "cell_type": "code",
592 |    "execution_count": 15,
593 |    "id": "f0890063-dfd3-4abe-9772-f15a64d443b1",
594 |    "metadata": {
595 |     "collapsed": true,
596 |     "jupyter": {
597 |      "outputs_hidden": true
598 |     }
599 |    },
600 |    "outputs": [
601 |     {
602 |      "data": {
603 |       "text/html": [
604 |        "<div>\n",
605 |        "<style scoped>\n",
606 |        "    .dataframe tbody tr th:only-of-type {\n",
607 |        "        vertical-align: middle;\n",
608 |        "    }\n",
609 |        "\n",
610 |        "    .dataframe tbody tr th {\n",
611 |        "        vertical-align: top;\n",
612 |        "    }\n",
613 |        "\n",
614 |        "    .dataframe thead th {\n",
615 |        "        text-align: right;\n",
616 |        "    }\n",
617 |        "</style>\n",
618 |        "<table border=\"1\" class=\"dataframe\">\n",
619 |        "  <thead>\n",
620 |        "    <tr style=\"text-align: right;\">\n",
621 |        "      <th></th>\n",
622 |        "      <th>experience</th>\n",
623 |        "      <th>test_score(out of 10)</th>\n",
624 |        "      <th>interview_score(out of 10)</th>\n",
625 |        "      <th>salary($)</th>\n",
626 |        "    </tr>\n",
627 |        "  </thead>\n",
628 |        "  <tbody>\n",
629 |        "    <tr>\n",
630 |        "      <th>0</th>\n",
631 |        "      <td>NaN</td>\n",
632 |        "      <td>8.0</td>\n",
633 |        "      <td>9</td>\n",
634 |        "      <td>50000</td>\n",
635 |        "    </tr>\n",
636 |        "    <tr>\n",
637 |        "      <th>1</th>\n",
638 |        "      <td>NaN</td>\n",
639 |        "      <td>8.0</td>\n",
640 |        "      <td>6</td>\n",
641 |        "      <td>45000</td>\n",
642 |        "    </tr>\n",
643 |        "    <tr>\n",
644 |        "      <th>2</th>\n",
645 |        "      <td>5.0</td>\n",
646 |        "      <td>6.0</td>\n",
647 |        "      <td>7</td>\n",
648 |        "      <td>60000</td>\n",
649 |        "    </tr>\n",
650 |        "    <tr>\n",
651 |        "      <th>3</th>\n",
652 |        "      <td>2.0</td>\n",
653 |        "      <td>10.0</td>\n",
654 |        "      <td>10</td>\n",
655 |        "      <td>65000</td>\n",
656 |        "    </tr>\n",
657 |        "    <tr>\n",
658 |        "      <th>4</th>\n",
659 |        "      <td>7.0</td>\n",
660 |        "      <td>9.0</td>\n",
661 |        "      <td>6</td>\n",
662 |        "      <td>70000</td>\n",
663 |        "    </tr>\n",
664 |        "    <tr>\n",
665 |        "      <th>5</th>\n",
666 |        "      <td>3.0</td>\n",
667 |        "      <td>7.0</td>\n",
668 |        "      <td>10</td>\n",
669 |        "      <td>62000</td>\n",
670 |        "    </tr>\n",
671 |        "    <tr>\n",
672 |        "      <th>6</th>\n",
673 |        "      <td>10.0</td>\n",
674 |        "      <td>8.0</td>\n",
675 |        "      <td>7</td>\n",
676 |        "      <td>72000</td>\n",
677 |        "    </tr>\n",
678 |        "    <tr>\n",
679 |        "      <th>7</th>\n",
680 |        "      <td>11.0</td>\n",
681 |        "      <td>7.0</td>\n",
682 |        "      <td>8</td>\n",
683 |        "      <td>80000</td>\n",
684 |        "    </tr>\n",
685 |        "  </tbody>\n",
686 |        "</table>\n",
687 |        "</div>"
688 |       ],
689 |       "text/plain": [
690 |        "   experience  test_score(out of 10)  interview_score(out of 10)  salary($)\n",
691 |        "0         NaN                    8.0                           9      50000\n",
692 |        "1         NaN                    8.0                           6      45000\n",
693 |        "2         5.0                    6.0                           7      60000\n",
694 |        "3         2.0                   10.0                          10      65000\n",
695 |        "4         7.0                    9.0                           6      70000\n",
696 |        "5         3.0                    7.0                          10      62000\n",
697 |        "6        10.0                    8.0                           7      72000\n",
698 |        "7        11.0                    7.0                           8      80000"
699 |       ]
700 |      },
701 |      "execution_count": 15,
702 |      "metadata": {},
703 |      "output_type": "execute_result"
704 |     }
705 |    ],
706 |    "source": [
707 |     "df.experience = df['experience'].map(word_to_number)\n",
708 |     "df"
709 |    ]
710 |   },
711 |   {
712 |    "cell_type": "markdown",
713 |    "id": "2ddbf835-5a78-47e0-9fd6-6372530d428d",
714 |    "metadata": {},
715 |    "source": [
716 |     "## creating linear regression object / model"
717 |    ]
718 |   },
719 |   {
720 |    "cell_type": "code",
721 |    "execution_count": 40,
722 |    "id": "c9b8e084-a491-47ba-bc70-192f0c573ae5",
723 |    "metadata": {},
724 |    "outputs": [
725 |     {
726 |      "data": {
727 |       "text/html": [
728 |        "<style>#sk-container-id-2 {color: black;}#sk-container-id-2 pre{padding: 0;}#sk-container-id-2 div.sk-toggleable {background-color: white;}#sk-container-id-2 label.sk-toggleable__label {cursor: pointer;display: block;width: 100%;margin-bottom: 0;padding: 0.3em;box-sizing: border-box;text-align: center;}#sk-container-id-2 label.sk-toggleable__label-arrow:before {content: \"▸\";float: left;margin-right: 0.25em;color: #696969;}#sk-container-id-2 label.sk-toggleable__label-arrow:hover:before {color: black;}#sk-container-id-2 div.sk-estimator:hover label.sk-toggleable__label-arrow:before {color: black;}#sk-container-id-2 div.sk-toggleable__content {max-height: 0;max-width: 0;overflow: hidden;text-align: left;background-color: #f0f8ff;}#sk-container-id-2 div.sk-toggleable__content pre {margin: 0.2em;color: black;border-radius: 0.25em;background-color: #f0f8ff;}#sk-container-id-2 input.sk-toggleable__control:checked~div.sk-toggleable__content {max-height: 200px;max-width: 100%;overflow: auto;}#sk-container-id-2 input.sk-toggleable__control:checked~label.sk-toggleable__label-arrow:before {content: \"▾\";}#sk-container-id-2 div.sk-estimator input.sk-toggleable__control:checked~label.sk-toggleable__label {background-color: #d4ebff;}#sk-container-id-2 div.sk-label input.sk-toggleable__control:checked~label.sk-toggleable__label {background-color: #d4ebff;}#sk-container-id-2 input.sk-hidden--visually {border: 0;clip: rect(1px 1px 1px 1px);clip: rect(1px, 1px, 1px, 1px);height: 1px;margin: -1px;overflow: hidden;padding: 0;position: absolute;width: 1px;}#sk-container-id-2 div.sk-estimator {font-family: monospace;background-color: #f0f8ff;border: 1px dotted black;border-radius: 0.25em;box-sizing: border-box;margin-bottom: 0.5em;}#sk-container-id-2 div.sk-estimator:hover {background-color: #d4ebff;}#sk-container-id-2 div.sk-parallel-item::after {content: \"\";width: 100%;border-bottom: 1px solid gray;flex-grow: 1;}#sk-container-id-2 div.sk-label:hover label.sk-toggleable__label {background-color: #d4ebff;}#sk-container-id-2 div.sk-serial::before {content: \"\";position: absolute;border-left: 1px solid gray;box-sizing: border-box;top: 0;bottom: 0;left: 50%;z-index: 0;}#sk-container-id-2 div.sk-serial {display: flex;flex-direction: column;align-items: center;background-color: white;padding-right: 0.2em;padding-left: 0.2em;position: relative;}#sk-container-id-2 div.sk-item {position: relative;z-index: 1;}#sk-container-id-2 div.sk-parallel {display: flex;align-items: stretch;justify-content: center;background-color: white;position: relative;}#sk-container-id-2 div.sk-item::before, #sk-container-id-2 div.sk-parallel-item::before {content: \"\";position: absolute;border-left: 1px solid gray;box-sizing: border-box;top: 0;bottom: 0;left: 50%;z-index: -1;}#sk-container-id-2 div.sk-parallel-item {display: flex;flex-direction: column;z-index: 1;position: relative;background-color: white;}#sk-container-id-2 div.sk-parallel-item:first-child::after {align-self: flex-end;width: 50%;}#sk-container-id-2 div.sk-parallel-item:last-child::after {align-self: flex-start;width: 50%;}#sk-container-id-2 div.sk-parallel-item:only-child::after {width: 0;}#sk-container-id-2 div.sk-dashed-wrapped {border: 1px dashed gray;margin: 0 0.4em 0.5em 0.4em;box-sizing: border-box;padding-bottom: 0.4em;background-color: white;}#sk-container-id-2 div.sk-label label {font-family: monospace;font-weight: bold;display: inline-block;line-height: 1.2em;}#sk-container-id-2 div.sk-label-container {text-align: center;}#sk-container-id-2 div.sk-container {/* jupyter's `normalize.less` sets `[hidden] { display: none; }` but bootstrap.min.css set `[hidden] { display: none !important; }` so we also need the `!important` here to be able to override the default hidden behavior on the sphinx rendered scikit-learn.org. See: https://github.com/scikit-learn/scikit-learn/issues/21755 */display: inline-block !important;position: relative;}#sk-container-id-2 div.sk-text-repr-fallback {display: none;}</style><div id=\"sk-container-id-2\" class=\"sk-top-container\"><div class=\"sk-text-repr-fallback\"><pre>LinearRegression()</pre><b>In a Jupyter environment, please rerun this cell to show the HTML representation or trust the notebook. <br />On GitHub, the HTML representation is unable to render, please try loading this page with nbviewer.org.</b></div><div class=\"sk-container\" hidden><div class=\"sk-item\"><div class=\"sk-estimator sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"sk-estimator-id-2\" type=\"checkbox\" checked><label for=\"sk-estimator-id-2\" class=\"sk-toggleable__label sk-toggleable__label-arrow\">LinearRegression</label><div class=\"sk-toggleable__content\"><pre>LinearRegression()</pre></div></div></div></div></div>"
729 |       ],
730 |       "text/plain": [
731 |        "LinearRegression()"
732 |       ]
733 |      },
734 |      "execution_count": 40,
735 |      "metadata": {},
736 |      "output_type": "execute_result"
737 |     }
738 |    ],
739 |    "source": [
740 |     "model = linear_model.LinearRegression()\n",
741 |     "model.fit(df[['experience','test_score(out of 10)','interview_score(out of 10)']], df['salary($)'])"
742 |    ]
743 |   },
744 |   {
745 |    "cell_type": "code",
746 |    "execution_count": 41,
747 |    "id": "2e2fcd0e-76f3-4671-8b4d-515e7964dc3f",
748 |    "metadata": {},
749 |    "outputs": [
750 |     {
751 |      "name": "stderr",
752 |      "output_type": "stream",
753 |      "text": [
754 |       "/opt/homebrew/lib/python3.11/site-packages/sklearn/base.py:464: UserWarning: X does not have valid feature names, but LinearRegression was fitted with feature names\n",
755 |       "  warnings.warn(\n"
756 |      ]
757 |     },
758 |     {
759 |      "data": {
760 |       "text/plain": [
761 |        "array([53713.86677124])"
762 |       ]
763 |      },
764 |      "execution_count": 41,
765 |      "metadata": {},
766 |      "output_type": "execute_result"
767 |     }
768 |    ],
769 |    "source": [
770 |     "model.predict([[2,9,6]])"
771 |    ]
772 |   },
773 |   {
774 |    "cell_type": "code",
775 |    "execution_count": 42,
776 |    "id": "70eeccb6-a445-4a62-a918-481733e86b80",
777 |    "metadata": {},
778 |    "outputs": [
779 |     {
780 |      "name": "stderr",
781 |      "output_type": "stream",
782 |      "text": [
783 |       "/opt/homebrew/lib/python3.11/site-packages/sklearn/base.py:464: UserWarning: X does not have valid feature names, but LinearRegression was fitted with feature names\n",
784 |       "  warnings.warn(\n"
785 |      ]
786 |     },
787 |     {
788 |      "data": {
789 |       "text/plain": [
790 |        "array([93747.79628651])"
791 |       ]
792 |      },
793 |      "execution_count": 42,
794 |      "metadata": {},
795 |      "output_type": "execute_result"
796 |     }
797 |    ],
798 |    "source": [
799 |     "model.predict([[12,10,10]])"
800 |    ]
801 |   },
802 |   {
803 |    "cell_type": "code",
804 |    "execution_count": 31,
805 |    "id": "088bb049-859c-4618-93cd-8a72da2eb482",
806 |    "metadata": {},
807 |    "outputs": [
808 |     {
809 |      "data": {
810 |       "text/html": [
811 |        "<div>\n",
812 |        "<style scoped>\n",
813 |        "    .dataframe tbody tr th:only-of-type {\n",
814 |        "        vertical-align: middle;\n",
815 |        "    }\n",
816 |        "\n",
817 |        "    .dataframe tbody tr th {\n",
818 |        "        vertical-align: top;\n",
819 |        "    }\n",
820 |        "\n",
821 |        "    .dataframe thead th {\n",
822 |        "        text-align: right;\n",
823 |        "    }\n",
824 |        "</style>\n",
825 |        "<table border=\"1\" class=\"dataframe\">\n",
826 |        "  <thead>\n",
827 |        "    <tr style=\"text-align: right;\">\n",
828 |        "      <th></th>\n",
829 |        "      <th>experience</th>\n",
830 |        "      <th>test_score(out of 10)</th>\n",
831 |        "      <th>interview_score(out of 10)</th>\n",
832 |        "      <th>salary($)</th>\n",
833 |        "    </tr>\n",
834 |        "  </thead>\n",
835 |        "  <tbody>\n",
836 |        "    <tr>\n",
837 |        "      <th>0</th>\n",
838 |        "      <td>6.0</td>\n",
839 |        "      <td>8.0</td>\n",
840 |        "      <td>9</td>\n",
841 |        "      <td>50000</td>\n",
842 |        "    </tr>\n",
843 |        "    <tr>\n",
844 |        "      <th>1</th>\n",
845 |        "      <td>6.0</td>\n",
846 |        "      <td>8.0</td>\n",
847 |        "      <td>6</td>\n",
848 |        "      <td>45000</td>\n",
849 |        "    </tr>\n",
850 |        "    <tr>\n",
851 |        "      <th>2</th>\n",
852 |        "      <td>5.0</td>\n",
853 |        "      <td>6.0</td>\n",
854 |        "      <td>7</td>\n",
855 |        "      <td>60000</td>\n",
856 |        "    </tr>\n",
857 |        "    <tr>\n",
858 |        "      <th>3</th>\n",
859 |        "      <td>2.0</td>\n",
860 |        "      <td>10.0</td>\n",
861 |        "      <td>10</td>\n",
862 |        "      <td>65000</td>\n",
863 |        "    </tr>\n",
864 |        "    <tr>\n",
865 |        "      <th>4</th>\n",
866 |        "      <td>7.0</td>\n",
867 |        "      <td>9.0</td>\n",
868 |        "      <td>6</td>\n",
869 |        "      <td>70000</td>\n",
870 |        "    </tr>\n",
871 |        "    <tr>\n",
872 |        "      <th>5</th>\n",
873 |        "      <td>3.0</td>\n",
874 |        "      <td>7.0</td>\n",
875 |        "      <td>10</td>\n",
876 |        "      <td>62000</td>\n",
877 |        "    </tr>\n",
878 |        "    <tr>\n",
879 |        "      <th>6</th>\n",
880 |        "      <td>10.0</td>\n",
881 |        "      <td>8.0</td>\n",
882 |        "      <td>7</td>\n",
883 |        "      <td>72000</td>\n",
884 |        "    </tr>\n",
885 |        "    <tr>\n",
886 |        "      <th>7</th>\n",
887 |        "      <td>11.0</td>\n",
888 |        "      <td>7.0</td>\n",
889 |        "      <td>8</td>\n",
890 |        "      <td>80000</td>\n",
891 |        "    </tr>\n",
892 |        "  </tbody>\n",
893 |        "</table>\n",
894 |        "</div>"
895 |       ],
896 |       "text/plain": [
897 |        "   experience  test_score(out of 10)  interview_score(out of 10)  salary($)\n",
898 |        "0         6.0                    8.0                           9      50000\n",
899 |        "1         6.0                    8.0                           6      45000\n",
900 |        "2         5.0                    6.0                           7      60000\n",
901 |        "3         2.0                   10.0                          10      65000\n",
902 |        "4         7.0                    9.0                           6      70000\n",
903 |        "5         3.0                    7.0                          10      62000\n",
904 |        "6        10.0                    8.0                           7      72000\n",
905 |        "7        11.0                    7.0                           8      80000"
906 |       ]
907 |      },
908 |      "execution_count": 31,
909 |      "metadata": {},
910 |      "output_type": "execute_result"
911 |     }
912 |    ],
913 |    "source": [
914 |     "df.experience = df.experience.fillna(df.experience.median())\n",
915 |     "df"
916 |    ]
917 |   }
918 |  ],
919 |  "metadata": {
920 |   "kernelspec": {
921 |    "display_name": "Python 3 (ipykernel)",
922 |    "language": "python",
923 |    "name": "python3"
924 |   },
925 |   "language_info": {
926 |    "codemirror_mode": {
927 |     "name": "ipython",
928 |     "version": 3
929 |    },
930 |    "file_extension": ".py",
931 |    "mimetype": "text/x-python",
932 |    "name": "python",
933 |    "nbconvert_exporter": "python",
934 |    "pygments_lexer": "ipython3",
935 |    "version": "3.11.4"
936 |   }
937 |  },
938 |  "nbformat": 4,
939 |  "nbformat_minor": 5
940 | }
941 | 


--------------------------------------------------------------------------------