├── .gitignore
├── 01-notes
    ├── 01-pandas_intro.ipynb
    ├── 02-assemble.ipynb
    ├── 03-missing.ipynb
    ├── 04-tidy.ipynb
    ├── 05-data_types.ipynb
    ├── 06-apply.ipynb
    ├── 07-groupby.ipynb
    ├── 08a-statsmodels_linear.ipynb
    ├── 08b-statsmodels_logistic.ipynb
    └── 09a-sklearn_linear.ipynb
├── 02-lesson
    ├── 01-intro.ipynb
    ├── 02-assmeble.ipynb
    ├── 03-missing.ipynb
    ├── 04-tidy.ipynb
    ├── 05-data_types.ipynb
    ├── 06-apply.ipynb
    └── 07-groupby.ipynb
├── LICENSE
├── README.md
├── data
    ├── billboard.csv
    ├── concat_1.csv
    ├── concat_2.csv
    ├── concat_3.csv
    ├── doctors.csv
    ├── doctors_unicode.csv
    ├── ebola_country_timeseries.csv
    ├── gapminder.tsv
    ├── pew.csv
    ├── preg.csv
    ├── preg2.csv
    ├── survey_person.csv
    ├── survey_site.csv
    ├── survey_survey.csv
    ├── survey_visited.csv
    ├── tb.csv
    └── weather.csv
├── output
    └── .gitkeep
└── test_installation.py


/.gitignore:
--------------------------------------------------------------------------------
  1 | output/*
  2 | 
  3 | # Byte-compiled / optimized / DLL files
  4 | __pycache__/
  5 | *.py[cod]
  6 | *$py.class
  7 | 
  8 | # C extensions
  9 | *.so
 10 | 
 11 | # Distribution / packaging
 12 | .Python
 13 | env/
 14 | build/
 15 | develop-eggs/
 16 | dist/
 17 | downloads/
 18 | eggs/
 19 | .eggs/
 20 | lib/
 21 | lib64/
 22 | parts/
 23 | sdist/
 24 | var/
 25 | wheels/
 26 | *.egg-info/
 27 | .installed.cfg
 28 | *.egg
 29 | 
 30 | # PyInstaller
 31 | #  Usually these files are written by a python script from a template
 32 | #  before PyInstaller builds the exe, so as to inject date/other infos into it.
 33 | *.manifest
 34 | *.spec
 35 | 
 36 | # Installer logs
 37 | pip-log.txt
 38 | pip-delete-this-directory.txt
 39 | 
 40 | # Unit test / coverage reports
 41 | htmlcov/
 42 | .tox/
 43 | .coverage
 44 | .coverage.*
 45 | .cache
 46 | nosetests.xml
 47 | coverage.xml
 48 | *.cover
 49 | .hypothesis/
 50 | 
 51 | # Translations
 52 | *.mo
 53 | *.pot
 54 | 
 55 | # Django stuff:
 56 | *.log
 57 | local_settings.py
 58 | 
 59 | # Flask stuff:
 60 | instance/
 61 | .webassets-cache
 62 | 
 63 | # Scrapy stuff:
 64 | .scrapy
 65 | 
 66 | # Sphinx documentation
 67 | docs/_build/
 68 | 
 69 | # PyBuilder
 70 | target/
 71 | 
 72 | # Jupyter Notebook
 73 | .ipynb_checkpoints
 74 | 
 75 | # pyenv
 76 | .python-version
 77 | 
 78 | # celery beat schedule file
 79 | celerybeat-schedule
 80 | 
 81 | # SageMath parsed files
 82 | *.sage.py
 83 | 
 84 | # dotenv
 85 | .env
 86 | 
 87 | # virtualenv
 88 | .venv
 89 | venv/
 90 | ENV/
 91 | 
 92 | # Spyder project settings
 93 | .spyderproject
 94 | .spyproject
 95 | 
 96 | # Rope project settings
 97 | .ropeproject
 98 | 
 99 | # mkdocs documentation
100 | /site
101 | 
102 | # mypy
103 | .mypy_cache/
104 | 


--------------------------------------------------------------------------------
/01-notes/05-data_types.ipynb:
--------------------------------------------------------------------------------
  1 | {
  2 |  "cells": [
  3 |   {
  4 |    "cell_type": "code",
  5 |    "execution_count": 1,
  6 |    "metadata": {
  7 |     "collapsed": true
  8 |    },
  9 |    "outputs": [],
 10 |    "source": [
 11 |     "import pandas as pd\n",
 12 |     "import seaborn as sns"
 13 |    ]
 14 |   },
 15 |   {
 16 |    "cell_type": "code",
 17 |    "execution_count": 2,
 18 |    "metadata": {
 19 |     "collapsed": true
 20 |    },
 21 |    "outputs": [],
 22 |    "source": [
 23 |     "tips = sns.load_dataset('tips')"
 24 |    ]
 25 |   },
 26 |   {
 27 |    "cell_type": "code",
 28 |    "execution_count": 3,
 29 |    "metadata": {},
 30 |    "outputs": [
 31 |     {
 32 |      "name": "stdout",
 33 |      "output_type": "stream",
 34 |      "text": [
 35 |       "<class 'pandas.core.frame.DataFrame'>\n",
 36 |       "RangeIndex: 244 entries, 0 to 243\n",
 37 |       "Data columns (total 7 columns):\n",
 38 |       "total_bill    244 non-null float64\n",
 39 |       "tip           244 non-null float64\n",
 40 |       "sex           244 non-null category\n",
 41 |       "smoker        244 non-null category\n",
 42 |       "day           244 non-null category\n",
 43 |       "time          244 non-null category\n",
 44 |       "size          244 non-null int64\n",
 45 |       "dtypes: category(4), float64(2), int64(1)\n",
 46 |       "memory usage: 7.2 KB\n"
 47 |      ]
 48 |     }
 49 |    ],
 50 |    "source": [
 51 |     "tips.info()"
 52 |    ]
 53 |   },
 54 |   {
 55 |    "cell_type": "code",
 56 |    "execution_count": 4,
 57 |    "metadata": {},
 58 |    "outputs": [
 59 |     {
 60 |      "data": {
 61 |       "text/plain": [
 62 |        "total_bill     float64\n",
 63 |        "tip            float64\n",
 64 |        "sex           category\n",
 65 |        "smoker        category\n",
 66 |        "day           category\n",
 67 |        "time          category\n",
 68 |        "size             int64\n",
 69 |        "dtype: object"
 70 |       ]
 71 |      },
 72 |      "execution_count": 4,
 73 |      "metadata": {},
 74 |      "output_type": "execute_result"
 75 |     }
 76 |    ],
 77 |    "source": [
 78 |     "tips.dtypes"
 79 |    ]
 80 |   },
 81 |   {
 82 |    "cell_type": "code",
 83 |    "execution_count": 5,
 84 |    "metadata": {
 85 |     "collapsed": true
 86 |    },
 87 |    "outputs": [],
 88 |    "source": [
 89 |     "# convert to a string (from category)\n",
 90 |     "tips['sex_str'] = tips['sex'].astype(str)"
 91 |    ]
 92 |   },
 93 |   {
 94 |    "cell_type": "code",
 95 |    "execution_count": 6,
 96 |    "metadata": {},
 97 |    "outputs": [
 98 |     {
 99 |      "data": {
100 |       "text/html": [
101 |        "<div>\n",
102 |        "<style>\n",
103 |        "    .dataframe thead tr:only-child th {\n",
104 |        "        text-align: right;\n",
105 |        "    }\n",
106 |        "\n",
107 |        "    .dataframe thead th {\n",
108 |        "        text-align: left;\n",
109 |        "    }\n",
110 |        "\n",
111 |        "    .dataframe tbody tr th {\n",
112 |        "        vertical-align: top;\n",
113 |        "    }\n",
114 |        "</style>\n",
115 |        "<table border=\"1\" class=\"dataframe\">\n",
116 |        "  <thead>\n",
117 |        "    <tr style=\"text-align: right;\">\n",
118 |        "      <th></th>\n",
119 |        "      <th>total_bill</th>\n",
120 |        "      <th>tip</th>\n",
121 |        "      <th>sex</th>\n",
122 |        "      <th>smoker</th>\n",
123 |        "      <th>day</th>\n",
124 |        "      <th>time</th>\n",
125 |        "      <th>size</th>\n",
126 |        "      <th>sex_str</th>\n",
127 |        "    </tr>\n",
128 |        "  </thead>\n",
129 |        "  <tbody>\n",
130 |        "    <tr>\n",
131 |        "      <th>0</th>\n",
132 |        "      <td>16.99</td>\n",
133 |        "      <td>1.01</td>\n",
134 |        "      <td>Female</td>\n",
135 |        "      <td>No</td>\n",
136 |        "      <td>Sun</td>\n",
137 |        "      <td>Dinner</td>\n",
138 |        "      <td>2</td>\n",
139 |        "      <td>Female</td>\n",
140 |        "    </tr>\n",
141 |        "    <tr>\n",
142 |        "      <th>1</th>\n",
143 |        "      <td>10.34</td>\n",
144 |        "      <td>1.66</td>\n",
145 |        "      <td>Male</td>\n",
146 |        "      <td>No</td>\n",
147 |        "      <td>Sun</td>\n",
148 |        "      <td>Dinner</td>\n",
149 |        "      <td>3</td>\n",
150 |        "      <td>Male</td>\n",
151 |        "    </tr>\n",
152 |        "    <tr>\n",
153 |        "      <th>2</th>\n",
154 |        "      <td>21.01</td>\n",
155 |        "      <td>3.50</td>\n",
156 |        "      <td>Male</td>\n",
157 |        "      <td>No</td>\n",
158 |        "      <td>Sun</td>\n",
159 |        "      <td>Dinner</td>\n",
160 |        "      <td>3</td>\n",
161 |        "      <td>Male</td>\n",
162 |        "    </tr>\n",
163 |        "    <tr>\n",
164 |        "      <th>3</th>\n",
165 |        "      <td>23.68</td>\n",
166 |        "      <td>3.31</td>\n",
167 |        "      <td>Male</td>\n",
168 |        "      <td>No</td>\n",
169 |        "      <td>Sun</td>\n",
170 |        "      <td>Dinner</td>\n",
171 |        "      <td>2</td>\n",
172 |        "      <td>Male</td>\n",
173 |        "    </tr>\n",
174 |        "    <tr>\n",
175 |        "      <th>4</th>\n",
176 |        "      <td>24.59</td>\n",
177 |        "      <td>3.61</td>\n",
178 |        "      <td>Female</td>\n",
179 |        "      <td>No</td>\n",
180 |        "      <td>Sun</td>\n",
181 |        "      <td>Dinner</td>\n",
182 |        "      <td>4</td>\n",
183 |        "      <td>Female</td>\n",
184 |        "    </tr>\n",
185 |        "  </tbody>\n",
186 |        "</table>\n",
187 |        "</div>"
188 |       ],
189 |       "text/plain": [
190 |        "   total_bill   tip     sex smoker  day    time  size sex_str\n",
191 |        "0       16.99  1.01  Female     No  Sun  Dinner     2  Female\n",
192 |        "1       10.34  1.66    Male     No  Sun  Dinner     3    Male\n",
193 |        "2       21.01  3.50    Male     No  Sun  Dinner     3    Male\n",
194 |        "3       23.68  3.31    Male     No  Sun  Dinner     2    Male\n",
195 |        "4       24.59  3.61  Female     No  Sun  Dinner     4  Female"
196 |       ]
197 |      },
198 |      "execution_count": 6,
199 |      "metadata": {},
200 |      "output_type": "execute_result"
201 |     }
202 |    ],
203 |    "source": [
204 |     "tips.head()"
205 |    ]
206 |   },
207 |   {
208 |    "cell_type": "code",
209 |    "execution_count": 7,
210 |    "metadata": {},
211 |    "outputs": [
212 |     {
213 |      "data": {
214 |       "text/html": [
215 |        "<div>\n",
216 |        "<style>\n",
217 |        "    .dataframe thead tr:only-child th {\n",
218 |        "        text-align: right;\n",
219 |        "    }\n",
220 |        "\n",
221 |        "    .dataframe thead th {\n",
222 |        "        text-align: left;\n",
223 |        "    }\n",
224 |        "\n",
225 |        "    .dataframe tbody tr th {\n",
226 |        "        vertical-align: top;\n",
227 |        "    }\n",
228 |        "</style>\n",
229 |        "<table border=\"1\" class=\"dataframe\">\n",
230 |        "  <thead>\n",
231 |        "    <tr style=\"text-align: right;\">\n",
232 |        "      <th></th>\n",
233 |        "      <th>total_bill</th>\n",
234 |        "      <th>tip</th>\n",
235 |        "      <th>sex</th>\n",
236 |        "      <th>smoker</th>\n",
237 |        "      <th>day</th>\n",
238 |        "      <th>time</th>\n",
239 |        "      <th>size</th>\n",
240 |        "      <th>sex_str</th>\n",
241 |        "      <th>total_bill_str</th>\n",
242 |        "    </tr>\n",
243 |        "  </thead>\n",
244 |        "  <tbody>\n",
245 |        "    <tr>\n",
246 |        "      <th>0</th>\n",
247 |        "      <td>16.99</td>\n",
248 |        "      <td>1.01</td>\n",
249 |        "      <td>Female</td>\n",
250 |        "      <td>No</td>\n",
251 |        "      <td>Sun</td>\n",
252 |        "      <td>Dinner</td>\n",
253 |        "      <td>2</td>\n",
254 |        "      <td>Female</td>\n",
255 |        "      <td>16.99</td>\n",
256 |        "    </tr>\n",
257 |        "    <tr>\n",
258 |        "      <th>1</th>\n",
259 |        "      <td>10.34</td>\n",
260 |        "      <td>1.66</td>\n",
261 |        "      <td>Male</td>\n",
262 |        "      <td>No</td>\n",
263 |        "      <td>Sun</td>\n",
264 |        "      <td>Dinner</td>\n",
265 |        "      <td>3</td>\n",
266 |        "      <td>Male</td>\n",
267 |        "      <td>10.34</td>\n",
268 |        "    </tr>\n",
269 |        "    <tr>\n",
270 |        "      <th>2</th>\n",
271 |        "      <td>21.01</td>\n",
272 |        "      <td>3.50</td>\n",
273 |        "      <td>Male</td>\n",
274 |        "      <td>No</td>\n",
275 |        "      <td>Sun</td>\n",
276 |        "      <td>Dinner</td>\n",
277 |        "      <td>3</td>\n",
278 |        "      <td>Male</td>\n",
279 |        "      <td>21.01</td>\n",
280 |        "    </tr>\n",
281 |        "    <tr>\n",
282 |        "      <th>3</th>\n",
283 |        "      <td>23.68</td>\n",
284 |        "      <td>3.31</td>\n",
285 |        "      <td>Male</td>\n",
286 |        "      <td>No</td>\n",
287 |        "      <td>Sun</td>\n",
288 |        "      <td>Dinner</td>\n",
289 |        "      <td>2</td>\n",
290 |        "      <td>Male</td>\n",
291 |        "      <td>23.68</td>\n",
292 |        "    </tr>\n",
293 |        "    <tr>\n",
294 |        "      <th>4</th>\n",
295 |        "      <td>24.59</td>\n",
296 |        "      <td>3.61</td>\n",
297 |        "      <td>Female</td>\n",
298 |        "      <td>No</td>\n",
299 |        "      <td>Sun</td>\n",
300 |        "      <td>Dinner</td>\n",
301 |        "      <td>4</td>\n",
302 |        "      <td>Female</td>\n",
303 |        "      <td>24.59</td>\n",
304 |        "    </tr>\n",
305 |        "  </tbody>\n",
306 |        "</table>\n",
307 |        "</div>"
308 |       ],
309 |       "text/plain": [
310 |        "   total_bill   tip     sex smoker  day    time  size sex_str total_bill_str\n",
311 |        "0       16.99  1.01  Female     No  Sun  Dinner     2  Female          16.99\n",
312 |        "1       10.34  1.66    Male     No  Sun  Dinner     3    Male          10.34\n",
313 |        "2       21.01  3.50    Male     No  Sun  Dinner     3    Male          21.01\n",
314 |        "3       23.68  3.31    Male     No  Sun  Dinner     2    Male          23.68\n",
315 |        "4       24.59  3.61  Female     No  Sun  Dinner     4  Female          24.59"
316 |       ]
317 |      },
318 |      "execution_count": 7,
319 |      "metadata": {},
320 |      "output_type": "execute_result"
321 |     }
322 |    ],
323 |    "source": [
324 |     "# convert float to str\n",
325 |     "tips['total_bill_str'] = tips['total_bill'].astype(str)\n",
326 |     "tips.head()"
327 |    ]
328 |   },
329 |   {
330 |    "cell_type": "code",
331 |    "execution_count": 8,
332 |    "metadata": {},
333 |    "outputs": [
334 |     {
335 |      "data": {
336 |       "text/plain": [
337 |        "total_bill         float64\n",
338 |        "tip                float64\n",
339 |        "sex               category\n",
340 |        "smoker            category\n",
341 |        "day               category\n",
342 |        "time              category\n",
343 |        "size                 int64\n",
344 |        "sex_str             object\n",
345 |        "total_bill_str      object\n",
346 |        "dtype: object"
347 |       ]
348 |      },
349 |      "execution_count": 8,
350 |      "metadata": {},
351 |      "output_type": "execute_result"
352 |     }
353 |    ],
354 |    "source": [
355 |     "tips.dtypes"
356 |    ]
357 |   },
358 |   {
359 |    "cell_type": "markdown",
360 |    "metadata": {},
361 |    "source": [
362 |     "## to numeric"
363 |    ]
364 |   },
365 |   {
366 |    "cell_type": "code",
367 |    "execution_count": 9,
368 |    "metadata": {},
369 |    "outputs": [
370 |     {
371 |      "name": "stderr",
372 |      "output_type": "stream",
373 |      "text": [
374 |       "/home/dchen/anaconda3/lib/python3.6/site-packages/pandas/core/indexing.py:517: SettingWithCopyWarning: \n",
375 |       "A value is trying to be set on a copy of a slice from a DataFrame.\n",
376 |       "Try using .loc[row_indexer,col_indexer] = value instead\n",
377 |       "\n",
378 |       "See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy\n",
379 |       "  self.obj[item] = s\n"
380 |      ]
381 |     },
382 |     {
383 |      "data": {
384 |       "text/html": [
385 |        "<div>\n",
386 |        "<style>\n",
387 |        "    .dataframe thead tr:only-child th {\n",
388 |        "        text-align: right;\n",
389 |        "    }\n",
390 |        "\n",
391 |        "    .dataframe thead th {\n",
392 |        "        text-align: left;\n",
393 |        "    }\n",
394 |        "\n",
395 |        "    .dataframe tbody tr th {\n",
396 |        "        vertical-align: top;\n",
397 |        "    }\n",
398 |        "</style>\n",
399 |        "<table border=\"1\" class=\"dataframe\">\n",
400 |        "  <thead>\n",
401 |        "    <tr style=\"text-align: right;\">\n",
402 |        "      <th></th>\n",
403 |        "      <th>total_bill</th>\n",
404 |        "      <th>tip</th>\n",
405 |        "      <th>sex</th>\n",
406 |        "      <th>smoker</th>\n",
407 |        "      <th>day</th>\n",
408 |        "      <th>time</th>\n",
409 |        "      <th>size</th>\n",
410 |        "      <th>sex_str</th>\n",
411 |        "      <th>total_bill_str</th>\n",
412 |        "    </tr>\n",
413 |        "  </thead>\n",
414 |        "  <tbody>\n",
415 |        "    <tr>\n",
416 |        "      <th>0</th>\n",
417 |        "      <td>16.99</td>\n",
418 |        "      <td>1.01</td>\n",
419 |        "      <td>Female</td>\n",
420 |        "      <td>No</td>\n",
421 |        "      <td>Sun</td>\n",
422 |        "      <td>Dinner</td>\n",
423 |        "      <td>2</td>\n",
424 |        "      <td>Female</td>\n",
425 |        "      <td>16.99</td>\n",
426 |        "    </tr>\n",
427 |        "    <tr>\n",
428 |        "      <th>1</th>\n",
429 |        "      <td>missing</td>\n",
430 |        "      <td>1.66</td>\n",
431 |        "      <td>Male</td>\n",
432 |        "      <td>No</td>\n",
433 |        "      <td>Sun</td>\n",
434 |        "      <td>Dinner</td>\n",
435 |        "      <td>3</td>\n",
436 |        "      <td>Male</td>\n",
437 |        "      <td>10.34</td>\n",
438 |        "    </tr>\n",
439 |        "    <tr>\n",
440 |        "      <th>2</th>\n",
441 |        "      <td>21.01</td>\n",
442 |        "      <td>3.50</td>\n",
443 |        "      <td>Male</td>\n",
444 |        "      <td>No</td>\n",
445 |        "      <td>Sun</td>\n",
446 |        "      <td>Dinner</td>\n",
447 |        "      <td>3</td>\n",
448 |        "      <td>Male</td>\n",
449 |        "      <td>21.01</td>\n",
450 |        "    </tr>\n",
451 |        "    <tr>\n",
452 |        "      <th>3</th>\n",
453 |        "      <td>missing</td>\n",
454 |        "      <td>3.31</td>\n",
455 |        "      <td>Male</td>\n",
456 |        "      <td>No</td>\n",
457 |        "      <td>Sun</td>\n",
458 |        "      <td>Dinner</td>\n",
459 |        "      <td>2</td>\n",
460 |        "      <td>Male</td>\n",
461 |        "      <td>23.68</td>\n",
462 |        "    </tr>\n",
463 |        "    <tr>\n",
464 |        "      <th>4</th>\n",
465 |        "      <td>24.59</td>\n",
466 |        "      <td>3.61</td>\n",
467 |        "      <td>Female</td>\n",
468 |        "      <td>No</td>\n",
469 |        "      <td>Sun</td>\n",
470 |        "      <td>Dinner</td>\n",
471 |        "      <td>4</td>\n",
472 |        "      <td>Female</td>\n",
473 |        "      <td>24.59</td>\n",
474 |        "    </tr>\n",
475 |        "    <tr>\n",
476 |        "      <th>5</th>\n",
477 |        "      <td>missing</td>\n",
478 |        "      <td>4.71</td>\n",
479 |        "      <td>Male</td>\n",
480 |        "      <td>No</td>\n",
481 |        "      <td>Sun</td>\n",
482 |        "      <td>Dinner</td>\n",
483 |        "      <td>4</td>\n",
484 |        "      <td>Male</td>\n",
485 |        "      <td>25.29</td>\n",
486 |        "    </tr>\n",
487 |        "    <tr>\n",
488 |        "      <th>6</th>\n",
489 |        "      <td>8.77</td>\n",
490 |        "      <td>2.00</td>\n",
491 |        "      <td>Male</td>\n",
492 |        "      <td>No</td>\n",
493 |        "      <td>Sun</td>\n",
494 |        "      <td>Dinner</td>\n",
495 |        "      <td>2</td>\n",
496 |        "      <td>Male</td>\n",
497 |        "      <td>8.77</td>\n",
498 |        "    </tr>\n",
499 |        "    <tr>\n",
500 |        "      <th>7</th>\n",
501 |        "      <td>missing</td>\n",
502 |        "      <td>3.12</td>\n",
503 |        "      <td>Male</td>\n",
504 |        "      <td>No</td>\n",
505 |        "      <td>Sun</td>\n",
506 |        "      <td>Dinner</td>\n",
507 |        "      <td>4</td>\n",
508 |        "      <td>Male</td>\n",
509 |        "      <td>26.88</td>\n",
510 |        "    </tr>\n",
511 |        "    <tr>\n",
512 |        "      <th>8</th>\n",
513 |        "      <td>15.04</td>\n",
514 |        "      <td>1.96</td>\n",
515 |        "      <td>Male</td>\n",
516 |        "      <td>No</td>\n",
517 |        "      <td>Sun</td>\n",
518 |        "      <td>Dinner</td>\n",
519 |        "      <td>2</td>\n",
520 |        "      <td>Male</td>\n",
521 |        "      <td>15.04</td>\n",
522 |        "    </tr>\n",
523 |        "    <tr>\n",
524 |        "      <th>9</th>\n",
525 |        "      <td>14.78</td>\n",
526 |        "      <td>3.23</td>\n",
527 |        "      <td>Male</td>\n",
528 |        "      <td>No</td>\n",
529 |        "      <td>Sun</td>\n",
530 |        "      <td>Dinner</td>\n",
531 |        "      <td>2</td>\n",
532 |        "      <td>Male</td>\n",
533 |        "      <td>14.78</td>\n",
534 |        "    </tr>\n",
535 |        "  </tbody>\n",
536 |        "</table>\n",
537 |        "</div>"
538 |       ],
539 |       "text/plain": [
540 |        "  total_bill   tip     sex smoker  day    time  size sex_str total_bill_str\n",
541 |        "0      16.99  1.01  Female     No  Sun  Dinner     2  Female          16.99\n",
542 |        "1    missing  1.66    Male     No  Sun  Dinner     3    Male          10.34\n",
543 |        "2      21.01  3.50    Male     No  Sun  Dinner     3    Male          21.01\n",
544 |        "3    missing  3.31    Male     No  Sun  Dinner     2    Male          23.68\n",
545 |        "4      24.59  3.61  Female     No  Sun  Dinner     4  Female          24.59\n",
546 |        "5    missing  4.71    Male     No  Sun  Dinner     4    Male          25.29\n",
547 |        "6       8.77  2.00    Male     No  Sun  Dinner     2    Male           8.77\n",
548 |        "7    missing  3.12    Male     No  Sun  Dinner     4    Male          26.88\n",
549 |        "8      15.04  1.96    Male     No  Sun  Dinner     2    Male          15.04\n",
550 |        "9      14.78  3.23    Male     No  Sun  Dinner     2    Male          14.78"
551 |       ]
552 |      },
553 |      "execution_count": 9,
554 |      "metadata": {},
555 |      "output_type": "execute_result"
556 |     }
557 |    ],
558 |    "source": [
559 |     "tips_sub_miss = tips.head(10)\n",
560 |     "tips_sub_miss.loc[[1, 3, 5, 7], 'total_bill'] = 'missing'\n",
561 |     "tips_sub_miss.head(10)"
562 |    ]
563 |   },
564 |   {
565 |    "cell_type": "code",
566 |    "execution_count": 10,
567 |    "metadata": {
568 |     "scrolled": true
569 |    },
570 |    "outputs": [
571 |     {
572 |      "ename": "ValueError",
573 |      "evalue": "could not convert string to float: 'missing'",
574 |      "output_type": "error",
575 |      "traceback": [
576 |       "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
577 |       "\u001b[0;31mValueError\u001b[0m                                Traceback (most recent call last)",
578 |       "\u001b[0;32m<ipython-input-10-264fc73f0bc9>\u001b[0m in \u001b[0;36m<module>\u001b[0;34m()\u001b[0m\n\u001b[1;32m      1\u001b[0m \u001b[0;31m# will give value error\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m----> 2\u001b[0;31m \u001b[0mtips_sub_miss\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0;34m'total_bill'\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mastype\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mfloat\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m",
579 |       "\u001b[0;32m/home/dchen/anaconda3/lib/python3.6/site-packages/pandas/util/_decorators.py\u001b[0m in \u001b[0;36mwrapper\u001b[0;34m(*args, **kwargs)\u001b[0m\n\u001b[1;32m     89\u001b[0m                 \u001b[0;32melse\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m     90\u001b[0m                     \u001b[0mkwargs\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0mnew_arg_name\u001b[0m\u001b[0;34m]\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mnew_arg_value\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m---> 91\u001b[0;31m             \u001b[0;32mreturn\u001b[0m \u001b[0mfunc\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m*\u001b[0m\u001b[0margs\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m**\u001b[0m\u001b[0mkwargs\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m     92\u001b[0m         \u001b[0;32mreturn\u001b[0m \u001b[0mwrapper\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m     93\u001b[0m     \u001b[0;32mreturn\u001b[0m \u001b[0m_deprecate_kwarg\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
580 |       "\u001b[0;32m/home/dchen/anaconda3/lib/python3.6/site-packages/pandas/core/generic.py\u001b[0m in \u001b[0;36mastype\u001b[0;34m(self, dtype, copy, errors, **kwargs)\u001b[0m\n\u001b[1;32m   3297\u001b[0m         \u001b[0;31m# else, only a single dtype is given\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m   3298\u001b[0m         new_data = self._data.astype(dtype=dtype, copy=copy, errors=errors,\n\u001b[0;32m-> 3299\u001b[0;31m                                      **kwargs)\n\u001b[0m\u001b[1;32m   3300\u001b[0m         \u001b[0;32mreturn\u001b[0m \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0m_constructor\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mnew_data\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0m__finalize__\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mself\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m   3301\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n",
581 |       "\u001b[0;32m/home/dchen/anaconda3/lib/python3.6/site-packages/pandas/core/internals.py\u001b[0m in \u001b[0;36mastype\u001b[0;34m(self, dtype, **kwargs)\u001b[0m\n\u001b[1;32m   3222\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m   3223\u001b[0m     \u001b[0;32mdef\u001b[0m \u001b[0mastype\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mself\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mdtype\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m**\u001b[0m\u001b[0mkwargs\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m-> 3224\u001b[0;31m         \u001b[0;32mreturn\u001b[0m \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mapply\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m'astype'\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mdtype\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0mdtype\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m**\u001b[0m\u001b[0mkwargs\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m   3225\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m   3226\u001b[0m     \u001b[0;32mdef\u001b[0m \u001b[0mconvert\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mself\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m**\u001b[0m\u001b[0mkwargs\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
582 |       "\u001b[0;32m/home/dchen/anaconda3/lib/python3.6/site-packages/pandas/core/internals.py\u001b[0m in \u001b[0;36mapply\u001b[0;34m(self, f, axes, filter, do_integrity_check, consolidate, **kwargs)\u001b[0m\n\u001b[1;32m   3089\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m   3090\u001b[0m             \u001b[0mkwargs\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0;34m'mgr'\u001b[0m\u001b[0;34m]\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mself\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m-> 3091\u001b[0;31m             \u001b[0mapplied\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mgetattr\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mb\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mf\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m**\u001b[0m\u001b[0mkwargs\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m   3092\u001b[0m             \u001b[0mresult_blocks\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0m_extend_blocks\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mapplied\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mresult_blocks\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m   3093\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n",
583 |       "\u001b[0;32m/home/dchen/anaconda3/lib/python3.6/site-packages/pandas/core/internals.py\u001b[0m in \u001b[0;36mastype\u001b[0;34m(self, dtype, copy, errors, values, **kwargs)\u001b[0m\n\u001b[1;32m    469\u001b[0m     \u001b[0;32mdef\u001b[0m \u001b[0mastype\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mself\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mdtype\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mcopy\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0;32mFalse\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0merrors\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0;34m'raise'\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mvalues\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0;32mNone\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m**\u001b[0m\u001b[0mkwargs\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    470\u001b[0m         return self._astype(dtype, copy=copy, errors=errors, values=values,\n\u001b[0;32m--> 471\u001b[0;31m                             **kwargs)\n\u001b[0m\u001b[1;32m    472\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    473\u001b[0m     def _astype(self, dtype, copy=False, errors='raise', values=None,\n",
584 |       "\u001b[0;32m/home/dchen/anaconda3/lib/python3.6/site-packages/pandas/core/internals.py\u001b[0m in \u001b[0;36m_astype\u001b[0;34m(self, dtype, copy, errors, values, klass, mgr, **kwargs)\u001b[0m\n\u001b[1;32m    519\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    520\u001b[0m                 \u001b[0;31m# _astype_nansafe works fine with 1-d only\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m--> 521\u001b[0;31m                 \u001b[0mvalues\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mastype_nansafe\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mvalues\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mravel\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mdtype\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mcopy\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0;32mTrue\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m    522\u001b[0m                 \u001b[0mvalues\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mvalues\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mreshape\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mshape\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    523\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n",
585 |       "\u001b[0;32m/home/dchen/anaconda3/lib/python3.6/site-packages/pandas/core/dtypes/cast.py\u001b[0m in \u001b[0;36mastype_nansafe\u001b[0;34m(arr, dtype, copy)\u001b[0m\n\u001b[1;32m    634\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    635\u001b[0m     \u001b[0;32mif\u001b[0m \u001b[0mcopy\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m--> 636\u001b[0;31m         \u001b[0;32mreturn\u001b[0m \u001b[0marr\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mastype\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mdtype\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m    637\u001b[0m     \u001b[0;32mreturn\u001b[0m \u001b[0marr\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mview\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mdtype\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    638\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n",
586 |       "\u001b[0;31mValueError\u001b[0m: could not convert string to float: 'missing'"
587 |      ]
588 |     }
589 |    ],
590 |    "source": [
591 |     "# will give value error\n",
592 |     "tips_sub_miss['total_bill'].astype(float)"
593 |    ]
594 |   },
595 |   {
596 |    "cell_type": "code",
597 |    "execution_count": 11,
598 |    "metadata": {
599 |     "scrolled": true
600 |    },
601 |    "outputs": [
602 |     {
603 |      "ename": "ValueError",
604 |      "evalue": "Unable to parse string \"missing\" at position 1",
605 |      "output_type": "error",
606 |      "traceback": [
607 |       "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
608 |       "\u001b[0;31mValueError\u001b[0m                                Traceback (most recent call last)",
609 |       "\u001b[0;32mpandas/_libs/src/inference.pyx\u001b[0m in \u001b[0;36mpandas._libs.lib.maybe_convert_numeric (pandas/_libs/lib.c:55951)\u001b[0;34m()\u001b[0m\n",
610 |       "\u001b[0;31mValueError\u001b[0m: Unable to parse string \"missing\"",
611 |       "\nDuring handling of the above exception, another exception occurred:\n",
612 |       "\u001b[0;31mValueError\u001b[0m                                Traceback (most recent call last)",
613 |       "\u001b[0;32m<ipython-input-11-b5e425943eef>\u001b[0m in \u001b[0;36m<module>\u001b[0;34m()\u001b[0m\n\u001b[1;32m      1\u001b[0m \u001b[0;31m# still causes error\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m----> 2\u001b[0;31m \u001b[0mpd\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mto_numeric\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mtips_sub_miss\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0;34m'total_bill'\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m",
614 |       "\u001b[0;32m/home/dchen/anaconda3/lib/python3.6/site-packages/pandas/core/tools/numeric.py\u001b[0m in \u001b[0;36mto_numeric\u001b[0;34m(arg, errors, downcast)\u001b[0m\n\u001b[1;32m    124\u001b[0m             \u001b[0mcoerce_numeric\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0;32mFalse\u001b[0m \u001b[0;32mif\u001b[0m \u001b[0merrors\u001b[0m \u001b[0;32min\u001b[0m \u001b[0;34m(\u001b[0m\u001b[0;34m'ignore'\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m'raise'\u001b[0m\u001b[0;34m)\u001b[0m \u001b[0;32melse\u001b[0m \u001b[0;32mTrue\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    125\u001b[0m             values = lib.maybe_convert_numeric(values, set(),\n\u001b[0;32m--> 126\u001b[0;31m                                                coerce_numeric=coerce_numeric)\n\u001b[0m\u001b[1;32m    127\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    128\u001b[0m     \u001b[0;32mexcept\u001b[0m \u001b[0mException\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
615 |       "\u001b[0;32mpandas/_libs/src/inference.pyx\u001b[0m in \u001b[0;36mpandas._libs.lib.maybe_convert_numeric (pandas/_libs/lib.c:56433)\u001b[0;34m()\u001b[0m\n",
616 |       "\u001b[0;31mValueError\u001b[0m: Unable to parse string \"missing\" at position 1"
617 |      ]
618 |     }
619 |    ],
620 |    "source": [
621 |     "# still causes error\n",
622 |     "pd.to_numeric(tips_sub_miss['total_bill'])"
623 |    ]
624 |   },
625 |   {
626 |    "cell_type": "code",
627 |    "execution_count": 12,
628 |    "metadata": {},
629 |    "outputs": [
630 |     {
631 |      "data": {
632 |       "text/plain": [
633 |        "0      16.99\n",
634 |        "1    missing\n",
635 |        "2      21.01\n",
636 |        "3    missing\n",
637 |        "4      24.59\n",
638 |        "5    missing\n",
639 |        "6       8.77\n",
640 |        "7    missing\n",
641 |        "8      15.04\n",
642 |        "9      14.78\n",
643 |        "Name: total_bill, dtype: object"
644 |       ]
645 |      },
646 |      "execution_count": 12,
647 |      "metadata": {},
648 |      "output_type": "execute_result"
649 |     }
650 |    ],
651 |    "source": [
652 |     "pd.to_numeric(tips_sub_miss['total_bill'], errors='ignore')"
653 |    ]
654 |   },
655 |   {
656 |    "cell_type": "code",
657 |    "execution_count": 13,
658 |    "metadata": {},
659 |    "outputs": [
660 |     {
661 |      "ename": "ValueError",
662 |      "evalue": "Unable to parse string \"missing\" at position 1",
663 |      "output_type": "error",
664 |      "traceback": [
665 |       "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
666 |       "\u001b[0;31mValueError\u001b[0m                                Traceback (most recent call last)",
667 |       "\u001b[0;32mpandas/_libs/src/inference.pyx\u001b[0m in \u001b[0;36mpandas._libs.lib.maybe_convert_numeric (pandas/_libs/lib.c:55951)\u001b[0;34m()\u001b[0m\n",
668 |       "\u001b[0;31mValueError\u001b[0m: Unable to parse string \"missing\"",
669 |       "\nDuring handling of the above exception, another exception occurred:\n",
670 |       "\u001b[0;31mValueError\u001b[0m                                Traceback (most recent call last)",
671 |       "\u001b[0;32m<ipython-input-13-ede34dce7c2a>\u001b[0m in \u001b[0;36m<module>\u001b[0;34m()\u001b[0m\n\u001b[1;32m      1\u001b[0m \u001b[0;31m# raise is the default\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m----> 2\u001b[0;31m \u001b[0mpd\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mto_numeric\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mtips_sub_miss\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0;34m'total_bill'\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0merrors\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0;34m'raise'\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m",
672 |       "\u001b[0;32m/home/dchen/anaconda3/lib/python3.6/site-packages/pandas/core/tools/numeric.py\u001b[0m in \u001b[0;36mto_numeric\u001b[0;34m(arg, errors, downcast)\u001b[0m\n\u001b[1;32m    124\u001b[0m             \u001b[0mcoerce_numeric\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0;32mFalse\u001b[0m \u001b[0;32mif\u001b[0m \u001b[0merrors\u001b[0m \u001b[0;32min\u001b[0m \u001b[0;34m(\u001b[0m\u001b[0;34m'ignore'\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m'raise'\u001b[0m\u001b[0;34m)\u001b[0m \u001b[0;32melse\u001b[0m \u001b[0;32mTrue\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    125\u001b[0m             values = lib.maybe_convert_numeric(values, set(),\n\u001b[0;32m--> 126\u001b[0;31m                                                coerce_numeric=coerce_numeric)\n\u001b[0m\u001b[1;32m    127\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    128\u001b[0m     \u001b[0;32mexcept\u001b[0m \u001b[0mException\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
673 |       "\u001b[0;32mpandas/_libs/src/inference.pyx\u001b[0m in \u001b[0;36mpandas._libs.lib.maybe_convert_numeric (pandas/_libs/lib.c:56433)\u001b[0;34m()\u001b[0m\n",
674 |       "\u001b[0;31mValueError\u001b[0m: Unable to parse string \"missing\" at position 1"
675 |      ]
676 |     }
677 |    ],
678 |    "source": [
679 |     "# raise is the default\n",
680 |     "pd.to_numeric(tips_sub_miss['total_bill'], errors='raise')"
681 |    ]
682 |   },
683 |   {
684 |    "cell_type": "code",
685 |    "execution_count": 14,
686 |    "metadata": {},
687 |    "outputs": [
688 |     {
689 |      "data": {
690 |       "text/plain": [
691 |        "0    16.99\n",
692 |        "1      NaN\n",
693 |        "2    21.01\n",
694 |        "3      NaN\n",
695 |        "4    24.59\n",
696 |        "5      NaN\n",
697 |        "6     8.77\n",
698 |        "7      NaN\n",
699 |        "8    15.04\n",
700 |        "9    14.78\n",
701 |        "Name: total_bill, dtype: float64"
702 |       ]
703 |      },
704 |      "execution_count": 14,
705 |      "metadata": {},
706 |      "output_type": "execute_result"
707 |     }
708 |    ],
709 |    "source": [
710 |     "# coerce to NaN\n",
711 |     "pd.to_numeric(tips_sub_miss['total_bill'], errors='coerce')"
712 |    ]
713 |   },
714 |   {
715 |    "cell_type": "code",
716 |    "execution_count": null,
717 |    "metadata": {
718 |     "collapsed": true
719 |    },
720 |    "outputs": [],
721 |    "source": []
722 |   }
723 |  ],
724 |  "metadata": {
725 |   "kernelspec": {
726 |    "display_name": "Python 3",
727 |    "language": "python",
728 |    "name": "python3"
729 |   },
730 |   "language_info": {
731 |    "codemirror_mode": {
732 |     "name": "ipython",
733 |     "version": 3
734 |    },
735 |    "file_extension": ".py",
736 |    "mimetype": "text/x-python",
737 |    "name": "python",
738 |    "nbconvert_exporter": "python",
739 |    "pygments_lexer": "ipython3",
740 |    "version": "3.6.1"
741 |   }
742 |  },
743 |  "nbformat": 4,
744 |  "nbformat_minor": 2
745 | }
746 | 


--------------------------------------------------------------------------------
/01-notes/07-groupby.ipynb:
--------------------------------------------------------------------------------
   1 | {
   2 |  "cells": [
   3 |   {
   4 |    "cell_type": "code",
   5 |    "execution_count": 1,
   6 |    "metadata": {
   7 |     "collapsed": true
   8 |    },
   9 |    "outputs": [],
  10 |    "source": [
  11 |     "import pandas as pd"
  12 |    ]
  13 |   },
  14 |   {
  15 |    "cell_type": "code",
  16 |    "execution_count": 2,
  17 |    "metadata": {
  18 |     "collapsed": true
  19 |    },
  20 |    "outputs": [],
  21 |    "source": [
  22 |     "gapminder = pd.read_csv('../data/gapminder.tsv', sep='\\t')"
  23 |    ]
  24 |   },
  25 |   {
  26 |    "cell_type": "code",
  27 |    "execution_count": 3,
  28 |    "metadata": {},
  29 |    "outputs": [
  30 |     {
  31 |      "data": {
  32 |       "text/html": [
  33 |        "<div>\n",
  34 |        "<style>\n",
  35 |        "    .dataframe thead tr:only-child th {\n",
  36 |        "        text-align: right;\n",
  37 |        "    }\n",
  38 |        "\n",
  39 |        "    .dataframe thead th {\n",
  40 |        "        text-align: left;\n",
  41 |        "    }\n",
  42 |        "\n",
  43 |        "    .dataframe tbody tr th {\n",
  44 |        "        vertical-align: top;\n",
  45 |        "    }\n",
  46 |        "</style>\n",
  47 |        "<table border=\"1\" class=\"dataframe\">\n",
  48 |        "  <thead>\n",
  49 |        "    <tr style=\"text-align: right;\">\n",
  50 |        "      <th></th>\n",
  51 |        "      <th>country</th>\n",
  52 |        "      <th>continent</th>\n",
  53 |        "      <th>year</th>\n",
  54 |        "      <th>lifeExp</th>\n",
  55 |        "      <th>pop</th>\n",
  56 |        "      <th>gdpPercap</th>\n",
  57 |        "    </tr>\n",
  58 |        "  </thead>\n",
  59 |        "  <tbody>\n",
  60 |        "    <tr>\n",
  61 |        "      <th>0</th>\n",
  62 |        "      <td>Afghanistan</td>\n",
  63 |        "      <td>Asia</td>\n",
  64 |        "      <td>1952</td>\n",
  65 |        "      <td>28.801</td>\n",
  66 |        "      <td>8425333</td>\n",
  67 |        "      <td>779.445314</td>\n",
  68 |        "    </tr>\n",
  69 |        "    <tr>\n",
  70 |        "      <th>1</th>\n",
  71 |        "      <td>Afghanistan</td>\n",
  72 |        "      <td>Asia</td>\n",
  73 |        "      <td>1957</td>\n",
  74 |        "      <td>30.332</td>\n",
  75 |        "      <td>9240934</td>\n",
  76 |        "      <td>820.853030</td>\n",
  77 |        "    </tr>\n",
  78 |        "    <tr>\n",
  79 |        "      <th>2</th>\n",
  80 |        "      <td>Afghanistan</td>\n",
  81 |        "      <td>Asia</td>\n",
  82 |        "      <td>1962</td>\n",
  83 |        "      <td>31.997</td>\n",
  84 |        "      <td>10267083</td>\n",
  85 |        "      <td>853.100710</td>\n",
  86 |        "    </tr>\n",
  87 |        "    <tr>\n",
  88 |        "      <th>3</th>\n",
  89 |        "      <td>Afghanistan</td>\n",
  90 |        "      <td>Asia</td>\n",
  91 |        "      <td>1967</td>\n",
  92 |        "      <td>34.020</td>\n",
  93 |        "      <td>11537966</td>\n",
  94 |        "      <td>836.197138</td>\n",
  95 |        "    </tr>\n",
  96 |        "    <tr>\n",
  97 |        "      <th>4</th>\n",
  98 |        "      <td>Afghanistan</td>\n",
  99 |        "      <td>Asia</td>\n",
 100 |        "      <td>1972</td>\n",
 101 |        "      <td>36.088</td>\n",
 102 |        "      <td>13079460</td>\n",
 103 |        "      <td>739.981106</td>\n",
 104 |        "    </tr>\n",
 105 |        "  </tbody>\n",
 106 |        "</table>\n",
 107 |        "</div>"
 108 |       ],
 109 |       "text/plain": [
 110 |        "       country continent  year  lifeExp       pop   gdpPercap\n",
 111 |        "0  Afghanistan      Asia  1952   28.801   8425333  779.445314\n",
 112 |        "1  Afghanistan      Asia  1957   30.332   9240934  820.853030\n",
 113 |        "2  Afghanistan      Asia  1962   31.997  10267083  853.100710\n",
 114 |        "3  Afghanistan      Asia  1967   34.020  11537966  836.197138\n",
 115 |        "4  Afghanistan      Asia  1972   36.088  13079460  739.981106"
 116 |       ]
 117 |      },
 118 |      "execution_count": 3,
 119 |      "metadata": {},
 120 |      "output_type": "execute_result"
 121 |     }
 122 |    ],
 123 |    "source": [
 124 |     "gapminder.head()"
 125 |    ]
 126 |   },
 127 |   {
 128 |    "cell_type": "code",
 129 |    "execution_count": 4,
 130 |    "metadata": {},
 131 |    "outputs": [
 132 |     {
 133 |      "data": {
 134 |       "text/plain": [
 135 |        "year\n",
 136 |        "1952    49.057620\n",
 137 |        "1957    51.507401\n",
 138 |        "1962    53.609249\n",
 139 |        "1967    55.678290\n",
 140 |        "1972    57.647386\n",
 141 |        "1977    59.570157\n",
 142 |        "1982    61.533197\n",
 143 |        "1987    63.212613\n",
 144 |        "1992    64.160338\n",
 145 |        "1997    65.014676\n",
 146 |        "2002    65.694923\n",
 147 |        "2007    67.007423\n",
 148 |        "Name: lifeExp, dtype: float64"
 149 |       ]
 150 |      },
 151 |      "execution_count": 4,
 152 |      "metadata": {},
 153 |      "output_type": "execute_result"
 154 |     }
 155 |    ],
 156 |    "source": [
 157 |     "# what we did before\n",
 158 |     "gapminder.groupby('year')['lifeExp'].mean()"
 159 |    ]
 160 |   },
 161 |   {
 162 |    "cell_type": "code",
 163 |    "execution_count": 5,
 164 |    "metadata": {},
 165 |    "outputs": [
 166 |     {
 167 |      "data": {
 168 |       "text/html": [
 169 |        "<div>\n",
 170 |        "<style>\n",
 171 |        "    .dataframe thead tr:only-child th {\n",
 172 |        "        text-align: right;\n",
 173 |        "    }\n",
 174 |        "\n",
 175 |        "    .dataframe thead th {\n",
 176 |        "        text-align: left;\n",
 177 |        "    }\n",
 178 |        "\n",
 179 |        "    .dataframe tbody tr th {\n",
 180 |        "        vertical-align: top;\n",
 181 |        "    }\n",
 182 |        "</style>\n",
 183 |        "<table border=\"1\" class=\"dataframe\">\n",
 184 |        "  <thead>\n",
 185 |        "    <tr style=\"text-align: right;\">\n",
 186 |        "      <th></th>\n",
 187 |        "      <th>country</th>\n",
 188 |        "      <th>continent</th>\n",
 189 |        "      <th>year</th>\n",
 190 |        "      <th>lifeExp</th>\n",
 191 |        "      <th>pop</th>\n",
 192 |        "      <th>gdpPercap</th>\n",
 193 |        "    </tr>\n",
 194 |        "  </thead>\n",
 195 |        "  <tbody>\n",
 196 |        "    <tr>\n",
 197 |        "      <th>0</th>\n",
 198 |        "      <td>Afghanistan</td>\n",
 199 |        "      <td>Asia</td>\n",
 200 |        "      <td>1952</td>\n",
 201 |        "      <td>28.801</td>\n",
 202 |        "      <td>8425333</td>\n",
 203 |        "      <td>779.445314</td>\n",
 204 |        "    </tr>\n",
 205 |        "    <tr>\n",
 206 |        "      <th>12</th>\n",
 207 |        "      <td>Albania</td>\n",
 208 |        "      <td>Europe</td>\n",
 209 |        "      <td>1952</td>\n",
 210 |        "      <td>55.230</td>\n",
 211 |        "      <td>1282697</td>\n",
 212 |        "      <td>1601.056136</td>\n",
 213 |        "    </tr>\n",
 214 |        "    <tr>\n",
 215 |        "      <th>24</th>\n",
 216 |        "      <td>Algeria</td>\n",
 217 |        "      <td>Africa</td>\n",
 218 |        "      <td>1952</td>\n",
 219 |        "      <td>43.077</td>\n",
 220 |        "      <td>9279525</td>\n",
 221 |        "      <td>2449.008185</td>\n",
 222 |        "    </tr>\n",
 223 |        "    <tr>\n",
 224 |        "      <th>36</th>\n",
 225 |        "      <td>Angola</td>\n",
 226 |        "      <td>Africa</td>\n",
 227 |        "      <td>1952</td>\n",
 228 |        "      <td>30.015</td>\n",
 229 |        "      <td>4232095</td>\n",
 230 |        "      <td>3520.610273</td>\n",
 231 |        "    </tr>\n",
 232 |        "    <tr>\n",
 233 |        "      <th>48</th>\n",
 234 |        "      <td>Argentina</td>\n",
 235 |        "      <td>Americas</td>\n",
 236 |        "      <td>1952</td>\n",
 237 |        "      <td>62.485</td>\n",
 238 |        "      <td>17876956</td>\n",
 239 |        "      <td>5911.315053</td>\n",
 240 |        "    </tr>\n",
 241 |        "  </tbody>\n",
 242 |        "</table>\n",
 243 |        "</div>"
 244 |       ],
 245 |       "text/plain": [
 246 |        "        country continent  year  lifeExp       pop    gdpPercap\n",
 247 |        "0   Afghanistan      Asia  1952   28.801   8425333   779.445314\n",
 248 |        "12      Albania    Europe  1952   55.230   1282697  1601.056136\n",
 249 |        "24      Algeria    Africa  1952   43.077   9279525  2449.008185\n",
 250 |        "36       Angola    Africa  1952   30.015   4232095  3520.610273\n",
 251 |        "48    Argentina  Americas  1952   62.485  17876956  5911.315053"
 252 |       ]
 253 |      },
 254 |      "execution_count": 5,
 255 |      "metadata": {},
 256 |      "output_type": "execute_result"
 257 |     }
 258 |    ],
 259 |    "source": [
 260 |     "# breaking the groupby down\n",
 261 |     "y1952 = gapminder.loc[gapminder['year'] == 1952, :]\n",
 262 |     "y1952.head()"
 263 |    ]
 264 |   },
 265 |   {
 266 |    "cell_type": "code",
 267 |    "execution_count": 6,
 268 |    "metadata": {},
 269 |    "outputs": [
 270 |     {
 271 |      "data": {
 272 |       "text/plain": [
 273 |        "49.05761971830987"
 274 |       ]
 275 |      },
 276 |      "execution_count": 6,
 277 |      "metadata": {},
 278 |      "output_type": "execute_result"
 279 |     }
 280 |    ],
 281 |    "source": [
 282 |     "y1952['lifeExp'].mean()"
 283 |    ]
 284 |   },
 285 |   {
 286 |    "cell_type": "markdown",
 287 |    "metadata": {},
 288 |    "source": [
 289 |     "methods you can use\n",
 290 |     "\n",
 291 |     "- count\n",
 292 |     "- size\n",
 293 |     "- mean\n",
 294 |     "- std\n",
 295 |     "- min\n",
 296 |     "- quantile(q=0.25)\n",
 297 |     "- max\n",
 298 |     "- sum\n",
 299 |     "- var\n",
 300 |     "- sem\n",
 301 |     "- describe\n",
 302 |     "- first\n",
 303 |     "- last\n",
 304 |     "- nth"
 305 |    ]
 306 |   },
 307 |   {
 308 |    "cell_type": "code",
 309 |    "execution_count": 7,
 310 |    "metadata": {},
 311 |    "outputs": [
 312 |     {
 313 |      "data": {
 314 |       "text/html": [
 315 |        "<div>\n",
 316 |        "<style>\n",
 317 |        "    .dataframe thead tr:only-child th {\n",
 318 |        "        text-align: right;\n",
 319 |        "    }\n",
 320 |        "\n",
 321 |        "    .dataframe thead th {\n",
 322 |        "        text-align: left;\n",
 323 |        "    }\n",
 324 |        "\n",
 325 |        "    .dataframe tbody tr th {\n",
 326 |        "        vertical-align: top;\n",
 327 |        "    }\n",
 328 |        "</style>\n",
 329 |        "<table border=\"1\" class=\"dataframe\">\n",
 330 |        "  <thead>\n",
 331 |        "    <tr style=\"text-align: right;\">\n",
 332 |        "      <th></th>\n",
 333 |        "      <th>count</th>\n",
 334 |        "      <th>mean</th>\n",
 335 |        "      <th>std</th>\n",
 336 |        "      <th>min</th>\n",
 337 |        "      <th>25%</th>\n",
 338 |        "      <th>50%</th>\n",
 339 |        "      <th>75%</th>\n",
 340 |        "      <th>max</th>\n",
 341 |        "    </tr>\n",
 342 |        "    <tr>\n",
 343 |        "      <th>continent</th>\n",
 344 |        "      <th></th>\n",
 345 |        "      <th></th>\n",
 346 |        "      <th></th>\n",
 347 |        "      <th></th>\n",
 348 |        "      <th></th>\n",
 349 |        "      <th></th>\n",
 350 |        "      <th></th>\n",
 351 |        "      <th></th>\n",
 352 |        "    </tr>\n",
 353 |        "  </thead>\n",
 354 |        "  <tbody>\n",
 355 |        "    <tr>\n",
 356 |        "      <th>Africa</th>\n",
 357 |        "      <td>624.0</td>\n",
 358 |        "      <td>48.865330</td>\n",
 359 |        "      <td>9.150210</td>\n",
 360 |        "      <td>23.599</td>\n",
 361 |        "      <td>42.37250</td>\n",
 362 |        "      <td>47.7920</td>\n",
 363 |        "      <td>54.41150</td>\n",
 364 |        "      <td>76.442</td>\n",
 365 |        "    </tr>\n",
 366 |        "    <tr>\n",
 367 |        "      <th>Americas</th>\n",
 368 |        "      <td>300.0</td>\n",
 369 |        "      <td>64.658737</td>\n",
 370 |        "      <td>9.345088</td>\n",
 371 |        "      <td>37.579</td>\n",
 372 |        "      <td>58.41000</td>\n",
 373 |        "      <td>67.0480</td>\n",
 374 |        "      <td>71.69950</td>\n",
 375 |        "      <td>80.653</td>\n",
 376 |        "    </tr>\n",
 377 |        "    <tr>\n",
 378 |        "      <th>Asia</th>\n",
 379 |        "      <td>396.0</td>\n",
 380 |        "      <td>60.064903</td>\n",
 381 |        "      <td>11.864532</td>\n",
 382 |        "      <td>28.801</td>\n",
 383 |        "      <td>51.42625</td>\n",
 384 |        "      <td>61.7915</td>\n",
 385 |        "      <td>69.50525</td>\n",
 386 |        "      <td>82.603</td>\n",
 387 |        "    </tr>\n",
 388 |        "    <tr>\n",
 389 |        "      <th>Europe</th>\n",
 390 |        "      <td>360.0</td>\n",
 391 |        "      <td>71.903686</td>\n",
 392 |        "      <td>5.433178</td>\n",
 393 |        "      <td>43.585</td>\n",
 394 |        "      <td>69.57000</td>\n",
 395 |        "      <td>72.2410</td>\n",
 396 |        "      <td>75.45050</td>\n",
 397 |        "      <td>81.757</td>\n",
 398 |        "    </tr>\n",
 399 |        "    <tr>\n",
 400 |        "      <th>Oceania</th>\n",
 401 |        "      <td>24.0</td>\n",
 402 |        "      <td>74.326208</td>\n",
 403 |        "      <td>3.795611</td>\n",
 404 |        "      <td>69.120</td>\n",
 405 |        "      <td>71.20500</td>\n",
 406 |        "      <td>73.6650</td>\n",
 407 |        "      <td>77.55250</td>\n",
 408 |        "      <td>81.235</td>\n",
 409 |        "    </tr>\n",
 410 |        "  </tbody>\n",
 411 |        "</table>\n",
 412 |        "</div>"
 413 |       ],
 414 |       "text/plain": [
 415 |        "           count       mean        std     min       25%      50%       75%  \\\n",
 416 |        "continent                                                                     \n",
 417 |        "Africa     624.0  48.865330   9.150210  23.599  42.37250  47.7920  54.41150   \n",
 418 |        "Americas   300.0  64.658737   9.345088  37.579  58.41000  67.0480  71.69950   \n",
 419 |        "Asia       396.0  60.064903  11.864532  28.801  51.42625  61.7915  69.50525   \n",
 420 |        "Europe     360.0  71.903686   5.433178  43.585  69.57000  72.2410  75.45050   \n",
 421 |        "Oceania     24.0  74.326208   3.795611  69.120  71.20500  73.6650  77.55250   \n",
 422 |        "\n",
 423 |        "              max  \n",
 424 |        "continent          \n",
 425 |        "Africa     76.442  \n",
 426 |        "Americas   80.653  \n",
 427 |        "Asia       82.603  \n",
 428 |        "Europe     81.757  \n",
 429 |        "Oceania    81.235  "
 430 |       ]
 431 |      },
 432 |      "execution_count": 7,
 433 |      "metadata": {},
 434 |      "output_type": "execute_result"
 435 |     }
 436 |    ],
 437 |    "source": [
 438 |     "gapminder.groupby('continent')['lifeExp'].describe()"
 439 |    ]
 440 |   },
 441 |   {
 442 |    "cell_type": "code",
 443 |    "execution_count": 8,
 444 |    "metadata": {},
 445 |    "outputs": [
 446 |     {
 447 |      "data": {
 448 |       "text/plain": [
 449 |        "continent\n",
 450 |        "Africa      48.865330\n",
 451 |        "Americas    64.658737\n",
 452 |        "Asia        60.064903\n",
 453 |        "Europe      71.903686\n",
 454 |        "Oceania     74.326208\n",
 455 |        "Name: lifeExp, dtype: float64"
 456 |       ]
 457 |      },
 458 |      "execution_count": 8,
 459 |      "metadata": {},
 460 |      "output_type": "execute_result"
 461 |     }
 462 |    ],
 463 |    "source": [
 464 |     "## use agg to call functions from other libraries\n",
 465 |     "## or even functions you write yourself\n",
 466 |     "import numpy as np\n",
 467 |     "\n",
 468 |     "# these 2 do the same thing\n",
 469 |     "gapminder.groupby('continent')['lifeExp'].aggregate(np.mean)\n",
 470 |     "gapminder.groupby('continent')['lifeExp'].agg(np.mean)"
 471 |    ]
 472 |   },
 473 |   {
 474 |    "cell_type": "code",
 475 |    "execution_count": 9,
 476 |    "metadata": {
 477 |     "collapsed": true
 478 |    },
 479 |    "outputs": [],
 480 |    "source": [
 481 |     "def my_mean(values):\n",
 482 |     "    n = len(values)\n",
 483 |     "    s = np.sum(values)\n",
 484 |     "    return s / n"
 485 |    ]
 486 |   },
 487 |   {
 488 |    "cell_type": "code",
 489 |    "execution_count": 10,
 490 |    "metadata": {},
 491 |    "outputs": [
 492 |     {
 493 |      "data": {
 494 |       "text/plain": [
 495 |        "continent\n",
 496 |        "Africa      48.865330\n",
 497 |        "Americas    64.658737\n",
 498 |        "Asia        60.064903\n",
 499 |        "Europe      71.903686\n",
 500 |        "Oceania     74.326208\n",
 501 |        "Name: lifeExp, dtype: float64"
 502 |       ]
 503 |      },
 504 |      "execution_count": 10,
 505 |      "metadata": {},
 506 |      "output_type": "execute_result"
 507 |     }
 508 |    ],
 509 |    "source": [
 510 |     "gapminder.groupby('continent')['lifeExp'].agg(my_mean)"
 511 |    ]
 512 |   },
 513 |   {
 514 |    "cell_type": "code",
 515 |    "execution_count": 11,
 516 |    "metadata": {},
 517 |    "outputs": [
 518 |     {
 519 |      "data": {
 520 |       "text/html": [
 521 |        "<div>\n",
 522 |        "<style>\n",
 523 |        "    .dataframe thead tr:only-child th {\n",
 524 |        "        text-align: right;\n",
 525 |        "    }\n",
 526 |        "\n",
 527 |        "    .dataframe thead th {\n",
 528 |        "        text-align: left;\n",
 529 |        "    }\n",
 530 |        "\n",
 531 |        "    .dataframe tbody tr th {\n",
 532 |        "        vertical-align: top;\n",
 533 |        "    }\n",
 534 |        "</style>\n",
 535 |        "<table border=\"1\" class=\"dataframe\">\n",
 536 |        "  <thead>\n",
 537 |        "    <tr style=\"text-align: right;\">\n",
 538 |        "      <th></th>\n",
 539 |        "      <th>count_nonzero</th>\n",
 540 |        "      <th>mean</th>\n",
 541 |        "      <th>std</th>\n",
 542 |        "    </tr>\n",
 543 |        "    <tr>\n",
 544 |        "      <th>year</th>\n",
 545 |        "      <th></th>\n",
 546 |        "      <th></th>\n",
 547 |        "      <th></th>\n",
 548 |        "    </tr>\n",
 549 |        "  </thead>\n",
 550 |        "  <tbody>\n",
 551 |        "    <tr>\n",
 552 |        "      <th>1952</th>\n",
 553 |        "      <td>142.0</td>\n",
 554 |        "      <td>49.057620</td>\n",
 555 |        "      <td>12.225956</td>\n",
 556 |        "    </tr>\n",
 557 |        "    <tr>\n",
 558 |        "      <th>1957</th>\n",
 559 |        "      <td>142.0</td>\n",
 560 |        "      <td>51.507401</td>\n",
 561 |        "      <td>12.231286</td>\n",
 562 |        "    </tr>\n",
 563 |        "    <tr>\n",
 564 |        "      <th>1962</th>\n",
 565 |        "      <td>142.0</td>\n",
 566 |        "      <td>53.609249</td>\n",
 567 |        "      <td>12.097245</td>\n",
 568 |        "    </tr>\n",
 569 |        "    <tr>\n",
 570 |        "      <th>1967</th>\n",
 571 |        "      <td>142.0</td>\n",
 572 |        "      <td>55.678290</td>\n",
 573 |        "      <td>11.718858</td>\n",
 574 |        "    </tr>\n",
 575 |        "    <tr>\n",
 576 |        "      <th>1972</th>\n",
 577 |        "      <td>142.0</td>\n",
 578 |        "      <td>57.647386</td>\n",
 579 |        "      <td>11.381953</td>\n",
 580 |        "    </tr>\n",
 581 |        "    <tr>\n",
 582 |        "      <th>1977</th>\n",
 583 |        "      <td>142.0</td>\n",
 584 |        "      <td>59.570157</td>\n",
 585 |        "      <td>11.227229</td>\n",
 586 |        "    </tr>\n",
 587 |        "    <tr>\n",
 588 |        "      <th>1982</th>\n",
 589 |        "      <td>142.0</td>\n",
 590 |        "      <td>61.533197</td>\n",
 591 |        "      <td>10.770618</td>\n",
 592 |        "    </tr>\n",
 593 |        "    <tr>\n",
 594 |        "      <th>1987</th>\n",
 595 |        "      <td>142.0</td>\n",
 596 |        "      <td>63.212613</td>\n",
 597 |        "      <td>10.556285</td>\n",
 598 |        "    </tr>\n",
 599 |        "    <tr>\n",
 600 |        "      <th>1992</th>\n",
 601 |        "      <td>142.0</td>\n",
 602 |        "      <td>64.160338</td>\n",
 603 |        "      <td>11.227380</td>\n",
 604 |        "    </tr>\n",
 605 |        "    <tr>\n",
 606 |        "      <th>1997</th>\n",
 607 |        "      <td>142.0</td>\n",
 608 |        "      <td>65.014676</td>\n",
 609 |        "      <td>11.559439</td>\n",
 610 |        "    </tr>\n",
 611 |        "    <tr>\n",
 612 |        "      <th>2002</th>\n",
 613 |        "      <td>142.0</td>\n",
 614 |        "      <td>65.694923</td>\n",
 615 |        "      <td>12.279823</td>\n",
 616 |        "    </tr>\n",
 617 |        "    <tr>\n",
 618 |        "      <th>2007</th>\n",
 619 |        "      <td>142.0</td>\n",
 620 |        "      <td>67.007423</td>\n",
 621 |        "      <td>12.073021</td>\n",
 622 |        "    </tr>\n",
 623 |        "  </tbody>\n",
 624 |        "</table>\n",
 625 |        "</div>"
 626 |       ],
 627 |       "text/plain": [
 628 |        "      count_nonzero       mean        std\n",
 629 |        "year                                     \n",
 630 |        "1952          142.0  49.057620  12.225956\n",
 631 |        "1957          142.0  51.507401  12.231286\n",
 632 |        "1962          142.0  53.609249  12.097245\n",
 633 |        "1967          142.0  55.678290  11.718858\n",
 634 |        "1972          142.0  57.647386  11.381953\n",
 635 |        "1977          142.0  59.570157  11.227229\n",
 636 |        "1982          142.0  61.533197  10.770618\n",
 637 |        "1987          142.0  63.212613  10.556285\n",
 638 |        "1992          142.0  64.160338  11.227380\n",
 639 |        "1997          142.0  65.014676  11.559439\n",
 640 |        "2002          142.0  65.694923  12.279823\n",
 641 |        "2007          142.0  67.007423  12.073021"
 642 |       ]
 643 |      },
 644 |      "execution_count": 11,
 645 |      "metadata": {},
 646 |      "output_type": "execute_result"
 647 |     }
 648 |    ],
 649 |    "source": [
 650 |     "# multiple functions\n",
 651 |     "gapminder.groupby('year')['lifeExp'].agg([\n",
 652 |     "    np.count_nonzero,\n",
 653 |     "    np.mean,\n",
 654 |     "    np.std\n",
 655 |     "])"
 656 |    ]
 657 |   },
 658 |   {
 659 |    "cell_type": "code",
 660 |    "execution_count": 12,
 661 |    "metadata": {},
 662 |    "outputs": [
 663 |     {
 664 |      "name": "stderr",
 665 |      "output_type": "stream",
 666 |      "text": [
 667 |       "/home/dchen/anaconda3/lib/python3.6/site-packages/ipykernel_launcher.py:4: FutureWarning: using a dict on a Series for aggregation\n",
 668 |       "is deprecated and will be removed in a future version\n",
 669 |       "  after removing the cwd from sys.path.\n"
 670 |      ]
 671 |     },
 672 |     {
 673 |      "data": {
 674 |       "text/html": [
 675 |        "<div>\n",
 676 |        "<style>\n",
 677 |        "    .dataframe thead tr:only-child th {\n",
 678 |        "        text-align: right;\n",
 679 |        "    }\n",
 680 |        "\n",
 681 |        "    .dataframe thead th {\n",
 682 |        "        text-align: left;\n",
 683 |        "    }\n",
 684 |        "\n",
 685 |        "    .dataframe tbody tr th {\n",
 686 |        "        vertical-align: top;\n",
 687 |        "    }\n",
 688 |        "</style>\n",
 689 |        "<table border=\"1\" class=\"dataframe\">\n",
 690 |        "  <thead>\n",
 691 |        "    <tr style=\"text-align: right;\">\n",
 692 |        "      <th></th>\n",
 693 |        "      <th>year</th>\n",
 694 |        "      <th>ncount</th>\n",
 695 |        "      <th>mean</th>\n",
 696 |        "      <th>std</th>\n",
 697 |        "    </tr>\n",
 698 |        "  </thead>\n",
 699 |        "  <tbody>\n",
 700 |        "    <tr>\n",
 701 |        "      <th>0</th>\n",
 702 |        "      <td>1952</td>\n",
 703 |        "      <td>142.0</td>\n",
 704 |        "      <td>49.057620</td>\n",
 705 |        "      <td>12.225956</td>\n",
 706 |        "    </tr>\n",
 707 |        "    <tr>\n",
 708 |        "      <th>1</th>\n",
 709 |        "      <td>1957</td>\n",
 710 |        "      <td>142.0</td>\n",
 711 |        "      <td>51.507401</td>\n",
 712 |        "      <td>12.231286</td>\n",
 713 |        "    </tr>\n",
 714 |        "    <tr>\n",
 715 |        "      <th>2</th>\n",
 716 |        "      <td>1962</td>\n",
 717 |        "      <td>142.0</td>\n",
 718 |        "      <td>53.609249</td>\n",
 719 |        "      <td>12.097245</td>\n",
 720 |        "    </tr>\n",
 721 |        "    <tr>\n",
 722 |        "      <th>3</th>\n",
 723 |        "      <td>1967</td>\n",
 724 |        "      <td>142.0</td>\n",
 725 |        "      <td>55.678290</td>\n",
 726 |        "      <td>11.718858</td>\n",
 727 |        "    </tr>\n",
 728 |        "    <tr>\n",
 729 |        "      <th>4</th>\n",
 730 |        "      <td>1972</td>\n",
 731 |        "      <td>142.0</td>\n",
 732 |        "      <td>57.647386</td>\n",
 733 |        "      <td>11.381953</td>\n",
 734 |        "    </tr>\n",
 735 |        "    <tr>\n",
 736 |        "      <th>5</th>\n",
 737 |        "      <td>1977</td>\n",
 738 |        "      <td>142.0</td>\n",
 739 |        "      <td>59.570157</td>\n",
 740 |        "      <td>11.227229</td>\n",
 741 |        "    </tr>\n",
 742 |        "    <tr>\n",
 743 |        "      <th>6</th>\n",
 744 |        "      <td>1982</td>\n",
 745 |        "      <td>142.0</td>\n",
 746 |        "      <td>61.533197</td>\n",
 747 |        "      <td>10.770618</td>\n",
 748 |        "    </tr>\n",
 749 |        "    <tr>\n",
 750 |        "      <th>7</th>\n",
 751 |        "      <td>1987</td>\n",
 752 |        "      <td>142.0</td>\n",
 753 |        "      <td>63.212613</td>\n",
 754 |        "      <td>10.556285</td>\n",
 755 |        "    </tr>\n",
 756 |        "    <tr>\n",
 757 |        "      <th>8</th>\n",
 758 |        "      <td>1992</td>\n",
 759 |        "      <td>142.0</td>\n",
 760 |        "      <td>64.160338</td>\n",
 761 |        "      <td>11.227380</td>\n",
 762 |        "    </tr>\n",
 763 |        "    <tr>\n",
 764 |        "      <th>9</th>\n",
 765 |        "      <td>1997</td>\n",
 766 |        "      <td>142.0</td>\n",
 767 |        "      <td>65.014676</td>\n",
 768 |        "      <td>11.559439</td>\n",
 769 |        "    </tr>\n",
 770 |        "    <tr>\n",
 771 |        "      <th>10</th>\n",
 772 |        "      <td>2002</td>\n",
 773 |        "      <td>142.0</td>\n",
 774 |        "      <td>65.694923</td>\n",
 775 |        "      <td>12.279823</td>\n",
 776 |        "    </tr>\n",
 777 |        "    <tr>\n",
 778 |        "      <th>11</th>\n",
 779 |        "      <td>2007</td>\n",
 780 |        "      <td>142.0</td>\n",
 781 |        "      <td>67.007423</td>\n",
 782 |        "      <td>12.073021</td>\n",
 783 |        "    </tr>\n",
 784 |        "  </tbody>\n",
 785 |        "</table>\n",
 786 |        "</div>"
 787 |       ],
 788 |       "text/plain": [
 789 |        "    year  ncount       mean        std\n",
 790 |        "0   1952   142.0  49.057620  12.225956\n",
 791 |        "1   1957   142.0  51.507401  12.231286\n",
 792 |        "2   1962   142.0  53.609249  12.097245\n",
 793 |        "3   1967   142.0  55.678290  11.718858\n",
 794 |        "4   1972   142.0  57.647386  11.381953\n",
 795 |        "5   1977   142.0  59.570157  11.227229\n",
 796 |        "6   1982   142.0  61.533197  10.770618\n",
 797 |        "7   1987   142.0  63.212613  10.556285\n",
 798 |        "8   1992   142.0  64.160338  11.227380\n",
 799 |        "9   1997   142.0  65.014676  11.559439\n",
 800 |        "10  2002   142.0  65.694923  12.279823\n",
 801 |        "11  2007   142.0  67.007423  12.073021"
 802 |       ]
 803 |      },
 804 |      "execution_count": 12,
 805 |      "metadata": {},
 806 |      "output_type": "execute_result"
 807 |     }
 808 |    ],
 809 |    "source": [
 810 |     "gapminder.groupby('year')['lifeExp'].agg({\n",
 811 |     "    'ncount': np.count_nonzero,\n",
 812 |     "    'mean': np.mean,\n",
 813 |     "    'std': np.std\n",
 814 |     "}).reset_index()"
 815 |    ]
 816 |   },
 817 |   {
 818 |    "cell_type": "markdown",
 819 |    "metadata": {},
 820 |    "source": [
 821 |     "http://pandas.pydata.org/pandas-docs/version/0.20/whatsnew.html#deprecate-groupby-agg-with-a-dictionary-when-renaming\n"
 822 |    ]
 823 |   },
 824 |   {
 825 |    "cell_type": "code",
 826 |    "execution_count": 13,
 827 |    "metadata": {},
 828 |    "outputs": [
 829 |     {
 830 |      "data": {
 831 |       "text/html": [
 832 |        "<div>\n",
 833 |        "<style>\n",
 834 |        "    .dataframe thead tr:only-child th {\n",
 835 |        "        text-align: right;\n",
 836 |        "    }\n",
 837 |        "\n",
 838 |        "    .dataframe thead th {\n",
 839 |        "        text-align: left;\n",
 840 |        "    }\n",
 841 |        "\n",
 842 |        "    .dataframe tbody tr th {\n",
 843 |        "        vertical-align: top;\n",
 844 |        "    }\n",
 845 |        "</style>\n",
 846 |        "<table border=\"1\" class=\"dataframe\">\n",
 847 |        "  <thead>\n",
 848 |        "    <tr style=\"text-align: right;\">\n",
 849 |        "      <th></th>\n",
 850 |        "      <th>year</th>\n",
 851 |        "      <th>count</th>\n",
 852 |        "      <th>avg</th>\n",
 853 |        "      <th>std_dev</th>\n",
 854 |        "    </tr>\n",
 855 |        "  </thead>\n",
 856 |        "  <tbody>\n",
 857 |        "    <tr>\n",
 858 |        "      <th>0</th>\n",
 859 |        "      <td>1952</td>\n",
 860 |        "      <td>142.0</td>\n",
 861 |        "      <td>49.057620</td>\n",
 862 |        "      <td>12.225956</td>\n",
 863 |        "    </tr>\n",
 864 |        "    <tr>\n",
 865 |        "      <th>1</th>\n",
 866 |        "      <td>1957</td>\n",
 867 |        "      <td>142.0</td>\n",
 868 |        "      <td>51.507401</td>\n",
 869 |        "      <td>12.231286</td>\n",
 870 |        "    </tr>\n",
 871 |        "    <tr>\n",
 872 |        "      <th>2</th>\n",
 873 |        "      <td>1962</td>\n",
 874 |        "      <td>142.0</td>\n",
 875 |        "      <td>53.609249</td>\n",
 876 |        "      <td>12.097245</td>\n",
 877 |        "    </tr>\n",
 878 |        "    <tr>\n",
 879 |        "      <th>3</th>\n",
 880 |        "      <td>1967</td>\n",
 881 |        "      <td>142.0</td>\n",
 882 |        "      <td>55.678290</td>\n",
 883 |        "      <td>11.718858</td>\n",
 884 |        "    </tr>\n",
 885 |        "    <tr>\n",
 886 |        "      <th>4</th>\n",
 887 |        "      <td>1972</td>\n",
 888 |        "      <td>142.0</td>\n",
 889 |        "      <td>57.647386</td>\n",
 890 |        "      <td>11.381953</td>\n",
 891 |        "    </tr>\n",
 892 |        "    <tr>\n",
 893 |        "      <th>5</th>\n",
 894 |        "      <td>1977</td>\n",
 895 |        "      <td>142.0</td>\n",
 896 |        "      <td>59.570157</td>\n",
 897 |        "      <td>11.227229</td>\n",
 898 |        "    </tr>\n",
 899 |        "    <tr>\n",
 900 |        "      <th>6</th>\n",
 901 |        "      <td>1982</td>\n",
 902 |        "      <td>142.0</td>\n",
 903 |        "      <td>61.533197</td>\n",
 904 |        "      <td>10.770618</td>\n",
 905 |        "    </tr>\n",
 906 |        "    <tr>\n",
 907 |        "      <th>7</th>\n",
 908 |        "      <td>1987</td>\n",
 909 |        "      <td>142.0</td>\n",
 910 |        "      <td>63.212613</td>\n",
 911 |        "      <td>10.556285</td>\n",
 912 |        "    </tr>\n",
 913 |        "    <tr>\n",
 914 |        "      <th>8</th>\n",
 915 |        "      <td>1992</td>\n",
 916 |        "      <td>142.0</td>\n",
 917 |        "      <td>64.160338</td>\n",
 918 |        "      <td>11.227380</td>\n",
 919 |        "    </tr>\n",
 920 |        "    <tr>\n",
 921 |        "      <th>9</th>\n",
 922 |        "      <td>1997</td>\n",
 923 |        "      <td>142.0</td>\n",
 924 |        "      <td>65.014676</td>\n",
 925 |        "      <td>11.559439</td>\n",
 926 |        "    </tr>\n",
 927 |        "    <tr>\n",
 928 |        "      <th>10</th>\n",
 929 |        "      <td>2002</td>\n",
 930 |        "      <td>142.0</td>\n",
 931 |        "      <td>65.694923</td>\n",
 932 |        "      <td>12.279823</td>\n",
 933 |        "    </tr>\n",
 934 |        "    <tr>\n",
 935 |        "      <th>11</th>\n",
 936 |        "      <td>2007</td>\n",
 937 |        "      <td>142.0</td>\n",
 938 |        "      <td>67.007423</td>\n",
 939 |        "      <td>12.073021</td>\n",
 940 |        "    </tr>\n",
 941 |        "  </tbody>\n",
 942 |        "</table>\n",
 943 |        "</div>"
 944 |       ],
 945 |       "text/plain": [
 946 |        "    year  count        avg    std_dev\n",
 947 |        "0   1952  142.0  49.057620  12.225956\n",
 948 |        "1   1957  142.0  51.507401  12.231286\n",
 949 |        "2   1962  142.0  53.609249  12.097245\n",
 950 |        "3   1967  142.0  55.678290  11.718858\n",
 951 |        "4   1972  142.0  57.647386  11.381953\n",
 952 |        "5   1977  142.0  59.570157  11.227229\n",
 953 |        "6   1982  142.0  61.533197  10.770618\n",
 954 |        "7   1987  142.0  63.212613  10.556285\n",
 955 |        "8   1992  142.0  64.160338  11.227380\n",
 956 |        "9   1997  142.0  65.014676  11.559439\n",
 957 |        "10  2002  142.0  65.694923  12.279823\n",
 958 |        "11  2007  142.0  67.007423  12.073021"
 959 |       ]
 960 |      },
 961 |      "execution_count": 13,
 962 |      "metadata": {},
 963 |      "output_type": "execute_result"
 964 |     }
 965 |    ],
 966 |    "source": [
 967 |     "gapminder.groupby('year')['lifeExp'].\\\n",
 968 |     "    agg([np.count_nonzero, np.mean, np.std]).\\\n",
 969 |     "    rename(columns={'count_nonzero': 'count',\n",
 970 |     "                   'mean': 'avg',\n",
 971 |     "                   'std': 'std_dev'}).\\\n",
 972 |     "    reset_index()"
 973 |    ]
 974 |   },
 975 |   {
 976 |    "cell_type": "markdown",
 977 |    "metadata": {},
 978 |    "source": [
 979 |     "other things to look into for groupby\n",
 980 |     "\n",
 981 |     "- transform (returns same number of rows)\n",
 982 |     "- filter (returns a subset)"
 983 |    ]
 984 |   },
 985 |   {
 986 |    "cell_type": "code",
 987 |    "execution_count": null,
 988 |    "metadata": {
 989 |     "collapsed": true
 990 |    },
 991 |    "outputs": [],
 992 |    "source": []
 993 |   }
 994 |  ],
 995 |  "metadata": {
 996 |   "kernelspec": {
 997 |    "display_name": "Python 3",
 998 |    "language": "python",
 999 |    "name": "python3"
1000 |   },
1001 |   "language_info": {
1002 |    "codemirror_mode": {
1003 |     "name": "ipython",
1004 |     "version": 3
1005 |    },
1006 |    "file_extension": ".py",
1007 |    "mimetype": "text/x-python",
1008 |    "name": "python",
1009 |    "nbconvert_exporter": "python",
1010 |    "pygments_lexer": "ipython3",
1011 |    "version": "3.6.1"
1012 |   }
1013 |  },
1014 |  "nbformat": 4,
1015 |  "nbformat_minor": 2
1016 | }
1017 | 


--------------------------------------------------------------------------------
/01-notes/08a-statsmodels_linear.ipynb:
--------------------------------------------------------------------------------
  1 | {
  2 |  "cells": [
  3 |   {
  4 |    "cell_type": "code",
  5 |    "execution_count": 1,
  6 |    "metadata": {},
  7 |    "outputs": [
  8 |     {
  9 |      "name": "stderr",
 10 |      "output_type": "stream",
 11 |      "text": [
 12 |       "/home/dchen/anaconda3/lib/python3.6/site-packages/statsmodels/compat/pandas.py:56: FutureWarning: The pandas.core.datetools module is deprecated and will be removed in a future version. Please use the pandas.tseries module instead.\n",
 13 |       "  from pandas.core import datetools\n"
 14 |      ]
 15 |     }
 16 |    ],
 17 |    "source": [
 18 |     "import pandas as pd\n",
 19 |     "import seaborn as sns\n",
 20 |     "import statsmodels.api as sm\n",
 21 |     "import statsmodels.formula.api as smf"
 22 |    ]
 23 |   },
 24 |   {
 25 |    "cell_type": "markdown",
 26 |    "metadata": {},
 27 |    "source": [
 28 |     "additional reference: https://www.datarobot.com/blog/multiple-regression-using-statsmodels/"
 29 |    ]
 30 |   },
 31 |   {
 32 |    "cell_type": "code",
 33 |    "execution_count": 2,
 34 |    "metadata": {},
 35 |    "outputs": [
 36 |     {
 37 |      "data": {
 38 |       "text/html": [
 39 |        "<div>\n",
 40 |        "<style>\n",
 41 |        "    .dataframe thead tr:only-child th {\n",
 42 |        "        text-align: right;\n",
 43 |        "    }\n",
 44 |        "\n",
 45 |        "    .dataframe thead th {\n",
 46 |        "        text-align: left;\n",
 47 |        "    }\n",
 48 |        "\n",
 49 |        "    .dataframe tbody tr th {\n",
 50 |        "        vertical-align: top;\n",
 51 |        "    }\n",
 52 |        "</style>\n",
 53 |        "<table border=\"1\" class=\"dataframe\">\n",
 54 |        "  <thead>\n",
 55 |        "    <tr style=\"text-align: right;\">\n",
 56 |        "      <th></th>\n",
 57 |        "      <th>total_bill</th>\n",
 58 |        "      <th>tip</th>\n",
 59 |        "      <th>sex</th>\n",
 60 |        "      <th>smoker</th>\n",
 61 |        "      <th>day</th>\n",
 62 |        "      <th>time</th>\n",
 63 |        "      <th>size</th>\n",
 64 |        "    </tr>\n",
 65 |        "  </thead>\n",
 66 |        "  <tbody>\n",
 67 |        "    <tr>\n",
 68 |        "      <th>0</th>\n",
 69 |        "      <td>16.99</td>\n",
 70 |        "      <td>1.01</td>\n",
 71 |        "      <td>Female</td>\n",
 72 |        "      <td>No</td>\n",
 73 |        "      <td>Sun</td>\n",
 74 |        "      <td>Dinner</td>\n",
 75 |        "      <td>2</td>\n",
 76 |        "    </tr>\n",
 77 |        "    <tr>\n",
 78 |        "      <th>1</th>\n",
 79 |        "      <td>10.34</td>\n",
 80 |        "      <td>1.66</td>\n",
 81 |        "      <td>Male</td>\n",
 82 |        "      <td>No</td>\n",
 83 |        "      <td>Sun</td>\n",
 84 |        "      <td>Dinner</td>\n",
 85 |        "      <td>3</td>\n",
 86 |        "    </tr>\n",
 87 |        "    <tr>\n",
 88 |        "      <th>2</th>\n",
 89 |        "      <td>21.01</td>\n",
 90 |        "      <td>3.50</td>\n",
 91 |        "      <td>Male</td>\n",
 92 |        "      <td>No</td>\n",
 93 |        "      <td>Sun</td>\n",
 94 |        "      <td>Dinner</td>\n",
 95 |        "      <td>3</td>\n",
 96 |        "    </tr>\n",
 97 |        "    <tr>\n",
 98 |        "      <th>3</th>\n",
 99 |        "      <td>23.68</td>\n",
100 |        "      <td>3.31</td>\n",
101 |        "      <td>Male</td>\n",
102 |        "      <td>No</td>\n",
103 |        "      <td>Sun</td>\n",
104 |        "      <td>Dinner</td>\n",
105 |        "      <td>2</td>\n",
106 |        "    </tr>\n",
107 |        "    <tr>\n",
108 |        "      <th>4</th>\n",
109 |        "      <td>24.59</td>\n",
110 |        "      <td>3.61</td>\n",
111 |        "      <td>Female</td>\n",
112 |        "      <td>No</td>\n",
113 |        "      <td>Sun</td>\n",
114 |        "      <td>Dinner</td>\n",
115 |        "      <td>4</td>\n",
116 |        "    </tr>\n",
117 |        "  </tbody>\n",
118 |        "</table>\n",
119 |        "</div>"
120 |       ],
121 |       "text/plain": [
122 |        "   total_bill   tip     sex smoker  day    time  size\n",
123 |        "0       16.99  1.01  Female     No  Sun  Dinner     2\n",
124 |        "1       10.34  1.66    Male     No  Sun  Dinner     3\n",
125 |        "2       21.01  3.50    Male     No  Sun  Dinner     3\n",
126 |        "3       23.68  3.31    Male     No  Sun  Dinner     2\n",
127 |        "4       24.59  3.61  Female     No  Sun  Dinner     4"
128 |       ]
129 |      },
130 |      "execution_count": 2,
131 |      "metadata": {},
132 |      "output_type": "execute_result"
133 |     }
134 |    ],
135 |    "source": [
136 |     "tips = sns.load_dataset('tips')\n",
137 |     "tips.head()"
138 |    ]
139 |   },
140 |   {
141 |    "cell_type": "code",
142 |    "execution_count": 3,
143 |    "metadata": {},
144 |    "outputs": [],
145 |    "source": [
146 |     "model = sm.OLS(endog=tips['tip'], exog=tips['total_bill'])"
147 |    ]
148 |   },
149 |   {
150 |    "cell_type": "code",
151 |    "execution_count": 4,
152 |    "metadata": {
153 |     "collapsed": true
154 |    },
155 |    "outputs": [],
156 |    "source": [
157 |     "results = model.fit()"
158 |    ]
159 |   },
160 |   {
161 |    "cell_type": "code",
162 |    "execution_count": 5,
163 |    "metadata": {},
164 |    "outputs": [
165 |     {
166 |      "data": {
167 |       "text/html": [
168 |        "<table class=\"simpletable\">\n",
169 |        "<caption>OLS Regression Results</caption>\n",
170 |        "<tr>\n",
171 |        "  <th>Dep. Variable:</th>           <td>tip</td>       <th>  R-squared:         </th> <td>   0.892</td> \n",
172 |        "</tr>\n",
173 |        "<tr>\n",
174 |        "  <th>Model:</th>                   <td>OLS</td>       <th>  Adj. R-squared:    </th> <td>   0.891</td> \n",
175 |        "</tr>\n",
176 |        "<tr>\n",
177 |        "  <th>Method:</th>             <td>Least Squares</td>  <th>  F-statistic:       </th> <td>   2004.</td> \n",
178 |        "</tr>\n",
179 |        "<tr>\n",
180 |        "  <th>Date:</th>             <td>Tue, 11 Jul 2017</td> <th>  Prob (F-statistic):</th> <td>2.26e-119</td>\n",
181 |        "</tr>\n",
182 |        "<tr>\n",
183 |        "  <th>Time:</th>                 <td>01:37:47</td>     <th>  Log-Likelihood:    </th> <td> -366.22</td> \n",
184 |        "</tr>\n",
185 |        "<tr>\n",
186 |        "  <th>No. Observations:</th>      <td>   244</td>      <th>  AIC:               </th> <td>   734.4</td> \n",
187 |        "</tr>\n",
188 |        "<tr>\n",
189 |        "  <th>Df Residuals:</th>          <td>   243</td>      <th>  BIC:               </th> <td>   737.9</td> \n",
190 |        "</tr>\n",
191 |        "<tr>\n",
192 |        "  <th>Df Model:</th>              <td>     1</td>      <th>                     </th>     <td> </td>    \n",
193 |        "</tr>\n",
194 |        "<tr>\n",
195 |        "  <th>Covariance Type:</th>      <td>nonrobust</td>    <th>                     </th>     <td> </td>    \n",
196 |        "</tr>\n",
197 |        "</table>\n",
198 |        "<table class=\"simpletable\">\n",
199 |        "<tr>\n",
200 |        "       <td></td>         <th>coef</th>     <th>std err</th>      <th>t</th>      <th>P>|t|</th>  <th>[0.025</th>    <th>0.975]</th>  \n",
201 |        "</tr>\n",
202 |        "<tr>\n",
203 |        "  <th>total_bill</th> <td>    0.1437</td> <td>    0.003</td> <td>   44.771</td> <td> 0.000</td> <td>    0.137</td> <td>    0.150</td>\n",
204 |        "</tr>\n",
205 |        "</table>\n",
206 |        "<table class=\"simpletable\">\n",
207 |        "<tr>\n",
208 |        "  <th>Omnibus:</th>       <td>21.126</td> <th>  Durbin-Watson:     </th> <td>   2.136</td>\n",
209 |        "</tr>\n",
210 |        "<tr>\n",
211 |        "  <th>Prob(Omnibus):</th> <td> 0.000</td> <th>  Jarque-Bera (JB):  </th> <td>  47.017</td>\n",
212 |        "</tr>\n",
213 |        "<tr>\n",
214 |        "  <th>Skew:</th>          <td>-0.398</td> <th>  Prob(JB):          </th> <td>6.17e-11</td>\n",
215 |        "</tr>\n",
216 |        "<tr>\n",
217 |        "  <th>Kurtosis:</th>      <td> 4.998</td> <th>  Cond. No.          </th> <td>    1.00</td>\n",
218 |        "</tr>\n",
219 |        "</table>"
220 |       ],
221 |       "text/plain": [
222 |        "<class 'statsmodels.iolib.summary.Summary'>\n",
223 |        "\"\"\"\n",
224 |        "                            OLS Regression Results                            \n",
225 |        "==============================================================================\n",
226 |        "Dep. Variable:                    tip   R-squared:                       0.892\n",
227 |        "Model:                            OLS   Adj. R-squared:                  0.891\n",
228 |        "Method:                 Least Squares   F-statistic:                     2004.\n",
229 |        "Date:                Tue, 11 Jul 2017   Prob (F-statistic):          2.26e-119\n",
230 |        "Time:                        01:37:47   Log-Likelihood:                -366.22\n",
231 |        "No. Observations:                 244   AIC:                             734.4\n",
232 |        "Df Residuals:                     243   BIC:                             737.9\n",
233 |        "Df Model:                           1                                         \n",
234 |        "Covariance Type:            nonrobust                                         \n",
235 |        "==============================================================================\n",
236 |        "                 coef    std err          t      P>|t|      [0.025      0.975]\n",
237 |        "------------------------------------------------------------------------------\n",
238 |        "total_bill     0.1437      0.003     44.771      0.000       0.137       0.150\n",
239 |        "==============================================================================\n",
240 |        "Omnibus:                       21.126   Durbin-Watson:                   2.136\n",
241 |        "Prob(Omnibus):                  0.000   Jarque-Bera (JB):               47.017\n",
242 |        "Skew:                          -0.398   Prob(JB):                     6.17e-11\n",
243 |        "Kurtosis:                       4.998   Cond. No.                         1.00\n",
244 |        "==============================================================================\n",
245 |        "\n",
246 |        "Warnings:\n",
247 |        "[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.\n",
248 |        "\"\"\""
249 |       ]
250 |      },
251 |      "execution_count": 5,
252 |      "metadata": {},
253 |      "output_type": "execute_result"
254 |     }
255 |    ],
256 |    "source": [
257 |     "results.summary()"
258 |    ]
259 |   },
260 |   {
261 |    "cell_type": "code",
262 |    "execution_count": 6,
263 |    "metadata": {},
264 |    "outputs": [
265 |     {
266 |      "data": {
267 |       "text/plain": [
268 |        "total_bill    0.143732\n",
269 |        "dtype: float64"
270 |       ]
271 |      },
272 |      "execution_count": 6,
273 |      "metadata": {},
274 |      "output_type": "execute_result"
275 |     }
276 |    ],
277 |    "source": [
278 |     "# just get the coefficients\n",
279 |     "results.params"
280 |    ]
281 |   },
282 |   {
283 |    "cell_type": "code",
284 |    "execution_count": 7,
285 |    "metadata": {},
286 |    "outputs": [
287 |     {
288 |      "data": {
289 |       "text/html": [
290 |        "<table class=\"simpletable\">\n",
291 |        "<caption>OLS Regression Results</caption>\n",
292 |        "<tr>\n",
293 |        "  <th>Dep. Variable:</th>           <td>tip</td>       <th>  R-squared:         </th> <td>   0.902</td> \n",
294 |        "</tr>\n",
295 |        "<tr>\n",
296 |        "  <th>Model:</th>                   <td>OLS</td>       <th>  Adj. R-squared:    </th> <td>   0.901</td> \n",
297 |        "</tr>\n",
298 |        "<tr>\n",
299 |        "  <th>Method:</th>             <td>Least Squares</td>  <th>  F-statistic:       </th> <td>   1117.</td> \n",
300 |        "</tr>\n",
301 |        "<tr>\n",
302 |        "  <th>Date:</th>             <td>Tue, 11 Jul 2017</td> <th>  Prob (F-statistic):</th> <td>6.16e-123</td>\n",
303 |        "</tr>\n",
304 |        "<tr>\n",
305 |        "  <th>Time:</th>                 <td>01:37:47</td>     <th>  Log-Likelihood:    </th> <td> -353.88</td> \n",
306 |        "</tr>\n",
307 |        "<tr>\n",
308 |        "  <th>No. Observations:</th>      <td>   244</td>      <th>  AIC:               </th> <td>   711.8</td> \n",
309 |        "</tr>\n",
310 |        "<tr>\n",
311 |        "  <th>Df Residuals:</th>          <td>   242</td>      <th>  BIC:               </th> <td>   718.8</td> \n",
312 |        "</tr>\n",
313 |        "<tr>\n",
314 |        "  <th>Df Model:</th>              <td>     2</td>      <th>                     </th>     <td> </td>    \n",
315 |        "</tr>\n",
316 |        "<tr>\n",
317 |        "  <th>Covariance Type:</th>      <td>nonrobust</td>    <th>                     </th>     <td> </td>    \n",
318 |        "</tr>\n",
319 |        "</table>\n",
320 |        "<table class=\"simpletable\">\n",
321 |        "<tr>\n",
322 |        "       <td></td>         <th>coef</th>     <th>std err</th>      <th>t</th>      <th>P>|t|</th>  <th>[0.025</th>    <th>0.975]</th>  \n",
323 |        "</tr>\n",
324 |        "<tr>\n",
325 |        "  <th>total_bill</th> <td>    0.1007</td> <td>    0.009</td> <td>   11.174</td> <td> 0.000</td> <td>    0.083</td> <td>    0.118</td>\n",
326 |        "</tr>\n",
327 |        "<tr>\n",
328 |        "  <th>size</th>       <td>    0.3621</td> <td>    0.071</td> <td>    5.074</td> <td> 0.000</td> <td>    0.222</td> <td>    0.503</td>\n",
329 |        "</tr>\n",
330 |        "</table>\n",
331 |        "<table class=\"simpletable\">\n",
332 |        "<tr>\n",
333 |        "  <th>Omnibus:</th>       <td>12.830</td> <th>  Durbin-Watson:     </th> <td>   2.059</td>\n",
334 |        "</tr>\n",
335 |        "<tr>\n",
336 |        "  <th>Prob(Omnibus):</th> <td> 0.002</td> <th>  Jarque-Bera (JB):  </th> <td>  27.284</td>\n",
337 |        "</tr>\n",
338 |        "<tr>\n",
339 |        "  <th>Skew:</th>          <td> 0.179</td> <th>  Prob(JB):          </th> <td>1.19e-06</td>\n",
340 |        "</tr>\n",
341 |        "<tr>\n",
342 |        "  <th>Kurtosis:</th>      <td> 4.599</td> <th>  Cond. No.          </th> <td>    23.7</td>\n",
343 |        "</tr>\n",
344 |        "</table>"
345 |       ],
346 |       "text/plain": [
347 |        "<class 'statsmodels.iolib.summary.Summary'>\n",
348 |        "\"\"\"\n",
349 |        "                            OLS Regression Results                            \n",
350 |        "==============================================================================\n",
351 |        "Dep. Variable:                    tip   R-squared:                       0.902\n",
352 |        "Model:                            OLS   Adj. R-squared:                  0.901\n",
353 |        "Method:                 Least Squares   F-statistic:                     1117.\n",
354 |        "Date:                Tue, 11 Jul 2017   Prob (F-statistic):          6.16e-123\n",
355 |        "Time:                        01:37:47   Log-Likelihood:                -353.88\n",
356 |        "No. Observations:                 244   AIC:                             711.8\n",
357 |        "Df Residuals:                     242   BIC:                             718.8\n",
358 |        "Df Model:                           2                                         \n",
359 |        "Covariance Type:            nonrobust                                         \n",
360 |        "==============================================================================\n",
361 |        "                 coef    std err          t      P>|t|      [0.025      0.975]\n",
362 |        "------------------------------------------------------------------------------\n",
363 |        "total_bill     0.1007      0.009     11.174      0.000       0.083       0.118\n",
364 |        "size           0.3621      0.071      5.074      0.000       0.222       0.503\n",
365 |        "==============================================================================\n",
366 |        "Omnibus:                       12.830   Durbin-Watson:                   2.059\n",
367 |        "Prob(Omnibus):                  0.002   Jarque-Bera (JB):               27.284\n",
368 |        "Skew:                           0.179   Prob(JB):                     1.19e-06\n",
369 |        "Kurtosis:                       4.599   Cond. No.                         23.7\n",
370 |        "==============================================================================\n",
371 |        "\n",
372 |        "Warnings:\n",
373 |        "[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.\n",
374 |        "\"\"\""
375 |       ]
376 |      },
377 |      "execution_count": 7,
378 |      "metadata": {},
379 |      "output_type": "execute_result"
380 |     }
381 |    ],
382 |    "source": [
383 |     "# multiple variable regression\n",
384 |     "model = sm.OLS(endog=tips['tip'], exog=tips[['total_bill', 'size']])\n",
385 |     "results = model.fit()\n",
386 |     "results.summary()"
387 |    ]
388 |   },
389 |   {
390 |    "cell_type": "code",
391 |    "execution_count": 8,
392 |    "metadata": {},
393 |    "outputs": [
394 |     {
395 |      "name": "stdout",
396 |      "output_type": "stream",
397 |      "text": [
398 |       "<class 'pandas.core.frame.DataFrame'>\n",
399 |       "RangeIndex: 244 entries, 0 to 243\n",
400 |       "Data columns (total 7 columns):\n",
401 |       "total_bill    244 non-null float64\n",
402 |       "tip           244 non-null float64\n",
403 |       "sex           244 non-null category\n",
404 |       "smoker        244 non-null category\n",
405 |       "day           244 non-null category\n",
406 |       "time          244 non-null category\n",
407 |       "size          244 non-null int64\n",
408 |       "dtypes: category(4), float64(2), int64(1)\n",
409 |       "memory usage: 7.2 KB\n"
410 |      ]
411 |     }
412 |    ],
413 |    "source": [
414 |     "tips.info()"
415 |    ]
416 |   },
417 |   {
418 |    "cell_type": "code",
419 |    "execution_count": 9,
420 |    "metadata": {},
421 |    "outputs": [
422 |     {
423 |      "data": {
424 |       "text/html": [
425 |        "<table class=\"simpletable\">\n",
426 |        "<caption>OLS Regression Results</caption>\n",
427 |        "<tr>\n",
428 |        "  <th>Dep. Variable:</th>           <td>tip</td>       <th>  R-squared:         </th> <td>   0.469</td>\n",
429 |        "</tr>\n",
430 |        "<tr>\n",
431 |        "  <th>Model:</th>                   <td>OLS</td>       <th>  Adj. R-squared:    </th> <td>   0.460</td>\n",
432 |        "</tr>\n",
433 |        "<tr>\n",
434 |        "  <th>Method:</th>             <td>Least Squares</td>  <th>  F-statistic:       </th> <td>   52.72</td>\n",
435 |        "</tr>\n",
436 |        "<tr>\n",
437 |        "  <th>Date:</th>             <td>Tue, 11 Jul 2017</td> <th>  Prob (F-statistic):</th> <td>8.47e-32</td>\n",
438 |        "</tr>\n",
439 |        "<tr>\n",
440 |        "  <th>Time:</th>                 <td>01:37:47</td>     <th>  Log-Likelihood:    </th> <td> -347.78</td>\n",
441 |        "</tr>\n",
442 |        "<tr>\n",
443 |        "  <th>No. Observations:</th>      <td>   244</td>      <th>  AIC:               </th> <td>   705.6</td>\n",
444 |        "</tr>\n",
445 |        "<tr>\n",
446 |        "  <th>Df Residuals:</th>          <td>   239</td>      <th>  BIC:               </th> <td>   723.0</td>\n",
447 |        "</tr>\n",
448 |        "<tr>\n",
449 |        "  <th>Df Model:</th>              <td>     4</td>      <th>                     </th>     <td> </td>   \n",
450 |        "</tr>\n",
451 |        "<tr>\n",
452 |        "  <th>Covariance Type:</th>      <td>nonrobust</td>    <th>                     </th>     <td> </td>   \n",
453 |        "</tr>\n",
454 |        "</table>\n",
455 |        "<table class=\"simpletable\">\n",
456 |        "<tr>\n",
457 |        "        <td></td>           <th>coef</th>     <th>std err</th>      <th>t</th>      <th>P>|t|</th>  <th>[0.025</th>    <th>0.975]</th>  \n",
458 |        "</tr>\n",
459 |        "<tr>\n",
460 |        "  <th>Intercept</th>     <td>    0.6115</td> <td>    0.219</td> <td>    2.793</td> <td> 0.006</td> <td>    0.180</td> <td>    1.043</td>\n",
461 |        "</tr>\n",
462 |        "<tr>\n",
463 |        "  <th>sex[T.Female]</th> <td>    0.0273</td> <td>    0.137</td> <td>    0.198</td> <td> 0.843</td> <td>   -0.243</td> <td>    0.298</td>\n",
464 |        "</tr>\n",
465 |        "<tr>\n",
466 |        "  <th>smoker[T.No]</th>  <td>    0.0837</td> <td>    0.138</td> <td>    0.605</td> <td> 0.546</td> <td>   -0.189</td> <td>    0.356</td>\n",
467 |        "</tr>\n",
468 |        "<tr>\n",
469 |        "  <th>total_bill</th>    <td>    0.0941</td> <td>    0.009</td> <td>    9.996</td> <td> 0.000</td> <td>    0.076</td> <td>    0.113</td>\n",
470 |        "</tr>\n",
471 |        "<tr>\n",
472 |        "  <th>size</th>          <td>    0.1803</td> <td>    0.088</td> <td>    2.049</td> <td> 0.042</td> <td>    0.007</td> <td>    0.354</td>\n",
473 |        "</tr>\n",
474 |        "</table>\n",
475 |        "<table class=\"simpletable\">\n",
476 |        "<tr>\n",
477 |        "  <th>Omnibus:</th>       <td>26.891</td> <th>  Durbin-Watson:     </th> <td>   2.099</td>\n",
478 |        "</tr>\n",
479 |        "<tr>\n",
480 |        "  <th>Prob(Omnibus):</th> <td> 0.000</td> <th>  Jarque-Bera (JB):  </th> <td>  50.438</td>\n",
481 |        "</tr>\n",
482 |        "<tr>\n",
483 |        "  <th>Skew:</th>          <td> 0.589</td> <th>  Prob(JB):          </th> <td>1.12e-11</td>\n",
484 |        "</tr>\n",
485 |        "<tr>\n",
486 |        "  <th>Kurtosis:</th>      <td> 4.891</td> <th>  Cond. No.          </th> <td>    78.5</td>\n",
487 |        "</tr>\n",
488 |        "</table>"
489 |       ],
490 |       "text/plain": [
491 |        "<class 'statsmodels.iolib.summary.Summary'>\n",
492 |        "\"\"\"\n",
493 |        "                            OLS Regression Results                            \n",
494 |        "==============================================================================\n",
495 |        "Dep. Variable:                    tip   R-squared:                       0.469\n",
496 |        "Model:                            OLS   Adj. R-squared:                  0.460\n",
497 |        "Method:                 Least Squares   F-statistic:                     52.72\n",
498 |        "Date:                Tue, 11 Jul 2017   Prob (F-statistic):           8.47e-32\n",
499 |        "Time:                        01:37:47   Log-Likelihood:                -347.78\n",
500 |        "No. Observations:                 244   AIC:                             705.6\n",
501 |        "Df Residuals:                     239   BIC:                             723.0\n",
502 |        "Df Model:                           4                                         \n",
503 |        "Covariance Type:            nonrobust                                         \n",
504 |        "=================================================================================\n",
505 |        "                    coef    std err          t      P>|t|      [0.025      0.975]\n",
506 |        "---------------------------------------------------------------------------------\n",
507 |        "Intercept         0.6115      0.219      2.793      0.006       0.180       1.043\n",
508 |        "sex[T.Female]     0.0273      0.137      0.198      0.843      -0.243       0.298\n",
509 |        "smoker[T.No]      0.0837      0.138      0.605      0.546      -0.189       0.356\n",
510 |        "total_bill        0.0941      0.009      9.996      0.000       0.076       0.113\n",
511 |        "size              0.1803      0.088      2.049      0.042       0.007       0.354\n",
512 |        "==============================================================================\n",
513 |        "Omnibus:                       26.891   Durbin-Watson:                   2.099\n",
514 |        "Prob(Omnibus):                  0.000   Jarque-Bera (JB):               50.438\n",
515 |        "Skew:                           0.589   Prob(JB):                     1.12e-11\n",
516 |        "Kurtosis:                       4.891   Cond. No.                         78.5\n",
517 |        "==============================================================================\n",
518 |        "\n",
519 |        "Warnings:\n",
520 |        "[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.\n",
521 |        "\"\"\""
522 |       ]
523 |      },
524 |      "execution_count": 9,
525 |      "metadata": {},
526 |      "output_type": "execute_result"
527 |     }
528 |    ],
529 |    "source": [
530 |     "model = smf.ols(formula='tip ~ total_bill + sex + smoker + size',\n",
531 |     "                data=tips)\n",
532 |     "results = model.fit()\n",
533 |     "results.summary()"
534 |    ]
535 |   }
536 |  ],
537 |  "metadata": {
538 |   "kernelspec": {
539 |    "display_name": "Python 3",
540 |    "language": "python",
541 |    "name": "python3"
542 |   },
543 |   "language_info": {
544 |    "codemirror_mode": {
545 |     "name": "ipython",
546 |     "version": 3
547 |    },
548 |    "file_extension": ".py",
549 |    "mimetype": "text/x-python",
550 |    "name": "python",
551 |    "nbconvert_exporter": "python",
552 |    "pygments_lexer": "ipython3",
553 |    "version": "3.6.1"
554 |   }
555 |  },
556 |  "nbformat": 4,
557 |  "nbformat_minor": 2
558 | }
559 | 


--------------------------------------------------------------------------------
/01-notes/08b-statsmodels_logistic.ipynb:
--------------------------------------------------------------------------------
  1 | {
  2 |  "cells": [
  3 |   {
  4 |    "cell_type": "code",
  5 |    "execution_count": 1,
  6 |    "metadata": {},
  7 |    "outputs": [
  8 |     {
  9 |      "name": "stderr",
 10 |      "output_type": "stream",
 11 |      "text": [
 12 |       "/home/dchen/anaconda3/lib/python3.6/site-packages/statsmodels/compat/pandas.py:56: FutureWarning: The pandas.core.datetools module is deprecated and will be removed in a future version. Please use the pandas.tseries module instead.\n",
 13 |       "  from pandas.core import datetools\n"
 14 |      ]
 15 |     }
 16 |    ],
 17 |    "source": [
 18 |     "import pandas as pd\n",
 19 |     "import seaborn as sns\n",
 20 |     "import statsmodels.api as sm\n",
 21 |     "import statsmodels.formula.api as smf\n",
 22 |     "import numpy as np"
 23 |    ]
 24 |   },
 25 |   {
 26 |    "cell_type": "markdown",
 27 |    "metadata": {},
 28 |    "source": [
 29 |     "another reference: http://blog.yhat.com/posts/logistic-regression-and-python.html"
 30 |    ]
 31 |   },
 32 |   {
 33 |    "cell_type": "code",
 34 |    "execution_count": 2,
 35 |    "metadata": {},
 36 |    "outputs": [
 37 |     {
 38 |      "data": {
 39 |       "text/html": [
 40 |        "<div>\n",
 41 |        "<style>\n",
 42 |        "    .dataframe thead tr:only-child th {\n",
 43 |        "        text-align: right;\n",
 44 |        "    }\n",
 45 |        "\n",
 46 |        "    .dataframe thead th {\n",
 47 |        "        text-align: left;\n",
 48 |        "    }\n",
 49 |        "\n",
 50 |        "    .dataframe tbody tr th {\n",
 51 |        "        vertical-align: top;\n",
 52 |        "    }\n",
 53 |        "</style>\n",
 54 |        "<table border=\"1\" class=\"dataframe\">\n",
 55 |        "  <thead>\n",
 56 |        "    <tr style=\"text-align: right;\">\n",
 57 |        "      <th></th>\n",
 58 |        "      <th>survived</th>\n",
 59 |        "      <th>pclass</th>\n",
 60 |        "      <th>sex</th>\n",
 61 |        "      <th>age</th>\n",
 62 |        "      <th>sibsp</th>\n",
 63 |        "      <th>parch</th>\n",
 64 |        "      <th>fare</th>\n",
 65 |        "      <th>embarked</th>\n",
 66 |        "      <th>class</th>\n",
 67 |        "      <th>who</th>\n",
 68 |        "      <th>adult_male</th>\n",
 69 |        "      <th>deck</th>\n",
 70 |        "      <th>embark_town</th>\n",
 71 |        "      <th>alive</th>\n",
 72 |        "      <th>alone</th>\n",
 73 |        "    </tr>\n",
 74 |        "  </thead>\n",
 75 |        "  <tbody>\n",
 76 |        "    <tr>\n",
 77 |        "      <th>0</th>\n",
 78 |        "      <td>0</td>\n",
 79 |        "      <td>3</td>\n",
 80 |        "      <td>male</td>\n",
 81 |        "      <td>22.0</td>\n",
 82 |        "      <td>1</td>\n",
 83 |        "      <td>0</td>\n",
 84 |        "      <td>7.2500</td>\n",
 85 |        "      <td>S</td>\n",
 86 |        "      <td>Third</td>\n",
 87 |        "      <td>man</td>\n",
 88 |        "      <td>True</td>\n",
 89 |        "      <td>NaN</td>\n",
 90 |        "      <td>Southampton</td>\n",
 91 |        "      <td>no</td>\n",
 92 |        "      <td>False</td>\n",
 93 |        "    </tr>\n",
 94 |        "    <tr>\n",
 95 |        "      <th>1</th>\n",
 96 |        "      <td>1</td>\n",
 97 |        "      <td>1</td>\n",
 98 |        "      <td>female</td>\n",
 99 |        "      <td>38.0</td>\n",
100 |        "      <td>1</td>\n",
101 |        "      <td>0</td>\n",
102 |        "      <td>71.2833</td>\n",
103 |        "      <td>C</td>\n",
104 |        "      <td>First</td>\n",
105 |        "      <td>woman</td>\n",
106 |        "      <td>False</td>\n",
107 |        "      <td>C</td>\n",
108 |        "      <td>Cherbourg</td>\n",
109 |        "      <td>yes</td>\n",
110 |        "      <td>False</td>\n",
111 |        "    </tr>\n",
112 |        "    <tr>\n",
113 |        "      <th>2</th>\n",
114 |        "      <td>1</td>\n",
115 |        "      <td>3</td>\n",
116 |        "      <td>female</td>\n",
117 |        "      <td>26.0</td>\n",
118 |        "      <td>0</td>\n",
119 |        "      <td>0</td>\n",
120 |        "      <td>7.9250</td>\n",
121 |        "      <td>S</td>\n",
122 |        "      <td>Third</td>\n",
123 |        "      <td>woman</td>\n",
124 |        "      <td>False</td>\n",
125 |        "      <td>NaN</td>\n",
126 |        "      <td>Southampton</td>\n",
127 |        "      <td>yes</td>\n",
128 |        "      <td>True</td>\n",
129 |        "    </tr>\n",
130 |        "    <tr>\n",
131 |        "      <th>3</th>\n",
132 |        "      <td>1</td>\n",
133 |        "      <td>1</td>\n",
134 |        "      <td>female</td>\n",
135 |        "      <td>35.0</td>\n",
136 |        "      <td>1</td>\n",
137 |        "      <td>0</td>\n",
138 |        "      <td>53.1000</td>\n",
139 |        "      <td>S</td>\n",
140 |        "      <td>First</td>\n",
141 |        "      <td>woman</td>\n",
142 |        "      <td>False</td>\n",
143 |        "      <td>C</td>\n",
144 |        "      <td>Southampton</td>\n",
145 |        "      <td>yes</td>\n",
146 |        "      <td>False</td>\n",
147 |        "    </tr>\n",
148 |        "    <tr>\n",
149 |        "      <th>4</th>\n",
150 |        "      <td>0</td>\n",
151 |        "      <td>3</td>\n",
152 |        "      <td>male</td>\n",
153 |        "      <td>35.0</td>\n",
154 |        "      <td>0</td>\n",
155 |        "      <td>0</td>\n",
156 |        "      <td>8.0500</td>\n",
157 |        "      <td>S</td>\n",
158 |        "      <td>Third</td>\n",
159 |        "      <td>man</td>\n",
160 |        "      <td>True</td>\n",
161 |        "      <td>NaN</td>\n",
162 |        "      <td>Southampton</td>\n",
163 |        "      <td>no</td>\n",
164 |        "      <td>True</td>\n",
165 |        "    </tr>\n",
166 |        "  </tbody>\n",
167 |        "</table>\n",
168 |        "</div>"
169 |       ],
170 |       "text/plain": [
171 |        "   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \\\n",
172 |        "0         0       3    male  22.0      1      0   7.2500        S  Third   \n",
173 |        "1         1       1  female  38.0      1      0  71.2833        C  First   \n",
174 |        "2         1       3  female  26.0      0      0   7.9250        S  Third   \n",
175 |        "3         1       1  female  35.0      1      0  53.1000        S  First   \n",
176 |        "4         0       3    male  35.0      0      0   8.0500        S  Third   \n",
177 |        "\n",
178 |        "     who  adult_male deck  embark_town alive  alone  \n",
179 |        "0    man        True  NaN  Southampton    no  False  \n",
180 |        "1  woman       False    C    Cherbourg   yes  False  \n",
181 |        "2  woman       False  NaN  Southampton   yes   True  \n",
182 |        "3  woman       False    C  Southampton   yes  False  \n",
183 |        "4    man        True  NaN  Southampton    no   True  "
184 |       ]
185 |      },
186 |      "execution_count": 2,
187 |      "metadata": {},
188 |      "output_type": "execute_result"
189 |     }
190 |    ],
191 |    "source": [
192 |     "titanic = sns.load_dataset('titanic')\n",
193 |     "titanic.head()"
194 |    ]
195 |   },
196 |   {
197 |    "cell_type": "code",
198 |    "execution_count": 3,
199 |    "metadata": {},
200 |    "outputs": [
201 |     {
202 |      "name": "stdout",
203 |      "output_type": "stream",
204 |      "text": [
205 |       "<class 'pandas.core.frame.DataFrame'>\n",
206 |       "RangeIndex: 891 entries, 0 to 890\n",
207 |       "Data columns (total 15 columns):\n",
208 |       "survived       891 non-null int64\n",
209 |       "pclass         891 non-null int64\n",
210 |       "sex            891 non-null object\n",
211 |       "age            714 non-null float64\n",
212 |       "sibsp          891 non-null int64\n",
213 |       "parch          891 non-null int64\n",
214 |       "fare           891 non-null float64\n",
215 |       "embarked       889 non-null object\n",
216 |       "class          891 non-null category\n",
217 |       "who            891 non-null object\n",
218 |       "adult_male     891 non-null bool\n",
219 |       "deck           203 non-null category\n",
220 |       "embark_town    889 non-null object\n",
221 |       "alive          891 non-null object\n",
222 |       "alone          891 non-null bool\n",
223 |       "dtypes: bool(2), category(2), float64(2), int64(4), object(5)\n",
224 |       "memory usage: 80.6+ KB\n"
225 |      ]
226 |     }
227 |    ],
228 |    "source": [
229 |     "titanic.info()"
230 |    ]
231 |   },
232 |   {
233 |    "cell_type": "code",
234 |    "execution_count": 4,
235 |    "metadata": {},
236 |    "outputs": [
237 |     {
238 |      "name": "stdout",
239 |      "output_type": "stream",
240 |      "text": [
241 |       "Optimization terminated successfully.\n",
242 |       "         Current function value: 0.406942\n",
243 |       "         Iterations 7\n"
244 |      ]
245 |     },
246 |     {
247 |      "data": {
248 |       "text/html": [
249 |        "<table class=\"simpletable\">\n",
250 |        "<caption>Logit Regression Results</caption>\n",
251 |        "<tr>\n",
252 |        "  <th>Dep. Variable:</th>     <td>survived</td>     <th>  No. Observations:  </th>  <td>   184</td>  \n",
253 |        "</tr>\n",
254 |        "<tr>\n",
255 |        "  <th>Model:</th>               <td>Logit</td>      <th>  Df Residuals:      </th>  <td>   174</td>  \n",
256 |        "</tr>\n",
257 |        "<tr>\n",
258 |        "  <th>Method:</th>               <td>MLE</td>       <th>  Df Model:          </th>  <td>     9</td>  \n",
259 |        "</tr>\n",
260 |        "<tr>\n",
261 |        "  <th>Date:</th>          <td>Tue, 11 Jul 2017</td> <th>  Pseudo R-squ.:     </th>  <td>0.3513</td>  \n",
262 |        "</tr>\n",
263 |        "<tr>\n",
264 |        "  <th>Time:</th>              <td>01:58:17</td>     <th>  Log-Likelihood:    </th> <td> -74.877</td> \n",
265 |        "</tr>\n",
266 |        "<tr>\n",
267 |        "  <th>converged:</th>           <td>True</td>       <th>  LL-Null:           </th> <td> -115.43</td> \n",
268 |        "</tr>\n",
269 |        "<tr>\n",
270 |        "  <th> </th>                      <td> </td>        <th>  LLR p-value:       </th> <td>9.707e-14</td>\n",
271 |        "</tr>\n",
272 |        "</table>\n",
273 |        "<table class=\"simpletable\">\n",
274 |        "<tr>\n",
275 |        "       <td></td>          <th>coef</th>     <th>std err</th>      <th>z</th>      <th>P>|z|</th>  <th>[0.025</th>    <th>0.975]</th>  \n",
276 |        "</tr>\n",
277 |        "<tr>\n",
278 |        "  <th>Intercept</th>   <td>    5.5057</td> <td>    1.163</td> <td>    4.736</td> <td> 0.000</td> <td>    3.227</td> <td>    7.784</td>\n",
279 |        "</tr>\n",
280 |        "<tr>\n",
281 |        "  <th>sex[T.male]</th> <td>   -3.4464</td> <td>    0.590</td> <td>   -5.836</td> <td> 0.000</td> <td>   -4.604</td> <td>   -2.289</td>\n",
282 |        "</tr>\n",
283 |        "<tr>\n",
284 |        "  <th>deck[T.B]</th>   <td>   -0.7764</td> <td>    0.832</td> <td>   -0.934</td> <td> 0.351</td> <td>   -2.406</td> <td>    0.854</td>\n",
285 |        "</tr>\n",
286 |        "<tr>\n",
287 |        "  <th>deck[T.C]</th>   <td>   -1.7126</td> <td>    0.808</td> <td>   -2.121</td> <td> 0.034</td> <td>   -3.295</td> <td>   -0.130</td>\n",
288 |        "</tr>\n",
289 |        "<tr>\n",
290 |        "  <th>deck[T.D]</th>   <td>   -0.6292</td> <td>    0.837</td> <td>   -0.752</td> <td> 0.452</td> <td>   -2.270</td> <td>    1.012</td>\n",
291 |        "</tr>\n",
292 |        "<tr>\n",
293 |        "  <th>deck[T.E]</th>   <td>   -0.1741</td> <td>    0.816</td> <td>   -0.213</td> <td> 0.831</td> <td>   -1.774</td> <td>    1.426</td>\n",
294 |        "</tr>\n",
295 |        "<tr>\n",
296 |        "  <th>deck[T.F]</th>   <td>   -1.5135</td> <td>    1.087</td> <td>   -1.392</td> <td> 0.164</td> <td>   -3.644</td> <td>    0.617</td>\n",
297 |        "</tr>\n",
298 |        "<tr>\n",
299 |        "  <th>deck[T.G]</th>   <td>   -4.9029</td> <td>    1.457</td> <td>   -3.364</td> <td> 0.001</td> <td>   -7.759</td> <td>   -2.046</td>\n",
300 |        "</tr>\n",
301 |        "<tr>\n",
302 |        "  <th>age</th>         <td>   -0.0430</td> <td>    0.015</td> <td>   -2.946</td> <td> 0.003</td> <td>   -0.072</td> <td>   -0.014</td>\n",
303 |        "</tr>\n",
304 |        "<tr>\n",
305 |        "  <th>fare</th>        <td>    0.0023</td> <td>    0.003</td> <td>    0.789</td> <td> 0.430</td> <td>   -0.003</td> <td>    0.008</td>\n",
306 |        "</tr>\n",
307 |        "</table>"
308 |       ],
309 |       "text/plain": [
310 |        "<class 'statsmodels.iolib.summary.Summary'>\n",
311 |        "\"\"\"\n",
312 |        "                           Logit Regression Results                           \n",
313 |        "==============================================================================\n",
314 |        "Dep. Variable:               survived   No. Observations:                  184\n",
315 |        "Model:                          Logit   Df Residuals:                      174\n",
316 |        "Method:                           MLE   Df Model:                            9\n",
317 |        "Date:                Tue, 11 Jul 2017   Pseudo R-squ.:                  0.3513\n",
318 |        "Time:                        01:58:17   Log-Likelihood:                -74.877\n",
319 |        "converged:                       True   LL-Null:                       -115.43\n",
320 |        "                                        LLR p-value:                 9.707e-14\n",
321 |        "===============================================================================\n",
322 |        "                  coef    std err          z      P>|z|      [0.025      0.975]\n",
323 |        "-------------------------------------------------------------------------------\n",
324 |        "Intercept       5.5057      1.163      4.736      0.000       3.227       7.784\n",
325 |        "sex[T.male]    -3.4464      0.590     -5.836      0.000      -4.604      -2.289\n",
326 |        "deck[T.B]      -0.7764      0.832     -0.934      0.351      -2.406       0.854\n",
327 |        "deck[T.C]      -1.7126      0.808     -2.121      0.034      -3.295      -0.130\n",
328 |        "deck[T.D]      -0.6292      0.837     -0.752      0.452      -2.270       1.012\n",
329 |        "deck[T.E]      -0.1741      0.816     -0.213      0.831      -1.774       1.426\n",
330 |        "deck[T.F]      -1.5135      1.087     -1.392      0.164      -3.644       0.617\n",
331 |        "deck[T.G]      -4.9029      1.457     -3.364      0.001      -7.759      -2.046\n",
332 |        "age            -0.0430      0.015     -2.946      0.003      -0.072      -0.014\n",
333 |        "fare            0.0023      0.003      0.789      0.430      -0.003       0.008\n",
334 |        "===============================================================================\n",
335 |        "\"\"\""
336 |       ]
337 |      },
338 |      "execution_count": 4,
339 |      "metadata": {},
340 |      "output_type": "execute_result"
341 |     }
342 |    ],
343 |    "source": [
344 |     "model = smf.logit('survived ~ sex + age + fare + deck',\n",
345 |     "                 data = titanic)\n",
346 |     "results = model.fit()\n",
347 |     "results.summary()"
348 |    ]
349 |   },
350 |   {
351 |    "cell_type": "code",
352 |    "execution_count": 5,
353 |    "metadata": {},
354 |    "outputs": [
355 |     {
356 |      "data": {
357 |       "text/plain": [
358 |        "Intercept      246.087067\n",
359 |        "sex[T.male]      0.031860\n",
360 |        "deck[T.B]        0.460038\n",
361 |        "deck[T.C]        0.180390\n",
362 |        "deck[T.D]        0.532997\n",
363 |        "deck[T.E]        0.840224\n",
364 |        "deck[T.F]        0.220138\n",
365 |        "deck[T.G]        0.007425\n",
366 |        "age              0.957889\n",
367 |        "fare             1.002292\n",
368 |        "dtype: float64"
369 |       ]
370 |      },
371 |      "execution_count": 5,
372 |      "metadata": {},
373 |      "output_type": "execute_result"
374 |     }
375 |    ],
376 |    "source": [
377 |     "# interpret results\n",
378 |     "np.exp(results.params)"
379 |    ]
380 |   },
381 |   {
382 |    "cell_type": "code",
383 |    "execution_count": 6,
384 |    "metadata": {},
385 |    "outputs": [
386 |     {
387 |      "data": {
388 |       "text/html": [
389 |        "<div>\n",
390 |        "<style>\n",
391 |        "    .dataframe thead tr:only-child th {\n",
392 |        "        text-align: right;\n",
393 |        "    }\n",
394 |        "\n",
395 |        "    .dataframe thead th {\n",
396 |        "        text-align: left;\n",
397 |        "    }\n",
398 |        "\n",
399 |        "    .dataframe tbody tr th {\n",
400 |        "        vertical-align: top;\n",
401 |        "    }\n",
402 |        "</style>\n",
403 |        "<table border=\"1\" class=\"dataframe\">\n",
404 |        "  <thead>\n",
405 |        "    <tr style=\"text-align: right;\">\n",
406 |        "      <th></th>\n",
407 |        "      <th>0</th>\n",
408 |        "      <th>1</th>\n",
409 |        "    </tr>\n",
410 |        "  </thead>\n",
411 |        "  <tbody>\n",
412 |        "    <tr>\n",
413 |        "      <th>Intercept</th>\n",
414 |        "      <td>25.205184</td>\n",
415 |        "      <td>2402.634534</td>\n",
416 |        "    </tr>\n",
417 |        "    <tr>\n",
418 |        "      <th>sex[T.male]</th>\n",
419 |        "      <td>0.010014</td>\n",
420 |        "      <td>0.101363</td>\n",
421 |        "    </tr>\n",
422 |        "    <tr>\n",
423 |        "      <th>deck[T.B]</th>\n",
424 |        "      <td>0.090132</td>\n",
425 |        "      <td>2.348053</td>\n",
426 |        "    </tr>\n",
427 |        "    <tr>\n",
428 |        "      <th>deck[T.C]</th>\n",
429 |        "      <td>0.037055</td>\n",
430 |        "      <td>0.878167</td>\n",
431 |        "    </tr>\n",
432 |        "    <tr>\n",
433 |        "      <th>deck[T.D]</th>\n",
434 |        "      <td>0.103279</td>\n",
435 |        "      <td>2.750650</td>\n",
436 |        "    </tr>\n",
437 |        "    <tr>\n",
438 |        "      <th>deck[T.E]</th>\n",
439 |        "      <td>0.169594</td>\n",
440 |        "      <td>4.162737</td>\n",
441 |        "    </tr>\n",
442 |        "    <tr>\n",
443 |        "      <th>deck[T.F]</th>\n",
444 |        "      <td>0.026152</td>\n",
445 |        "      <td>1.853020</td>\n",
446 |        "    </tr>\n",
447 |        "    <tr>\n",
448 |        "      <th>deck[T.G]</th>\n",
449 |        "      <td>0.000427</td>\n",
450 |        "      <td>0.129203</td>\n",
451 |        "    </tr>\n",
452 |        "    <tr>\n",
453 |        "      <th>age</th>\n",
454 |        "      <td>0.930859</td>\n",
455 |        "      <td>0.985705</td>\n",
456 |        "    </tr>\n",
457 |        "    <tr>\n",
458 |        "      <th>fare</th>\n",
459 |        "      <td>0.996609</td>\n",
460 |        "      <td>1.008008</td>\n",
461 |        "    </tr>\n",
462 |        "  </tbody>\n",
463 |        "</table>\n",
464 |        "</div>"
465 |       ],
466 |       "text/plain": [
467 |        "                     0            1\n",
468 |        "Intercept    25.205184  2402.634534\n",
469 |        "sex[T.male]   0.010014     0.101363\n",
470 |        "deck[T.B]     0.090132     2.348053\n",
471 |        "deck[T.C]     0.037055     0.878167\n",
472 |        "deck[T.D]     0.103279     2.750650\n",
473 |        "deck[T.E]     0.169594     4.162737\n",
474 |        "deck[T.F]     0.026152     1.853020\n",
475 |        "deck[T.G]     0.000427     0.129203\n",
476 |        "age           0.930859     0.985705\n",
477 |        "fare          0.996609     1.008008"
478 |       ]
479 |      },
480 |      "execution_count": 6,
481 |      "metadata": {},
482 |      "output_type": "execute_result"
483 |     }
484 |    ],
485 |    "source": [
486 |     "np.exp(results.conf_int())"
487 |    ]
488 |   },
489 |   {
490 |    "cell_type": "code",
491 |    "execution_count": null,
492 |    "metadata": {
493 |     "collapsed": true
494 |    },
495 |    "outputs": [],
496 |    "source": []
497 |   }
498 |  ],
499 |  "metadata": {
500 |   "kernelspec": {
501 |    "display_name": "Python 3",
502 |    "language": "python",
503 |    "name": "python3"
504 |   },
505 |   "language_info": {
506 |    "codemirror_mode": {
507 |     "name": "ipython",
508 |     "version": 3
509 |    },
510 |    "file_extension": ".py",
511 |    "mimetype": "text/x-python",
512 |    "name": "python",
513 |    "nbconvert_exporter": "python",
514 |    "pygments_lexer": "ipython3",
515 |    "version": "3.6.1"
516 |   }
517 |  },
518 |  "nbformat": 4,
519 |  "nbformat_minor": 2
520 | }
521 | 


--------------------------------------------------------------------------------
/01-notes/09a-sklearn_linear.ipynb:
--------------------------------------------------------------------------------
  1 | {
  2 |  "cells": [
  3 |   {
  4 |    "cell_type": "code",
  5 |    "execution_count": 1,
  6 |    "metadata": {},
  7 |    "outputs": [],
  8 |    "source": [
  9 |     "import pandas as pd\n",
 10 |     "import seaborn as sns\n",
 11 |     "from sklearn import linear_model"
 12 |    ]
 13 |   },
 14 |   {
 15 |    "cell_type": "code",
 16 |    "execution_count": 2,
 17 |    "metadata": {},
 18 |    "outputs": [
 19 |     {
 20 |      "data": {
 21 |       "text/html": [
 22 |        "<div>\n",
 23 |        "<style>\n",
 24 |        "    .dataframe thead tr:only-child th {\n",
 25 |        "        text-align: right;\n",
 26 |        "    }\n",
 27 |        "\n",
 28 |        "    .dataframe thead th {\n",
 29 |        "        text-align: left;\n",
 30 |        "    }\n",
 31 |        "\n",
 32 |        "    .dataframe tbody tr th {\n",
 33 |        "        vertical-align: top;\n",
 34 |        "    }\n",
 35 |        "</style>\n",
 36 |        "<table border=\"1\" class=\"dataframe\">\n",
 37 |        "  <thead>\n",
 38 |        "    <tr style=\"text-align: right;\">\n",
 39 |        "      <th></th>\n",
 40 |        "      <th>total_bill</th>\n",
 41 |        "      <th>tip</th>\n",
 42 |        "      <th>sex</th>\n",
 43 |        "      <th>smoker</th>\n",
 44 |        "      <th>day</th>\n",
 45 |        "      <th>time</th>\n",
 46 |        "      <th>size</th>\n",
 47 |        "    </tr>\n",
 48 |        "  </thead>\n",
 49 |        "  <tbody>\n",
 50 |        "    <tr>\n",
 51 |        "      <th>0</th>\n",
 52 |        "      <td>16.99</td>\n",
 53 |        "      <td>1.01</td>\n",
 54 |        "      <td>Female</td>\n",
 55 |        "      <td>No</td>\n",
 56 |        "      <td>Sun</td>\n",
 57 |        "      <td>Dinner</td>\n",
 58 |        "      <td>2</td>\n",
 59 |        "    </tr>\n",
 60 |        "    <tr>\n",
 61 |        "      <th>1</th>\n",
 62 |        "      <td>10.34</td>\n",
 63 |        "      <td>1.66</td>\n",
 64 |        "      <td>Male</td>\n",
 65 |        "      <td>No</td>\n",
 66 |        "      <td>Sun</td>\n",
 67 |        "      <td>Dinner</td>\n",
 68 |        "      <td>3</td>\n",
 69 |        "    </tr>\n",
 70 |        "    <tr>\n",
 71 |        "      <th>2</th>\n",
 72 |        "      <td>21.01</td>\n",
 73 |        "      <td>3.50</td>\n",
 74 |        "      <td>Male</td>\n",
 75 |        "      <td>No</td>\n",
 76 |        "      <td>Sun</td>\n",
 77 |        "      <td>Dinner</td>\n",
 78 |        "      <td>3</td>\n",
 79 |        "    </tr>\n",
 80 |        "    <tr>\n",
 81 |        "      <th>3</th>\n",
 82 |        "      <td>23.68</td>\n",
 83 |        "      <td>3.31</td>\n",
 84 |        "      <td>Male</td>\n",
 85 |        "      <td>No</td>\n",
 86 |        "      <td>Sun</td>\n",
 87 |        "      <td>Dinner</td>\n",
 88 |        "      <td>2</td>\n",
 89 |        "    </tr>\n",
 90 |        "    <tr>\n",
 91 |        "      <th>4</th>\n",
 92 |        "      <td>24.59</td>\n",
 93 |        "      <td>3.61</td>\n",
 94 |        "      <td>Female</td>\n",
 95 |        "      <td>No</td>\n",
 96 |        "      <td>Sun</td>\n",
 97 |        "      <td>Dinner</td>\n",
 98 |        "      <td>4</td>\n",
 99 |        "    </tr>\n",
100 |        "  </tbody>\n",
101 |        "</table>\n",
102 |        "</div>"
103 |       ],
104 |       "text/plain": [
105 |        "   total_bill   tip     sex smoker  day    time  size\n",
106 |        "0       16.99  1.01  Female     No  Sun  Dinner     2\n",
107 |        "1       10.34  1.66    Male     No  Sun  Dinner     3\n",
108 |        "2       21.01  3.50    Male     No  Sun  Dinner     3\n",
109 |        "3       23.68  3.31    Male     No  Sun  Dinner     2\n",
110 |        "4       24.59  3.61  Female     No  Sun  Dinner     4"
111 |       ]
112 |      },
113 |      "execution_count": 2,
114 |      "metadata": {},
115 |      "output_type": "execute_result"
116 |     }
117 |    ],
118 |    "source": [
119 |     "tips = sns.load_dataset('tips')\n",
120 |     "tips.head()"
121 |    ]
122 |   },
123 |   {
124 |    "cell_type": "code",
125 |    "execution_count": 3,
126 |    "metadata": {},
127 |    "outputs": [
128 |     {
129 |      "name": "stdout",
130 |      "output_type": "stream",
131 |      "text": [
132 |       "<class 'pandas.core.frame.DataFrame'>\n",
133 |       "RangeIndex: 244 entries, 0 to 243\n",
134 |       "Data columns (total 7 columns):\n",
135 |       "total_bill    244 non-null float64\n",
136 |       "tip           244 non-null float64\n",
137 |       "sex           244 non-null category\n",
138 |       "smoker        244 non-null category\n",
139 |       "day           244 non-null category\n",
140 |       "time          244 non-null category\n",
141 |       "size          244 non-null int64\n",
142 |       "dtypes: category(4), float64(2), int64(1)\n",
143 |       "memory usage: 7.2 KB\n"
144 |      ]
145 |     }
146 |    ],
147 |    "source": [
148 |     "tips.info()"
149 |    ]
150 |   },
151 |   {
152 |    "cell_type": "code",
153 |    "execution_count": 4,
154 |    "metadata": {},
155 |    "outputs": [
156 |     {
157 |      "data": {
158 |       "text/html": [
159 |        "<div>\n",
160 |        "<style>\n",
161 |        "    .dataframe thead tr:only-child th {\n",
162 |        "        text-align: right;\n",
163 |        "    }\n",
164 |        "\n",
165 |        "    .dataframe thead th {\n",
166 |        "        text-align: left;\n",
167 |        "    }\n",
168 |        "\n",
169 |        "    .dataframe tbody tr th {\n",
170 |        "        vertical-align: top;\n",
171 |        "    }\n",
172 |        "</style>\n",
173 |        "<table border=\"1\" class=\"dataframe\">\n",
174 |        "  <thead>\n",
175 |        "    <tr style=\"text-align: right;\">\n",
176 |        "      <th></th>\n",
177 |        "      <th>total_bill</th>\n",
178 |        "      <th>tip</th>\n",
179 |        "      <th>sex</th>\n",
180 |        "      <th>smoker</th>\n",
181 |        "      <th>day</th>\n",
182 |        "      <th>time</th>\n",
183 |        "      <th>size</th>\n",
184 |        "      <th>sex_dummy</th>\n",
185 |        "    </tr>\n",
186 |        "  </thead>\n",
187 |        "  <tbody>\n",
188 |        "    <tr>\n",
189 |        "      <th>0</th>\n",
190 |        "      <td>16.99</td>\n",
191 |        "      <td>1.01</td>\n",
192 |        "      <td>Female</td>\n",
193 |        "      <td>No</td>\n",
194 |        "      <td>Sun</td>\n",
195 |        "      <td>Dinner</td>\n",
196 |        "      <td>2</td>\n",
197 |        "      <td>1</td>\n",
198 |        "    </tr>\n",
199 |        "    <tr>\n",
200 |        "      <th>1</th>\n",
201 |        "      <td>10.34</td>\n",
202 |        "      <td>1.66</td>\n",
203 |        "      <td>Male</td>\n",
204 |        "      <td>No</td>\n",
205 |        "      <td>Sun</td>\n",
206 |        "      <td>Dinner</td>\n",
207 |        "      <td>3</td>\n",
208 |        "      <td>0</td>\n",
209 |        "    </tr>\n",
210 |        "    <tr>\n",
211 |        "      <th>2</th>\n",
212 |        "      <td>21.01</td>\n",
213 |        "      <td>3.50</td>\n",
214 |        "      <td>Male</td>\n",
215 |        "      <td>No</td>\n",
216 |        "      <td>Sun</td>\n",
217 |        "      <td>Dinner</td>\n",
218 |        "      <td>3</td>\n",
219 |        "      <td>0</td>\n",
220 |        "    </tr>\n",
221 |        "    <tr>\n",
222 |        "      <th>3</th>\n",
223 |        "      <td>23.68</td>\n",
224 |        "      <td>3.31</td>\n",
225 |        "      <td>Male</td>\n",
226 |        "      <td>No</td>\n",
227 |        "      <td>Sun</td>\n",
228 |        "      <td>Dinner</td>\n",
229 |        "      <td>2</td>\n",
230 |        "      <td>0</td>\n",
231 |        "    </tr>\n",
232 |        "    <tr>\n",
233 |        "      <th>4</th>\n",
234 |        "      <td>24.59</td>\n",
235 |        "      <td>3.61</td>\n",
236 |        "      <td>Female</td>\n",
237 |        "      <td>No</td>\n",
238 |        "      <td>Sun</td>\n",
239 |        "      <td>Dinner</td>\n",
240 |        "      <td>4</td>\n",
241 |        "      <td>1</td>\n",
242 |        "    </tr>\n",
243 |        "  </tbody>\n",
244 |        "</table>\n",
245 |        "</div>"
246 |       ],
247 |       "text/plain": [
248 |        "   total_bill   tip     sex smoker  day    time  size  sex_dummy\n",
249 |        "0       16.99  1.01  Female     No  Sun  Dinner     2          1\n",
250 |        "1       10.34  1.66    Male     No  Sun  Dinner     3          0\n",
251 |        "2       21.01  3.50    Male     No  Sun  Dinner     3          0\n",
252 |        "3       23.68  3.31    Male     No  Sun  Dinner     2          0\n",
253 |        "4       24.59  3.61  Female     No  Sun  Dinner     4          1"
254 |       ]
255 |      },
256 |      "execution_count": 4,
257 |      "metadata": {},
258 |      "output_type": "execute_result"
259 |     }
260 |    ],
261 |    "source": [
262 |     "tips['sex_dummy'] = pd.get_dummies(tips['sex'],\n",
263 |     "                                   drop_first=True)\n",
264 |     "tips.head()"
265 |    ]
266 |   },
267 |   {
268 |    "cell_type": "code",
269 |    "execution_count": 5,
270 |    "metadata": {
271 |     "collapsed": true
272 |    },
273 |    "outputs": [],
274 |    "source": [
275 |     "lr = linear_model.LinearRegression()"
276 |    ]
277 |   },
278 |   {
279 |    "cell_type": "code",
280 |    "execution_count": 6,
281 |    "metadata": {
282 |     "collapsed": true
283 |    },
284 |    "outputs": [],
285 |    "source": [
286 |     "X = tips[['total_bill', 'sex_dummy', 'size']]\n",
287 |     "Y = tips['tip']"
288 |    ]
289 |   },
290 |   {
291 |    "cell_type": "code",
292 |    "execution_count": 7,
293 |    "metadata": {},
294 |    "outputs": [],
295 |    "source": [
296 |     "predicted = lr.fit(X, Y)"
297 |    ]
298 |   },
299 |   {
300 |    "cell_type": "code",
301 |    "execution_count": 8,
302 |    "metadata": {},
303 |    "outputs": [
304 |     {
305 |      "data": {
306 |       "text/plain": [
307 |        "array([ 0.09292034,  0.02641868,  0.19258767])"
308 |       ]
309 |      },
310 |      "execution_count": 8,
311 |      "metadata": {},
312 |      "output_type": "execute_result"
313 |     }
314 |    ],
315 |    "source": [
316 |     "predicted.coef_"
317 |    ]
318 |   },
319 |   {
320 |    "cell_type": "code",
321 |    "execution_count": 9,
322 |    "metadata": {
323 |     "collapsed": true
324 |    },
325 |    "outputs": [],
326 |    "source": [
327 |     "# probably a better way to do this\n",
328 |     "results = pd.DataFrame(\n",
329 |     "    predicted.coef_,\n",
330 |     "    index = ['total_bill', 'sex_dummy', 'size']\n",
331 |     ")"
332 |    ]
333 |   },
334 |   {
335 |    "cell_type": "code",
336 |    "execution_count": 10,
337 |    "metadata": {},
338 |    "outputs": [
339 |     {
340 |      "data": {
341 |       "text/html": [
342 |        "<div>\n",
343 |        "<style>\n",
344 |        "    .dataframe thead tr:only-child th {\n",
345 |        "        text-align: right;\n",
346 |        "    }\n",
347 |        "\n",
348 |        "    .dataframe thead th {\n",
349 |        "        text-align: left;\n",
350 |        "    }\n",
351 |        "\n",
352 |        "    .dataframe tbody tr th {\n",
353 |        "        vertical-align: top;\n",
354 |        "    }\n",
355 |        "</style>\n",
356 |        "<table border=\"1\" class=\"dataframe\">\n",
357 |        "  <thead>\n",
358 |        "    <tr style=\"text-align: right;\">\n",
359 |        "      <th></th>\n",
360 |        "      <th>0</th>\n",
361 |        "    </tr>\n",
362 |        "  </thead>\n",
363 |        "  <tbody>\n",
364 |        "    <tr>\n",
365 |        "      <th>total_bill</th>\n",
366 |        "      <td>0.092920</td>\n",
367 |        "    </tr>\n",
368 |        "    <tr>\n",
369 |        "      <th>sex_dummy</th>\n",
370 |        "      <td>0.026419</td>\n",
371 |        "    </tr>\n",
372 |        "    <tr>\n",
373 |        "      <th>size</th>\n",
374 |        "      <td>0.192588</td>\n",
375 |        "    </tr>\n",
376 |        "  </tbody>\n",
377 |        "</table>\n",
378 |        "</div>"
379 |       ],
380 |       "text/plain": [
381 |        "                   0\n",
382 |        "total_bill  0.092920\n",
383 |        "sex_dummy   0.026419\n",
384 |        "size        0.192588"
385 |       ]
386 |      },
387 |      "execution_count": 10,
388 |      "metadata": {},
389 |      "output_type": "execute_result"
390 |     }
391 |    ],
392 |    "source": [
393 |     "results"
394 |    ]
395 |   },
396 |   {
397 |    "cell_type": "code",
398 |    "execution_count": null,
399 |    "metadata": {
400 |     "collapsed": true
401 |    },
402 |    "outputs": [],
403 |    "source": []
404 |   }
405 |  ],
406 |  "metadata": {
407 |   "kernelspec": {
408 |    "display_name": "Python 3",
409 |    "language": "python",
410 |    "name": "python3"
411 |   },
412 |   "language_info": {
413 |    "codemirror_mode": {
414 |     "name": "ipython",
415 |     "version": 3
416 |    },
417 |    "file_extension": ".py",
418 |    "mimetype": "text/x-python",
419 |    "name": "python",
420 |    "nbconvert_exporter": "python",
421 |    "pygments_lexer": "ipython3",
422 |    "version": "3.6.1"
423 |   }
424 |  },
425 |  "nbformat": 4,
426 |  "nbformat_minor": 2
427 | }
428 | 


--------------------------------------------------------------------------------
/02-lesson/05-data_types.ipynb:
--------------------------------------------------------------------------------
  1 | {
  2 |  "cells": [
  3 |   {
  4 |    "cell_type": "code",
  5 |    "execution_count": 1,
  6 |    "metadata": {
  7 |     "collapsed": true
  8 |    },
  9 |    "outputs": [],
 10 |    "source": [
 11 |     "import pandas as pd"
 12 |    ]
 13 |   },
 14 |   {
 15 |    "cell_type": "code",
 16 |    "execution_count": 2,
 17 |    "metadata": {
 18 |     "collapsed": true
 19 |    },
 20 |    "outputs": [],
 21 |    "source": [
 22 |     "import seaborn as sns"
 23 |    ]
 24 |   },
 25 |   {
 26 |    "cell_type": "code",
 27 |    "execution_count": 3,
 28 |    "metadata": {
 29 |     "collapsed": true
 30 |    },
 31 |    "outputs": [],
 32 |    "source": [
 33 |     "tips = sns.load_dataset('tips')"
 34 |    ]
 35 |   },
 36 |   {
 37 |    "cell_type": "code",
 38 |    "execution_count": 4,
 39 |    "metadata": {},
 40 |    "outputs": [
 41 |     {
 42 |      "data": {
 43 |       "text/html": [
 44 |        "<div>\n",
 45 |        "<style>\n",
 46 |        "    .dataframe thead tr:only-child th {\n",
 47 |        "        text-align: right;\n",
 48 |        "    }\n",
 49 |        "\n",
 50 |        "    .dataframe thead th {\n",
 51 |        "        text-align: left;\n",
 52 |        "    }\n",
 53 |        "\n",
 54 |        "    .dataframe tbody tr th {\n",
 55 |        "        vertical-align: top;\n",
 56 |        "    }\n",
 57 |        "</style>\n",
 58 |        "<table border=\"1\" class=\"dataframe\">\n",
 59 |        "  <thead>\n",
 60 |        "    <tr style=\"text-align: right;\">\n",
 61 |        "      <th></th>\n",
 62 |        "      <th>total_bill</th>\n",
 63 |        "      <th>tip</th>\n",
 64 |        "      <th>sex</th>\n",
 65 |        "      <th>smoker</th>\n",
 66 |        "      <th>day</th>\n",
 67 |        "      <th>time</th>\n",
 68 |        "      <th>size</th>\n",
 69 |        "    </tr>\n",
 70 |        "  </thead>\n",
 71 |        "  <tbody>\n",
 72 |        "    <tr>\n",
 73 |        "      <th>0</th>\n",
 74 |        "      <td>16.99</td>\n",
 75 |        "      <td>1.01</td>\n",
 76 |        "      <td>Female</td>\n",
 77 |        "      <td>No</td>\n",
 78 |        "      <td>Sun</td>\n",
 79 |        "      <td>Dinner</td>\n",
 80 |        "      <td>2</td>\n",
 81 |        "    </tr>\n",
 82 |        "    <tr>\n",
 83 |        "      <th>1</th>\n",
 84 |        "      <td>10.34</td>\n",
 85 |        "      <td>1.66</td>\n",
 86 |        "      <td>Male</td>\n",
 87 |        "      <td>No</td>\n",
 88 |        "      <td>Sun</td>\n",
 89 |        "      <td>Dinner</td>\n",
 90 |        "      <td>3</td>\n",
 91 |        "    </tr>\n",
 92 |        "    <tr>\n",
 93 |        "      <th>2</th>\n",
 94 |        "      <td>21.01</td>\n",
 95 |        "      <td>3.50</td>\n",
 96 |        "      <td>Male</td>\n",
 97 |        "      <td>No</td>\n",
 98 |        "      <td>Sun</td>\n",
 99 |        "      <td>Dinner</td>\n",
100 |        "      <td>3</td>\n",
101 |        "    </tr>\n",
102 |        "    <tr>\n",
103 |        "      <th>3</th>\n",
104 |        "      <td>23.68</td>\n",
105 |        "      <td>3.31</td>\n",
106 |        "      <td>Male</td>\n",
107 |        "      <td>No</td>\n",
108 |        "      <td>Sun</td>\n",
109 |        "      <td>Dinner</td>\n",
110 |        "      <td>2</td>\n",
111 |        "    </tr>\n",
112 |        "    <tr>\n",
113 |        "      <th>4</th>\n",
114 |        "      <td>24.59</td>\n",
115 |        "      <td>3.61</td>\n",
116 |        "      <td>Female</td>\n",
117 |        "      <td>No</td>\n",
118 |        "      <td>Sun</td>\n",
119 |        "      <td>Dinner</td>\n",
120 |        "      <td>4</td>\n",
121 |        "    </tr>\n",
122 |        "  </tbody>\n",
123 |        "</table>\n",
124 |        "</div>"
125 |       ],
126 |       "text/plain": [
127 |        "   total_bill   tip     sex smoker  day    time  size\n",
128 |        "0       16.99  1.01  Female     No  Sun  Dinner     2\n",
129 |        "1       10.34  1.66    Male     No  Sun  Dinner     3\n",
130 |        "2       21.01  3.50    Male     No  Sun  Dinner     3\n",
131 |        "3       23.68  3.31    Male     No  Sun  Dinner     2\n",
132 |        "4       24.59  3.61  Female     No  Sun  Dinner     4"
133 |       ]
134 |      },
135 |      "execution_count": 4,
136 |      "metadata": {},
137 |      "output_type": "execute_result"
138 |     }
139 |    ],
140 |    "source": [
141 |     "tips.head()"
142 |    ]
143 |   },
144 |   {
145 |    "cell_type": "code",
146 |    "execution_count": 5,
147 |    "metadata": {},
148 |    "outputs": [
149 |     {
150 |      "name": "stdout",
151 |      "output_type": "stream",
152 |      "text": [
153 |       "<class 'pandas.core.frame.DataFrame'>\n",
154 |       "RangeIndex: 244 entries, 0 to 243\n",
155 |       "Data columns (total 7 columns):\n",
156 |       "total_bill    244 non-null float64\n",
157 |       "tip           244 non-null float64\n",
158 |       "sex           244 non-null category\n",
159 |       "smoker        244 non-null category\n",
160 |       "day           244 non-null category\n",
161 |       "time          244 non-null category\n",
162 |       "size          244 non-null int64\n",
163 |       "dtypes: category(4), float64(2), int64(1)\n",
164 |       "memory usage: 7.2 KB\n"
165 |      ]
166 |     }
167 |    ],
168 |    "source": [
169 |     "tips.info()"
170 |    ]
171 |   },
172 |   {
173 |    "cell_type": "code",
174 |    "execution_count": null,
175 |    "metadata": {
176 |     "collapsed": true
177 |    },
178 |    "outputs": [],
179 |    "source": [
180 |     "pd.Categorical()"
181 |    ]
182 |   },
183 |   {
184 |    "cell_type": "code",
185 |    "execution_count": 7,
186 |    "metadata": {
187 |     "collapsed": true
188 |    },
189 |    "outputs": [],
190 |    "source": [
191 |     "tips['total_bill_str'] = tips['total_bill'].astype(str)"
192 |    ]
193 |   },
194 |   {
195 |    "cell_type": "code",
196 |    "execution_count": 9,
197 |    "metadata": {},
198 |    "outputs": [
199 |     {
200 |      "name": "stdout",
201 |      "output_type": "stream",
202 |      "text": [
203 |       "<class 'pandas.core.frame.DataFrame'>\n",
204 |       "RangeIndex: 244 entries, 0 to 243\n",
205 |       "Data columns (total 8 columns):\n",
206 |       "total_bill        244 non-null float64\n",
207 |       "tip               244 non-null float64\n",
208 |       "sex               244 non-null category\n",
209 |       "smoker            244 non-null category\n",
210 |       "day               244 non-null category\n",
211 |       "time              244 non-null category\n",
212 |       "size              244 non-null int64\n",
213 |       "total_bill_str    244 non-null object\n",
214 |       "dtypes: category(4), float64(2), int64(1), object(1)\n",
215 |       "memory usage: 9.1+ KB\n"
216 |      ]
217 |     }
218 |    ],
219 |    "source": [
220 |     "tips.info()"
221 |    ]
222 |   },
223 |   {
224 |    "cell_type": "code",
225 |    "execution_count": 12,
226 |    "metadata": {},
227 |    "outputs": [
228 |     {
229 |      "name": "stderr",
230 |      "output_type": "stream",
231 |      "text": [
232 |       "/home/dchen/anaconda3/lib/python3.6/site-packages/pandas/core/indexing.py:517: SettingWithCopyWarning: \n",
233 |       "A value is trying to be set on a copy of a slice from a DataFrame.\n",
234 |       "Try using .loc[row_indexer,col_indexer] = value instead\n",
235 |       "\n",
236 |       "See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy\n",
237 |       "  self.obj[item] = s\n"
238 |      ]
239 |     },
240 |     {
241 |      "data": {
242 |       "text/html": [
243 |        "<div>\n",
244 |        "<style>\n",
245 |        "    .dataframe thead tr:only-child th {\n",
246 |        "        text-align: right;\n",
247 |        "    }\n",
248 |        "\n",
249 |        "    .dataframe thead th {\n",
250 |        "        text-align: left;\n",
251 |        "    }\n",
252 |        "\n",
253 |        "    .dataframe tbody tr th {\n",
254 |        "        vertical-align: top;\n",
255 |        "    }\n",
256 |        "</style>\n",
257 |        "<table border=\"1\" class=\"dataframe\">\n",
258 |        "  <thead>\n",
259 |        "    <tr style=\"text-align: right;\">\n",
260 |        "      <th></th>\n",
261 |        "      <th>total_bill</th>\n",
262 |        "      <th>tip</th>\n",
263 |        "      <th>sex</th>\n",
264 |        "      <th>smoker</th>\n",
265 |        "      <th>day</th>\n",
266 |        "      <th>time</th>\n",
267 |        "      <th>size</th>\n",
268 |        "      <th>total_bill_str</th>\n",
269 |        "    </tr>\n",
270 |        "  </thead>\n",
271 |        "  <tbody>\n",
272 |        "    <tr>\n",
273 |        "      <th>0</th>\n",
274 |        "      <td>16.99</td>\n",
275 |        "      <td>1.01</td>\n",
276 |        "      <td>Female</td>\n",
277 |        "      <td>No</td>\n",
278 |        "      <td>Sun</td>\n",
279 |        "      <td>Dinner</td>\n",
280 |        "      <td>2</td>\n",
281 |        "      <td>16.99</td>\n",
282 |        "    </tr>\n",
283 |        "    <tr>\n",
284 |        "      <th>1</th>\n",
285 |        "      <td>missing</td>\n",
286 |        "      <td>1.66</td>\n",
287 |        "      <td>Male</td>\n",
288 |        "      <td>No</td>\n",
289 |        "      <td>Sun</td>\n",
290 |        "      <td>Dinner</td>\n",
291 |        "      <td>3</td>\n",
292 |        "      <td>10.34</td>\n",
293 |        "    </tr>\n",
294 |        "    <tr>\n",
295 |        "      <th>2</th>\n",
296 |        "      <td>21.01</td>\n",
297 |        "      <td>3.50</td>\n",
298 |        "      <td>Male</td>\n",
299 |        "      <td>No</td>\n",
300 |        "      <td>Sun</td>\n",
301 |        "      <td>Dinner</td>\n",
302 |        "      <td>3</td>\n",
303 |        "      <td>21.01</td>\n",
304 |        "    </tr>\n",
305 |        "    <tr>\n",
306 |        "      <th>3</th>\n",
307 |        "      <td>missing</td>\n",
308 |        "      <td>3.31</td>\n",
309 |        "      <td>Male</td>\n",
310 |        "      <td>No</td>\n",
311 |        "      <td>Sun</td>\n",
312 |        "      <td>Dinner</td>\n",
313 |        "      <td>2</td>\n",
314 |        "      <td>23.68</td>\n",
315 |        "    </tr>\n",
316 |        "    <tr>\n",
317 |        "      <th>4</th>\n",
318 |        "      <td>24.59</td>\n",
319 |        "      <td>3.61</td>\n",
320 |        "      <td>Female</td>\n",
321 |        "      <td>No</td>\n",
322 |        "      <td>Sun</td>\n",
323 |        "      <td>Dinner</td>\n",
324 |        "      <td>4</td>\n",
325 |        "      <td>24.59</td>\n",
326 |        "    </tr>\n",
327 |        "    <tr>\n",
328 |        "      <th>5</th>\n",
329 |        "      <td>missing</td>\n",
330 |        "      <td>4.71</td>\n",
331 |        "      <td>Male</td>\n",
332 |        "      <td>No</td>\n",
333 |        "      <td>Sun</td>\n",
334 |        "      <td>Dinner</td>\n",
335 |        "      <td>4</td>\n",
336 |        "      <td>25.29</td>\n",
337 |        "    </tr>\n",
338 |        "    <tr>\n",
339 |        "      <th>6</th>\n",
340 |        "      <td>8.77</td>\n",
341 |        "      <td>2.00</td>\n",
342 |        "      <td>Male</td>\n",
343 |        "      <td>No</td>\n",
344 |        "      <td>Sun</td>\n",
345 |        "      <td>Dinner</td>\n",
346 |        "      <td>2</td>\n",
347 |        "      <td>8.77</td>\n",
348 |        "    </tr>\n",
349 |        "    <tr>\n",
350 |        "      <th>7</th>\n",
351 |        "      <td>missing</td>\n",
352 |        "      <td>3.12</td>\n",
353 |        "      <td>Male</td>\n",
354 |        "      <td>No</td>\n",
355 |        "      <td>Sun</td>\n",
356 |        "      <td>Dinner</td>\n",
357 |        "      <td>4</td>\n",
358 |        "      <td>26.88</td>\n",
359 |        "    </tr>\n",
360 |        "    <tr>\n",
361 |        "      <th>8</th>\n",
362 |        "      <td>15.04</td>\n",
363 |        "      <td>1.96</td>\n",
364 |        "      <td>Male</td>\n",
365 |        "      <td>No</td>\n",
366 |        "      <td>Sun</td>\n",
367 |        "      <td>Dinner</td>\n",
368 |        "      <td>2</td>\n",
369 |        "      <td>15.04</td>\n",
370 |        "    </tr>\n",
371 |        "    <tr>\n",
372 |        "      <th>9</th>\n",
373 |        "      <td>14.78</td>\n",
374 |        "      <td>3.23</td>\n",
375 |        "      <td>Male</td>\n",
376 |        "      <td>No</td>\n",
377 |        "      <td>Sun</td>\n",
378 |        "      <td>Dinner</td>\n",
379 |        "      <td>2</td>\n",
380 |        "      <td>14.78</td>\n",
381 |        "    </tr>\n",
382 |        "  </tbody>\n",
383 |        "</table>\n",
384 |        "</div>"
385 |       ],
386 |       "text/plain": [
387 |        "  total_bill   tip     sex smoker  day    time  size total_bill_str\n",
388 |        "0      16.99  1.01  Female     No  Sun  Dinner     2          16.99\n",
389 |        "1    missing  1.66    Male     No  Sun  Dinner     3          10.34\n",
390 |        "2      21.01  3.50    Male     No  Sun  Dinner     3          21.01\n",
391 |        "3    missing  3.31    Male     No  Sun  Dinner     2          23.68\n",
392 |        "4      24.59  3.61  Female     No  Sun  Dinner     4          24.59\n",
393 |        "5    missing  4.71    Male     No  Sun  Dinner     4          25.29\n",
394 |        "6       8.77  2.00    Male     No  Sun  Dinner     2           8.77\n",
395 |        "7    missing  3.12    Male     No  Sun  Dinner     4          26.88\n",
396 |        "8      15.04  1.96    Male     No  Sun  Dinner     2          15.04\n",
397 |        "9      14.78  3.23    Male     No  Sun  Dinner     2          14.78"
398 |       ]
399 |      },
400 |      "execution_count": 12,
401 |      "metadata": {},
402 |      "output_type": "execute_result"
403 |     }
404 |    ],
405 |    "source": [
406 |     "tips_sub_miss = tips.head(10)\n",
407 |     "tips_sub_miss.loc[[1, 3, 5, 7], 'total_bill'] = 'missing'\n",
408 |     "tips_sub_miss"
409 |    ]
410 |   },
411 |   {
412 |    "cell_type": "code",
413 |    "execution_count": 13,
414 |    "metadata": {},
415 |    "outputs": [
416 |     {
417 |      "data": {
418 |       "text/plain": [
419 |        "total_bill          object\n",
420 |        "tip                float64\n",
421 |        "sex               category\n",
422 |        "smoker            category\n",
423 |        "day               category\n",
424 |        "time              category\n",
425 |        "size                 int64\n",
426 |        "total_bill_str      object\n",
427 |        "dtype: object"
428 |       ]
429 |      },
430 |      "execution_count": 13,
431 |      "metadata": {},
432 |      "output_type": "execute_result"
433 |     }
434 |    ],
435 |    "source": [
436 |     "tips_sub_miss.dtypes"
437 |    ]
438 |   },
439 |   {
440 |    "cell_type": "code",
441 |    "execution_count": 14,
442 |    "metadata": {},
443 |    "outputs": [
444 |     {
445 |      "ename": "ValueError",
446 |      "evalue": "could not convert string to float: 'missing'",
447 |      "output_type": "error",
448 |      "traceback": [
449 |       "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
450 |       "\u001b[0;31mValueError\u001b[0m                                Traceback (most recent call last)",
451 |       "\u001b[0;32m<ipython-input-14-edcd4e574118>\u001b[0m in \u001b[0;36m<module>\u001b[0;34m()\u001b[0m\n\u001b[0;32m----> 1\u001b[0;31m \u001b[0mtips_sub_miss\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0;34m'total_bill'\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mastype\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mfloat\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m",
452 |       "\u001b[0;32m/home/dchen/anaconda3/lib/python3.6/site-packages/pandas/util/_decorators.py\u001b[0m in \u001b[0;36mwrapper\u001b[0;34m(*args, **kwargs)\u001b[0m\n\u001b[1;32m     89\u001b[0m                 \u001b[0;32melse\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m     90\u001b[0m                     \u001b[0mkwargs\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0mnew_arg_name\u001b[0m\u001b[0;34m]\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mnew_arg_value\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m---> 91\u001b[0;31m             \u001b[0;32mreturn\u001b[0m \u001b[0mfunc\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m*\u001b[0m\u001b[0margs\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m**\u001b[0m\u001b[0mkwargs\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m     92\u001b[0m         \u001b[0;32mreturn\u001b[0m \u001b[0mwrapper\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m     93\u001b[0m     \u001b[0;32mreturn\u001b[0m \u001b[0m_deprecate_kwarg\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
453 |       "\u001b[0;32m/home/dchen/anaconda3/lib/python3.6/site-packages/pandas/core/generic.py\u001b[0m in \u001b[0;36mastype\u001b[0;34m(self, dtype, copy, errors, **kwargs)\u001b[0m\n\u001b[1;32m   3297\u001b[0m         \u001b[0;31m# else, only a single dtype is given\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m   3298\u001b[0m         new_data = self._data.astype(dtype=dtype, copy=copy, errors=errors,\n\u001b[0;32m-> 3299\u001b[0;31m                                      **kwargs)\n\u001b[0m\u001b[1;32m   3300\u001b[0m         \u001b[0;32mreturn\u001b[0m \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0m_constructor\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mnew_data\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0m__finalize__\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mself\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m   3301\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n",
454 |       "\u001b[0;32m/home/dchen/anaconda3/lib/python3.6/site-packages/pandas/core/internals.py\u001b[0m in \u001b[0;36mastype\u001b[0;34m(self, dtype, **kwargs)\u001b[0m\n\u001b[1;32m   3222\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m   3223\u001b[0m     \u001b[0;32mdef\u001b[0m \u001b[0mastype\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mself\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mdtype\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m**\u001b[0m\u001b[0mkwargs\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m-> 3224\u001b[0;31m         \u001b[0;32mreturn\u001b[0m \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mapply\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m'astype'\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mdtype\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0mdtype\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m**\u001b[0m\u001b[0mkwargs\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m   3225\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m   3226\u001b[0m     \u001b[0;32mdef\u001b[0m \u001b[0mconvert\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mself\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m**\u001b[0m\u001b[0mkwargs\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
455 |       "\u001b[0;32m/home/dchen/anaconda3/lib/python3.6/site-packages/pandas/core/internals.py\u001b[0m in \u001b[0;36mapply\u001b[0;34m(self, f, axes, filter, do_integrity_check, consolidate, **kwargs)\u001b[0m\n\u001b[1;32m   3089\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m   3090\u001b[0m             \u001b[0mkwargs\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0;34m'mgr'\u001b[0m\u001b[0;34m]\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mself\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m-> 3091\u001b[0;31m             \u001b[0mapplied\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mgetattr\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mb\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mf\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m**\u001b[0m\u001b[0mkwargs\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m   3092\u001b[0m             \u001b[0mresult_blocks\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0m_extend_blocks\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mapplied\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mresult_blocks\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m   3093\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n",
456 |       "\u001b[0;32m/home/dchen/anaconda3/lib/python3.6/site-packages/pandas/core/internals.py\u001b[0m in \u001b[0;36mastype\u001b[0;34m(self, dtype, copy, errors, values, **kwargs)\u001b[0m\n\u001b[1;32m    469\u001b[0m     \u001b[0;32mdef\u001b[0m \u001b[0mastype\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mself\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mdtype\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mcopy\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0;32mFalse\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0merrors\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0;34m'raise'\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mvalues\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0;32mNone\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m**\u001b[0m\u001b[0mkwargs\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    470\u001b[0m         return self._astype(dtype, copy=copy, errors=errors, values=values,\n\u001b[0;32m--> 471\u001b[0;31m                             **kwargs)\n\u001b[0m\u001b[1;32m    472\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    473\u001b[0m     def _astype(self, dtype, copy=False, errors='raise', values=None,\n",
457 |       "\u001b[0;32m/home/dchen/anaconda3/lib/python3.6/site-packages/pandas/core/internals.py\u001b[0m in \u001b[0;36m_astype\u001b[0;34m(self, dtype, copy, errors, values, klass, mgr, **kwargs)\u001b[0m\n\u001b[1;32m    519\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    520\u001b[0m                 \u001b[0;31m# _astype_nansafe works fine with 1-d only\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m--> 521\u001b[0;31m                 \u001b[0mvalues\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mastype_nansafe\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mvalues\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mravel\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mdtype\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mcopy\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0;32mTrue\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m    522\u001b[0m                 \u001b[0mvalues\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mvalues\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mreshape\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mshape\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    523\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n",
458 |       "\u001b[0;32m/home/dchen/anaconda3/lib/python3.6/site-packages/pandas/core/dtypes/cast.py\u001b[0m in \u001b[0;36mastype_nansafe\u001b[0;34m(arr, dtype, copy)\u001b[0m\n\u001b[1;32m    634\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    635\u001b[0m     \u001b[0;32mif\u001b[0m \u001b[0mcopy\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m--> 636\u001b[0;31m         \u001b[0;32mreturn\u001b[0m \u001b[0marr\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mastype\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mdtype\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m    637\u001b[0m     \u001b[0;32mreturn\u001b[0m \u001b[0marr\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mview\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mdtype\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    638\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n",
459 |       "\u001b[0;31mValueError\u001b[0m: could not convert string to float: 'missing'"
460 |      ]
461 |     }
462 |    ],
463 |    "source": [
464 |     "tips_sub_miss['total_bill'].astype(float)"
465 |    ]
466 |   },
467 |   {
468 |    "cell_type": "code",
469 |    "execution_count": 15,
470 |    "metadata": {},
471 |    "outputs": [
472 |     {
473 |      "ename": "ValueError",
474 |      "evalue": "Unable to parse string \"missing\" at position 1",
475 |      "output_type": "error",
476 |      "traceback": [
477 |       "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
478 |       "\u001b[0;31mValueError\u001b[0m                                Traceback (most recent call last)",
479 |       "\u001b[0;32mpandas/_libs/src/inference.pyx\u001b[0m in \u001b[0;36mpandas._libs.lib.maybe_convert_numeric (pandas/_libs/lib.c:55951)\u001b[0;34m()\u001b[0m\n",
480 |       "\u001b[0;31mValueError\u001b[0m: Unable to parse string \"missing\"",
481 |       "\nDuring handling of the above exception, another exception occurred:\n",
482 |       "\u001b[0;31mValueError\u001b[0m                                Traceback (most recent call last)",
483 |       "\u001b[0;32m<ipython-input-15-fa2dc4a6500b>\u001b[0m in \u001b[0;36m<module>\u001b[0;34m()\u001b[0m\n\u001b[0;32m----> 1\u001b[0;31m \u001b[0mpd\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mto_numeric\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mtips_sub_miss\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0;34m'total_bill'\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m",
484 |       "\u001b[0;32m/home/dchen/anaconda3/lib/python3.6/site-packages/pandas/core/tools/numeric.py\u001b[0m in \u001b[0;36mto_numeric\u001b[0;34m(arg, errors, downcast)\u001b[0m\n\u001b[1;32m    124\u001b[0m             \u001b[0mcoerce_numeric\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0;32mFalse\u001b[0m \u001b[0;32mif\u001b[0m \u001b[0merrors\u001b[0m \u001b[0;32min\u001b[0m \u001b[0;34m(\u001b[0m\u001b[0;34m'ignore'\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m'raise'\u001b[0m\u001b[0;34m)\u001b[0m \u001b[0;32melse\u001b[0m \u001b[0;32mTrue\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    125\u001b[0m             values = lib.maybe_convert_numeric(values, set(),\n\u001b[0;32m--> 126\u001b[0;31m                                                coerce_numeric=coerce_numeric)\n\u001b[0m\u001b[1;32m    127\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    128\u001b[0m     \u001b[0;32mexcept\u001b[0m \u001b[0mException\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
485 |       "\u001b[0;32mpandas/_libs/src/inference.pyx\u001b[0m in \u001b[0;36mpandas._libs.lib.maybe_convert_numeric (pandas/_libs/lib.c:56433)\u001b[0;34m()\u001b[0m\n",
486 |       "\u001b[0;31mValueError\u001b[0m: Unable to parse string \"missing\" at position 1"
487 |      ]
488 |     }
489 |    ],
490 |    "source": [
491 |     "pd.to_numeric(tips_sub_miss['total_bill'])"
492 |    ]
493 |   },
494 |   {
495 |    "cell_type": "code",
496 |    "execution_count": 16,
497 |    "metadata": {},
498 |    "outputs": [
499 |     {
500 |      "data": {
501 |       "text/plain": [
502 |        "0      16.99\n",
503 |        "1    missing\n",
504 |        "2      21.01\n",
505 |        "3    missing\n",
506 |        "4      24.59\n",
507 |        "5    missing\n",
508 |        "6       8.77\n",
509 |        "7    missing\n",
510 |        "8      15.04\n",
511 |        "9      14.78\n",
512 |        "Name: total_bill, dtype: object"
513 |       ]
514 |      },
515 |      "execution_count": 16,
516 |      "metadata": {},
517 |      "output_type": "execute_result"
518 |     }
519 |    ],
520 |    "source": [
521 |     "pd.to_numeric(tips_sub_miss['total_bill'], errors='ignore')"
522 |    ]
523 |   },
524 |   {
525 |    "cell_type": "code",
526 |    "execution_count": 19,
527 |    "metadata": {},
528 |    "outputs": [
529 |     {
530 |      "data": {
531 |       "text/plain": [
532 |        "0    16.99\n",
533 |        "1      NaN\n",
534 |        "2    21.01\n",
535 |        "3      NaN\n",
536 |        "4    24.59\n",
537 |        "5      NaN\n",
538 |        "6     8.77\n",
539 |        "7      NaN\n",
540 |        "8    15.04\n",
541 |        "9    14.78\n",
542 |        "Name: total_bill, dtype: float64"
543 |       ]
544 |      },
545 |      "execution_count": 19,
546 |      "metadata": {},
547 |      "output_type": "execute_result"
548 |     }
549 |    ],
550 |    "source": [
551 |     "pd.to_numeric(tips_sub_miss['total_bill'], errors='coerce')"
552 |    ]
553 |   },
554 |   {
555 |    "cell_type": "code",
556 |    "execution_count": null,
557 |    "metadata": {
558 |     "collapsed": true
559 |    },
560 |    "outputs": [],
561 |    "source": []
562 |   }
563 |  ],
564 |  "metadata": {
565 |   "kernelspec": {
566 |    "display_name": "Python 3",
567 |    "language": "python",
568 |    "name": "python3"
569 |   },
570 |   "language_info": {
571 |    "codemirror_mode": {
572 |     "name": "ipython",
573 |     "version": 3
574 |    },
575 |    "file_extension": ".py",
576 |    "mimetype": "text/x-python",
577 |    "name": "python",
578 |    "nbconvert_exporter": "python",
579 |    "pygments_lexer": "ipython3",
580 |    "version": "3.6.1"
581 |   }
582 |  },
583 |  "nbformat": 4,
584 |  "nbformat_minor": 2
585 | }
586 | 


--------------------------------------------------------------------------------
/02-lesson/07-groupby.ipynb:
--------------------------------------------------------------------------------
  1 | {
  2 |  "cells": [
  3 |   {
  4 |    "cell_type": "code",
  5 |    "execution_count": 1,
  6 |    "metadata": {
  7 |     "collapsed": true
  8 |    },
  9 |    "outputs": [],
 10 |    "source": [
 11 |     "import pandas as pd"
 12 |    ]
 13 |   },
 14 |   {
 15 |    "cell_type": "code",
 16 |    "execution_count": 3,
 17 |    "metadata": {},
 18 |    "outputs": [],
 19 |    "source": [
 20 |     "gapminder = pd.read_csv('../data/gapminder.tsv', delimiter='\\t')"
 21 |    ]
 22 |   },
 23 |   {
 24 |    "cell_type": "code",
 25 |    "execution_count": 4,
 26 |    "metadata": {},
 27 |    "outputs": [
 28 |     {
 29 |      "data": {
 30 |       "text/html": [
 31 |        "<div>\n",
 32 |        "<style>\n",
 33 |        "    .dataframe thead tr:only-child th {\n",
 34 |        "        text-align: right;\n",
 35 |        "    }\n",
 36 |        "\n",
 37 |        "    .dataframe thead th {\n",
 38 |        "        text-align: left;\n",
 39 |        "    }\n",
 40 |        "\n",
 41 |        "    .dataframe tbody tr th {\n",
 42 |        "        vertical-align: top;\n",
 43 |        "    }\n",
 44 |        "</style>\n",
 45 |        "<table border=\"1\" class=\"dataframe\">\n",
 46 |        "  <thead>\n",
 47 |        "    <tr style=\"text-align: right;\">\n",
 48 |        "      <th></th>\n",
 49 |        "      <th>country</th>\n",
 50 |        "      <th>continent</th>\n",
 51 |        "      <th>year</th>\n",
 52 |        "      <th>lifeExp</th>\n",
 53 |        "      <th>pop</th>\n",
 54 |        "      <th>gdpPercap</th>\n",
 55 |        "    </tr>\n",
 56 |        "  </thead>\n",
 57 |        "  <tbody>\n",
 58 |        "    <tr>\n",
 59 |        "      <th>0</th>\n",
 60 |        "      <td>Afghanistan</td>\n",
 61 |        "      <td>Asia</td>\n",
 62 |        "      <td>1952</td>\n",
 63 |        "      <td>28.801</td>\n",
 64 |        "      <td>8425333</td>\n",
 65 |        "      <td>779.445314</td>\n",
 66 |        "    </tr>\n",
 67 |        "    <tr>\n",
 68 |        "      <th>1</th>\n",
 69 |        "      <td>Afghanistan</td>\n",
 70 |        "      <td>Asia</td>\n",
 71 |        "      <td>1957</td>\n",
 72 |        "      <td>30.332</td>\n",
 73 |        "      <td>9240934</td>\n",
 74 |        "      <td>820.853030</td>\n",
 75 |        "    </tr>\n",
 76 |        "    <tr>\n",
 77 |        "      <th>2</th>\n",
 78 |        "      <td>Afghanistan</td>\n",
 79 |        "      <td>Asia</td>\n",
 80 |        "      <td>1962</td>\n",
 81 |        "      <td>31.997</td>\n",
 82 |        "      <td>10267083</td>\n",
 83 |        "      <td>853.100710</td>\n",
 84 |        "    </tr>\n",
 85 |        "    <tr>\n",
 86 |        "      <th>3</th>\n",
 87 |        "      <td>Afghanistan</td>\n",
 88 |        "      <td>Asia</td>\n",
 89 |        "      <td>1967</td>\n",
 90 |        "      <td>34.020</td>\n",
 91 |        "      <td>11537966</td>\n",
 92 |        "      <td>836.197138</td>\n",
 93 |        "    </tr>\n",
 94 |        "    <tr>\n",
 95 |        "      <th>4</th>\n",
 96 |        "      <td>Afghanistan</td>\n",
 97 |        "      <td>Asia</td>\n",
 98 |        "      <td>1972</td>\n",
 99 |        "      <td>36.088</td>\n",
100 |        "      <td>13079460</td>\n",
101 |        "      <td>739.981106</td>\n",
102 |        "    </tr>\n",
103 |        "  </tbody>\n",
104 |        "</table>\n",
105 |        "</div>"
106 |       ],
107 |       "text/plain": [
108 |        "       country continent  year  lifeExp       pop   gdpPercap\n",
109 |        "0  Afghanistan      Asia  1952   28.801   8425333  779.445314\n",
110 |        "1  Afghanistan      Asia  1957   30.332   9240934  820.853030\n",
111 |        "2  Afghanistan      Asia  1962   31.997  10267083  853.100710\n",
112 |        "3  Afghanistan      Asia  1967   34.020  11537966  836.197138\n",
113 |        "4  Afghanistan      Asia  1972   36.088  13079460  739.981106"
114 |       ]
115 |      },
116 |      "execution_count": 4,
117 |      "metadata": {},
118 |      "output_type": "execute_result"
119 |     }
120 |    ],
121 |    "source": [
122 |     "gapminder.head()"
123 |    ]
124 |   },
125 |   {
126 |    "cell_type": "code",
127 |    "execution_count": 5,
128 |    "metadata": {},
129 |    "outputs": [
130 |     {
131 |      "data": {
132 |       "text/plain": [
133 |        "year\n",
134 |        "1952    49.057620\n",
135 |        "1957    51.507401\n",
136 |        "1962    53.609249\n",
137 |        "1967    55.678290\n",
138 |        "1972    57.647386\n",
139 |        "1977    59.570157\n",
140 |        "1982    61.533197\n",
141 |        "1987    63.212613\n",
142 |        "1992    64.160338\n",
143 |        "1997    65.014676\n",
144 |        "2002    65.694923\n",
145 |        "2007    67.007423\n",
146 |        "Name: lifeExp, dtype: float64"
147 |       ]
148 |      },
149 |      "execution_count": 5,
150 |      "metadata": {},
151 |      "output_type": "execute_result"
152 |     }
153 |    ],
154 |    "source": [
155 |     "gapminder.groupby('year')['lifeExp'].mean()"
156 |    ]
157 |   },
158 |   {
159 |    "cell_type": "code",
160 |    "execution_count": 17,
161 |    "metadata": {},
162 |    "outputs": [],
163 |    "source": [
164 |     "y1952 = gapminder.loc[gapminder['year'] == 1952, :]"
165 |    ]
166 |   },
167 |   {
168 |    "cell_type": "code",
169 |    "execution_count": 11,
170 |    "metadata": {
171 |     "collapsed": true
172 |    },
173 |    "outputs": [],
174 |    "source": [
175 |     "l = [1, 2, 3, 4, 5]"
176 |    ]
177 |   },
178 |   {
179 |    "cell_type": "code",
180 |    "execution_count": 14,
181 |    "metadata": {},
182 |    "outputs": [
183 |     {
184 |      "data": {
185 |       "text/plain": [
186 |        "[1, 2, 3, 4, 5]"
187 |       ]
188 |      },
189 |      "execution_count": 14,
190 |      "metadata": {},
191 |      "output_type": "execute_result"
192 |     }
193 |    ],
194 |    "source": [
195 |     "l[:]"
196 |    ]
197 |   },
198 |   {
199 |    "cell_type": "code",
200 |    "execution_count": 9,
201 |    "metadata": {},
202 |    "outputs": [
203 |     {
204 |      "data": {
205 |       "text/plain": [
206 |        "49.05761971830987"
207 |       ]
208 |      },
209 |      "execution_count": 9,
210 |      "metadata": {},
211 |      "output_type": "execute_result"
212 |     }
213 |    ],
214 |    "source": [
215 |     "y1952['lifeExp'].mean()"
216 |    ]
217 |   },
218 |   {
219 |    "cell_type": "code",
220 |    "execution_count": 10,
221 |    "metadata": {},
222 |    "outputs": [
223 |     {
224 |      "data": {
225 |       "text/html": [
226 |        "<div>\n",
227 |        "<style>\n",
228 |        "    .dataframe thead tr:only-child th {\n",
229 |        "        text-align: right;\n",
230 |        "    }\n",
231 |        "\n",
232 |        "    .dataframe thead th {\n",
233 |        "        text-align: left;\n",
234 |        "    }\n",
235 |        "\n",
236 |        "    .dataframe tbody tr th {\n",
237 |        "        vertical-align: top;\n",
238 |        "    }\n",
239 |        "</style>\n",
240 |        "<table border=\"1\" class=\"dataframe\">\n",
241 |        "  <thead>\n",
242 |        "    <tr style=\"text-align: right;\">\n",
243 |        "      <th></th>\n",
244 |        "      <th>count</th>\n",
245 |        "      <th>mean</th>\n",
246 |        "      <th>std</th>\n",
247 |        "      <th>min</th>\n",
248 |        "      <th>25%</th>\n",
249 |        "      <th>50%</th>\n",
250 |        "      <th>75%</th>\n",
251 |        "      <th>max</th>\n",
252 |        "    </tr>\n",
253 |        "    <tr>\n",
254 |        "      <th>year</th>\n",
255 |        "      <th></th>\n",
256 |        "      <th></th>\n",
257 |        "      <th></th>\n",
258 |        "      <th></th>\n",
259 |        "      <th></th>\n",
260 |        "      <th></th>\n",
261 |        "      <th></th>\n",
262 |        "      <th></th>\n",
263 |        "    </tr>\n",
264 |        "  </thead>\n",
265 |        "  <tbody>\n",
266 |        "    <tr>\n",
267 |        "      <th>1952</th>\n",
268 |        "      <td>142.0</td>\n",
269 |        "      <td>49.057620</td>\n",
270 |        "      <td>12.225956</td>\n",
271 |        "      <td>28.801</td>\n",
272 |        "      <td>39.05900</td>\n",
273 |        "      <td>45.1355</td>\n",
274 |        "      <td>59.76500</td>\n",
275 |        "      <td>72.670</td>\n",
276 |        "    </tr>\n",
277 |        "    <tr>\n",
278 |        "      <th>1957</th>\n",
279 |        "      <td>142.0</td>\n",
280 |        "      <td>51.507401</td>\n",
281 |        "      <td>12.231286</td>\n",
282 |        "      <td>30.332</td>\n",
283 |        "      <td>41.24750</td>\n",
284 |        "      <td>48.3605</td>\n",
285 |        "      <td>63.03675</td>\n",
286 |        "      <td>73.470</td>\n",
287 |        "    </tr>\n",
288 |        "    <tr>\n",
289 |        "      <th>1962</th>\n",
290 |        "      <td>142.0</td>\n",
291 |        "      <td>53.609249</td>\n",
292 |        "      <td>12.097245</td>\n",
293 |        "      <td>31.997</td>\n",
294 |        "      <td>43.46850</td>\n",
295 |        "      <td>50.8810</td>\n",
296 |        "      <td>65.23450</td>\n",
297 |        "      <td>73.680</td>\n",
298 |        "    </tr>\n",
299 |        "    <tr>\n",
300 |        "      <th>1967</th>\n",
301 |        "      <td>142.0</td>\n",
302 |        "      <td>55.678290</td>\n",
303 |        "      <td>11.718858</td>\n",
304 |        "      <td>34.020</td>\n",
305 |        "      <td>46.03375</td>\n",
306 |        "      <td>53.8250</td>\n",
307 |        "      <td>67.41950</td>\n",
308 |        "      <td>74.160</td>\n",
309 |        "    </tr>\n",
310 |        "    <tr>\n",
311 |        "      <th>1972</th>\n",
312 |        "      <td>142.0</td>\n",
313 |        "      <td>57.647386</td>\n",
314 |        "      <td>11.381953</td>\n",
315 |        "      <td>35.400</td>\n",
316 |        "      <td>48.50025</td>\n",
317 |        "      <td>56.5300</td>\n",
318 |        "      <td>69.24750</td>\n",
319 |        "      <td>74.720</td>\n",
320 |        "    </tr>\n",
321 |        "    <tr>\n",
322 |        "      <th>1977</th>\n",
323 |        "      <td>142.0</td>\n",
324 |        "      <td>59.570157</td>\n",
325 |        "      <td>11.227229</td>\n",
326 |        "      <td>31.220</td>\n",
327 |        "      <td>50.47550</td>\n",
328 |        "      <td>59.6720</td>\n",
329 |        "      <td>70.38250</td>\n",
330 |        "      <td>76.110</td>\n",
331 |        "    </tr>\n",
332 |        "    <tr>\n",
333 |        "      <th>1982</th>\n",
334 |        "      <td>142.0</td>\n",
335 |        "      <td>61.533197</td>\n",
336 |        "      <td>10.770618</td>\n",
337 |        "      <td>38.445</td>\n",
338 |        "      <td>52.94000</td>\n",
339 |        "      <td>62.4415</td>\n",
340 |        "      <td>70.92125</td>\n",
341 |        "      <td>77.110</td>\n",
342 |        "    </tr>\n",
343 |        "    <tr>\n",
344 |        "      <th>1987</th>\n",
345 |        "      <td>142.0</td>\n",
346 |        "      <td>63.212613</td>\n",
347 |        "      <td>10.556285</td>\n",
348 |        "      <td>39.906</td>\n",
349 |        "      <td>54.94075</td>\n",
350 |        "      <td>65.8340</td>\n",
351 |        "      <td>71.87725</td>\n",
352 |        "      <td>78.670</td>\n",
353 |        "    </tr>\n",
354 |        "    <tr>\n",
355 |        "      <th>1992</th>\n",
356 |        "      <td>142.0</td>\n",
357 |        "      <td>64.160338</td>\n",
358 |        "      <td>11.227380</td>\n",
359 |        "      <td>23.599</td>\n",
360 |        "      <td>56.12175</td>\n",
361 |        "      <td>67.7030</td>\n",
362 |        "      <td>72.58250</td>\n",
363 |        "      <td>79.360</td>\n",
364 |        "    </tr>\n",
365 |        "    <tr>\n",
366 |        "      <th>1997</th>\n",
367 |        "      <td>142.0</td>\n",
368 |        "      <td>65.014676</td>\n",
369 |        "      <td>11.559439</td>\n",
370 |        "      <td>36.087</td>\n",
371 |        "      <td>55.63375</td>\n",
372 |        "      <td>69.3940</td>\n",
373 |        "      <td>74.16975</td>\n",
374 |        "      <td>80.690</td>\n",
375 |        "    </tr>\n",
376 |        "    <tr>\n",
377 |        "      <th>2002</th>\n",
378 |        "      <td>142.0</td>\n",
379 |        "      <td>65.694923</td>\n",
380 |        "      <td>12.279823</td>\n",
381 |        "      <td>39.193</td>\n",
382 |        "      <td>55.52225</td>\n",
383 |        "      <td>70.8255</td>\n",
384 |        "      <td>75.45925</td>\n",
385 |        "      <td>82.000</td>\n",
386 |        "    </tr>\n",
387 |        "    <tr>\n",
388 |        "      <th>2007</th>\n",
389 |        "      <td>142.0</td>\n",
390 |        "      <td>67.007423</td>\n",
391 |        "      <td>12.073021</td>\n",
392 |        "      <td>39.613</td>\n",
393 |        "      <td>57.16025</td>\n",
394 |        "      <td>71.9355</td>\n",
395 |        "      <td>76.41325</td>\n",
396 |        "      <td>82.603</td>\n",
397 |        "    </tr>\n",
398 |        "  </tbody>\n",
399 |        "</table>\n",
400 |        "</div>"
401 |       ],
402 |       "text/plain": [
403 |        "      count       mean        std     min       25%      50%       75%     max\n",
404 |        "year                                                                          \n",
405 |        "1952  142.0  49.057620  12.225956  28.801  39.05900  45.1355  59.76500  72.670\n",
406 |        "1957  142.0  51.507401  12.231286  30.332  41.24750  48.3605  63.03675  73.470\n",
407 |        "1962  142.0  53.609249  12.097245  31.997  43.46850  50.8810  65.23450  73.680\n",
408 |        "1967  142.0  55.678290  11.718858  34.020  46.03375  53.8250  67.41950  74.160\n",
409 |        "1972  142.0  57.647386  11.381953  35.400  48.50025  56.5300  69.24750  74.720\n",
410 |        "1977  142.0  59.570157  11.227229  31.220  50.47550  59.6720  70.38250  76.110\n",
411 |        "1982  142.0  61.533197  10.770618  38.445  52.94000  62.4415  70.92125  77.110\n",
412 |        "1987  142.0  63.212613  10.556285  39.906  54.94075  65.8340  71.87725  78.670\n",
413 |        "1992  142.0  64.160338  11.227380  23.599  56.12175  67.7030  72.58250  79.360\n",
414 |        "1997  142.0  65.014676  11.559439  36.087  55.63375  69.3940  74.16975  80.690\n",
415 |        "2002  142.0  65.694923  12.279823  39.193  55.52225  70.8255  75.45925  82.000\n",
416 |        "2007  142.0  67.007423  12.073021  39.613  57.16025  71.9355  76.41325  82.603"
417 |       ]
418 |      },
419 |      "execution_count": 10,
420 |      "metadata": {},
421 |      "output_type": "execute_result"
422 |     }
423 |    ],
424 |    "source": [
425 |     "gapminder.groupby('year')['lifeExp'].describe()"
426 |    ]
427 |   },
428 |   {
429 |    "cell_type": "code",
430 |    "execution_count": 18,
431 |    "metadata": {
432 |     "collapsed": true
433 |    },
434 |    "outputs": [],
435 |    "source": [
436 |     "import numpy as np"
437 |    ]
438 |   },
439 |   {
440 |    "cell_type": "code",
441 |    "execution_count": 19,
442 |    "metadata": {},
443 |    "outputs": [
444 |     {
445 |      "data": {
446 |       "text/plain": [
447 |        "continent\n",
448 |        "Africa      48.865330\n",
449 |        "Americas    64.658737\n",
450 |        "Asia        60.064903\n",
451 |        "Europe      71.903686\n",
452 |        "Oceania     74.326208\n",
453 |        "Name: lifeExp, dtype: float64"
454 |       ]
455 |      },
456 |      "execution_count": 19,
457 |      "metadata": {},
458 |      "output_type": "execute_result"
459 |     }
460 |    ],
461 |    "source": [
462 |     "gapminder.groupby('continent')['lifeExp'].agg(np.mean)"
463 |    ]
464 |   },
465 |   {
466 |    "cell_type": "code",
467 |    "execution_count": 20,
468 |    "metadata": {},
469 |    "outputs": [
470 |     {
471 |      "data": {
472 |       "text/plain": [
473 |        "continent\n",
474 |        "Africa       9.150210\n",
475 |        "Americas     9.345088\n",
476 |        "Asia        11.864532\n",
477 |        "Europe       5.433178\n",
478 |        "Oceania      3.795611\n",
479 |        "Name: lifeExp, dtype: float64"
480 |       ]
481 |      },
482 |      "execution_count": 20,
483 |      "metadata": {},
484 |      "output_type": "execute_result"
485 |     }
486 |    ],
487 |    "source": [
488 |     "gapminder.groupby('continent')['lifeExp'].aggregate(np.std)"
489 |    ]
490 |   },
491 |   {
492 |    "cell_type": "code",
493 |    "execution_count": 22,
494 |    "metadata": {
495 |     "collapsed": true
496 |    },
497 |    "outputs": [],
498 |    "source": [
499 |     "def my_mean(values):\n",
500 |     "    n = len(values)\n",
501 |     "    s = np.sum(values)\n",
502 |     "    return s / n"
503 |    ]
504 |   },
505 |   {
506 |    "cell_type": "code",
507 |    "execution_count": 23,
508 |    "metadata": {},
509 |    "outputs": [
510 |     {
511 |      "data": {
512 |       "text/plain": [
513 |        "continent\n",
514 |        "Africa      48.865330\n",
515 |        "Americas    64.658737\n",
516 |        "Asia        60.064903\n",
517 |        "Europe      71.903686\n",
518 |        "Oceania     74.326208\n",
519 |        "Name: lifeExp, dtype: float64"
520 |       ]
521 |      },
522 |      "execution_count": 23,
523 |      "metadata": {},
524 |      "output_type": "execute_result"
525 |     }
526 |    ],
527 |    "source": [
528 |     "gapminder.groupby('continent')['lifeExp'].aggregate(my_mean)"
529 |    ]
530 |   },
531 |   {
532 |    "cell_type": "code",
533 |    "execution_count": 25,
534 |    "metadata": {},
535 |    "outputs": [
536 |     {
537 |      "data": {
538 |       "text/html": [
539 |        "<div>\n",
540 |        "<style>\n",
541 |        "    .dataframe thead tr:only-child th {\n",
542 |        "        text-align: right;\n",
543 |        "    }\n",
544 |        "\n",
545 |        "    .dataframe thead th {\n",
546 |        "        text-align: left;\n",
547 |        "    }\n",
548 |        "\n",
549 |        "    .dataframe tbody tr th {\n",
550 |        "        vertical-align: top;\n",
551 |        "    }\n",
552 |        "</style>\n",
553 |        "<table border=\"1\" class=\"dataframe\">\n",
554 |        "  <thead>\n",
555 |        "    <tr style=\"text-align: right;\">\n",
556 |        "      <th></th>\n",
557 |        "      <th>count_nonzero</th>\n",
558 |        "      <th>mean</th>\n",
559 |        "      <th>std</th>\n",
560 |        "    </tr>\n",
561 |        "    <tr>\n",
562 |        "      <th>continent</th>\n",
563 |        "      <th></th>\n",
564 |        "      <th></th>\n",
565 |        "      <th></th>\n",
566 |        "    </tr>\n",
567 |        "  </thead>\n",
568 |        "  <tbody>\n",
569 |        "    <tr>\n",
570 |        "      <th>Africa</th>\n",
571 |        "      <td>624.0</td>\n",
572 |        "      <td>48.865330</td>\n",
573 |        "      <td>9.150210</td>\n",
574 |        "    </tr>\n",
575 |        "    <tr>\n",
576 |        "      <th>Americas</th>\n",
577 |        "      <td>300.0</td>\n",
578 |        "      <td>64.658737</td>\n",
579 |        "      <td>9.345088</td>\n",
580 |        "    </tr>\n",
581 |        "    <tr>\n",
582 |        "      <th>Asia</th>\n",
583 |        "      <td>396.0</td>\n",
584 |        "      <td>60.064903</td>\n",
585 |        "      <td>11.864532</td>\n",
586 |        "    </tr>\n",
587 |        "    <tr>\n",
588 |        "      <th>Europe</th>\n",
589 |        "      <td>360.0</td>\n",
590 |        "      <td>71.903686</td>\n",
591 |        "      <td>5.433178</td>\n",
592 |        "    </tr>\n",
593 |        "    <tr>\n",
594 |        "      <th>Oceania</th>\n",
595 |        "      <td>24.0</td>\n",
596 |        "      <td>74.326208</td>\n",
597 |        "      <td>3.795611</td>\n",
598 |        "    </tr>\n",
599 |        "  </tbody>\n",
600 |        "</table>\n",
601 |        "</div>"
602 |       ],
603 |       "text/plain": [
604 |        "           count_nonzero       mean        std\n",
605 |        "continent                                     \n",
606 |        "Africa             624.0  48.865330   9.150210\n",
607 |        "Americas           300.0  64.658737   9.345088\n",
608 |        "Asia               396.0  60.064903  11.864532\n",
609 |        "Europe             360.0  71.903686   5.433178\n",
610 |        "Oceania             24.0  74.326208   3.795611"
611 |       ]
612 |      },
613 |      "execution_count": 25,
614 |      "metadata": {},
615 |      "output_type": "execute_result"
616 |     }
617 |    ],
618 |    "source": [
619 |     "gapminder.groupby('continent')['lifeExp'].aggregate([\n",
620 |     "    np.count_nonzero,\n",
621 |     "    np.mean,\n",
622 |     "    np.std\n",
623 |     "])"
624 |    ]
625 |   },
626 |   {
627 |    "cell_type": "code",
628 |    "execution_count": 26,
629 |    "metadata": {},
630 |    "outputs": [
631 |     {
632 |      "name": "stderr",
633 |      "output_type": "stream",
634 |      "text": [
635 |       "/home/dchen/anaconda3/lib/python3.6/site-packages/ipykernel_launcher.py:4: FutureWarning: using a dict on a Series for aggregation\n",
636 |       "is deprecated and will be removed in a future version\n",
637 |       "  after removing the cwd from sys.path.\n"
638 |      ]
639 |     },
640 |     {
641 |      "data": {
642 |       "text/html": [
643 |        "<div>\n",
644 |        "<style>\n",
645 |        "    .dataframe thead tr:only-child th {\n",
646 |        "        text-align: right;\n",
647 |        "    }\n",
648 |        "\n",
649 |        "    .dataframe thead th {\n",
650 |        "        text-align: left;\n",
651 |        "    }\n",
652 |        "\n",
653 |        "    .dataframe tbody tr th {\n",
654 |        "        vertical-align: top;\n",
655 |        "    }\n",
656 |        "</style>\n",
657 |        "<table border=\"1\" class=\"dataframe\">\n",
658 |        "  <thead>\n",
659 |        "    <tr style=\"text-align: right;\">\n",
660 |        "      <th></th>\n",
661 |        "      <th>ncount</th>\n",
662 |        "      <th>mean</th>\n",
663 |        "      <th>std</th>\n",
664 |        "    </tr>\n",
665 |        "    <tr>\n",
666 |        "      <th>continent</th>\n",
667 |        "      <th></th>\n",
668 |        "      <th></th>\n",
669 |        "      <th></th>\n",
670 |        "    </tr>\n",
671 |        "  </thead>\n",
672 |        "  <tbody>\n",
673 |        "    <tr>\n",
674 |        "      <th>Africa</th>\n",
675 |        "      <td>624.0</td>\n",
676 |        "      <td>48.865330</td>\n",
677 |        "      <td>9.150210</td>\n",
678 |        "    </tr>\n",
679 |        "    <tr>\n",
680 |        "      <th>Americas</th>\n",
681 |        "      <td>300.0</td>\n",
682 |        "      <td>64.658737</td>\n",
683 |        "      <td>9.345088</td>\n",
684 |        "    </tr>\n",
685 |        "    <tr>\n",
686 |        "      <th>Asia</th>\n",
687 |        "      <td>396.0</td>\n",
688 |        "      <td>60.064903</td>\n",
689 |        "      <td>11.864532</td>\n",
690 |        "    </tr>\n",
691 |        "    <tr>\n",
692 |        "      <th>Europe</th>\n",
693 |        "      <td>360.0</td>\n",
694 |        "      <td>71.903686</td>\n",
695 |        "      <td>5.433178</td>\n",
696 |        "    </tr>\n",
697 |        "    <tr>\n",
698 |        "      <th>Oceania</th>\n",
699 |        "      <td>24.0</td>\n",
700 |        "      <td>74.326208</td>\n",
701 |        "      <td>3.795611</td>\n",
702 |        "    </tr>\n",
703 |        "  </tbody>\n",
704 |        "</table>\n",
705 |        "</div>"
706 |       ],
707 |       "text/plain": [
708 |        "           ncount       mean        std\n",
709 |        "continent                              \n",
710 |        "Africa      624.0  48.865330   9.150210\n",
711 |        "Americas    300.0  64.658737   9.345088\n",
712 |        "Asia        396.0  60.064903  11.864532\n",
713 |        "Europe      360.0  71.903686   5.433178\n",
714 |        "Oceania      24.0  74.326208   3.795611"
715 |       ]
716 |      },
717 |      "execution_count": 26,
718 |      "metadata": {},
719 |      "output_type": "execute_result"
720 |     }
721 |    ],
722 |    "source": [
723 |     "gapminder.groupby('continent')['lifeExp'].aggregate({\n",
724 |     "    'ncount': np.count_nonzero,\n",
725 |     "    'mean': np.mean,\n",
726 |     "    'std': np.std\n",
727 |     "})"
728 |    ]
729 |   },
730 |   {
731 |    "cell_type": "code",
732 |    "execution_count": 30,
733 |    "metadata": {},
734 |    "outputs": [
735 |     {
736 |      "data": {
737 |       "text/html": [
738 |        "<div>\n",
739 |        "<style>\n",
740 |        "    .dataframe thead tr:only-child th {\n",
741 |        "        text-align: right;\n",
742 |        "    }\n",
743 |        "\n",
744 |        "    .dataframe thead th {\n",
745 |        "        text-align: left;\n",
746 |        "    }\n",
747 |        "\n",
748 |        "    .dataframe tbody tr th {\n",
749 |        "        vertical-align: top;\n",
750 |        "    }\n",
751 |        "</style>\n",
752 |        "<table border=\"1\" class=\"dataframe\">\n",
753 |        "  <thead>\n",
754 |        "    <tr style=\"text-align: right;\">\n",
755 |        "      <th></th>\n",
756 |        "      <th>continent</th>\n",
757 |        "      <th>count</th>\n",
758 |        "      <th>avg</th>\n",
759 |        "      <th>std_dev</th>\n",
760 |        "    </tr>\n",
761 |        "  </thead>\n",
762 |        "  <tbody>\n",
763 |        "    <tr>\n",
764 |        "      <th>0</th>\n",
765 |        "      <td>Africa</td>\n",
766 |        "      <td>624.0</td>\n",
767 |        "      <td>48.865330</td>\n",
768 |        "      <td>9.150210</td>\n",
769 |        "    </tr>\n",
770 |        "    <tr>\n",
771 |        "      <th>1</th>\n",
772 |        "      <td>Americas</td>\n",
773 |        "      <td>300.0</td>\n",
774 |        "      <td>64.658737</td>\n",
775 |        "      <td>9.345088</td>\n",
776 |        "    </tr>\n",
777 |        "    <tr>\n",
778 |        "      <th>2</th>\n",
779 |        "      <td>Asia</td>\n",
780 |        "      <td>396.0</td>\n",
781 |        "      <td>60.064903</td>\n",
782 |        "      <td>11.864532</td>\n",
783 |        "    </tr>\n",
784 |        "    <tr>\n",
785 |        "      <th>3</th>\n",
786 |        "      <td>Europe</td>\n",
787 |        "      <td>360.0</td>\n",
788 |        "      <td>71.903686</td>\n",
789 |        "      <td>5.433178</td>\n",
790 |        "    </tr>\n",
791 |        "    <tr>\n",
792 |        "      <th>4</th>\n",
793 |        "      <td>Oceania</td>\n",
794 |        "      <td>24.0</td>\n",
795 |        "      <td>74.326208</td>\n",
796 |        "      <td>3.795611</td>\n",
797 |        "    </tr>\n",
798 |        "  </tbody>\n",
799 |        "</table>\n",
800 |        "</div>"
801 |       ],
802 |       "text/plain": [
803 |        "  continent  count        avg    std_dev\n",
804 |        "0    Africa  624.0  48.865330   9.150210\n",
805 |        "1  Americas  300.0  64.658737   9.345088\n",
806 |        "2      Asia  396.0  60.064903  11.864532\n",
807 |        "3    Europe  360.0  71.903686   5.433178\n",
808 |        "4   Oceania   24.0  74.326208   3.795611"
809 |       ]
810 |      },
811 |      "execution_count": 30,
812 |      "metadata": {},
813 |      "output_type": "execute_result"
814 |     }
815 |    ],
816 |    "source": [
817 |     "gapminder.groupby('continent')['lifeExp'].aggregate([\n",
818 |     "    np.count_nonzero,\n",
819 |     "    np.mean,\n",
820 |     "    np.std]).\\\n",
821 |     "    rename(columns = {'count_nonzero': 'count',\n",
822 |     "                     'mean': 'avg',\n",
823 |     "                     'std': 'std_dev'}).\\\n",
824 |     "    reset_index()"
825 |    ]
826 |   },
827 |   {
828 |    "cell_type": "code",
829 |    "execution_count": null,
830 |    "metadata": {
831 |     "collapsed": true
832 |    },
833 |    "outputs": [],
834 |    "source": [
835 |     "|"
836 |    ]
837 |   }
838 |  ],
839 |  "metadata": {
840 |   "kernelspec": {
841 |    "display_name": "Python 3",
842 |    "language": "python",
843 |    "name": "python3"
844 |   },
845 |   "language_info": {
846 |    "codemirror_mode": {
847 |     "name": "ipython",
848 |     "version": 3
849 |    },
850 |    "file_extension": ".py",
851 |    "mimetype": "text/x-python",
852 |    "name": "python",
853 |    "nbconvert_exporter": "python",
854 |    "pygments_lexer": "ipython3",
855 |    "version": "3.6.1"
856 |   }
857 |  },
858 |  "nbformat": 4,
859 |  "nbformat_minor": 2
860 | }
861 | 


--------------------------------------------------------------------------------
/LICENSE:
--------------------------------------------------------------------------------
 1 | ``MIT License
 2 | 
 3 | Copyright (c) 2017 Daniel Chen
 4 | 
 5 | Permission is hereby granted, free of charge, to any person obtaining a copy
 6 | of this software and associated documentation files (the "Software"), to deal
 7 | in the Software without restriction, including without limitation the rights
 8 | to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
 9 | copies of the Software, and to permit persons to whom the Software is
10 | furnished to do so, subject to the following conditions:
11 | 
12 | The above copyright notice and this permission notice shall be included in all
13 | copies or substantial portions of the Software.
14 | 
15 | THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
16 | IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
17 | FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
18 | AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
19 | LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
20 | OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
21 | SOFTWARE.``
22 | 


--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
 1 | # SciPy 2017 Pandas Tutorial
 2 | 
 3 | Thanks for attending the [tutorial](https://youtu.be/oGzU688xCUs).
 4 | If you would be so kind to help me be better, please fill out the [feedback](https://docs.google.com/forms/u/0/d/e/1FAIpQLSf_hJ4akzTKIOEirxQAOE98ByD2zauXAW-ArNXX8ClNrNj9nQ/viewform?usp=sf_link) form
 5 | 
 6 | # Installation
 7 | 
 8 | 1. Install anaconda (use the Python 3 version): https://www.continuum.io/downloads
 9 | 2. See the Software-Carpentry Installations for `bash`, `git`, `python`, and `text editor`:   https://swcarpentry.github.io/workshop-template/#setup
10 | 
11 | # Testing your installation
12 | 
13 | 1. Run the `test_installation.py` script (or copy/paste the import statments into a python interpreter)
14 | 
15 | ## How to run the Jupyter Notebook
16 | 
17 | #### Windows/Mac
18 | 
19 | There will be an [Anaconda Navigator](https://docs.continuum.io/anaconda/navigator/) application that installs to your system.
20 | You can launch the Jupyter notebook from there to run your python code.
21 | 
22 | #### Linux
23 | 
24 | Anaconda's Python installation should be your system's default python.
25 | Make sure you open a new terminal window for this to take effect.
26 | You can launch python by typing `jupyter notebook`
27 | 
28 | ## Creating a Notebook
29 | 
30 | Once you have the Jupyter notebook launched, there's a button towards the top right called `new`.
31 | Click this and select `Python 3`.
32 | 
33 | # Get Data
34 | 
35 | 1. Download or Clone the this repository.
36 |     - Press the green button towards the top right
37 |     - click download zip
38 |     - extract
39 |     - celebrate
40 | 


--------------------------------------------------------------------------------
/data/concat_1.csv:
--------------------------------------------------------------------------------
1 | A,B,C,D
2 | a0,b0,c0,d0
3 | a1,b1,c1,d1
4 | a2,b2,c2,d2
5 | a3,b3,c3,d3
6 | 


--------------------------------------------------------------------------------
/data/concat_2.csv:
--------------------------------------------------------------------------------
1 | A,B,C,D
2 | a4,b4,c4,d4
3 | a5,b5,c5,d5
4 | a6,b6,c6,d6
5 | a7,b7,c7,d7
6 | 


--------------------------------------------------------------------------------
/data/concat_3.csv:
--------------------------------------------------------------------------------
1 | A,B,C,D
2 | a8,b8,c8,d8
3 | a9,b9,c9,d9
4 | a10,b10,c10,d10
5 | a11,b11,c11,d11
6 | 


--------------------------------------------------------------------------------
/data/doctors.csv:
--------------------------------------------------------------------------------
1 | William Hartnell (1963-66)Patrick Troughton (1966-69)Jon Pertwee (1970 74)Tom Baker (1974-81)Peter Davison (1982-84)Colin Baker (1984-86)Sylvester McCoy (1987-89)Paul McGann (1996)Christopher Eccleston (2005)David Tennant (2005-10)Matt Smith (2010-13)Peter Capaldi (2014-2017)


--------------------------------------------------------------------------------
/data/doctors_unicode.csv:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/chendaniely/scipy-2017-tutorial-pandas/9d9e081c361cf959f40e21228bb930db7b60068e/data/doctors_unicode.csv


--------------------------------------------------------------------------------
/data/ebola_country_timeseries.csv:
--------------------------------------------------------------------------------
  1 | Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_Nigeria,Cases_Senegal,Cases_UnitedStates,Cases_Spain,Cases_Mali,Deaths_Guinea,Deaths_Liberia,Deaths_SierraLeone,Deaths_Nigeria,Deaths_Senegal,Deaths_UnitedStates,Deaths_Spain,Deaths_Mali
  2 | 1/5/2015,289,2776,,10030,,,,,,1786,,2977,,,,,
  3 | 1/4/2015,288,2775,,9780,,,,,,1781,,2943,,,,,
  4 | 1/3/2015,287,2769,8166,9722,,,,,,1767,3496,2915,,,,,
  5 | 1/2/2015,286,,8157,,,,,,,,3496,,,,,,
  6 | 12/31/2014,284,2730,8115,9633,,,,,,1739,3471,2827,,,,,
  7 | 12/28/2014,281,2706,8018,9446,,,,,,1708,3423,2758,,,,,
  8 | 12/27/2014,280,2695,,9409,,,,,,1697,,2732,,,,,
  9 | 12/24/2014,277,2630,7977,9203,,,,,,,3413,2655,,,,,
 10 | 12/21/2014,273,2597,,9004,,,,,,1607,,2582,,,,,
 11 | 12/20/2014,272,2571,7862,8939,,,,,,1586,3384,2556,,,,,
 12 | 12/18/2014,271,,7830,,,,,,,,3376,,,,,,
 13 | 12/14/2014,267,2416,,8356,,,,,,1525,,2085,,,,,
 14 | 12/9/2014,262,,7797,,,,,,,,3290,,,,,,
 15 | 12/7/2014,260,2292,,7897,20,1,4,1,7,1428,,1768,8,0,1,0,6
 16 | 12/3/2014,256,,7719,,,,,,,,3177,,,,,,
 17 | 11/30/2014,253,2164,,7312,20,1,4,1,7,1327,,1583,8,0,1,0,6
 18 | 11/28/2014,251,,7635,,,,,,,,3145,,,,,,
 19 | 11/23/2014,246,2134,,6599,20,1,4,1,7,1260,,1398,8,0,1,0,6
 20 | 11/22/2014,245,,7168,,,,,,,,3016,,,,,,
 21 | 11/18/2014,241,2047,7082,6190,20,1,4,1,6,1214,2963,1267,8,0,1,0,6
 22 | 11/16/2014,239,1971,,6073,20,1,4,1,5,1192,,1250,8,0,1,0,5
 23 | 11/15/2014,238,,7069,,,,,,,,2964,,,,,,
 24 | 11/11/2014,234,1919,,5586,20,1,4,1,4,1166,,1187,8,0,1,0,3
 25 | 11/10/2014,233,,6878,,,,,,,,2812,,,,,,
 26 | 11/9/2014,232,1878,,5368,20,1,4,1,1,1142,,1169,8,0,1,0,1
 27 | 11/8/2014,231,,6822,,,,,,,,2836,,,,,,
 28 | 11/4/2014,227,,6619,4862,20,1,4,1,1,,2766,1130,8,0,1,0,1
 29 | 11/3/2014,226,1760,,,,,,,,1054,,,,,,,
 30 | 11/2/2014,225,1731,,4759,20,1,4,1,1,1041,,1070,8,0,1,0,1
 31 | 10/31/2014,222,,6525,,,,,,,,2697,,,,,,
 32 | 10/29/2014,220,1667,,5338,20,1,4,1,1,1018,,1510,8,0,1,0,1
 33 | 10/27/2014,218,1906,,5235,20,1,4,1,1,997,,1500,8,0,1,0,1
 34 | 10/25/2014,216,,6535,,,,,,,,2413,,,,,,
 35 | 10/22/2014,214,,,3896,,,4,1,1,,,1281,,,1,0,1
 36 | 10/21/2014,213,1553,,,,,,,,926,,,,,,,
 37 | 10/19/2014,211,1540,,3706,20,1,3,1,,904,,1259,8,0,1,0,
 38 | 10/18/2014,210,,4665,,,,,,,,2705,,,,,,
 39 | 10/14/2014,206,1519,,3410,20,1,3,1,,862,,1200,8,0,0,1,
 40 | 10/13/2014,205,,4262,,,,,,,,2484,,,,,,
 41 | 10/12/2014,204,1472,,3252,20,1,2,1,,843,,1183,8,0,1,1,
 42 | 10/11/2014,203,,4249,,,,,,,,2458,,,,,,
 43 | 10/8/2014,200,,,2950,20,1,1,1,,,,930,8,0,1,1,
 44 | 10/7/2014,199,1350,4076,,,,,,,778,2316,,,,,,
 45 | 10/5/2014,197,1298,,2789,20,1,1,,,768,,879,8,0,0,,
 46 | 10/4/2014,196,,3924,,,,,,,,2210,,,,,,
 47 | 10/1/2014,193,1199,3834,2437,20,1,1,,,739,2069,623,8,0,0,,
 48 | 9/28/2014,190,1157,3696,2304,20,1,,,,710,1998,622,8,0,,,
 49 | 9/23/2014,185,1074,3458,2021,20,1,,,,648,1830,605,8,0,,,
 50 | 9/21/2014,183,1022,3280,1940,20,1,,,,635,1677,597,8,0,,,
 51 | 9/20/2014,182,,,1813,,,,,,,,593,,,,,
 52 | 9/19/2014,181,1008,,,,,,,,632,,,,,,,
 53 | 9/17/2014,179,,3022,,,,,,,,1578,,,,,,
 54 | 9/14/2014,176,942,2710,1673,,,,,,601,1459,562,,,,,
 55 | 9/13/2014,175,936,,1620,21,1,,,,595,1296,562,8,0,,,
 56 | 9/10/2014,172,899,,1478,21,1,,,,568,,536,8,,,,
 57 | 9/9/2014,171,,2407,,,,,,,,,,,,,,
 58 | 9/7/2014,169,861,2081,1424,21,3,,,,557,1137,524,8,0,,,
 59 | 9/5/2014,167,812,1871,1261,22,1,,,,517,1089,491,8,,,,
 60 | 8/31/2014,162,771,1698,1216,21,1,,,,494,871,476,7,,,,
 61 | 8/26/2014,157,648,1378,1026,17,,,,,430,694,422,6,,,,
 62 | 8/20/2014,151,607,1082,910,16,,,,,406,624,392,5,,,,
 63 | 8/18/2014,149,579,972,907,15,,,,,396,576,374,4,,,,
 64 | 8/16/2014,147,543,834,848,15,,,,,394,466,365,4,,,,
 65 | 8/13/2014,144,519,786,810,12,,,,,380,413,348,4,,,,
 66 | 8/11/2014,142,510,670,783,12,,,,,377,355,334,3,,,,
 67 | 8/9/2014,140,506,599,730,13,,,,,373,323,315,2,,,,
 68 | 8/6/2014,137,495,554,717,13,,,,,367,294,298,2,,,,
 69 | 8/4/2014,135,495,516,691,9,,,,,363,282,286,1,,,,
 70 | 8/1/2014,132,485,468,646,4,,,,,358,255,273,1,,,,
 71 | 7/30/2014,129,472,391,574,3,,,,,346,227,252,1,,,,
 72 | 7/27/2014,126,460,329,533,1,,,,,339,156,233,1,,,,
 73 | 7/23/2014,123,427,249,525,0,,,,,319,129,224,0,,,,
 74 | 7/20/2014,120,415,224,454,,,,,,314,127,219,,,,,
 75 | 7/17/2014,117,410,196,442,,,,,,310,116,206,,,,,
 76 | 7/14/2014,114,411,174,397,,,,,,310,106,197,,,,,
 77 | 7/12/2014,112,406,172,386,,,,,,304,105,194,,,,,
 78 | 7/8/2014,108,409,142,337,,,,,,309,88,142,,,,,
 79 | 7/6/2014,106,408,131,305,,,,,,307,84,127,,,,,
 80 | 7/2/2014,102,412,115,252,,,,,,305,75,101,,,,,
 81 | 6/30/2014,100,413,107,239,,,,,,303,65,99,,,,,
 82 | 6/22/2014,92,,51,,,,,,,,34,,,,,,
 83 | 6/20/2014,90,390,,158,,,,,,270,,34,,,,,
 84 | 6/19/2014,89,,41,,,,,,,,25,,,,,,
 85 | 6/18/2014,88,390,,136,,,,,,267,,28,,,,,
 86 | 6/17/2014,87,,,97,,,,,,,,49,,,,,
 87 | 6/16/2014,86,398,33,,,,,,,264,24,,,,,,
 88 | 6/10/2014,80,351,13,89,,,,,,226,24,7,,,,,
 89 | 6/5/2014,75,,13,81,,,,,,,,6,,,,,
 90 | 6/3/2014,73,344,13,,,,,,,215,12,6,,,,,
 91 | 6/1/2014,71,328,13,79,,,,,,208,12,6,,,,,
 92 | 5/28/2014,67,291,13,50,,,,,,193,12,6,,,,,
 93 | 5/27/2014,66,281,12,16,,,,,,186,11,5,,,,,
 94 | 5/23/2014,62,258,12,0,,,,,,174,11,0,,,,,
 95 | 5/12/2014,51,248,12,0,,,,,,171,11,0,,,,,
 96 | 5/10/2014,49,233,12,0,,,,,,157,11,0,,,,,
 97 | 5/7/2014,46,236,13,0,,,,,,158,11,0,,,,,
 98 | 5/5/2014,44,235,13,0,,,,,,157,11,0,,,,,
 99 | 5/3/2014,42,231,13,0,,,,,,155,11,0,,,,,
100 | 5/1/2014,40,226,13,0,,,,,,149,11,0,,,,,
101 | 4/26/2014,35,224,,0,,,,,,143,,0,,,,,
102 | 4/24/2014,33,,35,0,,,,,,,,0,,,,,
103 | 4/23/2014,32,218,,0,,,,,,141,,0,,,,,
104 | 4/22/2014,31,,,0,,,,,,,,0,,,,,
105 | 4/21/2014,30,,34,,,,,,,,11,,,,,,
106 | 4/20/2014,29,208,,,,,,,,136,6,,,,,,
107 | 4/17/2014,26,203,27,,,,,,,129,,,,,,,
108 | 4/16/2014,25,197,27,,,,,,,122,13,,,,,,
109 | 4/15/2014,24,,,12,,,,,,,,,,,,,
110 | 4/14/2014,23,168,,,,,,,,108,,,,,,,
111 | 4/11/2014,20,159,26,2,,,,,,106,13,2,,,,,
112 | 4/9/2014,18,158,25,2,,,,,,101,12,2,,,,,
113 | 4/7/2014,16,151,21,2,,,,,,95,10,2,,,,,
114 | 4/4/2014,13,143,18,2,,,,,,86,7,2,,,,,
115 | 4/1/2014,10,127,8,2,,,,,,83,5,2,,,,,
116 | 3/31/2014,9,122,8,2,,,,,,80,4,2,,,,,
117 | 3/29/2014,7,112,7,,,,,,,70,2,,,,,,
118 | 3/28/2014,6,112,3,2,,,,,,70,3,2,,,,,
119 | 3/27/2014,5,103,8,6,,,,,,66,6,5,,,,,
120 | 3/26/2014,4,86,,,,,,,,62,,,,,,,
121 | 3/25/2014,3,86,,,,,,,,60,,,,,,,
122 | 3/24/2014,2,86,,,,,,,,59,,,,,,,
123 | 3/22/2014,0,49,,,,,,,,29,,,,,,,


--------------------------------------------------------------------------------
/data/pew.csv:
--------------------------------------------------------------------------------
 1 | "religion","<$10k","$10-20k","$20-30k","$30-40k","$40-50k","$50-75k","$75-100k","$100-150k",">150k","Don't know/refused"
 2 | "Agnostic",27,34,60,81,76,137,122,109,84,96
 3 | "Atheist",12,27,37,52,35,70,73,59,74,76
 4 | "Buddhist",27,21,30,34,33,58,62,39,53,54
 5 | "Catholic",418,617,732,670,638,1116,949,792,633,1489
 6 | "Don’t know/refused",15,14,15,11,10,35,21,17,18,116
 7 | "Evangelical Prot",575,869,1064,982,881,1486,949,723,414,1529
 8 | "Hindu",1,9,7,9,11,34,47,48,54,37
 9 | "Historically Black Prot",228,244,236,238,197,223,131,81,78,339
10 | "Jehovah's Witness",20,27,24,24,21,30,15,11,6,37
11 | "Jewish",19,19,25,25,30,95,69,87,151,162
12 | "Mainline Prot",289,495,619,655,651,1107,939,753,634,1328
13 | "Mormon",29,40,48,51,56,112,85,49,42,69
14 | "Muslim",6,7,9,10,9,23,16,8,6,22
15 | "Orthodox",13,17,23,32,32,47,38,42,46,73
16 | "Other Christian",9,7,11,13,13,14,18,14,12,18
17 | "Other Faiths",20,33,40,46,49,63,46,40,41,71
18 | "Other World Religions",5,2,3,4,2,7,3,4,4,8
19 | "Unaffiliated",217,299,374,365,341,528,407,321,258,597
20 | 


--------------------------------------------------------------------------------
/data/preg.csv:
--------------------------------------------------------------------------------
1 | "name","treatmenta","treatmentb"
2 | "John Smith",NA,18
3 | "Jane Doe",4,1
4 | "Mary Johnson",6,7
5 | 


--------------------------------------------------------------------------------
/data/preg2.csv:
--------------------------------------------------------------------------------
1 | "treatment","John Smith","Jane Doe","Mary Johnson"
2 | "a",NA,4,6
3 | "b",18,1,7
4 | 


--------------------------------------------------------------------------------
/data/survey_person.csv:
--------------------------------------------------------------------------------
1 | ident,personal,family
2 | dyer,William,Dyer
3 | pb,Frank,Pabodie
4 | lake,Anderson,Lake
5 | roe,Valentina,Roerich
6 | danforth,Frank,Danforth
7 | 


--------------------------------------------------------------------------------
/data/survey_site.csv:
--------------------------------------------------------------------------------
1 | name,lat,long
2 | DR-1,-49.85,-128.57
3 | DR-3,-47.15,-126.72
4 | MSK-4,-48.87,-123.4
5 | 


--------------------------------------------------------------------------------
/data/survey_survey.csv:
--------------------------------------------------------------------------------
 1 | taken,person,quant,reading
 2 | 619,dyer,rad,9.82
 3 | 619,dyer,sal,0.13
 4 | 622,dyer,rad,7.8
 5 | 622,dyer,sal,0.09
 6 | 734,pb,rad,8.41
 7 | 734,lake,sal,0.05
 8 | 734,pb,temp,-21.5
 9 | 735,pb,rad,7.22
10 | 735,,sal,0.06
11 | 735,,temp,-26.0
12 | 751,pb,rad,4.35
13 | 751,pb,temp,-18.5
14 | 751,lake,sal,0.1
15 | 752,lake,rad,2.19
16 | 752,lake,sal,0.09
17 | 752,lake,temp,-16.0
18 | 752,roe,sal,41.6
19 | 837,lake,rad,1.46
20 | 837,lake,sal,0.21
21 | 837,roe,sal,22.5
22 | 844,roe,rad,11.25
23 | 


--------------------------------------------------------------------------------
/data/survey_visited.csv:
--------------------------------------------------------------------------------
 1 | ident,site,dated
 2 | 619,DR-1,1927-02-08
 3 | 622,DR-1,1927-02-10
 4 | 734,DR-3,1939-01-07
 5 | 735,DR-3,1930-01-12
 6 | 751,DR-3,1930-02-26
 7 | 752,DR-3,
 8 | 837,MSK-4,1932-01-14
 9 | 844,DR-1,1932-03-22
10 | 


--------------------------------------------------------------------------------
/data/weather.csv:
--------------------------------------------------------------------------------
 1 | "id","year","month","element","d1","d2","d3","d4","d5","d6","d7","d8","d9","d10","d11","d12","d13","d14","d15","d16","d17","d18","d19","d20","d21","d22","d23","d24","d25","d26","d27","d28","d29","d30","d31"
 2 | "MX17004",2010,1,"tmax",NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,27.8,NA
 3 | "MX17004",2010,1,"tmin",NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,14.5,NA
 4 | "MX17004",2010,2,"tmax",NA,27.3,24.1,NA,NA,NA,NA,NA,NA,NA,29.7,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,29.9,NA,NA,NA,NA,NA,NA,NA,NA
 5 | "MX17004",2010,2,"tmin",NA,14.4,14.4,NA,NA,NA,NA,NA,NA,NA,13.4,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,10.7,NA,NA,NA,NA,NA,NA,NA,NA
 6 | "MX17004",2010,3,"tmax",NA,NA,NA,NA,32.1,NA,NA,NA,NA,34.5,NA,NA,NA,NA,NA,31.1,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA
 7 | "MX17004",2010,3,"tmin",NA,NA,NA,NA,14.2,NA,NA,NA,NA,16.8,NA,NA,NA,NA,NA,17.6,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA
 8 | "MX17004",2010,4,"tmax",NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,36.3,NA,NA,NA,NA
 9 | "MX17004",2010,4,"tmin",NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,16.7,NA,NA,NA,NA
10 | "MX17004",2010,5,"tmax",NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,33.2,NA,NA,NA,NA
11 | "MX17004",2010,5,"tmin",NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,18.2,NA,NA,NA,NA
12 | "MX17004",2010,6,"tmax",NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,28,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,30.1,NA,NA
13 | "MX17004",2010,6,"tmin",NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,17.5,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,18,NA,NA
14 | "MX17004",2010,7,"tmax",NA,NA,28.6,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,29.9,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA
15 | "MX17004",2010,7,"tmin",NA,NA,17.5,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,16.5,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA
16 | "MX17004",2010,8,"tmax",NA,NA,NA,NA,29.6,NA,NA,29,NA,NA,NA,NA,29.8,NA,NA,NA,NA,NA,NA,NA,NA,NA,26.4,NA,29.7,NA,NA,NA,28,NA,25.4
17 | "MX17004",2010,8,"tmin",NA,NA,NA,NA,15.8,NA,NA,17.3,NA,NA,NA,NA,16.5,NA,NA,NA,NA,NA,NA,NA,NA,NA,15,NA,15.6,NA,NA,NA,15.3,NA,15.4
18 | "MX17004",2010,10,"tmax",NA,NA,NA,NA,27,NA,28.1,NA,NA,NA,NA,NA,NA,29.5,28.7,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,31.2,NA,NA,NA
19 | "MX17004",2010,10,"tmin",NA,NA,NA,NA,14,NA,12.9,NA,NA,NA,NA,NA,NA,13,10.5,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,15,NA,NA,NA
20 | "MX17004",2010,11,"tmax",NA,31.3,NA,27.2,26.3,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,28.1,27.7,NA,NA,NA,NA
21 | "MX17004",2010,11,"tmin",NA,16.3,NA,12,7.9,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,12.1,14.2,NA,NA,NA,NA
22 | "MX17004",2010,12,"tmax",29.9,NA,NA,NA,NA,27.8,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA
23 | "MX17004",2010,12,"tmin",13.8,NA,NA,NA,NA,10.5,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA
24 | 


--------------------------------------------------------------------------------
/output/.gitkeep:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/chendaniely/scipy-2017-tutorial-pandas/9d9e081c361cf959f40e21228bb930db7b60068e/output/.gitkeep


--------------------------------------------------------------------------------
/test_installation.py:
--------------------------------------------------------------------------------
1 | """ import all the necessary libraries required"""
2 | import pandas as pd
3 | import seaborn as sns
4 | import sklearn as sk
5 | 


--------------------------------------------------------------------------------