├── images
    ├── no_keyword.png
    ├── results_2.png
    ├── output_108_0.png
    ├── output_110_1.png
    ├── output_118_0.png
    ├── output_63_0.png
    ├── output_68_0.png
    ├── output_70_0.png
    ├── output_72_0.png
    ├── output_77_1.png
    ├── output_79_1.png
    ├── output_92_0.png
    ├── output_94_0.png
    ├── simulated_words.png
    ├── location_features.png
    ├── feature_importance_1.png
    ├── feature_importance_2.png
    ├── test_set_performance.png
    └── location_features_example.png
├── README.md
└── insurance_card_text_classification.md


/images/no_keyword.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hatemr/Classifying-Insurance-Card-Text/master/images/no_keyword.png


--------------------------------------------------------------------------------
/images/results_2.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hatemr/Classifying-Insurance-Card-Text/master/images/results_2.png


--------------------------------------------------------------------------------
/images/output_108_0.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hatemr/Classifying-Insurance-Card-Text/master/images/output_108_0.png


--------------------------------------------------------------------------------
/images/output_110_1.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hatemr/Classifying-Insurance-Card-Text/master/images/output_110_1.png


--------------------------------------------------------------------------------
/images/output_118_0.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hatemr/Classifying-Insurance-Card-Text/master/images/output_118_0.png


--------------------------------------------------------------------------------
/images/output_63_0.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hatemr/Classifying-Insurance-Card-Text/master/images/output_63_0.png


--------------------------------------------------------------------------------
/images/output_68_0.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hatemr/Classifying-Insurance-Card-Text/master/images/output_68_0.png


--------------------------------------------------------------------------------
/images/output_70_0.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hatemr/Classifying-Insurance-Card-Text/master/images/output_70_0.png


--------------------------------------------------------------------------------
/images/output_72_0.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hatemr/Classifying-Insurance-Card-Text/master/images/output_72_0.png


--------------------------------------------------------------------------------
/images/output_77_1.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hatemr/Classifying-Insurance-Card-Text/master/images/output_77_1.png


--------------------------------------------------------------------------------
/images/output_79_1.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hatemr/Classifying-Insurance-Card-Text/master/images/output_79_1.png


--------------------------------------------------------------------------------
/images/output_92_0.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hatemr/Classifying-Insurance-Card-Text/master/images/output_92_0.png


--------------------------------------------------------------------------------
/images/output_94_0.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hatemr/Classifying-Insurance-Card-Text/master/images/output_94_0.png


--------------------------------------------------------------------------------
/images/simulated_words.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hatemr/Classifying-Insurance-Card-Text/master/images/simulated_words.png


--------------------------------------------------------------------------------
/images/location_features.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hatemr/Classifying-Insurance-Card-Text/master/images/location_features.png


--------------------------------------------------------------------------------
/images/feature_importance_1.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hatemr/Classifying-Insurance-Card-Text/master/images/feature_importance_1.png


--------------------------------------------------------------------------------
/images/feature_importance_2.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hatemr/Classifying-Insurance-Card-Text/master/images/feature_importance_2.png


--------------------------------------------------------------------------------
/images/test_set_performance.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hatemr/Classifying-Insurance-Card-Text/master/images/test_set_performance.png


--------------------------------------------------------------------------------
/images/location_features_example.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hatemr/Classifying-Insurance-Card-Text/master/images/location_features_example.png


--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
 1 | # Classifying-Insurance-Card-Text
 2 | A machine learning project to identify names, Group IDs, and Member IDs from insurance cards.
 3 | 
 4 | The code can be found in [insurance_card_text_classification.ipynb](insurance_card_text_classification.ipynb). Since `.ipynb` files often don't render in Github, I also made a `.md` version [here](insurance_card_text_classification.md).
 5 | 
 6 | # Business Problem
 7 | Patients scan their insurance card at the clinic, but the administrative assisstant still must manually enter insurance information into the computer. This manual data entry costs time for the clinic and lowers the patient experience. If we could automatically extract information from the scanned insurance card, we could avoid time and frsutrated from manual entry.
 8 | 
 9 | # Solution
10 | I build a text classifier to identify which words on an insurance card were the 1) member name, 2) Member ID, and 3) Group number.
11 | 
12 | # Data
13 | The company who builds the scanners do not save the scanned text, because it would violate health privacy laws. So we had to produce insurance cards ourselves. We found about five real cards and 20 generic cards from online. The company extracted text using OCR software, then I took the resulting XML and extracted the words from the card.
14 | 
15 | I then hand-labelled every word as 1) member name, 2) group ID, 3) member ID, or 4) none. The classes were heavily imbalanced; there's only one name on every hard and a couple hundred other words. To overcome class imbalance, I simulated new Group IDs:
16 | * letter -> random letter
17 | * digit -> random digit
18 | * punctuation -> same
19 | 
20 | ![simulated words](images/simulated_words.png)
21 | 
22 | The resulting simulated words looked similar, just with different digits/letters.
23 | 
24 | I also simulated names, using a list of most-common names I found online. This balanced the classes, even though most of the data was now simulated.
25 | 
26 | # Modeling
27 | I ran a random forest using 60/40 stratified splitting, to keep the classes balanced. Here is the test set performance:
28 | 
29 | ![test_set_performance.png](images/test_set_performance.png)
30 | 
31 | I also measured the feature importances to see which features were highly predictive:
32 | 
33 | ![feature importance 1](images/feature_importance_1.png)
34 | 
35 | The fraction of alphabetic features was the most predictive, while the length was not predictive.
36 | 
37 | ## Take-2
38 | Next, I changed to multiclass classification to predict 1) group ID, 2) member ID, 3) none. I also added in an indicator variable for whether the word was a "keyword", such as "Member" or "Group". The results are shown below, broken down by simulated and real data:
39 | 
40 | ![results 2](images/results_2.png)
41 | 
42 | The results seem mostly good, with only few off-diagonals. However, it performs worse on the _real_ data, which causes concern. This would have to be improved later, but for a proof-of-concept, performance isn't bad.
43 | 
44 | Now, length becomes a very important feature:
45 | ![feature importance 2](images/feature_importance_2.png)
46 | 
47 | # Text-based features
48 | I engineered 10 text-based features to represent each word:
49 | 1. Length of word
50 | 2. Fraction of characters that are letters
51 | 3. Fraction of characters that are digits
52 | 4. Fraction of alphabetic characters that are uppercase
53 | 5. Fraction of alphabetric characters that are lowercase
54 | 6. Fraction of digits that are puncuation (.,:)
55 | 7. Fraction of digits that are punctuation that are periods
56 | 8. Fraction of digits that are punctuation that are dashes
57 | 
58 | # Location features
59 | We can use location information as features to identify Group numbers and others. For example, Group numbers often sit next to text saying "Group No.:". We encode location feautures manually; the vertical location is the line number, normalized to range one, and the horizontal location left/middle/right (0/0.5/1):
60 | 
61 | ![location features](images/location_features.png)
62 | 
63 | ![location features example](images/location_features_example.png)
64 | 
65 | Instead of using a machine learning model with location as features, we instead use a simple logic algorithm:
66 | * Iteration through words.
67 | * If the word is a keyword (e.g. _Member_ is a keyword for Member IDs), measure the distance to every other word.
68 |   * Iterate through the other words, starting with the closest word.
69 |     * If the word is more than 50% digits and longer than three characters, predict it as a Member ID (or Group ID). This is because IDs are typically longer than 3 characters and have many numbers and few letters.
70 | 
71 | # Results
72 | This simple algorithm correctly dientified 8 of 10 Member IDs and 7 of 10 Group IDs. The failures cases are all known cases where the assumptions of the algorithm failed:
73 | * no group ID to find
74 | * group ID had less than 50% digits
75 | * no keyword on the card. Here's an example:
76 | 
77 | ![no keyword](images/no_keyword.png)
78 | 
79 | # Future work
80 | This project gives a compelling proof-of-concept for automatic text entry. Indeed, some companies like Zocdoc have built models using CNNs to identify the group IDs when you scan the card on your phone. Another similar offering is Textract from Amazon, which scans an image and extracts key-value pairs. The approached used here, feature engineering and ML prediction, can serve as a good solution, especially if other commercial tools aren't flexible enough for this particular task. Further work should be done to engineer new features, refine the models, and deploy a model in production.
81 | 


--------------------------------------------------------------------------------
/insurance_card_text_classification.md:
--------------------------------------------------------------------------------
   1 | 
   2 | 
   3 | ```python
   4 | import xml.etree.ElementTree as ET
   5 | import os, sys
   6 | #import nltk
   7 | #from nltk.corpus import names
   8 | #nltk.download('punkt')
   9 | #nltk.download('names')
  10 | import string
  11 | import random
  12 | import matplotlib.pyplot as plt
  13 | import numpy as np
  14 | import pandas as pd
  15 | import seaborn as sn
  16 | %matplotlib inline
  17 | ```
  18 | 
  19 | 
  20 | ```python
  21 | # import data
  22 | df = pd.read_excel('Card Samples/group ids not identified.xlsx', index_col=None, header=0, dtype={'word': str})
  23 | 
  24 | # fill NAs
  25 | df1 = df.fillna(0)
  26 | 
  27 | # remove include=0
  28 | df1 = df1.loc[df1.include==1]
  29 | ```
  30 | 
  31 | Split the lines into individual words.
  32 | 
  33 | 
  34 | ```python
  35 | df1_values = df1.values.copy()
  36 | new_values = np.empty((1,12))
  37 | 
  38 | # split rows to individual words
  39 | for i in range(df1_values[:,1].shape[0]):
  40 |     for word in df1_values[i,1].split():
  41 |         new_row = df1_values[i,:].copy()
  42 |         new_row[1] = word
  43 |         new_row = new_row.reshape(1,-1)
  44 |         new_values = np.append(new_values, new_row, axis=0)
  45 | 
  46 | # delete first row
  47 | new_values = new_values[1:,:]
  48 | 
  49 | # create dataframe
  50 | df2 = pd.DataFrame(columns=df1.columns.tolist(), data=new_values)
  51 | 
  52 | # horizontal location
  53 | df2 = df2.assign(x_loc=0.5*df2.middle + df2.right_side)
  54 | df2.x_loc = df2.x_loc.astype(float)
  55 | 
  56 | # vertical location
  57 | df2 = df2.assign(y_loc=1-df2.line/df2.total_lines_on_card)
  58 | df2.y_loc = df2.y_loc.astype(float)
  59 | 
  60 | # delete uneeded columns
  61 | df2 = df2.drop(columns=['include', 'left_side', 'middle', 'right_side', 'line', 'total_lines_on_card'])
  62 | ```
  63 | 
  64 | 
  65 | ```python
  66 | # get location of keyword
  67 | df2_values = df2.values
  68 | dist_memberid = np.empty((1,2))
  69 | dist_groupid = np.empty((1,2))
  70 | 
  71 | for card in np.unique(df2_values[:,0]):
  72 |     d1 = df2_values[df2_values[:,0]==card]  # 
  73 |     
  74 |     d2 = d1[d1[:,4]==1]  # member id keyword
  75 |     if d2.shape[0] == 0:
  76 |         memberid_loc = np.array([[0,0]])
  77 |     else:
  78 |         memberid_loc = d2[0,6:8].reshape(1,-1)
  79 |     memberid_loc = np.repeat(memberid_loc, d1.shape[0], axis=0)
  80 |     dist_memberid = np.append(dist_memberid, memberid_loc, axis=0)
  81 |     
  82 |     d3 = d1[d1[:,5]==1]  # group id keyword
  83 |     if d3.shape[0] == 0:
  84 |         groupid_loc = np.array([[0,0]])
  85 |     else:
  86 |         groupid_loc = d3[0,6:8].reshape(1,-1)  # x and y
  87 |     groupid_loc = np.repeat(groupid_loc, d1.shape[0], axis=0)
  88 |     dist_groupid = np.append(dist_groupid, groupid_loc, axis=0)
  89 |     
  90 | dist_memberid = dist_memberid[1:].astype(float)
  91 | dist_groupid = dist_groupid[1:].astype(float)
  92 | 
  93 | # group id keyword locations
  94 | df3 = df2.assign(x_loc_group_keyword=dist_groupid[:,0])
  95 | df3 = df3.assign(y_loc_group_keyword=dist_groupid[:,1])
  96 | 
  97 | # member id keyword locations
  98 | df3 = df3.assign(x_loc_member_keyword=dist_memberid[:,0])
  99 | df3 = df3.assign(y_loc_member_keyword=dist_memberid[:,1])
 100 | 
 101 | # calc distances
 102 | dist_group_id = np.linalg.norm(df3[['x_loc','y_loc']].values.astype(float) - df3[['x_loc_group_keyword','y_loc_group_keyword']].values.astype(float), axis=1)
 103 | dist_member_id = np.linalg.norm(df3[['x_loc','y_loc']].values.astype(float) - df3[['x_loc_member_keyword','y_loc_member_keyword']].values.astype(float), axis=1)
 104 | 
 105 | df3 = df3.assign(dist_member_id=dist_member_id)
 106 | df3 = df3.assign(dist_group_id=dist_group_id)
 107 | 
 108 | frac_digit = []
 109 | for index, row in df3.iterrows():
 110 |     frac_digit.append(sum([1 for char in row.word if char.isdigit()]) / len(row.word))
 111 | 
 112 | df3 = df3.assign(frac_digit = frac_digit)
 113 | df3 = df3.assign(pred_member=df3.shape[0]*[0])
 114 | df3 = df3.assign(pred_group=df3.shape[0]*[0])
 115 | # drop extra columns
 116 | #df3 = df3.drop(columns=['x_loc','y_loc','x_loc_group_keyword','y_loc_group_keyword', 'x_loc_member_keyword','y_loc_member_keyword'])
 117 | ```
 118 | 
 119 | 
 120 | ```python
 121 | n,m = df3.iloc[0:1,:].shape
 122 | cols = df3.columns.tolist()
 123 | #df4 = pd.DataFrame(data=d4, columns=cols)
 124 | 
 125 | d0 = np.empty((1,m))
 126 | 
 127 | for card in np.unique(df3.card):
 128 |     if card>3:
 129 |         pass
 130 |     d1 = df3.loc[df3.card==card]
 131 |     
 132 |     for i, row in d1.sort_values('dist_member_id').iterrows():
 133 |         if row.frac_digit > 0.5 and len(row.word) >= 4:
 134 |             #i_memberid_pred = i
 135 |             d5 = row.values.copy().reshape(1,-1)
 136 |             d5[:,-2] = 1
 137 |             break
 138 |     #if 'd5' not in locals():
 139 |     #    print("No prediction for member id for card", card)
 140 |        
 141 |     
 142 |     for i, row in d1.sort_values('dist_group_id').iterrows():
 143 |         if row.frac_digit > 0.5 and len(row.word) >= 4:
 144 |             i_groupid_pred = i
 145 |             d10 = row.values.copy().reshape(1,-1)
 146 |             d10[:,-1] = 1
 147 |             break
 148 |     #if 'd10' not in locals():
 149 |     #    print("No prediction for group id for card", card)
 150 | 
 151 |     # member id
 152 |     d3 = d1.loc[d1.member_id==1].values
 153 |     d4 = d1.loc[d1.memberid_keyword==1].values
 154 |     #d5 = d2.loc[d1.index==i_memberid_pred].values.reshape(1,-1)
 155 |     d6 = np.append(d3, d4, axis=0)
 156 |     d6 = np.append(d6, d5, axis=0)
 157 |     
 158 |     # group id
 159 |     d8 = d1.loc[d1.group_id==1].values
 160 |     d9 = d1.loc[d1.groupid_keyword==1].values
 161 | #    d10 = d7.loc[d7.index==i_groupid_pred].values.reshape(1,-1)
 162 |     d11 = np.append(d8, d9, axis=0)
 163 |     d11 = np.append(d11, d10, axis=0)
 164 |     
 165 |     # combine member id and group id
 166 |     d12 = np.append(d6, d11, axis=0)
 167 |     
 168 |     
 169 |     d0 = np.append(d0, d12, axis=0)
 170 |     #break
 171 |     
 172 | df4 = pd.DataFrame(data=d0, columns=cols)
 173 | df4.drop([0], inplace=True)
 174 | ```
 175 | 
 176 | 
 177 | ```python
 178 | #pd.DataFrame(data=d0, columns=cols).drop([0])
 179 | ```
 180 | 
 181 | 
 182 | ```python
 183 | cards = np.unique(df4.card)
 184 | i=6
 185 | df4.loc[df4.card==cards[i]][['word','member_id','memberid_keyword','x_loc','y_loc', 'x_loc_member_keyword', 'y_loc_member_keyword', 'dist_member_id','frac_digit','pred_member']]
 186 | ```
 187 | 
 188 | 
 189 | 
 190 | 
 191 | <div>
 192 | <style scoped>
 193 |     .dataframe tbody tr th:only-of-type {
 194 |         vertical-align: middle;
 195 |     }
 196 | 
 197 |     .dataframe tbody tr th {
 198 |         vertical-align: top;
 199 |     }
 200 | 
 201 |     .dataframe thead th {
 202 |         text-align: right;
 203 |     }
 204 | </style>
 205 | <table border="1" class="dataframe">
 206 |   <thead>
 207 |     <tr style="text-align: right;">
 208 |       <th></th>
 209 |       <th>word</th>
 210 |       <th>member_id</th>
 211 |       <th>memberid_keyword</th>
 212 |       <th>x_loc</th>
 213 |       <th>y_loc</th>
 214 |       <th>x_loc_member_keyword</th>
 215 |       <th>y_loc_member_keyword</th>
 216 |       <th>dist_member_id</th>
 217 |       <th>frac_digit</th>
 218 |       <th>pred_member</th>
 219 |     </tr>
 220 |   </thead>
 221 |   <tbody>
 222 |     <tr>
 223 |       <th>38</th>
 224 |       <td>123456789</td>
 225 |       <td>1</td>
 226 |       <td>0</td>
 227 |       <td>0</td>
 228 |       <td>0.727273</td>
 229 |       <td>0</td>
 230 |       <td>0.727273</td>
 231 |       <td>0</td>
 232 |       <td>1</td>
 233 |       <td>0</td>
 234 |     </tr>
 235 |     <tr>
 236 |       <th>39</th>
 237 |       <td>Member</td>
 238 |       <td>0</td>
 239 |       <td>1</td>
 240 |       <td>0</td>
 241 |       <td>0.727273</td>
 242 |       <td>0</td>
 243 |       <td>0.727273</td>
 244 |       <td>0</td>
 245 |       <td>0</td>
 246 |       <td>0</td>
 247 |     </tr>
 248 |     <tr>
 249 |       <th>40</th>
 250 |       <td>123456789</td>
 251 |       <td>1</td>
 252 |       <td>0</td>
 253 |       <td>0</td>
 254 |       <td>0.727273</td>
 255 |       <td>0</td>
 256 |       <td>0.727273</td>
 257 |       <td>0</td>
 258 |       <td>1</td>
 259 |       <td>1</td>
 260 |     </tr>
 261 |     <tr>
 262 |       <th>41</th>
 263 |       <td>123456</td>
 264 |       <td>0</td>
 265 |       <td>0</td>
 266 |       <td>1</td>
 267 |       <td>0.727273</td>
 268 |       <td>0</td>
 269 |       <td>0.727273</td>
 270 |       <td>1</td>
 271 |       <td>1</td>
 272 |       <td>0</td>
 273 |     </tr>
 274 |     <tr>
 275 |       <th>42</th>
 276 |       <td>Group</td>
 277 |       <td>0</td>
 278 |       <td>0</td>
 279 |       <td>1</td>
 280 |       <td>0.727273</td>
 281 |       <td>0</td>
 282 |       <td>0.727273</td>
 283 |       <td>1</td>
 284 |       <td>0</td>
 285 |       <td>0</td>
 286 |     </tr>
 287 |     <tr>
 288 |       <th>43</th>
 289 |       <td>123456</td>
 290 |       <td>0</td>
 291 |       <td>0</td>
 292 |       <td>1</td>
 293 |       <td>0.727273</td>
 294 |       <td>0</td>
 295 |       <td>0.727273</td>
 296 |       <td>1</td>
 297 |       <td>1</td>
 298 |       <td>0</td>
 299 |     </tr>
 300 |   </tbody>
 301 | </table>
 302 | </div>
 303 | 
 304 | 
 305 | 
 306 | 
 307 | ```python
 308 | filt = df4.loc[df4.pred_member==1]
 309 | filt1 = filt.loc[filt.member_id==1]
 310 | TP = filt1.shape[0]
 311 | print(filt.member_id.sum()/filt.shape[0])
 312 | 
 313 | ```
 314 | 
 315 |     0.8
 316 | 
 317 | 
 318 | 
 319 | ```python
 320 | filt = df4.loc[df4.pred_group==1]
 321 | filt1 = filt.loc[filt.group_id==1]
 322 | TP = filt1.shape[0]
 323 | print(filt.group_id.sum()/filt.shape[0])
 324 | ```
 325 | 
 326 |     0.7
 327 | 
 328 | 
 329 | 
 330 | ```python
 331 | i=8
 332 | df4.loc[df4.card==cards[i]][['word','group_id','groupid_keyword','x_loc','y_loc', 'x_loc_group_keyword', 'y_loc_group_keyword', 'dist_group_id','frac_digit','pred_group']]
 333 | ```
 334 | 
 335 | 
 336 | 
 337 | 
 338 | <div>
 339 | <style scoped>
 340 |     .dataframe tbody tr th:only-of-type {
 341 |         vertical-align: middle;
 342 |     }
 343 | 
 344 |     .dataframe tbody tr th {
 345 |         vertical-align: top;
 346 |     }
 347 | 
 348 |     .dataframe thead th {
 349 |         text-align: right;
 350 |     }
 351 | </style>
 352 | <table border="1" class="dataframe">
 353 |   <thead>
 354 |     <tr style="text-align: right;">
 355 |       <th></th>
 356 |       <th>word</th>
 357 |       <th>group_id</th>
 358 |       <th>groupid_keyword</th>
 359 |       <th>x_loc</th>
 360 |       <th>y_loc</th>
 361 |       <th>x_loc_group_keyword</th>
 362 |       <th>y_loc_group_keyword</th>
 363 |       <th>dist_group_id</th>
 364 |       <th>frac_digit</th>
 365 |       <th>pred_group</th>
 366 |     </tr>
 367 |   </thead>
 368 |   <tbody>
 369 |     <tr>
 370 |       <th>50</th>
 371 |       <td>112345000</td>
 372 |       <td>0</td>
 373 |       <td>0</td>
 374 |       <td>0</td>
 375 |       <td>0.714286</td>
 376 |       <td>1</td>
 377 |       <td>0.857143</td>
 378 |       <td>1.01015</td>
 379 |       <td>1</td>
 380 |       <td>0</td>
 381 |     </tr>
 382 |     <tr>
 383 |       <th>51</th>
 384 |       <td>Member</td>
 385 |       <td>0</td>
 386 |       <td>0</td>
 387 |       <td>0</td>
 388 |       <td>0.714286</td>
 389 |       <td>1</td>
 390 |       <td>0.857143</td>
 391 |       <td>1.01015</td>
 392 |       <td>0</td>
 393 |       <td>0</td>
 394 |     </tr>
 395 |     <tr>
 396 |       <th>52</th>
 397 |       <td>ID</td>
 398 |       <td>0</td>
 399 |       <td>0</td>
 400 |       <td>0</td>
 401 |       <td>0.714286</td>
 402 |       <td>1</td>
 403 |       <td>0.857143</td>
 404 |       <td>1.01015</td>
 405 |       <td>0</td>
 406 |       <td>0</td>
 407 |     </tr>
 408 |     <tr>
 409 |       <th>53</th>
 410 |       <td>112345000</td>
 411 |       <td>0</td>
 412 |       <td>0</td>
 413 |       <td>0</td>
 414 |       <td>0.714286</td>
 415 |       <td>1</td>
 416 |       <td>0.857143</td>
 417 |       <td>1.01015</td>
 418 |       <td>1</td>
 419 |       <td>0</td>
 420 |     </tr>
 421 |     <tr>
 422 |       <th>54</th>
 423 |       <td>NEOOOOOO</td>
 424 |       <td>1</td>
 425 |       <td>0</td>
 426 |       <td>1</td>
 427 |       <td>0.857143</td>
 428 |       <td>1</td>
 429 |       <td>0.857143</td>
 430 |       <td>0</td>
 431 |       <td>0</td>
 432 |       <td>0</td>
 433 |     </tr>
 434 |     <tr>
 435 |       <th>55</th>
 436 |       <td>Group</td>
 437 |       <td>0</td>
 438 |       <td>1</td>
 439 |       <td>1</td>
 440 |       <td>0.857143</td>
 441 |       <td>1</td>
 442 |       <td>0.857143</td>
 443 |       <td>0</td>
 444 |       <td>0</td>
 445 |       <td>0</td>
 446 |     </tr>
 447 |     <tr>
 448 |       <th>56</th>
 449 |       <td>00000</td>
 450 |       <td>0</td>
 451 |       <td>0</td>
 452 |       <td>1</td>
 453 |       <td>0.142857</td>
 454 |       <td>1</td>
 455 |       <td>0.857143</td>
 456 |       <td>0.714286</td>
 457 |       <td>1</td>
 458 |       <td>1</td>
 459 |     </tr>
 460 |   </tbody>
 461 | </table>
 462 | </div>
 463 | 
 464 | 
 465 | 
 466 | 
 467 | ```python
 468 | df3.loc[df3.card==cards[i]]
 469 | ```
 470 | 
 471 | 
 472 | 
 473 | 
 474 | <div>
 475 | <style scoped>
 476 |     .dataframe tbody tr th:only-of-type {
 477 |         vertical-align: middle;
 478 |     }
 479 | 
 480 |     .dataframe tbody tr th {
 481 |         vertical-align: top;
 482 |     }
 483 | 
 484 |     .dataframe thead th {
 485 |         text-align: right;
 486 |     }
 487 | </style>
 488 | <table border="1" class="dataframe">
 489 |   <thead>
 490 |     <tr style="text-align: right;">
 491 |       <th></th>
 492 |       <th>card</th>
 493 |       <th>word</th>
 494 |       <th>member_id</th>
 495 |       <th>group_id</th>
 496 |       <th>memberid_keyword</th>
 497 |       <th>groupid_keyword</th>
 498 |       <th>x_loc</th>
 499 |       <th>y_loc</th>
 500 |       <th>x_loc_group_keyword</th>
 501 |       <th>y_loc_group_keyword</th>
 502 |       <th>x_loc_member_keyword</th>
 503 |       <th>y_loc_member_keyword</th>
 504 |       <th>dist_member_id</th>
 505 |       <th>dist_group_id</th>
 506 |       <th>frac_digit</th>
 507 |       <th>pred_member</th>
 508 |       <th>pred_group</th>
 509 |     </tr>
 510 |   </thead>
 511 |   <tbody>
 512 |     <tr>
 513 |       <th>282</th>
 514 |       <td>24</td>
 515 |       <td>PacificSource</td>
 516 |       <td>0</td>
 517 |       <td>0</td>
 518 |       <td>0</td>
 519 |       <td>0</td>
 520 |       <td>0.0</td>
 521 |       <td>0.928571</td>
 522 |       <td>1.0</td>
 523 |       <td>0.857143</td>
 524 |       <td>0.0</td>
 525 |       <td>0.714286</td>
 526 |       <td>0.214286</td>
 527 |       <td>1.002548</td>
 528 |       <td>0.00</td>
 529 |       <td>0</td>
 530 |       <td>0</td>
 531 |     </tr>
 532 |     <tr>
 533 |       <th>283</th>
 534 |       <td>24</td>
 535 |       <td>Group</td>
 536 |       <td>0</td>
 537 |       <td>0</td>
 538 |       <td>0</td>
 539 |       <td>0</td>
 540 |       <td>1.0</td>
 541 |       <td>0.928571</td>
 542 |       <td>1.0</td>
 543 |       <td>0.857143</td>
 544 |       <td>0.0</td>
 545 |       <td>0.714286</td>
 546 |       <td>1.022702</td>
 547 |       <td>0.071429</td>
 548 |       <td>0.00</td>
 549 |       <td>0</td>
 550 |       <td>0</td>
 551 |     </tr>
 552 |     <tr>
 553 |       <th>284</th>
 554 |       <td>24</td>
 555 |       <td>Name</td>
 556 |       <td>0</td>
 557 |       <td>0</td>
 558 |       <td>0</td>
 559 |       <td>0</td>
 560 |       <td>1.0</td>
 561 |       <td>0.928571</td>
 562 |       <td>1.0</td>
 563 |       <td>0.857143</td>
 564 |       <td>0.0</td>
 565 |       <td>0.714286</td>
 566 |       <td>1.022702</td>
 567 |       <td>0.071429</td>
 568 |       <td>0.00</td>
 569 |       <td>0</td>
 570 |       <td>0</td>
 571 |     </tr>
 572 |     <tr>
 573 |       <th>285</th>
 574 |       <td>24</td>
 575 |       <td>Here</td>
 576 |       <td>0</td>
 577 |       <td>0</td>
 578 |       <td>0</td>
 579 |       <td>0</td>
 580 |       <td>1.0</td>
 581 |       <td>0.928571</td>
 582 |       <td>1.0</td>
 583 |       <td>0.857143</td>
 584 |       <td>0.0</td>
 585 |       <td>0.714286</td>
 586 |       <td>1.022702</td>
 587 |       <td>0.071429</td>
 588 |       <td>0.00</td>
 589 |       <td>0</td>
 590 |       <td>0</td>
 591 |     </tr>
 592 |     <tr>
 593 |       <th>286</th>
 594 |       <td>24</td>
 595 |       <td>HEALTH</td>
 596 |       <td>0</td>
 597 |       <td>0</td>
 598 |       <td>0</td>
 599 |       <td>0</td>
 600 |       <td>1.0</td>
 601 |       <td>0.857143</td>
 602 |       <td>1.0</td>
 603 |       <td>0.857143</td>
 604 |       <td>0.0</td>
 605 |       <td>0.714286</td>
 606 |       <td>1.010153</td>
 607 |       <td>0.000000</td>
 608 |       <td>0.00</td>
 609 |       <td>0</td>
 610 |       <td>0</td>
 611 |     </tr>
 612 |     <tr>
 613 |       <th>287</th>
 614 |       <td>24</td>
 615 |       <td>PLANS</td>
 616 |       <td>0</td>
 617 |       <td>0</td>
 618 |       <td>0</td>
 619 |       <td>0</td>
 620 |       <td>1.0</td>
 621 |       <td>0.857143</td>
 622 |       <td>1.0</td>
 623 |       <td>0.857143</td>
 624 |       <td>0.0</td>
 625 |       <td>0.714286</td>
 626 |       <td>1.010153</td>
 627 |       <td>0.000000</td>
 628 |       <td>0.00</td>
 629 |       <td>0</td>
 630 |       <td>0</td>
 631 |     </tr>
 632 |     <tr>
 633 |       <th>288</th>
 634 |       <td>24</td>
 635 |       <td>Group</td>
 636 |       <td>0</td>
 637 |       <td>0</td>
 638 |       <td>0</td>
 639 |       <td>1</td>
 640 |       <td>1.0</td>
 641 |       <td>0.857143</td>
 642 |       <td>1.0</td>
 643 |       <td>0.857143</td>
 644 |       <td>0.0</td>
 645 |       <td>0.714286</td>
 646 |       <td>1.010153</td>
 647 |       <td>0.000000</td>
 648 |       <td>0.00</td>
 649 |       <td>0</td>
 650 |       <td>0</td>
 651 |     </tr>
 652 |     <tr>
 653 |       <th>289</th>
 654 |       <td>24</td>
 655 |       <td>#:</td>
 656 |       <td>0</td>
 657 |       <td>0</td>
 658 |       <td>0</td>
 659 |       <td>0</td>
 660 |       <td>1.0</td>
 661 |       <td>0.857143</td>
 662 |       <td>1.0</td>
 663 |       <td>0.857143</td>
 664 |       <td>0.0</td>
 665 |       <td>0.714286</td>
 666 |       <td>1.010153</td>
 667 |       <td>0.000000</td>
 668 |       <td>0.00</td>
 669 |       <td>0</td>
 670 |       <td>0</td>
 671 |     </tr>
 672 |     <tr>
 673 |       <th>290</th>
 674 |       <td>24</td>
 675 |       <td>NEOOOOOO</td>
 676 |       <td>0</td>
 677 |       <td>1</td>
 678 |       <td>0</td>
 679 |       <td>0</td>
 680 |       <td>1.0</td>
 681 |       <td>0.857143</td>
 682 |       <td>1.0</td>
 683 |       <td>0.857143</td>
 684 |       <td>0.0</td>
 685 |       <td>0.714286</td>
 686 |       <td>1.010153</td>
 687 |       <td>0.000000</td>
 688 |       <td>0.00</td>
 689 |       <td>0</td>
 690 |       <td>0</td>
 691 |     </tr>
 692 |     <tr>
 693 |       <th>291</th>
 694 |       <td>24</td>
 695 |       <td>Subscriber</td>
 696 |       <td>0</td>
 697 |       <td>0</td>
 698 |       <td>0</td>
 699 |       <td>0</td>
 700 |       <td>0.0</td>
 701 |       <td>0.785714</td>
 702 |       <td>1.0</td>
 703 |       <td>0.857143</td>
 704 |       <td>0.0</td>
 705 |       <td>0.714286</td>
 706 |       <td>0.071429</td>
 707 |       <td>1.002548</td>
 708 |       <td>0.00</td>
 709 |       <td>0</td>
 710 |       <td>0</td>
 711 |     </tr>
 712 |     <tr>
 713 |       <th>292</th>
 714 |       <td>24</td>
 715 |       <td>Name:</td>
 716 |       <td>0</td>
 717 |       <td>0</td>
 718 |       <td>0</td>
 719 |       <td>0</td>
 720 |       <td>0.0</td>
 721 |       <td>0.785714</td>
 722 |       <td>1.0</td>
 723 |       <td>0.857143</td>
 724 |       <td>0.0</td>
 725 |       <td>0.714286</td>
 726 |       <td>0.071429</td>
 727 |       <td>1.002548</td>
 728 |       <td>0.00</td>
 729 |       <td>0</td>
 730 |       <td>0</td>
 731 |     </tr>
 732 |     <tr>
 733 |       <th>293</th>
 734 |       <td>24</td>
 735 |       <td>John</td>
 736 |       <td>0</td>
 737 |       <td>0</td>
 738 |       <td>0</td>
 739 |       <td>0</td>
 740 |       <td>0.0</td>
 741 |       <td>0.785714</td>
 742 |       <td>1.0</td>
 743 |       <td>0.857143</td>
 744 |       <td>0.0</td>
 745 |       <td>0.714286</td>
 746 |       <td>0.071429</td>
 747 |       <td>1.002548</td>
 748 |       <td>0.00</td>
 749 |       <td>0</td>
 750 |       <td>0</td>
 751 |     </tr>
 752 |     <tr>
 753 |       <th>294</th>
 754 |       <td>24</td>
 755 |       <td>Smith</td>
 756 |       <td>0</td>
 757 |       <td>0</td>
 758 |       <td>0</td>
 759 |       <td>0</td>
 760 |       <td>0.0</td>
 761 |       <td>0.785714</td>
 762 |       <td>1.0</td>
 763 |       <td>0.857143</td>
 764 |       <td>0.0</td>
 765 |       <td>0.714286</td>
 766 |       <td>0.071429</td>
 767 |       <td>1.002548</td>
 768 |       <td>0.00</td>
 769 |       <td>0</td>
 770 |       <td>0</td>
 771 |     </tr>
 772 |     <tr>
 773 |       <th>295</th>
 774 |       <td>24</td>
 775 |       <td>Member</td>
 776 |       <td>0</td>
 777 |       <td>0</td>
 778 |       <td>1</td>
 779 |       <td>0</td>
 780 |       <td>0.0</td>
 781 |       <td>0.714286</td>
 782 |       <td>1.0</td>
 783 |       <td>0.857143</td>
 784 |       <td>0.0</td>
 785 |       <td>0.714286</td>
 786 |       <td>0.000000</td>
 787 |       <td>1.010153</td>
 788 |       <td>0.00</td>
 789 |       <td>0</td>
 790 |       <td>0</td>
 791 |     </tr>
 792 |     <tr>
 793 |       <th>296</th>
 794 |       <td>24</td>
 795 |       <td>ID</td>
 796 |       <td>0</td>
 797 |       <td>0</td>
 798 |       <td>1</td>
 799 |       <td>0</td>
 800 |       <td>0.0</td>
 801 |       <td>0.714286</td>
 802 |       <td>1.0</td>
 803 |       <td>0.857143</td>
 804 |       <td>0.0</td>
 805 |       <td>0.714286</td>
 806 |       <td>0.000000</td>
 807 |       <td>1.010153</td>
 808 |       <td>0.00</td>
 809 |       <td>0</td>
 810 |       <td>0</td>
 811 |     </tr>
 812 |     <tr>
 813 |       <th>297</th>
 814 |       <td>24</td>
 815 |       <td>112345000</td>
 816 |       <td>1</td>
 817 |       <td>0</td>
 818 |       <td>0</td>
 819 |       <td>0</td>
 820 |       <td>0.0</td>
 821 |       <td>0.714286</td>
 822 |       <td>1.0</td>
 823 |       <td>0.857143</td>
 824 |       <td>0.0</td>
 825 |       <td>0.714286</td>
 826 |       <td>0.000000</td>
 827 |       <td>1.010153</td>
 828 |       <td>1.00</td>
 829 |       <td>0</td>
 830 |       <td>0</td>
 831 |     </tr>
 832 |     <tr>
 833 |       <th>298</th>
 834 |       <td>24</td>
 835 |       <td>Network:</td>
 836 |       <td>0</td>
 837 |       <td>0</td>
 838 |       <td>0</td>
 839 |       <td>0</td>
 840 |       <td>0.0</td>
 841 |       <td>0.642857</td>
 842 |       <td>1.0</td>
 843 |       <td>0.857143</td>
 844 |       <td>0.0</td>
 845 |       <td>0.714286</td>
 846 |       <td>0.071429</td>
 847 |       <td>1.022702</td>
 848 |       <td>0.00</td>
 849 |       <td>0</td>
 850 |       <td>0</td>
 851 |     </tr>
 852 |     <tr>
 853 |       <th>299</th>
 854 |       <td>24</td>
 855 |       <td>SmartHeaIth</td>
 856 |       <td>0</td>
 857 |       <td>0</td>
 858 |       <td>0</td>
 859 |       <td>0</td>
 860 |       <td>0.0</td>
 861 |       <td>0.642857</td>
 862 |       <td>1.0</td>
 863 |       <td>0.857143</td>
 864 |       <td>0.0</td>
 865 |       <td>0.714286</td>
 866 |       <td>0.071429</td>
 867 |       <td>1.022702</td>
 868 |       <td>0.00</td>
 869 |       <td>0</td>
 870 |       <td>0</td>
 871 |     </tr>
 872 |     <tr>
 873 |       <th>300</th>
 874 |       <td>24</td>
 875 |       <td>(Referral</td>
 876 |       <td>0</td>
 877 |       <td>0</td>
 878 |       <td>0</td>
 879 |       <td>0</td>
 880 |       <td>0.0</td>
 881 |       <td>0.642857</td>
 882 |       <td>1.0</td>
 883 |       <td>0.857143</td>
 884 |       <td>0.0</td>
 885 |       <td>0.714286</td>
 886 |       <td>0.071429</td>
 887 |       <td>1.022702</td>
 888 |       <td>0.00</td>
 889 |       <td>0</td>
 890 |       <td>0</td>
 891 |     </tr>
 892 |     <tr>
 893 |       <th>301</th>
 894 |       <td>24</td>
 895 |       <td>Required)</td>
 896 |       <td>0</td>
 897 |       <td>0</td>
 898 |       <td>0</td>
 899 |       <td>0</td>
 900 |       <td>0.0</td>
 901 |       <td>0.642857</td>
 902 |       <td>1.0</td>
 903 |       <td>0.857143</td>
 904 |       <td>0.0</td>
 905 |       <td>0.714286</td>
 906 |       <td>0.071429</td>
 907 |       <td>1.022702</td>
 908 |       <td>0.00</td>
 909 |       <td>0</td>
 910 |       <td>0</td>
 911 |     </tr>
 912 |     <tr>
 913 |       <th>302</th>
 914 |       <td>24</td>
 915 |       <td>Card</td>
 916 |       <td>0</td>
 917 |       <td>0</td>
 918 |       <td>0</td>
 919 |       <td>0</td>
 920 |       <td>0.0</td>
 921 |       <td>0.571429</td>
 922 |       <td>1.0</td>
 923 |       <td>0.857143</td>
 924 |       <td>0.0</td>
 925 |       <td>0.714286</td>
 926 |       <td>0.142857</td>
 927 |       <td>1.040016</td>
 928 |       <td>0.00</td>
 929 |       <td>0</td>
 930 |       <td>0</td>
 931 |     </tr>
 932 |     <tr>
 933 |       <th>303</th>
 934 |       <td>24</td>
 935 |       <td>Issued:</td>
 936 |       <td>0</td>
 937 |       <td>0</td>
 938 |       <td>0</td>
 939 |       <td>0</td>
 940 |       <td>0.0</td>
 941 |       <td>0.571429</td>
 942 |       <td>1.0</td>
 943 |       <td>0.857143</td>
 944 |       <td>0.0</td>
 945 |       <td>0.714286</td>
 946 |       <td>0.142857</td>
 947 |       <td>1.040016</td>
 948 |       <td>0.00</td>
 949 |       <td>0</td>
 950 |       <td>0</td>
 951 |     </tr>
 952 |     <tr>
 953 |       <th>304</th>
 954 |       <td>24</td>
 955 |       <td>01/01/14</td>
 956 |       <td>0</td>
 957 |       <td>0</td>
 958 |       <td>0</td>
 959 |       <td>0</td>
 960 |       <td>0.0</td>
 961 |       <td>0.571429</td>
 962 |       <td>1.0</td>
 963 |       <td>0.857143</td>
 964 |       <td>0.0</td>
 965 |       <td>0.714286</td>
 966 |       <td>0.142857</td>
 967 |       <td>1.040016</td>
 968 |       <td>0.75</td>
 969 |       <td>0</td>
 970 |       <td>0</td>
 971 |     </tr>
 972 |     <tr>
 973 |       <th>305</th>
 974 |       <td>24</td>
 975 |       <td>ID</td>
 976 |       <td>0</td>
 977 |       <td>0</td>
 978 |       <td>0</td>
 979 |       <td>0</td>
 980 |       <td>0.0</td>
 981 |       <td>0.500000</td>
 982 |       <td>1.0</td>
 983 |       <td>0.857143</td>
 984 |       <td>0.0</td>
 985 |       <td>0.714286</td>
 986 |       <td>0.214286</td>
 987 |       <td>1.061862</td>
 988 |       <td>0.00</td>
 989 |       <td>0</td>
 990 |       <td>0</td>
 991 |     </tr>
 992 |     <tr>
 993 |       <th>306</th>
 994 |       <td>24</td>
 995 |       <td>00</td>
 996 |       <td>0</td>
 997 |       <td>0</td>
 998 |       <td>0</td>
 999 |       <td>0</td>
1000 |       <td>0.0</td>
1001 |       <td>0.428571</td>
1002 |       <td>1.0</td>
1003 |       <td>0.857143</td>
1004 |       <td>0.0</td>
1005 |       <td>0.714286</td>
1006 |       <td>0.285714</td>
1007 |       <td>1.087968</td>
1008 |       <td>1.00</td>
1009 |       <td>0</td>
1010 |       <td>0</td>
1011 |     </tr>
1012 |     <tr>
1013 |       <th>307</th>
1014 |       <td>24</td>
1015 |       <td>01</td>
1016 |       <td>0</td>
1017 |       <td>0</td>
1018 |       <td>0</td>
1019 |       <td>0</td>
1020 |       <td>0.0</td>
1021 |       <td>0.357143</td>
1022 |       <td>1.0</td>
1023 |       <td>0.857143</td>
1024 |       <td>0.0</td>
1025 |       <td>0.714286</td>
1026 |       <td>0.357143</td>
1027 |       <td>1.118034</td>
1028 |       <td>1.00</td>
1029 |       <td>0</td>
1030 |       <td>0</td>
1031 |     </tr>
1032 |     <tr>
1033 |       <th>308</th>
1034 |       <td>24</td>
1035 |       <td>02</td>
1036 |       <td>0</td>
1037 |       <td>0</td>
1038 |       <td>0</td>
1039 |       <td>0</td>
1040 |       <td>0.0</td>
1041 |       <td>0.285714</td>
1042 |       <td>1.0</td>
1043 |       <td>0.857143</td>
1044 |       <td>0.0</td>
1045 |       <td>0.714286</td>
1046 |       <td>0.428571</td>
1047 |       <td>1.151751</td>
1048 |       <td>1.00</td>
1049 |       <td>0</td>
1050 |       <td>0</td>
1051 |     </tr>
1052 |     <tr>
1053 |       <th>309</th>
1054 |       <td>24</td>
1055 |       <td>Member</td>
1056 |       <td>0</td>
1057 |       <td>0</td>
1058 |       <td>0</td>
1059 |       <td>0</td>
1060 |       <td>0.0</td>
1061 |       <td>0.500000</td>
1062 |       <td>1.0</td>
1063 |       <td>0.857143</td>
1064 |       <td>0.0</td>
1065 |       <td>0.714286</td>
1066 |       <td>0.214286</td>
1067 |       <td>1.061862</td>
1068 |       <td>0.00</td>
1069 |       <td>0</td>
1070 |       <td>0</td>
1071 |     </tr>
1072 |     <tr>
1073 |       <th>310</th>
1074 |       <td>24</td>
1075 |       <td>PCP</td>
1076 |       <td>0</td>
1077 |       <td>0</td>
1078 |       <td>0</td>
1079 |       <td>0</td>
1080 |       <td>0.5</td>
1081 |       <td>0.500000</td>
1082 |       <td>1.0</td>
1083 |       <td>0.857143</td>
1084 |       <td>0.0</td>
1085 |       <td>0.714286</td>
1086 |       <td>0.543984</td>
1087 |       <td>0.614452</td>
1088 |       <td>0.00</td>
1089 |       <td>0</td>
1090 |       <td>0</td>
1091 |     </tr>
1092 |     <tr>
1093 |       <th>311</th>
1094 |       <td>24</td>
1095 |       <td>John</td>
1096 |       <td>0</td>
1097 |       <td>0</td>
1098 |       <td>0</td>
1099 |       <td>0</td>
1100 |       <td>0.0</td>
1101 |       <td>0.428571</td>
1102 |       <td>1.0</td>
1103 |       <td>0.857143</td>
1104 |       <td>0.0</td>
1105 |       <td>0.714286</td>
1106 |       <td>0.285714</td>
1107 |       <td>1.087968</td>
1108 |       <td>0.00</td>
1109 |       <td>0</td>
1110 |       <td>0</td>
1111 |     </tr>
1112 |     <tr>
1113 |       <th>312</th>
1114 |       <td>24</td>
1115 |       <td>Susie</td>
1116 |       <td>0</td>
1117 |       <td>0</td>
1118 |       <td>0</td>
1119 |       <td>0</td>
1120 |       <td>0.0</td>
1121 |       <td>0.357143</td>
1122 |       <td>1.0</td>
1123 |       <td>0.857143</td>
1124 |       <td>0.0</td>
1125 |       <td>0.714286</td>
1126 |       <td>0.357143</td>
1127 |       <td>1.118034</td>
1128 |       <td>0.00</td>
1129 |       <td>0</td>
1130 |       <td>0</td>
1131 |     </tr>
1132 |     <tr>
1133 |       <th>313</th>
1134 |       <td>24</td>
1135 |       <td>David</td>
1136 |       <td>0</td>
1137 |       <td>0</td>
1138 |       <td>0</td>
1139 |       <td>0</td>
1140 |       <td>0.0</td>
1141 |       <td>0.285714</td>
1142 |       <td>1.0</td>
1143 |       <td>0.857143</td>
1144 |       <td>0.0</td>
1145 |       <td>0.714286</td>
1146 |       <td>0.428571</td>
1147 |       <td>1.151751</td>
1148 |       <td>0.00</td>
1149 |       <td>0</td>
1150 |       <td>0</td>
1151 |     </tr>
1152 |     <tr>
1153 |       <th>314</th>
1154 |       <td>24</td>
1155 |       <td>D.</td>
1156 |       <td>0</td>
1157 |       <td>0</td>
1158 |       <td>0</td>
1159 |       <td>0</td>
1160 |       <td>0.5</td>
1161 |       <td>0.428571</td>
1162 |       <td>1.0</td>
1163 |       <td>0.857143</td>
1164 |       <td>0.0</td>
1165 |       <td>0.714286</td>
1166 |       <td>0.575876</td>
1167 |       <td>0.658539</td>
1168 |       <td>0.00</td>
1169 |       <td>0</td>
1170 |       <td>0</td>
1171 |     </tr>
1172 |     <tr>
1173 |       <th>315</th>
1174 |       <td>24</td>
1175 |       <td>Jones</td>
1176 |       <td>0</td>
1177 |       <td>0</td>
1178 |       <td>0</td>
1179 |       <td>0</td>
1180 |       <td>0.5</td>
1181 |       <td>0.428571</td>
1182 |       <td>1.0</td>
1183 |       <td>0.857143</td>
1184 |       <td>0.0</td>
1185 |       <td>0.714286</td>
1186 |       <td>0.575876</td>
1187 |       <td>0.658539</td>
1188 |       <td>0.00</td>
1189 |       <td>0</td>
1190 |       <td>0</td>
1191 |     </tr>
1192 |     <tr>
1193 |       <th>316</th>
1194 |       <td>24</td>
1195 |       <td>D.</td>
1196 |       <td>0</td>
1197 |       <td>0</td>
1198 |       <td>0</td>
1199 |       <td>0</td>
1200 |       <td>0.5</td>
1201 |       <td>0.357143</td>
1202 |       <td>1.0</td>
1203 |       <td>0.857143</td>
1204 |       <td>0.0</td>
1205 |       <td>0.714286</td>
1206 |       <td>0.614452</td>
1207 |       <td>0.707107</td>
1208 |       <td>0.00</td>
1209 |       <td>0</td>
1210 |       <td>0</td>
1211 |     </tr>
1212 |     <tr>
1213 |       <th>317</th>
1214 |       <td>24</td>
1215 |       <td>Jones</td>
1216 |       <td>0</td>
1217 |       <td>0</td>
1218 |       <td>0</td>
1219 |       <td>0</td>
1220 |       <td>0.5</td>
1221 |       <td>0.357143</td>
1222 |       <td>1.0</td>
1223 |       <td>0.857143</td>
1224 |       <td>0.0</td>
1225 |       <td>0.714286</td>
1226 |       <td>0.614452</td>
1227 |       <td>0.707107</td>
1228 |       <td>0.00</td>
1229 |       <td>0</td>
1230 |       <td>0</td>
1231 |     </tr>
1232 |     <tr>
1233 |       <th>318</th>
1234 |       <td>24</td>
1235 |       <td>D.</td>
1236 |       <td>0</td>
1237 |       <td>0</td>
1238 |       <td>0</td>
1239 |       <td>0</td>
1240 |       <td>0.5</td>
1241 |       <td>0.285714</td>
1242 |       <td>1.0</td>
1243 |       <td>0.857143</td>
1244 |       <td>0.0</td>
1245 |       <td>0.714286</td>
1246 |       <td>0.658539</td>
1247 |       <td>0.759296</td>
1248 |       <td>0.00</td>
1249 |       <td>0</td>
1250 |       <td>0</td>
1251 |     </tr>
1252 |     <tr>
1253 |       <th>319</th>
1254 |       <td>24</td>
1255 |       <td>Jones</td>
1256 |       <td>0</td>
1257 |       <td>0</td>
1258 |       <td>0</td>
1259 |       <td>0</td>
1260 |       <td>0.5</td>
1261 |       <td>0.285714</td>
1262 |       <td>1.0</td>
1263 |       <td>0.857143</td>
1264 |       <td>0.0</td>
1265 |       <td>0.714286</td>
1266 |       <td>0.658539</td>
1267 |       <td>0.759296</td>
1268 |       <td>0.00</td>
1269 |       <td>0</td>
1270 |       <td>0</td>
1271 |     </tr>
1272 |     <tr>
1273 |       <th>320</th>
1274 |       <td>24</td>
1275 |       <td>Drug</td>
1276 |       <td>0</td>
1277 |       <td>0</td>
1278 |       <td>0</td>
1279 |       <td>0</td>
1280 |       <td>1.0</td>
1281 |       <td>0.214286</td>
1282 |       <td>1.0</td>
1283 |       <td>0.857143</td>
1284 |       <td>0.0</td>
1285 |       <td>0.714286</td>
1286 |       <td>1.118034</td>
1287 |       <td>0.642857</td>
1288 |       <td>0.00</td>
1289 |       <td>0</td>
1290 |       <td>0</td>
1291 |     </tr>
1292 |     <tr>
1293 |       <th>321</th>
1294 |       <td>24</td>
1295 |       <td>List</td>
1296 |       <td>0</td>
1297 |       <td>0</td>
1298 |       <td>0</td>
1299 |       <td>0</td>
1300 |       <td>1.0</td>
1301 |       <td>0.214286</td>
1302 |       <td>1.0</td>
1303 |       <td>0.857143</td>
1304 |       <td>0.0</td>
1305 |       <td>0.714286</td>
1306 |       <td>1.118034</td>
1307 |       <td>0.642857</td>
1308 |       <td>0.00</td>
1309 |       <td>0</td>
1310 |       <td>0</td>
1311 |     </tr>
1312 |     <tr>
1313 |       <th>322</th>
1314 |       <td>24</td>
1315 |       <td>RxBin</td>
1316 |       <td>0</td>
1317 |       <td>0</td>
1318 |       <td>0</td>
1319 |       <td>0</td>
1320 |       <td>1.0</td>
1321 |       <td>0.142857</td>
1322 |       <td>1.0</td>
1323 |       <td>0.857143</td>
1324 |       <td>0.0</td>
1325 |       <td>0.714286</td>
1326 |       <td>1.151751</td>
1327 |       <td>0.714286</td>
1328 |       <td>0.00</td>
1329 |       <td>0</td>
1330 |       <td>0</td>
1331 |     </tr>
1332 |     <tr>
1333 |       <th>323</th>
1334 |       <td>24</td>
1335 |       <td>RxGroup</td>
1336 |       <td>0</td>
1337 |       <td>0</td>
1338 |       <td>0</td>
1339 |       <td>0</td>
1340 |       <td>1.0</td>
1341 |       <td>0.071429</td>
1342 |       <td>1.0</td>
1343 |       <td>0.857143</td>
1344 |       <td>0.0</td>
1345 |       <td>0.714286</td>
1346 |       <td>1.188808</td>
1347 |       <td>0.785714</td>
1348 |       <td>0.00</td>
1349 |       <td>0</td>
1350 |       <td>0</td>
1351 |     </tr>
1352 |     <tr>
1353 |       <th>324</th>
1354 |       <td>24</td>
1355 |       <td>RxPCN</td>
1356 |       <td>0</td>
1357 |       <td>0</td>
1358 |       <td>0</td>
1359 |       <td>0</td>
1360 |       <td>1.0</td>
1361 |       <td>0.000000</td>
1362 |       <td>1.0</td>
1363 |       <td>0.857143</td>
1364 |       <td>0.0</td>
1365 |       <td>0.714286</td>
1366 |       <td>1.228904</td>
1367 |       <td>0.857143</td>
1368 |       <td>0.00</td>
1369 |       <td>0</td>
1370 |       <td>0</td>
1371 |     </tr>
1372 |     <tr>
1373 |       <th>325</th>
1374 |       <td>24</td>
1375 |       <td>XX</td>
1376 |       <td>0</td>
1377 |       <td>0</td>
1378 |       <td>0</td>
1379 |       <td>0</td>
1380 |       <td>1.0</td>
1381 |       <td>0.214286</td>
1382 |       <td>1.0</td>
1383 |       <td>0.857143</td>
1384 |       <td>0.0</td>
1385 |       <td>0.714286</td>
1386 |       <td>1.118034</td>
1387 |       <td>0.642857</td>
1388 |       <td>0.00</td>
1389 |       <td>0</td>
1390 |       <td>0</td>
1391 |     </tr>
1392 |     <tr>
1393 |       <th>326</th>
1394 |       <td>24</td>
1395 |       <td>00000</td>
1396 |       <td>0</td>
1397 |       <td>0</td>
1398 |       <td>0</td>
1399 |       <td>0</td>
1400 |       <td>1.0</td>
1401 |       <td>0.142857</td>
1402 |       <td>1.0</td>
1403 |       <td>0.857143</td>
1404 |       <td>0.0</td>
1405 |       <td>0.714286</td>
1406 |       <td>1.151751</td>
1407 |       <td>0.714286</td>
1408 |       <td>1.00</td>
1409 |       <td>0</td>
1410 |       <td>0</td>
1411 |     </tr>
1412 |     <tr>
1413 |       <th>327</th>
1414 |       <td>24</td>
1415 |       <td>00000000</td>
1416 |       <td>0</td>
1417 |       <td>0</td>
1418 |       <td>0</td>
1419 |       <td>0</td>
1420 |       <td>1.0</td>
1421 |       <td>0.071429</td>
1422 |       <td>1.0</td>
1423 |       <td>0.857143</td>
1424 |       <td>0.0</td>
1425 |       <td>0.714286</td>
1426 |       <td>1.188808</td>
1427 |       <td>0.785714</td>
1428 |       <td>1.00</td>
1429 |       <td>0</td>
1430 |       <td>0</td>
1431 |     </tr>
1432 |     <tr>
1433 |       <th>328</th>
1434 |       <td>24</td>
1435 |       <td>00000</td>
1436 |       <td>0</td>
1437 |       <td>0</td>
1438 |       <td>0</td>
1439 |       <td>0</td>
1440 |       <td>1.0</td>
1441 |       <td>0.000000</td>
1442 |       <td>1.0</td>
1443 |       <td>0.857143</td>
1444 |       <td>0.0</td>
1445 |       <td>0.714286</td>
1446 |       <td>1.228904</td>
1447 |       <td>0.857143</td>
1448 |       <td>1.00</td>
1449 |       <td>0</td>
1450 |       <td>0</td>
1451 |     </tr>
1452 |   </tbody>
1453 | </table>
1454 | </div>
1455 | 
1456 | 
1457 | 
1458 | 
1459 | ```python
1460 | 
1461 | ```
1462 | 
1463 | 
1464 | ```python
1465 | df3.loc[df3.card==2][['word','member_id','memberid_keyword','x_loc','y_loc', 'x_loc_member_keyword', 'y_loc_member_keyword', 'dist_member_id','frac_digit','pred_member']]
1466 | ```
1467 | 
1468 | 
1469 | 
1470 | 
1471 | <div>
1472 | <style scoped>
1473 |     .dataframe tbody tr th:only-of-type {
1474 |         vertical-align: middle;
1475 |     }
1476 | 
1477 |     .dataframe tbody tr th {
1478 |         vertical-align: top;
1479 |     }
1480 | 
1481 |     .dataframe thead th {
1482 |         text-align: right;
1483 |     }
1484 | </style>
1485 | <table border="1" class="dataframe">
1486 |   <thead>
1487 |     <tr style="text-align: right;">
1488 |       <th></th>
1489 |       <th>word</th>
1490 |       <th>member_id</th>
1491 |       <th>memberid_keyword</th>
1492 |       <th>x_loc</th>
1493 |       <th>y_loc</th>
1494 |       <th>x_loc_member_keyword</th>
1495 |       <th>y_loc_member_keyword</th>
1496 |       <th>dist_member_id</th>
1497 |       <th>frac_digit</th>
1498 |       <th>pred_member</th>
1499 |     </tr>
1500 |   </thead>
1501 |   <tbody>
1502 |     <tr>
1503 |       <th>0</th>
1504 |       <td>BlueCross</td>
1505 |       <td>0</td>
1506 |       <td>0</td>
1507 |       <td>0.0</td>
1508 |       <td>0.9375</td>
1509 |       <td>0.0</td>
1510 |       <td>0.6875</td>
1511 |       <td>0.250000</td>
1512 |       <td>0.000000</td>
1513 |       <td>0</td>
1514 |     </tr>
1515 |     <tr>
1516 |       <th>1</th>
1517 |       <td>BlueShield</td>
1518 |       <td>0</td>
1519 |       <td>0</td>
1520 |       <td>0.0</td>
1521 |       <td>0.9375</td>
1522 |       <td>0.0</td>
1523 |       <td>0.6875</td>
1524 |       <td>0.250000</td>
1525 |       <td>0.000000</td>
1526 |       <td>0</td>
1527 |     </tr>
1528 |     <tr>
1529 |       <th>2</th>
1530 |       <td>Subscriber</td>
1531 |       <td>0</td>
1532 |       <td>0</td>
1533 |       <td>0.0</td>
1534 |       <td>0.8125</td>
1535 |       <td>0.0</td>
1536 |       <td>0.6875</td>
1537 |       <td>0.125000</td>
1538 |       <td>0.000000</td>
1539 |       <td>0</td>
1540 |     </tr>
1541 |     <tr>
1542 |       <th>3</th>
1543 |       <td>(O):</td>
1544 |       <td>0</td>
1545 |       <td>0</td>
1546 |       <td>0.0</td>
1547 |       <td>0.8125</td>
1548 |       <td>0.0</td>
1549 |       <td>0.6875</td>
1550 |       <td>0.125000</td>
1551 |       <td>0.000000</td>
1552 |       <td>0</td>
1553 |     </tr>
1554 |     <tr>
1555 |       <th>4</th>
1556 |       <td>SMITH,</td>
1557 |       <td>0</td>
1558 |       <td>0</td>
1559 |       <td>0.0</td>
1560 |       <td>0.7500</td>
1561 |       <td>0.0</td>
1562 |       <td>0.6875</td>
1563 |       <td>0.062500</td>
1564 |       <td>0.000000</td>
1565 |       <td>0</td>
1566 |     </tr>
1567 |     <tr>
1568 |       <th>5</th>
1569 |       <td>JOHN</td>
1570 |       <td>0</td>
1571 |       <td>0</td>
1572 |       <td>0.0</td>
1573 |       <td>0.7500</td>
1574 |       <td>0.0</td>
1575 |       <td>0.6875</td>
1576 |       <td>0.062500</td>
1577 |       <td>0.000000</td>
1578 |       <td>0</td>
1579 |     </tr>
1580 |     <tr>
1581 |       <th>6</th>
1582 |       <td>Identification</td>
1583 |       <td>0</td>
1584 |       <td>1</td>
1585 |       <td>0.0</td>
1586 |       <td>0.6875</td>
1587 |       <td>0.0</td>
1588 |       <td>0.6875</td>
1589 |       <td>0.000000</td>
1590 |       <td>0.000000</td>
1591 |       <td>0</td>
1592 |     </tr>
1593 |     <tr>
1594 |       <th>7</th>
1595 |       <td>Number(3.5):</td>
1596 |       <td>0</td>
1597 |       <td>0</td>
1598 |       <td>0.0</td>
1599 |       <td>0.6875</td>
1600 |       <td>0.0</td>
1601 |       <td>0.6875</td>
1602 |       <td>0.000000</td>
1603 |       <td>0.166667</td>
1604 |       <td>0</td>
1605 |     </tr>
1606 |     <tr>
1607 |       <th>8</th>
1608 |       <td>ZGP123456789</td>
1609 |       <td>1</td>
1610 |       <td>0</td>
1611 |       <td>0.0</td>
1612 |       <td>0.6250</td>
1613 |       <td>0.0</td>
1614 |       <td>0.6875</td>
1615 |       <td>0.062500</td>
1616 |       <td>0.750000</td>
1617 |       <td>0</td>
1618 |     </tr>
1619 |     <tr>
1620 |       <th>9</th>
1621 |       <td>Group</td>
1622 |       <td>0</td>
1623 |       <td>0</td>
1624 |       <td>0.0</td>
1625 |       <td>0.5625</td>
1626 |       <td>0.0</td>
1627 |       <td>0.6875</td>
1628 |       <td>0.125000</td>
1629 |       <td>0.000000</td>
1630 |       <td>0</td>
1631 |     </tr>
1632 |     <tr>
1633 |       <th>10</th>
1634 |       <td>No:</td>
1635 |       <td>0</td>
1636 |       <td>0</td>
1637 |       <td>0.0</td>
1638 |       <td>0.5625</td>
1639 |       <td>0.0</td>
1640 |       <td>0.6875</td>
1641 |       <td>0.125000</td>
1642 |       <td>0.000000</td>
1643 |       <td>0</td>
1644 |     </tr>
1645 |     <tr>
1646 |       <th>11</th>
1647 |       <td>123456</td>
1648 |       <td>0</td>
1649 |       <td>0</td>
1650 |       <td>0.0</td>
1651 |       <td>0.5625</td>
1652 |       <td>0.0</td>
1653 |       <td>0.6875</td>
1654 |       <td>0.125000</td>
1655 |       <td>1.000000</td>
1656 |       <td>0</td>
1657 |     </tr>
1658 |     <tr>
1659 |       <th>12</th>
1660 |       <td>Effective</td>
1661 |       <td>0</td>
1662 |       <td>0</td>
1663 |       <td>0.0</td>
1664 |       <td>0.5000</td>
1665 |       <td>0.0</td>
1666 |       <td>0.6875</td>
1667 |       <td>0.187500</td>
1668 |       <td>0.000000</td>
1669 |       <td>0</td>
1670 |     </tr>
1671 |     <tr>
1672 |       <th>13</th>
1673 |       <td>01/01/13</td>
1674 |       <td>0</td>
1675 |       <td>0</td>
1676 |       <td>0.0</td>
1677 |       <td>0.5000</td>
1678 |       <td>0.0</td>
1679 |       <td>0.6875</td>
1680 |       <td>0.187500</td>
1681 |       <td>0.750000</td>
1682 |       <td>0</td>
1683 |     </tr>
1684 |     <tr>
1685 |       <th>14</th>
1686 |       <td>Plan</td>
1687 |       <td>0</td>
1688 |       <td>0</td>
1689 |       <td>0.0</td>
1690 |       <td>0.4375</td>
1691 |       <td>0.0</td>
1692 |       <td>0.6875</td>
1693 |       <td>0.250000</td>
1694 |       <td>0.000000</td>
1695 |       <td>0</td>
1696 |     </tr>
1697 |     <tr>
1698 |       <th>15</th>
1699 |       <td>Code:</td>
1700 |       <td>0</td>
1701 |       <td>0</td>
1702 |       <td>0.0</td>
1703 |       <td>0.4375</td>
1704 |       <td>0.0</td>
1705 |       <td>0.6875</td>
1706 |       <td>0.250000</td>
1707 |       <td>0.000000</td>
1708 |       <td>0</td>
1709 |     </tr>
1710 |     <tr>
1711 |       <th>16</th>
1712 |       <td>BC</td>
1713 |       <td>0</td>
1714 |       <td>0</td>
1715 |       <td>0.0</td>
1716 |       <td>0.4375</td>
1717 |       <td>0.0</td>
1718 |       <td>0.6875</td>
1719 |       <td>0.250000</td>
1720 |       <td>0.000000</td>
1721 |       <td>0</td>
1722 |     </tr>
1723 |     <tr>
1724 |       <th>17</th>
1725 |       <td>400</td>
1726 |       <td>0</td>
1727 |       <td>0</td>
1728 |       <td>0.0</td>
1729 |       <td>0.4375</td>
1730 |       <td>0.0</td>
1731 |       <td>0.6875</td>
1732 |       <td>0.250000</td>
1733 |       <td>1.000000</td>
1734 |       <td>0</td>
1735 |     </tr>
1736 |     <tr>
1737 |       <th>18</th>
1738 |       <td>BS</td>
1739 |       <td>0</td>
1740 |       <td>0</td>
1741 |       <td>0.0</td>
1742 |       <td>0.4375</td>
1743 |       <td>0.0</td>
1744 |       <td>0.6875</td>
1745 |       <td>0.250000</td>
1746 |       <td>0.000000</td>
1747 |       <td>0</td>
1748 |     </tr>
1749 |     <tr>
1750 |       <th>19</th>
1751 |       <td>900</td>
1752 |       <td>0</td>
1753 |       <td>0</td>
1754 |       <td>0.0</td>
1755 |       <td>0.4375</td>
1756 |       <td>0.0</td>
1757 |       <td>0.6875</td>
1758 |       <td>0.250000</td>
1759 |       <td>1.000000</td>
1760 |       <td>0</td>
1761 |     </tr>
1762 |     <tr>
1763 |       <th>20</th>
1764 |       <td>Rx</td>
1765 |       <td>0</td>
1766 |       <td>0</td>
1767 |       <td>1.0</td>
1768 |       <td>0.3125</td>
1769 |       <td>0.0</td>
1770 |       <td>0.6875</td>
1771 |       <td>1.068000</td>
1772 |       <td>0.000000</td>
1773 |       <td>0</td>
1774 |     </tr>
1775 |     <tr>
1776 |       <th>21</th>
1777 |       <td>PCN</td>
1778 |       <td>0</td>
1779 |       <td>0</td>
1780 |       <td>1.0</td>
1781 |       <td>0.3125</td>
1782 |       <td>0.0</td>
1783 |       <td>0.6875</td>
1784 |       <td>1.068000</td>
1785 |       <td>0.000000</td>
1786 |       <td>0</td>
1787 |     </tr>
1788 |     <tr>
1789 |       <th>22</th>
1790 |       <td>OV/SPC</td>
1791 |       <td>0</td>
1792 |       <td>0</td>
1793 |       <td>1.0</td>
1794 |       <td>0.2500</td>
1795 |       <td>0.0</td>
1796 |       <td>0.6875</td>
1797 |       <td>1.091516</td>
1798 |       <td>0.000000</td>
1799 |       <td>0</td>
1800 |     </tr>
1801 |     <tr>
1802 |       <th>23</th>
1803 |       <td>Emergency</td>
1804 |       <td>0</td>
1805 |       <td>0</td>
1806 |       <td>1.0</td>
1807 |       <td>0.1875</td>
1808 |       <td>0.0</td>
1809 |       <td>0.6875</td>
1810 |       <td>1.118034</td>
1811 |       <td>0.000000</td>
1812 |       <td>0</td>
1813 |     </tr>
1814 |     <tr>
1815 |       <th>24</th>
1816 |       <td>Rx</td>
1817 |       <td>0</td>
1818 |       <td>0</td>
1819 |       <td>1.0</td>
1820 |       <td>0.1250</td>
1821 |       <td>0.0</td>
1822 |       <td>0.6875</td>
1823 |       <td>1.147347</td>
1824 |       <td>0.000000</td>
1825 |       <td>0</td>
1826 |     </tr>
1827 |     <tr>
1828 |       <th>25</th>
1829 |       <td>Deductible</td>
1830 |       <td>0</td>
1831 |       <td>0</td>
1832 |       <td>1.0</td>
1833 |       <td>0.1250</td>
1834 |       <td>0.0</td>
1835 |       <td>0.6875</td>
1836 |       <td>1.147347</td>
1837 |       <td>0.000000</td>
1838 |       <td>0</td>
1839 |     </tr>
1840 |     <tr>
1841 |       <th>26</th>
1842 |       <td>Rx</td>
1843 |       <td>0</td>
1844 |       <td>0</td>
1845 |       <td>1.0</td>
1846 |       <td>0.0625</td>
1847 |       <td>0.0</td>
1848 |       <td>0.6875</td>
1849 |       <td>1.179248</td>
1850 |       <td>0.000000</td>
1851 |       <td>0</td>
1852 |     </tr>
1853 |     <tr>
1854 |       <th>27</th>
1855 |       <td>Copay</td>
1856 |       <td>0</td>
1857 |       <td>0</td>
1858 |       <td>1.0</td>
1859 |       <td>0.0625</td>
1860 |       <td>0.0</td>
1861 |       <td>0.6875</td>
1862 |       <td>1.179248</td>
1863 |       <td>0.000000</td>
1864 |       <td>0</td>
1865 |     </tr>
1866 |     <tr>
1867 |       <th>28</th>
1868 |       <td>Gen</td>
1869 |       <td>0</td>
1870 |       <td>0</td>
1871 |       <td>1.0</td>
1872 |       <td>0.0625</td>
1873 |       <td>0.0</td>
1874 |       <td>0.6875</td>
1875 |       <td>1.179248</td>
1876 |       <td>0.000000</td>
1877 |       <td>0</td>
1878 |     </tr>
1879 |     <tr>
1880 |       <th>29</th>
1881 |       <td>Rx</td>
1882 |       <td>0</td>
1883 |       <td>0</td>
1884 |       <td>1.0</td>
1885 |       <td>0.0000</td>
1886 |       <td>0.0</td>
1887 |       <td>0.6875</td>
1888 |       <td>1.213530</td>
1889 |       <td>0.000000</td>
1890 |       <td>0</td>
1891 |     </tr>
1892 |     <tr>
1893 |       <th>30</th>
1894 |       <td>copay</td>
1895 |       <td>0</td>
1896 |       <td>0</td>
1897 |       <td>1.0</td>
1898 |       <td>0.0000</td>
1899 |       <td>0.0</td>
1900 |       <td>0.6875</td>
1901 |       <td>1.213530</td>
1902 |       <td>0.000000</td>
1903 |       <td>0</td>
1904 |     </tr>
1905 |     <tr>
1906 |       <th>31</th>
1907 |       <td>Br</td>
1908 |       <td>0</td>
1909 |       <td>0</td>
1910 |       <td>1.0</td>
1911 |       <td>0.0000</td>
1912 |       <td>0.0</td>
1913 |       <td>0.6875</td>
1914 |       <td>1.213530</td>
1915 |       <td>0.000000</td>
1916 |       <td>0</td>
1917 |     </tr>
1918 |     <tr>
1919 |       <th>32</th>
1920 |       <td>11552</td>
1921 |       <td>0</td>
1922 |       <td>0</td>
1923 |       <td>1.0</td>
1924 |       <td>0.3750</td>
1925 |       <td>0.0</td>
1926 |       <td>0.6875</td>
1927 |       <td>1.047691</td>
1928 |       <td>1.000000</td>
1929 |       <td>0</td>
1930 |     </tr>
1931 |     <tr>
1932 |       <th>33</th>
1933 |       <td>BCIL</td>
1934 |       <td>0</td>
1935 |       <td>0</td>
1936 |       <td>1.0</td>
1937 |       <td>0.3125</td>
1938 |       <td>0.0</td>
1939 |       <td>0.6875</td>
1940 |       <td>1.068000</td>
1941 |       <td>0.000000</td>
1942 |       <td>0</td>
1943 |     </tr>
1944 |     <tr>
1945 |       <th>34</th>
1946 |       <td>$20/$40</td>
1947 |       <td>0</td>
1948 |       <td>0</td>
1949 |       <td>1.0</td>
1950 |       <td>0.2500</td>
1951 |       <td>0.0</td>
1952 |       <td>0.6875</td>
1953 |       <td>1.091516</td>
1954 |       <td>0.571429</td>
1955 |       <td>0</td>
1956 |     </tr>
1957 |     <tr>
1958 |       <th>35</th>
1959 |       <td>200</td>
1960 |       <td>0</td>
1961 |       <td>0</td>
1962 |       <td>1.0</td>
1963 |       <td>0.1875</td>
1964 |       <td>0.0</td>
1965 |       <td>0.6875</td>
1966 |       <td>1.118034</td>
1967 |       <td>1.000000</td>
1968 |       <td>0</td>
1969 |     </tr>
1970 |     <tr>
1971 |       <th>36</th>
1972 |       <td>50</td>
1973 |       <td>0</td>
1974 |       <td>0</td>
1975 |       <td>1.0</td>
1976 |       <td>0.1250</td>
1977 |       <td>0.0</td>
1978 |       <td>0.6875</td>
1979 |       <td>1.147347</td>
1980 |       <td>1.000000</td>
1981 |       <td>0</td>
1982 |     </tr>
1983 |     <tr>
1984 |       <th>37</th>
1985 |       <td>$100/120</td>
1986 |       <td>0</td>
1987 |       <td>0</td>
1988 |       <td>1.0</td>
1989 |       <td>0.0625</td>
1990 |       <td>0.0</td>
1991 |       <td>0.6875</td>
1992 |       <td>1.179248</td>
1993 |       <td>0.750000</td>
1994 |       <td>0</td>
1995 |     </tr>
1996 |     <tr>
1997 |       <th>38</th>
1998 |       <td>$100/200/300</td>
1999 |       <td>0</td>
2000 |       <td>0</td>
2001 |       <td>1.0</td>
2002 |       <td>0.0000</td>
2003 |       <td>0.0</td>
2004 |       <td>0.6875</td>
2005 |       <td>1.213530</td>
2006 |       <td>0.750000</td>
2007 |       <td>0</td>
2008 |     </tr>
2009 |   </tbody>
2010 | </table>
2011 | </div>
2012 | 
2013 | 
2014 | 
2015 | 
2016 | ```python
2017 | 
2018 | ```
2019 | 
2020 | 
2021 | ```python
2022 | 
2023 | ```
2024 | 
2025 | 
2026 | ```python
2027 | 
2028 | ```
2029 | 
2030 | > “For decades, machine learning approaches targeting Natural Language Processing problems have been based on shallow models (e.g., SVM and logistic regression) trained on very high dimensional and sparse features. In the last few years, neural networks based on dense vector representations have been producing superior results on various NLP tasks. This trend is sparked by the success of word embeddings and deep learning methods.” [1]
2031 | 
2032 | We are using the old technique due to:  
2033 | 1. little data  
2034 | 2. data isn't really "natural language." It involves text but is less natural, and less fluid, more structured.
2035 | 
2036 | Source: [here](https://medium.com/@martinpella/how-to-use-pre-trained-word-embeddings-in-pytorch-71ca59249f76)
2037 | 
2038 | ### Upload Data
2039 | 
2040 | 
2041 | ```python
2042 | # deprecated
2043 | # first four sample
2044 | #tree = ET.parse('Card Samples/Scan02-15-2019 11 44 21.xml')
2045 | #root = tree.getroot()
2046 | 
2047 | # second set of samples
2048 | #tree2 = ET.parse('Card Samples/Scan02-15-2019 11 44 21.xml')
2049 | #root2 = tree2.getroot()
2050 | ```
2051 | 
2052 | ### Extract Text
2053 | 
2054 | 
2055 | ```python
2056 | # findall looks only one level down
2057 | # root[1][0][0][0][0][3].findall('w:t', ns)[0].text
2058 | ```
2059 | 
2060 | This function returns a dictionary of the namespaces in the xml file. The namespace map is needed to extract the text later.
2061 | 
2062 | 
2063 | ```python
2064 | # Example 2: https://www.programcreek.com/python/example/77333/xml.etree.ElementTree.iterparse
2065 | 
2066 | # get namespaces
2067 | def xml_parse(xml_file):
2068 |     """
2069 |     Parse an XML file, returns a tree of nodes and a dict of namespaces
2070 |     :param xml_file: the input XML file
2071 |     :returns: (doc, ns_map)
2072 |     """
2073 |     root = None
2074 |     ns_map = {} # prefix -> ns_uri
2075 |     for event, elem in ET.iterparse(xml_file, ['start-ns', 'start', 'end']):
2076 |         if event == 'start-ns':
2077 |             # elem = (prefix, ns_uri)
2078 |             ns_map[elem[0]] = elem[1]
2079 |         elif event == 'start':
2080 |             if root is None:
2081 |                 root = elem
2082 |     for prefix, uri in ns_map.items():
2083 |         ET.register_namespace(prefix, uri)
2084 |         
2085 |     return (ET.ElementTree(root), ns_map)
2086 | ```
2087 | 
2088 | This function extracts the text.
2089 | 
2090 | 
2091 | ```python
2092 | def words_from_root(file_path, xml_file):
2093 |     """
2094 |     Extract text from xml file
2095 |     Params:
2096 |         file_path: path to files
2097 |         xml_file: xml file to be parsed
2098 |     Returns:
2099 |         List of text in the xml
2100 |     """
2101 |     # create ElementTree object
2102 |     tree = ET.parse(file_path + '/' + xml_file)
2103 |     root = tree.getroot()
2104 |     
2105 |     # create namespace map, for parsing
2106 |     doc, ns_map = xml_parse(file_path + '/' + xml_file)
2107 |     
2108 |     # initialize output (list of text)
2109 |     words = []
2110 |     
2111 |     # iterate recursivley over current element and all elements below it
2112 |     for elem in root.iter():
2113 |         #find elements of with tag name "w:t"
2114 |         hts = elem.findall('w:t', ns_map)   
2115 |         
2116 |         # if any found, append
2117 |         if hts:
2118 |             words.append(hts[0].text) 
2119 |     return words
2120 | ```
2121 | 
2122 | Extract text from the four sample cards.
2123 | 
2124 | 
2125 | ```python
2126 | #from insurance_card_prediction import xml_parse, words_from_root
2127 | ```
2128 | 
2129 | 
2130 | ```python
2131 | # List of files
2132 | file_path = "Card Samples/renamed copies"
2133 | dirs = os.listdir(file_path)
2134 | 
2135 | words_on_card = {}
2136 | 
2137 | # Extract text
2138 | for file in dirs:
2139 |     words_on_card[file] = words_from_root(file_path, file)
2140 |     
2141 | # remove card6.xml. OCR is not good enough
2142 | del words_on_card['card6.xml']
2143 | ```
2144 | 
2145 | ### Tokenization
2146 | * These strings are all from the same line. Let's separate words into a bag-of-words for each card.  
2147 | * Link: https://www.nltk.org/book/ch03.html
2148 | 
2149 | Lines of words to bag-of-words
2150 | 
2151 | 
2152 | ```python
2153 | bag_of_words = {}
2154 | 
2155 | # turn lines-of-words into words
2156 | 
2157 | # for each xml file
2158 | for key in sorted(words_on_card.keys()):
2159 |     bag = []
2160 |     # for each line in the XML
2161 |     for i, line in enumerate(words_on_card[key]):
2162 |         if i == 0:
2163 |             l = words_on_card[key][i:i+3]  # choose two nearest lines (five total)
2164 |         elif i == 1:
2165 |             l = words_on_card[key][i-1:i+3]
2166 |         else:
2167 |             l = words_on_card[key][i-2:i+3]
2168 |         l = ' '.join(l)
2169 |         #print(i, l)
2170 |         
2171 |         list_of_words_on_line = nltk.word_tokenize(line)
2172 |         for word in list_of_words_on_line:
2173 |             # save word with all words on its line
2174 |             bag.append((word, l))
2175 |             #if 'Group' in word:
2176 |                 #print(l)
2177 |     bag_of_words[key] = bag
2178 | ```
2179 | 
2180 | * Separating the words throws away information about the surrounding words. For example, 'Eric Davidson' turns into 'Eric' and 'Davidson', and they can never be rejoined. Similary, the words "Delta Dental of Illinois" should all be together, but they will be separated.
2181 | * To start, I will ignore this complication and simply try to build a classifier to tell if a word is a _name_ or not.
2182 | 
2183 | ## Name Classifier
2184 | 1. Combine words from all four samples into one big bag-of-words.
2185 | 2. Label words as "name" or not.
2186 | 3. Augment the dataset with extra words and names.
2187 | 
2188 | 
2189 | ```python
2190 | # 1. Combine words from all four samples
2191 | word_bag = []
2192 | for key in bag_of_words:
2193 |     word_bag += bag_of_words[key]
2194 | ```
2195 | 
2196 | ### Target Variables
2197 | * Member name
2198 | * Group ID
2199 | * Member ID
2200 | 
2201 | Label the data.
2202 | 
2203 | 
2204 | ```python
2205 | # Label words (name/not name)
2206 | for i, word in enumerate(word_bag):
2207 |     pass #if i in ind_list_group_ids:
2208 |         #print(i, word[0], word[1])
2209 | ```
2210 | 
2211 | 
2212 | ```python
2213 | # list of names
2214 | ind_list_names = [153,154,156,158,269,270,455,456,605,607,609,610,611,612,613,614,647,649,698,701,719,720,721, \
2215 |                   722,723,724, 738,740,815,816,864,865,886,887,888,890,892,894,952,1032,1033,1034,1094,1095,1096, \
2216 |                   1128,1129,1130,1190,1191,1192,1240,1241,1276,1277,1278,1326,1327,1328,1402,14031438,1439,1440, \
2217 |                   1441,1462,1463,1468,1498,1500,1577,1579,1580,1641,1642,1694,1696,1749,1750,1790,1791,1845,1846, \
2218 |                   1961,1962,2005,2006,2034,2041,2043,2092,2094] # Name, Member, ID
2219 | #ind_list_names_suspect = [647,649,701,719,720,721,722,723,724,740]
2220 | target_name = [1 if i in ind_list_names else 0 for i in range(len(word_bag))]
2221 | 
2222 | # list of group IDs
2223 | ind_list_group_ids = [142,483,619,662,683,770,804,860,972,1029,1197,1229,1425,1762,1805,1870,1982,2034,2050,2132] # Group, Number
2224 | #ind_list_group_ids_suspect = [662,683,804,860,972]
2225 | target_group_id = [1 if i in ind_list_group_ids else 0 for i in range(len(word_bag))]
2226 | 
2227 | # list of member IDs
2228 | ind_list_member_ids = [149,150,274,460,602,653,704,708,710,715,743,744,812,868,915,947,1025,1154,1155,1236,1237,1318,1405,1444, \
2229 |                        1524,1525,1603,1754,1755,1788,1839,1912,1958,2003,2047,2086,2115] # Member , ID
2230 | #ind_list_member_ids_suspect = [653,704,708,701,715,743,744,812,868,915,947] 
2231 | target_member_id = [1 if i in ind_list_member_ids else 0 for i in range(len(word_bag))]
2232 | ```
2233 | 
2234 | The names from the dataset come as all UPPERCASE. This makes the model predict _name_ for any word with an uppercase letter. To avoid given this easy tell, change the original names to the same case as the simulated names: uppercase first letter and rest lower.
2235 | 
2236 | Fix case of the true names.
2237 | 
2238 | 
2239 | ```python
2240 | # Change names from ALL UPPERCASE to Capitalize (only first letter)
2241 | word_bag_cap = []
2242 | for i, tup in enumerate(word_bag):
2243 |     if i in ind_list_names:
2244 |         name_cap = tup[0].capitalize()
2245 |         tup = (name_cap, tup[1])
2246 |         word_bag_cap.append(tup)
2247 |     else:
2248 |         word_bag_cap.append(tup)
2249 | ```
2250 | 
2251 | Turn the data into a Pandas dataframe.
2252 | 
2253 | 
2254 | ```python
2255 | # create dataframe
2256 | df = pd.DataFrame(index=[tup[0] for tup in word_bag_cap])
2257 | 
2258 | df = df.assign(target_name=target_name)
2259 | df = df.assign(target_group_id=target_group_id)
2260 | df = df.assign(target_member_id=target_member_id)
2261 | df = df.assign(words_in_line=[tup[1] for tup in word_bag_cap])
2262 | ```
2263 | 
2264 | 
2265 | ```python
2266 | df.head()
2267 | ```
2268 | 
2269 | 
2270 | 
2271 | 
2272 | <div>
2273 | <style scoped>
2274 |     .dataframe tbody tr th:only-of-type {
2275 |         vertical-align: middle;
2276 |     }
2277 | 
2278 |     .dataframe tbody tr th {
2279 |         vertical-align: top;
2280 |     }
2281 | 
2282 |     .dataframe thead th {
2283 |         text-align: right;
2284 |     }
2285 | </style>
2286 | <table border="1" class="dataframe">
2287 |   <thead>
2288 |     <tr style="text-align: right;">
2289 |       <th></th>
2290 |       <th>target_name</th>
2291 |       <th>target_group_id</th>
2292 |       <th>target_member_id</th>
2293 |       <th>words_in_line</th>
2294 |     </tr>
2295 |   </thead>
2296 |   <tbody>
2297 |     <tr>
2298 |       <th>www.aetna.com</th>
2299 |       <td>0</td>
2300 |       <td>0</td>
2301 |       <td>0</td>
2302 |       <td>www.aetna.com PAYER NUMBER 60054 0735 Informed...</td>
2303 |     </tr>
2304 |     <tr>
2305 |       <th>PAYER</th>
2306 |       <td>0</td>
2307 |       <td>0</td>
2308 |       <td>0</td>
2309 |       <td>www.aetna.com PAYER NUMBER 60054 0735 Informed...</td>
2310 |     </tr>
2311 |     <tr>
2312 |       <th>NUMBER</th>
2313 |       <td>0</td>
2314 |       <td>0</td>
2315 |       <td>0</td>
2316 |       <td>www.aetna.com PAYER NUMBER 60054 0735 Informed...</td>
2317 |     </tr>
2318 |     <tr>
2319 |       <th>60054</th>
2320 |       <td>0</td>
2321 |       <td>0</td>
2322 |       <td>0</td>
2323 |       <td>www.aetna.com PAYER NUMBER 60054 0735 Informed...</td>
2324 |     </tr>
2325 |     <tr>
2326 |       <th>0735</th>
2327 |       <td>0</td>
2328 |       <td>0</td>
2329 |       <td>0</td>
2330 |       <td>www.aetna.com PAYER NUMBER 60054 0735 Informed...</td>
2331 |     </tr>
2332 |   </tbody>
2333 | </table>
2334 | </div>
2335 | 
2336 | 
2337 | 
2338 | 
2339 | ```python
2340 | # number of "names"
2341 | print('There are', df.target_name.sum(), 'names out of', df.shape[0], 'words.', round(df.target_name.sum()/df.shape[0],3), 'percent.')
2342 | ```
2343 | 
2344 |     There are 90 names out of 2204 words. 0.041 percent.
2345 | 
2346 | 
2347 | # Features
2348 | 
2349 | 
2350 | ```python
2351 | def create_features(df):
2352 |     """
2353 |     Creates features from words
2354 |         Args: dataframe with words as the indices
2355 |         Returns: dataframe with the new features
2356 |     """
2357 |     
2358 |     length = []
2359 |     frac_alpha = []
2360 |     frac_alpha_upper = []
2361 |     frac_alpha_lower = []
2362 |     frac_digit = []
2363 |     frac_punc = []
2364 |     frac_punc_dashes = []
2365 |     frac_punc_periods = []
2366 |     name_keywords_ind = []
2367 |     groupid_keywords_ind = []
2368 |     memberid_keywords_ind = []
2369 |     five_or_more_digits = []
2370 | 
2371 |     # iterate down rows
2372 |     for index, row in df.iterrows():
2373 |         
2374 |         leng = len(index)
2375 |         length.append(leng)
2376 |         frac_alpha.append(sum([1 for char in index if char.isalpha()]) / leng)
2377 |         frac_alpha_upper.append(sum([1 for char in index if (char.isalpha() and char.isupper())]) / leng)
2378 |         frac_alpha_lower.append(sum([1 for char in index if (char.isalpha() and char.islower())]) / leng)
2379 |         frac_digit.append(sum([1 for char in index if char.isdigit()]) / leng)
2380 |         
2381 |         count = lambda l1,l2: sum([1 for x in l1 if x in l2])
2382 |         frac_punc.append( count(index,set(string.punctuation)) / leng) 
2383 |         frac_punc_dashes.append( count(index,set(["-"])) / leng) 
2384 |         frac_punc_periods.append( count(index,set(["."])) / leng)
2385 |         
2386 |         words_in_line = row.words_in_line.split()
2387 |         words_in_line_wo_punc = [word.translate(str.maketrans('', '', string.punctuation)) for word in words_in_line]
2388 |         
2389 |         name_keywords_ind.append(  sum([1 for word in words_in_line_wo_punc if word.lower() in ['name','member','id']]) >= 1  )
2390 |         groupid_keywords_ind.append(  sum([1 for word in words_in_line_wo_punc if word.lower() in ['group', 'grp']]) >=1  )
2391 |         memberid_keywords_ind.append(  sum([1 for word in words_in_line_wo_punc if word.lower() in ['member', 'id']]) >=1  )
2392 |         
2393 |         five_or_more_digits.append(sum([1 for char in index if char.isdigit()]) >=5)
2394 | 
2395 |     # add simulated=0 if not there already
2396 |     if 'simulated' not in df.columns:
2397 |         df = df.assign(simulated = df.shape[0]*[0])
2398 |     
2399 |     # find length of each string
2400 |     df = df.assign(length=length);
2401 | 
2402 |     # add new columns
2403 |     df = df.assign(frac_alpha=frac_alpha)
2404 |     df = df.assign(frac_alpha_upper=frac_alpha_upper)
2405 |     df = df.assign(frac_alpha_lower=frac_alpha_lower)
2406 |     df = df.assign(frac_digit=frac_digit)
2407 |     df = df.assign(frac_punc=frac_punc)
2408 |     df = df.assign(frac_punc_dashes=frac_punc_dashes)
2409 |     df = df.assign(frac_punc_periods=frac_punc_periods)
2410 |     df = df.assign(name_keywords_ind=name_keywords_ind)
2411 |     df = df.assign(groupid_keywords_ind=groupid_keywords_ind)
2412 |     df = df.assign(memberid_keywords_ind=memberid_keywords_ind)
2413 |     df = df.assign(five_or_more_digits=five_or_more_digits)
2414 |     
2415 |     # check NLTK's corpus of names: https://www.cs.cmu.edu/Groups/AI/areas/nlp/corpora/names/0.html
2416 |     # THIS IS CHEATING
2417 |     #df = df.assign(in_nltk_corpus=[1 if word.capitalize() in names.words() else 0 for word in df.index.values])
2418 |     
2419 |     return df
2420 | ```
2421 | 
2422 | 
2423 | ```python
2424 | #from insurance_card_prediction import create_features
2425 | ```
2426 | 
2427 | 
2428 | ```python
2429 | # create features
2430 | df = create_features(df)
2431 | ```
2432 | 
2433 | # Simulate Data
2434 | 
2435 | 1) Names  
2436 | 2) Group IDs  
2437 | 3) Member IDs  
2438 | 
2439 | * The labels are highly imbalanced; only 0.025% of examples are "names." I will add more names to the dataset. Names are very easy to sample from since we know what realistic names are, unlike some other variables.  
2440 | * Sample uniformly from top-10 names from 1960s
2441 | 
2442 | 
2443 | ```python
2444 | def simulate_data(df, targets=['group IDs']):
2445 |     """
2446 |     Simulates names by sampling uniformly from top-10 baby names from 1960s
2447 |         Args: 
2448 |             df: dataframe
2449 |             targets: list of strings of the target variables to simulate
2450 |             
2451 |         Returns: dataframe augmented with more names
2452 |     """
2453 |     
2454 |     # SIMULATE NAMES
2455 |     if 'names' in targets:
2456 |         print('Simulating names')
2457 |         # names https://www.ssa.gov/oact/babynames/decades/names1960s.html
2458 |         male_names = ['Michael','David','John','James','Robert'	,'Mark','William','Richard','Thomas','Jeffrey']	              
2459 |         female_names = ['Lisa','Mary','Susan','Karen','Kimberly','Patricia','Linda','Donna','Michelle','Cynthia']
2460 |         all_names = male_names+female_names
2461 | 
2462 |         # generate samples
2463 |         num_samples = 611
2464 |         np.random.seed(102)
2465 |         new_names = np.random.choice(a=all_names, size=num_samples)
2466 |         new_names1 = []
2467 | 
2468 |         # randomly change the capitalization (UPPER, lower, Capital)
2469 |         for i, name in enumerate(new_names):
2470 |             j = np.random.choice(2)
2471 |             if j == 0:
2472 |                 new_names1.append(name.lower())
2473 |             elif j == 1:
2474 |                 new_names1.append(name.upper())
2475 |             else:
2476 |                 new_names1.append(name)
2477 | 
2478 |         # dataframe with new samples
2479 |         df2 = pd.DataFrame(index=new_names1)
2480 |         df2 = df2.assign(target_name=num_samples*[1.])
2481 |         df2 = df2.assign(target_group_id=num_samples*[0.])
2482 |         df2 = df2.assign(target_member_id=num_samples*[0.])
2483 |         
2484 |         df = df.append(df2)
2485 |     
2486 |     
2487 |     # SIMULATE GROUP IDS
2488 |     if 'group IDs' in targets:
2489 |         print('Simulating Group IDs')
2490 |         
2491 |         # list group IDs
2492 |         grp_ids = list(df.loc[df.target_group_id==1].index)
2493 |         
2494 |         # bring ratio to 40% balance of group IDs
2495 |         num_new_grp_ids = int((2*df.shape[0] - 5*len(grp_ids))/3)
2496 |         
2497 |         # for new words
2498 |         new_grp_ids = []
2499 |         
2500 |         np.random.seed(102)
2501 |         # to replace alpha character randomly
2502 |         replace_word = lambda w: random.choice(string.ascii_uppercase) if w.isupper() else random.choice(string.ascii_lowercase)
2503 |         
2504 |         # enough to reach 40%
2505 |         for i in range(int(num_new_grp_ids)):
2506 |         
2507 |             # randomly select Group ID to copy
2508 |             grp_id_to_copy = random.choice(grp_ids)
2509 |             
2510 |             # copy Group ID
2511 |             new_grp_ids.append(''.join([random.choice(string.digits) if char.isdigit() else replace_word(char) if char.isalpha() else char for char in grp_id_to_copy]))
2512 |         
2513 |         # create new dataframe
2514 |         df3 = pd.DataFrame(index=new_grp_ids)
2515 |         df3 = df3.assign(target_name=num_new_grp_ids*[0.])
2516 |         df3 = df3.assign(target_group_id=num_new_grp_ids*[1.])   # all ones
2517 |         df3 = df3.assign(target_member_id=num_new_grp_ids*[0.])
2518 |         df3 = df3.assign(words_in_line=new_grp_ids)  # lines by themselves (no neighbors)
2519 |         df3 = df3.assign(simulated=df3.shape[0]*[1.])  # simulated=1
2520 |         
2521 |         # append new df to old df
2522 |         df = df.append(df3)[df.columns.tolist()]
2523 |         
2524 |     
2525 |     # SIMULATE MEMBER IDS
2526 |     if 'member IDs' in targets:
2527 |         print('Simulating Member IDs')
2528 |         # list member IDs
2529 |         member_ids = list(df.loc[df.target_member_id==1].index)
2530 |         
2531 |         # bring ratio to 40% balance of group IDs
2532 |         num_new_member_ids = int((2*df.shape[0] - 5*len(member_ids))/3)
2533 |         
2534 |         # for new words
2535 |         new_member_ids = []
2536 |         
2537 |         np.random.seed(102)
2538 |         # to replace alpha character randomly
2539 |         replace_word = lambda w: random.choice(string.ascii_uppercase) if w.isupper() else random.choice(string.ascii_lowercase)
2540 |         
2541 |         # enough to reach 40%
2542 |         for i in range(int(num_new_member_ids)):
2543 |         
2544 |             # randomly select member ID to copy
2545 |             member_id_to_copy = random.choice(member_ids)
2546 |             
2547 |             # copy Group ID
2548 |             new_member_ids.append(''.join([random.choice(string.digits) if char.isdigit() else replace_word(char) if char.isalpha() else char for char in member_id_to_copy]))
2549 |         
2550 |         # create new dataframe
2551 |         df4 = pd.DataFrame(index=new_member_ids)
2552 |         df4 = df4.assign(target_name=num_new_member_ids*[0.])
2553 |         df4 = df4.assign(target_group_id=num_new_member_ids*[0.])
2554 |         df4 = df4.assign(target_member_id=num_new_member_ids*[1.])  # all ones
2555 |         df4 = df4.assign(words_in_line=new_member_ids)  # lines by themselves (no neighbors)
2556 |         df4 = df4.assign(simulated=df4.shape[0]*[1.])  # simulated=1
2557 |         
2558 |         # append new df to old df
2559 |         df = df.append(df4)[df.columns.tolist()]
2560 |     
2561 |     return df
2562 | ```
2563 | 
2564 | Simulate desired data.
2565 | 
2566 | 
2567 | ```python
2568 | #from insurance_card_prediction import simulate_data_1
2569 | 
2570 | #simulate data (BOTH group IDs and member IDs)
2571 | df1 = simulate_data(df, ['group IDs','member IDs'])
2572 | #df1 = df.copy()
2573 | ```
2574 | 
2575 |     Simulating Group IDs
2576 |     Simulating Member IDs
2577 | 
2578 | 
2579 | Create features for the new rows.
2580 | 
2581 | 
2582 | ```python
2583 | # create features for new rows
2584 | df2 = create_features(df1)
2585 | ```
2586 | 
2587 | # Modeling
2588 | 
2589 | ## Prepare Data
2590 | 
2591 | 1. Standardize the numeric cariables
2592 | 2. One-hot encode the categorical variables
2593 | 
2594 | 
2595 | ```python
2596 | # https://jorisvandenbossche.github.io/blog/2018/05/28/scikit-learn-columntransformer/
2597 | from sklearn.preprocessing import StandardScaler, OneHotEncoder, LabelEncoder, LabelBinarizer
2598 | from sklearn.compose import ColumnTransformer, make_column_transformer
2599 | 
2600 | numerical_columns = df2.columns[5:13].tolist()  # add LENGTH (5)
2601 | categorical_columns = df2.columns[[4,13,14,15,16]].tolist()  # remove LENGTH (5)
2602 | 
2603 | from sklearn.base import TransformerMixin #gives fit_transform method for free
2604 | 
2605 | class MyLabelBinarizer(TransformerMixin):
2606 |     def __init__(self, *args, **kwargs):
2607 |         self.encoder = LabelBinarizer(*args, **kwargs)
2608 |     def fit(self, x, y=0):
2609 |         self.encoder.fit(x)
2610 |         return self
2611 |     def transform(self, x, y=0):
2612 |         return self.encoder.transform(x)
2613 | 
2614 | preprocess = make_column_transformer(
2615 |     (StandardScaler(), numerical_columns)
2616 |     #(MyLabelBinarizer(), categorical_columns)
2617 |     #OneHotEncoder(categories='auto'), categorical_columns)
2618 | )
2619 | 
2620 | df_cat = pd.DataFrame(index=df2.index)
2621 | 
2622 | # one-hot encode categorical variables
2623 | for col in categorical_columns:
2624 |     #df_temp = df2[col].astype('category')
2625 |     #df_temp_2 = pd.get_dummies(df_temp, prefix=col)
2626 |     #df_cat = pd.concat([df_cat, df_temp_2], axis=1)
2627 |     le = LabelEncoder()
2628 |     X = le.fit_transform(df2[col])
2629 |     df_temp = pd.DataFrame(data=X, index=df2.index.values , columns=[col])
2630 |     df_cat = pd.concat([df_cat, df_temp], axis=1)
2631 |     
2632 | #for col in categorical_columns:
2633 | #    df_temp
2634 | 
2635 | # transform. returns numpy array
2636 | X = preprocess.fit_transform(df2)
2637 | df_num = pd.DataFrame(index=df2.index, data=X, columns=numerical_columns)
2638 | 
2639 | # transform. returns numpy array
2640 | #X = preprocess.fit_transform(df2)
2641 | 
2642 | # combine numerical and concatenated
2643 | df3 = pd.concat([df_num, df_cat], axis=1)
2644 | 
2645 | # true label - now member IDs
2646 | y = []
2647 | for index, row in df2.iterrows():
2648 |     if row.target_name == 1:
2649 |         y.append(0)
2650 |     elif row.target_group_id == 1:
2651 |         y.append(1)
2652 |     elif row.target_member_id == 1:
2653 |         y.append(0)
2654 |     else:
2655 |         y.append(0)
2656 | 
2657 | # add target variable
2658 | df3 = df3.assign(y=y)
2659 | ```
2660 | 
2661 |     C:\Users\Emile\Anaconda3\lib\site-packages\sklearn\preprocessing\data.py:625: DataConversionWarning: Data with input dtype int64, float64 were all converted to float64 by StandardScaler.
2662 |       return self.partial_fit(X, y)
2663 |     C:\Users\Emile\Anaconda3\lib\site-packages\sklearn\base.py:462: DataConversionWarning: Data with input dtype int64, float64 were all converted to float64 by StandardScaler.
2664 |       return self.fit(X, **fit_params).transform(X)
2665 | 
2666 | 
2667 | Split into training and test sets
2668 | 
2669 | 
2670 | ```python
2671 | from sklearn.model_selection import StratifiedShuffleSplit
2672 | from sklearn.model_selection import train_test_split
2673 | pd.options.mode.chained_assignment = None  # default='warn'
2674 | 
2675 | X = df3.iloc[:,:-1]
2676 | y = df3.iloc[:,-1]
2677 | 
2678 | X_train, X_test, y_train, y_test = train_test_split(X , y,
2679 |                                                     stratify=y, 
2680 |                                                     test_size=0.4,
2681 |                                                     random_state=102)
2682 | 
2683 | X_train_simulated = pd.DataFrame(X_train.loc[:, ('simulated')].copy())
2684 | X_test_simulated = pd.DataFrame(X_test.loc[:, ('simulated')].copy())
2685 | 
2686 | X_train.drop(columns=['simulated'], inplace=True)
2687 | X_test.drop(columns=['simulated'], inplace=True)
2688 | 
2689 | y_train = pd.DataFrame(y_train)
2690 | y_test = pd.DataFrame(y_test)
2691 | ```
2692 | 
2693 | ## Gradient Boosting
2694 | 
2695 | 
2696 | ```python
2697 | import xgboost as xgb
2698 | from xgboost import XGBClassifier
2699 | from xgboost import plot_importance
2700 | from sklearn.metrics import accuracy_score
2701 | from sklearn.metrics import confusion_matrix
2702 | ```
2703 | 
2704 | 
2705 | ```python
2706 | # specify parameters via map
2707 | param = {'max_depth':2, 'eta':1, 'silent':1, 'objective':'multi:softmax', 'num_class':3, 'random_state':102}
2708 | num_round = 2
2709 | 
2710 | # initialize model
2711 | gb_clf = XGBClassifier(max_depth=3, objective='binary:logistic')
2712 | 
2713 | # fit model
2714 | eval_set = [(X_test, y_test.y.values)]
2715 | gb_clf.fit(X_train, y_train.y.values, eval_metric="error", eval_set=eval_set, verbose=True, early_stopping_rounds=None)
2716 | 
2717 | # make prediction
2718 | y_pred = gb_clf.predict(X_test)
2719 | 
2720 | # predict probabilties
2721 | y_pred_prob =  gb_clf.predict_proba(X_test)
2722 | 
2723 | print("Accuracy on training set: {:.3f}".format(gb_clf.score(X_train, y_train)))
2724 | print("Accuracy on test set: {:.3f}".format(gb_clf.score(X_test, y_test)))
2725 | ```
2726 | 
2727 |     [0]	validation_0-error:0.193669
2728 |     [1]	validation_0-error:0.193669
2729 |     [2]	validation_0-error:0.157018
2730 |     [3]	validation_0-error:0.143274
2731 |     [4]	validation_0-error:0.143274
2732 |     [5]	validation_0-error:0.143274
2733 |     [6]	validation_0-error:0.143274
2734 |     [7]	validation_0-error:0.154519
2735 |     [8]	validation_0-error:0.154519
2736 |     [9]	validation_0-error:0.127447
2737 |     [10]	validation_0-error:0.127447
2738 |     [11]	validation_0-error:0.127447
2739 |     [12]	validation_0-error:0.127447
2740 |     [13]	validation_0-error:0.127447
2741 |     [14]	validation_0-error:0.103707
2742 |     [15]	validation_0-error:0.103707
2743 |     [16]	validation_0-error:0.103707
2744 |     [17]	validation_0-error:0.103707
2745 |     [18]	validation_0-error:0.103707
2746 |     [19]	validation_0-error:0.103707
2747 |     [20]	validation_0-error:0.103707
2748 |     [21]	validation_0-error:0.103707
2749 |     [22]	validation_0-error:0.098709
2750 |     [23]	validation_0-error:0.098292
2751 |     [24]	validation_0-error:0.098292
2752 |     [25]	validation_0-error:0.098292
2753 |     [26]	validation_0-error:0.098292
2754 |     [27]	validation_0-error:0.098292
2755 |     [28]	validation_0-error:0.098292
2756 |     [29]	validation_0-error:0.098292
2757 |     [30]	validation_0-error:0.098292
2758 |     [31]	validation_0-error:0.098292
2759 |     [32]	validation_0-error:0.098709
2760 |     [33]	validation_0-error:0.098709
2761 |     [34]	validation_0-error:0.099125
2762 |     [35]	validation_0-error:0.099125
2763 |     [36]	validation_0-error:0.099542
2764 |     [37]	validation_0-error:0.099542
2765 |     [38]	validation_0-error:0.099542
2766 |     [39]	validation_0-error:0.099542
2767 |     [40]	validation_0-error:0.099542
2768 |     [41]	validation_0-error:0.099542
2769 |     [42]	validation_0-error:0.099542
2770 |     [43]	validation_0-error:0.099542
2771 |     [44]	validation_0-error:0.099542
2772 |     [45]	validation_0-error:0.099125
2773 |     [46]	validation_0-error:0.098292
2774 |     [47]	validation_0-error:0.098292
2775 |     [48]	validation_0-error:0.098292
2776 |     [49]	validation_0-error:0.098292
2777 |     [50]	validation_0-error:0.098292
2778 |     [51]	validation_0-error:0.098292
2779 |     [52]	validation_0-error:0.098292
2780 |     [53]	validation_0-error:0.098292
2781 |     [54]	validation_0-error:0.087047
2782 |     [55]	validation_0-error:0.087047
2783 |     [56]	validation_0-error:0.087047
2784 |     [57]	validation_0-error:0.087047
2785 |     [58]	validation_0-error:0.08788
2786 |     [59]	validation_0-error:0.08788
2787 |     [60]	validation_0-error:0.087047
2788 |     [61]	validation_0-error:0.086214
2789 |     [62]	validation_0-error:0.086214
2790 |     [63]	validation_0-error:0.086214
2791 |     [64]	validation_0-error:0.078301
2792 |     [65]	validation_0-error:0.078301
2793 |     [66]	validation_0-error:0.078301
2794 |     [67]	validation_0-error:0.078301
2795 |     [68]	validation_0-error:0.078301
2796 |     [69]	validation_0-error:0.077884
2797 |     [70]	validation_0-error:0.077884
2798 |     [71]	validation_0-error:0.077884
2799 |     [72]	validation_0-error:0.077884
2800 |     [73]	validation_0-error:0.064556
2801 |     [74]	validation_0-error:0.064556
2802 |     [75]	validation_0-error:0.064556
2803 |     [76]	validation_0-error:0.064556
2804 |     [77]	validation_0-error:0.064556
2805 |     [78]	validation_0-error:0.064556
2806 |     [79]	validation_0-error:0.064556
2807 |     [80]	validation_0-error:0.064556
2808 |     [81]	validation_0-error:0.064556
2809 |     [82]	validation_0-error:0.064556
2810 |     [83]	validation_0-error:0.064556
2811 |     [84]	validation_0-error:0.064556
2812 |     [85]	validation_0-error:0.064556
2813 |     [86]	validation_0-error:0.064556
2814 |     [87]	validation_0-error:0.062474
2815 |     [88]	validation_0-error:0.062474
2816 |     [89]	validation_0-error:0.062474
2817 |     [90]	validation_0-error:0.062474
2818 |     [91]	validation_0-error:0.062474
2819 |     [92]	validation_0-error:0.062474
2820 |     [93]	validation_0-error:0.062474
2821 |     [94]	validation_0-error:0.062474
2822 |     [95]	validation_0-error:0.062474
2823 |     [96]	validation_0-error:0.062474
2824 |     [97]	validation_0-error:0.062474
2825 |     [98]	validation_0-error:0.062474
2826 |     [99]	validation_0-error:0.062474
2827 |     Accuracy on training set: 0.930
2828 |     Accuracy on test set: 0.938
2829 | 
2830 | 
2831 | Plot feature importances
2832 | 
2833 | 
2834 | ```python
2835 | plot_importance(gb_clf);
2836 | ```
2837 | 
2838 | 
2839 | ![png](images/output_63_0.png)
2840 | 
2841 | 
2842 | Combine actuals with predictions.
2843 | 
2844 | 
2845 | ```python
2846 | # combine actual with predicted
2847 | y_test_combined = y_test.rename(index=str, columns={"y": "y_true"}).assign(y_pred=y_pred).assign(simulated=X_test_simulated['simulated'].values.astype(int))
2848 | 
2849 | y_test_combined = y_test_combined.assign(got_right=(y_test_combined.y_true == y_test_combined.y_pred).astype(int))
2850 | 
2851 | y_test_combined = y_test_combined.assign(y_pred_prob_0=y_pred_prob[:,0])
2852 | y_test_combined = y_test_combined.assign(y_pred_prob_1=y_pred_prob[:,1])
2853 | #y_test_combined = y_test_combined.assign(y_pred_prob_2=y_pred_prob[:,2])
2854 | 
2855 | ```
2856 | 
2857 | 
2858 | ```python
2859 | from insurance_card_prediction import plot_confusion_matrix
2860 | ```
2861 | 
2862 | Plot the confusion matrix.
2863 | 
2864 | 
2865 | ```python
2866 | cm = confusion_matrix(y_test_combined.y_true.values, y_test_combined.y_pred.values)
2867 | 
2868 | # plot it
2869 | plot_confusion_matrix(cm,
2870 |                       target_names=['Not Group ID','Group ID'],
2871 |                       title='Total (real and simulated)',
2872 |                       cmap=None,
2873 |                       normalize=True)
2874 | 
2875 | print(cm)
2876 | ```
2877 | 
2878 | 
2879 | ![png](images/output_68_0.png)
2880 | 
2881 | 
2882 |     [[1724   96]
2883 |      [  54  527]]
2884 | 
2885 | 
2886 | Split into real and simulated.
2887 | 
2888 | 
2889 | ```python
2890 | # cm1 is simulated
2891 | cm1 = confusion_matrix(y_test_combined.loc[y_test_combined.simulated.values==1].y_true.values,  y_test_combined.loc[y_test_combined.simulated.values==1].y_pred.values)
2892 | 
2893 | if cm1.shape == (2,2):
2894 |     newrow = np.array([[0,0]])
2895 |     cm1 = np.vstack((newrow, cm1))
2896 | 
2897 |     newcol = np.array([[0],[0],[0]])
2898 |     cm1 = np.hstack((newcol, cm1))
2899 | 
2900 | # plot it
2901 | plot_confusion_matrix(cm1,
2902 |                       target_names=['Neither','Group ID', 'Member ID'],
2903 |                       title='Simulated',
2904 |                       cmap=None,
2905 |                       normalize=True)
2906 | 
2907 | print(cm1)
2908 | ```
2909 | 
2910 | 
2911 | ![png](images/output_70_0.png)
2912 | 
2913 | 
2914 |     [[  0   0   0]
2915 |      [  0 527  46]
2916 |      [  1  73 875]]
2917 | 
2918 | 
2919 | Now look at reals.
2920 | 
2921 | 
2922 | ```python
2923 | # cm2 is real
2924 | cm2 = confusion_matrix(y_test_combined.loc[y_test_combined.simulated.values==0].y_true.values,  y_test_combined.loc[y_test_combined.simulated.values==0].y_pred.values)
2925 | 
2926 | #newrow = np.array([[0,0]])
2927 | #cm1 = np.vstack((newrow, cm1))
2928 | 
2929 | #newcol = np.array([[0],[0],[0]])
2930 | #cm1 = np.hstack((newcol, cm1))
2931 | 
2932 | # plot it
2933 | plot_confusion_matrix(cm2,
2934 |                       target_names=['Neither','Group ID', 'Member ID'],
2935 |                       title='Real',
2936 |                       cmap=None,
2937 |                       normalize=True)
2938 | 
2939 | print(cm2)
2940 | ```
2941 | 
2942 | 
2943 | ![png](images/output_72_0.png)
2944 | 
2945 | 
2946 |     [[778  37  45]
2947 |      [  4   4   0]
2948 |      [  3   0   8]]
2949 | 
2950 | 
2951 | 
2952 | ```python
2953 | a = y_test_combined.loc[y_test_combined.simulated==0]
2954 | a = y_test_combined.loc[y_test_combined.y_true==0]
2955 | a = a.loc[a.y_pred!=0]
2956 | a.loc[:,['y_true','y_pred']]
2957 | ```
2958 | 
2959 | 
2960 | 
2961 | 
2962 | <div>
2963 | <style scoped>
2964 |     .dataframe tbody tr th:only-of-type {
2965 |         vertical-align: middle;
2966 |     }
2967 | 
2968 |     .dataframe tbody tr th {
2969 |         vertical-align: top;
2970 |     }
2971 | 
2972 |     .dataframe thead th {
2973 |         text-align: right;
2974 |     }
2975 | </style>
2976 | <table border="1" class="dataframe">
2977 |   <thead>
2978 |     <tr style="text-align: right;">
2979 |       <th></th>
2980 |       <th>y_true</th>
2981 |       <th>y_pred</th>
2982 |     </tr>
2983 |   </thead>
2984 |   <tbody>
2985 |     <tr>
2986 |       <th>30374-0800</th>
2987 |       <td>0</td>
2988 |       <td>2</td>
2989 |     </tr>
2990 |     <tr>
2991 |       <th>43</th>
2992 |       <td>0</td>
2993 |       <td>2</td>
2994 |     </tr>
2995 |     <tr>
2996 |       <th>35</th>
2997 |       <td>0</td>
2998 |       <td>2</td>
2999 |     </tr>
3000 |     <tr>
3001 |       <th>WASHINGTON</th>
3002 |       <td>0</td>
3003 |       <td>1</td>
3004 |     </tr>
3005 |     <tr>
3006 |       <th>20</th>
3007 |       <td>0</td>
3008 |       <td>2</td>
3009 |     </tr>
3010 |     <tr>
3011 |       <th>87726</th>
3012 |       <td>0</td>
3013 |       <td>2</td>
3014 |     </tr>
3015 |     <tr>
3016 |       <th>05000</th>
3017 |       <td>0</td>
3018 |       <td>2</td>
3019 |     </tr>
3020 |     <tr>
3021 |       <th>100000001</th>
3022 |       <td>0</td>
3023 |       <td>2</td>
3024 |     </tr>
3025 |     <tr>
3026 |       <th>610011</th>
3027 |       <td>0</td>
3028 |       <td>1</td>
3029 |     </tr>
3030 |     <tr>
3031 |       <th>CHILDI</th>
3032 |       <td>0</td>
3033 |       <td>1</td>
3034 |     </tr>
3035 |     <tr>
3036 |       <th>91</th>
3037 |       <td>0</td>
3038 |       <td>2</td>
3039 |     </tr>
3040 |     <tr>
3041 |       <th>HOSPITAL</th>
3042 |       <td>0</td>
3043 |       <td>1</td>
3044 |     </tr>
3045 |     <tr>
3046 |       <th>ME</th>
3047 |       <td>0</td>
3048 |       <td>2</td>
3049 |     </tr>
3050 |     <tr>
3051 |       <th>IL</th>
3052 |       <td>0</td>
3053 |       <td>2</td>
3054 |     </tr>
3055 |     <tr>
3056 |       <th>REQUIRED</th>
3057 |       <td>0</td>
3058 |       <td>1</td>
3059 |     </tr>
3060 |     <tr>
3061 |       <th>MO</th>
3062 |       <td>0</td>
3063 |       <td>2</td>
3064 |     </tr>
3065 |     <tr>
3066 |       <th>TRINET</th>
3067 |       <td>0</td>
3068 |       <td>1</td>
3069 |     </tr>
3070 |     <tr>
3071 |       <th>HOSPITAL</th>
3072 |       <td>0</td>
3073 |       <td>1</td>
3074 |     </tr>
3075 |     <tr>
3076 |       <th>ID</th>
3077 |       <td>0</td>
3078 |       <td>2</td>
3079 |     </tr>
3080 |     <tr>
3081 |       <th>NO</th>
3082 |       <td>0</td>
3083 |       <td>2</td>
3084 |     </tr>
3085 |     <tr>
3086 |       <th>003586</th>
3087 |       <td>0</td>
3088 |       <td>1</td>
3089 |     </tr>
3090 |     <tr>
3091 |       <th>76342</th>
3092 |       <td>0</td>
3093 |       <td>2</td>
3094 |     </tr>
3095 |     <tr>
3096 |       <th>DENTAL</th>
3097 |       <td>0</td>
3098 |       <td>1</td>
3099 |     </tr>
3100 |     <tr>
3101 |       <th>NA</th>
3102 |       <td>0</td>
3103 |       <td>2</td>
3104 |     </tr>
3105 |     <tr>
3106 |       <th>004915</th>
3107 |       <td>0</td>
3108 |       <td>1</td>
3109 |     </tr>
3110 |     <tr>
3111 |       <th>CMS-H3832</th>
3112 |       <td>0</td>
3113 |       <td>2</td>
3114 |     </tr>
3115 |     <tr>
3116 |       <th>00000000</th>
3117 |       <td>0</td>
3118 |       <td>1</td>
3119 |     </tr>
3120 |     <tr>
3121 |       <th>OF</th>
3122 |       <td>0</td>
3123 |       <td>2</td>
3124 |     </tr>
3125 |     <tr>
3126 |       <th>00699999</th>
3127 |       <td>0</td>
3128 |       <td>1</td>
3129 |     </tr>
3130 |     <tr>
3131 |       <th>PO</th>
3132 |       <td>0</td>
3133 |       <td>2</td>
3134 |     </tr>
3135 |     <tr>
3136 |       <th>...</th>
3137 |       <td>...</td>
3138 |       <td>...</td>
3139 |     </tr>
3140 |     <tr>
3141 |       <th>23735125</th>
3142 |       <td>0</td>
3143 |       <td>1</td>
3144 |     </tr>
3145 |     <tr>
3146 |       <th>PROVIDERS</th>
3147 |       <td>0</td>
3148 |       <td>2</td>
3149 |     </tr>
3150 |     <tr>
3151 |       <th>GA</th>
3152 |       <td>0</td>
3153 |       <td>2</td>
3154 |     </tr>
3155 |     <tr>
3156 |       <th>Independent</th>
3157 |       <td>0</td>
3158 |       <td>2</td>
3159 |     </tr>
3160 |     <tr>
3161 |       <th>HEALTH</th>
3162 |       <td>0</td>
3163 |       <td>1</td>
3164 |     </tr>
3165 |     <tr>
3166 |       <th>DR</th>
3167 |       <td>0</td>
3168 |       <td>2</td>
3169 |     </tr>
3170 |     <tr>
3171 |       <th>004336</th>
3172 |       <td>0</td>
3173 |       <td>1</td>
3174 |     </tr>
3175 |     <tr>
3176 |       <th>A000012334456</th>
3177 |       <td>0</td>
3178 |       <td>1</td>
3179 |     </tr>
3180 |     <tr>
3181 |       <th>HOSPITAL</th>
3182 |       <td>0</td>
3183 |       <td>1</td>
3184 |     </tr>
3185 |     <tr>
3186 |       <th>OH</th>
3187 |       <td>0</td>
3188 |       <td>2</td>
3189 |     </tr>
3190 |     <tr>
3191 |       <th>11</th>
3192 |       <td>0</td>
3193 |       <td>2</td>
3194 |     </tr>
3195 |     <tr>
3196 |       <th>01</th>
3197 |       <td>0</td>
3198 |       <td>2</td>
3199 |     </tr>
3200 |     <tr>
3201 |       <th>004336</th>
3202 |       <td>0</td>
3203 |       <td>1</td>
3204 |     </tr>
3205 |     <tr>
3206 |       <th>7952304120</th>
3207 |       <td>0</td>
3208 |       <td>2</td>
3209 |     </tr>
3210 |     <tr>
3211 |       <th>CHILD2SMITH</th>
3212 |       <td>0</td>
3213 |       <td>1</td>
3214 |     </tr>
3215 |     <tr>
3216 |       <th>999999999</th>
3217 |       <td>0</td>
3218 |       <td>2</td>
3219 |     </tr>
3220 |     <tr>
3221 |       <th>23735125</th>
3222 |       <td>0</td>
3223 |       <td>1</td>
3224 |     </tr>
3225 |     <tr>
3226 |       <th>H0432</th>
3227 |       <td>0</td>
3228 |       <td>1</td>
3229 |     </tr>
3230 |     <tr>
3231 |       <th>80840</th>
3232 |       <td>0</td>
3233 |       <td>2</td>
3234 |     </tr>
3235 |     <tr>
3236 |       <th>RX</th>
3237 |       <td>0</td>
3238 |       <td>2</td>
3239 |     </tr>
3240 |     <tr>
3241 |       <th>122222222</th>
3242 |       <td>0</td>
3243 |       <td>2</td>
3244 |     </tr>
3245 |     <tr>
3246 |       <th>XX</th>
3247 |       <td>0</td>
3248 |       <td>2</td>
3249 |     </tr>
3250 |     <tr>
3251 |       <th>123456789</th>
3252 |       <td>0</td>
3253 |       <td>2</td>
3254 |     </tr>
3255 |     <tr>
3256 |       <th>00000</th>
3257 |       <td>0</td>
3258 |       <td>2</td>
3259 |     </tr>
3260 |     <tr>
3261 |       <th>KANSAS</th>
3262 |       <td>0</td>
3263 |       <td>1</td>
3264 |     </tr>
3265 |     <tr>
3266 |       <th>WG</th>
3267 |       <td>0</td>
3268 |       <td>2</td>
3269 |     </tr>
3270 |     <tr>
3271 |       <th>610342</th>
3272 |       <td>0</td>
3273 |       <td>1</td>
3274 |     </tr>
3275 |     <tr>
3276 |       <th>HAWAII</th>
3277 |       <td>0</td>
3278 |       <td>1</td>
3279 |     </tr>
3280 |     <tr>
3281 |       <th>017010</th>
3282 |       <td>0</td>
3283 |       <td>1</td>
3284 |     </tr>
3285 |     <tr>
3286 |       <th>232-1164</th>
3287 |       <td>0</td>
3288 |       <td>1</td>
3289 |     </tr>
3290 |   </tbody>
3291 | </table>
3292 | <p>82 rows × 2 columns</p>
3293 | </div>
3294 | 
3295 | 
3296 | 
3297 | 
3298 | ```python
3299 | y_test_combined.loc[y_test_combined.y_true!=0].head(10)
3300 | ```
3301 | 
3302 | 
3303 | 
3304 | 
3305 | <div>
3306 | <style scoped>
3307 |     .dataframe tbody tr th:only-of-type {
3308 |         vertical-align: middle;
3309 |     }
3310 | 
3311 |     .dataframe tbody tr th {
3312 |         vertical-align: top;
3313 |     }
3314 | 
3315 |     .dataframe thead th {
3316 |         text-align: right;
3317 |     }
3318 | </style>
3319 | <table border="1" class="dataframe">
3320 |   <thead>
3321 |     <tr style="text-align: right;">
3322 |       <th></th>
3323 |       <th>y_true</th>
3324 |       <th>y_pred</th>
3325 |       <th>simulated</th>
3326 |       <th>got_right</th>
3327 |       <th>y_pred_prob_0</th>
3328 |       <th>y_pred_prob_1</th>
3329 |       <th>y_pred_prob_2</th>
3330 |     </tr>
3331 |   </thead>
3332 |   <tbody>
3333 |     <tr>
3334 |       <th>PHOAUWTIK</th>
3335 |       <td>2</td>
3336 |       <td>2</td>
3337 |       <td>1</td>
3338 |       <td>1</td>
3339 |       <td>0.099076</td>
3340 |       <td>0.096246</td>
3341 |       <td>0.804678</td>
3342 |     </tr>
3343 |     <tr>
3344 |       <th>987057200179</th>
3345 |       <td>1</td>
3346 |       <td>1</td>
3347 |       <td>1</td>
3348 |       <td>1</td>
3349 |       <td>0.016479</td>
3350 |       <td>0.885554</td>
3351 |       <td>0.097966</td>
3352 |     </tr>
3353 |     <tr>
3354 |       <th>87019363638</th>
3355 |       <td>2</td>
3356 |       <td>2</td>
3357 |       <td>1</td>
3358 |       <td>1</td>
3359 |       <td>0.011182</td>
3360 |       <td>0.065865</td>
3361 |       <td>0.922952</td>
3362 |     </tr>
3363 |     <tr>
3364 |       <th>891100251</th>
3365 |       <td>2</td>
3366 |       <td>2</td>
3367 |       <td>1</td>
3368 |       <td>1</td>
3369 |       <td>0.005606</td>
3370 |       <td>0.019466</td>
3371 |       <td>0.974928</td>
3372 |     </tr>
3373 |     <tr>
3374 |       <th>763537830378</th>
3375 |       <td>1</td>
3376 |       <td>1</td>
3377 |       <td>1</td>
3378 |       <td>1</td>
3379 |       <td>0.016479</td>
3380 |       <td>0.885554</td>
3381 |       <td>0.097966</td>
3382 |     </tr>
3383 |     <tr>
3384 |       <th>966337739-12</th>
3385 |       <td>2</td>
3386 |       <td>2</td>
3387 |       <td>1</td>
3388 |       <td>1</td>
3389 |       <td>0.016701</td>
3390 |       <td>0.052785</td>
3391 |       <td>0.930514</td>
3392 |     </tr>
3393 |     <tr>
3394 |       <th>08889719</th>
3395 |       <td>1</td>
3396 |       <td>1</td>
3397 |       <td>1</td>
3398 |       <td>1</td>
3399 |       <td>0.037798</td>
3400 |       <td>0.690810</td>
3401 |       <td>0.271392</td>
3402 |     </tr>
3403 |     <tr>
3404 |       <th>K8535</th>
3405 |       <td>2</td>
3406 |       <td>1</td>
3407 |       <td>1</td>
3408 |       <td>0</td>
3409 |       <td>0.051245</td>
3410 |       <td>0.678274</td>
3411 |       <td>0.270481</td>
3412 |     </tr>
3413 |     <tr>
3414 |       <th>53755132</th>
3415 |       <td>1</td>
3416 |       <td>1</td>
3417 |       <td>1</td>
3418 |       <td>1</td>
3419 |       <td>0.037798</td>
3420 |       <td>0.690810</td>
3421 |       <td>0.271392</td>
3422 |     </tr>
3423 |     <tr>
3424 |       <th>377869079-31</th>
3425 |       <td>2</td>
3426 |       <td>2</td>
3427 |       <td>1</td>
3428 |       <td>1</td>
3429 |       <td>0.016701</td>
3430 |       <td>0.052785</td>
3431 |       <td>0.930514</td>
3432 |     </tr>
3433 |   </tbody>
3434 | </table>
3435 | </div>
3436 | 
3437 | 
3438 | 
3439 | 
3440 | ```python
3441 | low_prob_mask = y_test_combined.iloc[:,4:7].max(axis=1) < 0.57
3442 | y_test_combined.loc[low_prob_mask][115:126]
3443 | ```
3444 | 
3445 | 
3446 | 
3447 | 
3448 | <div>
3449 | <style scoped>
3450 |     .dataframe tbody tr th:only-of-type {
3451 |         vertical-align: middle;
3452 |     }
3453 | 
3454 |     .dataframe tbody tr th {
3455 |         vertical-align: top;
3456 |     }
3457 | 
3458 |     .dataframe thead th {
3459 |         text-align: right;
3460 |     }
3461 | </style>
3462 | <table border="1" class="dataframe">
3463 |   <thead>
3464 |     <tr style="text-align: right;">
3465 |       <th></th>
3466 |       <th>y_true</th>
3467 |       <th>y_pred</th>
3468 |       <th>simulated</th>
3469 |       <th>got_right</th>
3470 |       <th>y_pred_prob_0</th>
3471 |       <th>y_pred_prob_1</th>
3472 |       <th>y_pred_prob_2</th>
3473 |     </tr>
3474 |   </thead>
3475 |   <tbody>
3476 |     <tr>
3477 |       <th>39250</th>
3478 |       <td>2</td>
3479 |       <td>2</td>
3480 |       <td>1</td>
3481 |       <td>1</td>
3482 |       <td>0.049223</td>
3483 |       <td>0.381607</td>
3484 |       <td>0.569170</td>
3485 |     </tr>
3486 |     <tr>
3487 |       <th>10527</th>
3488 |       <td>2</td>
3489 |       <td>2</td>
3490 |       <td>1</td>
3491 |       <td>1</td>
3492 |       <td>0.049223</td>
3493 |       <td>0.381607</td>
3494 |       <td>0.569170</td>
3495 |     </tr>
3496 |     <tr>
3497 |       <th>00577</th>
3498 |       <td>1</td>
3499 |       <td>2</td>
3500 |       <td>1</td>
3501 |       <td>0</td>
3502 |       <td>0.049223</td>
3503 |       <td>0.381607</td>
3504 |       <td>0.569170</td>
3505 |     </tr>
3506 |     <tr>
3507 |       <th>26709</th>
3508 |       <td>2</td>
3509 |       <td>2</td>
3510 |       <td>1</td>
3511 |       <td>1</td>
3512 |       <td>0.049223</td>
3513 |       <td>0.381607</td>
3514 |       <td>0.569170</td>
3515 |     </tr>
3516 |     <tr>
3517 |       <th>92161</th>
3518 |       <td>2</td>
3519 |       <td>2</td>
3520 |       <td>1</td>
3521 |       <td>1</td>
3522 |       <td>0.049223</td>
3523 |       <td>0.381607</td>
3524 |       <td>0.569170</td>
3525 |     </tr>
3526 |     <tr>
3527 |       <th>57854</th>
3528 |       <td>1</td>
3529 |       <td>2</td>
3530 |       <td>1</td>
3531 |       <td>0</td>
3532 |       <td>0.049223</td>
3533 |       <td>0.381607</td>
3534 |       <td>0.569170</td>
3535 |     </tr>
3536 |     <tr>
3537 |       <th>93095</th>
3538 |       <td>1</td>
3539 |       <td>2</td>
3540 |       <td>1</td>
3541 |       <td>0</td>
3542 |       <td>0.049223</td>
3543 |       <td>0.381607</td>
3544 |       <td>0.569170</td>
3545 |     </tr>
3546 |     <tr>
3547 |       <th>08328</th>
3548 |       <td>2</td>
3549 |       <td>2</td>
3550 |       <td>1</td>
3551 |       <td>1</td>
3552 |       <td>0.049223</td>
3553 |       <td>0.381607</td>
3554 |       <td>0.569170</td>
3555 |     </tr>
3556 |     <tr>
3557 |       <th>85563</th>
3558 |       <td>1</td>
3559 |       <td>2</td>
3560 |       <td>1</td>
3561 |       <td>0</td>
3562 |       <td>0.049223</td>
3563 |       <td>0.381607</td>
3564 |       <td>0.569170</td>
3565 |     </tr>
3566 |     <tr>
3567 |       <th>7952304120</th>
3568 |       <td>0</td>
3569 |       <td>2</td>
3570 |       <td>0</td>
3571 |       <td>0</td>
3572 |       <td>0.410342</td>
3573 |       <td>0.130900</td>
3574 |       <td>0.458758</td>
3575 |     </tr>
3576 |     <tr>
3577 |       <th>CHILD2SMITH</th>
3578 |       <td>0</td>
3579 |       <td>1</td>
3580 |       <td>0</td>
3581 |       <td>0</td>
3582 |       <td>0.225169</td>
3583 |       <td>0.429728</td>
3584 |       <td>0.345103</td>
3585 |     </tr>
3586 |   </tbody>
3587 | </table>
3588 | </div>
3589 | 
3590 | 
3591 | 
3592 | 
3593 | ```python
3594 | 
3595 | ```
3596 | 
3597 | 
3598 | ```python
3599 | y_test_combined.iloc[:,4:7].max(axis=1).hist(bins=20);
3600 | plt.xlabel('Predicted probability of max class')
3601 | plt.ylabel('Frequency')
3602 | ```
3603 | 
3604 | 
3605 | 
3606 | 
3607 |     Text(0, 0.5, 'Frequency')
3608 | 
3609 | 
3610 | 
3611 | 
3612 | ![png](images/output_77_1.png)
3613 | 
3614 | 
3615 | 
3616 | ```python
3617 | import seaborn as sns
3618 | ```
3619 | 
3620 | 
3621 | ```python
3622 | sns.set_style('darkgrid')
3623 | sns.distplot(y_test_combined.iloc[:,4:7].max(axis=1), norm_hist=False);
3624 | plt.xlabel('Predicted probability of max class')
3625 | plt.ylabel('Frequency in percentages')
3626 | ```
3627 | 
3628 | 
3629 | 
3630 | 
3631 |     Text(0, 0.5, 'Frequency in percentages')
3632 | 
3633 | 
3634 | 
3635 | 
3636 | ![png](images/output_79_1.png)
3637 | 
3638 | 
3639 | 
3640 | ```python
3641 | sns.set_style('darkgrid')
3642 | ```
3643 | 
3644 | 
3645 | ```python
3646 | 
3647 | ```
3648 | 
3649 | 
3650 | ```python
3651 | 
3652 | ```
3653 | 
3654 | 
3655 | ```python
3656 | 
3657 | ```
3658 | 
3659 | 
3660 | ```python
3661 | 
3662 | ```
3663 | 
3664 | 
3665 | ```python
3666 | 
3667 | ```
3668 | 
3669 | ### Random Forest
3670 | Used for Group IDs classification.
3671 | 
3672 | 
3673 | ```python
3674 | import warnings
3675 | warnings.filterwarnings("ignore", category=FutureWarning)
3676 | 
3677 | from sklearn.ensemble import RandomForestClassifier
3678 | 
3679 | forest_clf = RandomForestClassifier(random_state=102)
3680 | forest_clf.fit(X_train, y_train.y.values)
3681 | 
3682 | y_pred = forest_clf.predict(X_test)
3683 | print("%d out of %d exmaples were wrong."
3684 |       % ((y_test.y != y_pred).sum(), X_test.shape[0]))
3685 | ```
3686 | 
3687 |     187 out of 2401 exmaples were wrong.
3688 | 
3689 | 
3690 | Confusion matrix
3691 | 
3692 | 
3693 | ```python
3694 | from sklearn.metrics import confusion_matrix
3695 | 
3696 | cm = confusion_matrix(y_test.y.values, y_pred)
3697 | print("Confusion matrix: \n",cm, "\n")
3698 | 
3699 | tn, fp, fn, tp = cm.ravel()
3700 | print(' TN:',tn, '\n FP:',fp, '\n FN:',fn, '\n TP',tp)
3701 | ```
3702 | 
3703 |     Confusion matrix: 
3704 |      [[1344   97]
3705 |      [  90  870]] 
3706 |     
3707 |      TN: 1344 
3708 |      FP: 97 
3709 |      FN: 90 
3710 |      TP 870
3711 | 
3712 | 
3713 | Plot the confusion matrix
3714 | 
3715 | 
3716 | ```python
3717 | # https://scikit-learn.org/stable/auto_examples/model_selection/plot_confusion_matrix.html
3718 | def plot_confusion_matrix(cm,
3719 |                           target_names,
3720 |                           title='Confusion matrix',
3721 |                           cmap=None,
3722 |                           normalize=True):
3723 |     """
3724 |     given a sklearn confusion matrix (cm), make a nice plot
3725 | 
3726 |     Arguments
3727 |     ---------
3728 |     cm:           confusion matrix from sklearn.metrics.confusion_matrix
3729 | 
3730 |     target_names: given classification classes such as [0, 1, 2]
3731 |                   the class names, for example: ['high', 'medium', 'low']
3732 | 
3733 |     title:        the text to display at the top of the matrix
3734 | 
3735 |     cmap:         the gradient of the values displayed from matplotlib.pyplot.cm
3736 |                   see http://matplotlib.org/examples/color/colormaps_reference.html
3737 |                   plt.get_cmap('jet') or plt.cm.Blues
3738 | 
3739 |     normalize:    If False, plot the raw numbers
3740 |                   If True, plot the proportions
3741 | 
3742 |     Usage
3743 |     -----
3744 |     plot_confusion_matrix(cm           = cm,                  # confusion matrix created by
3745 |                                                               # sklearn.metrics.confusion_matrix
3746 |                           normalize    = True,                # show proportions
3747 |                           target_names = y_labels_vals,       # list of names of the classes
3748 |                           title        = best_estimator_name) # title of graph
3749 | 
3750 |     Citiation
3751 |     ---------
3752 |     http://scikit-learn.org/stable/auto_examples/model_selection/plot_confusion_matrix.html
3753 | 
3754 |     """
3755 |     import matplotlib.pyplot as plt
3756 |     import numpy as np
3757 |     import itertools
3758 | 
3759 |     accuracy = np.trace(cm) / float(np.sum(cm))
3760 |     misclass = 1 - accuracy
3761 | 
3762 |     if cmap is None:
3763 |         cmap = plt.get_cmap('Blues')
3764 | 
3765 |     plt.figure(figsize=(8, 6))
3766 |     plt.imshow(cm, interpolation='nearest', cmap=cmap)
3767 |     plt.title(title)
3768 |     plt.colorbar()
3769 | 
3770 |     if target_names is not None:
3771 |         tick_marks = np.arange(len(target_names))
3772 |         plt.xticks(tick_marks, target_names, rotation=45)
3773 |         plt.yticks(tick_marks, target_names)
3774 | 
3775 |     if normalize:
3776 |         cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
3777 | 
3778 | 
3779 |     thresh = cm.max() / 1.5 if normalize else cm.max() / 2
3780 |     for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
3781 |         if normalize:
3782 |             plt.text(j, i, "{:0.2f}".format(cm[i, j],2),
3783 |                      horizontalalignment="center",
3784 |                      color="black" if cm[i, j] > thresh else "black", fontsize=30)
3785 |         else:
3786 |             plt.text(j, i, "{:,}".format(cm[i, j]),
3787 |                      horizontalalignment="center",
3788 |                      color="white" if cm[i, j] > thresh else "black", fontsize=30)
3789 | 
3790 | 
3791 |     plt.tight_layout()
3792 |     plt.ylabel('True label')
3793 |     plt.xlabel('Predicted label')
3794 |     #plt.xlabel('Predicted label\naccuracy={:0.4f}; misclass={:0.4f}'.format(accuracy, misclass))
3795 |     plt.show()
3796 | ```
3797 | 
3798 | 
3799 | ```python
3800 | # plot it
3801 | plot_confusion_matrix(cm,
3802 |                       target_names=['Not a Group ID','Group ID'],
3803 |                       title='Confusion matrix',
3804 |                       cmap=None,
3805 |                       normalize=True)
3806 | 
3807 | print(cm)
3808 | ```
3809 | 
3810 | 
3811 | ![png](images/output_92_0.png)
3812 | 
3813 | 
3814 |     [[825  48]
3815 |      [  2 580]]
3816 | 
3817 | 
3818 | 
3819 | ```python
3820 | # combine actual with predicted
3821 | y_test_combined = y_test.rename(index=str, columns={"y": "y_true"}).assign(y_pred=y_pred).assign(simulated=X_test_simulated['simulated_1'].values.astype(int))
3822 | #y_test_combined = y_test_combined.assign(simulated_0=X_test_simulated['simulated_1'].values)
3823 | y_test_combined = y_test_combined.assign(got_right=(y_test_combined.y_true == y_test_combined.y_pred).astype(int))
3824 | 
3825 | y_test_combined.head()
3826 | ```
3827 | 
3828 | 
3829 | 
3830 | 
3831 | <div>
3832 | <style scoped>
3833 |     .dataframe tbody tr th:only-of-type {
3834 |         vertical-align: middle;
3835 |     }
3836 | 
3837 |     .dataframe tbody tr th {
3838 |         vertical-align: top;
3839 |     }
3840 | 
3841 |     .dataframe thead th {
3842 |         text-align: right;
3843 |     }
3844 | </style>
3845 | <table border="1" class="dataframe">
3846 |   <thead>
3847 |     <tr style="text-align: right;">
3848 |       <th></th>
3849 |       <th>y_true</th>
3850 |       <th>y_pred</th>
3851 |       <th>simulated</th>
3852 |       <th>got_right</th>
3853 |     </tr>
3854 |   </thead>
3855 |   <tbody>
3856 |     <tr>
3857 |       <th>INSURANCE</th>
3858 |       <td>0</td>
3859 |       <td>0</td>
3860 |       <td>0</td>
3861 |       <td>1</td>
3862 |     </tr>
3863 |     <tr>
3864 |       <th>John</th>
3865 |       <td>0</td>
3866 |       <td>0</td>
3867 |       <td>0</td>
3868 |       <td>1</td>
3869 |     </tr>
3870 |     <tr>
3871 |       <th>967462-020-14860</th>
3872 |       <td>1</td>
3873 |       <td>1</td>
3874 |       <td>1</td>
3875 |       <td>1</td>
3876 |     </tr>
3877 |     <tr>
3878 |       <th>AT</th>
3879 |       <td>0</td>
3880 |       <td>0</td>
3881 |       <td>0</td>
3882 |       <td>1</td>
3883 |     </tr>
3884 |     <tr>
3885 |       <th>636498</th>
3886 |       <td>1</td>
3887 |       <td>1</td>
3888 |       <td>1</td>
3889 |       <td>1</td>
3890 |     </tr>
3891 |   </tbody>
3892 | </table>
3893 | </div>
3894 | 
3895 | 
3896 | 
3897 | 
3898 | ```python
3899 | mask = (y_test_combined.simulated==0)# & (y_test_combined.y_true==0)
3900 | 
3901 | cm2 = confusion_matrix(y_test_combined[mask].y_true.values, y_test_combined[mask].y_pred.values)
3902 | 
3903 | if cm2.shape == (1,1):
3904 |     cm2 = np.array([[0,0],[0,cm2[0,0]]])
3905 | 
3906 | 
3907 | plot_confusion_matrix(cm2,
3908 |                       target_names=['Not a Group ID','Group ID'],
3909 |                       title='Confusion matrix',
3910 |                       cmap=None,
3911 |                       normalize=True);
3912 | 
3913 | print('Real data')
3914 | print("Confusion matrix: \n",cm2, "\n")
3915 | 
3916 | ```
3917 | 
3918 | 
3919 | ![png](images/output_94_0.png)
3920 | 
3921 | 
3922 |     Real data
3923 |     Confusion matrix: 
3924 |      [[825  48]
3925 |      [  2   8]] 
3926 |     
3927 | 
3928 | 
3929 | 
3930 | ```python
3931 | 
3932 | ```
3933 | 
3934 | 
3935 | ```python
3936 | 
3937 | ```
3938 | 
3939 | 
3940 | ```python
3941 | 
3942 | ```
3943 | 
3944 | 
3945 | ```python
3946 | 
3947 | ```
3948 | 
3949 | 
3950 | ```python
3951 | 
3952 | ```
3953 | 
3954 | 
3955 | ```python
3956 | 
3957 | ```
3958 | 
3959 | 
3960 | ```python
3961 | 
3962 | ```
3963 | 
3964 | Find the area under the curve.
3965 | 
3966 | 
3967 | ```python
3968 | """from sklearn.metrics import roc_auc_score
3969 | 
3970 | y_scores = forest_clf.predict_proba(X)
3971 | print('AUC:', round(roc_auc_score(y, y_scores[:,1]),3))"""
3972 | ```
3973 | 
3974 | 
3975 | 
3976 | 
3977 |     "from sklearn.metrics import roc_auc_score\n\ny_scores = forest_clf.predict_proba(X)\nprint('AUC:', round(roc_auc_score(y, y_scores[:,1]),3))"
3978 | 
3979 | 
3980 | 
3981 | Find feature importances
3982 | 
3983 | 
3984 | ```python
3985 | """# feature importance
3986 | df_fi = pd.DataFrame(index = df.columns.tolist()[3:])
3987 | df_fi = df_fi.assign(importance=forest_clf.feature_importances_)
3988 | df_fi = df_fi.sort_values(by=['importance'], ascending=False)"""
3989 | ```
3990 | 
3991 | 
3992 | 
3993 | 
3994 |     "# feature importance\ndf_fi = pd.DataFrame(index = df.columns.tolist()[3:])\ndf_fi = df_fi.assign(importance=forest_clf.feature_importances_)\ndf_fi = df_fi.sort_values(by=['importance'], ascending=False)"
3995 | 
3996 | 
3997 | 
3998 | 
3999 | ```python
4000 | 
4001 | ```
4002 | 
4003 | Plot feature importances
4004 | 
4005 | 
4006 | ```python
4007 | # Plot feature importances
4008 | cols = X_train.columns.values
4009 | importances = forest_clf.feature_importances_
4010 | indices = np.argsort(importances)[::-1]
4011 | 
4012 | plt.figure()
4013 | plt.title("Feature importances")
4014 | plt.bar(range(X_train.shape[1]), importances[indices],
4015 |        color="b", align="center")
4016 | plt.xticks(range(X_train.shape[1]), cols)
4017 | plt.xlim([-1, X.shape[1]])
4018 | plt.xticks(rotation=45)
4019 | plt.show();
4020 | ```
4021 | 
4022 | 
4023 | ![png](images/output_108_0.png)
4024 | 
4025 | 
4026 | #### Plot decision boundaries
4027 | 
4028 | https://scikit-learn.org/stable/auto_examples/ensemble/plot_voting_decision_regions.html
4029 | 
4030 | 
4031 | ```python
4032 | print(__doc__)
4033 | 
4034 | from itertools import product
4035 | 
4036 | import numpy as np
4037 | import matplotlib.pyplot as plt
4038 | 
4039 | from sklearn import datasets
4040 | from sklearn.tree import DecisionTreeClassifier
4041 | from sklearn.neighbors import KNeighborsClassifier
4042 | from sklearn.svm import SVC
4043 | from sklearn.ensemble import VotingClassifier, RandomForestClassifier
4044 | from sklearn.linear_model import LogisticRegression
4045 | 
4046 | # Loading some example data
4047 | iris = datasets.load_iris()
4048 | X = X_train.loc[:,['frac_alpha','frac_digit']].values
4049 | y = y_train.y.values
4050 | #X = iris.data[:, [0, 2]]
4051 | #y = iris.target
4052 | 
4053 | # Training classifiers
4054 | clf1 = DecisionTreeClassifier(max_depth=4)
4055 | clf2 = KNeighborsClassifier(n_neighbors=7)
4056 | clf3 = LogisticRegression()
4057 | #clf3 = SVC(gamma=.1, kernel='rbf', probability=True)
4058 | eclf = RandomForestClassifier(random_state=102)
4059 | #eclf = VotingClassifier(estimators=[('dt', clf1), ('knn', clf2),
4060 | #                                    ('svc', clf3)],
4061 | #                        voting='soft', weights=[2, 1, 2])
4062 | 
4063 | clf1.fit(X, y)
4064 | clf2.fit(X, y)
4065 | clf3.fit(X, y)
4066 | eclf.fit(X, y)
4067 | 
4068 | # Plotting decision regions
4069 | x_min, x_max = X[:, 0].min() - .1, X[:, 0].max() + .1
4070 | y_min, y_max = X[:, 1].min() - .1, X[:, 1].max() + .1
4071 | xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.1),
4072 |                      np.arange(y_min, y_max, 0.1))
4073 | 
4074 | f, axarr = plt.subplots(2, 2, sharex='col', sharey='row', figsize=(10, 8))
4075 | 
4076 | for idx, clf, tt in zip(product([0, 1], [0, 1]),
4077 |                         [clf1, clf2, clf3, eclf],
4078 |                         ['Decision Tree (depth=4)', 'KNN (k=7)',
4079 |                          'Logistic', 'Random Forest']):
4080 | 
4081 |     Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
4082 |     Z = Z.reshape(xx.shape)
4083 | 
4084 |     axarr[idx[0], idx[1]].contourf(xx, yy, Z, alpha=0.4)
4085 |     axarr[idx[0], idx[1]].scatter(X[:, 0], X[:, 1], c=y,
4086 |                                   s=20, edgecolor='k')
4087 |     axarr[idx[0], idx[1]].set_title(tt)
4088 | 
4089 | plt.show()
4090 | ```
4091 | 
4092 |     Automatically created module for IPython interactive environment
4093 | 
4094 | 
4095 | 
4096 | ![png](images/output_110_1.png)
4097 | 
4098 | 
4099 | 
4100 | ```python
4101 | 
4102 | ```
4103 | 
4104 | 
4105 | ```python
4106 | 
4107 | ```
4108 | 
4109 | 
4110 | ```python
4111 | 
4112 | ```
4113 | 
4114 | 
4115 | ```python
4116 | # AUC
4117 | from sklearn.metrics import roc_auc_score
4118 | 
4119 | y_test_scores = forest_clf.predict_proba(X_test)
4120 | print('AUC:', round(roc_auc_score(y_test, y_test_scores[:,1]),3))
4121 | ```
4122 | 
4123 |     AUC: 0.988
4124 | 
4125 | 
4126 | Train model on simulated data and test on real data.
4127 | 
4128 | 
4129 | ```python
4130 | # put all real group ids in test set.
4131 | np.random.seed(103)
4132 | ind_test = np.where(np.logical_and(df3.simulated_1==0, df3.y==1))[0]
4133 | sample = [i for i in range(df3.shape[0]) if i not in ind_test]
4134 | more_indices = np.random.choice(sample, int(len(ind_test)*20), replace=False)
4135 | more_indices1 = [i for i in more_indices if df3.simulated_1[i]==0]  # throw away if it's simulated
4136 | ind_test = np.concatenate((ind_test, more_indices1))
4137 | 
4138 | ind_train = np.array([i for i in range(df3.shape[0]) if i not in ind_test])
4139 | 
4140 | X_train = df3.iloc[ind_train,:-1].copy()
4141 | X_test = df3.iloc[ind_test,:-1].copy()
4142 | 
4143 | y_train = df3.iloc[ind_train,-1].copy()
4144 | y_test = df3.iloc[ind_test,-1].copy()
4145 | 
4146 | X_train_simulated = pd.DataFrame(X_train['simulated_1'].copy())
4147 | X_test_simulated = pd.DataFrame(X_test['simulated_1'].copy())
4148 | 
4149 | X_train.drop(columns=['simulated_0', 'simulated_1'], inplace=True)
4150 | X_test.drop(columns=['simulated_0', 'simulated_1'], inplace=True)
4151 | 
4152 | y_train = pd.DataFrame(y_train)
4153 | y_test = pd.DataFrame(y_test)
4154 | ```
4155 | 
4156 | 
4157 | ```python
4158 | forest_clf1 = RandomForestClassifier(random_state=102)
4159 | forest_clf1.fit(X_train, y_train.y.values)
4160 | 
4161 | y_pred = forest_clf1.predict(X_test)
4162 | print("%d out of %d exmaples were wrong."
4163 |       % ((y_test.y != y_pred).sum(), X_test.shape[0]))
4164 | ```
4165 | 
4166 |     15 out of 287 exmaples were wrong.
4167 | 
4168 | 
4169 | 
4170 | ```python
4171 | cm3 = confusion_matrix(y_test.y.values, y_pred)
4172 | 
4173 | if cm3.shape == (1,1):
4174 |     cm3 = np.array([[0,0],[0,cm2[0,0]]])
4175 | 
4176 | 
4177 | plot_confusion_matrix(cm3,
4178 |                       target_names=['Not a Group ID','Group ID'],
4179 |                       title='Confusion matrix',
4180 |                       cmap=None,
4181 |                       normalize=True);
4182 | 
4183 | print('Test set has all the real group IDs')
4184 | print("Confusion matrix: \n",cm3, "\n")
4185 | ```
4186 | 
4187 | 
4188 | ![png](images/output_118_0.png)
4189 | 
4190 | 
4191 |     Test set has all the real group IDs
4192 |     Confusion matrix: 
4193 |      [[254  11]
4194 |      [  4  18]] 
4195 |     
4196 | 
4197 | 
4198 | 
4199 | ```python
4200 | 
4201 | ```
4202 | 
4203 | 
4204 | ```python
4205 | 
4206 | ```
4207 | 
4208 | 
4209 | ```python
4210 | 
4211 | ```
4212 | 


--------------------------------------------------------------------------------