├── .gitignore
├── models
    ├── model.h5
    ├── scaler.pki
    ├── onehot_encoder_geo.pki
    └── label_encoder_gender.pki
├── requirements.txt
├── logs
    └── fit
    │   └── 20250114-020203
    │       ├── train
    │           ├── events.out.tfevents.1736849161.DAVEWORLD.21368.0.v2
    │           └── events.out.tfevents.1736849278.DAVEWORLD.21368.2.v2
    │       └── validation
    │           ├── events.out.tfevents.1736849171.DAVEWORLD.21368.1.v2
    │           └── events.out.tfevents.1736849282.DAVEWORLD.21368.3.v2
├── .devcontainer
    └── devcontainer.json
├── README.md
├── app.py
└── training
    ├── model_prediction.ipynb
    ├── hyperparametertuning.ipynb
    └── model_training.ipynb


/.gitignore:
--------------------------------------------------------------------------------
1 | venv/


--------------------------------------------------------------------------------
/models/model.h5:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/EniolaAdemola/customer-churn-classification/HEAD/models/model.h5


--------------------------------------------------------------------------------
/models/scaler.pki:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/EniolaAdemola/customer-churn-classification/HEAD/models/scaler.pki


--------------------------------------------------------------------------------
/models/onehot_encoder_geo.pki:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/EniolaAdemola/customer-churn-classification/HEAD/models/onehot_encoder_geo.pki


--------------------------------------------------------------------------------
/models/label_encoder_gender.pki:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/EniolaAdemola/customer-churn-classification/HEAD/models/label_encoder_gender.pki


--------------------------------------------------------------------------------
/requirements.txt:
--------------------------------------------------------------------------------
1 | # tensorflow==2.15.0 
2 | tensorflow==2.16.1 #Try this version if you have issues with the 2.15.0 version
3 | numpy
4 | pandas
5 | matplotlib
6 | scikit-learn
7 | streamlit
8 | scikeras
9 | tensorboard


--------------------------------------------------------------------------------
/logs/fit/20250114-020203/train/events.out.tfevents.1736849161.DAVEWORLD.21368.0.v2:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/EniolaAdemola/customer-churn-classification/HEAD/logs/fit/20250114-020203/train/events.out.tfevents.1736849161.DAVEWORLD.21368.0.v2


--------------------------------------------------------------------------------
/logs/fit/20250114-020203/train/events.out.tfevents.1736849278.DAVEWORLD.21368.2.v2:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/EniolaAdemola/customer-churn-classification/HEAD/logs/fit/20250114-020203/train/events.out.tfevents.1736849278.DAVEWORLD.21368.2.v2


--------------------------------------------------------------------------------
/logs/fit/20250114-020203/validation/events.out.tfevents.1736849171.DAVEWORLD.21368.1.v2:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/EniolaAdemola/customer-churn-classification/HEAD/logs/fit/20250114-020203/validation/events.out.tfevents.1736849171.DAVEWORLD.21368.1.v2


--------------------------------------------------------------------------------
/logs/fit/20250114-020203/validation/events.out.tfevents.1736849282.DAVEWORLD.21368.3.v2:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/EniolaAdemola/customer-churn-classification/HEAD/logs/fit/20250114-020203/validation/events.out.tfevents.1736849282.DAVEWORLD.21368.3.v2


--------------------------------------------------------------------------------
/.devcontainer/devcontainer.json:
--------------------------------------------------------------------------------
 1 | {
 2 |   "name": "Python 3",
 3 |   // Or use a Dockerfile or Docker Compose file. More info: https://containers.dev/guide/dockerfile
 4 |   "image": "mcr.microsoft.com/devcontainers/python:1-3.11-bullseye",
 5 |   "customizations": {
 6 |     "codespaces": {
 7 |       "openFiles": [
 8 |         "README.md",
 9 |         "app.py"
10 |       ]
11 |     },
12 |     "vscode": {
13 |       "settings": {},
14 |       "extensions": [
15 |         "ms-python.python",
16 |         "ms-python.vscode-pylance"
17 |       ]
18 |     }
19 |   },
20 |   "updateContentCommand": "[ -f packages.txt ] && sudo apt update && sudo apt upgrade -y && sudo xargs apt install -y <packages.txt; [ -f requirements.txt ] && pip3 install --user -r requirements.txt; pip3 install --user streamlit; echo '✅ Packages installed and Requirements met'",
21 |   "postAttachCommand": {
22 |     "server": "streamlit run app.py --server.enableCORS false --server.enableXsrfProtection false"
23 |   },
24 |   "portsAttributes": {
25 |     "8501": {
26 |       "label": "Application",
27 |       "onAutoForward": "openPreview"
28 |     }
29 |   },
30 |   "forwardPorts": [
31 |     8501
32 |   ]
33 | }


--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
 1 | # Customer Churn Classification
 2 | 
 3 | This repository contains a **Customer Churn Classification** project. The aim is to predict whether a customer is likely to churn (i.e., stop doing business with a company) based on their historical data and behavior.
 4 | 
 5 | ## Introduction
 6 | 
 7 | Customer churn is a critical metric for businesses to monitor as it directly impacts revenue. This project uses Neural network to classify customers into "churn" and "non-churn" categories based on given datasets.
 8 | 
 9 | ## How to Use This Repository
10 | 
11 | 1. Clone the repository:
12 | 
13 |    ```bash
14 |    git clone https://github.com/EniolaAdemola/customer-churn-classification.git
15 | 
16 |    ```
17 | 
18 | 2. Navigate to the project directory:
19 | 
20 |    ```bash
21 |    cd customer-churn-classification
22 |    ```
23 | 
24 | 3. Install the required dependencies:
25 | 
26 | (**Recommended**: make sure to create your virtual environment, activate it and run the command below)
27 | 
28 | ```bash
29 | pip install -r requirements.txt
30 | ```
31 | 
32 | ## Running the Application
33 | 
34 | Run the following command to start the Streamlit app:
35 | 
36 | ```bash
37 | streamlit run app.py
38 | ```
39 | 
40 | This will launch the web interface for classifying customer churn.
41 | 
42 | ![Churn Image CLaasification](https://github.com/user-attachments/assets/4c1f0225-bf3c-4b6f-a27b-11c95a06c618)
43 | 


--------------------------------------------------------------------------------
/app.py:
--------------------------------------------------------------------------------
 1 | import streamlit as st
 2 | import numpy as np
 3 | import pandas as pd
 4 | import pickle
 5 | from tensorflow.keras.models import load_model
 6 | from sklearn.preprocessing import StandardScaler, LabelEncoder, OneHotEncoder
 7 | 
 8 | # Load the trained model, Scaler, LabelEncoder, and one hot encoder
 9 | model = load_model('./models/model.h5')
10 | 
11 | # Load the encoder and scaler
12 | with open('./models/onehot_encoder_geo.pki', 'rb') as file:
13 |     onehot_encoder_geo = pickle.load(file)
14 | 
15 | with open('./models/label_encoder_gender.pki', 'rb') as file:
16 |     label_encoder_gender = pickle.load(file)
17 | 
18 | with open('./models/scaler.pki', 'rb') as file:
19 |     scaler = pickle.load(file)
20 | 
21 | 
22 | st.title('Customer Churn Prediction')
23 | 
24 | # Create a form to enter the customer information
25 | geography = st.selectbox("Geography", onehot_encoder_geo.categories_[0])
26 | gender = st.selectbox("Gender", label_encoder_gender.classes_)
27 | age = st.slider("Age", 18, 100)
28 | balance = st.number_input("Balance")
29 | credit_score = st.number_input("Credit Score")
30 | estimated_salary = st.number_input("Estimated Salary")
31 | tenure = st.slider("Tenure", 0, 10)
32 | num_of_products = st.slider("Number of Products", 1, 4)
33 | has_credit_card = st.radio("Has Credit Card", [0, 1])
34 | is_active_member = st.radio("Is Active Member", [0, 1])
35 | 
36 | # prepare the input data
37 | input_data = pd.DataFrame({
38 |     'CreditScore': [credit_score],
39 |     'Gender': [label_encoder_gender.transform([gender])[0]],
40 |     'Age': [age],
41 |     'Tenure': [tenure],
42 |     'Balance': [balance],
43 |     'NumOfProducts': [num_of_products],
44 |     'HasCrCard': [has_credit_card],
45 |     'IsActiveMember': [is_active_member],
46 |     'EstimatedSalary': [estimated_salary]
47 | })
48 | 
49 | # One-hot encode 'Geography'
50 | geo_encoded = onehot_encoder_geo.transform([[geography]]).toarray()
51 | geo_encoded_df = pd.DataFrame(geo_encoded, columns=onehot_encoder_geo.get_feature_names_out(['Geography']))
52 | 
53 | # Combine one-hot encoded columns with input data
54 | input_data = pd.concat([input_data.reset_index(drop=True), geo_encoded_df], axis=1)
55 | 
56 | # Scale the input data
57 | input_data_scaled = scaler.transform(input_data)
58 | 
59 | prediction = model.predict(input_data_scaled)
60 | prediction_proba = prediction[0][0]
61 | 
62 | 
63 | proba_percentage = prediction_proba * 100
64 | 
65 | st.write(f"Prediction: {prediction_proba:.3f}")
66 | 
67 | # Determine and display the likelihood of churn
68 | if prediction_proba > 0.5:
69 |     st.write(f"There is a {proba_percentage:.2f}% chance the customer is likely to churn.")
70 | else:
71 |     st.write(f"There is a {proba_percentage:.2f}% chance the customer is not likely to churn.")
72 | 
73 | 
74 | 


--------------------------------------------------------------------------------
/training/model_prediction.ipynb:
--------------------------------------------------------------------------------
  1 | {
  2 |  "cells": [
  3 |   {
  4 |    "cell_type": "code",
  5 |    "execution_count": 1,
  6 |    "metadata": {},
  7 |    "outputs": [],
  8 |    "source": [
  9 |     "import tensorflow as tf\n",
 10 |     "from tensorflow.keras.models import load_model\n",
 11 |     "import pickle\n",
 12 |     "import numpy as np\n",
 13 |     "import pandas as pd"
 14 |    ]
 15 |   },
 16 |   {
 17 |    "cell_type": "code",
 18 |    "execution_count": 3,
 19 |    "metadata": {},
 20 |    "outputs": [],
 21 |    "source": [
 22 |     "# Load the trained model, Scaler, LabelEncoder, and one hot encoder\n",
 23 |     "model = load_model('../models/model.h5')\n",
 24 |     "\n",
 25 |     "# Load the encoder and scaler\n",
 26 |     "with open('../models/onehot_encoder_geo.pki', 'rb') as file:\n",
 27 |     "    label_encoder_geo = pickle.load(file)\n",
 28 |     "\n",
 29 |     "with open('../models/label_encoder_gender.pki', 'rb') as file:\n",
 30 |     "    label_encoder_gender = pickle.load(file)\n",
 31 |     "\n",
 32 |     "with open('../models/scaler.pki', 'rb') as file:\n",
 33 |     "    scaler = pickle.load(file)"
 34 |    ]
 35 |   },
 36 |   {
 37 |    "cell_type": "code",
 38 |    "execution_count": 4,
 39 |    "metadata": {},
 40 |    "outputs": [],
 41 |    "source": [
 42 |     "input_data = {\n",
 43 |     "    'CreditScore': 600,\n",
 44 |     "    'Geography': 'France',\n",
 45 |     "    'Gender': 'Male',\n",
 46 |     "    'Age': 40,\n",
 47 |     "    'Tenure': 3,\n",
 48 |     "    'Balance': 60000,\n",
 49 |     "    'NumOfProducts': 2,\n",
 50 |     "    'HasCrCard': 1,\n",
 51 |     "    'IsActiveMember': 1,\n",
 52 |     "    'EstimatedSalary': 50000\n",
 53 |     "}"
 54 |    ]
 55 |   },
 56 |   {
 57 |    "cell_type": "code",
 58 |    "execution_count": null,
 59 |    "metadata": {},
 60 |    "outputs": [
 61 |     {
 62 |      "name": "stderr",
 63 |      "output_type": "stream",
 64 |      "text": [
 65 |       "c:\\Users\\HP\\Documents\\appliso-genai-class\\class-project\\churn-classification\\venv\\Lib\\site-packages\\sklearn\\utils\\validation.py:2739: UserWarning: X does not have valid feature names, but OneHotEncoder was fitted with feature names\n",
 66 |       "  warnings.warn(\n"
 67 |      ]
 68 |     },
 69 |     {
 70 |      "data": {
 71 |       "text/html": [
 72 |        "<div>\n",
 73 |        "<style scoped>\n",
 74 |        "    .dataframe tbody tr th:only-of-type {\n",
 75 |        "        vertical-align: middle;\n",
 76 |        "    }\n",
 77 |        "\n",
 78 |        "    .dataframe tbody tr th {\n",
 79 |        "        vertical-align: top;\n",
 80 |        "    }\n",
 81 |        "\n",
 82 |        "    .dataframe thead th {\n",
 83 |        "        text-align: right;\n",
 84 |        "    }\n",
 85 |        "</style>\n",
 86 |        "<table border=\"1\" class=\"dataframe\">\n",
 87 |        "  <thead>\n",
 88 |        "    <tr style=\"text-align: right;\">\n",
 89 |        "      <th></th>\n",
 90 |        "      <th>Geography_France</th>\n",
 91 |        "      <th>Geography_Germany</th>\n",
 92 |        "      <th>Geography_Spain</th>\n",
 93 |        "    </tr>\n",
 94 |        "  </thead>\n",
 95 |        "  <tbody>\n",
 96 |        "    <tr>\n",
 97 |        "      <th>0</th>\n",
 98 |        "      <td>1.0</td>\n",
 99 |        "      <td>0.0</td>\n",
100 |        "      <td>0.0</td>\n",
101 |        "    </tr>\n",
102 |        "  </tbody>\n",
103 |        "</table>\n",
104 |        "</div>"
105 |       ],
106 |       "text/plain": [
107 |        "   Geography_France  Geography_Germany  Geography_Spain\n",
108 |        "0               1.0                0.0              0.0"
109 |       ]
110 |      },
111 |      "execution_count": 13,
112 |      "metadata": {},
113 |      "output_type": "execute_result"
114 |     }
115 |    ],
116 |    "source": [
117 |     "geo_encoded = label_encoder_geo.transform([[input_data['Geography']]]).toarray()\n",
118 |     "# geo_encoded_df(pd.DataFrame(encoded, columns=onehot_encoder_geo.categories_[0]))\n",
119 |     "geo_encoded_df = pd.DataFrame(geo_encoded, columns=label_encoder_geo.get_feature_names_out([\"Geography\"])) #you can also use categories_ to get the column name\n",
120 |     "geo_encoded_df"
121 |    ]
122 |   },
123 |   {
124 |    "cell_type": "code",
125 |    "execution_count": 14,
126 |    "metadata": {},
127 |    "outputs": [
128 |     {
129 |      "data": {
130 |       "text/plain": [
131 |        "{'CreditScore': 600,\n",
132 |        " 'Geography': 'France',\n",
133 |        " 'Gender': 'Male',\n",
134 |        " 'Age': 40,\n",
135 |        " 'Tenure': 3,\n",
136 |        " 'Balance': 60000,\n",
137 |        " 'NumOfProducts': 2,\n",
138 |        " 'HasCrCard': 1,\n",
139 |        " 'IsActiveMember': 1,\n",
140 |        " 'EstimatedSalary': 50000}"
141 |       ]
142 |      },
143 |      "execution_count": 14,
144 |      "metadata": {},
145 |      "output_type": "execute_result"
146 |     }
147 |    ],
148 |    "source": [
149 |     "input_data"
150 |    ]
151 |   },
152 |   {
153 |    "cell_type": "code",
154 |    "execution_count": null,
155 |    "metadata": {},
156 |    "outputs": [
157 |     {
158 |      "data": {
159 |       "text/html": [
160 |        "<div>\n",
161 |        "<style scoped>\n",
162 |        "    .dataframe tbody tr th:only-of-type {\n",
163 |        "        vertical-align: middle;\n",
164 |        "    }\n",
165 |        "\n",
166 |        "    .dataframe tbody tr th {\n",
167 |        "        vertical-align: top;\n",
168 |        "    }\n",
169 |        "\n",
170 |        "    .dataframe thead th {\n",
171 |        "        text-align: right;\n",
172 |        "    }\n",
173 |        "</style>\n",
174 |        "<table border=\"1\" class=\"dataframe\">\n",
175 |        "  <thead>\n",
176 |        "    <tr style=\"text-align: right;\">\n",
177 |        "      <th></th>\n",
178 |        "      <th>CreditScore</th>\n",
179 |        "      <th>Geography</th>\n",
180 |        "      <th>Gender</th>\n",
181 |        "      <th>Age</th>\n",
182 |        "      <th>Tenure</th>\n",
183 |        "      <th>Balance</th>\n",
184 |        "      <th>NumOfProducts</th>\n",
185 |        "      <th>HasCrCard</th>\n",
186 |        "      <th>IsActiveMember</th>\n",
187 |        "      <th>EstimatedSalary</th>\n",
188 |        "    </tr>\n",
189 |        "  </thead>\n",
190 |        "  <tbody>\n",
191 |        "    <tr>\n",
192 |        "      <th>0</th>\n",
193 |        "      <td>600</td>\n",
194 |        "      <td>France</td>\n",
195 |        "      <td>Male</td>\n",
196 |        "      <td>40</td>\n",
197 |        "      <td>3</td>\n",
198 |        "      <td>60000</td>\n",
199 |        "      <td>2</td>\n",
200 |        "      <td>1</td>\n",
201 |        "      <td>1</td>\n",
202 |        "      <td>50000</td>\n",
203 |        "    </tr>\n",
204 |        "  </tbody>\n",
205 |        "</table>\n",
206 |        "</div>"
207 |       ],
208 |       "text/plain": [
209 |        "   CreditScore Geography Gender  ...  HasCrCard  IsActiveMember  EstimatedSalary\n",
210 |        "0          600    France   Male  ...          1               1            50000\n",
211 |        "\n",
212 |        "[1 rows x 10 columns]"
213 |       ]
214 |      },
215 |      "execution_count": 23,
216 |      "metadata": {},
217 |      "output_type": "execute_result"
218 |     }
219 |    ],
220 |    "source": [
221 |     "# turn the inout to a dataframe\n",
222 |     "input_df = pd.DataFrame([input_data])\n",
223 |     "input_df"
224 |    ]
225 |   },
226 |   {
227 |    "cell_type": "code",
228 |    "execution_count": 24,
229 |    "metadata": {},
230 |    "outputs": [
231 |     {
232 |      "data": {
233 |       "text/html": [
234 |        "<div>\n",
235 |        "<style scoped>\n",
236 |        "    .dataframe tbody tr th:only-of-type {\n",
237 |        "        vertical-align: middle;\n",
238 |        "    }\n",
239 |        "\n",
240 |        "    .dataframe tbody tr th {\n",
241 |        "        vertical-align: top;\n",
242 |        "    }\n",
243 |        "\n",
244 |        "    .dataframe thead th {\n",
245 |        "        text-align: right;\n",
246 |        "    }\n",
247 |        "</style>\n",
248 |        "<table border=\"1\" class=\"dataframe\">\n",
249 |        "  <thead>\n",
250 |        "    <tr style=\"text-align: right;\">\n",
251 |        "      <th></th>\n",
252 |        "      <th>CreditScore</th>\n",
253 |        "      <th>Geography</th>\n",
254 |        "      <th>Gender</th>\n",
255 |        "      <th>Age</th>\n",
256 |        "      <th>Tenure</th>\n",
257 |        "      <th>Balance</th>\n",
258 |        "      <th>NumOfProducts</th>\n",
259 |        "      <th>HasCrCard</th>\n",
260 |        "      <th>IsActiveMember</th>\n",
261 |        "      <th>EstimatedSalary</th>\n",
262 |        "    </tr>\n",
263 |        "  </thead>\n",
264 |        "  <tbody>\n",
265 |        "    <tr>\n",
266 |        "      <th>0</th>\n",
267 |        "      <td>600</td>\n",
268 |        "      <td>France</td>\n",
269 |        "      <td>1</td>\n",
270 |        "      <td>40</td>\n",
271 |        "      <td>3</td>\n",
272 |        "      <td>60000</td>\n",
273 |        "      <td>2</td>\n",
274 |        "      <td>1</td>\n",
275 |        "      <td>1</td>\n",
276 |        "      <td>50000</td>\n",
277 |        "    </tr>\n",
278 |        "  </tbody>\n",
279 |        "</table>\n",
280 |        "</div>"
281 |       ],
282 |       "text/plain": [
283 |        "   CreditScore Geography  Gender  ...  HasCrCard  IsActiveMember  EstimatedSalary\n",
284 |        "0          600    France       1  ...          1               1            50000\n",
285 |        "\n",
286 |        "[1 rows x 10 columns]"
287 |       ]
288 |      },
289 |      "execution_count": 24,
290 |      "metadata": {},
291 |      "output_type": "execute_result"
292 |     }
293 |    ],
294 |    "source": [
295 |     "# Encoding the gender\n",
296 |     "input_df[\"Gender\"] = label_encoder_gender.transform(input_df[\"Gender\"])\n",
297 |     "input_df"
298 |    ]
299 |   },
300 |   {
301 |    "cell_type": "code",
302 |    "execution_count": null,
303 |    "metadata": {},
304 |    "outputs": [
305 |     {
306 |      "data": {
307 |       "text/html": [
308 |        "<div>\n",
309 |        "<style scoped>\n",
310 |        "    .dataframe tbody tr th:only-of-type {\n",
311 |        "        vertical-align: middle;\n",
312 |        "    }\n",
313 |        "\n",
314 |        "    .dataframe tbody tr th {\n",
315 |        "        vertical-align: top;\n",
316 |        "    }\n",
317 |        "\n",
318 |        "    .dataframe thead th {\n",
319 |        "        text-align: right;\n",
320 |        "    }\n",
321 |        "</style>\n",
322 |        "<table border=\"1\" class=\"dataframe\">\n",
323 |        "  <thead>\n",
324 |        "    <tr style=\"text-align: right;\">\n",
325 |        "      <th></th>\n",
326 |        "      <th>CreditScore</th>\n",
327 |        "      <th>Gender</th>\n",
328 |        "      <th>Age</th>\n",
329 |        "      <th>Tenure</th>\n",
330 |        "      <th>Balance</th>\n",
331 |        "      <th>NumOfProducts</th>\n",
332 |        "      <th>HasCrCard</th>\n",
333 |        "      <th>IsActiveMember</th>\n",
334 |        "      <th>EstimatedSalary</th>\n",
335 |        "      <th>Geography_France</th>\n",
336 |        "      <th>Geography_Germany</th>\n",
337 |        "      <th>Geography_Spain</th>\n",
338 |        "    </tr>\n",
339 |        "  </thead>\n",
340 |        "  <tbody>\n",
341 |        "    <tr>\n",
342 |        "      <th>0</th>\n",
343 |        "      <td>600</td>\n",
344 |        "      <td>1</td>\n",
345 |        "      <td>40</td>\n",
346 |        "      <td>3</td>\n",
347 |        "      <td>60000</td>\n",
348 |        "      <td>2</td>\n",
349 |        "      <td>1</td>\n",
350 |        "      <td>1</td>\n",
351 |        "      <td>50000</td>\n",
352 |        "      <td>1.0</td>\n",
353 |        "      <td>0.0</td>\n",
354 |        "      <td>0.0</td>\n",
355 |        "    </tr>\n",
356 |        "  </tbody>\n",
357 |        "</table>\n",
358 |        "</div>"
359 |       ],
360 |       "text/plain": [
361 |        "   CreditScore  Gender  ...  Geography_Germany  Geography_Spain\n",
362 |        "0          600       1  ...                0.0              0.0\n",
363 |        "\n",
364 |        "[1 rows x 12 columns]"
365 |       ]
366 |      },
367 |      "execution_count": 25,
368 |      "metadata": {},
369 |      "output_type": "execute_result"
370 |     }
371 |    ],
372 |    "source": [
373 |     "# Drop the Geography column and add the encoded geography columns\n",
374 |     "input_df = pd.concat([input_df.drop(\"Geography\", axis=1), geo_encoded_df], axis=1)\n",
375 |     "input_df"
376 |    ]
377 |   },
378 |   {
379 |    "cell_type": "code",
380 |    "execution_count": 26,
381 |    "metadata": {},
382 |    "outputs": [
383 |     {
384 |      "data": {
385 |       "text/html": [
386 |        "<div>\n",
387 |        "<style scoped>\n",
388 |        "    .dataframe tbody tr th:only-of-type {\n",
389 |        "        vertical-align: middle;\n",
390 |        "    }\n",
391 |        "\n",
392 |        "    .dataframe tbody tr th {\n",
393 |        "        vertical-align: top;\n",
394 |        "    }\n",
395 |        "\n",
396 |        "    .dataframe thead th {\n",
397 |        "        text-align: right;\n",
398 |        "    }\n",
399 |        "</style>\n",
400 |        "<table border=\"1\" class=\"dataframe\">\n",
401 |        "  <thead>\n",
402 |        "    <tr style=\"text-align: right;\">\n",
403 |        "      <th></th>\n",
404 |        "      <th>CreditScore</th>\n",
405 |        "      <th>Gender</th>\n",
406 |        "      <th>Age</th>\n",
407 |        "      <th>Tenure</th>\n",
408 |        "      <th>Balance</th>\n",
409 |        "      <th>NumOfProducts</th>\n",
410 |        "      <th>HasCrCard</th>\n",
411 |        "      <th>IsActiveMember</th>\n",
412 |        "      <th>EstimatedSalary</th>\n",
413 |        "      <th>Geography_France</th>\n",
414 |        "      <th>Geography_Germany</th>\n",
415 |        "      <th>Geography_Spain</th>\n",
416 |        "    </tr>\n",
417 |        "  </thead>\n",
418 |        "  <tbody>\n",
419 |        "    <tr>\n",
420 |        "      <th>0</th>\n",
421 |        "      <td>600</td>\n",
422 |        "      <td>1</td>\n",
423 |        "      <td>40</td>\n",
424 |        "      <td>3</td>\n",
425 |        "      <td>60000</td>\n",
426 |        "      <td>2</td>\n",
427 |        "      <td>1</td>\n",
428 |        "      <td>1</td>\n",
429 |        "      <td>50000</td>\n",
430 |        "      <td>1.0</td>\n",
431 |        "      <td>0.0</td>\n",
432 |        "      <td>0.0</td>\n",
433 |        "    </tr>\n",
434 |        "  </tbody>\n",
435 |        "</table>\n",
436 |        "</div>"
437 |       ],
438 |       "text/plain": [
439 |        "   CreditScore  Gender  ...  Geography_Germany  Geography_Spain\n",
440 |        "0          600       1  ...                0.0              0.0\n",
441 |        "\n",
442 |        "[1 rows x 12 columns]"
443 |       ]
444 |      },
445 |      "execution_count": 26,
446 |      "metadata": {},
447 |      "output_type": "execute_result"
448 |     }
449 |    ],
450 |    "source": [
451 |     "input_df"
452 |    ]
453 |   },
454 |   {
455 |    "cell_type": "code",
456 |    "execution_count": 27,
457 |    "metadata": {},
458 |    "outputs": [
459 |     {
460 |      "data": {
461 |       "text/plain": [
462 |        "array([[-0.53598516,  0.91324755,  0.10479359, -0.69539349, -0.25781119,\n",
463 |        "         0.80843615,  0.64920267,  0.97481699, -0.87683221,  1.00150113,\n",
464 |        "        -0.57946723, -0.57638802]])"
465 |       ]
466 |      },
467 |      "execution_count": 27,
468 |      "metadata": {},
469 |      "output_type": "execute_result"
470 |     }
471 |    ],
472 |    "source": [
473 |     "# Scale the input\n",
474 |     "input_scaled = scaler.transform(input_df)\n",
475 |     "input_scaled"
476 |    ]
477 |   },
478 |   {
479 |    "cell_type": "code",
480 |    "execution_count": 28,
481 |    "metadata": {},
482 |    "outputs": [
483 |     {
484 |      "name": "stdout",
485 |      "output_type": "stream",
486 |      "text": [
487 |       "1/1 [==============================] - 0s 494ms/step\n"
488 |      ]
489 |     }
490 |    ],
491 |    "source": [
492 |     "# Make a prediction\n",
493 |     "prediction = model.predict(input_scaled)"
494 |    ]
495 |   },
496 |   {
497 |    "cell_type": "code",
498 |    "execution_count": 30,
499 |    "metadata": {},
500 |    "outputs": [
501 |     {
502 |      "data": {
503 |       "text/plain": [
504 |        "array([[0.05843489]], dtype=float32)"
505 |       ]
506 |      },
507 |      "execution_count": 30,
508 |      "metadata": {},
509 |      "output_type": "execute_result"
510 |     }
511 |    ],
512 |    "source": [
513 |     "prediction"
514 |    ]
515 |   },
516 |   {
517 |    "cell_type": "code",
518 |    "execution_count": 32,
519 |    "metadata": {},
520 |    "outputs": [
521 |     {
522 |      "data": {
523 |       "text/plain": [
524 |        "0.05843489"
525 |       ]
526 |      },
527 |      "execution_count": 32,
528 |      "metadata": {},
529 |      "output_type": "execute_result"
530 |     }
531 |    ],
532 |    "source": [
533 |     "prediction_proba = prediction[0][0]\n",
534 |     "prediction_proba"
535 |    ]
536 |   },
537 |   {
538 |    "cell_type": "code",
539 |    "execution_count": 34,
540 |    "metadata": {},
541 |    "outputs": [
542 |     {
543 |      "name": "stdout",
544 |      "output_type": "stream",
545 |      "text": [
546 |       "The customer is likely to stay with the bank\n"
547 |      ]
548 |     }
549 |    ],
550 |    "source": [
551 |     "# Print the prediction\n",
552 |     "if prediction_proba > 0.5:\n",
553 |     "    print(\"The customer is likely to leave the bank\")\n",
554 |     "else:\n",
555 |     "    print(\"The customer is likely to stay with the bank\")"
556 |    ]
557 |   }
558 |  ],
559 |  "metadata": {
560 |   "kernelspec": {
561 |    "display_name": "Python 3",
562 |    "language": "python",
563 |    "name": "python3"
564 |   },
565 |   "language_info": {
566 |    "codemirror_mode": {
567 |     "name": "ipython",
568 |     "version": 3
569 |    },
570 |    "file_extension": ".py",
571 |    "mimetype": "text/x-python",
572 |    "name": "python",
573 |    "nbconvert_exporter": "python",
574 |    "pygments_lexer": "ipython3",
575 |    "version": "3.11.0"
576 |   }
577 |  },
578 |  "nbformat": 4,
579 |  "nbformat_minor": 2
580 | }
581 | 


--------------------------------------------------------------------------------
/training/hyperparametertuning.ipynb:
--------------------------------------------------------------------------------
  1 | {
  2 |  "cells": [
  3 |   {
  4 |    "cell_type": "markdown",
  5 |    "metadata": {},
  6 |    "source": [
  7 |     "### Finding the Best Layout for a Neural Network\n",
  8 |     "\n",
  9 |     "Choosing the right number of hidden layers and neurons can be tricky, but these tips can help:\n",
 10 |     "\n",
 11 |     "- **Start Simple**: Begin with a basic design and add complexity only if needed.\n",
 12 |     "- **Experiment**: Use methods like grid search or random search to try different architectures.\n",
 13 |     "- **Test & Validate**: Apply cross-validation to check the performance of your designs.\n",
 14 |     "- **Follow Basic Rules**:\n",
 15 |     "  - The size of the hidden layer should be between the input and output layer sizes.\n",
 16 |     "  - Starting with 1-2 hidden layers is often a good approach.\n"
 17 |    ]
 18 |   },
 19 |   {
 20 |    "cell_type": "code",
 21 |    "execution_count": 3,
 22 |    "metadata": {},
 23 |    "outputs": [],
 24 |    "source": [
 25 |     "import pandas as pd\n",
 26 |     "from sklearn.model_selection import train_test_split, GridSearchCV\n",
 27 |     "from sklearn.preprocessing import StandardScaler, LabelEncoder, OneHotEncoder\n",
 28 |     "from sklearn.pipeline import Pipeline\n",
 29 |     "from scikeras.wrappers import KerasClassifier\n",
 30 |     "import tensorflow as tf\n",
 31 |     "from tensorflow.keras.models import Sequential\n",
 32 |     "from tensorflow.keras.layers import Dense\n",
 33 |     "from tensorflow.keras.callbacks import EarlyStopping\n",
 34 |     "import pickle"
 35 |    ]
 36 |   },
 37 |   {
 38 |    "cell_type": "code",
 39 |    "execution_count": 4,
 40 |    "metadata": {},
 41 |    "outputs": [],
 42 |    "source": [
 43 |     "data=pd.read_csv('../data/Churn_Modelling.csv')\n",
 44 |     "data = data.drop(['RowNumber', 'CustomerId', 'Surname'], axis=1)\n",
 45 |     "\n",
 46 |     "label_encoder_gender = LabelEncoder()\n",
 47 |     "data['Gender'] = label_encoder_gender.fit_transform(data['Gender'])\n",
 48 |     "\n",
 49 |     "onehot_encoder_geo = OneHotEncoder(handle_unknown='ignore')\n",
 50 |     "geo_encoded = onehot_encoder_geo.fit_transform(data[['Geography']]).toarray()\n",
 51 |     "geo_encoded_df = pd.DataFrame(geo_encoded, columns=onehot_encoder_geo.get_feature_names_out(['Geography']))\n",
 52 |     "\n",
 53 |     "data = pd.concat([data.drop('Geography', axis=1), geo_encoded_df], axis=1)\n",
 54 |     "\n",
 55 |     "X = data.drop('Exited', axis=1)\n",
 56 |     "y = data['Exited']\n",
 57 |     "\n",
 58 |     "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)\n",
 59 |     "\n",
 60 |     "scaler = StandardScaler()\n",
 61 |     "X_train = scaler.fit_transform(X_train)\n",
 62 |     "X_test = scaler.transform(X_test)\n",
 63 |     "\n",
 64 |     "# Save encoders and scaler for later use\n",
 65 |     "with open('../models/label_encoder_gender.pkl', 'wb') as file:\n",
 66 |     "    pickle.dump(label_encoder_gender, file)\n",
 67 |     "\n",
 68 |     "with open('../models/onehot_encoder_geo.pkl', 'wb') as file:\n",
 69 |     "    pickle.dump(onehot_encoder_geo, file)\n",
 70 |     "\n",
 71 |     "with open('../models/scaler.pkl', 'wb') as file:\n",
 72 |     "    pickle.dump(scaler, file)"
 73 |    ]
 74 |   },
 75 |   {
 76 |    "cell_type": "code",
 77 |    "execution_count": 19,
 78 |    "metadata": {},
 79 |    "outputs": [],
 80 |    "source": [
 81 |     "## Define a function to create the model and try different parameters(KerasClassifier)\n",
 82 |     "\n",
 83 |     "def create_model(neurons=32,layers=1):\n",
 84 |     "    model=Sequential()\n",
 85 |     "    model.add(Dense(neurons,activation='relu',input_shape=(X_train.shape[1],)))\n",
 86 |     "\n",
 87 |     "    for _ in range(layers-1):\n",
 88 |     "        model.add(Dense(neurons,activation='relu'))\n",
 89 |     "\n",
 90 |     "    model.add(Dense(1,activation='sigmoid'))\n",
 91 |     "    model.compile(optimizer='adam',loss=\"binary_crossentropy\",metrics=['accuracy'])\n",
 92 |     "\n",
 93 |     "    return model\n",
 94 |     "\n"
 95 |    ]
 96 |   },
 97 |   {
 98 |    "cell_type": "code",
 99 |    "execution_count": 20,
100 |    "metadata": {},
101 |    "outputs": [],
102 |    "source": [
103 |     "## Create a Keras classifier\n",
104 |     "model=KerasClassifier(layers=1,neurons=32,build_fn=create_model,verbose=1)"
105 |    ]
106 |   },
107 |   {
108 |    "cell_type": "code",
109 |    "execution_count": 21,
110 |    "metadata": {},
111 |    "outputs": [],
112 |    "source": [
113 |     "\n",
114 |     "# Define the grid search parameters\n",
115 |     "param_grid = {\n",
116 |     "    'neurons': [16, 32, 64, 128],\n",
117 |     "    'layers': [1, 2],\n",
118 |     "    'epochs': [50, 100]\n",
119 |     "}"
120 |    ]
121 |   },
122 |   {
123 |    "cell_type": "code",
124 |    "execution_count": 22,
125 |    "metadata": {},
126 |    "outputs": [
127 |     {
128 |      "name": "stdout",
129 |      "output_type": "stream",
130 |      "text": [
131 |       "Fitting 3 folds for each of 16 candidates, totalling 48 fits\n",
132 |       "WARNING:tensorflow:From e:\\UDemy Final\\ANN Classification\\venv\\Lib\\site-packages\\keras\\src\\backend.py:873: The name tf.get_default_graph is deprecated. Please use tf.compat.v1.get_default_graph instead.\n",
133 |       "\n"
134 |      ]
135 |     },
136 |     {
137 |      "name": "stderr",
138 |      "output_type": "stream",
139 |      "text": [
140 |       "e:\\UDemy Final\\ANN Classification\\venv\\Lib\\site-packages\\scikeras\\wrappers.py:915: UserWarning: ``build_fn`` will be renamed to ``model`` in a future release, at which point use of ``build_fn`` will raise an Error instead.\n",
141 |       "  X, y = self._initialize(X, y)\n"
142 |      ]
143 |     },
144 |     {
145 |      "name": "stdout",
146 |      "output_type": "stream",
147 |      "text": [
148 |       "WARNING:tensorflow:From e:\\UDemy Final\\ANN Classification\\venv\\Lib\\site-packages\\keras\\src\\optimizers\\__init__.py:309: The name tf.train.Optimizer is deprecated. Please use tf.compat.v1.train.Optimizer instead.\n",
149 |       "\n",
150 |       "Epoch 1/100\n",
151 |       "WARNING:tensorflow:From e:\\UDemy Final\\ANN Classification\\venv\\Lib\\site-packages\\keras\\src\\utils\\tf_utils.py:492: The name tf.ragged.RaggedTensorValue is deprecated. Please use tf.compat.v1.ragged.RaggedTensorValue instead.\n",
152 |       "\n",
153 |       "WARNING:tensorflow:From e:\\UDemy Final\\ANN Classification\\venv\\Lib\\site-packages\\keras\\src\\engine\\base_layer_utils.py:384: The name tf.executing_eagerly_outside_functions is deprecated. Please use tf.compat.v1.executing_eagerly_outside_functions instead.\n",
154 |       "\n",
155 |       "250/250 [==============================] - 1s 1ms/step - loss: 0.6275 - accuracy: 0.6605\n",
156 |       "Epoch 2/100\n",
157 |       "250/250 [==============================] - 0s 958us/step - loss: 0.4631 - accuracy: 0.8009\n",
158 |       "Epoch 3/100\n",
159 |       "250/250 [==============================] - 0s 938us/step - loss: 0.4391 - accuracy: 0.8058\n",
160 |       "Epoch 4/100\n",
161 |       "250/250 [==============================] - 0s 972us/step - loss: 0.4250 - accuracy: 0.8140\n",
162 |       "Epoch 5/100\n",
163 |       "250/250 [==============================] - 0s 990us/step - loss: 0.4109 - accuracy: 0.8246\n",
164 |       "Epoch 6/100\n",
165 |       "250/250 [==============================] - 0s 961us/step - loss: 0.3973 - accuracy: 0.8310\n",
166 |       "Epoch 7/100\n",
167 |       "250/250 [==============================] - 0s 966us/step - loss: 0.3853 - accuracy: 0.8404\n",
168 |       "Epoch 8/100\n",
169 |       "250/250 [==============================] - 0s 978us/step - loss: 0.3755 - accuracy: 0.8457\n",
170 |       "Epoch 9/100\n",
171 |       "250/250 [==============================] - 0s 974us/step - loss: 0.3683 - accuracy: 0.8505\n",
172 |       "Epoch 10/100\n",
173 |       "250/250 [==============================] - 0s 967us/step - loss: 0.3622 - accuracy: 0.8519\n",
174 |       "Epoch 11/100\n",
175 |       "250/250 [==============================] - 0s 1ms/step - loss: 0.3571 - accuracy: 0.8565\n",
176 |       "Epoch 12/100\n",
177 |       "250/250 [==============================] - 0s 1ms/step - loss: 0.3532 - accuracy: 0.8560\n",
178 |       "Epoch 13/100\n",
179 |       "250/250 [==============================] - 0s 973us/step - loss: 0.3500 - accuracy: 0.8593\n",
180 |       "Epoch 14/100\n",
181 |       "250/250 [==============================] - 0s 1ms/step - loss: 0.3474 - accuracy: 0.8600\n",
182 |       "Epoch 15/100\n",
183 |       "250/250 [==============================] - 0s 973us/step - loss: 0.3456 - accuracy: 0.8616\n",
184 |       "Epoch 16/100\n",
185 |       "250/250 [==============================] - 0s 946us/step - loss: 0.3440 - accuracy: 0.8597\n",
186 |       "Epoch 17/100\n",
187 |       "250/250 [==============================] - 0s 952us/step - loss: 0.3425 - accuracy: 0.8620\n",
188 |       "Epoch 18/100\n",
189 |       "250/250 [==============================] - 0s 955us/step - loss: 0.3414 - accuracy: 0.8626\n",
190 |       "Epoch 19/100\n",
191 |       "250/250 [==============================] - 0s 946us/step - loss: 0.3405 - accuracy: 0.8599\n",
192 |       "Epoch 20/100\n",
193 |       "250/250 [==============================] - 0s 931us/step - loss: 0.3397 - accuracy: 0.8616\n",
194 |       "Epoch 21/100\n",
195 |       "250/250 [==============================] - 0s 975us/step - loss: 0.3391 - accuracy: 0.8629\n",
196 |       "Epoch 22/100\n",
197 |       "250/250 [==============================] - 0s 990us/step - loss: 0.3382 - accuracy: 0.8626\n",
198 |       "Epoch 23/100\n",
199 |       "250/250 [==============================] - 0s 972us/step - loss: 0.3378 - accuracy: 0.8615\n",
200 |       "Epoch 24/100\n",
201 |       "250/250 [==============================] - 0s 975us/step - loss: 0.3376 - accuracy: 0.8619\n",
202 |       "Epoch 25/100\n",
203 |       "250/250 [==============================] - 0s 1ms/step - loss: 0.3368 - accuracy: 0.8641\n",
204 |       "Epoch 26/100\n",
205 |       "250/250 [==============================] - 0s 967us/step - loss: 0.3367 - accuracy: 0.8612\n",
206 |       "Epoch 27/100\n",
207 |       "250/250 [==============================] - 0s 980us/step - loss: 0.3362 - accuracy: 0.8631\n",
208 |       "Epoch 28/100\n",
209 |       "250/250 [==============================] - 0s 980us/step - loss: 0.3360 - accuracy: 0.8627\n",
210 |       "Epoch 29/100\n",
211 |       "250/250 [==============================] - 0s 987us/step - loss: 0.3356 - accuracy: 0.8625\n",
212 |       "Epoch 30/100\n",
213 |       "250/250 [==============================] - 0s 981us/step - loss: 0.3352 - accuracy: 0.8635\n",
214 |       "Epoch 31/100\n",
215 |       "250/250 [==============================] - 0s 975us/step - loss: 0.3353 - accuracy: 0.8620\n",
216 |       "Epoch 32/100\n",
217 |       "250/250 [==============================] - 0s 1ms/step - loss: 0.3347 - accuracy: 0.8635\n",
218 |       "Epoch 33/100\n",
219 |       "250/250 [==============================] - 0s 1ms/step - loss: 0.3346 - accuracy: 0.8634\n",
220 |       "Epoch 34/100\n",
221 |       "250/250 [==============================] - 0s 964us/step - loss: 0.3343 - accuracy: 0.8625\n",
222 |       "Epoch 35/100\n",
223 |       "250/250 [==============================] - 0s 927us/step - loss: 0.3340 - accuracy: 0.8651\n",
224 |       "Epoch 36/100\n",
225 |       "250/250 [==============================] - 0s 952us/step - loss: 0.3338 - accuracy: 0.8629\n",
226 |       "Epoch 37/100\n",
227 |       "250/250 [==============================] - 0s 942us/step - loss: 0.3336 - accuracy: 0.8636\n",
228 |       "Epoch 38/100\n",
229 |       "250/250 [==============================] - 0s 954us/step - loss: 0.3333 - accuracy: 0.8620\n",
230 |       "Epoch 39/100\n",
231 |       "250/250 [==============================] - 0s 963us/step - loss: 0.3333 - accuracy: 0.8625\n",
232 |       "Epoch 40/100\n",
233 |       "250/250 [==============================] - 0s 1ms/step - loss: 0.3331 - accuracy: 0.8640\n",
234 |       "Epoch 41/100\n",
235 |       "250/250 [==============================] - 0s 919us/step - loss: 0.3327 - accuracy: 0.8633\n",
236 |       "Epoch 42/100\n",
237 |       "250/250 [==============================] - 0s 939us/step - loss: 0.3325 - accuracy: 0.8641\n",
238 |       "Epoch 43/100\n",
239 |       "250/250 [==============================] - 0s 901us/step - loss: 0.3325 - accuracy: 0.8634\n",
240 |       "Epoch 44/100\n",
241 |       "250/250 [==============================] - 0s 916us/step - loss: 0.3324 - accuracy: 0.8637\n",
242 |       "Epoch 45/100\n",
243 |       "250/250 [==============================] - 0s 964us/step - loss: 0.3321 - accuracy: 0.8641\n",
244 |       "Epoch 46/100\n",
245 |       "250/250 [==============================] - 0s 940us/step - loss: 0.3323 - accuracy: 0.8640\n",
246 |       "Epoch 47/100\n",
247 |       "250/250 [==============================] - 0s 919us/step - loss: 0.3319 - accuracy: 0.8639\n",
248 |       "Epoch 48/100\n",
249 |       "250/250 [==============================] - 0s 931us/step - loss: 0.3318 - accuracy: 0.8644\n",
250 |       "Epoch 49/100\n",
251 |       "250/250 [==============================] - 0s 948us/step - loss: 0.3317 - accuracy: 0.8643\n",
252 |       "Epoch 50/100\n",
253 |       "250/250 [==============================] - 0s 922us/step - loss: 0.3313 - accuracy: 0.8644\n",
254 |       "Epoch 51/100\n",
255 |       "250/250 [==============================] - 0s 897us/step - loss: 0.3313 - accuracy: 0.8648\n",
256 |       "Epoch 52/100\n",
257 |       "250/250 [==============================] - 0s 900us/step - loss: 0.3313 - accuracy: 0.8643\n",
258 |       "Epoch 53/100\n",
259 |       "250/250 [==============================] - 0s 915us/step - loss: 0.3311 - accuracy: 0.8630\n",
260 |       "Epoch 54/100\n",
261 |       "250/250 [==============================] - 0s 1ms/step - loss: 0.3309 - accuracy: 0.8625\n",
262 |       "Epoch 55/100\n",
263 |       "250/250 [==============================] - 0s 936us/step - loss: 0.3315 - accuracy: 0.8627\n",
264 |       "Epoch 56/100\n",
265 |       "250/250 [==============================] - 0s 934us/step - loss: 0.3309 - accuracy: 0.8639\n",
266 |       "Epoch 57/100\n",
267 |       "250/250 [==============================] - 0s 927us/step - loss: 0.3305 - accuracy: 0.8649\n",
268 |       "Epoch 58/100\n",
269 |       "250/250 [==============================] - 0s 945us/step - loss: 0.3303 - accuracy: 0.8659\n",
270 |       "Epoch 59/100\n",
271 |       "250/250 [==============================] - 0s 940us/step - loss: 0.3307 - accuracy: 0.8644\n",
272 |       "Epoch 60/100\n",
273 |       "250/250 [==============================] - 0s 960us/step - loss: 0.3305 - accuracy: 0.8635\n",
274 |       "Epoch 61/100\n",
275 |       "250/250 [==============================] - 0s 959us/step - loss: 0.3306 - accuracy: 0.8627\n",
276 |       "Epoch 62/100\n",
277 |       "250/250 [==============================] - 0s 963us/step - loss: 0.3303 - accuracy: 0.8636\n",
278 |       "Epoch 63/100\n",
279 |       "250/250 [==============================] - 0s 967us/step - loss: 0.3297 - accuracy: 0.8648\n",
280 |       "Epoch 64/100\n",
281 |       "250/250 [==============================] - 0s 940us/step - loss: 0.3299 - accuracy: 0.8629\n",
282 |       "Epoch 65/100\n",
283 |       "250/250 [==============================] - 0s 935us/step - loss: 0.3303 - accuracy: 0.8636\n",
284 |       "Epoch 66/100\n",
285 |       "250/250 [==============================] - 0s 995us/step - loss: 0.3299 - accuracy: 0.8641\n",
286 |       "Epoch 67/100\n",
287 |       "250/250 [==============================] - 0s 956us/step - loss: 0.3298 - accuracy: 0.8649\n",
288 |       "Epoch 68/100\n",
289 |       "250/250 [==============================] - 0s 922us/step - loss: 0.3298 - accuracy: 0.8634\n",
290 |       "Epoch 69/100\n",
291 |       "250/250 [==============================] - 0s 910us/step - loss: 0.3295 - accuracy: 0.8633\n",
292 |       "Epoch 70/100\n",
293 |       "250/250 [==============================] - 0s 952us/step - loss: 0.3295 - accuracy: 0.8643\n",
294 |       "Epoch 71/100\n",
295 |       "250/250 [==============================] - 0s 944us/step - loss: 0.3296 - accuracy: 0.8629\n",
296 |       "Epoch 72/100\n",
297 |       "250/250 [==============================] - 0s 929us/step - loss: 0.3292 - accuracy: 0.8640\n",
298 |       "Epoch 73/100\n",
299 |       "250/250 [==============================] - 0s 955us/step - loss: 0.3291 - accuracy: 0.8627\n",
300 |       "Epoch 74/100\n",
301 |       "250/250 [==============================] - 0s 936us/step - loss: 0.3294 - accuracy: 0.8641\n",
302 |       "Epoch 75/100\n",
303 |       "250/250 [==============================] - 0s 949us/step - loss: 0.3292 - accuracy: 0.8648\n",
304 |       "Epoch 76/100\n",
305 |       "250/250 [==============================] - 0s 1ms/step - loss: 0.3293 - accuracy: 0.8651\n",
306 |       "Epoch 77/100\n",
307 |       "250/250 [==============================] - 0s 990us/step - loss: 0.3290 - accuracy: 0.8641\n",
308 |       "Epoch 78/100\n",
309 |       "250/250 [==============================] - 0s 937us/step - loss: 0.3293 - accuracy: 0.8634\n",
310 |       "Epoch 79/100\n",
311 |       "250/250 [==============================] - 0s 939us/step - loss: 0.3286 - accuracy: 0.8645\n",
312 |       "Epoch 80/100\n",
313 |       "250/250 [==============================] - 0s 916us/step - loss: 0.3290 - accuracy: 0.8648\n",
314 |       "Epoch 81/100\n",
315 |       "250/250 [==============================] - 0s 934us/step - loss: 0.3290 - accuracy: 0.8641\n",
316 |       "Epoch 82/100\n",
317 |       "250/250 [==============================] - 0s 936us/step - loss: 0.3288 - accuracy: 0.8651\n",
318 |       "Epoch 83/100\n",
319 |       "250/250 [==============================] - 0s 951us/step - loss: 0.3289 - accuracy: 0.8641\n",
320 |       "Epoch 84/100\n",
321 |       "250/250 [==============================] - 0s 936us/step - loss: 0.3286 - accuracy: 0.8631\n",
322 |       "Epoch 85/100\n",
323 |       "250/250 [==============================] - 0s 984us/step - loss: 0.3289 - accuracy: 0.8644\n",
324 |       "Epoch 86/100\n",
325 |       "250/250 [==============================] - 0s 935us/step - loss: 0.3287 - accuracy: 0.8636\n",
326 |       "Epoch 87/100\n",
327 |       "250/250 [==============================] - 0s 956us/step - loss: 0.3286 - accuracy: 0.8651\n",
328 |       "Epoch 88/100\n",
329 |       "250/250 [==============================] - 0s 951us/step - loss: 0.3284 - accuracy: 0.8635\n",
330 |       "Epoch 89/100\n",
331 |       "250/250 [==============================] - 0s 958us/step - loss: 0.3286 - accuracy: 0.8645\n",
332 |       "Epoch 90/100\n",
333 |       "250/250 [==============================] - 0s 956us/step - loss: 0.3288 - accuracy: 0.8648\n",
334 |       "Epoch 91/100\n",
335 |       "250/250 [==============================] - 0s 932us/step - loss: 0.3282 - accuracy: 0.8637\n",
336 |       "Epoch 92/100\n",
337 |       "250/250 [==============================] - 0s 918us/step - loss: 0.3282 - accuracy: 0.8635\n",
338 |       "Epoch 93/100\n",
339 |       "250/250 [==============================] - 0s 948us/step - loss: 0.3285 - accuracy: 0.8633\n",
340 |       "Epoch 94/100\n",
341 |       "250/250 [==============================] - 0s 952us/step - loss: 0.3285 - accuracy: 0.8627\n",
342 |       "Epoch 95/100\n",
343 |       "250/250 [==============================] - 0s 956us/step - loss: 0.3280 - accuracy: 0.8649\n",
344 |       "Epoch 96/100\n",
345 |       "250/250 [==============================] - 0s 928us/step - loss: 0.3283 - accuracy: 0.8650\n",
346 |       "Epoch 97/100\n",
347 |       "250/250 [==============================] - 0s 947us/step - loss: 0.3282 - accuracy: 0.8646\n",
348 |       "Epoch 98/100\n",
349 |       "250/250 [==============================] - 0s 1ms/step - loss: 0.3278 - accuracy: 0.8639\n",
350 |       "Epoch 99/100\n",
351 |       "250/250 [==============================] - 0s 929us/step - loss: 0.3278 - accuracy: 0.8630\n",
352 |       "Epoch 100/100\n",
353 |       "250/250 [==============================] - 0s 950us/step - loss: 0.3276 - accuracy: 0.8636\n",
354 |       "Best: 0.858375 using {'epochs': 100, 'layers': 1, 'neurons': 16}\n"
355 |      ]
356 |     }
357 |    ],
358 |    "source": [
359 |     "# Perform grid search\n",
360 |     "grid = GridSearchCV(estimator=model, param_grid=param_grid, n_jobs=-1, cv=3,verbose=1)\n",
361 |     "grid_result = grid.fit(X_train, y_train)\n",
362 |     "\n",
363 |     "# Print the best parameters\n",
364 |     "print(\"Best: %f using %s\" % (grid_result.best_score_, grid_result.best_params_))"
365 |    ]
366 |   },
367 |   {
368 |    "cell_type": "code",
369 |    "execution_count": null,
370 |    "metadata": {},
371 |    "outputs": [],
372 |    "source": []
373 |   }
374 |  ],
375 |  "metadata": {
376 |   "kernelspec": {
377 |    "display_name": "Python 3",
378 |    "language": "python",
379 |    "name": "python3"
380 |   },
381 |   "language_info": {
382 |    "codemirror_mode": {
383 |     "name": "ipython",
384 |     "version": 3
385 |    },
386 |    "file_extension": ".py",
387 |    "mimetype": "text/x-python",
388 |    "name": "python",
389 |    "nbconvert_exporter": "python",
390 |    "pygments_lexer": "ipython3",
391 |    "version": "3.11.0"
392 |   }
393 |  },
394 |  "nbformat": 4,
395 |  "nbformat_minor": 2
396 | }
397 | 


--------------------------------------------------------------------------------
/training/model_training.ipynb:
--------------------------------------------------------------------------------
   1 | {
   2 |  "cells": [
   3 |   {
   4 |    "cell_type": "code",
   5 |    "execution_count": 2,
   6 |    "metadata": {},
   7 |    "outputs": [],
   8 |    "source": [
   9 |     "import pandas as pd\n",
  10 |     "from sklearn.model_selection import train_test_split\n",
  11 |     "from sklearn.preprocessing import StandardScaler, LabelEncoder"
  12 |    ]
  13 |   },
  14 |   {
  15 |    "cell_type": "code",
  16 |    "execution_count": 3,
  17 |    "metadata": {},
  18 |    "outputs": [
  19 |     {
  20 |      "data": {
  21 |       "text/html": [
  22 |        "<div>\n",
  23 |        "<style scoped>\n",
  24 |        "    .dataframe tbody tr th:only-of-type {\n",
  25 |        "        vertical-align: middle;\n",
  26 |        "    }\n",
  27 |        "\n",
  28 |        "    .dataframe tbody tr th {\n",
  29 |        "        vertical-align: top;\n",
  30 |        "    }\n",
  31 |        "\n",
  32 |        "    .dataframe thead th {\n",
  33 |        "        text-align: right;\n",
  34 |        "    }\n",
  35 |        "</style>\n",
  36 |        "<table border=\"1\" class=\"dataframe\">\n",
  37 |        "  <thead>\n",
  38 |        "    <tr style=\"text-align: right;\">\n",
  39 |        "      <th></th>\n",
  40 |        "      <th>RowNumber</th>\n",
  41 |        "      <th>CustomerId</th>\n",
  42 |        "      <th>Surname</th>\n",
  43 |        "      <th>CreditScore</th>\n",
  44 |        "      <th>Geography</th>\n",
  45 |        "      <th>Gender</th>\n",
  46 |        "      <th>Age</th>\n",
  47 |        "      <th>Tenure</th>\n",
  48 |        "      <th>Balance</th>\n",
  49 |        "      <th>NumOfProducts</th>\n",
  50 |        "      <th>HasCrCard</th>\n",
  51 |        "      <th>IsActiveMember</th>\n",
  52 |        "      <th>EstimatedSalary</th>\n",
  53 |        "      <th>Exited</th>\n",
  54 |        "    </tr>\n",
  55 |        "  </thead>\n",
  56 |        "  <tbody>\n",
  57 |        "    <tr>\n",
  58 |        "      <th>0</th>\n",
  59 |        "      <td>1</td>\n",
  60 |        "      <td>15634602</td>\n",
  61 |        "      <td>Hargrave</td>\n",
  62 |        "      <td>619</td>\n",
  63 |        "      <td>France</td>\n",
  64 |        "      <td>Female</td>\n",
  65 |        "      <td>42</td>\n",
  66 |        "      <td>2</td>\n",
  67 |        "      <td>0.00</td>\n",
  68 |        "      <td>1</td>\n",
  69 |        "      <td>1</td>\n",
  70 |        "      <td>1</td>\n",
  71 |        "      <td>101348.88</td>\n",
  72 |        "      <td>1</td>\n",
  73 |        "    </tr>\n",
  74 |        "    <tr>\n",
  75 |        "      <th>1</th>\n",
  76 |        "      <td>2</td>\n",
  77 |        "      <td>15647311</td>\n",
  78 |        "      <td>Hill</td>\n",
  79 |        "      <td>608</td>\n",
  80 |        "      <td>Spain</td>\n",
  81 |        "      <td>Female</td>\n",
  82 |        "      <td>41</td>\n",
  83 |        "      <td>1</td>\n",
  84 |        "      <td>83807.86</td>\n",
  85 |        "      <td>1</td>\n",
  86 |        "      <td>0</td>\n",
  87 |        "      <td>1</td>\n",
  88 |        "      <td>112542.58</td>\n",
  89 |        "      <td>0</td>\n",
  90 |        "    </tr>\n",
  91 |        "    <tr>\n",
  92 |        "      <th>2</th>\n",
  93 |        "      <td>3</td>\n",
  94 |        "      <td>15619304</td>\n",
  95 |        "      <td>Onio</td>\n",
  96 |        "      <td>502</td>\n",
  97 |        "      <td>France</td>\n",
  98 |        "      <td>Female</td>\n",
  99 |        "      <td>42</td>\n",
 100 |        "      <td>8</td>\n",
 101 |        "      <td>159660.80</td>\n",
 102 |        "      <td>3</td>\n",
 103 |        "      <td>1</td>\n",
 104 |        "      <td>0</td>\n",
 105 |        "      <td>113931.57</td>\n",
 106 |        "      <td>1</td>\n",
 107 |        "    </tr>\n",
 108 |        "    <tr>\n",
 109 |        "      <th>3</th>\n",
 110 |        "      <td>4</td>\n",
 111 |        "      <td>15701354</td>\n",
 112 |        "      <td>Boni</td>\n",
 113 |        "      <td>699</td>\n",
 114 |        "      <td>France</td>\n",
 115 |        "      <td>Female</td>\n",
 116 |        "      <td>39</td>\n",
 117 |        "      <td>1</td>\n",
 118 |        "      <td>0.00</td>\n",
 119 |        "      <td>2</td>\n",
 120 |        "      <td>0</td>\n",
 121 |        "      <td>0</td>\n",
 122 |        "      <td>93826.63</td>\n",
 123 |        "      <td>0</td>\n",
 124 |        "    </tr>\n",
 125 |        "    <tr>\n",
 126 |        "      <th>4</th>\n",
 127 |        "      <td>5</td>\n",
 128 |        "      <td>15737888</td>\n",
 129 |        "      <td>Mitchell</td>\n",
 130 |        "      <td>850</td>\n",
 131 |        "      <td>Spain</td>\n",
 132 |        "      <td>Female</td>\n",
 133 |        "      <td>43</td>\n",
 134 |        "      <td>2</td>\n",
 135 |        "      <td>125510.82</td>\n",
 136 |        "      <td>1</td>\n",
 137 |        "      <td>1</td>\n",
 138 |        "      <td>1</td>\n",
 139 |        "      <td>79084.10</td>\n",
 140 |        "      <td>0</td>\n",
 141 |        "    </tr>\n",
 142 |        "  </tbody>\n",
 143 |        "</table>\n",
 144 |        "</div>"
 145 |       ],
 146 |       "text/plain": [
 147 |        "   RowNumber  CustomerId   Surname  CreditScore Geography  Gender  Age  \\\n",
 148 |        "0          1    15634602  Hargrave          619    France  Female   42   \n",
 149 |        "1          2    15647311      Hill          608     Spain  Female   41   \n",
 150 |        "2          3    15619304      Onio          502    France  Female   42   \n",
 151 |        "3          4    15701354      Boni          699    France  Female   39   \n",
 152 |        "4          5    15737888  Mitchell          850     Spain  Female   43   \n",
 153 |        "\n",
 154 |        "   Tenure    Balance  NumOfProducts  HasCrCard  IsActiveMember  \\\n",
 155 |        "0       2       0.00              1          1               1   \n",
 156 |        "1       1   83807.86              1          0               1   \n",
 157 |        "2       8  159660.80              3          1               0   \n",
 158 |        "3       1       0.00              2          0               0   \n",
 159 |        "4       2  125510.82              1          1               1   \n",
 160 |        "\n",
 161 |        "   EstimatedSalary  Exited  \n",
 162 |        "0        101348.88       1  \n",
 163 |        "1        112542.58       0  \n",
 164 |        "2        113931.57       1  \n",
 165 |        "3         93826.63       0  \n",
 166 |        "4         79084.10       0  "
 167 |       ]
 168 |      },
 169 |      "execution_count": 3,
 170 |      "metadata": {},
 171 |      "output_type": "execute_result"
 172 |     }
 173 |    ],
 174 |    "source": [
 175 |     "# Load the dataset\n",
 176 |     "data = pd.read_csv(\"../data/Churn_Modelling.csv\")\n",
 177 |     "data.head()"
 178 |    ]
 179 |   },
 180 |   {
 181 |    "cell_type": "code",
 182 |    "execution_count": 4,
 183 |    "metadata": {},
 184 |    "outputs": [
 185 |     {
 186 |      "data": {
 187 |       "text/html": [
 188 |        "<div>\n",
 189 |        "<style scoped>\n",
 190 |        "    .dataframe tbody tr th:only-of-type {\n",
 191 |        "        vertical-align: middle;\n",
 192 |        "    }\n",
 193 |        "\n",
 194 |        "    .dataframe tbody tr th {\n",
 195 |        "        vertical-align: top;\n",
 196 |        "    }\n",
 197 |        "\n",
 198 |        "    .dataframe thead th {\n",
 199 |        "        text-align: right;\n",
 200 |        "    }\n",
 201 |        "</style>\n",
 202 |        "<table border=\"1\" class=\"dataframe\">\n",
 203 |        "  <thead>\n",
 204 |        "    <tr style=\"text-align: right;\">\n",
 205 |        "      <th></th>\n",
 206 |        "      <th>CreditScore</th>\n",
 207 |        "      <th>Geography</th>\n",
 208 |        "      <th>Gender</th>\n",
 209 |        "      <th>Age</th>\n",
 210 |        "      <th>Tenure</th>\n",
 211 |        "      <th>Balance</th>\n",
 212 |        "      <th>NumOfProducts</th>\n",
 213 |        "      <th>HasCrCard</th>\n",
 214 |        "      <th>IsActiveMember</th>\n",
 215 |        "      <th>EstimatedSalary</th>\n",
 216 |        "      <th>Exited</th>\n",
 217 |        "    </tr>\n",
 218 |        "  </thead>\n",
 219 |        "  <tbody>\n",
 220 |        "    <tr>\n",
 221 |        "      <th>0</th>\n",
 222 |        "      <td>619</td>\n",
 223 |        "      <td>France</td>\n",
 224 |        "      <td>Female</td>\n",
 225 |        "      <td>42</td>\n",
 226 |        "      <td>2</td>\n",
 227 |        "      <td>0.00</td>\n",
 228 |        "      <td>1</td>\n",
 229 |        "      <td>1</td>\n",
 230 |        "      <td>1</td>\n",
 231 |        "      <td>101348.88</td>\n",
 232 |        "      <td>1</td>\n",
 233 |        "    </tr>\n",
 234 |        "    <tr>\n",
 235 |        "      <th>1</th>\n",
 236 |        "      <td>608</td>\n",
 237 |        "      <td>Spain</td>\n",
 238 |        "      <td>Female</td>\n",
 239 |        "      <td>41</td>\n",
 240 |        "      <td>1</td>\n",
 241 |        "      <td>83807.86</td>\n",
 242 |        "      <td>1</td>\n",
 243 |        "      <td>0</td>\n",
 244 |        "      <td>1</td>\n",
 245 |        "      <td>112542.58</td>\n",
 246 |        "      <td>0</td>\n",
 247 |        "    </tr>\n",
 248 |        "    <tr>\n",
 249 |        "      <th>2</th>\n",
 250 |        "      <td>502</td>\n",
 251 |        "      <td>France</td>\n",
 252 |        "      <td>Female</td>\n",
 253 |        "      <td>42</td>\n",
 254 |        "      <td>8</td>\n",
 255 |        "      <td>159660.80</td>\n",
 256 |        "      <td>3</td>\n",
 257 |        "      <td>1</td>\n",
 258 |        "      <td>0</td>\n",
 259 |        "      <td>113931.57</td>\n",
 260 |        "      <td>1</td>\n",
 261 |        "    </tr>\n",
 262 |        "    <tr>\n",
 263 |        "      <th>3</th>\n",
 264 |        "      <td>699</td>\n",
 265 |        "      <td>France</td>\n",
 266 |        "      <td>Female</td>\n",
 267 |        "      <td>39</td>\n",
 268 |        "      <td>1</td>\n",
 269 |        "      <td>0.00</td>\n",
 270 |        "      <td>2</td>\n",
 271 |        "      <td>0</td>\n",
 272 |        "      <td>0</td>\n",
 273 |        "      <td>93826.63</td>\n",
 274 |        "      <td>0</td>\n",
 275 |        "    </tr>\n",
 276 |        "    <tr>\n",
 277 |        "      <th>4</th>\n",
 278 |        "      <td>850</td>\n",
 279 |        "      <td>Spain</td>\n",
 280 |        "      <td>Female</td>\n",
 281 |        "      <td>43</td>\n",
 282 |        "      <td>2</td>\n",
 283 |        "      <td>125510.82</td>\n",
 284 |        "      <td>1</td>\n",
 285 |        "      <td>1</td>\n",
 286 |        "      <td>1</td>\n",
 287 |        "      <td>79084.10</td>\n",
 288 |        "      <td>0</td>\n",
 289 |        "    </tr>\n",
 290 |        "    <tr>\n",
 291 |        "      <th>...</th>\n",
 292 |        "      <td>...</td>\n",
 293 |        "      <td>...</td>\n",
 294 |        "      <td>...</td>\n",
 295 |        "      <td>...</td>\n",
 296 |        "      <td>...</td>\n",
 297 |        "      <td>...</td>\n",
 298 |        "      <td>...</td>\n",
 299 |        "      <td>...</td>\n",
 300 |        "      <td>...</td>\n",
 301 |        "      <td>...</td>\n",
 302 |        "      <td>...</td>\n",
 303 |        "    </tr>\n",
 304 |        "    <tr>\n",
 305 |        "      <th>9995</th>\n",
 306 |        "      <td>771</td>\n",
 307 |        "      <td>France</td>\n",
 308 |        "      <td>Male</td>\n",
 309 |        "      <td>39</td>\n",
 310 |        "      <td>5</td>\n",
 311 |        "      <td>0.00</td>\n",
 312 |        "      <td>2</td>\n",
 313 |        "      <td>1</td>\n",
 314 |        "      <td>0</td>\n",
 315 |        "      <td>96270.64</td>\n",
 316 |        "      <td>0</td>\n",
 317 |        "    </tr>\n",
 318 |        "    <tr>\n",
 319 |        "      <th>9996</th>\n",
 320 |        "      <td>516</td>\n",
 321 |        "      <td>France</td>\n",
 322 |        "      <td>Male</td>\n",
 323 |        "      <td>35</td>\n",
 324 |        "      <td>10</td>\n",
 325 |        "      <td>57369.61</td>\n",
 326 |        "      <td>1</td>\n",
 327 |        "      <td>1</td>\n",
 328 |        "      <td>1</td>\n",
 329 |        "      <td>101699.77</td>\n",
 330 |        "      <td>0</td>\n",
 331 |        "    </tr>\n",
 332 |        "    <tr>\n",
 333 |        "      <th>9997</th>\n",
 334 |        "      <td>709</td>\n",
 335 |        "      <td>France</td>\n",
 336 |        "      <td>Female</td>\n",
 337 |        "      <td>36</td>\n",
 338 |        "      <td>7</td>\n",
 339 |        "      <td>0.00</td>\n",
 340 |        "      <td>1</td>\n",
 341 |        "      <td>0</td>\n",
 342 |        "      <td>1</td>\n",
 343 |        "      <td>42085.58</td>\n",
 344 |        "      <td>1</td>\n",
 345 |        "    </tr>\n",
 346 |        "    <tr>\n",
 347 |        "      <th>9998</th>\n",
 348 |        "      <td>772</td>\n",
 349 |        "      <td>Germany</td>\n",
 350 |        "      <td>Male</td>\n",
 351 |        "      <td>42</td>\n",
 352 |        "      <td>3</td>\n",
 353 |        "      <td>75075.31</td>\n",
 354 |        "      <td>2</td>\n",
 355 |        "      <td>1</td>\n",
 356 |        "      <td>0</td>\n",
 357 |        "      <td>92888.52</td>\n",
 358 |        "      <td>1</td>\n",
 359 |        "    </tr>\n",
 360 |        "    <tr>\n",
 361 |        "      <th>9999</th>\n",
 362 |        "      <td>792</td>\n",
 363 |        "      <td>France</td>\n",
 364 |        "      <td>Female</td>\n",
 365 |        "      <td>28</td>\n",
 366 |        "      <td>4</td>\n",
 367 |        "      <td>130142.79</td>\n",
 368 |        "      <td>1</td>\n",
 369 |        "      <td>1</td>\n",
 370 |        "      <td>0</td>\n",
 371 |        "      <td>38190.78</td>\n",
 372 |        "      <td>0</td>\n",
 373 |        "    </tr>\n",
 374 |        "  </tbody>\n",
 375 |        "</table>\n",
 376 |        "<p>10000 rows × 11 columns</p>\n",
 377 |        "</div>"
 378 |       ],
 379 |       "text/plain": [
 380 |        "      CreditScore Geography  Gender  Age  Tenure    Balance  NumOfProducts  \\\n",
 381 |        "0             619    France  Female   42       2       0.00              1   \n",
 382 |        "1             608     Spain  Female   41       1   83807.86              1   \n",
 383 |        "2             502    France  Female   42       8  159660.80              3   \n",
 384 |        "3             699    France  Female   39       1       0.00              2   \n",
 385 |        "4             850     Spain  Female   43       2  125510.82              1   \n",
 386 |        "...           ...       ...     ...  ...     ...        ...            ...   \n",
 387 |        "9995          771    France    Male   39       5       0.00              2   \n",
 388 |        "9996          516    France    Male   35      10   57369.61              1   \n",
 389 |        "9997          709    France  Female   36       7       0.00              1   \n",
 390 |        "9998          772   Germany    Male   42       3   75075.31              2   \n",
 391 |        "9999          792    France  Female   28       4  130142.79              1   \n",
 392 |        "\n",
 393 |        "      HasCrCard  IsActiveMember  EstimatedSalary  Exited  \n",
 394 |        "0             1               1        101348.88       1  \n",
 395 |        "1             0               1        112542.58       0  \n",
 396 |        "2             1               0        113931.57       1  \n",
 397 |        "3             0               0         93826.63       0  \n",
 398 |        "4             1               1         79084.10       0  \n",
 399 |        "...         ...             ...              ...     ...  \n",
 400 |        "9995          1               0         96270.64       0  \n",
 401 |        "9996          1               1        101699.77       0  \n",
 402 |        "9997          0               1         42085.58       1  \n",
 403 |        "9998          1               0         92888.52       1  \n",
 404 |        "9999          1               0         38190.78       0  \n",
 405 |        "\n",
 406 |        "[10000 rows x 11 columns]"
 407 |       ]
 408 |      },
 409 |      "execution_count": 4,
 410 |      "metadata": {},
 411 |      "output_type": "execute_result"
 412 |     }
 413 |    ],
 414 |    "source": [
 415 |     "## Preprocessing the data\n",
 416 |     "# Drop the columns which are not required\n",
 417 |     "data = data.drop([\"RowNumber\", \"CustomerId\", \"Surname\"], axis=1)\n",
 418 |     "data"
 419 |    ]
 420 |   },
 421 |   {
 422 |    "cell_type": "code",
 423 |    "execution_count": 5,
 424 |    "metadata": {},
 425 |    "outputs": [
 426 |     {
 427 |      "name": "stdout",
 428 |      "output_type": "stream",
 429 |      "text": [
 430 |       "<class 'pandas.core.frame.DataFrame'>\n",
 431 |       "RangeIndex: 10000 entries, 0 to 9999\n",
 432 |       "Data columns (total 11 columns):\n",
 433 |       " #   Column           Non-Null Count  Dtype  \n",
 434 |       "---  ------           --------------  -----  \n",
 435 |       " 0   CreditScore      10000 non-null  int64  \n",
 436 |       " 1   Geography        10000 non-null  object \n",
 437 |       " 2   Gender           10000 non-null  object \n",
 438 |       " 3   Age              10000 non-null  int64  \n",
 439 |       " 4   Tenure           10000 non-null  int64  \n",
 440 |       " 5   Balance          10000 non-null  float64\n",
 441 |       " 6   NumOfProducts    10000 non-null  int64  \n",
 442 |       " 7   HasCrCard        10000 non-null  int64  \n",
 443 |       " 8   IsActiveMember   10000 non-null  int64  \n",
 444 |       " 9   EstimatedSalary  10000 non-null  float64\n",
 445 |       " 10  Exited           10000 non-null  int64  \n",
 446 |       "dtypes: float64(2), int64(7), object(2)\n",
 447 |       "memory usage: 859.5+ KB\n"
 448 |      ]
 449 |     }
 450 |    ],
 451 |    "source": [
 452 |     "data.info()"
 453 |    ]
 454 |   },
 455 |   {
 456 |    "cell_type": "code",
 457 |    "execution_count": 6,
 458 |    "metadata": {},
 459 |    "outputs": [
 460 |     {
 461 |      "data": {
 462 |       "text/plain": [
 463 |        "array(['Female', 'Male'], dtype=object)"
 464 |       ]
 465 |      },
 466 |      "execution_count": 6,
 467 |      "metadata": {},
 468 |      "output_type": "execute_result"
 469 |     }
 470 |    ],
 471 |    "source": [
 472 |     "# data[\"Gender\"].value_counts()\n",
 473 |     "data[\"Gender\"].unique()"
 474 |    ]
 475 |   },
 476 |   {
 477 |    "cell_type": "code",
 478 |    "execution_count": 7,
 479 |    "metadata": {},
 480 |    "outputs": [
 481 |     {
 482 |      "data": {
 483 |       "text/html": [
 484 |        "<div>\n",
 485 |        "<style scoped>\n",
 486 |        "    .dataframe tbody tr th:only-of-type {\n",
 487 |        "        vertical-align: middle;\n",
 488 |        "    }\n",
 489 |        "\n",
 490 |        "    .dataframe tbody tr th {\n",
 491 |        "        vertical-align: top;\n",
 492 |        "    }\n",
 493 |        "\n",
 494 |        "    .dataframe thead th {\n",
 495 |        "        text-align: right;\n",
 496 |        "    }\n",
 497 |        "</style>\n",
 498 |        "<table border=\"1\" class=\"dataframe\">\n",
 499 |        "  <thead>\n",
 500 |        "    <tr style=\"text-align: right;\">\n",
 501 |        "      <th></th>\n",
 502 |        "      <th>CreditScore</th>\n",
 503 |        "      <th>Geography</th>\n",
 504 |        "      <th>Gender</th>\n",
 505 |        "      <th>Age</th>\n",
 506 |        "      <th>Tenure</th>\n",
 507 |        "      <th>Balance</th>\n",
 508 |        "      <th>NumOfProducts</th>\n",
 509 |        "      <th>HasCrCard</th>\n",
 510 |        "      <th>IsActiveMember</th>\n",
 511 |        "      <th>EstimatedSalary</th>\n",
 512 |        "      <th>Exited</th>\n",
 513 |        "    </tr>\n",
 514 |        "  </thead>\n",
 515 |        "  <tbody>\n",
 516 |        "    <tr>\n",
 517 |        "      <th>0</th>\n",
 518 |        "      <td>619</td>\n",
 519 |        "      <td>France</td>\n",
 520 |        "      <td>0</td>\n",
 521 |        "      <td>42</td>\n",
 522 |        "      <td>2</td>\n",
 523 |        "      <td>0.00</td>\n",
 524 |        "      <td>1</td>\n",
 525 |        "      <td>1</td>\n",
 526 |        "      <td>1</td>\n",
 527 |        "      <td>101348.88</td>\n",
 528 |        "      <td>1</td>\n",
 529 |        "    </tr>\n",
 530 |        "    <tr>\n",
 531 |        "      <th>1</th>\n",
 532 |        "      <td>608</td>\n",
 533 |        "      <td>Spain</td>\n",
 534 |        "      <td>0</td>\n",
 535 |        "      <td>41</td>\n",
 536 |        "      <td>1</td>\n",
 537 |        "      <td>83807.86</td>\n",
 538 |        "      <td>1</td>\n",
 539 |        "      <td>0</td>\n",
 540 |        "      <td>1</td>\n",
 541 |        "      <td>112542.58</td>\n",
 542 |        "      <td>0</td>\n",
 543 |        "    </tr>\n",
 544 |        "    <tr>\n",
 545 |        "      <th>2</th>\n",
 546 |        "      <td>502</td>\n",
 547 |        "      <td>France</td>\n",
 548 |        "      <td>0</td>\n",
 549 |        "      <td>42</td>\n",
 550 |        "      <td>8</td>\n",
 551 |        "      <td>159660.80</td>\n",
 552 |        "      <td>3</td>\n",
 553 |        "      <td>1</td>\n",
 554 |        "      <td>0</td>\n",
 555 |        "      <td>113931.57</td>\n",
 556 |        "      <td>1</td>\n",
 557 |        "    </tr>\n",
 558 |        "    <tr>\n",
 559 |        "      <th>3</th>\n",
 560 |        "      <td>699</td>\n",
 561 |        "      <td>France</td>\n",
 562 |        "      <td>0</td>\n",
 563 |        "      <td>39</td>\n",
 564 |        "      <td>1</td>\n",
 565 |        "      <td>0.00</td>\n",
 566 |        "      <td>2</td>\n",
 567 |        "      <td>0</td>\n",
 568 |        "      <td>0</td>\n",
 569 |        "      <td>93826.63</td>\n",
 570 |        "      <td>0</td>\n",
 571 |        "    </tr>\n",
 572 |        "    <tr>\n",
 573 |        "      <th>4</th>\n",
 574 |        "      <td>850</td>\n",
 575 |        "      <td>Spain</td>\n",
 576 |        "      <td>0</td>\n",
 577 |        "      <td>43</td>\n",
 578 |        "      <td>2</td>\n",
 579 |        "      <td>125510.82</td>\n",
 580 |        "      <td>1</td>\n",
 581 |        "      <td>1</td>\n",
 582 |        "      <td>1</td>\n",
 583 |        "      <td>79084.10</td>\n",
 584 |        "      <td>0</td>\n",
 585 |        "    </tr>\n",
 586 |        "    <tr>\n",
 587 |        "      <th>...</th>\n",
 588 |        "      <td>...</td>\n",
 589 |        "      <td>...</td>\n",
 590 |        "      <td>...</td>\n",
 591 |        "      <td>...</td>\n",
 592 |        "      <td>...</td>\n",
 593 |        "      <td>...</td>\n",
 594 |        "      <td>...</td>\n",
 595 |        "      <td>...</td>\n",
 596 |        "      <td>...</td>\n",
 597 |        "      <td>...</td>\n",
 598 |        "      <td>...</td>\n",
 599 |        "    </tr>\n",
 600 |        "    <tr>\n",
 601 |        "      <th>9995</th>\n",
 602 |        "      <td>771</td>\n",
 603 |        "      <td>France</td>\n",
 604 |        "      <td>1</td>\n",
 605 |        "      <td>39</td>\n",
 606 |        "      <td>5</td>\n",
 607 |        "      <td>0.00</td>\n",
 608 |        "      <td>2</td>\n",
 609 |        "      <td>1</td>\n",
 610 |        "      <td>0</td>\n",
 611 |        "      <td>96270.64</td>\n",
 612 |        "      <td>0</td>\n",
 613 |        "    </tr>\n",
 614 |        "    <tr>\n",
 615 |        "      <th>9996</th>\n",
 616 |        "      <td>516</td>\n",
 617 |        "      <td>France</td>\n",
 618 |        "      <td>1</td>\n",
 619 |        "      <td>35</td>\n",
 620 |        "      <td>10</td>\n",
 621 |        "      <td>57369.61</td>\n",
 622 |        "      <td>1</td>\n",
 623 |        "      <td>1</td>\n",
 624 |        "      <td>1</td>\n",
 625 |        "      <td>101699.77</td>\n",
 626 |        "      <td>0</td>\n",
 627 |        "    </tr>\n",
 628 |        "    <tr>\n",
 629 |        "      <th>9997</th>\n",
 630 |        "      <td>709</td>\n",
 631 |        "      <td>France</td>\n",
 632 |        "      <td>0</td>\n",
 633 |        "      <td>36</td>\n",
 634 |        "      <td>7</td>\n",
 635 |        "      <td>0.00</td>\n",
 636 |        "      <td>1</td>\n",
 637 |        "      <td>0</td>\n",
 638 |        "      <td>1</td>\n",
 639 |        "      <td>42085.58</td>\n",
 640 |        "      <td>1</td>\n",
 641 |        "    </tr>\n",
 642 |        "    <tr>\n",
 643 |        "      <th>9998</th>\n",
 644 |        "      <td>772</td>\n",
 645 |        "      <td>Germany</td>\n",
 646 |        "      <td>1</td>\n",
 647 |        "      <td>42</td>\n",
 648 |        "      <td>3</td>\n",
 649 |        "      <td>75075.31</td>\n",
 650 |        "      <td>2</td>\n",
 651 |        "      <td>1</td>\n",
 652 |        "      <td>0</td>\n",
 653 |        "      <td>92888.52</td>\n",
 654 |        "      <td>1</td>\n",
 655 |        "    </tr>\n",
 656 |        "    <tr>\n",
 657 |        "      <th>9999</th>\n",
 658 |        "      <td>792</td>\n",
 659 |        "      <td>France</td>\n",
 660 |        "      <td>0</td>\n",
 661 |        "      <td>28</td>\n",
 662 |        "      <td>4</td>\n",
 663 |        "      <td>130142.79</td>\n",
 664 |        "      <td>1</td>\n",
 665 |        "      <td>1</td>\n",
 666 |        "      <td>0</td>\n",
 667 |        "      <td>38190.78</td>\n",
 668 |        "      <td>0</td>\n",
 669 |        "    </tr>\n",
 670 |        "  </tbody>\n",
 671 |        "</table>\n",
 672 |        "<p>10000 rows × 11 columns</p>\n",
 673 |        "</div>"
 674 |       ],
 675 |       "text/plain": [
 676 |        "      CreditScore Geography  Gender  Age  Tenure    Balance  NumOfProducts  \\\n",
 677 |        "0             619    France       0   42       2       0.00              1   \n",
 678 |        "1             608     Spain       0   41       1   83807.86              1   \n",
 679 |        "2             502    France       0   42       8  159660.80              3   \n",
 680 |        "3             699    France       0   39       1       0.00              2   \n",
 681 |        "4             850     Spain       0   43       2  125510.82              1   \n",
 682 |        "...           ...       ...     ...  ...     ...        ...            ...   \n",
 683 |        "9995          771    France       1   39       5       0.00              2   \n",
 684 |        "9996          516    France       1   35      10   57369.61              1   \n",
 685 |        "9997          709    France       0   36       7       0.00              1   \n",
 686 |        "9998          772   Germany       1   42       3   75075.31              2   \n",
 687 |        "9999          792    France       0   28       4  130142.79              1   \n",
 688 |        "\n",
 689 |        "      HasCrCard  IsActiveMember  EstimatedSalary  Exited  \n",
 690 |        "0             1               1        101348.88       1  \n",
 691 |        "1             0               1        112542.58       0  \n",
 692 |        "2             1               0        113931.57       1  \n",
 693 |        "3             0               0         93826.63       0  \n",
 694 |        "4             1               1         79084.10       0  \n",
 695 |        "...         ...             ...              ...     ...  \n",
 696 |        "9995          1               0         96270.64       0  \n",
 697 |        "9996          1               1        101699.77       0  \n",
 698 |        "9997          0               1         42085.58       1  \n",
 699 |        "9998          1               0         92888.52       1  \n",
 700 |        "9999          1               0         38190.78       0  \n",
 701 |        "\n",
 702 |        "[10000 rows x 11 columns]"
 703 |       ]
 704 |      },
 705 |      "execution_count": 7,
 706 |      "metadata": {},
 707 |      "output_type": "execute_result"
 708 |     }
 709 |    ],
 710 |    "source": [
 711 |     "# Encode the categorical data\n",
 712 |     "label_encoder_gender = LabelEncoder()\n",
 713 |     "data[\"Gender\"] = label_encoder_gender.fit_transform(data[\"Gender\"])\n",
 714 |     "data"
 715 |    ]
 716 |   },
 717 |   {
 718 |    "cell_type": "code",
 719 |    "execution_count": 8,
 720 |    "metadata": {},
 721 |    "outputs": [
 722 |     {
 723 |      "data": {
 724 |       "text/plain": [
 725 |        "array([0, 1])"
 726 |       ]
 727 |      },
 728 |      "execution_count": 8,
 729 |      "metadata": {},
 730 |      "output_type": "execute_result"
 731 |     }
 732 |    ],
 733 |    "source": [
 734 |     "data[\"Gender\"].unique()"
 735 |    ]
 736 |   },
 737 |   {
 738 |    "cell_type": "code",
 739 |    "execution_count": 9,
 740 |    "metadata": {},
 741 |    "outputs": [
 742 |     {
 743 |      "data": {
 744 |       "text/plain": [
 745 |        "array([[1., 0., 0.],\n",
 746 |        "       [0., 0., 1.],\n",
 747 |        "       [1., 0., 0.],\n",
 748 |        "       ...,\n",
 749 |        "       [1., 0., 0.],\n",
 750 |        "       [0., 1., 0.],\n",
 751 |        "       [1., 0., 0.]])"
 752 |       ]
 753 |      },
 754 |      "execution_count": 9,
 755 |      "metadata": {},
 756 |      "output_type": "execute_result"
 757 |     }
 758 |    ],
 759 |    "source": [
 760 |     "# one hot encoding for \"Geography\" column\n",
 761 |     "from sklearn.preprocessing import OneHotEncoder\n",
 762 |     "onehot_encoder_geo = OneHotEncoder()\n",
 763 |     "# geo_encoder = onehot_encoder_geo.fit_transform(data[[\"Geography\"]]) # returns a sparse matrix\n",
 764 |     "geo_encoder = onehot_encoder_geo.fit_transform(data[[\"Geography\"]]).toarray() # returns a numpy array\n",
 765 |     "geo_encoder"
 766 |    ]
 767 |   },
 768 |   {
 769 |    "cell_type": "code",
 770 |    "execution_count": 10,
 771 |    "metadata": {},
 772 |    "outputs": [
 773 |     {
 774 |      "data": {
 775 |       "text/plain": [
 776 |        "array(['Geography_France', 'Geography_Germany', 'Geography_Spain'],\n",
 777 |        "      dtype=object)"
 778 |       ]
 779 |      },
 780 |      "execution_count": 10,
 781 |      "metadata": {},
 782 |      "output_type": "execute_result"
 783 |     }
 784 |    ],
 785 |    "source": [
 786 |     "onehot_encoder_geo.get_feature_names_out([\"Geography\"])"
 787 |    ]
 788 |   },
 789 |   {
 790 |    "cell_type": "code",
 791 |    "execution_count": 11,
 792 |    "metadata": {},
 793 |    "outputs": [],
 794 |    "source": [
 795 |     "geo_encoded_df = pd.DataFrame(geo_encoder, columns=onehot_encoder_geo.get_feature_names_out([\"Geography\"]))"
 796 |    ]
 797 |   },
 798 |   {
 799 |    "cell_type": "code",
 800 |    "execution_count": 12,
 801 |    "metadata": {},
 802 |    "outputs": [
 803 |     {
 804 |      "data": {
 805 |       "text/html": [
 806 |        "<div>\n",
 807 |        "<style scoped>\n",
 808 |        "    .dataframe tbody tr th:only-of-type {\n",
 809 |        "        vertical-align: middle;\n",
 810 |        "    }\n",
 811 |        "\n",
 812 |        "    .dataframe tbody tr th {\n",
 813 |        "        vertical-align: top;\n",
 814 |        "    }\n",
 815 |        "\n",
 816 |        "    .dataframe thead th {\n",
 817 |        "        text-align: right;\n",
 818 |        "    }\n",
 819 |        "</style>\n",
 820 |        "<table border=\"1\" class=\"dataframe\">\n",
 821 |        "  <thead>\n",
 822 |        "    <tr style=\"text-align: right;\">\n",
 823 |        "      <th></th>\n",
 824 |        "      <th>CreditScore</th>\n",
 825 |        "      <th>Gender</th>\n",
 826 |        "      <th>Age</th>\n",
 827 |        "      <th>Tenure</th>\n",
 828 |        "      <th>Balance</th>\n",
 829 |        "      <th>NumOfProducts</th>\n",
 830 |        "      <th>HasCrCard</th>\n",
 831 |        "      <th>IsActiveMember</th>\n",
 832 |        "      <th>EstimatedSalary</th>\n",
 833 |        "      <th>Exited</th>\n",
 834 |        "      <th>Geography_France</th>\n",
 835 |        "      <th>Geography_Germany</th>\n",
 836 |        "      <th>Geography_Spain</th>\n",
 837 |        "    </tr>\n",
 838 |        "  </thead>\n",
 839 |        "  <tbody>\n",
 840 |        "    <tr>\n",
 841 |        "      <th>0</th>\n",
 842 |        "      <td>619</td>\n",
 843 |        "      <td>0</td>\n",
 844 |        "      <td>42</td>\n",
 845 |        "      <td>2</td>\n",
 846 |        "      <td>0.00</td>\n",
 847 |        "      <td>1</td>\n",
 848 |        "      <td>1</td>\n",
 849 |        "      <td>1</td>\n",
 850 |        "      <td>101348.88</td>\n",
 851 |        "      <td>1</td>\n",
 852 |        "      <td>1.0</td>\n",
 853 |        "      <td>0.0</td>\n",
 854 |        "      <td>0.0</td>\n",
 855 |        "    </tr>\n",
 856 |        "    <tr>\n",
 857 |        "      <th>1</th>\n",
 858 |        "      <td>608</td>\n",
 859 |        "      <td>0</td>\n",
 860 |        "      <td>41</td>\n",
 861 |        "      <td>1</td>\n",
 862 |        "      <td>83807.86</td>\n",
 863 |        "      <td>1</td>\n",
 864 |        "      <td>0</td>\n",
 865 |        "      <td>1</td>\n",
 866 |        "      <td>112542.58</td>\n",
 867 |        "      <td>0</td>\n",
 868 |        "      <td>0.0</td>\n",
 869 |        "      <td>0.0</td>\n",
 870 |        "      <td>1.0</td>\n",
 871 |        "    </tr>\n",
 872 |        "    <tr>\n",
 873 |        "      <th>2</th>\n",
 874 |        "      <td>502</td>\n",
 875 |        "      <td>0</td>\n",
 876 |        "      <td>42</td>\n",
 877 |        "      <td>8</td>\n",
 878 |        "      <td>159660.80</td>\n",
 879 |        "      <td>3</td>\n",
 880 |        "      <td>1</td>\n",
 881 |        "      <td>0</td>\n",
 882 |        "      <td>113931.57</td>\n",
 883 |        "      <td>1</td>\n",
 884 |        "      <td>1.0</td>\n",
 885 |        "      <td>0.0</td>\n",
 886 |        "      <td>0.0</td>\n",
 887 |        "    </tr>\n",
 888 |        "    <tr>\n",
 889 |        "      <th>3</th>\n",
 890 |        "      <td>699</td>\n",
 891 |        "      <td>0</td>\n",
 892 |        "      <td>39</td>\n",
 893 |        "      <td>1</td>\n",
 894 |        "      <td>0.00</td>\n",
 895 |        "      <td>2</td>\n",
 896 |        "      <td>0</td>\n",
 897 |        "      <td>0</td>\n",
 898 |        "      <td>93826.63</td>\n",
 899 |        "      <td>0</td>\n",
 900 |        "      <td>1.0</td>\n",
 901 |        "      <td>0.0</td>\n",
 902 |        "      <td>0.0</td>\n",
 903 |        "    </tr>\n",
 904 |        "    <tr>\n",
 905 |        "      <th>4</th>\n",
 906 |        "      <td>850</td>\n",
 907 |        "      <td>0</td>\n",
 908 |        "      <td>43</td>\n",
 909 |        "      <td>2</td>\n",
 910 |        "      <td>125510.82</td>\n",
 911 |        "      <td>1</td>\n",
 912 |        "      <td>1</td>\n",
 913 |        "      <td>1</td>\n",
 914 |        "      <td>79084.10</td>\n",
 915 |        "      <td>0</td>\n",
 916 |        "      <td>0.0</td>\n",
 917 |        "      <td>0.0</td>\n",
 918 |        "      <td>1.0</td>\n",
 919 |        "    </tr>\n",
 920 |        "    <tr>\n",
 921 |        "      <th>...</th>\n",
 922 |        "      <td>...</td>\n",
 923 |        "      <td>...</td>\n",
 924 |        "      <td>...</td>\n",
 925 |        "      <td>...</td>\n",
 926 |        "      <td>...</td>\n",
 927 |        "      <td>...</td>\n",
 928 |        "      <td>...</td>\n",
 929 |        "      <td>...</td>\n",
 930 |        "      <td>...</td>\n",
 931 |        "      <td>...</td>\n",
 932 |        "      <td>...</td>\n",
 933 |        "      <td>...</td>\n",
 934 |        "      <td>...</td>\n",
 935 |        "    </tr>\n",
 936 |        "    <tr>\n",
 937 |        "      <th>9995</th>\n",
 938 |        "      <td>771</td>\n",
 939 |        "      <td>1</td>\n",
 940 |        "      <td>39</td>\n",
 941 |        "      <td>5</td>\n",
 942 |        "      <td>0.00</td>\n",
 943 |        "      <td>2</td>\n",
 944 |        "      <td>1</td>\n",
 945 |        "      <td>0</td>\n",
 946 |        "      <td>96270.64</td>\n",
 947 |        "      <td>0</td>\n",
 948 |        "      <td>1.0</td>\n",
 949 |        "      <td>0.0</td>\n",
 950 |        "      <td>0.0</td>\n",
 951 |        "    </tr>\n",
 952 |        "    <tr>\n",
 953 |        "      <th>9996</th>\n",
 954 |        "      <td>516</td>\n",
 955 |        "      <td>1</td>\n",
 956 |        "      <td>35</td>\n",
 957 |        "      <td>10</td>\n",
 958 |        "      <td>57369.61</td>\n",
 959 |        "      <td>1</td>\n",
 960 |        "      <td>1</td>\n",
 961 |        "      <td>1</td>\n",
 962 |        "      <td>101699.77</td>\n",
 963 |        "      <td>0</td>\n",
 964 |        "      <td>1.0</td>\n",
 965 |        "      <td>0.0</td>\n",
 966 |        "      <td>0.0</td>\n",
 967 |        "    </tr>\n",
 968 |        "    <tr>\n",
 969 |        "      <th>9997</th>\n",
 970 |        "      <td>709</td>\n",
 971 |        "      <td>0</td>\n",
 972 |        "      <td>36</td>\n",
 973 |        "      <td>7</td>\n",
 974 |        "      <td>0.00</td>\n",
 975 |        "      <td>1</td>\n",
 976 |        "      <td>0</td>\n",
 977 |        "      <td>1</td>\n",
 978 |        "      <td>42085.58</td>\n",
 979 |        "      <td>1</td>\n",
 980 |        "      <td>1.0</td>\n",
 981 |        "      <td>0.0</td>\n",
 982 |        "      <td>0.0</td>\n",
 983 |        "    </tr>\n",
 984 |        "    <tr>\n",
 985 |        "      <th>9998</th>\n",
 986 |        "      <td>772</td>\n",
 987 |        "      <td>1</td>\n",
 988 |        "      <td>42</td>\n",
 989 |        "      <td>3</td>\n",
 990 |        "      <td>75075.31</td>\n",
 991 |        "      <td>2</td>\n",
 992 |        "      <td>1</td>\n",
 993 |        "      <td>0</td>\n",
 994 |        "      <td>92888.52</td>\n",
 995 |        "      <td>1</td>\n",
 996 |        "      <td>0.0</td>\n",
 997 |        "      <td>1.0</td>\n",
 998 |        "      <td>0.0</td>\n",
 999 |        "    </tr>\n",
1000 |        "    <tr>\n",
1001 |        "      <th>9999</th>\n",
1002 |        "      <td>792</td>\n",
1003 |        "      <td>0</td>\n",
1004 |        "      <td>28</td>\n",
1005 |        "      <td>4</td>\n",
1006 |        "      <td>130142.79</td>\n",
1007 |        "      <td>1</td>\n",
1008 |        "      <td>1</td>\n",
1009 |        "      <td>0</td>\n",
1010 |        "      <td>38190.78</td>\n",
1011 |        "      <td>0</td>\n",
1012 |        "      <td>1.0</td>\n",
1013 |        "      <td>0.0</td>\n",
1014 |        "      <td>0.0</td>\n",
1015 |        "    </tr>\n",
1016 |        "  </tbody>\n",
1017 |        "</table>\n",
1018 |        "<p>10000 rows × 13 columns</p>\n",
1019 |        "</div>"
1020 |       ],
1021 |       "text/plain": [
1022 |        "      CreditScore  Gender  Age  Tenure    Balance  NumOfProducts  HasCrCard  \\\n",
1023 |        "0             619       0   42       2       0.00              1          1   \n",
1024 |        "1             608       0   41       1   83807.86              1          0   \n",
1025 |        "2             502       0   42       8  159660.80              3          1   \n",
1026 |        "3             699       0   39       1       0.00              2          0   \n",
1027 |        "4             850       0   43       2  125510.82              1          1   \n",
1028 |        "...           ...     ...  ...     ...        ...            ...        ...   \n",
1029 |        "9995          771       1   39       5       0.00              2          1   \n",
1030 |        "9996          516       1   35      10   57369.61              1          1   \n",
1031 |        "9997          709       0   36       7       0.00              1          0   \n",
1032 |        "9998          772       1   42       3   75075.31              2          1   \n",
1033 |        "9999          792       0   28       4  130142.79              1          1   \n",
1034 |        "\n",
1035 |        "      IsActiveMember  EstimatedSalary  Exited  Geography_France  \\\n",
1036 |        "0                  1        101348.88       1               1.0   \n",
1037 |        "1                  1        112542.58       0               0.0   \n",
1038 |        "2                  0        113931.57       1               1.0   \n",
1039 |        "3                  0         93826.63       0               1.0   \n",
1040 |        "4                  1         79084.10       0               0.0   \n",
1041 |        "...              ...              ...     ...               ...   \n",
1042 |        "9995               0         96270.64       0               1.0   \n",
1043 |        "9996               1        101699.77       0               1.0   \n",
1044 |        "9997               1         42085.58       1               1.0   \n",
1045 |        "9998               0         92888.52       1               0.0   \n",
1046 |        "9999               0         38190.78       0               1.0   \n",
1047 |        "\n",
1048 |        "      Geography_Germany  Geography_Spain  \n",
1049 |        "0                   0.0              0.0  \n",
1050 |        "1                   0.0              1.0  \n",
1051 |        "2                   0.0              0.0  \n",
1052 |        "3                   0.0              0.0  \n",
1053 |        "4                   0.0              1.0  \n",
1054 |        "...                 ...              ...  \n",
1055 |        "9995                0.0              0.0  \n",
1056 |        "9996                0.0              0.0  \n",
1057 |        "9997                0.0              0.0  \n",
1058 |        "9998                1.0              0.0  \n",
1059 |        "9999                0.0              0.0  \n",
1060 |        "\n",
1061 |        "[10000 rows x 13 columns]"
1062 |       ]
1063 |      },
1064 |      "execution_count": 12,
1065 |      "metadata": {},
1066 |      "output_type": "execute_result"
1067 |     }
1068 |    ],
1069 |    "source": [
1070 |     "# Combine one hot encoded data with the original data\n",
1071 |     "data = pd.concat([data.drop(\"Geography\", axis=1), geo_encoded_df], axis=1)\n",
1072 |     "data"
1073 |    ]
1074 |   },
1075 |   {
1076 |    "cell_type": "code",
1077 |    "execution_count": null,
1078 |    "metadata": {},
1079 |    "outputs": [
1080 |     {
1081 |      "data": {
1082 |       "text/plain": [
1083 |        "NumOfProducts\n",
1084 |        "1    5084\n",
1085 |        "2    4590\n",
1086 |        "3     266\n",
1087 |        "4      60\n",
1088 |        "Name: count, dtype: int64"
1089 |       ]
1090 |      },
1091 |      "execution_count": 51,
1092 |      "metadata": {},
1093 |      "output_type": "execute_result"
1094 |     }
1095 |    ],
1096 |    "source": [
1097 |     "data[\"NumOfProducts\"].value_counts()"
1098 |    ]
1099 |   },
1100 |   {
1101 |    "cell_type": "code",
1102 |    "execution_count": 52,
1103 |    "metadata": {},
1104 |    "outputs": [
1105 |     {
1106 |      "data": {
1107 |       "text/plain": [
1108 |        "Tenure\n",
1109 |        "2     1048\n",
1110 |        "1     1035\n",
1111 |        "7     1028\n",
1112 |        "8     1025\n",
1113 |        "5     1012\n",
1114 |        "3     1009\n",
1115 |        "4      989\n",
1116 |        "9      984\n",
1117 |        "6      967\n",
1118 |        "10     490\n",
1119 |        "0      413\n",
1120 |        "Name: count, dtype: int64"
1121 |       ]
1122 |      },
1123 |      "execution_count": 52,
1124 |      "metadata": {},
1125 |      "output_type": "execute_result"
1126 |     }
1127 |    ],
1128 |    "source": [
1129 |     "data[\"Tenure\"].value_counts()"
1130 |    ]
1131 |   },
1132 |   {
1133 |    "cell_type": "code",
1134 |    "execution_count": 49,
1135 |    "metadata": {},
1136 |    "outputs": [
1137 |     {
1138 |      "data": {
1139 |       "text/html": [
1140 |        "<div>\n",
1141 |        "<style scoped>\n",
1142 |        "    .dataframe tbody tr th:only-of-type {\n",
1143 |        "        vertical-align: middle;\n",
1144 |        "    }\n",
1145 |        "\n",
1146 |        "    .dataframe tbody tr th {\n",
1147 |        "        vertical-align: top;\n",
1148 |        "    }\n",
1149 |        "\n",
1150 |        "    .dataframe thead th {\n",
1151 |        "        text-align: right;\n",
1152 |        "    }\n",
1153 |        "</style>\n",
1154 |        "<table border=\"1\" class=\"dataframe\">\n",
1155 |        "  <thead>\n",
1156 |        "    <tr style=\"text-align: right;\">\n",
1157 |        "      <th></th>\n",
1158 |        "      <th>CreditScore</th>\n",
1159 |        "      <th>Gender</th>\n",
1160 |        "      <th>Age</th>\n",
1161 |        "      <th>Tenure</th>\n",
1162 |        "      <th>Balance</th>\n",
1163 |        "      <th>NumOfProducts</th>\n",
1164 |        "      <th>HasCrCard</th>\n",
1165 |        "      <th>IsActiveMember</th>\n",
1166 |        "      <th>EstimatedSalary</th>\n",
1167 |        "      <th>Exited</th>\n",
1168 |        "      <th>Geography_France</th>\n",
1169 |        "      <th>Geography_Germany</th>\n",
1170 |        "      <th>Geography_Spain</th>\n",
1171 |        "    </tr>\n",
1172 |        "  </thead>\n",
1173 |        "  <tbody>\n",
1174 |        "    <tr>\n",
1175 |        "      <th>0</th>\n",
1176 |        "      <td>619</td>\n",
1177 |        "      <td>0</td>\n",
1178 |        "      <td>42</td>\n",
1179 |        "      <td>2</td>\n",
1180 |        "      <td>0.0</td>\n",
1181 |        "      <td>1</td>\n",
1182 |        "      <td>1</td>\n",
1183 |        "      <td>1</td>\n",
1184 |        "      <td>101348.88</td>\n",
1185 |        "      <td>1</td>\n",
1186 |        "      <td>1.0</td>\n",
1187 |        "      <td>0.0</td>\n",
1188 |        "      <td>0.0</td>\n",
1189 |        "    </tr>\n",
1190 |        "  </tbody>\n",
1191 |        "</table>\n",
1192 |        "</div>"
1193 |       ],
1194 |       "text/plain": [
1195 |        "   CreditScore  Gender  Age  Tenure  Balance  NumOfProducts  HasCrCard  \\\n",
1196 |        "0          619       0   42       2      0.0              1          1   \n",
1197 |        "\n",
1198 |        "   IsActiveMember  EstimatedSalary  Exited  Geography_France  \\\n",
1199 |        "0               1        101348.88       1               1.0   \n",
1200 |        "\n",
1201 |        "   Geography_Germany  Geography_Spain  \n",
1202 |        "0                0.0              0.0  "
1203 |       ]
1204 |      },
1205 |      "execution_count": 49,
1206 |      "metadata": {},
1207 |      "output_type": "execute_result"
1208 |     }
1209 |    ],
1210 |    "source": [
1211 |     "data[0:1]\n",
1212 |     "# data.iloc[0]"
1213 |    ]
1214 |   },
1215 |   {
1216 |    "cell_type": "code",
1217 |    "execution_count": 13,
1218 |    "metadata": {},
1219 |    "outputs": [],
1220 |    "source": [
1221 |     "# Save the encoders and scaler\n",
1222 |     "import pickle\n",
1223 |     "with open(\"../models/label_encoder_gender.pki\", \"wb\") as file:\n",
1224 |     "    pickle.dump(label_encoder_gender, file)\n",
1225 |     "\n",
1226 |     "with open(\"../models/onehot_encoder_geo.pki\", \"wb\") as file:\n",
1227 |     "    pickle.dump(onehot_encoder_geo, file)"
1228 |    ]
1229 |   },
1230 |   {
1231 |    "cell_type": "code",
1232 |    "execution_count": 14,
1233 |    "metadata": {},
1234 |    "outputs": [
1235 |     {
1236 |      "data": {
1237 |       "text/html": [
1238 |        "<div>\n",
1239 |        "<style scoped>\n",
1240 |        "    .dataframe tbody tr th:only-of-type {\n",
1241 |        "        vertical-align: middle;\n",
1242 |        "    }\n",
1243 |        "\n",
1244 |        "    .dataframe tbody tr th {\n",
1245 |        "        vertical-align: top;\n",
1246 |        "    }\n",
1247 |        "\n",
1248 |        "    .dataframe thead th {\n",
1249 |        "        text-align: right;\n",
1250 |        "    }\n",
1251 |        "</style>\n",
1252 |        "<table border=\"1\" class=\"dataframe\">\n",
1253 |        "  <thead>\n",
1254 |        "    <tr style=\"text-align: right;\">\n",
1255 |        "      <th></th>\n",
1256 |        "      <th>CreditScore</th>\n",
1257 |        "      <th>Gender</th>\n",
1258 |        "      <th>Age</th>\n",
1259 |        "      <th>Tenure</th>\n",
1260 |        "      <th>Balance</th>\n",
1261 |        "      <th>NumOfProducts</th>\n",
1262 |        "      <th>HasCrCard</th>\n",
1263 |        "      <th>IsActiveMember</th>\n",
1264 |        "      <th>EstimatedSalary</th>\n",
1265 |        "      <th>Exited</th>\n",
1266 |        "      <th>Geography_France</th>\n",
1267 |        "      <th>Geography_Germany</th>\n",
1268 |        "      <th>Geography_Spain</th>\n",
1269 |        "    </tr>\n",
1270 |        "  </thead>\n",
1271 |        "  <tbody>\n",
1272 |        "    <tr>\n",
1273 |        "      <th>0</th>\n",
1274 |        "      <td>619</td>\n",
1275 |        "      <td>0</td>\n",
1276 |        "      <td>42</td>\n",
1277 |        "      <td>2</td>\n",
1278 |        "      <td>0.00</td>\n",
1279 |        "      <td>1</td>\n",
1280 |        "      <td>1</td>\n",
1281 |        "      <td>1</td>\n",
1282 |        "      <td>101348.88</td>\n",
1283 |        "      <td>1</td>\n",
1284 |        "      <td>1.0</td>\n",
1285 |        "      <td>0.0</td>\n",
1286 |        "      <td>0.0</td>\n",
1287 |        "    </tr>\n",
1288 |        "    <tr>\n",
1289 |        "      <th>1</th>\n",
1290 |        "      <td>608</td>\n",
1291 |        "      <td>0</td>\n",
1292 |        "      <td>41</td>\n",
1293 |        "      <td>1</td>\n",
1294 |        "      <td>83807.86</td>\n",
1295 |        "      <td>1</td>\n",
1296 |        "      <td>0</td>\n",
1297 |        "      <td>1</td>\n",
1298 |        "      <td>112542.58</td>\n",
1299 |        "      <td>0</td>\n",
1300 |        "      <td>0.0</td>\n",
1301 |        "      <td>0.0</td>\n",
1302 |        "      <td>1.0</td>\n",
1303 |        "    </tr>\n",
1304 |        "    <tr>\n",
1305 |        "      <th>2</th>\n",
1306 |        "      <td>502</td>\n",
1307 |        "      <td>0</td>\n",
1308 |        "      <td>42</td>\n",
1309 |        "      <td>8</td>\n",
1310 |        "      <td>159660.80</td>\n",
1311 |        "      <td>3</td>\n",
1312 |        "      <td>1</td>\n",
1313 |        "      <td>0</td>\n",
1314 |        "      <td>113931.57</td>\n",
1315 |        "      <td>1</td>\n",
1316 |        "      <td>1.0</td>\n",
1317 |        "      <td>0.0</td>\n",
1318 |        "      <td>0.0</td>\n",
1319 |        "    </tr>\n",
1320 |        "    <tr>\n",
1321 |        "      <th>3</th>\n",
1322 |        "      <td>699</td>\n",
1323 |        "      <td>0</td>\n",
1324 |        "      <td>39</td>\n",
1325 |        "      <td>1</td>\n",
1326 |        "      <td>0.00</td>\n",
1327 |        "      <td>2</td>\n",
1328 |        "      <td>0</td>\n",
1329 |        "      <td>0</td>\n",
1330 |        "      <td>93826.63</td>\n",
1331 |        "      <td>0</td>\n",
1332 |        "      <td>1.0</td>\n",
1333 |        "      <td>0.0</td>\n",
1334 |        "      <td>0.0</td>\n",
1335 |        "    </tr>\n",
1336 |        "    <tr>\n",
1337 |        "      <th>4</th>\n",
1338 |        "      <td>850</td>\n",
1339 |        "      <td>0</td>\n",
1340 |        "      <td>43</td>\n",
1341 |        "      <td>2</td>\n",
1342 |        "      <td>125510.82</td>\n",
1343 |        "      <td>1</td>\n",
1344 |        "      <td>1</td>\n",
1345 |        "      <td>1</td>\n",
1346 |        "      <td>79084.10</td>\n",
1347 |        "      <td>0</td>\n",
1348 |        "      <td>0.0</td>\n",
1349 |        "      <td>0.0</td>\n",
1350 |        "      <td>1.0</td>\n",
1351 |        "    </tr>\n",
1352 |        "  </tbody>\n",
1353 |        "</table>\n",
1354 |        "</div>"
1355 |       ],
1356 |       "text/plain": [
1357 |        "   CreditScore  Gender  Age  Tenure    Balance  NumOfProducts  HasCrCard  \\\n",
1358 |        "0          619       0   42       2       0.00              1          1   \n",
1359 |        "1          608       0   41       1   83807.86              1          0   \n",
1360 |        "2          502       0   42       8  159660.80              3          1   \n",
1361 |        "3          699       0   39       1       0.00              2          0   \n",
1362 |        "4          850       0   43       2  125510.82              1          1   \n",
1363 |        "\n",
1364 |        "   IsActiveMember  EstimatedSalary  Exited  Geography_France  \\\n",
1365 |        "0               1        101348.88       1               1.0   \n",
1366 |        "1               1        112542.58       0               0.0   \n",
1367 |        "2               0        113931.57       1               1.0   \n",
1368 |        "3               0         93826.63       0               1.0   \n",
1369 |        "4               1         79084.10       0               0.0   \n",
1370 |        "\n",
1371 |        "   Geography_Germany  Geography_Spain  \n",
1372 |        "0                0.0              0.0  \n",
1373 |        "1                0.0              1.0  \n",
1374 |        "2                0.0              0.0  \n",
1375 |        "3                0.0              0.0  \n",
1376 |        "4                0.0              1.0  "
1377 |       ]
1378 |      },
1379 |      "execution_count": 14,
1380 |      "metadata": {},
1381 |      "output_type": "execute_result"
1382 |     }
1383 |    ],
1384 |    "source": [
1385 |     "data.head()"
1386 |    ]
1387 |   },
1388 |   {
1389 |    "cell_type": "code",
1390 |    "execution_count": 15,
1391 |    "metadata": {},
1392 |    "outputs": [],
1393 |    "source": [
1394 |     "# Divide the dataset into independent and dependent features\n",
1395 |     "X = data.drop(\"Exited\", axis=1)\n",
1396 |     "y=data[\"Exited\"]\n",
1397 |     "\n",
1398 |     "# split the data into training and testing data\n",
1399 |     "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)\n",
1400 |     "\n",
1401 |     "# Scale the feature\n",
1402 |     "scaler = StandardScaler()\n",
1403 |     "X_train = scaler.fit_transform(X_train)\n",
1404 |     "X_test = scaler.transform(X_test)"
1405 |    ]
1406 |   },
1407 |   {
1408 |    "cell_type": "code",
1409 |    "execution_count": 16,
1410 |    "metadata": {},
1411 |    "outputs": [
1412 |     {
1413 |      "data": {
1414 |       "text/plain": [
1415 |        "array([[ 0.35649971,  0.91324755, -0.6557859 , ...,  1.00150113,\n",
1416 |        "        -0.57946723, -0.57638802],\n",
1417 |        "       [-0.20389777,  0.91324755,  0.29493847, ..., -0.99850112,\n",
1418 |        "         1.72572313, -0.57638802],\n",
1419 |        "       [-0.96147213,  0.91324755, -1.41636539, ..., -0.99850112,\n",
1420 |        "        -0.57946723,  1.73494238],\n",
1421 |        "       ...,\n",
1422 |        "       [ 0.86500853, -1.09499335, -0.08535128, ...,  1.00150113,\n",
1423 |        "        -0.57946723, -0.57638802],\n",
1424 |        "       [ 0.15932282,  0.91324755,  0.3900109 , ...,  1.00150113,\n",
1425 |        "        -0.57946723, -0.57638802],\n",
1426 |        "       [ 0.47065475,  0.91324755,  1.15059039, ..., -0.99850112,\n",
1427 |        "         1.72572313, -0.57638802]])"
1428 |       ]
1429 |      },
1430 |      "execution_count": 16,
1431 |      "metadata": {},
1432 |      "output_type": "execute_result"
1433 |     }
1434 |    ],
1435 |    "source": [
1436 |     "X_train"
1437 |    ]
1438 |   },
1439 |   {
1440 |    "cell_type": "code",
1441 |    "execution_count": 17,
1442 |    "metadata": {},
1443 |    "outputs": [
1444 |     {
1445 |      "name": "stdout",
1446 |      "output_type": "stream",
1447 |      "text": [
1448 |       "(8000, 12)\n"
1449 |      ]
1450 |     }
1451 |    ],
1452 |    "source": [
1453 |     "print(X_train.shape)"
1454 |    ]
1455 |   },
1456 |   {
1457 |    "cell_type": "code",
1458 |    "execution_count": 18,
1459 |    "metadata": {},
1460 |    "outputs": [],
1461 |    "source": [
1462 |     "with open(\"../models/scaler.pki\", \"wb\") as file:\n",
1463 |     "    pickle.dump(scaler, file)"
1464 |    ]
1465 |   },
1466 |   {
1467 |    "cell_type": "code",
1468 |    "execution_count": 19,
1469 |    "metadata": {},
1470 |    "outputs": [
1471 |     {
1472 |      "data": {
1473 |       "text/html": [
1474 |        "<div>\n",
1475 |        "<style scoped>\n",
1476 |        "    .dataframe tbody tr th:only-of-type {\n",
1477 |        "        vertical-align: middle;\n",
1478 |        "    }\n",
1479 |        "\n",
1480 |        "    .dataframe tbody tr th {\n",
1481 |        "        vertical-align: top;\n",
1482 |        "    }\n",
1483 |        "\n",
1484 |        "    .dataframe thead th {\n",
1485 |        "        text-align: right;\n",
1486 |        "    }\n",
1487 |        "</style>\n",
1488 |        "<table border=\"1\" class=\"dataframe\">\n",
1489 |        "  <thead>\n",
1490 |        "    <tr style=\"text-align: right;\">\n",
1491 |        "      <th></th>\n",
1492 |        "      <th>CreditScore</th>\n",
1493 |        "      <th>Gender</th>\n",
1494 |        "      <th>Age</th>\n",
1495 |        "      <th>Tenure</th>\n",
1496 |        "      <th>Balance</th>\n",
1497 |        "      <th>NumOfProducts</th>\n",
1498 |        "      <th>HasCrCard</th>\n",
1499 |        "      <th>IsActiveMember</th>\n",
1500 |        "      <th>EstimatedSalary</th>\n",
1501 |        "      <th>Exited</th>\n",
1502 |        "      <th>Geography_France</th>\n",
1503 |        "      <th>Geography_Germany</th>\n",
1504 |        "      <th>Geography_Spain</th>\n",
1505 |        "    </tr>\n",
1506 |        "  </thead>\n",
1507 |        "  <tbody>\n",
1508 |        "    <tr>\n",
1509 |        "      <th>0</th>\n",
1510 |        "      <td>619</td>\n",
1511 |        "      <td>0</td>\n",
1512 |        "      <td>42</td>\n",
1513 |        "      <td>2</td>\n",
1514 |        "      <td>0.00</td>\n",
1515 |        "      <td>1</td>\n",
1516 |        "      <td>1</td>\n",
1517 |        "      <td>1</td>\n",
1518 |        "      <td>101348.88</td>\n",
1519 |        "      <td>1</td>\n",
1520 |        "      <td>1.0</td>\n",
1521 |        "      <td>0.0</td>\n",
1522 |        "      <td>0.0</td>\n",
1523 |        "    </tr>\n",
1524 |        "    <tr>\n",
1525 |        "      <th>1</th>\n",
1526 |        "      <td>608</td>\n",
1527 |        "      <td>0</td>\n",
1528 |        "      <td>41</td>\n",
1529 |        "      <td>1</td>\n",
1530 |        "      <td>83807.86</td>\n",
1531 |        "      <td>1</td>\n",
1532 |        "      <td>0</td>\n",
1533 |        "      <td>1</td>\n",
1534 |        "      <td>112542.58</td>\n",
1535 |        "      <td>0</td>\n",
1536 |        "      <td>0.0</td>\n",
1537 |        "      <td>0.0</td>\n",
1538 |        "      <td>1.0</td>\n",
1539 |        "    </tr>\n",
1540 |        "    <tr>\n",
1541 |        "      <th>2</th>\n",
1542 |        "      <td>502</td>\n",
1543 |        "      <td>0</td>\n",
1544 |        "      <td>42</td>\n",
1545 |        "      <td>8</td>\n",
1546 |        "      <td>159660.80</td>\n",
1547 |        "      <td>3</td>\n",
1548 |        "      <td>1</td>\n",
1549 |        "      <td>0</td>\n",
1550 |        "      <td>113931.57</td>\n",
1551 |        "      <td>1</td>\n",
1552 |        "      <td>1.0</td>\n",
1553 |        "      <td>0.0</td>\n",
1554 |        "      <td>0.0</td>\n",
1555 |        "    </tr>\n",
1556 |        "    <tr>\n",
1557 |        "      <th>3</th>\n",
1558 |        "      <td>699</td>\n",
1559 |        "      <td>0</td>\n",
1560 |        "      <td>39</td>\n",
1561 |        "      <td>1</td>\n",
1562 |        "      <td>0.00</td>\n",
1563 |        "      <td>2</td>\n",
1564 |        "      <td>0</td>\n",
1565 |        "      <td>0</td>\n",
1566 |        "      <td>93826.63</td>\n",
1567 |        "      <td>0</td>\n",
1568 |        "      <td>1.0</td>\n",
1569 |        "      <td>0.0</td>\n",
1570 |        "      <td>0.0</td>\n",
1571 |        "    </tr>\n",
1572 |        "    <tr>\n",
1573 |        "      <th>4</th>\n",
1574 |        "      <td>850</td>\n",
1575 |        "      <td>0</td>\n",
1576 |        "      <td>43</td>\n",
1577 |        "      <td>2</td>\n",
1578 |        "      <td>125510.82</td>\n",
1579 |        "      <td>1</td>\n",
1580 |        "      <td>1</td>\n",
1581 |        "      <td>1</td>\n",
1582 |        "      <td>79084.10</td>\n",
1583 |        "      <td>0</td>\n",
1584 |        "      <td>0.0</td>\n",
1585 |        "      <td>0.0</td>\n",
1586 |        "      <td>1.0</td>\n",
1587 |        "    </tr>\n",
1588 |        "    <tr>\n",
1589 |        "      <th>...</th>\n",
1590 |        "      <td>...</td>\n",
1591 |        "      <td>...</td>\n",
1592 |        "      <td>...</td>\n",
1593 |        "      <td>...</td>\n",
1594 |        "      <td>...</td>\n",
1595 |        "      <td>...</td>\n",
1596 |        "      <td>...</td>\n",
1597 |        "      <td>...</td>\n",
1598 |        "      <td>...</td>\n",
1599 |        "      <td>...</td>\n",
1600 |        "      <td>...</td>\n",
1601 |        "      <td>...</td>\n",
1602 |        "      <td>...</td>\n",
1603 |        "    </tr>\n",
1604 |        "    <tr>\n",
1605 |        "      <th>9995</th>\n",
1606 |        "      <td>771</td>\n",
1607 |        "      <td>1</td>\n",
1608 |        "      <td>39</td>\n",
1609 |        "      <td>5</td>\n",
1610 |        "      <td>0.00</td>\n",
1611 |        "      <td>2</td>\n",
1612 |        "      <td>1</td>\n",
1613 |        "      <td>0</td>\n",
1614 |        "      <td>96270.64</td>\n",
1615 |        "      <td>0</td>\n",
1616 |        "      <td>1.0</td>\n",
1617 |        "      <td>0.0</td>\n",
1618 |        "      <td>0.0</td>\n",
1619 |        "    </tr>\n",
1620 |        "    <tr>\n",
1621 |        "      <th>9996</th>\n",
1622 |        "      <td>516</td>\n",
1623 |        "      <td>1</td>\n",
1624 |        "      <td>35</td>\n",
1625 |        "      <td>10</td>\n",
1626 |        "      <td>57369.61</td>\n",
1627 |        "      <td>1</td>\n",
1628 |        "      <td>1</td>\n",
1629 |        "      <td>1</td>\n",
1630 |        "      <td>101699.77</td>\n",
1631 |        "      <td>0</td>\n",
1632 |        "      <td>1.0</td>\n",
1633 |        "      <td>0.0</td>\n",
1634 |        "      <td>0.0</td>\n",
1635 |        "    </tr>\n",
1636 |        "    <tr>\n",
1637 |        "      <th>9997</th>\n",
1638 |        "      <td>709</td>\n",
1639 |        "      <td>0</td>\n",
1640 |        "      <td>36</td>\n",
1641 |        "      <td>7</td>\n",
1642 |        "      <td>0.00</td>\n",
1643 |        "      <td>1</td>\n",
1644 |        "      <td>0</td>\n",
1645 |        "      <td>1</td>\n",
1646 |        "      <td>42085.58</td>\n",
1647 |        "      <td>1</td>\n",
1648 |        "      <td>1.0</td>\n",
1649 |        "      <td>0.0</td>\n",
1650 |        "      <td>0.0</td>\n",
1651 |        "    </tr>\n",
1652 |        "    <tr>\n",
1653 |        "      <th>9998</th>\n",
1654 |        "      <td>772</td>\n",
1655 |        "      <td>1</td>\n",
1656 |        "      <td>42</td>\n",
1657 |        "      <td>3</td>\n",
1658 |        "      <td>75075.31</td>\n",
1659 |        "      <td>2</td>\n",
1660 |        "      <td>1</td>\n",
1661 |        "      <td>0</td>\n",
1662 |        "      <td>92888.52</td>\n",
1663 |        "      <td>1</td>\n",
1664 |        "      <td>0.0</td>\n",
1665 |        "      <td>1.0</td>\n",
1666 |        "      <td>0.0</td>\n",
1667 |        "    </tr>\n",
1668 |        "    <tr>\n",
1669 |        "      <th>9999</th>\n",
1670 |        "      <td>792</td>\n",
1671 |        "      <td>0</td>\n",
1672 |        "      <td>28</td>\n",
1673 |        "      <td>4</td>\n",
1674 |        "      <td>130142.79</td>\n",
1675 |        "      <td>1</td>\n",
1676 |        "      <td>1</td>\n",
1677 |        "      <td>0</td>\n",
1678 |        "      <td>38190.78</td>\n",
1679 |        "      <td>0</td>\n",
1680 |        "      <td>1.0</td>\n",
1681 |        "      <td>0.0</td>\n",
1682 |        "      <td>0.0</td>\n",
1683 |        "    </tr>\n",
1684 |        "  </tbody>\n",
1685 |        "</table>\n",
1686 |        "<p>10000 rows × 13 columns</p>\n",
1687 |        "</div>"
1688 |       ],
1689 |       "text/plain": [
1690 |        "      CreditScore  Gender  Age  Tenure    Balance  NumOfProducts  HasCrCard  \\\n",
1691 |        "0             619       0   42       2       0.00              1          1   \n",
1692 |        "1             608       0   41       1   83807.86              1          0   \n",
1693 |        "2             502       0   42       8  159660.80              3          1   \n",
1694 |        "3             699       0   39       1       0.00              2          0   \n",
1695 |        "4             850       0   43       2  125510.82              1          1   \n",
1696 |        "...           ...     ...  ...     ...        ...            ...        ...   \n",
1697 |        "9995          771       1   39       5       0.00              2          1   \n",
1698 |        "9996          516       1   35      10   57369.61              1          1   \n",
1699 |        "9997          709       0   36       7       0.00              1          0   \n",
1700 |        "9998          772       1   42       3   75075.31              2          1   \n",
1701 |        "9999          792       0   28       4  130142.79              1          1   \n",
1702 |        "\n",
1703 |        "      IsActiveMember  EstimatedSalary  Exited  Geography_France  \\\n",
1704 |        "0                  1        101348.88       1               1.0   \n",
1705 |        "1                  1        112542.58       0               0.0   \n",
1706 |        "2                  0        113931.57       1               1.0   \n",
1707 |        "3                  0         93826.63       0               1.0   \n",
1708 |        "4                  1         79084.10       0               0.0   \n",
1709 |        "...              ...              ...     ...               ...   \n",
1710 |        "9995               0         96270.64       0               1.0   \n",
1711 |        "9996               1        101699.77       0               1.0   \n",
1712 |        "9997               1         42085.58       1               1.0   \n",
1713 |        "9998               0         92888.52       1               0.0   \n",
1714 |        "9999               0         38190.78       0               1.0   \n",
1715 |        "\n",
1716 |        "      Geography_Germany  Geography_Spain  \n",
1717 |        "0                   0.0              0.0  \n",
1718 |        "1                   0.0              1.0  \n",
1719 |        "2                   0.0              0.0  \n",
1720 |        "3                   0.0              0.0  \n",
1721 |        "4                   0.0              1.0  \n",
1722 |        "...                 ...              ...  \n",
1723 |        "9995                0.0              0.0  \n",
1724 |        "9996                0.0              0.0  \n",
1725 |        "9997                0.0              0.0  \n",
1726 |        "9998                1.0              0.0  \n",
1727 |        "9999                0.0              0.0  \n",
1728 |        "\n",
1729 |        "[10000 rows x 13 columns]"
1730 |       ]
1731 |      },
1732 |      "execution_count": 19,
1733 |      "metadata": {},
1734 |      "output_type": "execute_result"
1735 |     }
1736 |    ],
1737 |    "source": [
1738 |     "data"
1739 |    ]
1740 |   },
1741 |   {
1742 |    "cell_type": "code",
1743 |    "execution_count": 20,
1744 |    "metadata": {},
1745 |    "outputs": [],
1746 |    "source": [
1747 |     "import tensorflow\n",
1748 |     "from tensorflow.keras.models import Sequential\n",
1749 |     "from tensorflow.keras.layers import Dense\n",
1750 |     "from tensorflow.keras.callbacks import EarlyStopping, TensorBoard\n",
1751 |     "import datetime"
1752 |    ]
1753 |   },
1754 |   {
1755 |    "cell_type": "code",
1756 |    "execution_count": 22,
1757 |    "metadata": {},
1758 |    "outputs": [
1759 |     {
1760 |      "data": {
1761 |       "text/plain": [
1762 |        "12"
1763 |       ]
1764 |      },
1765 |      "execution_count": 22,
1766 |      "metadata": {},
1767 |      "output_type": "execute_result"
1768 |     }
1769 |    ],
1770 |    "source": [
1771 |     "X_train.shape[1]"
1772 |    ]
1773 |   },
1774 |   {
1775 |    "cell_type": "code",
1776 |    "execution_count": 23,
1777 |    "metadata": {},
1778 |    "outputs": [
1779 |     {
1780 |      "name": "stdout",
1781 |      "output_type": "stream",
1782 |      "text": [
1783 |       "WARNING:tensorflow:From c:\\Users\\HP\\Documents\\appliso-genai-class\\class-project\\churn-classification\\venv\\Lib\\site-packages\\keras\\src\\backend.py:873: The name tf.get_default_graph is deprecated. Please use tf.compat.v1.get_default_graph instead.\n",
1784 |       "\n"
1785 |      ]
1786 |     }
1787 |    ],
1788 |    "source": [
1789 |     "# HL -> Hidden Layer\n",
1790 |     "model = Sequential([\n",
1791 |     "    Dense(64, activation=\"relu\", input_shape=(X_train.shape[1],)), #HL1 connected with the input layer\n",
1792 |     "    Dense(32, activation=\"relu\"), #HL2\n",
1793 |     "    Dense(1, activation=\"sigmoid\") #Output layer\n",
1794 |     "])"
1795 |    ]
1796 |   },
1797 |   {
1798 |    "cell_type": "code",
1799 |    "execution_count": 24,
1800 |    "metadata": {},
1801 |    "outputs": [
1802 |     {
1803 |      "name": "stdout",
1804 |      "output_type": "stream",
1805 |      "text": [
1806 |       "Model: \"sequential\"\n",
1807 |       "_________________________________________________________________\n",
1808 |       " Layer (type)                Output Shape              Param #   \n",
1809 |       "=================================================================\n",
1810 |       " dense (Dense)               (None, 64)                832       \n",
1811 |       "                                                                 \n",
1812 |       " dense_1 (Dense)             (None, 32)                2080      \n",
1813 |       "                                                                 \n",
1814 |       " dense_2 (Dense)             (None, 1)                 33        \n",
1815 |       "                                                                 \n",
1816 |       "=================================================================\n",
1817 |       "Total params: 2945 (11.50 KB)\n",
1818 |       "Trainable params: 2945 (11.50 KB)\n",
1819 |       "Non-trainable params: 0 (0.00 Byte)\n",
1820 |       "_________________________________________________________________\n"
1821 |      ]
1822 |     }
1823 |    ],
1824 |    "source": [
1825 |     "model.summary()"
1826 |    ]
1827 |   },
1828 |   {
1829 |    "cell_type": "code",
1830 |    "execution_count": 25,
1831 |    "metadata": {},
1832 |    "outputs": [],
1833 |    "source": [
1834 |     "opt = tensorflow.keras.optimizers.Adam(learning_rate=0.01)"
1835 |    ]
1836 |   },
1837 |   {
1838 |    "cell_type": "code",
1839 |    "execution_count": 26,
1840 |    "metadata": {},
1841 |    "outputs": [],
1842 |    "source": [
1843 |     "# Compile the model\n",
1844 |     "model.compile(optimizer=opt, loss=\"binary_crossentropy\", metrics=[\"accuracy\"])"
1845 |    ]
1846 |   },
1847 |   {
1848 |    "cell_type": "code",
1849 |    "execution_count": 28,
1850 |    "metadata": {},
1851 |    "outputs": [
1852 |     {
1853 |      "data": {
1854 |       "text/plain": [
1855 |        "'20250114-020126'"
1856 |       ]
1857 |      },
1858 |      "execution_count": 28,
1859 |      "metadata": {},
1860 |      "output_type": "execute_result"
1861 |     }
1862 |    ],
1863 |    "source": [
1864 |     "datetime.datetime.now().strftime(\"%Y%m%d-%H%M%S\")"
1865 |    ]
1866 |   },
1867 |   {
1868 |    "cell_type": "code",
1869 |    "execution_count": 29,
1870 |    "metadata": {},
1871 |    "outputs": [],
1872 |    "source": [
1873 |     "log_dir = \"../logs/fit/\" + datetime.datetime.now().strftime(\"%Y%m%d-%H%M%S\")"
1874 |    ]
1875 |   },
1876 |   {
1877 |    "cell_type": "code",
1878 |    "execution_count": 30,
1879 |    "metadata": {},
1880 |    "outputs": [],
1881 |    "source": [
1882 |     "tensorflow_callback = TensorBoard(log_dir=log_dir, histogram_freq=1)"
1883 |    ]
1884 |   },
1885 |   {
1886 |    "cell_type": "code",
1887 |    "execution_count": null,
1888 |    "metadata": {},
1889 |    "outputs": [],
1890 |    "source": [
1891 |     "early_stopping_callback = EarlyStopping(monitor=\"val_loss\", patience=10, restore_best_weights=True)"
1892 |    ]
1893 |   },
1894 |   {
1895 |    "cell_type": "code",
1896 |    "execution_count": 34,
1897 |    "metadata": {},
1898 |    "outputs": [
1899 |     {
1900 |      "name": "stdout",
1901 |      "output_type": "stream",
1902 |      "text": [
1903 |       "Epoch 1/100\n",
1904 |       "640/640 [==============================] - 4s 7ms/step - loss: 0.3505 - accuracy: 0.8606 - val_loss: 0.3562 - val_accuracy: 0.8569\n",
1905 |       "Epoch 2/100\n",
1906 |       "640/640 [==============================] - 4s 7ms/step - loss: 0.3436 - accuracy: 0.8620 - val_loss: 0.3523 - val_accuracy: 0.8500\n",
1907 |       "Epoch 3/100\n",
1908 |       "640/640 [==============================] - 5s 7ms/step - loss: 0.3407 - accuracy: 0.8623 - val_loss: 0.3449 - val_accuracy: 0.8537\n",
1909 |       "Epoch 4/100\n",
1910 |       "640/640 [==============================] - 5s 8ms/step - loss: 0.3380 - accuracy: 0.8630 - val_loss: 0.3552 - val_accuracy: 0.8537\n",
1911 |       "Epoch 5/100\n",
1912 |       "640/640 [==============================] - 7s 10ms/step - loss: 0.3365 - accuracy: 0.8648 - val_loss: 0.3616 - val_accuracy: 0.8519\n",
1913 |       "Epoch 6/100\n",
1914 |       "640/640 [==============================] - 6s 10ms/step - loss: 0.3343 - accuracy: 0.8652 - val_loss: 0.3675 - val_accuracy: 0.8487\n",
1915 |       "Epoch 7/100\n",
1916 |       "640/640 [==============================] - 7s 10ms/step - loss: 0.3329 - accuracy: 0.8647 - val_loss: 0.3581 - val_accuracy: 0.8544\n",
1917 |       "Epoch 8/100\n",
1918 |       "640/640 [==============================] - 6s 10ms/step - loss: 0.3300 - accuracy: 0.8664 - val_loss: 0.3573 - val_accuracy: 0.8512\n"
1919 |      ]
1920 |     }
1921 |    ],
1922 |    "source": [
1923 |     "history = model.fit(X_train, y_train, validation_split=0.2, epochs=100, batch_size=10, callbacks=[tensorflow_callback, early_stopping_callback])"
1924 |    ]
1925 |   },
1926 |   {
1927 |    "cell_type": "code",
1928 |    "execution_count": 37,
1929 |    "metadata": {},
1930 |    "outputs": [
1931 |     {
1932 |      "name": "stderr",
1933 |      "output_type": "stream",
1934 |      "text": [
1935 |       "c:\\Users\\HP\\Documents\\appliso-genai-class\\class-project\\churn-classification\\venv\\Lib\\site-packages\\keras\\src\\engine\\training.py:3103: UserWarning: You are saving your model as an HDF5 file via `model.save()`. This file format is considered legacy. We recommend using instead the native Keras format, e.g. `model.save('my_model.keras')`.\n",
1936 |       "  saving_api.save_model(\n"
1937 |      ]
1938 |     }
1939 |    ],
1940 |    "source": [
1941 |     "model.save(\"../models/model.h5\")"
1942 |    ]
1943 |   },
1944 |   {
1945 |    "cell_type": "code",
1946 |    "execution_count": 38,
1947 |    "metadata": {},
1948 |    "outputs": [],
1949 |    "source": [
1950 |     "## Load Tensorboard Extension\n",
1951 |     "%load_ext tensorboard"
1952 |    ]
1953 |   },
1954 |   {
1955 |    "cell_type": "code",
1956 |    "execution_count": 40,
1957 |    "metadata": {},
1958 |    "outputs": [
1959 |     {
1960 |      "data": {
1961 |       "text/plain": [
1962 |        "Reusing TensorBoard on port 6006 (pid 20132), started 0:00:53 ago. (Use '!kill 20132' to kill it.)"
1963 |       ]
1964 |      },
1965 |      "metadata": {},
1966 |      "output_type": "display_data"
1967 |     },
1968 |     {
1969 |      "data": {
1970 |       "text/html": [
1971 |        "\n",
1972 |        "      <iframe id=\"tensorboard-frame-e9cbd3f59bcedb0\" width=\"100%\" height=\"800\" frameborder=\"0\">\n",
1973 |        "      </iframe>\n",
1974 |        "      <script>\n",
1975 |        "        (function() {\n",
1976 |        "          const frame = document.getElementById(\"tensorboard-frame-e9cbd3f59bcedb0\");\n",
1977 |        "          const url = new URL(\"http://localhost\");\n",
1978 |        "          const port = 6006;\n",
1979 |        "          if (port) {\n",
1980 |        "            url.port = port;\n",
1981 |        "          }\n",
1982 |        "          frame.src = url;\n",
1983 |        "        })();\n",
1984 |        "      </script>\n",
1985 |        "    "
1986 |       ],
1987 |       "text/plain": [
1988 |        "<IPython.core.display.HTML object>"
1989 |       ]
1990 |      },
1991 |      "metadata": {},
1992 |      "output_type": "display_data"
1993 |     }
1994 |    ],
1995 |    "source": [
1996 |     "%tensorboard --logdir logs/fit"
1997 |    ]
1998 |   }
1999 |  ],
2000 |  "metadata": {
2001 |   "kernelspec": {
2002 |    "display_name": "Python 3",
2003 |    "language": "python",
2004 |    "name": "python3"
2005 |   },
2006 |   "language_info": {
2007 |    "codemirror_mode": {
2008 |     "name": "ipython",
2009 |     "version": 3
2010 |    },
2011 |    "file_extension": ".py",
2012 |    "mimetype": "text/x-python",
2013 |    "name": "python",
2014 |    "nbconvert_exporter": "python",
2015 |    "pygments_lexer": "ipython3",
2016 |    "version": "3.11.0"
2017 |   }
2018 |  },
2019 |  "nbformat": 4,
2020 |  "nbformat_minor": 2
2021 | }
2022 | 


--------------------------------------------------------------------------------