├── README.md ├── case ├── README.md └── iFood Data Analyst Case.pdf ├── data ├── README.md ├── customers_clustered.csv ├── customers_new_features_and_drop.csv ├── customers_new_features_and_drop_dummies.csv └── ml_project1_data.csv ├── images ├── comparing_models.png ├── pairplot_clusters.png └── pca_clusters.png ├── notebooks ├── 00_package_versions.ipynb ├── 01_eda.ipynb ├── 02_clustering.ipynb ├── 03_clustering_pca.ipynb ├── 04_classification.ipynb ├── 05_classification_logreg.ipynb └── auxiliary_functions.py └── reports └── eda.html /README.md: -------------------------------------------------------------------------------- 1 | [![author](https://img.shields.io/badge/Author-Francisco Bustamante-red.svg)](https://www.linkedin.com/in/flsbustamante/) 2 | [![](https://img.shields.io/badge/Python-3.11+-blue.svg)](https://www.python.org/) 3 | 4 | # Case iFood - Analista de dados 5 | 6 | Considere uma empresa bem estabelecida que atua no setor de varejo de alimentos. Atualmente, eles têm cerca de vários milhares de clientes registrados e atendem quase um milhão de consumidores por ano. Eles vendem produtos de 5 grandes categorias: vinhos, carnes, frutas exóticas, peixes especialmente preparados e produtos doces. Estes podem ser divididos ainda mais em produtos de *gold* e regulares. Os clientes podem encomendar e adquirir produtos por meio de 3 canais de vendas: lojas físicas, catálogos e site da empresa. Globalmente, a empresa teve receitas sólidas e uma linha de fundo saudável nos últimos 3 anos, mas as perspectivas de crescimento dos lucros para os próximos 3 anos não são promissoras... Por esse motivo, várias iniciativas estratégicas estão sendo consideradas para inverter essa situação. Um deles é melhorar o desempenho das atividades de marketing, com foco especial em campanhas de marketing. 7 | 8 | ![pairplot](images/pairplot_clusters.png) 9 | 10 | Projeto de ensino utilizado em curso de Ciência de Dados ministrado por mim para a [Hashtag Treinamentos](https://www.hashtagtreinamentos.com/). Baseado no processo seletivo para Analista de Dados do iFood disponível [neste repositório](https://github.com/ifood/ifood-data-business-analyst-test). 11 | 12 | Descrição completa do case [aqui](case/README.md). 13 | 14 |

15 | 16 |

17 | 18 | ## Objetivos 19 | 20 | O objetivo deste projeto é mostrar aos alunos como estruturar um projeto para um processo seletivo que foi aplicado na vida real. 21 | 22 | Durante o curso, mostrei a importância de realizar o pré-processamento dos dados, bem como a importância de se realizar a análise exploratória dos dados. Muito foi discutido sobre o que deve ser apresentado para em um documento técnico e o que deve ser apresentado em uma apresentação para um público não técnico. 23 | 24 | Objetivos detalhados: 25 | 26 | - Construir uma análise exploratória robusta. 27 | - Segmentar os clientes da base de dados fornecida. 28 | - Construir um modelo de classificação para prever se um cliente irá comprar o produto oferecido na campanha. 29 | - Apresentar uma estrutura de projeto de Ciência de Dados, com a utilização de notebooks, scripts, relatórios e repositório no GitHub. 30 | - Apresentar boas práticas de programação em Python, como a utilização de funções e arquivos de script para facilitar o reaproveitamento de código. 31 | - Mostrar boas práticas de uso do SciKit-Learn, como a utilização de pipelines e otimização de hiperparâmetros. 32 | 33 | ## Estrutura do repositório 34 | 35 | ``` 36 | ├── case 37 | ├── data 38 | ├── images 39 | ├── notebooks 40 | ├── reports 41 | ``` 42 | 43 | - Na pasta `data` estão os dados utilizados no projeto. O arquivo `ml_project1_data.csv` é o dataset utilizado originalmente. Os demais arquivos são os datasets gerados durante o projeto. 44 | - Na pasta `images` estão as imagens utilizadas neste README. 45 | - Na pasta `notebooks` estão os notebooks com o desenvolvimento do projeto. 46 | - Na pasta `reports` estão os relatórios gerados durante o projeto utilizando a biblioteca [ydata-profiling](https://github.com/ydataai/ydata-profiling). 47 | 48 | ## Detalhes do dataset utilizado e resumo dos resultados 49 | 50 | Uma descrição detalhada do dataset utilizado está disponível [aqui](data/README.md). 51 | 52 | Com um pipeline com pré-processamento, PCA e K-Means, a base foi segmentada em 3 clusters: 53 | 54 | ![clusters](images/pca_clusters.png) 55 | 56 | Análise por cluster: 57 | 58 | - Cluster 0: 59 | - Renda alta 60 | - gasto alto 61 | - muito provalmente não tem filhos 62 | - mais propenso a aceitar campanhas 63 | - cluster sem pessoas com escolaridade básica 64 | - sem um perfil de idade que se destaque 65 | 66 | - Cluster 1: 67 | - Renda baixa 68 | - gasto baixo 69 | - provalmente tem filhos 70 | - baixa propensão a aceitar campanhas 71 | - único cluster com porcentagem significativa de pessoas com escolaridade básica 72 | - pessoas mais jovens 73 | 74 | - Cluster 2: 75 | - Renda intermediária 76 | - gasto intermediário 77 | - provalmente tem filhos 78 | - pode aceitar campanhas 79 | - pessoas com idade mais elevada 80 | 81 | Posteriormente, três modelos de classificação foram treinados para prever se um cliente irá comprar o produto oferecido na campanha. Os modelos utilizados foram: 82 | 83 | - Regressão Logística 84 | - Decision Tree 85 | - KNN 86 | 87 | Um DummyClassifier foi utilizado como baseline. Os modelos foram comparados com base em 6 métricas: 88 | 89 | ![comparing_models](images/comparing_models.png) 90 | 91 | Com base nessa comparação, o modelo de Regressão Logística foi escolhido para passar por uma otimização de hiperparâmetros. 92 | 93 | ## Como reproduzir o projeto 94 | 95 | O projeto foi desenvolvido utilizando o Python 3.11.5. Para reproduzir o projeto, crie um ambiente virtual com o Conda, ou ferramenta similar, com o Python 3.11.5 e instale as bibliotecas abaixo: 96 | 97 | | Biblioteca | Versão | 98 | | ---------------- | ------ | 99 | | Imbalanced-Learn | 0.11.0 | 100 | | Matplotlib | 3.7.2 | 101 | | NumPy | 1.24.3 | 102 | | Pandas | 1.5.3 | 103 | | Scikit-Learn | 1.3.0 | 104 | | Seaborn | 0.12.2 | 105 | 106 | Essas são as bibliotecas principais utilizadas no projeto. O relatório foi gerado com a biblioteca [ydata-profiling](https://github.com/ydataai/ydata-profiling), instale-a se quiser reproduzir o relatório. 107 | -------------------------------------------------------------------------------- /case/README.md: -------------------------------------------------------------------------------- 1 | # Caso para Analista de Dados CRM - iFood 2 | 3 | Tradução do case original em inglês para português. O texto original está [neste arquivo PDF](./iFood%20Data%20Analyst%20Case.pdf) baixado do [repositório do GitHub da iFood](https://github.com/ifood/ifood-data-business-analyst-test) para este case. 4 | 5 | ## Texto de apresentação 6 | 7 | O iFood é o aplicativo líder de entrega de alimentos no Brasil, presente em mais de mil cidades. 8 | 9 | Manter um alto engajamento do cliente é fundamental para o crescimento e consolidação da empresa na posição como líder de mercado. 10 | 11 | Os analistas de dados que trabalham na equipe de dados são constantemente desafiados a fornecer insights e valor para a empresa por meio de projetos de escopo aberto. Este caso pretende simular isso. 12 | 13 | Neste case, você recebe um conjunto de dados de amostra, que simula metainformações sobre o cliente e as interações da campanha iFood com esse cliente. 14 | 15 | É seu desafio entender os dados, encontrar oportunidades e insights de negócios e propor qualquer ação orientada por dados para otimizar os resultados das campanhas e gerar valor para a empresa. 16 | 17 | Este case visa avaliar suas habilidades e conhecimentos em dados para duas funções possíveis: 18 | 19 | - Analista de dados de negócios: 20 | 21 | > Realizar uma análise exploratória robusta, rica em insights de negócios e propostas orientadas por dados para agregar valor à empresa. Ter fortes habilidades de comunicação para influenciar o tomada de decisão. 22 | 23 | - Analista de dados avançado: 24 | 25 | > Realizar uma análise exploratória robusta, usando ferramentas de análise avançada e métodos estatísticos, para gerar produtos de dados para otimizar os resultados dos negócios (modelos preditivos e de agrupamento, por exemplo). 26 | 27 | Tenha foco claro em qual função você deseja executar na iFood e concentre sua energia para se destacar em tópicos mais relevantes para isso. 28 | 29 | Abaixo você encontrará a descrição do caso e mais detalhes do que esperamos como sua solução. 30 | 31 | **Por favor, leia atentamente até a última página.** 32 | 33 | ## A empresa do case 34 | 35 | Considere uma empresa bem estabelecida que atua no setor de varejo de alimentos. Atualmente, eles têm milhares de clientes registrados e atendem quase um milhão de consumidores por ano. Eles vendem produtos de 5 grandes categorias: vinhos, carnes, frutas exóticas, peixes especialmente preparados e produtos doces. Estes podem ser divididos ainda mais em produtos *gold* e regulares. Os clientes podem encomendar e adquirir produtos por meio de 3 canais de vendas: lojas físicas, catálogos e site da empresa. Globalmente, a empresa teve receitas sólidas e uma linha de fundo saudável nos últimos 3 anos, mas as perspectivas de crescimento dos lucros para os próximos 3 anos não são promissoras... Por esse motivo, várias iniciativas estratégicas estão sendo consideradas para inverter essa situação. Um deles é melhorar o desempenho das atividades de marketing, com foco especial em campanhas de marketing. 36 | 37 | ## O departamento de marketing 38 | 39 | O departamento de marketing foi pressionado a gastar seu orçamento anual com mais sabedoria. O CMO percebe a importância de ter uma abordagem mais quantitativa ao tomar decisões, razão pela qual uma pequena equipe de cientistas de dados foi contratada com um objetivo claro em mente: construir um modelo preditivo que apoiará iniciativas de marketing direto. Desejavelmente, o sucesso dessas atividades provará o valor da abordagem e convencer os mais céticos dentro da empresa. 40 | 41 | ## O objetivo 42 | 43 | O objetivo da equipe é construir um modelo preditivo que produza o maior lucro para o próxima campanha de marketing direto, programada para o próximo mês. 44 | 45 | A nova campanha, sexta, visa vender um novo gadget para o Banco de Dados de Clientes. Para construir o modelo, uma campanha piloto envolvendo 2.240 clientes foi realizada. Os clientes foram selecionados aleatoriamente e contatados por telefone com relação à aquisição do gadget. Durante os meses seguintes, os clientes que compraram a oferta foram devidamente rotulados. 46 | 47 | O custo total da campanha de amostra foi de 6.720MU e a receita gerado pelos clientes que aceitaram a oferta foi de 3.674MU. Globalmente a campanha teve um lucro de -3.046MU. A taxa de sucesso da campanha foi de 15%. O objetivo da equipe é desenvolver um modelo que preveja o comportamento do cliente e aplicá-lo ao restante da base de clientes. Esperançosamente, o modelo permitirá que a empresa escolha os clientes que são mais propensos a comprar a oferta, deixando de fora os não respondentes, tornando a próxima campanha altamente lucrativa. 48 | 49 | Além disso, além de maximizar o lucro da campanha, o CMO está interessado em entender as características dos clientes que estão dispostos a comprar o gadget. 50 | 51 | ## Os dados 52 | 53 | O conjunto de dados contém recursos sociodemográficos e firmográficos sobre 2.240 clientes que foram contatados. Além disso, contém um rótulo para aqueles clientes que responderam à campanha, comprando o produto. 54 | 55 | Dicionário de dados disponível [na pasta `data`](../data/README.md). 56 | 57 | ## Entregáveis 58 | 59 | Os seguintes são os entregáveis mínimos necessários: 60 | 61 | 1. Explore os dados - seja criativo e preste atenção aos detalhes. Você precisa fornecer para a equipe de marketing uma melhor compreensão das características dos respondentes; 62 | 2. Crie e descreva uma segmentação de clientes com base no comportamento dos clientes; 63 | 3. Crie e descreva um modelo preditivo (classificação) que permita à empresa maximizar o lucro da próxima campanha de marketing. 64 | 65 | Como esperamos que sua solução seja enviada: 66 | 67 | 1. Um notebook detalhado e bem organizado (ou arquivo de código equivalente) a ser apresentado a partes técnicas interessadas. 68 | 2. Uma apresentação do PowerPoint (ou ferramenta similar) a ser apresentada às partes interessadas (stakeholders) do negócio. 69 | 70 | Você pode usar qualquer linguagem de programação para esta tarefa (usamos Python). 71 | 72 | Simplicidade e consciência do que está acontecendo é preferível a implementações de algoritmos complexos que você não domina. 73 | 74 | Se sua solução atender aos nossos critérios mínimos, você deve ser convidado para uma apresentação técnica / negócios. Soluções que não atendem aos nossos critérios, mas que mostram potencial, serão convidadas para uma reunião de feedback curta (30 min). 75 | 76 | Você deve receber uma resposta dentro de 1-2 semanas após o envio do caso. 77 | 78 | Se houver alguma dúvida, não hesite em nos contatar. 79 | -------------------------------------------------------------------------------- /case/iFood Data Analyst Case.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/chicolucio/ifood-case-data-analyst/b3dfc7f0e5f3d3a6343c605d304ac4be4d1510af/case/iFood Data Analyst Case.pdf -------------------------------------------------------------------------------- /data/README.md: -------------------------------------------------------------------------------- 1 | ## Dicionário de dados 2 | 3 | Dados pessoais 4 | 5 | - `ID`: Identificador único do cliente 6 | - `Year_Birth`: Ano de nascimento do cliente 7 | - `Education`: Nível de educação do cliente 8 | - `Marital_Status`: Estado civil do cliente 9 | - `Income`: Renda anual da família do cliente 10 | - `Kidhome`: Número de crianças na casa do cliente 11 | - `Teenhome`: Número de adolescentes na casa do cliente 12 | - `Dt_Customer`: Data de inscrição do cliente na empresa 13 | - `Recency`: Número de dias desde a última compra do cliente 14 | - `Complain`: 1 se o cliente reclamou nos últimos 2 anos, 0 caso contrário 15 | 16 | Dados de produtos 17 | 18 | - `MntWines`: Valor gasto em vinho nos últimos 2 anos 19 | - `MntFruits`: Valor gasto em frutas nos últimos 2 anos 20 | - `MntMeatProducts`: Valor gasto em carne nos últimos 2 anos 21 | - `MntFishProducts`: Valor gasto em peixe nos últimos 2 anos 22 | - `MntSweetProducts`: Valor gasto em doces nos últimos 2 anos 23 | - `MntGoldProds`: Valor gasto em produtos *gold* nos últimos 2 anos 24 | 25 | Dados de campanha 26 | 27 | - `NumDealsPurchases`: Número de compras feitas com desconto 28 | - `AcceptedCmp1`: 1 se o cliente aceitou a oferta na 1ª campanha, 0 caso contrário 29 | - `AcceptedCmp2`: 1 se o cliente aceitou a oferta na 2ª campanha, 0 caso contrário 30 | - `AcceptedCmp3`: 1 se o cliente aceitou a oferta na 3ª campanha, 0 caso contrário 31 | - `AcceptedCmp4`: 1 se o cliente aceitou a oferta na 4ª campanha, 0 caso contrário 32 | - `AcceptedCmp5`: 1 se o cliente aceitou a oferta na 5ª campanha, 0 caso contrário 33 | - `Response`: 1 se o cliente aceitou a oferta na última campanha (piloto), 0 caso contrário (*target*) 34 | 35 | Dados de local de compra 36 | 37 | - `NumWebPurchases`: Número de compras feitas através do site da empresa 38 | - `NumCatalogPurchases`: Número de compras feitas usando um catálogo 39 | - `NumStorePurchases`: Número de compras feitas diretamente nas lojas 40 | - `NumWebVisitsMonth`: Número de visitas ao site da empresa no último mês 41 | -------------------------------------------------------------------------------- /images/comparing_models.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/chicolucio/ifood-case-data-analyst/b3dfc7f0e5f3d3a6343c605d304ac4be4d1510af/images/comparing_models.png -------------------------------------------------------------------------------- /images/pairplot_clusters.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/chicolucio/ifood-case-data-analyst/b3dfc7f0e5f3d3a6343c605d304ac4be4d1510af/images/pairplot_clusters.png -------------------------------------------------------------------------------- /images/pca_clusters.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/chicolucio/ifood-case-data-analyst/b3dfc7f0e5f3d3a6343c605d304ac4be4d1510af/images/pca_clusters.png -------------------------------------------------------------------------------- /notebooks/00_package_versions.ipynb: -------------------------------------------------------------------------------- 1 | { 2 | "cells": [ 3 | { 4 | "cell_type": "markdown", 5 | "metadata": {}, 6 | "source": [ 7 | "# Versions of the main packages used in this project" 8 | ] 9 | }, 10 | { 11 | "cell_type": "code", 12 | "execution_count": 1, 13 | "metadata": {}, 14 | "outputs": [ 15 | { 16 | "name": "stdout", 17 | "output_type": "stream", 18 | "text": [ 19 | "Versions of the packages:\n", 20 | "\n", 21 | "-------------------- | ----------\n", 22 | " Package | Version \n", 23 | "-------------------- | ----------\n", 24 | "Imbalanced-Learn | 0.11.0\n", 25 | "Matplotlib | 3.7.2\n", 26 | "NumPy | 1.24.3\n", 27 | "Pandas | 1.5.3\n", 28 | "Scikit-Learn | 1.3.0\n", 29 | "Seaborn | 0.12.2\n", 30 | "\n", 31 | "Python version: 3.11.5\n" 32 | ] 33 | } 34 | ], 35 | "source": [ 36 | "import pandas as pd\n", 37 | "import matplotlib\n", 38 | "import seaborn as sns\n", 39 | "import numpy as np\n", 40 | "import sklearn\n", 41 | "import imblearn\n", 42 | "from platform import python_version\n", 43 | "\n", 44 | "packages = {\n", 45 | " \"Pandas\": pd,\n", 46 | " \"Matplotlib\": matplotlib,\n", 47 | " \"Seaborn\": sns,\n", 48 | " \"NumPy\": np,\n", 49 | " \"Scikit-Learn\": sklearn,\n", 50 | " \"Imbalanced-Learn\": imblearn,\n", 51 | "}\n", 52 | "\n", 53 | "print(\"Versions of the packages:\\n\")\n", 54 | "print(f\"{'':-^20} | {'':-^10}\")\n", 55 | "print(f\"{'Package':^20} | {'Version':^10}\")\n", 56 | "print(f\"{'':-^20} | {'':-^10}\")\n", 57 | "\n", 58 | "for name, package in sorted(packages.items()):\n", 59 | " print(f\"{name:<20} | {package.__version__:>10}\")\n", 60 | "\n", 61 | "print()\n", 62 | "print(f\"Python version: {python_version()}\")" 63 | ] 64 | } 65 | ], 66 | "metadata": { 67 | "kernelspec": { 68 | "display_name": "Python 3 (ipykernel)", 69 | "language": "python", 70 | "name": "python3" 71 | }, 72 | "language_info": { 73 | "codemirror_mode": { 74 | "name": "ipython", 75 | "version": 3 76 | }, 77 | "file_extension": ".py", 78 | "mimetype": "text/x-python", 79 | "name": "python", 80 | "nbconvert_exporter": "python", 81 | "pygments_lexer": "ipython3", 82 | "version": "3.11.5" 83 | } 84 | }, 85 | "nbformat": 4, 86 | "nbformat_minor": 4 87 | } 88 | -------------------------------------------------------------------------------- /notebooks/04_classification.ipynb: -------------------------------------------------------------------------------- 1 | { 2 | "cells": [ 3 | { 4 | "cell_type": "markdown", 5 | "id": "44364423", 6 | "metadata": {}, 7 | "source": [ 8 | "# Predictive model for classification" 9 | ] 10 | }, 11 | { 12 | "cell_type": "code", 13 | "execution_count": 1, 14 | "id": "db792e4c-e769-499d-b4f2-f4935d90f6c9", 15 | "metadata": {}, 16 | "outputs": [ 17 | { 18 | "data": { 19 | "text/html": [ 20 | "
\n", 21 | "\n", 34 | "\n", 35 | " \n", 36 | " \n", 37 | " \n", 38 | " \n", 39 | " \n", 40 | " \n", 41 | " \n", 42 | " \n", 43 | " \n", 44 | " \n", 45 | " \n", 46 | " \n", 47 | " \n", 48 | " \n", 49 | " \n", 50 | " \n", 51 | " \n", 52 | " \n", 53 | " \n", 54 | " \n", 55 | " \n", 56 | " \n", 57 | " \n", 58 | " \n", 59 | " \n", 60 | " \n", 61 | " \n", 62 | " \n", 63 | " \n", 64 | " \n", 65 | " \n", 66 | " \n", 67 | " \n", 68 | " \n", 69 | " \n", 70 | " \n", 71 | " \n", 72 | " \n", 73 | " \n", 74 | " \n", 75 | " \n", 76 | " \n", 77 | " \n", 78 | " \n", 79 | " \n", 80 | " \n", 81 | " \n", 82 | " \n", 83 | " \n", 84 | " \n", 85 | " \n", 86 | " \n", 87 | " \n", 88 | " \n", 89 | " \n", 90 | " \n", 91 | " \n", 92 | " \n", 93 | " \n", 94 | " \n", 95 | " \n", 96 | " \n", 97 | " \n", 98 | " \n", 99 | " \n", 100 | " \n", 101 | " \n", 102 | " \n", 103 | " \n", 104 | " \n", 105 | " \n", 106 | " \n", 107 | " \n", 108 | " \n", 109 | " \n", 110 | " \n", 111 | " \n", 112 | " \n", 113 | " \n", 114 | " \n", 115 | " \n", 116 | " \n", 117 | " \n", 118 | " \n", 119 | " \n", 120 | " \n", 121 | " \n", 122 | " \n", 123 | " \n", 124 | " \n", 125 | " \n", 126 | " \n", 127 | " \n", 128 | " \n", 129 | " \n", 130 | " \n", 131 | " \n", 132 | " \n", 133 | " \n", 134 | " \n", 135 | " \n", 136 | " \n", 137 | " \n", 138 | " \n", 139 | " \n", 140 | " \n", 141 | " \n", 142 | " \n", 143 | " \n", 144 | " \n", 145 | " \n", 146 | " \n", 147 | " \n", 148 | " \n", 149 | " \n", 150 | " \n", 151 | " \n", 152 | " \n", 153 | " \n", 154 | " \n", 155 | " \n", 156 | " \n", 157 | " \n", 158 | " \n", 159 | " \n", 160 | " \n", 161 | " \n", 162 | " \n", 163 | " \n", 164 | " \n", 165 | " \n", 166 | " \n", 167 | " \n", 168 | " \n", 169 | " \n", 170 | " \n", 171 | " \n", 172 | " \n", 173 | " \n", 174 | " \n", 175 | " \n", 176 | " \n", 177 | " \n", 178 | " \n", 179 | " \n", 180 | " \n", 181 | " \n", 182 | " \n", 183 | "
EducationMarital_StatusIncomeKidhomeTeenhomeRecencyMntWinesMntFruitsMntMeatProductsMntFishProducts...AgeAgeGroupMntTotalMntRegularProdsChildrenHasChildrenAcceptedCmpTotalHasAcceptedCmpNumTotalPurchasescluster
0GraduationSingle58138.0005863588546172...5746-60161715290000220
1GraduationSingle46344.0113811162...6046-602721210041
2GraduationPartner71613.0002642649127111...4946-607767340000200
3GraduationPartner26646.010261142010...3018-305348110061
4PhDPartner58293.010941734311846...3331-454224071100142
\n", 184 | "

5 rows × 36 columns

\n", 185 | "
" 186 | ], 187 | "text/plain": [ 188 | " Education Marital_Status Income Kidhome Teenhome Recency MntWines \\\n", 189 | "0 Graduation Single 58138.0 0 0 58 635 \n", 190 | "1 Graduation Single 46344.0 1 1 38 11 \n", 191 | "2 Graduation Partner 71613.0 0 0 26 426 \n", 192 | "3 Graduation Partner 26646.0 1 0 26 11 \n", 193 | "4 PhD Partner 58293.0 1 0 94 173 \n", 194 | "\n", 195 | " MntFruits MntMeatProducts MntFishProducts ... Age AgeGroup MntTotal \\\n", 196 | "0 88 546 172 ... 57 46-60 1617 \n", 197 | "1 1 6 2 ... 60 46-60 27 \n", 198 | "2 49 127 111 ... 49 46-60 776 \n", 199 | "3 4 20 10 ... 30 18-30 53 \n", 200 | "4 43 118 46 ... 33 31-45 422 \n", 201 | "\n", 202 | " MntRegularProds Children HasChildren AcceptedCmpTotal HasAcceptedCmp \\\n", 203 | "0 1529 0 0 0 0 \n", 204 | "1 21 2 1 0 0 \n", 205 | "2 734 0 0 0 0 \n", 206 | "3 48 1 1 0 0 \n", 207 | "4 407 1 1 0 0 \n", 208 | "\n", 209 | " NumTotalPurchases cluster \n", 210 | "0 22 0 \n", 211 | "1 4 1 \n", 212 | "2 20 0 \n", 213 | "3 6 1 \n", 214 | "4 14 2 \n", 215 | "\n", 216 | "[5 rows x 36 columns]" 217 | ] 218 | }, 219 | "execution_count": 1, 220 | "metadata": {}, 221 | "output_type": "execute_result" 222 | } 223 | ], 224 | "source": [ 225 | "import pandas as pd\n", 226 | "\n", 227 | "DATA = \"../data/customers_clustered.csv\"\n", 228 | "\n", 229 | "df_clustered = pd.read_csv(DATA)\n", 230 | "df_clustered.head()" 231 | ] 232 | }, 233 | { 234 | "cell_type": "code", 235 | "execution_count": 2, 236 | "id": "c7563037-cca2-4d44-ab90-9cc08c4c3bad", 237 | "metadata": {}, 238 | "outputs": [ 239 | { 240 | "name": "stdout", 241 | "output_type": "stream", 242 | "text": [ 243 | "\n", 244 | "RangeIndex: 2205 entries, 0 to 2204\n", 245 | "Data columns (total 36 columns):\n", 246 | " # Column Non-Null Count Dtype \n", 247 | "--- ------ -------------- ----- \n", 248 | " 0 Education 2205 non-null object \n", 249 | " 1 Marital_Status 2205 non-null object \n", 250 | " 2 Income 2205 non-null float64\n", 251 | " 3 Kidhome 2205 non-null int64 \n", 252 | " 4 Teenhome 2205 non-null int64 \n", 253 | " 5 Recency 2205 non-null int64 \n", 254 | " 6 MntWines 2205 non-null int64 \n", 255 | " 7 MntFruits 2205 non-null int64 \n", 256 | " 8 MntMeatProducts 2205 non-null int64 \n", 257 | " 9 MntFishProducts 2205 non-null int64 \n", 258 | " 10 MntSweetProducts 2205 non-null int64 \n", 259 | " 11 MntGoldProds 2205 non-null int64 \n", 260 | " 12 NumDealsPurchases 2205 non-null int64 \n", 261 | " 13 NumWebPurchases 2205 non-null int64 \n", 262 | " 14 NumCatalogPurchases 2205 non-null int64 \n", 263 | " 15 NumStorePurchases 2205 non-null int64 \n", 264 | " 16 NumWebVisitsMonth 2205 non-null int64 \n", 265 | " 17 AcceptedCmp3 2205 non-null int64 \n", 266 | " 18 AcceptedCmp4 2205 non-null int64 \n", 267 | " 19 AcceptedCmp5 2205 non-null int64 \n", 268 | " 20 AcceptedCmp1 2205 non-null int64 \n", 269 | " 21 AcceptedCmp2 2205 non-null int64 \n", 270 | " 22 Complain 2205 non-null int64 \n", 271 | " 23 Response 2205 non-null int64 \n", 272 | " 24 DaysSinceEnrolled 2205 non-null int64 \n", 273 | " 25 YearsSinceEnrolled 2205 non-null int64 \n", 274 | " 26 Age 2205 non-null int64 \n", 275 | " 27 AgeGroup 2205 non-null object \n", 276 | " 28 MntTotal 2205 non-null int64 \n", 277 | " 29 MntRegularProds 2205 non-null int64 \n", 278 | " 30 Children 2205 non-null int64 \n", 279 | " 31 HasChildren 2205 non-null int64 \n", 280 | " 32 AcceptedCmpTotal 2205 non-null int64 \n", 281 | " 33 HasAcceptedCmp 2205 non-null int64 \n", 282 | " 34 NumTotalPurchases 2205 non-null int64 \n", 283 | " 35 cluster 2205 non-null int64 \n", 284 | "dtypes: float64(1), int64(32), object(3)\n", 285 | "memory usage: 620.3+ KB\n" 286 | ] 287 | } 288 | ], 289 | "source": [ 290 | "df_clustered.info()" 291 | ] 292 | }, 293 | { 294 | "cell_type": "code", 295 | "execution_count": 3, 296 | "id": "f9558b20-ad8c-4589-8de5-05a2add03aa4", 297 | "metadata": {}, 298 | "outputs": [], 299 | "source": [ 300 | "X = df_clustered.drop(\"Response\", axis=1)\n", 301 | "y = df_clustered[\"Response\"]" 302 | ] 303 | }, 304 | { 305 | "cell_type": "code", 306 | "execution_count": 4, 307 | "id": "a440e7b9-07d6-4a0d-8742-91b472abf3ac", 308 | "metadata": {}, 309 | "outputs": [ 310 | { 311 | "data": { 312 | "text/html": [ 313 | "
\n", 314 | "\n", 327 | "\n", 328 | " \n", 329 | " \n", 330 | " \n", 331 | " \n", 332 | " \n", 333 | " \n", 334 | " \n", 335 | " \n", 336 | " \n", 337 | " \n", 338 | " \n", 339 | " \n", 340 | " \n", 341 | " \n", 342 | " \n", 343 | " \n", 344 | " \n", 345 | " \n", 346 | " \n", 347 | " \n", 348 | " \n", 349 | " \n", 350 | " \n", 351 | " \n", 352 | " \n", 353 | " \n", 354 | " \n", 355 | " \n", 356 | " \n", 357 | " \n", 358 | " \n", 359 | " \n", 360 | " \n", 361 | " \n", 362 | " \n", 363 | " \n", 364 | " \n", 365 | " \n", 366 | " \n", 367 | " \n", 368 | " \n", 369 | " \n", 370 | " \n", 371 | " \n", 372 | " \n", 373 | " \n", 374 | " \n", 375 | " \n", 376 | " \n", 377 | " \n", 378 | " \n", 379 | " \n", 380 | " \n", 381 | " \n", 382 | " \n", 383 | " \n", 384 | " \n", 385 | " \n", 386 | " \n", 387 | " \n", 388 | " \n", 389 | " \n", 390 | " \n", 391 | " \n", 392 | " \n", 393 | " \n", 394 | " \n", 395 | " \n", 396 | " \n", 397 | " \n", 398 | " \n", 399 | " \n", 400 | " \n", 401 | " \n", 402 | " \n", 403 | " \n", 404 | " \n", 405 | " \n", 406 | " \n", 407 | " \n", 408 | " \n", 409 | " \n", 410 | " \n", 411 | " \n", 412 | " \n", 413 | " \n", 414 | " \n", 415 | " \n", 416 | " \n", 417 | " \n", 418 | " \n", 419 | " \n", 420 | " \n", 421 | " \n", 422 | " \n", 423 | " \n", 424 | " \n", 425 | " \n", 426 | " \n", 427 | " \n", 428 | " \n", 429 | " \n", 430 | " \n", 431 | " \n", 432 | " \n", 433 | " \n", 434 | " \n", 435 | " \n", 436 | " \n", 437 | " \n", 438 | " \n", 439 | " \n", 440 | " \n", 441 | " \n", 442 | " \n", 443 | " \n", 444 | " \n", 445 | " \n", 446 | " \n", 447 | " \n", 448 | " \n", 449 | " \n", 450 | " \n", 451 | " \n", 452 | " \n", 453 | " \n", 454 | " \n", 455 | " \n", 456 | " \n", 457 | " \n", 458 | " \n", 459 | " \n", 460 | " \n", 461 | " \n", 462 | " \n", 463 | " \n", 464 | " \n", 465 | " \n", 466 | " \n", 467 | " \n", 468 | " \n", 469 | " \n", 470 | " \n", 471 | " \n", 472 | " \n", 473 | " \n", 474 | " \n", 475 | " \n", 476 | "
EducationMarital_StatusIncomeKidhomeTeenhomeRecencyMntWinesMntFruitsMntMeatProductsMntFishProducts...AgeAgeGroupMntTotalMntRegularProdsChildrenHasChildrenAcceptedCmpTotalHasAcceptedCmpNumTotalPurchasescluster
0GraduationSingle58138.0005863588546172...5746-60161715290000220
1GraduationSingle46344.0113811162...6046-602721210041
2GraduationPartner71613.0002642649127111...4946-607767340000200
3GraduationPartner26646.010261142010...3018-305348110061
4PhDPartner58293.010941734311846...3331-454224071100142
\n", 477 | "

5 rows × 35 columns

\n", 478 | "
" 479 | ], 480 | "text/plain": [ 481 | " Education Marital_Status Income Kidhome Teenhome Recency MntWines \\\n", 482 | "0 Graduation Single 58138.0 0 0 58 635 \n", 483 | "1 Graduation Single 46344.0 1 1 38 11 \n", 484 | "2 Graduation Partner 71613.0 0 0 26 426 \n", 485 | "3 Graduation Partner 26646.0 1 0 26 11 \n", 486 | "4 PhD Partner 58293.0 1 0 94 173 \n", 487 | "\n", 488 | " MntFruits MntMeatProducts MntFishProducts ... Age AgeGroup MntTotal \\\n", 489 | "0 88 546 172 ... 57 46-60 1617 \n", 490 | "1 1 6 2 ... 60 46-60 27 \n", 491 | "2 49 127 111 ... 49 46-60 776 \n", 492 | "3 4 20 10 ... 30 18-30 53 \n", 493 | "4 43 118 46 ... 33 31-45 422 \n", 494 | "\n", 495 | " MntRegularProds Children HasChildren AcceptedCmpTotal HasAcceptedCmp \\\n", 496 | "0 1529 0 0 0 0 \n", 497 | "1 21 2 1 0 0 \n", 498 | "2 734 0 0 0 0 \n", 499 | "3 48 1 1 0 0 \n", 500 | "4 407 1 1 0 0 \n", 501 | "\n", 502 | " NumTotalPurchases cluster \n", 503 | "0 22 0 \n", 504 | "1 4 1 \n", 505 | "2 20 0 \n", 506 | "3 6 1 \n", 507 | "4 14 2 \n", 508 | "\n", 509 | "[5 rows x 35 columns]" 510 | ] 511 | }, 512 | "execution_count": 4, 513 | "metadata": {}, 514 | "output_type": "execute_result" 515 | } 516 | ], 517 | "source": [ 518 | "X.head()" 519 | ] 520 | }, 521 | { 522 | "cell_type": "code", 523 | "execution_count": 5, 524 | "id": "296e16e5-c41c-4954-a535-d60e3f34fe4c", 525 | "metadata": {}, 526 | "outputs": [ 527 | { 528 | "data": { 529 | "text/plain": [ 530 | "0 1\n", 531 | "1 0\n", 532 | "2 0\n", 533 | "3 0\n", 534 | "4 0\n", 535 | "Name: Response, dtype: int64" 536 | ] 537 | }, 538 | "execution_count": 5, 539 | "metadata": {}, 540 | "output_type": "execute_result" 541 | } 542 | ], 543 | "source": [ 544 | "y.head()" 545 | ] 546 | }, 547 | { 548 | "cell_type": "code", 549 | "execution_count": 6, 550 | "id": "fb0af0de-f0d5-4d97-a60a-504f8bc7469c", 551 | "metadata": {}, 552 | "outputs": [], 553 | "source": [ 554 | "one_hot_cols = [\n", 555 | " \"Education\",\n", 556 | " \"Marital_Status\",\n", 557 | " \"AgeGroup\",\n", 558 | " \"HasChildren\",\n", 559 | " \"HasAcceptedCmp\",\n", 560 | " \"AcceptedCmp1\",\n", 561 | " \"AcceptedCmp2\",\n", 562 | " \"AcceptedCmp3\",\n", 563 | " \"AcceptedCmp4\",\n", 564 | " \"AcceptedCmp5\",\n", 565 | " \"Complain\",\n", 566 | " \"Kidhome\",\n", 567 | " \"Teenhome\",\n", 568 | " \"YearsSinceEnrolled\",\n", 569 | " \"Children\",\n", 570 | " \"AcceptedCmpTotal\",\n", 571 | " \"cluster\"\n", 572 | "]\n", 573 | "\n", 574 | "standard_cols = [\n", 575 | " \"Income\",\n", 576 | " \"Age\",\n", 577 | "]\n", 578 | "\n", 579 | "power_cols = X.columns[\n", 580 | " X.columns.str.startswith(\"Mnt\") | X.columns.str.startswith(\"Num\")\n", 581 | "].tolist()\n", 582 | "\n", 583 | "minmax_cols = [\n", 584 | " col for col in X.columns if col not in one_hot_cols + standard_cols + power_cols\n", 585 | "]" 586 | ] 587 | }, 588 | { 589 | "cell_type": "markdown", 590 | "id": "fe184d19-7480-40c1-8252-b5cc0639eb73", 591 | "metadata": {}, 592 | "source": [ 593 | "https://scikit-learn.org/stable/modules/generated/sklearn.dummy.DummyClassifier.html" 594 | ] 595 | }, 596 | { 597 | "cell_type": "markdown", 598 | "id": "ee169eaf-0184-480d-bfb1-09922d87e8b2", 599 | "metadata": {}, 600 | "source": [ 601 | "**ALUNOS**: Expliquem brevemente cada modelo e o papel do DummyClassifier. Expliquem o papel da função e de cada etapa do pipeline." 602 | ] 603 | }, 604 | { 605 | "cell_type": "code", 606 | "execution_count": 7, 607 | "id": "135cadb4-9776-4217-bf20-933147f355ed", 608 | "metadata": {}, 609 | "outputs": [], 610 | "source": [ 611 | "from sklearn.preprocessing import (\n", 612 | " OneHotEncoder,\n", 613 | " StandardScaler,\n", 614 | " MinMaxScaler,\n", 615 | " PowerTransformer,\n", 616 | ")\n", 617 | "from sklearn.compose import ColumnTransformer\n", 618 | "from sklearn.dummy import DummyClassifier\n", 619 | "from sklearn.linear_model import LogisticRegression\n", 620 | "from sklearn.neighbors import KNeighborsClassifier\n", 621 | "from sklearn.tree import DecisionTreeClassifier\n", 622 | "from sklearn.model_selection import StratifiedKFold\n", 623 | "from imblearn.pipeline import Pipeline # atenção para o Pipeline do ImbLearn\n", 624 | "from sklearn.feature_selection import SelectKBest, f_classif\n", 625 | "from imblearn.under_sampling import RandomUnderSampler\n", 626 | "from sklearn.model_selection import cross_validate\n", 627 | "\n", 628 | "RANDOM_STATE = 42\n", 629 | "\n", 630 | "models = {\n", 631 | " \"DummyClassifier\": DummyClassifier(\n", 632 | " strategy=\"stratified\", random_state=RANDOM_STATE\n", 633 | " ),\n", 634 | " \"DecisionTreeClassifier\": DecisionTreeClassifier(random_state=RANDOM_STATE),\n", 635 | " \"LogisticRegression\": LogisticRegression(random_state=RANDOM_STATE),\n", 636 | " \"KNNClassifier\": KNeighborsClassifier(n_neighbors=5),\n", 637 | "}\n", 638 | "\n", 639 | "skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=RANDOM_STATE)\n", 640 | "\n", 641 | "\n", 642 | "def pipeline_model(X, y, model, kf):\n", 643 | " preprocessing = ColumnTransformer(\n", 644 | " [\n", 645 | " (\"one-hot\", OneHotEncoder(), one_hot_cols),\n", 646 | " (\"standard\", StandardScaler(), standard_cols),\n", 647 | " (\"minmax\", MinMaxScaler(), minmax_cols),\n", 648 | " (\"power\", PowerTransformer(), power_cols),\n", 649 | " ]\n", 650 | " )\n", 651 | "\n", 652 | " pipeline = Pipeline(\n", 653 | " [\n", 654 | " (\"preprocessing\", preprocessing),\n", 655 | " (\"feature_selection\", SelectKBest(score_func=f_classif, k=10)),\n", 656 | " (\"rus\", RandomUnderSampler(random_state=RANDOM_STATE)),\n", 657 | " (\"model\", model),\n", 658 | " ]\n", 659 | " )\n", 660 | "\n", 661 | " scores = cross_validate(\n", 662 | " pipeline,\n", 663 | " X,\n", 664 | " y,\n", 665 | " cv=kf,\n", 666 | " scoring=[\"accuracy\", \"precision\", \"recall\", \"roc_auc\", \"average_precision\"],\n", 667 | " n_jobs=-1,\n", 668 | " )\n", 669 | "\n", 670 | " return scores" 671 | ] 672 | }, 673 | { 674 | "cell_type": "code", 675 | "execution_count": 8, 676 | "id": "acbfb266-0558-4211-95e7-5529086fef85", 677 | "metadata": {}, 678 | "outputs": [], 679 | "source": [ 680 | "results = {\n", 681 | " \"DummyClassifier\": pipeline_model(X, y, models[\"DummyClassifier\"], skf),\n", 682 | " \"DecisionTreeClassifier\": pipeline_model(X, y, models[\"DecisionTreeClassifier\"], skf),\n", 683 | " \"LogisticRegression\": pipeline_model(X, y, models[\"LogisticRegression\"], skf),\n", 684 | " \"KNNClassifier\": pipeline_model(X, y, models[\"KNNClassifier\"], skf),\n", 685 | "}" 686 | ] 687 | }, 688 | { 689 | "cell_type": "markdown", 690 | "id": "633f87e0-73f0-407d-bf41-85753b89a2da", 691 | "metadata": {}, 692 | "source": [ 693 | "**ALUNOS**: Expliquem a estrutura dos resultados" 694 | ] 695 | }, 696 | { 697 | "cell_type": "code", 698 | "execution_count": 9, 699 | "id": "0a7e55aa-9317-417a-bfde-2f58595fe012", 700 | "metadata": {}, 701 | "outputs": [ 702 | { 703 | "name": "stdout", 704 | "output_type": "stream", 705 | "text": [ 706 | "{'DecisionTreeClassifier': {'fit_time': array([0.05351782, 0.05652118, 0.0586369 , 0.05717325, 0.0555172 ]),\n", 707 | " 'score_time': array([0.02500582, 0.02500558, 0.0230062 , 0.0230062 , 0.02300525]),\n", 708 | " 'test_accuracy': array([0.82539683, 0.82993197, 0.82993197, 0.81179138, 0.6893424 ]),\n", 709 | " 'test_average_precision': array([0.3683831 , 0.38016844, 0.3602606 , 0.43117226, 0.22619856]),\n", 710 | " 'test_precision': array([0.43243243, 0.44444444, 0.44871795, 0.40229885, 0.26797386]),\n", 711 | " 'test_recall': array([0.47761194, 0.47761194, 0.52238806, 0.53030303, 0.62121212]),\n", 712 | " 'test_roc_auc': array([0.68534999, 0.70773805, 0.73826722, 0.71830303, 0.66331313])},\n", 713 | " 'DummyClassifier': {'fit_time': array([0.06235242, 0.06004643, 0.05734229, 0.05603647, 0.06604815]),\n", 714 | " 'score_time': array([0.02356434, 0.02305984, 0.02206874, 0.02507019, 0.02548385]),\n", 715 | " 'test_accuracy': array([0.51247166, 0.50340136, 0.50340136, 0.48752834, 0.51020408]),\n", 716 | " 'test_average_precision': array([0.15304952, 0.14865734, 0.14865734, 0.14004965, 0.14959821]),\n", 717 | " 'test_precision': array([0.15420561, 0.14485981, 0.14485981, 0.12616822, 0.14953271]),\n", 718 | " 'test_recall': array([0.49253731, 0.46268657, 0.46268657, 0.40909091, 0.48484848]),\n", 719 | " 'test_roc_auc': array([0.50429005, 0.48669088, 0.48669088, 0.45521212, 0.49975758])},\n", 720 | " 'KNNClassifier': {'fit_time': array([0.04813838, 0.05732417, 0.06881571, 0.06680608, 0.0679822 ]),\n", 721 | " 'score_time': array([0.04064083, 0.04641795, 0.04256392, 0.04356384, 0.041924 ]),\n", 722 | " 'test_accuracy': array([0.85034014, 0.85260771, 0.85487528, 0.87528345, 0.73696145]),\n", 723 | " 'test_average_precision': array([0.28352581, 0.3012184 , 0.25258946, 0.36341931, 0.37904536]),\n", 724 | " 'test_precision': array([0.51724138, 0.53333333, 0.56521739, 0.82352941, 0.33108108]),\n", 725 | " 'test_recall': array([0.2238806 , 0.23880597, 0.19402985, 0.21212121, 0.74242424]),\n", 726 | " 'test_roc_auc': array([0.60130497, 0.60300104, 0.60617368, 0.64371717, 0.77177778])},\n", 727 | " 'LogisticRegression': {'fit_time': array([0.0633111 , 0.0629077 , 0.05869746, 0.05842352, 0.05888581]),\n", 728 | " 'score_time': array([0.02791905, 0.02389789, 0.02591419, 0.02481747, 0.0238843 ]),\n", 729 | " 'test_accuracy': array([0.7845805 , 0.82993197, 0.82993197, 0.81405896, 0.83673469]),\n", 730 | " 'test_average_precision': array([0.38198141, 0.41502673, 0.36325137, 0.40981808, 0.50652827]),\n", 731 | " 'test_precision': array([0.35106383, 0.44444444, 0.45 , 0.40909091, 0.46666667]),\n", 732 | " 'test_recall': array([0.49253731, 0.47761194, 0.53731343, 0.54545455, 0.63636364]),\n", 733 | " 'test_roc_auc': array([0.68570915, 0.70831671, 0.73858648, 0.71888889, 0.79476768])}}\n" 734 | ] 735 | } 736 | ], 737 | "source": [ 738 | "from pprint import pprint\n", 739 | "\n", 740 | "pprint(results)" 741 | ] 742 | }, 743 | { 744 | "cell_type": "code", 745 | "execution_count": 10, 746 | "id": "bca123b3-1654-49f1-abde-1ce2a4ebb2fb", 747 | "metadata": {}, 748 | "outputs": [ 749 | { 750 | "name": "stdout", 751 | "output_type": "stream", 752 | "text": [ 753 | "{'DecisionTreeClassifier': {'fit_time': array([0.05351782, 0.05652118, 0.0586369 , 0.05717325, 0.0555172 ]),\n", 754 | " 'score_time': array([0.02500582, 0.02500558, 0.0230062 , 0.0230062 , 0.02300525]),\n", 755 | " 'test_accuracy': array([0.82539683, 0.82993197, 0.82993197, 0.81179138, 0.6893424 ]),\n", 756 | " 'test_average_precision': array([0.3683831 , 0.38016844, 0.3602606 , 0.43117226, 0.22619856]),\n", 757 | " 'test_precision': array([0.43243243, 0.44444444, 0.44871795, 0.40229885, 0.26797386]),\n", 758 | " 'test_recall': array([0.47761194, 0.47761194, 0.52238806, 0.53030303, 0.62121212]),\n", 759 | " 'test_roc_auc': array([0.68534999, 0.70773805, 0.73826722, 0.71830303, 0.66331313]),\n", 760 | " 'time': array([0.07852364, 0.08152676, 0.0816431 , 0.08017945, 0.07852244])},\n", 761 | " 'DummyClassifier': {'fit_time': array([0.06235242, 0.06004643, 0.05734229, 0.05603647, 0.06604815]),\n", 762 | " 'score_time': array([0.02356434, 0.02305984, 0.02206874, 0.02507019, 0.02548385]),\n", 763 | " 'test_accuracy': array([0.51247166, 0.50340136, 0.50340136, 0.48752834, 0.51020408]),\n", 764 | " 'test_average_precision': array([0.15304952, 0.14865734, 0.14865734, 0.14004965, 0.14959821]),\n", 765 | " 'test_precision': array([0.15420561, 0.14485981, 0.14485981, 0.12616822, 0.14953271]),\n", 766 | " 'test_recall': array([0.49253731, 0.46268657, 0.46268657, 0.40909091, 0.48484848]),\n", 767 | " 'test_roc_auc': array([0.50429005, 0.48669088, 0.48669088, 0.45521212, 0.49975758]),\n", 768 | " 'time': array([0.08591676, 0.08310628, 0.07941103, 0.08110666, 0.09153199])},\n", 769 | " 'KNNClassifier': {'fit_time': array([0.04813838, 0.05732417, 0.06881571, 0.06680608, 0.0679822 ]),\n", 770 | " 'score_time': array([0.04064083, 0.04641795, 0.04256392, 0.04356384, 0.041924 ]),\n", 771 | " 'test_accuracy': array([0.85034014, 0.85260771, 0.85487528, 0.87528345, 0.73696145]),\n", 772 | " 'test_average_precision': array([0.28352581, 0.3012184 , 0.25258946, 0.36341931, 0.37904536]),\n", 773 | " 'test_precision': array([0.51724138, 0.53333333, 0.56521739, 0.82352941, 0.33108108]),\n", 774 | " 'test_recall': array([0.2238806 , 0.23880597, 0.19402985, 0.21212121, 0.74242424]),\n", 775 | " 'test_roc_auc': array([0.60130497, 0.60300104, 0.60617368, 0.64371717, 0.77177778]),\n", 776 | " 'time': array([0.08877921, 0.10374212, 0.11137962, 0.11036992, 0.1099062 ])},\n", 777 | " 'LogisticRegression': {'fit_time': array([0.0633111 , 0.0629077 , 0.05869746, 0.05842352, 0.05888581]),\n", 778 | " 'score_time': array([0.02791905, 0.02389789, 0.02591419, 0.02481747, 0.0238843 ]),\n", 779 | " 'test_accuracy': array([0.7845805 , 0.82993197, 0.82993197, 0.81405896, 0.83673469]),\n", 780 | " 'test_average_precision': array([0.38198141, 0.41502673, 0.36325137, 0.40981808, 0.50652827]),\n", 781 | " 'test_precision': array([0.35106383, 0.44444444, 0.45 , 0.40909091, 0.46666667]),\n", 782 | " 'test_recall': array([0.49253731, 0.47761194, 0.53731343, 0.54545455, 0.63636364]),\n", 783 | " 'test_roc_auc': array([0.68570915, 0.70831671, 0.73858648, 0.71888889, 0.79476768]),\n", 784 | " 'time': array([0.09123015, 0.08680558, 0.08461165, 0.08324099, 0.08277011])}}\n" 785 | ] 786 | } 787 | ], 788 | "source": [ 789 | "for k, v in results.items():\n", 790 | " results[k][\"time\"] = results[k][\"fit_time\"] + results[k][\"score_time\"]\n", 791 | "\n", 792 | "pprint(results)" 793 | ] 794 | }, 795 | { 796 | "cell_type": "markdown", 797 | "id": "6191f864-385d-4d74-be69-37a0fc0ac8e3", 798 | "metadata": {}, 799 | "source": [ 800 | "**ALUNOS**: Expliquem os procedimentos para gerar o DataFrame com os resultados." 801 | ] 802 | }, 803 | { 804 | "cell_type": "code", 805 | "execution_count": 11, 806 | "id": "5ae4a5ab-0a68-4011-9e4e-c646c8afe3b1", 807 | "metadata": {}, 808 | "outputs": [ 809 | { 810 | "data": { 811 | "text/html": [ 812 | "
\n", 813 | "\n", 826 | "\n", 827 | " \n", 828 | " \n", 829 | " \n", 830 | " \n", 831 | " \n", 832 | " \n", 833 | " \n", 834 | " \n", 835 | " \n", 836 | " \n", 837 | " \n", 838 | " \n", 839 | " \n", 840 | " \n", 841 | " \n", 842 | " \n", 843 | " \n", 844 | " \n", 845 | " \n", 846 | " \n", 847 | " \n", 848 | " \n", 849 | " \n", 850 | " \n", 851 | " \n", 852 | " \n", 853 | " \n", 854 | " \n", 855 | " \n", 856 | " \n", 857 | " \n", 858 | " \n", 859 | " \n", 860 | " \n", 861 | " \n", 862 | " \n", 863 | " \n", 864 | " \n", 865 | " \n", 866 | " \n", 867 | " \n", 868 | " \n", 869 | " \n", 870 | " \n", 871 | " \n", 872 | " \n", 873 | " \n", 874 | " \n", 875 | " \n", 876 | " \n", 877 | " \n", 878 | " \n", 879 | " \n", 880 | " \n", 881 | " \n", 882 | " \n", 883 | " \n", 884 | " \n", 885 | " \n", 886 | " \n", 887 | " \n", 888 | " \n", 889 | " \n", 890 | " \n", 891 | "
modelfit_timescore_timetest_accuracytest_precisiontest_recalltest_roc_auctest_average_precisiontime
0DummyClassifier[0.06235241889953613, 0.06004643440246582, 0.0...[0.02356433868408203, 0.023059844970703125, 0....[0.5124716553287982, 0.5034013605442177, 0.503...[0.1542056074766355, 0.14485981308411214, 0.14...[0.4925373134328358, 0.4626865671641791, 0.462...[0.5042900470907494, 0.4866908771649773, 0.486...[0.15304952129175473, 0.14865734269715697, 0.1...[0.08591675758361816, 0.08310627937316895, 0.0...
1DecisionTreeClassifier[0.053517818450927734, 0.05652117729187012, 0....[0.025005817413330078, 0.025005578994750977, 0...[0.8253968253968254, 0.8299319727891157, 0.829...[0.43243243243243246, 0.4444444444444444, 0.44...[0.47761194029850745, 0.47761194029850745, 0.5...[0.6853499880277755, 0.7077380477292681, 0.738...[0.3683830979533475, 0.38016844076749257, 0.36...[0.07852363586425781, 0.0815267562866211, 0.08...
2LogisticRegression[0.06331110000610352, 0.06290769577026367, 0.0...[0.02791905403137207, 0.023897886276245117, 0....[0.7845804988662132, 0.8299319727891157, 0.829...[0.35106382978723405, 0.4444444444444444, 0.45...[0.4925373134328358, 0.47761194029850745, 0.53...[0.6857091547609545, 0.7083167052438343, 0.738...[0.3819814120613085, 0.41502673077110863, 0.36...[0.09123015403747559, 0.08680558204650879, 0.0...
3KNNClassifier[0.04813838005065918, 0.05732417106628418, 0.0...[0.040640830993652344, 0.046417951583862305, 0...[0.8503401360544217, 0.8526077097505669, 0.854...[0.5172413793103449, 0.5333333333333333, 0.565...[0.22388059701492538, 0.23880597014925373, 0.1...[0.6013049724638838, 0.6030010375927847, 0.606...[0.2835258077353654, 0.3012183978068839, 0.252...[0.08877921104431152, 0.10374212265014648, 0.1...
\n", 892 | "
" 893 | ], 894 | "text/plain": [ 895 | " model fit_time \\\n", 896 | "0 DummyClassifier [0.06235241889953613, 0.06004643440246582, 0.0... \n", 897 | "1 DecisionTreeClassifier [0.053517818450927734, 0.05652117729187012, 0.... \n", 898 | "2 LogisticRegression [0.06331110000610352, 0.06290769577026367, 0.0... \n", 899 | "3 KNNClassifier [0.04813838005065918, 0.05732417106628418, 0.0... \n", 900 | "\n", 901 | " score_time \\\n", 902 | "0 [0.02356433868408203, 0.023059844970703125, 0.... \n", 903 | "1 [0.025005817413330078, 0.025005578994750977, 0... \n", 904 | "2 [0.02791905403137207, 0.023897886276245117, 0.... \n", 905 | "3 [0.040640830993652344, 0.046417951583862305, 0... \n", 906 | "\n", 907 | " test_accuracy \\\n", 908 | "0 [0.5124716553287982, 0.5034013605442177, 0.503... \n", 909 | "1 [0.8253968253968254, 0.8299319727891157, 0.829... \n", 910 | "2 [0.7845804988662132, 0.8299319727891157, 0.829... \n", 911 | "3 [0.8503401360544217, 0.8526077097505669, 0.854... \n", 912 | "\n", 913 | " test_precision \\\n", 914 | "0 [0.1542056074766355, 0.14485981308411214, 0.14... \n", 915 | "1 [0.43243243243243246, 0.4444444444444444, 0.44... \n", 916 | "2 [0.35106382978723405, 0.4444444444444444, 0.45... \n", 917 | "3 [0.5172413793103449, 0.5333333333333333, 0.565... \n", 918 | "\n", 919 | " test_recall \\\n", 920 | "0 [0.4925373134328358, 0.4626865671641791, 0.462... \n", 921 | "1 [0.47761194029850745, 0.47761194029850745, 0.5... \n", 922 | "2 [0.4925373134328358, 0.47761194029850745, 0.53... \n", 923 | "3 [0.22388059701492538, 0.23880597014925373, 0.1... \n", 924 | "\n", 925 | " test_roc_auc \\\n", 926 | "0 [0.5042900470907494, 0.4866908771649773, 0.486... \n", 927 | "1 [0.6853499880277755, 0.7077380477292681, 0.738... \n", 928 | "2 [0.6857091547609545, 0.7083167052438343, 0.738... \n", 929 | "3 [0.6013049724638838, 0.6030010375927847, 0.606... \n", 930 | "\n", 931 | " test_average_precision \\\n", 932 | "0 [0.15304952129175473, 0.14865734269715697, 0.1... \n", 933 | "1 [0.3683830979533475, 0.38016844076749257, 0.36... \n", 934 | "2 [0.3819814120613085, 0.41502673077110863, 0.36... \n", 935 | "3 [0.2835258077353654, 0.3012183978068839, 0.252... \n", 936 | "\n", 937 | " time \n", 938 | "0 [0.08591675758361816, 0.08310627937316895, 0.0... \n", 939 | "1 [0.07852363586425781, 0.0815267562866211, 0.08... \n", 940 | "2 [0.09123015403747559, 0.08680558204650879, 0.0... \n", 941 | "3 [0.08877921104431152, 0.10374212265014648, 0.1... " 942 | ] 943 | }, 944 | "execution_count": 11, 945 | "metadata": {}, 946 | "output_type": "execute_result" 947 | } 948 | ], 949 | "source": [ 950 | "df_results = pd.DataFrame(results).T.reset_index().rename(columns={\"index\": \"model\"})\n", 951 | "df_results" 952 | ] 953 | }, 954 | { 955 | "cell_type": "code", 956 | "execution_count": 12, 957 | "id": "7a1a283e-3f5c-4835-8902-a4d7a8ea6b29", 958 | "metadata": {}, 959 | "outputs": [ 960 | { 961 | "data": { 962 | "text/plain": [ 963 | "['fit_time',\n", 964 | " 'score_time',\n", 965 | " 'test_accuracy',\n", 966 | " 'test_precision',\n", 967 | " 'test_recall',\n", 968 | " 'test_roc_auc',\n", 969 | " 'test_average_precision',\n", 970 | " 'time']" 971 | ] 972 | }, 973 | "execution_count": 12, 974 | "metadata": {}, 975 | "output_type": "execute_result" 976 | } 977 | ], 978 | "source": [ 979 | "df_results.columns[1:].to_list()" 980 | ] 981 | }, 982 | { 983 | "cell_type": "code", 984 | "execution_count": 13, 985 | "id": "2bf34397-e1ce-4e4b-a2bb-13674881ab7b", 986 | "metadata": {}, 987 | "outputs": [ 988 | { 989 | "data": { 990 | "text/plain": [ 991 | "['test_accuracy',\n", 992 | " 'test_precision',\n", 993 | " 'test_recall',\n", 994 | " 'test_roc_auc',\n", 995 | " 'test_average_precision',\n", 996 | " 'time']" 997 | ] 998 | }, 999 | "execution_count": 13, 1000 | "metadata": {}, 1001 | "output_type": "execute_result" 1002 | } 1003 | ], 1004 | "source": [ 1005 | "df_results.columns[3:].to_list()" 1006 | ] 1007 | }, 1008 | { 1009 | "cell_type": "code", 1010 | "execution_count": 14, 1011 | "id": "90f8d1e0-09e5-48b5-8921-0c408253a1fb", 1012 | "metadata": {}, 1013 | "outputs": [ 1014 | { 1015 | "data": { 1016 | "text/html": [ 1017 | "
\n", 1018 | "\n", 1031 | "\n", 1032 | " \n", 1033 | " \n", 1034 | " \n", 1035 | " \n", 1036 | " \n", 1037 | " \n", 1038 | " \n", 1039 | " \n", 1040 | " \n", 1041 | " \n", 1042 | " \n", 1043 | " \n", 1044 | " \n", 1045 | " \n", 1046 | " \n", 1047 | " \n", 1048 | " \n", 1049 | " \n", 1050 | " \n", 1051 | " \n", 1052 | " \n", 1053 | " \n", 1054 | " \n", 1055 | " \n", 1056 | " \n", 1057 | " \n", 1058 | " \n", 1059 | " \n", 1060 | " \n", 1061 | " \n", 1062 | " \n", 1063 | " \n", 1064 | " \n", 1065 | " \n", 1066 | " \n", 1067 | " \n", 1068 | " \n", 1069 | " \n", 1070 | " \n", 1071 | " \n", 1072 | " \n", 1073 | " \n", 1074 | " \n", 1075 | " \n", 1076 | " \n", 1077 | " \n", 1078 | " \n", 1079 | " \n", 1080 | " \n", 1081 | " \n", 1082 | " \n", 1083 | " \n", 1084 | " \n", 1085 | " \n", 1086 | " \n", 1087 | " \n", 1088 | " \n", 1089 | " \n", 1090 | " \n", 1091 | " \n", 1092 | " \n", 1093 | " \n", 1094 | " \n", 1095 | " \n", 1096 | " \n", 1097 | " \n", 1098 | " \n", 1099 | " \n", 1100 | " \n", 1101 | " \n", 1102 | " \n", 1103 | " \n", 1104 | " \n", 1105 | " \n", 1106 | " \n", 1107 | " \n", 1108 | " \n", 1109 | " \n", 1110 | " \n", 1111 | " \n", 1112 | " \n", 1113 | " \n", 1114 | " \n", 1115 | " \n", 1116 | " \n", 1117 | " \n", 1118 | " \n", 1119 | " \n", 1120 | " \n", 1121 | " \n", 1122 | " \n", 1123 | " \n", 1124 | " \n", 1125 | " \n", 1126 | " \n", 1127 | " \n", 1128 | " \n", 1129 | " \n", 1130 | " \n", 1131 | " \n", 1132 | " \n", 1133 | " \n", 1134 | " \n", 1135 | " \n", 1136 | " \n", 1137 | " \n", 1138 | " \n", 1139 | " \n", 1140 | " \n", 1141 | " \n", 1142 | " \n", 1143 | " \n", 1144 | " \n", 1145 | " \n", 1146 | " \n", 1147 | " \n", 1148 | " \n", 1149 | " \n", 1150 | " \n", 1151 | " \n", 1152 | " \n", 1153 | " \n", 1154 | " \n", 1155 | " \n", 1156 | " \n", 1157 | " \n", 1158 | " \n", 1159 | " \n", 1160 | " \n", 1161 | " \n", 1162 | " \n", 1163 | " \n", 1164 | " \n", 1165 | " \n", 1166 | " \n", 1167 | " \n", 1168 | " \n", 1169 | " \n", 1170 | " \n", 1171 | " \n", 1172 | " \n", 1173 | " \n", 1174 | " \n", 1175 | " \n", 1176 | " \n", 1177 | " \n", 1178 | " \n", 1179 | " \n", 1180 | " \n", 1181 | " \n", 1182 | " \n", 1183 | " \n", 1184 | " \n", 1185 | " \n", 1186 | " \n", 1187 | " \n", 1188 | " \n", 1189 | " \n", 1190 | " \n", 1191 | " \n", 1192 | " \n", 1193 | " \n", 1194 | " \n", 1195 | " \n", 1196 | " \n", 1197 | " \n", 1198 | " \n", 1199 | " \n", 1200 | " \n", 1201 | " \n", 1202 | " \n", 1203 | " \n", 1204 | " \n", 1205 | " \n", 1206 | " \n", 1207 | " \n", 1208 | " \n", 1209 | " \n", 1210 | " \n", 1211 | " \n", 1212 | " \n", 1213 | " \n", 1214 | " \n", 1215 | " \n", 1216 | " \n", 1217 | " \n", 1218 | " \n", 1219 | " \n", 1220 | " \n", 1221 | " \n", 1222 | " \n", 1223 | " \n", 1224 | " \n", 1225 | " \n", 1226 | " \n", 1227 | " \n", 1228 | " \n", 1229 | " \n", 1230 | " \n", 1231 | " \n", 1232 | " \n", 1233 | " \n", 1234 | " \n", 1235 | " \n", 1236 | " \n", 1237 | " \n", 1238 | " \n", 1239 | " \n", 1240 | " \n", 1241 | " \n", 1242 | " \n", 1243 | " \n", 1244 | " \n", 1245 | " \n", 1246 | " \n", 1247 | " \n", 1248 | " \n", 1249 | " \n", 1250 | " \n", 1251 | " \n", 1252 | " \n", 1253 | " \n", 1254 | " \n", 1255 | " \n", 1256 | " \n", 1257 | " \n", 1258 | " \n", 1259 | " \n", 1260 | " \n", 1261 | " \n", 1262 | " \n", 1263 | " \n", 1264 | " \n", 1265 | " \n", 1266 | " \n", 1267 | " \n", 1268 | " \n", 1269 | " \n", 1270 | " \n", 1271 | " \n", 1272 | " \n", 1273 | " \n", 1274 | " \n", 1275 | " \n", 1276 | " \n", 1277 | " \n", 1278 | " \n", 1279 | " \n", 1280 | " \n", 1281 | " \n", 1282 | " \n", 1283 | " \n", 1284 | " \n", 1285 | " \n", 1286 | " \n", 1287 | " \n", 1288 | "
modelfit_timescore_timetest_accuracytest_precisiontest_recalltest_roc_auctest_average_precisiontime
0DummyClassifier0.0623520.0235640.5124720.1542060.4925370.504290.153050.085917
1DummyClassifier0.0600460.023060.5034010.144860.4626870.4866910.1486570.083106
2DummyClassifier0.0573420.0220690.5034010.144860.4626870.4866910.1486570.079411
3DummyClassifier0.0560360.025070.4875280.1261680.4090910.4552120.140050.081107
4DummyClassifier0.0660480.0254840.5102040.1495330.4848480.4997580.1495980.091532
5DecisionTreeClassifier0.0535180.0250060.8253970.4324320.4776120.685350.3683830.078524
6DecisionTreeClassifier0.0565210.0250060.8299320.4444440.4776120.7077380.3801680.081527
7DecisionTreeClassifier0.0586370.0230060.8299320.4487180.5223880.7382670.3602610.081643
8DecisionTreeClassifier0.0571730.0230060.8117910.4022990.5303030.7183030.4311720.080179
9DecisionTreeClassifier0.0555170.0230050.6893420.2679740.6212120.6633130.2261990.078522
10LogisticRegression0.0633110.0279190.784580.3510640.4925370.6857090.3819810.09123
11LogisticRegression0.0629080.0238980.8299320.4444440.4776120.7083170.4150270.086806
12LogisticRegression0.0586970.0259140.8299320.450.5373130.7385860.3632510.084612
13LogisticRegression0.0584240.0248170.8140590.4090910.5454550.7188890.4098180.083241
14LogisticRegression0.0588860.0238840.8367350.4666670.6363640.7947680.5065280.08277
15KNNClassifier0.0481380.0406410.850340.5172410.2238810.6013050.2835260.088779
16KNNClassifier0.0573240.0464180.8526080.5333330.2388060.6030010.3012180.103742
17KNNClassifier0.0688160.0425640.8548750.5652170.194030.6061740.2525890.11138
18KNNClassifier0.0668060.0435640.8752830.8235290.2121210.6437170.3634190.11037
19KNNClassifier0.0679820.0419240.7369610.3310810.7424240.7717780.3790450.109906
\n", 1289 | "
" 1290 | ], 1291 | "text/plain": [ 1292 | " model fit_time score_time test_accuracy test_precision \\\n", 1293 | "0 DummyClassifier 0.062352 0.023564 0.512472 0.154206 \n", 1294 | "1 DummyClassifier 0.060046 0.02306 0.503401 0.14486 \n", 1295 | "2 DummyClassifier 0.057342 0.022069 0.503401 0.14486 \n", 1296 | "3 DummyClassifier 0.056036 0.02507 0.487528 0.126168 \n", 1297 | "4 DummyClassifier 0.066048 0.025484 0.510204 0.149533 \n", 1298 | "5 DecisionTreeClassifier 0.053518 0.025006 0.825397 0.432432 \n", 1299 | "6 DecisionTreeClassifier 0.056521 0.025006 0.829932 0.444444 \n", 1300 | "7 DecisionTreeClassifier 0.058637 0.023006 0.829932 0.448718 \n", 1301 | "8 DecisionTreeClassifier 0.057173 0.023006 0.811791 0.402299 \n", 1302 | "9 DecisionTreeClassifier 0.055517 0.023005 0.689342 0.267974 \n", 1303 | "10 LogisticRegression 0.063311 0.027919 0.78458 0.351064 \n", 1304 | "11 LogisticRegression 0.062908 0.023898 0.829932 0.444444 \n", 1305 | "12 LogisticRegression 0.058697 0.025914 0.829932 0.45 \n", 1306 | "13 LogisticRegression 0.058424 0.024817 0.814059 0.409091 \n", 1307 | "14 LogisticRegression 0.058886 0.023884 0.836735 0.466667 \n", 1308 | "15 KNNClassifier 0.048138 0.040641 0.85034 0.517241 \n", 1309 | "16 KNNClassifier 0.057324 0.046418 0.852608 0.533333 \n", 1310 | "17 KNNClassifier 0.068816 0.042564 0.854875 0.565217 \n", 1311 | "18 KNNClassifier 0.066806 0.043564 0.875283 0.823529 \n", 1312 | "19 KNNClassifier 0.067982 0.041924 0.736961 0.331081 \n", 1313 | "\n", 1314 | " test_recall test_roc_auc test_average_precision time \n", 1315 | "0 0.492537 0.50429 0.15305 0.085917 \n", 1316 | "1 0.462687 0.486691 0.148657 0.083106 \n", 1317 | "2 0.462687 0.486691 0.148657 0.079411 \n", 1318 | "3 0.409091 0.455212 0.14005 0.081107 \n", 1319 | "4 0.484848 0.499758 0.149598 0.091532 \n", 1320 | "5 0.477612 0.68535 0.368383 0.078524 \n", 1321 | "6 0.477612 0.707738 0.380168 0.081527 \n", 1322 | "7 0.522388 0.738267 0.360261 0.081643 \n", 1323 | "8 0.530303 0.718303 0.431172 0.080179 \n", 1324 | "9 0.621212 0.663313 0.226199 0.078522 \n", 1325 | "10 0.492537 0.685709 0.381981 0.09123 \n", 1326 | "11 0.477612 0.708317 0.415027 0.086806 \n", 1327 | "12 0.537313 0.738586 0.363251 0.084612 \n", 1328 | "13 0.545455 0.718889 0.409818 0.083241 \n", 1329 | "14 0.636364 0.794768 0.506528 0.08277 \n", 1330 | "15 0.223881 0.601305 0.283526 0.088779 \n", 1331 | "16 0.238806 0.603001 0.301218 0.103742 \n", 1332 | "17 0.19403 0.606174 0.252589 0.11138 \n", 1333 | "18 0.212121 0.643717 0.363419 0.11037 \n", 1334 | "19 0.742424 0.771778 0.379045 0.109906 " 1335 | ] 1336 | }, 1337 | "execution_count": 14, 1338 | "metadata": {}, 1339 | "output_type": "execute_result" 1340 | } 1341 | ], 1342 | "source": [ 1343 | "df_results_explode = df_results.explode(\n", 1344 | " df_results.columns[1:].to_list()\n", 1345 | ").reset_index(drop=True)\n", 1346 | "\n", 1347 | "df_results_explode" 1348 | ] 1349 | }, 1350 | { 1351 | "cell_type": "markdown", 1352 | "id": "99d3d62e-f5e3-4796-9f4b-05d1e5069394", 1353 | "metadata": {}, 1354 | "source": [ 1355 | "**ALUNOS**: Expliquem os gráficos e como eles levaram à seleção do LogisticRegression." 1356 | ] 1357 | }, 1358 | { 1359 | "cell_type": "code", 1360 | "execution_count": 15, 1361 | "id": "c746dd6d-f556-4c79-be10-40fec80b5aad", 1362 | "metadata": {}, 1363 | "outputs": [ 1364 | { 1365 | "data": { 1366 | "image/png": "", 1367 | "text/plain": [ 1368 | "
" 1369 | ] 1370 | }, 1371 | "metadata": {}, 1372 | "output_type": "display_data" 1373 | } 1374 | ], 1375 | "source": [ 1376 | "import matplotlib.pyplot as plt\n", 1377 | "import seaborn as sns\n", 1378 | "\n", 1379 | "fig, axs = plt.subplots(nrows=2, ncols=3, figsize=(15, 8), tight_layout=True)\n", 1380 | "\n", 1381 | "cols = df_results.columns[3:].to_list()\n", 1382 | "\n", 1383 | "for ax, col in zip(axs.flatten(), cols):\n", 1384 | " b = sns.boxplot(x=\"model\", y=col, data=df_results_explode, ax=ax, showmeans=True)\n", 1385 | " b.set_xticklabels(b.get_xticklabels(), fontsize=7)\n", 1386 | "\n", 1387 | "plt.show()" 1388 | ] 1389 | } 1390 | ], 1391 | "metadata": { 1392 | "kernelspec": { 1393 | "display_name": "Python 3 (ipykernel)", 1394 | "language": "python", 1395 | "name": "python3" 1396 | }, 1397 | "language_info": { 1398 | "codemirror_mode": { 1399 | "name": "ipython", 1400 | "version": 3 1401 | }, 1402 | "file_extension": ".py", 1403 | "mimetype": "text/x-python", 1404 | "name": "python", 1405 | "nbconvert_exporter": "python", 1406 | "pygments_lexer": "ipython3", 1407 | "version": "3.11.5" 1408 | } 1409 | }, 1410 | "nbformat": 4, 1411 | "nbformat_minor": 5 1412 | } 1413 | -------------------------------------------------------------------------------- /notebooks/auxiliary_functions.py: -------------------------------------------------------------------------------- 1 | import matplotlib.pyplot as plt 2 | from matplotlib.colors import ListedColormap 3 | from matplotlib.ticker import PercentFormatter 4 | import seaborn as sns 5 | from sklearn.cluster import KMeans 6 | from sklearn.metrics import silhouette_score 7 | import os 8 | import numpy as np 9 | 10 | 11 | os.environ["OMP_NUM_THREADS"] = "9" 12 | 13 | 14 | def inspect_outliers(dataframe, column, whisker_width=1.5): 15 | """Função para inspecionar outliers. 16 | 17 | Parameters 18 | ---------- 19 | dataframe : pandas.DataFrame 20 | Dataframe com os dados. 21 | column : List[str] 22 | Lista com o nome das colunas (strings) a serem utilizadas. 23 | whisker_width : float, opcional 24 | Valor considerado para detecção de outliers, por padrão 1.5 25 | 26 | Returns 27 | ------- 28 | pd.DataFrame 29 | Dataframe com os outliers. 30 | """ 31 | 32 | q1 = dataframe[column].quantile(0.25) 33 | q3 = dataframe[column].quantile(0.75) 34 | iqr = q3 - q1 35 | lower_bound = q1 - whisker_width * iqr 36 | upper_bound = q3 + whisker_width * iqr 37 | 38 | return dataframe[ 39 | (dataframe[column] < lower_bound) | (dataframe[column] > upper_bound) 40 | ] 41 | 42 | 43 | def pairplot( 44 | dataframe, columns, hue_column=None, alpha=0.5, corner=True, palette="tab10" 45 | ): 46 | """Função para gerar pairplot. 47 | 48 | Parameters 49 | ---------- 50 | dataframe : pandas.DataFrame 51 | Dataframe com os dados. 52 | columns : List[str] 53 | Lista com o nome das colunas (strings) a serem utilizadas. 54 | hue_column : str, opcional 55 | Coluna utilizada para hue, por padrão None 56 | alpha : float, opcional 57 | Valor de alfa para transparência, por padrão 0.5 58 | corner : bool, opcional 59 | Se o pairplot terá apenas a diagonal inferior ou será completo, por padrão True 60 | palette : str, opcional 61 | Paleta a ser utilizada, por padrão "tab10" 62 | """ 63 | 64 | analysis = columns.copy() + [hue_column] 65 | 66 | sns.pairplot( 67 | dataframe[analysis], 68 | diag_kind="kde", 69 | hue=hue_column, 70 | plot_kws=dict(alpha=alpha), 71 | corner=corner, 72 | palette=palette, 73 | ) 74 | 75 | 76 | def plot_elbow_silhouette(X, random_state=42, range_k=(2, 11)): 77 | """Gera os gráficos para os métodos Elbow e Silhouette. 78 | 79 | Parameters 80 | ---------- 81 | X : pandas.DataFrame 82 | Dataframe com os dados. 83 | random_state : int, opcional 84 | Valor para fixar o estado aleatório para reprodutibilidade, por padrão 42 85 | range_k : tuple, opcional 86 | Intervalo de valores de cluster, por padrão (2, 11) 87 | """ 88 | 89 | fig, axs = plt.subplots(nrows=1, ncols=2, figsize=(15, 5), tight_layout=True) 90 | 91 | elbow = {} 92 | silhouette = [] 93 | 94 | k_range = range(*range_k) 95 | 96 | for i in k_range: 97 | kmeans = KMeans(n_clusters=i, random_state=random_state, n_init=10) 98 | kmeans.fit(X) 99 | elbow[i] = kmeans.inertia_ 100 | 101 | labels = kmeans.labels_ 102 | silhouette.append(silhouette_score(X, labels)) 103 | 104 | sns.lineplot(x=list(elbow.keys()), y=list(elbow.values()), ax=axs[0]) 105 | axs[0].set_xlabel("K") 106 | axs[0].set_xlabel("Inertia") 107 | axs[0].set_title("Elbow Method") 108 | 109 | sns.lineplot(x=list(k_range), y=silhouette, ax=axs[1]) 110 | axs[1].set_xlabel("K") 111 | axs[1].set_xlabel("Silhouette Score") 112 | axs[1].set_title("Silhouette Method") 113 | 114 | plt.show() 115 | 116 | 117 | def plot_clusters_2D( 118 | dataframe, 119 | columns, 120 | n_colors, 121 | centroids, 122 | show_centroids=True, 123 | show_points=False, 124 | column_clusters=None, 125 | ): 126 | """Gerar gráfico 2D com os clusters. 127 | 128 | Parameters 129 | ---------- 130 | dataframe : pandas.DataFrame 131 | Dataframe com os dados. 132 | columns : List[str] 133 | Lista com o nome das colunas (strings) a serem utilizadas. 134 | n_colors : int 135 | Número de cores para o gráfico. 136 | centroids : np.ndarray 137 | Array com os centroides. 138 | show_centroids : bool, opcional 139 | Se o gráfico irá mostrar os centroides ou não, por padrão True 140 | show_points : bool, opcional 141 | Se o gráfico irá mostrar os pontos ou não, por padrão False 142 | column_clusters : List[int], opcional 143 | Coluna com os números dos clusters para colorir os pontos 144 | (caso mostrar_pontos seja True), por padrão None 145 | """ 146 | 147 | fig = plt.figure() 148 | 149 | ax = fig.add_subplot(111) 150 | 151 | cores = plt.cm.tab10.colors[:n_colors] 152 | cores = ListedColormap(cores) 153 | 154 | x = dataframe[columns[0]] 155 | y = dataframe[columns[1]] 156 | 157 | ligar_centroids = show_centroids 158 | ligar_pontos = show_points 159 | 160 | for i, centroid in enumerate(centroids): 161 | if ligar_centroids: 162 | ax.scatter(*centroid, s=500, alpha=0.5) 163 | ax.text( 164 | *centroid, 165 | f"{i}", 166 | fontsize=20, 167 | horizontalalignment="center", 168 | verticalalignment="center", 169 | ) 170 | 171 | if ligar_pontos: 172 | s = ax.scatter(x, y, c=column_clusters, cmap=cores) 173 | ax.legend(*s.legend_elements(), bbox_to_anchor=(1.3, 1)) 174 | 175 | ax.set_xlabel(columns[0]) 176 | ax.set_ylabel(columns[1]) 177 | ax.set_title("Clusters") 178 | 179 | plt.show() 180 | 181 | 182 | def plot_columns_percent_by_cluster( 183 | dataframe, 184 | columns, 185 | rows_cols=(2, 3), 186 | figsize=(15, 8), 187 | column_cluster="cluster", 188 | ): 189 | """Função para gerar gráficos de barras com a porcentagem de cada valor por cluster. 190 | 191 | Parameters 192 | ---------- 193 | dataframe : pandas.DataFrame 194 | Dataframe com os dados. 195 | columns : List[str] 196 | Lista com o nome das colunas (strings) a serem utilizadas. 197 | rows_cols : tuple, opcional 198 | Tupla com o número de linhas e colunas do grid de eixos, por padrão (2, 3) 199 | figsize : tuple, opcional 200 | Tupla com a largura e a altura da figura, por padrão (15, 8) 201 | column_cluster : str, opcional 202 | Nome da coluna com os números dos clusters, por padrão "cluster" 203 | """ 204 | 205 | fig, axs = plt.subplots( 206 | nrows=rows_cols[0], ncols=rows_cols[1], figsize=figsize, sharey=True 207 | ) 208 | 209 | if not isinstance(axs, np.ndarray): 210 | axs = np.array(axs) 211 | 212 | for ax, col in zip(axs.flatten(), columns): 213 | h = sns.histplot( 214 | x=column_cluster, 215 | hue=col, 216 | data=dataframe, 217 | ax=ax, 218 | multiple="fill", 219 | stat="percent", 220 | discrete=True, 221 | shrink=0.8, 222 | ) 223 | 224 | n_clusters = dataframe[column_cluster].nunique() 225 | h.set_xticks(range(n_clusters)) 226 | h.yaxis.set_major_formatter(PercentFormatter(1)) 227 | h.set_ylabel("") 228 | h.tick_params(axis="both", which="both", length=0) 229 | 230 | for bars in h.containers: 231 | h.bar_label( 232 | bars, 233 | label_type="center", 234 | labels=[f"{b.get_height():.1%}" for b in bars], 235 | color="white", 236 | weight="bold", 237 | fontsize=11, 238 | ) 239 | 240 | for bar in h.patches: 241 | bar.set_linewidth(0) 242 | 243 | plt.subplots_adjust(hspace=0.3, wspace=0.3) 244 | 245 | plt.show() 246 | 247 | 248 | def plot_columns_percent_hue_cluster( 249 | dataframe, 250 | columns, 251 | rows_cols=(2, 3), 252 | figsize=(15, 8), 253 | column_cluster="cluster", 254 | palette="tab10", 255 | ): 256 | """Função para gerar gráficos de barras com a porcentagem de cada valor com cluster 257 | como hue. 258 | 259 | Parameters 260 | ---------- 261 | dataframe : pandas.DataFrame 262 | Dataframe com os dados. 263 | columns : List[str] 264 | Lista com o nome das colunas (strings) a serem utilizadas. 265 | rows_cols : tuple, opcional 266 | Tupla com o número de linhas e colunas do grid de eixos, por padrão (2, 3) 267 | figsize : tuple, opcional 268 | Tupla com a largura e a altura da figura, por padrão (15, 8) 269 | column_cluster : str, opcional 270 | Nome da coluna com os números dos clusters, por padrão "cluster" 271 | palette : str, opcional 272 | Paleta a ser utilizada, por padrão "tab10" 273 | """ 274 | fig, axs = plt.subplots( 275 | nrows=rows_cols[0], ncols=rows_cols[1], figsize=figsize, sharey=True 276 | ) 277 | 278 | if not isinstance(axs, np.ndarray): 279 | axs = np.array(axs) 280 | 281 | for ax, col in zip(axs.flatten(), columns): 282 | h = sns.histplot( 283 | x=col, 284 | hue=column_cluster, 285 | data=dataframe, 286 | ax=ax, 287 | multiple="fill", 288 | stat="percent", 289 | discrete=True, 290 | shrink=0.8, 291 | palette=palette, 292 | ) 293 | 294 | if dataframe[col].dtype != "object": 295 | h.set_xticks(range(dataframe[col].nunique())) 296 | 297 | h.yaxis.set_major_formatter(PercentFormatter(1)) 298 | h.set_ylabel("") 299 | h.tick_params(axis="both", which="both", length=0) 300 | 301 | for bars in h.containers: 302 | h.bar_label( 303 | bars, 304 | label_type="center", 305 | labels=[f"{b.get_height():.1%}" for b in bars], 306 | color="white", 307 | weight="bold", 308 | fontsize=11, 309 | ) 310 | 311 | for bar in h.patches: 312 | bar.set_linewidth(0) 313 | 314 | legend = h.get_legend() 315 | legend.remove() 316 | 317 | labels = [text.get_text() for text in legend.get_texts()] 318 | 319 | fig.legend( 320 | handles=legend.legend_handles, 321 | labels=labels, 322 | loc="upper center", 323 | ncols=dataframe[column_cluster].nunique(), 324 | title="Clusters", 325 | ) 326 | 327 | plt.subplots_adjust(hspace=0.3, wspace=0.3) 328 | 329 | plt.show() 330 | --------------------------------------------------------------------------------