├── images
├── .DS_Store
├── roc_auc.png
├── welcome.jpg
├── web_app_1.png
├── clusters_plot.png
├── home_abstencao.png
├── output_example.png
├── shap_beeswarm.png
├── time_series_cv.png
├── churn_education.png
├── churners_trans_ct.png
├── hist_nota_geral.png
├── home_desempenho.png
├── target_abstencao.png
├── ordering_per_decile.png
├── abstencao_escolaridade.png
├── actual_pred_graph_lgb.png
├── faixas_score_ausentes.png
├── scatterplot_clusters.png
├── sihouette_plot_kmeans.png
└── Black Modern Personal LinkedIn Banner.png
└── README.md
/images/.DS_Store:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/allmeidaapedro/Portfolio-Ciencia-de-Dados/HEAD/images/.DS_Store
--------------------------------------------------------------------------------
/images/roc_auc.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/allmeidaapedro/Portfolio-Ciencia-de-Dados/HEAD/images/roc_auc.png
--------------------------------------------------------------------------------
/images/welcome.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/allmeidaapedro/Portfolio-Ciencia-de-Dados/HEAD/images/welcome.jpg
--------------------------------------------------------------------------------
/images/web_app_1.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/allmeidaapedro/Portfolio-Ciencia-de-Dados/HEAD/images/web_app_1.png
--------------------------------------------------------------------------------
/images/clusters_plot.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/allmeidaapedro/Portfolio-Ciencia-de-Dados/HEAD/images/clusters_plot.png
--------------------------------------------------------------------------------
/images/home_abstencao.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/allmeidaapedro/Portfolio-Ciencia-de-Dados/HEAD/images/home_abstencao.png
--------------------------------------------------------------------------------
/images/output_example.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/allmeidaapedro/Portfolio-Ciencia-de-Dados/HEAD/images/output_example.png
--------------------------------------------------------------------------------
/images/shap_beeswarm.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/allmeidaapedro/Portfolio-Ciencia-de-Dados/HEAD/images/shap_beeswarm.png
--------------------------------------------------------------------------------
/images/time_series_cv.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/allmeidaapedro/Portfolio-Ciencia-de-Dados/HEAD/images/time_series_cv.png
--------------------------------------------------------------------------------
/images/churn_education.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/allmeidaapedro/Portfolio-Ciencia-de-Dados/HEAD/images/churn_education.png
--------------------------------------------------------------------------------
/images/churners_trans_ct.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/allmeidaapedro/Portfolio-Ciencia-de-Dados/HEAD/images/churners_trans_ct.png
--------------------------------------------------------------------------------
/images/hist_nota_geral.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/allmeidaapedro/Portfolio-Ciencia-de-Dados/HEAD/images/hist_nota_geral.png
--------------------------------------------------------------------------------
/images/home_desempenho.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/allmeidaapedro/Portfolio-Ciencia-de-Dados/HEAD/images/home_desempenho.png
--------------------------------------------------------------------------------
/images/target_abstencao.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/allmeidaapedro/Portfolio-Ciencia-de-Dados/HEAD/images/target_abstencao.png
--------------------------------------------------------------------------------
/images/ordering_per_decile.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/allmeidaapedro/Portfolio-Ciencia-de-Dados/HEAD/images/ordering_per_decile.png
--------------------------------------------------------------------------------
/images/abstencao_escolaridade.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/allmeidaapedro/Portfolio-Ciencia-de-Dados/HEAD/images/abstencao_escolaridade.png
--------------------------------------------------------------------------------
/images/actual_pred_graph_lgb.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/allmeidaapedro/Portfolio-Ciencia-de-Dados/HEAD/images/actual_pred_graph_lgb.png
--------------------------------------------------------------------------------
/images/faixas_score_ausentes.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/allmeidaapedro/Portfolio-Ciencia-de-Dados/HEAD/images/faixas_score_ausentes.png
--------------------------------------------------------------------------------
/images/scatterplot_clusters.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/allmeidaapedro/Portfolio-Ciencia-de-Dados/HEAD/images/scatterplot_clusters.png
--------------------------------------------------------------------------------
/images/sihouette_plot_kmeans.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/allmeidaapedro/Portfolio-Ciencia-de-Dados/HEAD/images/sihouette_plot_kmeans.png
--------------------------------------------------------------------------------
/images/Black Modern Personal LinkedIn Banner.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/allmeidaapedro/Portfolio-Ciencia-de-Dados/HEAD/images/Black Modern Personal LinkedIn Banner.png
--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
1 | # Portfolio-Ciencia-de-Dados
2 |
3 | # Bem-vindo ao meu portfólio de ciência de dados!
4 |
5 | [](https://www.linkedin.com/in/pedro-almeida-ds/)
6 |
7 |
8 |
9 |
10 |
11 | Olá! Meu nome é Pedro Almeida e eu sou um estudante de 22 anos cursando Bacharelado em Engenharia de Computação na Universidade Federal de Brasília. Atualmente, trabalho como Cientista de Dados no Banco do Brasil. Minha paixão está em machine learning, ciência de dados, estatística e matemática, e estou constantemente trabalhando em projetos nessas áreas. Explore-os abaixo!
12 |
13 | ## Projetos
14 |
15 | ## CLASSIFICAÇÃO E REGRESSÃO
16 |
17 | ### [**Modelagem de Risco de Crédito (PD, EAD, LGD, EL) - Lending Club**](https://github.com/allmeidaapedro/Lending-Club-Credit-Scoring)
18 | - **Descrição:** Neste projeto, realizo a modelagem de risco de crédito, englobando modelos de Probability of Default (PD), Exposure at Default (EAD), Loss Given Default (LGD) e Expected Loss (EL), utilizando dados de empréstimos de 2007 a 2014 da instituição americana Lending Club.
19 | - **Problema de negócio:** O Lending Club enfrenta um grande desafio em gerenciar riscos de perda enquanto otimiza o lucro para seus investidores. A plataforma espera estimar riscos acuradamente para manter um negócio sustentável e lucrativo. Então, o CEO deseja obter insights sobre o risco de crédito nas concessões da empresa, e que sejam construídos modelos de PD, EAD e LGD, para estimar a perda esperada (EL) em cada empréstimo. Isso, juntamente a scores de crédito, será utilizado para desenvolver possíveis políticas de crédito na empresa. Ademais, sendo uma plataforma online, é importante explicar para os clientes o porquê da decisão de aprovar ou negar um empréstimo. Então, os resultados desses modelos devem ser explicáveis e interpretáveis.
20 | - **Objetivos:** Desenvolver modelos de PD, EAD e LGD, de forma a computar a perda esperada em cada empréstimo, EL. A partir disso, desenvolver uma política de crédito considerando as perdas estimadas e o ROI anualizado de cada ativo. Então, monitorar o modelo, acessando indicadores de estabilidade populacional, aferindo a necessidade de um novo modelo um ano após o construído.
21 | - **Resultados:** O modelo de PD obteve boa capacidade discriminatória, com AUC = 0.7 e KS = 0.3, além de ordenação nos escores, concentrando mais de 50% dos maus clientes até a terceira faixa de score. Os modelos de LGD e EAD obtiveram poder preditivo satisfatório. A política de crédito foi desenvolvida e reduziu tanto as perdas esperadas quanto a taxa de inadimplência. O modelo foi monitorado e foi aferida a necessidade, em breve, de desenvolvê-lo novamente, pois os scores apresentaram um PSI de 0.19.
22 | - [Clique aqui para conferir o projeto completo](https://github.com/allmeidaapedro/Lending-Club-Credit-Scoring)
23 |
24 | - Alguns resultados obtidos e validação do modelo;
25 |
26 |
27 |
28 |
29 |
30 |
31 |
32 | ### [**Previsão de Churn de Cartão de Crédito**](https://github.com/allmeidaapedro/Churn-Prediction-Credit-Card)
33 | - **Descrição:** Este é um projeto de machine learning de ponta a ponta (da coleta de dados à Deploy) que utiliza o LightGBM para prever a probabilidade de um cliente cancelar o serviço de cartão de crédito de um banco.
34 | - **Problema de negócio:** O gerente do banco está cansado de ver mais e mais clientes deixando de usar seu produto de cartão de crédito. Ele precisa que identifiquemos a probabilidade de cancelar o serviço para cada cliente, de forma a ordená-los pela chance de cancelamento e tomar possíveis ações a partir disso, como oferecer promoções. Identificar possíveis clientes propensos a cancelar ajuda a planejar estratégias de retenção, mantendo uma receita saudável. Adquirir um novo cliente é mais caro do que manter um existente.
35 | - **Objetivos:** Identificar os fatores associados ao churn do cliente; construir um modelo capaz de prever acuradamente a probabilidade de cancelar o serviço para um cliente; oferecer planos de ação para o banco reduzir o churn de clientes de cartão de crédito.
36 | - **Resultados:** Foi possível obter um ganho estimado de $171,477, calculando a diferença entre o ganho de verdadeiro positivos, o custo de retenção de falsos positivos e o custo de falsos negativos que cancelam. Além disso, o modelo apresenta performance incrível, pela qualidade dos dados e a modelagem efetuada.
37 | - [Clique aqui para conferir o projeto completo](https://github.com/allmeidaapedro/Churn-Prediction-Credit-Card)
38 |
39 | - Algumas análises realizadas;
40 |
41 |
42 |
43 |
44 |
45 |
46 |
47 |
48 | - Deploy;
49 |
50 |
51 |
52 |
53 | ## REGRESSÃO E SÉRIES TEMPORAIS
54 |
55 | ### [**Previsão de Demanda de Itens de Loja**](https://github.com/allmeidaapedro/Store-Item-Demand-Forecasting)
56 | - **Descrição:** Neste projeto, realizei previsão de séries temporais usando o LightGBM para prever o número de vendas de 50 itens em 10 lojas diferentes ao longo de um período de 3 meses.
57 | - **Problema de negócio:** Um gerente de loja varejista deseja planejar uma estratégia para gerenciar o estoque e investimentos em 10 lojas para 50 produtos, visando atender à demanda dos clientes de forma eficaz. Ao empregar análise preditiva, eles buscam melhorar as previsões de vendas, manter a disponibilidade dos produtos e impulsionar o desempenho geral da loja.
58 | - **Objetivos:** Identificar insights de negócio sobre o número de vendas ao longo do tempo, como padrões sazonais e tendências; construir um modelo capaz de prever acuradamente as vendas nos próximos 3 meses; Estimar os resultados financeiros considerando essas previsões.
59 | - **Resultados:** O resultado financeiro por loja, por loja e item, e para a empresa total está presente no projeto. A empresa espera vender um total de 2.559.998 itens nos próximos 3 meses, com uma média de cerca de 27.527 itens por dia. Considerando o erro médio, esse número pode variar em cerca de 404 itens diariamente. Portanto, em dias ruins, espera-se vender 27.123 itens e, em dias bons, 27.931 itens. No total, ao longo dos 3 meses, espera-se vender, no pior cenário 2.522.455 e no melhor cenário 2.597.542 itens.
60 | - [Clique aqui para conferir o projeto completo](https://github.com/allmeidaapedro/Store-Item-Demand-Forecasting)
61 |
62 | - Algumas análises realizadas;
63 |
64 |
65 |
66 |
67 | - Resultados do modelo;
68 |
69 |
70 |
71 |
72 | ## CLUSTERIZAÇÃO
73 |
74 | ### [**Segmentação de Clientes e Programa de Fidelidade para Loja de Varejo**](https://github.com/allmeidaapedro/Customer-Segmentation-Retail)
75 | - **Descrição:** Neste projeto, realizei uma tarefa de clusterização de aprendizado não supervisionado usando o K-Means para segmentar e perfilar clientes de uma loja de varejo, desenvolvendo um programa de fidelidade.
76 | - **Problema de negócio:** Uma loja de varejo deseja entender mais profundamente as características dos seus clientes e utilizar essa informação estrategicamente, para maximizar vendas e receita. Para isso, ela deseja segmentá-los em perfis, de acordo com preferências, padrões de gasto e comportamento. De posse disso, ela deseja aumentar a conexão com os consumidores, desenvolvendo um programa de fidelidade, oferecendo benefícios aos melhores grupos e tentando converter os outros grupos ao mesmo padrão de comportamento.
77 | - **Objetivos:** Identificar grupos de clientes, perfilando-os, criando personas e desenvolver um programa de fidelidade baseado em um perfil ideal de cliente, a fim de aumentar a retenção e a receita.
78 | - **Resultados:** Após segmentar os clientes, um programa de fidelidade chamado "Prosperous" foi desenvolvido com base no perfil de nossos melhores clientes, os Prosperous. O programa de fidelidade tem o potencial de aumentar a receita total da loja em 9%, totalizando $125,228.55. Portanto, o projeto é válido.
79 | - [Clique aqui para conferir o projeto completo](https://github.com/allmeidaapedro/Customer-Segmentation-Retail)
80 |
81 | - Clusterização;
82 |
83 |
84 |
85 |
86 | - Resultados do modelo;
87 |
88 |
89 |
90 |
91 | ## ANÁLISE EXPLORATÓRIA DE DADOS, CLASSIFICAÇÃO E REGRESSÃO
92 |
93 | ### [**Análise e modelagem dos microdados do enem 2022**](https://github.com/allmeidaapedro/Enem-Modeling)
94 |
95 | - **Descrição:** Este é um projeto de ciência de dados de ponta a ponta (da coleta de dados até o deploy), no qual são realizadas a limpeza de dados, análise exploratória e modelagem de microdados do ENEM 2022 (dados públicos reais).
96 | - **Problema e objetivos:** O objetivo consiste em realizar uma análise e modelagem do desempenho e da abstenção no exame. A análise e modelagem de desempenho tem como objetivo identificar a relação das variáveis com a nota do aluno e construir um modelo para predição dessa nota e entendimento do impacto das variáveis nela. A análise e modelagem de abstenção tem como objetivo identificar a relação das variáveis com a abstenção do aluno e construir um modelo para predição da probabilidade de um aluno se abster no exame, além de interpretar os seus resultados, da mesma forma. Para isso, foi utilizado o algoritmo LightGBM, dado seu poder preditivo, rápido treinamento e predição.
97 | - **Resultados:** Foram percebidas relações interessantes através da análise exploratória de dados e da análise de SHAP values, como, quanto maior era a escolaridade da mãe do candidato, maior era o desempenho e menor a taxa de abstenção. Os modelos tiveram performances satisfatórias. Com um MAE = 55.7, em média, as predições do modelo de regressão desviam das notas reais dos alunos em 55.7 pontos. Com um ROC-AUC = 0.69, há um poder discriminatório em distinguir alunos que estavam presentes e alunos que estavam ausentes. Foram desenvolvidas duas APIs Flask para deploy dos modelos de ambas as análises supracitadas. Dessa forma, é possível prever a nota ou a probabilidade de abstenção de um candidato fornecendo dados socioeconômicos e educacionais sobre ele.
98 | - [Clique aqui para conferir o projeto completo](https://github.com/allmeidaapedro/Enem-Modeling)
99 | - Alguns insights:
100 |
101 |
102 |
103 |
104 |
105 |
106 |
107 |
108 |
109 | - Alguns resultados obtidos e validação do modelo;
110 |
111 |
112 |
113 |
114 |
115 | - Deploy;
116 |
117 |
118 |
119 |
120 |
121 |
122 |
123 |
124 |
125 | ## ANÁLISE DE DADOS, SQL E POWER BI
126 |
127 | ### [**Análise de dados da Olist (e-commerce, em desenvolvimento)**](https://github.com/allmeidaapedro/Olist-Data-Analysis)
128 |
129 | - **Descrição:** Este é um projeto de análise de dados utilizando SQL e PowerBI no qual são realizadas a limpeza, análise exploratória de dados e construção de um dashboard baseado nos dados da Olist (e-commerce brasileiro).
130 | - **Problema e objetivos:** O objetivo consiste em analisar dados de clientes, pedidos, produtos, vendedores e vendas da Olist de 2016 a 2018 para responder perguntas de negócio relevantes previamente estabelecidas, a fim de gerar valor ao negócio.
131 | - **Resultados:** Entre alguns insights interessantes obtidos na análise em SQL estão:
132 | - As vendas apresentam uma tendência de crescimento ao longo dos dois anos, com destaque para um pico em novembro de 2017, provavelmente por conta da black friday.
133 | - Há uma correlação negativa entre a pontuação de avaliação e o tempo de entrega dos pedidos. Isso significa que pedidos com maior tempo de entrega tendem a refletir em avaliações ruins por parte dos clientes.
134 | - A grande maioria dos clientes, vendedores e pedidos concentra-se no estado de São Paulo.
135 | - [Clique aqui para conferir o projeto completo](https://github.com/allmeidaapedro/Olist-Data-Analysis)
136 |
137 | ## EM DESENVOLVIMENTO
138 | - Atualmente, estou me aprofundando em modelagem de crédito e MLOPS.
139 |
140 | ## CONTATO
141 | * [LinkedIn](https://www.linkedin.com/in/pedro-almeida-ds/)
142 | * [GitHub](https://github.com/allmeidaapedro)
143 | * [E-mail](pedrooalmeida.net@gmail.com)
144 |
--------------------------------------------------------------------------------