├── README.md
└── utils.py


/README.md:
--------------------------------------------------------------------------------
1 | # SQL para Data Science
2 | Principais comandos de SQL com foco em Data Science.
3 | 


--------------------------------------------------------------------------------
/utils.py:
--------------------------------------------------------------------------------
 1 | import pandas as pd
 2 | import numpy as np
 3 | 
 4 | # quantidade de linhas
 5 | def gerar_dados(tamanho_amostra = 100, SEED = 10):
 6 |     """Gera dados aleatórios para simular uma base de dados de clientes."""
 7 |     np.random.seed(SEED)
 8 |     
 9 |     # cidade
10 |     lista_cidades = ['Salvador', 'Ilhéus', 'Itabuna', 'Porto Seguro', 
11 |                      'Feira de Santana', 'Lauro de Freitas'
12 |                     ]
13 |     cidade = np.random.choice(lista_cidades, size = tamanho_amostra)
14 |     
15 |     #sexo
16 |     sexo = np.random.choice(['Masculino', 'Feminino', 'Não Informado'], size = tamanho_amostra)
17 |     
18 |     # renda
19 |     renda = np.random.randint(low = 1_000, high = 10_000, size = tamanho_amostra)
20 |     
21 |     # idade
22 |     idade = np.random.randint(18, 65, size = tamanho_amostra)
23 |     
24 |     # profissão
25 |     lista_profissoes = ['Professor', 'Cientista de Dados', 'Engenheiro de Dados', 'Economista',
26 |                         'Advogado', 'Físico', 'Contador', 'Bancário'
27 |                        ]
28 |     profissao = np.random.choice(lista_profissoes, size = tamanho_amostra)
29 |     
30 |     # escolaridade
31 |     escolaridade = ['Ensino Fundamental', 'Ensino Médio','Ensino Superior']
32 |     grau_escolaridade = np.random.choice(escolaridade, size = tamanho_amostra)
33 |     
34 |     # score
35 |     score = np.random.uniform(0, 10, size = tamanho_amostra).round(2)
36 |     
37 |     # tempo empregado
38 |     tempo_empregado = np.random.randint(1, 30, size = tamanho_amostra)
39 | 
40 |     data = {
41 |         'id': np.arange(1, tamanho_amostra+1),
42 |         'cidade': cidade,
43 |         'sexo': sexo,
44 |         'idade': idade,
45 |         'renda': renda,
46 |         'escolaridade': grau_escolaridade,
47 |         'score': score,
48 |         'profissao': profissao,
49 |         'tempo_empregado': tempo_empregado
50 |     }
51 | 
52 |     df = pd.DataFrame(data)
53 |     
54 |     return df
55 | 


--------------------------------------------------------------------------------