├── README.md └── utils.py /README.md: -------------------------------------------------------------------------------- 1 | # SQL para Data Science 2 | Principais comandos de SQL com foco em Data Science. 3 | -------------------------------------------------------------------------------- /utils.py: -------------------------------------------------------------------------------- 1 | import pandas as pd 2 | import numpy as np 3 | 4 | # quantidade de linhas 5 | def gerar_dados(tamanho_amostra = 100, SEED = 10): 6 | """Gera dados aleatórios para simular uma base de dados de clientes.""" 7 | np.random.seed(SEED) 8 | 9 | # cidade 10 | lista_cidades = ['Salvador', 'Ilhéus', 'Itabuna', 'Porto Seguro', 11 | 'Feira de Santana', 'Lauro de Freitas' 12 | ] 13 | cidade = np.random.choice(lista_cidades, size = tamanho_amostra) 14 | 15 | #sexo 16 | sexo = np.random.choice(['Masculino', 'Feminino', 'Não Informado'], size = tamanho_amostra) 17 | 18 | # renda 19 | renda = np.random.randint(low = 1_000, high = 10_000, size = tamanho_amostra) 20 | 21 | # idade 22 | idade = np.random.randint(18, 65, size = tamanho_amostra) 23 | 24 | # profissão 25 | lista_profissoes = ['Professor', 'Cientista de Dados', 'Engenheiro de Dados', 'Economista', 26 | 'Advogado', 'Físico', 'Contador', 'Bancário' 27 | ] 28 | profissao = np.random.choice(lista_profissoes, size = tamanho_amostra) 29 | 30 | # escolaridade 31 | escolaridade = ['Ensino Fundamental', 'Ensino Médio','Ensino Superior'] 32 | grau_escolaridade = np.random.choice(escolaridade, size = tamanho_amostra) 33 | 34 | # score 35 | score = np.random.uniform(0, 10, size = tamanho_amostra).round(2) 36 | 37 | # tempo empregado 38 | tempo_empregado = np.random.randint(1, 30, size = tamanho_amostra) 39 | 40 | data = { 41 | 'id': np.arange(1, tamanho_amostra+1), 42 | 'cidade': cidade, 43 | 'sexo': sexo, 44 | 'idade': idade, 45 | 'renda': renda, 46 | 'escolaridade': grau_escolaridade, 47 | 'score': score, 48 | 'profissao': profissao, 49 | 'tempo_empregado': tempo_empregado 50 | } 51 | 52 | df = pd.DataFrame(data) 53 | 54 | return df 55 | --------------------------------------------------------------------------------