├── _config.yml
├── README.md
├── _layouts
└── default.html
├── index.md
└── LICENSE
/_config.yml:
--------------------------------------------------------------------------------
1 | theme: jekyll-theme-architect
2 | gems: [jekyll-mermaid]
3 |
--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
1 | # dataEng: Como começar em Engenharia de Dados
2 |
3 | Este projeto tem o objetivo de organizar conteúdos sobre engenharia de dados, principalmente em português, para facilitar o aprendizado de quem está entrando na área.
4 |
5 | # www.dataeng.com.br
6 |
7 |
8 | ## Contributors ✨
9 |
10 | Thanks goes to these incredible people:
11 |
12 |
13 |
14 |
15 |
16 | Made with [contrib.rocks](https://contrib.rocks).
17 |
--------------------------------------------------------------------------------
/_layouts/default.html:
--------------------------------------------------------------------------------
1 |
2 |
3 |
4 |
36 |
37 |
40 |
41 |
59 |
60 |
61 |
62 |
63 | {%- if content contains 'mermaid' -%}
64 |
65 |
66 |
80 | {% endif %}
81 |
82 |
83 |
--------------------------------------------------------------------------------
/index.md:
--------------------------------------------------------------------------------
1 | # Como começar em Engenharia de Dados
2 | Este projeto tem o objetivo de organizar conteúdos sobre engenharia de dados, principalmente em português, para facilitar o aprendizado de quem está entrando na área.
3 |
4 | Dividimos os recursos em 4 níveis
5 |
6 | ## Roadmap
7 |
8 |
9 | ### Nível 1 : Fundamentos <<<< Comece aqui!
10 |
11 | ```mermaid
12 | graph LR
13 | A[Fundamentos]
14 | B[Programação]
15 | B1[Python]
16 | B2[SQL]
17 | C[Banco de Dados Básico]
18 | C1[Bancos SQL]
19 | C1_1[Mysql]
20 | C1_2[Postgres]
21 | C1_3[SQL Server]
22 | C2[Bancos NoSQL]
23 | C2_1[MongoDB]
24 | C2_2[ElasticSearch]
25 | C2_3[Redis]
26 | D[Linux]
27 | D1[Terminal]
28 | D2[Shell Scripting]
29 | D3[SSH]
30 | D4[Services]
31 | D5[Resource/ Process Management]
32 | A-->B
33 | A-->C
34 | A-->D
35 | B-->B1
36 | B-->B2
37 | C-->C1
38 | C-->C2
39 | D-->D1
40 | D-->D2
41 | D-->D3
42 | D-->D4
43 | D-->D5
44 | C1-->C1_1
45 | C1-->C1_2
46 | C1-->C1_3
47 | C2-->C2_1
48 | C2-->C2_2
49 | C2-->C2_3
50 |
51 | click B "#programa%C3%A7%C3%A3o" "Programação"
52 | click B1 "#python" "Python"
53 | click B2 "#sql" "SQL"
54 | click C "#banco-de-dados-básico"
55 |
56 |
57 | ```
58 |
59 | ## Programação
60 |
61 | - ### Python
62 |
63 | | Site | Título | Nível |
64 |
65 | |:--------|:-------:|--------:|
66 | |[Python](https://www.python.org//){:target="_blank"}|Python|Básico|
67 | |[devAnalytics/Youtube](https://www.youtube.com/watch?v=zC0X4CBui-I&list=PLQDFv3ddAPFSwwybX1t5XO7MIyJOTm_Pu){:target="_blank"}|Introdução à Linguagem Python|Básico|
68 | |[Pandas](https://pandas.pydata.org/){:target="_blank"}|Pandas|Básico|
69 | - ### SQL
70 |
71 | | Site | Título | Nível |
72 |
73 | |:--------|:-------:|--------:|
74 | |[TeoMeWhy](https://github.com/TeoCalvo/sql_gc){:target="_blank"}|Treinamento SQL|Básico ao avançado|
75 |
76 | |[sql-for-data-analysis](https://www.udacity.com/course/sql-for-data-analysis--ud198){:target="_blank"}|Treinamento SQL|Básico|
77 |
78 |
79 |
80 |
81 | ## Banco de dados (Básico)
82 |
83 |
84 | ### Bancos SQL
85 |
86 | - #### Mysql
87 | - [Curso de SQL Completo Gratuito (Softblue)](https://www.softblue.com.br/site/curso/id/3/CURSO+SQL+COMPLETO+BASICO+AO+AVANCADO+ON+LINE+BD03)
88 |
89 | - #### Postgres
90 | - [Treinamento PostgreSQL para DBAs (Ambiente Livre)](https://www.ambientelivre.com.br/treinamento/banco-de-dados/postgresql.html)
91 | - #### SQL Server
92 |
93 | ### Bancos NoSQL
94 |
95 | - #### MongoDB
96 | - [Treinamento MongoDB (Ambiente Livre)](https://www.ambientelivre.com.br/treinamento/banco-de-dados/mongodb.html)
97 |
98 | - #### ElasticSearch
99 | - [Treinamento ElasticSearch (Ambiente Livre)](https://www.ambientelivre.com.br/treinamento/big-data/elasticsearch.html)
100 |
101 | - #### Redis
102 | - [Treinamento Redis (Ambiente Livre)](https://www.ambientelivre.com.br/treinamento/big-data/redis.html)
103 |
104 | ## Linux
105 |
106 |
107 | - ### Terminal
108 |
109 | - ### Shell Scripting
110 |
111 | - ### SSH
112 |
113 | - ### Services
114 |
115 | - ### Resource/ Process Management
116 |
117 |
118 | **[⬆ Voltar ao início](#roadmap)**
119 |
120 |
121 |
122 | ### Nível 2 : Indo para as nuvens!
123 |
124 | ```mermaid
125 | graph LR
126 | P[Plataforma]
127 | A[Cloud]
128 | A1[AWS]
129 | A1_1[Amazon S3]
130 | A1_2[AWS VPC]
131 | A1_3[AWS EC2]
132 | A2[Azure]
133 | A2_1[Azure Storage]
134 | A2_2[Azure Virtual Machines]
135 | A2_3[Azure Virtual Networks]
136 | A3[GCP]
137 | A3_1[Google Cloud Storage]
138 | A3_2[Google Compute Engine]
139 | A3_3[Google VPC]
140 | B[Open Source]
141 | B1[Docker]
142 | B2[Apache Mesos]
143 | B3[OpenStack]
144 | P-->A
145 | P-->B
146 | A-->A1
147 | A-->A2
148 | A-->A3
149 | A1-->A1_1
150 | A1-->A1_2
151 | A1-->A1_3
152 |
153 | A2-->A2_1
154 | A2-->A2_2
155 | A2-->A2_3
156 |
157 | A3-->A3_1
158 | A3-->A3_2
159 | A3-->A3_3
160 |
161 | B-->B1
162 | B-->B2
163 | B-->B3
164 |
165 | click B "#open-source"
166 | click A1 "#aws"
167 |
168 | ```
169 |
170 |
171 | ## Plataforma
172 | ### Cloud
173 | #### AWS
174 | - #### Amazon S3
175 | - [Um Inventor Qualquer](https://www.youtube.com/watch?v=ayu9xlQXCYs&list=PLOF5f9_x-OYUaqJar6EKRAonJNSHDFZUm&index=17)
176 | - #### AWS VPC
177 | - [Um Inventor Qualquer](https://www.youtube.com/watch?v=WMsADIgy4ms&list=PLOF5f9_x-OYUaqJar6EKRAonJNSHDFZUm&index=6)
178 | - #### AWS EC2
179 | - [Um Inventor Qualquer](https://www.youtube.com/watch?v=a6nU5NTHJDM&list=PLOF5f9_x-OYUaqJar6EKRAonJNSHDFZUm&index=8)
180 |
181 | #### Azure
182 | - #### Azure Storage
183 | - #### Azure Virtual Machines
184 | - #### Azure Virtual Networks
185 |
186 | #### GCP
187 | - #### Google Cloud Storage
188 | - #### Google Compute Engine
189 | - #### Google VPC
190 |
191 | ### Open Source
192 | - #### Docker
193 | - [Treinamento Docker (Ambiente Livre)](https://www.ambientelivre.com.br/treinamento/infraestrutura/docker.html)
194 | - #### Apache Mesos
195 | - [Treinamento Apache Mesos (Ambiente Livre)](https://www.ambientelivre.com.br/treinamento/hadoop/apache-mesos.html)
196 | - #### OpenStack
197 |
198 |
199 |
200 |
201 | ### Nível 3 : Escolha seu caminho
202 |
203 | ## Data Pipelines Engineer
204 |
205 | ```mermaid
206 | graph LR
207 | P[Data Pipelines Engineer]
208 | A[Arquitetura Serveless]
209 | A1[AWS Lambda]
210 | A1[Google Functions]
211 | A1[Azure Functions]
212 |
213 | B[Job Orquestration]
214 | B1[AWS Step Function]
215 | B2[Apache Airflow]
216 | B3[Luigi]
217 | B3[Prefect]
218 | B3[Dagster]
219 | C[Processing Frameworks]
220 | C1[Apache Spark]
221 | C2[Apache Arrow]
222 | C3[dbt]
223 |
224 |
225 | P-->A
226 | P-->B
227 | P-->C
228 |
229 | A-->A1
230 | A-->A2
231 | A-->A3
232 |
233 | B-->B1
234 | B-->B2
235 | B-->B3
236 |
237 | C-->C1
238 | C-->C2
239 | C-->C3
240 |
241 | click B "#open-source"
242 | click A1 "#aws"
243 |
244 | ```
245 |
246 | ### Arquitetura Serveless
247 | - #### AWS Lambda
248 | - [Um Inventor Qualquer](https://www.youtube.com/watch?v=N5dtRX2PWHY&list=PLOF5f9_x-OYUaqJar6EKRAonJNSHDFZUm&index=19)
249 | - #### Google Functions
250 | - #### Azure Functions
251 |
252 | ### Job Orquestration
253 | - #### AWS Step Function
254 | - #### Apache Airflow
255 | - [Supletivo Airflow](https://www.youtube.com/watch?v=f_lnDBR3rFU)
256 | - https://www.udemy.com/course/the-ultimate-hands-on-course-to-master-apache-airflow
257 | - https://www.udemy.com/course/the-complete-hands-on-course-to-master-apache-airflow
258 | - https://www.udemy.com/course/apache-airflow-on-aws-eks-the-hands-on-guide
259 | - [Treinamento Apache Airflow (Ambiente Livre)](https://www.ambientelivre.com.br/treinamento/data-science/airflow.html)
260 | - #### Luigi
261 | - #### Prefect
262 | - #### Dagster
263 |
264 | ### Processing Frameworks
265 | - #### Apache Spark
266 | - [Supletivo Spark](https://www.youtube.com/watch?v=mrHnb8U4fX4)
267 | - #### Apache Arrow
268 | - #### dbt
269 | - [Supletivo dbt](https://www.youtube.com/watch?v=96gpDt-MGMM)
270 | - [ETL101 - Curso de ETL utilizando o Modern Analytics Stack (Big Query + Stitch + dbt)](https://www.youtube.com/watch?list=PLrJaJt2i__IxReStfKCl88VT4pQxVKRzF&v=1q1P1mP9III)
271 | - [Treinamento dbt - Analytics Engineering Workflow (Ambiente Livre)](https://www.ambientelivre.com.br/treinamento/data-science/dbt.html)
272 |
273 |
274 |
275 | ## Data Infraestructure Engineer
276 |
277 | ```mermaid
278 | graph LR
279 | P[Data Infraestructure Engineer]
280 | A[Kubernets]
281 | A1[Helm]
282 |
283 | B[Clustering]
284 | B1[Apache Spark - infra]
285 | C[Infra as Code]
286 | C1[Terraform]
287 | C2[Ansible]
288 | C3[AWS CDK]
289 | C4[Pulumi]
290 | D[Auto-Scaling]
291 |
292 | P-->A
293 | P-->B
294 | P-->C
295 | P-->D
296 |
297 | A-->A1
298 |
299 | B-->B1
300 |
301 | C-->C1
302 | C-->C2
303 | C-->C3
304 | C-->C4
305 |
306 |
307 | ```
308 | ### Kubernets
309 | - Helm
310 | ### Clustering
311 | - Apache Spark - infra
312 | ### Infra as Code
313 | - Terraform
314 | - Ansible
315 | - AWS CDK
316 | - Pulumi
317 | ### Auto-Scaling
318 |
319 |
320 | ### Nível 4: Torne-se um Jedi
321 |
322 | ```
323 | Aprofundamento Geral
324 | Recursos Computacionais
325 | Linguagens de Programação
326 | Data Warehousing
327 | * Arquiteturas de Schema de DWs;
328 | Monitoramento
329 | Segurança
330 | Data Lakes
331 | * Arquiteturas de DL;
332 | * Data Lakehouses;
333 |
334 | Arcabouço Teórico
335 | Algebra linear
336 | Cálculo numérico
337 | Recuperação de Informação
338 | Computação distribuída
339 |
340 | Data Governance
341 | Controle de Acesso SGBDs
342 | Catálogo de dados
343 | * Amundsen;
344 | * Datahub;
345 | * OpenMetadata;
346 | * Apache Atlas
347 | Testes de dados;
348 | * Great Expectations;
349 | Auditoria
350 | LGPD/GPDR
351 |
352 | Data Streaming
353 | Apache Kafka
354 | - [Treinamento Kafka Fundamental (Ambiente Livre)](https://www.ambientelivre.com.br/treinamento/big-data/kafka.html)
355 | AWS Kinesis
356 | CDC
357 | Apache Nifi
358 | - [Treinamento Apache NiFi (Ambiente Livre)](https://www.ambientelivre.com.br/treinamento/hadoop/apache-nifi.html)
359 | Apache Beam
360 | https://www.udemy.com/course/apache-beam-python
361 |
362 | Machine Learning Engineering
363 | Machine Learning
364 | Aprendizado Supervisionado
365 | Aprendizado Não-Supervisionado
366 | Estatística e Probabilidade
367 | Teste A/B
368 |
369 | ```
370 | ===========================
371 |
372 | ## Trilhas Pagas:
373 | * Engenheiro de dados do Datacamp;
374 | * Curso de engenheiro de dados do Google (para Certificação);
375 | * Engenharia de dados da Udacity; https://www.udacity.com/course/data-engineer-nanodegree--nd027
376 |
377 |
378 |
379 | ## Datasets para estudar e criar projetos:
380 | * Google Bigquery public datasets - https://cloud.google.com/bigquery/public-data;
381 | * Kaggle Datasets - https://www.kaggle.com/;
382 | * Portais do Governo;
383 | * APIs;
384 | * Tools:
385 | * Postman;
386 | * Imnsonia;
387 | * CEP, CNPJs, DDD, FIPE, etc - https://brasilapi.com.br/docs
388 |
389 |
--------------------------------------------------------------------------------
/LICENSE:
--------------------------------------------------------------------------------
1 | GNU AFFERO GENERAL PUBLIC LICENSE
2 | Version 3, 19 November 2007
3 |
4 | Copyright (C) 2007 Free Software Foundation, Inc.