├── schema
├── cnae_secundaria.csv
├── cnae_cnpj.csv
├── holding.csv
├── cnae.csv
├── socio.csv
└── empresa.csv
├── schema-full
├── cnae_secundaria.csv
├── cnae_cnpj.csv
├── holding.csv
├── cnae.csv
├── socio.csv
└── empresa.csv
├── requirements-development.txt
├── .github
└── FUNDING.yml
├── requirements.txt
├── sql
├── 01-create-pks.sql
├── 00-create-tables.sql
├── 02-create-fks.sql
├── 03-create-indexes.sql
└── 04-create-old-views.sql
├── Makefile
├── .gitignore
├── check_pais_socio.py
├── headers
├── header.csv
├── trailler.csv
├── cnae_secundaria.csv
├── socio.csv
└── empresa.csv
├── extract_cnae_cnpj.py
├── import-postgresql.sh
├── run.sh
├── natureza_juridica.py
├── extract_holding.py
├── qualificacao-socio.csv
├── historia-do-dataset.md
├── data
└── natureza-juridica.csv
├── cnae.py
├── test_parser.py
├── LICENSE
├── README.md
└── extract_dump.py
/schema/cnae_secundaria.csv:
--------------------------------------------------------------------------------
1 | field_name,field_type
2 | cnpj,text
3 | cnae,integer
4 |
--------------------------------------------------------------------------------
/schema-full/cnae_secundaria.csv:
--------------------------------------------------------------------------------
1 | field_name,field_type
2 | cnpj,text
3 | cnae,integer
4 |
--------------------------------------------------------------------------------
/requirements-development.txt:
--------------------------------------------------------------------------------
1 | autoflake
2 | black
3 | flake8
4 | ipython
5 | isort
6 | pytest
7 |
--------------------------------------------------------------------------------
/schema/cnae_cnpj.csv:
--------------------------------------------------------------------------------
1 | field_name,field_type
2 | cnpj,text
3 | cnae,integer
4 | primaria,bool
5 |
--------------------------------------------------------------------------------
/schema-full/cnae_cnpj.csv:
--------------------------------------------------------------------------------
1 | field_name,field_type
2 | cnpj,text
3 | cnae,integer
4 | primaria,bool
5 |
--------------------------------------------------------------------------------
/.github/FUNDING.yml:
--------------------------------------------------------------------------------
1 | # These are supported funding model platforms
2 |
3 | custom: https://apoia.se/brasilio
4 |
--------------------------------------------------------------------------------
/requirements.txt:
--------------------------------------------------------------------------------
1 | click
2 | git+https://github.com/turicas/rows.git@develop#egg=rows
3 | lxml
4 | requests
5 | requests-cache
6 | scrapy
7 | tqdm==4.66.3
8 |
--------------------------------------------------------------------------------
/sql/01-create-pks.sql:
--------------------------------------------------------------------------------
1 | ALTER TABLE empresa ADD CONSTRAINT pk_empresa_id PRIMARY KEY (cnpj);
2 | ALTER TABLE cnae ADD CONSTRAINT pk_cnae_id PRIMARY KEY (id);
3 |
--------------------------------------------------------------------------------
/Makefile:
--------------------------------------------------------------------------------
1 | lint:
2 | autoflake --in-place --recursive --remove-unused-variables --remove-all-unused-imports .
3 | isort .
4 | black -l 120 .
5 | flake8
6 |
7 | .PHONY: lint
8 |
--------------------------------------------------------------------------------
/schema/holding.csv:
--------------------------------------------------------------------------------
1 | field_name,field_type
2 | holding_cnpj,text
3 | holding_razao_social,text
4 | cnpj,text
5 | razao_social,text
6 | codigo_qualificacao_socia,integer
7 | qualificacao_socia,text
8 |
--------------------------------------------------------------------------------
/schema-full/holding.csv:
--------------------------------------------------------------------------------
1 | field_name,field_type
2 | holding_cnpj,text
3 | holding_razao_social,text
4 | cnpj,text
5 | razao_social,text
6 | codigo_qualificacao_socia,integer
7 | qualificacao_socia,text
8 |
--------------------------------------------------------------------------------
/.gitignore:
--------------------------------------------------------------------------------
1 | *.egg-info/
2 | *.pyc
3 | *~
4 | .*.sw?
5 | .DS_Store
6 | .activate
7 | .coverage
8 | .directory
9 | .env
10 | .idea/*
11 | .tox
12 | MANIFEST
13 | build/*
14 | dist/*
15 | download.sh
16 | data/*
17 | reg_settings.py
18 |
--------------------------------------------------------------------------------
/check_pais_socio.py:
--------------------------------------------------------------------------------
1 | import csv
2 | from collections import Counter
3 |
4 | import rows
5 | from tqdm import tqdm
6 |
7 | reader = csv.DictReader(rows.utils.open_compressed("data/output/socio.csv.gz"))
8 | paises = Counter((row["codigo_pais"], row["nome_pais"]) for row in tqdm(reader))
9 | print(paises.most_common())
10 |
--------------------------------------------------------------------------------
/schema/cnae.csv:
--------------------------------------------------------------------------------
1 | field_name,field_type
2 | id_subclasse,text
3 | descricao_subclasse,text
4 | id_classe,text
5 | descricao_classe,text
6 | id_grupo,text
7 | descricao_grupo,text
8 | id_divisao,text
9 | descricao_divisao,text
10 | id_secao,text
11 | descricao_secao,text
12 | notas_explicativas,text
13 | url,text
14 | id,integer
15 | versao,text
16 |
--------------------------------------------------------------------------------
/schema-full/cnae.csv:
--------------------------------------------------------------------------------
1 | field_name,field_type
2 | id_subclasse,text
3 | descricao_subclasse,text
4 | id_classe,text
5 | descricao_classe,text
6 | id_grupo,text
7 | descricao_grupo,text
8 | id_divisao,text
9 | descricao_divisao,text
10 | id_secao,text
11 | descricao_secao,text
12 | notas_explicativas,text
13 | url,text
14 | id,integer
15 | versao,text
16 |
--------------------------------------------------------------------------------
/schema/socio.csv:
--------------------------------------------------------------------------------
1 | field_name,field_type
2 | cnpj,text
3 | identificador_de_socio,integer
4 | nome_socio,text
5 | cnpj_cpf_do_socio,text
6 | codigo_qualificacao_socio,integer
7 | percentual_capital_social,integer
8 | data_entrada_sociedade,date
9 | cpf_representante_legal,text
10 | nome_representante_legal,text
11 | codigo_qualificacao_representante_legal,integer
12 |
--------------------------------------------------------------------------------
/schema-full/socio.csv:
--------------------------------------------------------------------------------
1 | field_name,field_type
2 | cnpj,text
3 | identificador_de_socio,integer
4 | nome_socio,text
5 | cnpj_cpf_do_socio,text
6 | codigo_qualificacao_socio,integer
7 | percentual_capital_social,integer
8 | data_entrada_sociedade,date
9 | codigo_pais,integer
10 | nome_pais,text
11 | cpf_representante_legal,text
12 | nome_representante_legal,text
13 | codigo_qualificacao_representante_legal,integer
14 |
--------------------------------------------------------------------------------
/headers/header.csv:
--------------------------------------------------------------------------------
1 | start_column,name,size,type,description
2 | 1,TIPO DE REGISTRO,1,A,CONTEM O VALOR 0 PARA IDENTIFICAR O REGISTRO HEADER
3 | 2,FILLER,16,A,BRANCOS
4 | 18,NOME DO ARQUIVO,11,A,NOME DO ARQUIVO: F.KXXXXXA
5 | 29,DATA DE GRAVAÇÃO,8,N,DATA DE GRAVAÇÃO DO ARQUIVO NO FORMATO ‘AAAAMMDD’
6 | 37,NUMERO DA REMESSA,8,N,"PARTINDO DE ‘00000001’, DEVENDO SER INCREMENTADO DE 1 A CADA NOVO ARQUIVO (quando exceder 99999999 retornar a 000001)"
7 | 45,FILLER,1155,A,BRANCOS
8 | 1200,FIM,1,A,CONTEÚDO 'F' - INDICA FINAL DE REGISTRO
9 |
--------------------------------------------------------------------------------
/headers/trailler.csv:
--------------------------------------------------------------------------------
1 | start_column,name,size,type,description
2 | 1,TIPO DE REGISTRO,1,A,CONTEM O VALOR 9 PARA IDENTIFICAR O REGISTRO HEADER
3 | 2,FILLER,16,A,NORMALIZADO COM '99999999999999'
4 | 18,TOTAL DE REGISTROS T1,9,N,TOTAL DE REGISTROS TIPO 1 DO ARQUIVO
5 | 27,TOTAL DE REGISTROS T2,9,N,TOTAL DE REGISTROS TIPO 2 DO ARQUIVO
6 | 36,TOTAL DE REGISTROS T3,9,N,TOTAL DE REGISTROS TIPO 3 DO ARQUIVO
7 | 45,TOTAL DE REGISTROS,11,N,"TOTAL DE REGISTROS DO ARQUIVO, INCLUINDO REGISTROS HEADER/TRAILER"
8 | 56,FILLER,1144,C,BRANCOS
9 | 1200,FIM,1,A,CONTEÚDO 'F' - INDICA FINAL DE REGISTRO
10 |
--------------------------------------------------------------------------------
/sql/00-create-tables.sql:
--------------------------------------------------------------------------------
1 | DROP TABLE IF EXISTS cnae;
2 | CREATE TABLE cnae AS SELECT * FROM cnae_23;
3 | INSERT INTO cnae SELECT c22.* FROM cnae_22 AS c22 WHERE NOT EXISTS(SELECT * FROM cnae AS c WHERE c.id = c22.id);
4 | INSERT INTO cnae SELECT c21.* FROM cnae_21 AS c21 WHERE NOT EXISTS(SELECT * FROM cnae AS c WHERE c.id = c21.id);
5 | INSERT INTO cnae SELECT c20.* FROM cnae_20 AS c20 WHERE NOT EXISTS(SELECT * FROM cnae AS c WHERE c.id = c20.id);
6 | INSERT INTO cnae SELECT c11.* FROM cnae_11 AS c11 WHERE NOT EXISTS(SELECT * FROM cnae AS c WHERE c.id = c11.id);
7 | INSERT INTO cnae SELECT c10.* FROM cnae_10 AS c10 WHERE NOT EXISTS(SELECT * FROM cnae AS c WHERE c.id = c10.id);
8 |
--------------------------------------------------------------------------------
/sql/02-create-fks.sql:
--------------------------------------------------------------------------------
1 | -- CNPJ
2 | ALTER TABLE cnae_cnpj ADD CONSTRAINT fk_cnae_cnpj_cnpj FOREIGN KEY (cnpj) REFERENCES empresa (cnpj);
3 | ALTER TABLE holding ADD CONSTRAINT fk_holding_cnpj FOREIGN KEY (cnpj) REFERENCES empresa (cnpj);
4 | ALTER TABLE holding ADD CONSTRAINT fk_holding_holding_cnpj FOREIGN KEY (holding_cnpj) REFERENCES empresa (cnpj);
5 | ALTER TABLE socio ADD CONSTRAINT fk_socio_cnpj FOREIGN KEY (cnpj) REFERENCES empresa (cnpj);
6 |
7 | -- CNAE
8 | ALTER TABLE empresa ADD CONSTRAINT fk_empresa_cnae_fiscal FOREIGN KEY (cnae_fiscal) REFERENCES cnae (id);
9 | ALTER TABLE cnae_cnpj ADD CONSTRAINT fk_cnae_cnpj_cnae FOREIGN KEY (cnae) REFERENCES cnae (id);
10 |
--------------------------------------------------------------------------------
/schema/empresa.csv:
--------------------------------------------------------------------------------
1 | field_name,field_type
2 | cnpj,text
3 | identificador_matriz_filial,integer
4 | razao_social,text
5 | nome_fantasia,text
6 | situacao_cadastral,integer
7 | data_situacao_cadastral,date
8 | motivo_situacao_cadastral,integer
9 | nome_cidade_exterior,text
10 | codigo_natureza_juridica,integer
11 | data_inicio_atividade,date
12 | cnae_fiscal,integer
13 | descricao_tipo_logradouro,text
14 | logradouro,text
15 | numero,text
16 | complemento,text
17 | bairro,text
18 | cep,integer
19 | uf,text
20 | codigo_municipio,integer
21 | municipio,text
22 | ddd_telefone_1,text
23 | ddd_telefone_2,text
24 | ddd_fax,text
25 | qualificacao_do_responsavel,integer
26 | capital_social,decimal
27 | porte,integer
28 | opcao_pelo_simples,bool
29 | data_opcao_pelo_simples,text
30 | data_exclusao_do_simples,text
31 | opcao_pelo_mei,bool
32 | situacao_especial,text
33 | data_situacao_especial,text
34 |
--------------------------------------------------------------------------------
/headers/cnae_secundaria.csv:
--------------------------------------------------------------------------------
1 | start_column,name,size,type,description
2 | 1,TIPO DE REGISTRO,1,A,CONTEM O VALOR 6 PARA IDENTIFICAR AS CNAES SECUNDÁRIAS
3 | 2,INDICADOR-FULL-DIARIO,1,A,"INDICA FORMA DE ENVIO DO ARQUIVO:
4 | F – QUANDO FULL
5 | D – QUANDO DIÁRIO
6 | M – QUANDO MENSAL
7 | T – QUANDO TRIMEST"
8 | 3,TIPO DE ATUALIZACAO,1,A,"NO CASO DE ENVIO FULL ESTE CAMPO ESTA EM BRANCO. NO CASO DE ENVIO PERÍODICO, TERÁ OS SEGUINTES DOMÍNIOS:
9 | A – ATUALIZAÇÃO DO ESTABELECIMENTO
10 | I – INCLUSÃO DE UM NOVO ESTABELECIMENTO
11 | E – EXCLUSÃO DO ESTABELECIMENTO"
12 | 4,CNPJ,14,A,CONTEM O NÚMERO DE INSCRIÇÃO NO CNPJ (CADASTRO NACIONAL DA PESSOA JURÍDICA).
13 | 18,CNAE,693,A,"TAMANHO DE CADA CNAE SECUNDÁRIA: 7
14 | OCORRÊNCIA =99. COMO SE TRATA DE UM ATRIBUTO OPCIONAL, QUANDO UMA DAS OCORRENCIAS NÃO FOR INFORMADA, ESTE ATRIBUTO ESTARA PREENCHIDO COM ZEROS."
15 | 711,FILLER,489,A,BRANCOS
16 | 1200,FIM,1,A,PREENCHIDO COM ‘F’ INDICANDO FINAL DE REGISTRO
17 |
--------------------------------------------------------------------------------
/schema-full/empresa.csv:
--------------------------------------------------------------------------------
1 | field_name,field_type
2 | cnpj,text
3 | identificador_matriz_filial,integer
4 | razao_social,text
5 | nome_fantasia,text
6 | situacao_cadastral,integer
7 | data_situacao_cadastral,date
8 | motivo_situacao_cadastral,integer
9 | nome_cidade_exterior,text
10 | codigo_pais,integer
11 | nome_pais,text
12 | codigo_natureza_juridica,integer
13 | data_inicio_atividade,date
14 | cnae_fiscal,integer
15 | descricao_tipo_logradouro,text
16 | logradouro,text
17 | numero,text
18 | complemento,text
19 | bairro,text
20 | cep,integer
21 | uf,text
22 | codigo_municipio,integer
23 | municipio,text
24 | ddd_telefone_1,text
25 | ddd_telefone_2,text
26 | ddd_fax,text
27 | correio_eletronico,text
28 | qualificacao_do_responsavel,integer
29 | capital_social,decimal
30 | porte,integer
31 | opcao_pelo_simples,bool
32 | data_opcao_pelo_simples,text
33 | data_exclusao_do_simples,text
34 | opcao_pelo_mei,bool
35 | situacao_especial,text
36 | data_situacao_especial,text
37 |
--------------------------------------------------------------------------------
/extract_cnae_cnpj.py:
--------------------------------------------------------------------------------
1 | import argparse
2 | import csv
3 |
4 | import rows
5 | from tqdm import tqdm
6 |
7 |
8 | def main():
9 | parser = argparse.ArgumentParser()
10 | parser.add_argument("empresa_csv_filename")
11 | parser.add_argument("cnae_secundaria_csv_filename")
12 | parser.add_argument("output_csv_filename")
13 | args = parser.parse_args()
14 |
15 | writer = rows.utils.CsvLazyDictWriter(args.output_csv_filename)
16 |
17 | fobj = rows.utils.open_compressed(args.empresa_csv_filename)
18 | reader = csv.DictReader(fobj)
19 | for row in tqdm(reader):
20 | writer.writerow({"cnpj": row["cnpj"], "cnae": row["cnae_fiscal"], "primaria": "t"})
21 | fobj.close()
22 |
23 | fobj = rows.utils.open_compressed(args.cnae_secundaria_csv_filename)
24 | reader = csv.DictReader(fobj)
25 | for row in tqdm(reader):
26 | writer.writerow({"cnpj": row["cnpj"], "cnae": row["cnae"], "primaria": "f"})
27 | fobj.close()
28 |
29 | writer.close()
30 |
31 |
32 | if __name__ == "__main__":
33 | main()
34 |
--------------------------------------------------------------------------------
/import-postgresql.sh:
--------------------------------------------------------------------------------
1 | #!/bin/bash
2 |
3 | SCHEMA_PATH="schema"
4 | OUTPUT_PATH="data/output"
5 |
6 | function import_table() {
7 | tablename="$1"
8 |
9 | echo "DROP TABLE IF EXISTS ${tablename};" | psql "$POSTGRESQL_URI"
10 | time rows pgimport \
11 | --schema="$SCHEMA_PATH/${tablename}.csv" \
12 | --input-encoding="utf-8" \
13 | --dialect="excel" \
14 | "$OUTPUT_PATH/${tablename}.csv.gz" \
15 | "$POSTGRESQL_URI" \
16 | "$tablename"
17 | }
18 |
19 | function import_cnae_tables() {
20 | schema="cnae"
21 | for filename in $OUTPUT_PATH/cnae_1*.csv* $OUTPUT_PATH/cnae_2*.csv*; do
22 | versao="$(basename $filename | sed 's/.csv.*//; s/cnae_//; s/\.//')"
23 | filename=$(basename $filename | sed 's/.csv.gz//')
24 | import_table $filename $schema "cnae_$versao"
25 | done
26 | }
27 |
28 | function execute_sql_files() {
29 | ## Execute SQL queries in sql/*.sql
30 | for filename in sql/*.sql; do
31 | echo "Executing ${filename}..."
32 | time cat $filename | psql $POSTGRESQL_URI
33 | done
34 | }
35 |
36 | import_table empresa
37 | import_table cnae_cnpj
38 | import_table socio
39 | import_table holding
40 | import_cnae_tables
41 | execute_sql_files
42 |
--------------------------------------------------------------------------------
/headers/socio.csv:
--------------------------------------------------------------------------------
1 | start_column,name,size,type,description
2 | 1,TIPO DE REGISTRO,1,N,CONTEM O VALOR 2 PARA IDENTIFICAR O REGISTRO DETALHE SOCIOS
3 | 2,INDICADOR-FULL-DIARIO,1,A,"INDICA FORMA DE ENVIO DO ARQUIVO :
4 | F – QUANDO FULL"
5 | 3,TIPO DE ATUALIZACAO,1,A,"NO CASO DE ENVIO FULL, ESTE CAMPO ESTA EM BRANCO."
6 | 4,CNPJ,14,A,CONTEM O NÚMERO DE INSCRIÇÃO NO CNPJ (CADASTRO NACIONAL DA PESSOA JURÍDICA).
7 | 18,IDENTIFICADOR DE SOCIO,1,N,"1 – PESSOA JURÍDICA
8 | 2 – PESSOA FISICA
9 | 3 – ESTRANGEIRO"
10 | 19,NOME SOCIO,150,A,"CORRESPONDE AO NOME SOCIO PESSOA FISICA, RAZÃO SOCIAL E/OU NOME EMPRESARIAL DA PESSOA JURÍDICA E NOME DO SÓCIO/RAZAO SOCIAL DO SOCIO ESTRANGEIRO"
11 | 169,CNPJ/CPF DO SOCIO,14,A,"É PREENCHIDO COM CPF OU CNPJ DO SOCIO, NO CASO DE SÓCIO ESTRANGEIRO É PREENCHIDO COM ‘NOVES’ O ALINHAMENTO PARA CPF É FORMATADO COM ZEROS À ESQUERDA."
12 | 183,CODIGO QUALIFICACAO SOCIO,2,A,CODIGO QUALIFICACAO SOCIO
13 | 185,PERCENTUAL CAPITAL SOCIAL,5,N,PERCENTUAL CAPITAL SOCIAL
14 | 190,DATA ENTRADA SOCIEDADE,8,N,DATA DE ENTRADA NA SOCIEDADE
15 | 198,CODIGO PAIS,3,A,CODIGO PAIS DO SOCIO ESTRANGEIRO
16 | 201,NOME PAIS,70,A,CORRESPONDE AO NOME DO PAIS DO SÓCIO
17 | 271,CPF REPRESENTANTE LEGAL,11,A,CORRESPONDE AO NÚMERO DO CPF DO REPRESENTANTE LEGAL
18 | 282,NOME REPRESENTANTE LEGAL,60,A,CORRESPONDE AO NOME DO REPRESENTANTE LEGAL
19 | 342,CODIGO QUALIFICACAO REPRESENTANTE LEGAL,2,A,CORRESPONDE AO CÓDIGO DA QUALIFICACAO DO REPRESENTANTE LEGAL
20 | 344,FILLER,855,A,BRANCOS
21 | 1199,CAMPO DESCONHECIDO,1,A,Essa parte do registro não veio especificada pela Receita Federal
22 | 1200,FIM,1,A,PREENCHIDO COM ‘F’ INDICANDO FINAL DE REGISTRO.
23 |
--------------------------------------------------------------------------------
/sql/03-create-indexes.sql:
--------------------------------------------------------------------------------
1 | CREATE INDEX IF NOT EXISTS idx_socio_cnpj ON socio (cnpj);
2 | CREATE INDEX IF NOT EXISTS idx_socio_documento_socio ON socio (cnpj_cpf_do_socio, cnpj);
3 | CREATE INDEX IF NOT EXISTS idx_holding_cnpjs ON holding (cnpj, holding_cnpj);
4 | CREATE INDEX IF NOT EXISTS idx_cnae_cnpj_cnpj ON cnae_cnpj (cnpj);
5 | CREATE INDEX IF NOT EXISTS idx_cnae_cnpj_cnae ON cnae_cnpj (cnae, primaria);
6 | CREATE INDEX IF NOT EXISTS idx_cnae_id ON cnae (id);
7 |
8 | CREATE INDEX IF NOT EXISTS idx_empresa_cnae_fiscal ON empresa (cnae_fiscal);
9 | CREATE INDEX IF NOT EXISTS idx_empresa_location ON empresa (uf, municipio, bairro);
10 | CREATE INDEX IF NOT EXISTS idx_empresa_mei_simples ON empresa (opcao_pelo_mei, opcao_pelo_simples);
11 | CREATE INDEX IF NOT EXISTS idx_empresa_situacao_cadastral ON empresa (situacao_cadastral);
12 |
13 | CREATE EXTENSION IF NOT EXISTS pg_trgm; -- PostgreSQL-only
14 | CREATE INDEX CONCURRENTLY IF NOT EXISTS idx_trgm_socio_nome_socio ON socio USING gin (nome_socio gin_trgm_ops);
15 | CREATE INDEX CONCURRENTLY IF NOT EXISTS idx_trgm_empresa_razao_social ON empresa USING gin (razao_social gin_trgm_ops);
16 | CREATE INDEX CONCURRENTLY IF NOT EXISTS idx_trgm_empresa_nome_fantasia ON empresa USING gin (nome_fantasia gin_trgm_ops);
17 | CREATE INDEX CONCURRENTLY IF NOT EXISTS idx_trgm_cnae_descricao ON cnae USING gin (descricao_subclasse gin_trgm_ops);
18 | CREATE INDEX CONCURRENTLY IF NOT EXISTS idx_trgm_empresa_uf ON empresa USING gin (uf gin_trgm_ops);
19 | CREATE INDEX CONCURRENTLY IF NOT EXISTS idx_trgm_empresa_municipio ON empresa USING gin (municipio gin_trgm_ops);
20 | CREATE INDEX CONCURRENTLY IF NOT EXISTS idx_trgm_empresa_bairro ON empresa USING gin (bairro gin_trgm_ops);
21 |
--------------------------------------------------------------------------------
/run.sh:
--------------------------------------------------------------------------------
1 | #!/bin/bash
2 |
3 | set -e
4 |
5 | DOWNLOAD_PATH=data/download
6 | OUTPUT_PATH=data/output
7 | mkdir -p $DOWNLOAD_PATH $OUTPUT_PATH
8 |
9 | if [ "$1" = "--use-mirror" ]; then
10 | USE_MIRROR=true
11 | else
12 | USE_MIRROR=false
13 | fi
14 |
15 | function download_data() {
16 | CONNECTIONS=4
17 | DOWNLOAD_URL="https://receita.economia.gov.br/orientacao/tributaria/cadastros/cadastro-nacional-de-pessoas-juridicas-cnpj/dados-publicos-cnpj"
18 | FILE_URLS=$(wget --quiet --no-check-certificate -O - "$DOWNLOAD_URL" \
19 | | grep --color=no DADOS_ABERTOS_CNPJ \
20 | | grep --color=no ".zip" \
21 | | sed 's/.*"http:/http:/; s/".*//' \
22 | | sort)
23 | MIRROR_URL="https://data.brasil.io/mirror/socios-brasil"
24 |
25 | for url in $FILE_URLS; do
26 | if $USE_MIRROR; then
27 | url="$MIRROR_URL/$(basename $url)"
28 | fi
29 | time aria2c \
30 | --auto-file-renaming=false \
31 | --continue=true \
32 | -s $CONNECTIONS \
33 | -x $CONNECTIONS \
34 | --dir="$DOWNLOAD_PATH" \
35 | "$url"
36 | done
37 | }
38 |
39 | function extract_data() {
40 | time python extract_dump.py $OUTPUT_PATH $DOWNLOAD_PATH/DADOS_ABERTOS_CNPJ*.zip
41 | time python extract_cnae_cnpj.py $OUTPUT_PATH/{empresa,cnae_secundaria,cnae_cnpj}.csv.gz
42 | }
43 |
44 | function extract_holding() {
45 | time python extract_holding.py $OUTPUT_PATH/{socio,empresa,holding}.csv.gz
46 | }
47 |
48 | function extract_cnae() {
49 | for versao in "1.0" "1.1" "2.0" "2.1" "2.2" "2.3"; do
50 | filename="$OUTPUT_PATH/cnae_$versao.csv"
51 | rm -rf "$filename"
52 | time scrapy runspider \
53 | -s RETRY_HTTP_CODES="500,503,504,400,404,408" \
54 | -s HTTPCACHE_ENABLED=true \
55 | --loglevel=INFO \
56 | -a versao="$versao" \
57 | -o "$filename" \
58 | cnae.py
59 | gzip "$filename"
60 | done
61 | }
62 |
63 | download_data
64 | extract_data
65 | extract_holding
66 | extract_cnae
67 |
--------------------------------------------------------------------------------
/natureza_juridica.py:
--------------------------------------------------------------------------------
1 | import csv
2 | import io
3 | from itertools import chain
4 |
5 | import requests
6 | import rows
7 |
8 |
9 | def clear_text(text):
10 | if text is None:
11 | return text
12 | text = text.replace("\t", " ").replace("\n", " ")
13 | while " " in text:
14 | text = text.replace(" ", " ")
15 | return text
16 |
17 |
18 | def extract_data():
19 | url = "https://www.receita.fazenda.gov.br/pessoajuridica/cnpj/tabelas/natjurqualificaresponsavel.htm"
20 | response = requests.get(url, verify=False)
21 | table_1 = rows.import_from_html(
22 | io.BytesIO(response.content), encoding=response.encoding, index=0, ignore_colspan=False
23 | )
24 | table_2 = rows.import_from_html(
25 | io.BytesIO(response.content), encoding=response.encoding, index=1, ignore_colspan=False
26 | )
27 |
28 | categoria, codigo_categoria = None, None
29 | for row in chain(table_1, table_2):
30 | row = {key: clear_text(value) for key, value in row._asdict().items()}
31 |
32 | codigo = row["codigo"]
33 | if ". " in codigo:
34 | categoria = codigo.title()
35 | split_index = categoria.find(". ")
36 | codigo_categoria, categoria = categoria[:split_index], categoria[split_index + 2 :]
37 | continue
38 | else:
39 | row["codigo"] = int(codigo.replace("-", ""))
40 | row["categoria"] = categoria
41 | row["codigo_categoria"] = codigo_categoria
42 | row["qualificacao"] = [item.strip() for item in row["qualificacao"].replace(" ou ", ", ").split(",")]
43 |
44 | yield row
45 |
46 |
47 | if __name__ == "__main__":
48 | filename = "data/natureza-juridica.csv"
49 |
50 | writer = None
51 | with open(filename, mode="w") as fobj:
52 | for row in extract_data():
53 | row["qualificacao"] = "|".join(row["qualificacao"])
54 | if writer is None:
55 | writer = csv.DictWriter(fobj, fieldnames=list(row.keys()))
56 | writer.writeheader()
57 | writer.writerow(row)
58 |
--------------------------------------------------------------------------------
/extract_holding.py:
--------------------------------------------------------------------------------
1 | from argparse import ArgumentParser
2 | from csv import DictReader
3 | from pathlib import Path
4 |
5 | import rows
6 | from rows.utils import CsvLazyDictWriter, open_compressed
7 | from tqdm import tqdm
8 |
9 | QUALIFICACAO_SOCIO = {row.codigo: row.descricao for row in rows.import_from_csv("qualificacao-socio.csv")}
10 |
11 |
12 | def convert_socio(row):
13 | codigo_qualificacao = int(row["codigo_qualificacao_socio"])
14 | return {
15 | "holding_cnpj": row["cnpj_cpf_do_socio"],
16 | "holding_razao_social": row["nome_socio"],
17 | "cnpj": row["cnpj"],
18 | "razao_social": "",
19 | "codigo_qualificacao_socia": codigo_qualificacao,
20 | "qualificacao_socia": QUALIFICACAO_SOCIO.get(codigo_qualificacao, None),
21 | }
22 |
23 |
24 | def convert_empresa(row):
25 | return {
26 | "cnpj": row["cnpj"],
27 | "razao_social": row["razao_social"],
28 | }
29 |
30 |
31 | def filter_csv(input_filename, filter_function, convert_function, progress=True):
32 | fobj_reader = open_compressed(input_filename, mode="r")
33 | csv_reader = DictReader(fobj_reader)
34 | if progress:
35 | csv_reader = tqdm(csv_reader, desc=f"Reading {Path(input_filename).name}")
36 | for row in csv_reader:
37 | if filter_function(row):
38 | yield convert_function(row)
39 | fobj_reader.close()
40 |
41 |
42 | def main():
43 | parser = ArgumentParser()
44 | parser.add_argument("socio_filename")
45 | parser.add_argument("empresa_filename")
46 | parser.add_argument("output_filename")
47 | args = parser.parse_args()
48 |
49 | holdings_it = filter_csv(
50 | args.socio_filename,
51 | lambda row: row["identificador_de_socio"] == "1",
52 | convert_function=convert_socio,
53 | progress=True,
54 | )
55 | holdings = {row["cnpj"]: row for row in holdings_it}
56 |
57 | cnpjs = set(holdings.keys())
58 | company_names_it = filter_csv(
59 | args.empresa_filename, lambda row: row["cnpj"] in cnpjs, convert_function=convert_empresa, progress=True,
60 | )
61 | company_names = {row["cnpj"]: row["razao_social"] for row in company_names_it}
62 |
63 | fobj_writer = open_compressed(args.output_filename, mode="w")
64 | csv_writer = CsvLazyDictWriter(fobj_writer)
65 | for holding in tqdm(holdings.values(), desc="Writting output file"):
66 | holding["razao_social"] = company_names.get(holding["cnpj"], "")
67 | csv_writer.writerow(holding)
68 | fobj_writer.close()
69 |
70 |
71 | if __name__ == "__main__":
72 | main()
73 |
--------------------------------------------------------------------------------
/qualificacao-socio.csv:
--------------------------------------------------------------------------------
1 | codigo,descricao,coletado_atualmente
2 | 1,Acionista,Não
3 | 2,Acionista Controlador,Não
4 | 3,Acionista Diretor,Não
5 | 4,Acionista Presidente,Não
6 | 5,Administrador,Sim
7 | 6,Administradora de consórcio de Empresas ou Grupo de Empresas,Não
8 | 7,Comissário,Não
9 | 8,Conselheiro de Administração,Sim
10 | 9,Curador,Sim
11 | 10,Diretor,Sim
12 | 11,Interventor,Sim
13 | 12,Inventariante,Sim
14 | 13,Liquidante,Sim
15 | 14,Mãe,Sim
16 | 15,Pai,Sim
17 | 16,Presidente,Sim
18 | 17,Procurador,Sim
19 | 18,Secretário,Sim
20 | 19,Síndico (Condomínio),Sim
21 | 20,Sociedade Consorciada,Sim
22 | 21,Sociedade Filiada,Sim
23 | 22,Sócio,Sim
24 | 23,Sócio Capitalista,Sim
25 | 24,Sócio Comanditado,Sim
26 | 25,Sócio Comanditário,Sim
27 | 26,Sócio de Indústria,Sim
28 | 27,Sócio Residente ou Domiciliado no Exterior,Não
29 | 28,Sócio-Gerente,Sim
30 | 29,Sócio ou Acionista Incapaz ou Relativamente Incapaz (exceto menor),Sim
31 | 30,Sócio ou Acionista Menor (Assistido/Representado),Sim
32 | 31,Sócio Ostensivo,Sim
33 | 32,Tabelião,Sim
34 | 33,Tesoureiro,Sim
35 | 34,Titular de Empresa Individual Imobiliária,Sim
36 | 35,Tutor,Sim
37 | 36,Gerente-Delegado,Não
38 | 37,Sócio Pessoa Jurídica Domiciliado no Exterior,Sim
39 | 38,Sócio Pessoa Física Residente ou Domiciliado no Exterior,Sim
40 | 39,Diplomata,Sim
41 | 40,Cônsul,Sim
42 | 41,Representante de Organização Internacional,Sim
43 | 42,Oficial de Registro,Sim
44 | 43,Responsável,Sim
45 | 44,Sócio Participante,Não
46 | 45,Sócio Investidor,Não
47 | 46,Ministro de Estado das Relações Exteriores,Sim
48 | 47,Sócio Pessoa Física Residente no Brasil,Sim
49 | 48,Sócio Pessoa Jurídica Domiciliado no Brasil,Sim
50 | 49,Sócio-Administrador,Sim
51 | 50,Empresário,Sim
52 | 51,Candidato a Cargo Político Eletivo,Sim
53 | 52,Sócio com Capital,Sim
54 | 53,Sócio sem Capital,Sim
55 | 54,Fundador,Sim
56 | 55,Sócio Comanditado Residente no Exterior,Sim
57 | 56,Sócio Comanditário Pessoa Física Residente no Exterior,Sim
58 | 57,Sócio Comanditário Pessoa Jurídica Domiciliado no Exterior,Sim
59 | 58,Sócio Comanditário Incapaz,Sim
60 | 59,Produtor Rural,Sim
61 | 60,Cônsul Honorário,Sim
62 | 61,Responsável Indigena,Sim
63 | 62,Representante das Instituições Extraterritoriais,Sim
64 | 63,Cotas em Tesouraria,Sim
65 | 64,Administrador Judicial,Sim
66 | 65,Titular Pessoa Física Residente ou Domiciliado no Brasil,Sim
67 | 66,Titular Pessoa Física Residente ou Domiciliado no Exterior,Sim
68 | 67,Titular Pessoa Física Incapaz ou Relativamente Incapaz (exceto menor),Sim
69 | 68,Titular Pessoa Física Menor (Assistido/Representado),Sim
70 | 69,Beneficiário Final,Não
71 | 70,Administrador Residente ou Domiciliado no Exterior,Sim
72 | 71,Conselheiro de Administração Residente ou Domiciliado no Exterior,Sim
73 | 72,Diretor Residente ou Domiciliado no Exterior,Sim
74 | 73,Presidente Residente ou Domiciliado no Exterior,Sim
75 | 74,Sócio-Administrador Residente ou Domiciliado no Exterior,Sim
76 | 75,Fundador Residente ou Domiciliado no Exterior,Sim
77 | 76,Protetor,Sim
78 | 77,Vice-Presidente,Sim
79 | 78,Titular Pessoa Jurídica Domiciliada no Brasil,Sim
80 | 79,Titular Pessoa Jurídica Domiciliada no Exterior,Sim
81 |
--------------------------------------------------------------------------------
/headers/empresa.csv:
--------------------------------------------------------------------------------
1 | start_column,name,size,type,description
2 | 1,TIPO DE REGISTRO,1,N,CONTEM O VALOR 1 PARA IDENTIFICAR O REGISTRO
3 | 2,INDICADOR-FULL-DIARIO,1,A,"INDICA FORMA DE ENVIO DO ARQUIVO:
4 | F – QUANDO FULL"
5 | 3,TIPO DE ATUALIZACAO,1,A,NO CASO DE ENVIO FULL ESTE CAMPO ESTA EM BRANCO.
6 | 4,CNPJ,14,A,CONTEM O NÚMERO DE INSCRIÇÃO NO CNPJ (CADASTRO NACIONAL DA PESSOA JURÍDICA).
7 | 18,IDENTIFICADOR MATRIZ/FILIAL,1,N,"1: MATRIZ
8 | 2: FILIAL"
9 | 19,RAZAO SOCIAL,150,A,CORRESPONDE AO NOME EMPRESARIAL DA PESSOA JURÍDICA
10 | 169,NOME FANTASIA,55,A,CORRESPONDE AO NOME FANTASIA
11 | 224,SITUACAO CADASTRAL,2,N,"2 DIGITOS CÓDIGO DA SITUAÇÃO CADASTRAL
12 | 01: NULA
13 | 02: ATIVA
14 | 03: SUSPENSA
15 | 04: INAPTA
16 | 08: BAIXADA"
17 | 226,DATA SITUACAO CADASTRAL,8,N,DATA DO EVENTO DA SITUACAO CADASTRAL
18 | 234,MOTIVO SITUACAO CADASTRAL,2,N,CÓDIGO DO MOTIVO DA SITUAÇÃO CADASTRAL
19 | 236,NOME CIDADE EXTERIOR,55,A,NOME DA CIDADE NO EXTERIOR
20 | 291,CODIGO PAIS,3,A,CODIGO DO PAIS
21 | 294,NOME PAIS,70,A,NOME DO PAIS
22 | 364,CODIGO NATUREZA JURIDICA,4,N,CÓDIGO DA NATUREZA JURÍDICA
23 | 368,DATA INICIO ATIVIDADE,8,N,DATA DE INICIO DA ATIVIDADE
24 | 376,CNAE-FISCAL,7,N,INDICA O CÓDIGO DA ATIVIDADE ECONÔMICA PRINCIPAL DO ESTABELECIMENTO
25 | 383,DESCRICAO TIPO LOGRADOURO,20,A,CORRESPONDE A DESCRIÇÃO DO LOGRADOURO
26 | 403,LOGRADOURO,60,A,CORRESPONDE AO NOME DO LOGRADOURO ONDE SE LOCALIZA O ESTABELECIMENTO.
27 | 463,NUMERO,6,A,"CORRESPONDE AO NÚMERO ONDE SE LOCALIZA O ESTABELECIMENTO, QUANDO NÃO HOUVER PREENCHIMENTO DO NÚMERO HAVERÁ ‘S/N’."
28 | 469,COMPLEMENTO,156,A,CORRESPONDE AO COMPLEMENTO PARA O ENDEREÇO DE LOCALIZAÇÃO DO ESTABELECIMENTO
29 | 625,BAIRRO,50,A,CORRESPONDE AO BAIRRO ONDE SE LOCALIZA O ESTABELECIMENTO.
30 | 675,CEP,8,N,CÓDIGO DE ENDEREÇAMENTO POSTAL REFERENTE AO LOGRADOURO NO QUAL O ESTABELECIMENTO ESTA LOCALIZADO
31 | 683,UF,2,A,CORRESPONDE A SIGLA DA UNIDADE DA FEDERAÇÃO EM QUE SE ENCONTRA O ESTABELECIMENTO
32 | 685,CODIGO MUNICIPIO,4,N,CORRESPONDE AO CODIGO DO MUNICIPIO DE JURISDIÇÃO ONDE SE ENCONTRA O ESTABELECIMENTO
33 | 689,MUNICIPIO,50,A,CORRESPONDE AO MUNICIPIO DE JURISDIÇÃO ONDE SE ENCONTRA O ESTABELECIMENTO
34 | 739,DDD-TELEFONE-1,12,A,"DDD-1: tamanho 4, TELEFONE-1: tamanho 8"
35 | 751,DDD-TELEFONE-2,12,A,"DDD-2: tamanho 4, TELEFONE-2: tamanho 8"
36 | 763,DDD-FAX,12,A,"DDD-FAX: tamanho 4, TELEFONE-FAX: tamanho 8"
37 | 775,CORREIO ELETRONICO,115,A,E-MAIL DO CONTRIBUINTE
38 | 890,QUALIFICACAO DO RESPONSAVEL,2,N,QUALIFICAÇÃO DA PESSOA FÍSICA RESPONSÁVEL PELA EMPRESA
39 | 892,CAPITAL SOCIAL,14,N,CAPITAL SOCIAL DA EMPRESA
40 | 906,PORTE,2,A,"CÓDIGO DO PORTE DA EMPRESA
41 | 00: NAO INFORMADO
42 | 01: MICRO EMPRESA
43 | 03: EMPRESA DE PEQUENO PORTE
44 | 05: DEMAIS"
45 | 908,OPCAO PELO SIMPLES,1,A,"INDICADOR DA EXISTÊNCIA DA OPÇÃO PELO SIMPLES.
46 | 0 OU BRANCO: NÃO OPTANTE
47 | 5 E 7: OPTANTE PELO SIMPLES
48 | 6 E 8: EXCLUÍDO DO SIMPLES"
49 | 909,DATA OPCAO PELO SIMPLES,8,N,DATA DE OPÇÃO PELO SIMPLES
50 | 917,DATA EXCLUSAO DO SIMPLES,8,N,DATA DE EXCLUSÃO DO SIMPLES
51 | 925,OPCAO PELO MEI,1,A,"INDICADOR DA EXISTÊNCIA DA OPÇÃO PELO MEI
52 | S: SIM
53 | N: NÃO"
54 | 926,SITUACAO ESPECIAL,23,A,SITUACAO ESPECIAL DA EMPRESA
55 | 949,DATA SITUACAO ESPECIAL,8,N,DATA EM QUE A EMPRESA ENTROU EM SITUACAO ESPECIAL (AAAAMMDD)
56 | 957,FILLER,243,A,BRANCOS
57 | 1200,FIM,1,A,CONTEÚDO 'F' - INDICA FINAL DE REGISTRO
58 |
--------------------------------------------------------------------------------
/historia-do-dataset.md:
--------------------------------------------------------------------------------
1 | # História do dataset socios-brasil
2 |
3 | 1. No fim de 2017 a Receita Federal do Brasil [liberou um dataset com os sócios
4 | das empresas
5 | brasileiras](http://receita.economia.gov.br/orientacao/tributaria/cadastros/cadastro-nacional-de-pessoas-juridicas-cnpj/dados-abertos-do-cnpj);
6 |
7 | 2. No início de 2018 [criei um programa para baixar, corrigir e converter os
8 | dados para CSV](https://github.com/turicas/socios-brasil/);
9 |
10 | 3. No meio de 2018 fiz junto com alguns amigos um pedido de acesso à informação
11 | para termos mais dados, como identificador único dos sócios (CPF) e CNAEs
12 | das empresas - [parte da história foi contada
13 | aqui](https://medium.com/serenata/o-dia-que-a-receita-nos-mandou-pagar-r-500-mil-para-ter-dados-públicos-8e18438f3076).
14 |
15 | 4. Meses (e vários recursos no pedido via LAI) depois, recebemos um pendrive
16 | pelos Correios com os dados e eu criei um outro script (dentro do mesmo
17 | repositório de código no GitHub) para converter os novos dados para CSV - o
18 | formato é parecido, mas diferente, dado que tem informações diferentes; eu
19 | subi os dados originais e convertidos para o Google Drive e compartilhei o
20 | link publicamente, para que todos pudessem acessar os dados sem precisar
21 | fazer o pedido como fizemos (afinal, é dado público). Nota: outras pessoas
22 | também fizeram pedidos similares e receberam o dump.
23 |
24 | 5. Um tempo depois que recebemos o pendrive a [RFB liberou no próprio site os
25 | arquivos](http://receita.economia.gov.br/orientacao/tributaria/cadastros/cadastro-nacional-de-pessoas-juridicas-cnpj/dados-publicos-cnpj),
26 | atualizei então o programa para baixar essa nova versão dos dados do site e
27 | convertê-los.
28 |
29 | 6. Após rodar análises nos dados, percebi que a residência dos sócios está
30 | errada - [veja mais
31 | detalhes](https://gist.github.com/turicas/ad0ab80b8eb3337dafb62fcfd2924ccd)
32 | - e criei um chamado na Ouvidoria do Ministério da Economia alertando sobre
33 | o problema; responderam dizendo que passariam para o setor técnico, mas
34 | depois nunca mais me atualizaram sobre.
35 |
36 | 7. No dia 05 de abril de 2019 tentei baixar o arquivo (que parece ter sido
37 | atualizado) no site deles e a previsão de download era de 4 dias; consegui
38 | baixar em umas 7h porque fiz o download em paralelo de diversos servidores
39 | do [Brasil.IO](https://brasil.io/). Abri um protocolo na ouvidoria com a
40 | reclamação e a resposta não foi muito diferente da resposta do item
41 | anterior. Deixei então os dados originais disponíveis para download no
42 | Brasil.IO (além dos dados convertidos), assim quem quiser acesso ao dado
43 | original poderá baixá-lo de 10 a 100x mais rápido que usando o site da RFB -
44 | [veja mais
45 | detalhes](https://twitter.com/turicas/status/1114185311372873729).
46 |
47 | 8. A partir de então, toda vez que a RFB atualiza os dados em seu site eu faço
48 | o processo de baixar os arquivos originais, deixá-los disponíveis para
49 | download mais rápido no Brasil.IO, converter os dados para CSV e também
50 | disponibilizar os dados já convertidos. Em geral publico no Twitter - [veja
51 | a última conversão que
52 | fiz](https://twitter.com/turicas/status/1197125153047662592). Ainda preciso
53 | adicionar esses detalhes na [página desse dataset no
54 | Brasil.IO](https://brasil.io/dataset/socios-brasil).
55 |
--------------------------------------------------------------------------------
/data/natureza-juridica.csv:
--------------------------------------------------------------------------------
1 | codigo,natureza_juridica,representante_da_entidade,qualificacao,categoria,codigo_categoria
2 | 1015,Órgão Público do Poder Executivo Federal,Administrador,05,Administração Pública,1
3 | 1023,Órgão Público do Poder Executivo Estadual ou do Distrito Federal,Administrador,05,Administração Pública,1
4 | 1031,Órgão Público do Poder Executivo Municipal,Administrador,05,Administração Pública,1
5 | 1040,Órgão Público do Poder Legislativo Federal,Administrador,05,Administração Pública,1
6 | 1058,Órgão Público do Poder Legislativo Estadual ou do Distrito Federal,Administrador,05,Administração Pública,1
7 | 1066,Órgão Público do Poder Legislativo Municipal,Administrador,05,Administração Pública,1
8 | 1074,Órgão Público do Poder Judiciário Federal,Administrador,05,Administração Pública,1
9 | 1082,Órgão Público do Poder Judiciário Estadual,Administrador,05,Administração Pública,1
10 | 1104,Autarquia Federal,Administrador ou Presidente,05|16,Administração Pública,1
11 | 1112,Autarquia Estadual ou do Distrito Federal,Administrador ou Presidente,05|16,Administração Pública,1
12 | 1120,Autarquia Municipal,Administrador ou Presidente,05|16,Administração Pública,1
13 | 1139,Fundação Federal,Presidente,16,Administração Pública,1
14 | 1147,Fundação Estadual ou do Distrito Federal,Presidente,16,Administração Pública,1
15 | 1155,Fundação Municipal,Presidente,16,Administração Pública,1
16 | 1163,Órgão Público Autônomo Federal,Administrador,05,Administração Pública,1
17 | 1171,Órgão Público Autônomo Estadual ou do Distrito Federal,Administrador,05,Administração Pública,1
18 | 1180,Órgão Público Autônomo Municipal,Administrador,05,Administração Pública,1
19 | 1198,Comissão Polinacional,Administrador,05,Administração Pública,1
20 | 1201,Fundo Público,Administrador,05,Administração Pública,1
21 | 1210,Associação Pública,Presidente,16,Administração Pública,1
22 | 2011,Empresa Pública,"Administrador, Diretor ou Presidente",05|10|16,Entidades Empresariais,2
23 | 2038,Sociedade de Economia Mista,Diretor ou Presidente,10|16,Entidades Empresariais,2
24 | 2046,Sociedade Anônima Aberta,"Administrador, Diretor ou Presidente",05|10|16,Entidades Empresariais,2
25 | 2054,Sociedade Anônima Fechada,"Administrador, Diretor ou Presidente",05|10|16,Entidades Empresariais,2
26 | 2062,Sociedade Empresária Limitada,Administrador ou Sócio-Administrador,05|49,Entidades Empresariais,2
27 | 2070,Sociedade Empresária em Nome Coletivo,Sócio-Administrador,49,Entidades Empresariais,2
28 | 2089,Sociedade Empresária em Comandita Simples,Sócio Comanditado,24,Entidades Empresariais,2
29 | 2097,Sociedade Empresária em Comandita por Ações,Diretor ou Presidente,10|16,Entidades Empresariais,2
30 | 2127,Sociedade em Conta de Participação,Procurador ou Sócio Ostensivo,17|31,Entidades Empresariais,2
31 | 2135,Empresário (Individual),Empresário,50,Entidades Empresariais,2
32 | 2143,Cooperativa,Diretor ou Presidente,10|16,Entidades Empresariais,2
33 | 2151,Consórcio de Sociedades,Administrador,05,Entidades Empresariais,2
34 | 2160,Grupo de Sociedades,Administrador,05,Entidades Empresariais,2
35 | 2178,"Estabelecimento, no Brasil, de Sociedade Estrangeira",Procurador,17,Entidades Empresariais,2
36 | 2194,"Estabelecimento, no Brasil, de Empresa Binacional Argentino-Brasileira",Procurador,17,Entidades Empresariais,2
37 | 2216,Empresa Domiciliada no Exterior,Procurador,17,Entidades Empresariais,2
38 | 2224,Clube/Fundo de Investimento,Responsável,43,Entidades Empresariais,2
39 | 2232,Sociedade Simples Pura,Administrador ou Sócio-Administrador,05|49,Entidades Empresariais,2
40 | 2240,Sociedade Simples Limitada,Administrador ou Sócio-Administrador,05|49,Entidades Empresariais,2
41 | 2259,Sociedade Simples em Nome Coletivo,Sócio-Administrador,49,Entidades Empresariais,2
42 | 2267,Sociedade Simples em Comandita Simples,Sócio Comanditado,24,Entidades Empresariais,2
43 | 2275,Empresa Binacional,Diretor,10,Entidades Empresariais,2
44 | 2283,Consórcio de Empregadores,Administrador,05,Entidades Empresariais,2
45 | 2291,Consórcio Simples,Administrador,05,Entidades Empresariais,2
46 | 2305,Empresa Individual de Responsabilidade Limitada (de Natureza Empresária),"Administrador, Procurador ou Titular Pessoa Física Residente ou Domiciliado no Brasil",05|17|65,Entidades Empresariais,2
47 | 2313,Empresa Individual de Responsabilidade Limitada (de Natureza Simples),"Administrador, Procurador ou Titular Pessoa Física Residente ou Domiciliado no Brasil",05|17|65,Entidades Empresariais,2
48 | 3034,Serviço Notarial e Registral (Cartório),Tabelião ou Oficial de Registro,32|42,Entidades Sem Fins Lucrativos,3
49 | 3069,Fundação Privada,"Administrador, Diretor, Presidente ou Fundador",05|10|16|54,Entidades Sem Fins Lucrativos,3
50 | 3077,Serviço Social Autônomo,Administrador,05,Entidades Sem Fins Lucrativos,3
51 | 3085,Condomínio Edilício,Administrador ou Síndico (Condomínio),05|19,Entidades Sem Fins Lucrativos,3
52 | 3107,Comissão de Conciliação Prévia,Administrador,05,Entidades Sem Fins Lucrativos,3
53 | 3115,Entidade de Mediação e Arbitragem,Administrador,05,Entidades Sem Fins Lucrativos,3
54 | 3123,Partido Político,Administrador ou Presidente,05|16,Entidades Sem Fins Lucrativos,3
55 | 3131,Entidade Sindical,Administrador ou Presidente,05|16,Entidades Sem Fins Lucrativos,3
56 | 3204,"Estabelecimento, no Brasil, de Fundação ou Associação Estrangeiras",Procurador,17,Entidades Sem Fins Lucrativos,3
57 | 3212,Fundação ou Associação domiciliada no exterior,Procurador,17,Entidades Sem Fins Lucrativos,3
58 | 3220,Organização Religiosa,"Administrador, Diretor ou Presidente",05|10|16,Entidades Sem Fins Lucrativos,3
59 | 3239,Comunidade Indígena,Responsável Indígena,61,Entidades Sem Fins Lucrativos,3
60 | 3247,Fundo Privado,Administrador,05,Entidades Sem Fins Lucrativos,3
61 | 3999,Associação Privada,"Administrador, Diretor ou Presidente",05|10|16,Entidades Sem Fins Lucrativos,3
62 | 4014,Empresa Individual Imobiliária,Titular,34,Pessoas Físicas,4
63 | 4081,Contribuinte Individual,Produtor Rural,59,Pessoas Físicas,4
64 | 4090,Candidato a Cargo Político Eletivo,Candidato a Cargo Político Eletivo,51,Pessoas Físicas,4
65 | 5010,Organização Internacional,Representante de Organização Internacional,41,Instituições Extraterritoriais,5
66 | 5029,Representação Diplomática Estrangeira,"Diplomata, Cônsul, Ministro de Estado das Relações Exteriores ou Cônsul Honorário",39|40|46|60,Instituições Extraterritoriais,5
67 | 5037,Outras Instituições Extraterritoriais,Representante da Instituição Extraterritorial,62,Instituições Extraterritoriais,5
68 |
--------------------------------------------------------------------------------
/cnae.py:
--------------------------------------------------------------------------------
1 | from urllib.parse import urljoin
2 |
3 | import scrapy
4 | from lxml.html import document_fromstring
5 |
6 |
7 | def get_text(lines):
8 | """Return text from "text()" XPath result as a string, removing whitespaces
9 |
10 | >>> get_text(["\\t", " teste ", "\\n", "123 "])
11 | 'teste 123'
12 | """
13 |
14 | return " ".join([line.strip() for line in lines if line.strip()])
15 |
16 |
17 | class CNAESpider(scrapy.Spider):
18 | name = "cnae"
19 | versoes = {
20 | "1.0": "https://cnae.ibge.gov.br/?option=com_cnae&view=estrutura&Itemid=6160&tipo=cnae&versao_classe=1.0.1&versao_subclasse=2.1.1",
21 | "1.1": "https://cnae.ibge.gov.br/?option=com_cnae&view=estrutura&Itemid=6160&tipo=cnae&versao_classe=3.0.1&versao_subclasse=4.1.1",
22 | "2.0": "https://cnae.ibge.gov.br/?option=com_cnae&view=estrutura&Itemid=6160&tipo=cnae&versao_classe=5.0.1&versao_subclasse=6.1.1",
23 | "2.1": "https://cnae.ibge.gov.br/?option=com_cnae&view=estrutura&Itemid=6160&tipo=cnae&versao_classe=7.0.0&versao_subclasse=8.1.1",
24 | "2.2": "https://cnae.ibge.gov.br/?option=com_cnae&view=estrutura&Itemid=6160&tipo=cnae&versao_classe=7.0.0&versao_subclasse=9.1.1",
25 | "2.3": "https://cnae.ibge.gov.br/?option=com_cnae&view=estrutura&Itemid=6160&tipo=cnae&versao_classe=7.0.0&versao_subclasse=10.1.0",
26 | }
27 | parsers = {
28 | "root": {
29 | "xpath_items": "//table[@id = 'tbEstrutura']/tbody/tr",
30 | "xpath_id": ".//td[1]/a/text()",
31 | "xpath_description": ".//td[3]/text()",
32 | "xpath_url": ".//td[1]/a/@href",
33 | "next": "secao",
34 | },
35 | "secao": {
36 | "id_length": 1,
37 | "xpath_items": "//table[@class = 'tabela-hierarquia']//td[a[contains(@href, 'divisao=')]]",
38 | "xpath_id": ".//a/text()",
39 | "xpath_description": ".//text()",
40 | "xpath_url": ".//a/@href",
41 | "next": "divisao",
42 | },
43 | "divisao": {
44 | "id_length": 2,
45 | "xpath_items": "//table[@class = 'tabela-hierarquia']//td[a[contains(@href, 'grupo=')]]",
46 | "xpath_id": ".//a/text()",
47 | "xpath_description": ".//text()",
48 | "xpath_url": ".//a/@href",
49 | "next": "grupo",
50 | },
51 | "grupo": {
52 | "id_length": 4,
53 | "xpath_items": "//table[@class = 'tabela-hierarquia']//td[a[contains(@href, 'classe=')]]",
54 | "xpath_id": ".//a/text()",
55 | "xpath_description": ".//text()",
56 | "xpath_url": ".//a/@href",
57 | "next": "classe",
58 | },
59 | "classe": {
60 | "id_length": 7,
61 | "xpath_items": "//table[@class = 'tabela-hierarquia']//td[a[contains(@href, 'subclasse=')]]",
62 | "xpath_id": ".//a/text()",
63 | "xpath_description": ".//text()",
64 | "xpath_url": ".//a/@href",
65 | "next": "subclasse",
66 | },
67 | }
68 |
69 | def __init__(self, versao=None, *args, **kwargs):
70 | super().__init__(*args, **kwargs)
71 | if not versao:
72 | raise ValueError("O parâmetro 'versao' é obrigatório")
73 | self.versao = versao
74 |
75 | def start_requests(self):
76 | return [scrapy.Request(url=self.versoes[self.versao], callback=self.parse)]
77 |
78 | def parse(self, response):
79 | yield {
80 | "id_subclasse": "8888-8/88",
81 | "descricao_subclasse": "Não identificada",
82 | "id_classe": "88.88-8",
83 | "descricao_classe": "Não identificada",
84 | "id_grupo": "88.8",
85 | "descricao_grupo": "Não identificado",
86 | "id_divisao": "88",
87 | "descricao_divisao": "Não identificada",
88 | "id_secao": "8",
89 | "descricao_secao": "Não identificada",
90 | "notas_explicativas": "",
91 | "url": "",
92 | "id": 8888888,
93 | "versao": self.versao,
94 | }
95 | yield from self.parse_items(response, root_name="root")
96 |
97 | def parse_items(self, response, root_name=None):
98 | """Recursively get data/make requests for all parser hierarchical levels"""
99 |
100 | data = response.request.meta.get("data", {})
101 | root_name = root_name or response.request.meta["root_name"]
102 | metadata = self.parsers[root_name]
103 | xpath_id = metadata["xpath_id"]
104 | xpath_description = metadata["xpath_description"]
105 | xpath_url = metadata["xpath_url"]
106 | item_name = metadata["next"]
107 | for item in response.xpath(metadata["xpath_items"]):
108 | tree = document_fromstring(item.extract())
109 | url = urljoin("https://cnae.ibge.gov.br/", tree.xpath(xpath_url)[0])
110 | item_id = get_text(tree.xpath(xpath_id))
111 | item_description = get_text(tree.xpath(xpath_description))
112 | item_data = {}
113 | if item_name == "subclasse" or len(item_id) == self.parsers[item_name]["id_length"]:
114 | next_root_name = item_name
115 | else:
116 | descricao = response.xpath("//span[@class = 'destaque']//text()").extract()[0]
117 | item_data[f"id_{item_name}"] = descricao.split()[0]
118 | item_data[f"descricao_{item_name}"] = descricao
119 | next_root_name = self.parsers[item_name]["next"]
120 | item_data.update(
121 | {f"id_{next_root_name}": item_id.strip(), f"descricao_{next_root_name}": item_description.strip(),}
122 | )
123 | item_data.update(data)
124 |
125 | callback = self.parse_items if next_root_name != "subclasse" else self.parse_subclasse
126 | yield scrapy.Request(
127 | url=url, meta={"data": item_data, "root_name": next_root_name}, callback=callback,
128 | )
129 |
130 | def parse_subclasse(self, response):
131 | """Yield the subclass item (last mile of the recursive strategy)"""
132 | data = response.request.meta["data"]
133 | tree = document_fromstring(response.body)
134 | data["notas_explicativas"] = "\n".join(
135 | [line.strip() for line in tree.xpath('//div[@id = "notas-explicativas"]//text()') if line.strip()]
136 | )
137 | data["url"] = response.request.url
138 | data["id"] = int(data["id_subclasse"].replace("/", "").replace("-", ""))
139 | data["versao"] = self.versao
140 | yield data
141 |
--------------------------------------------------------------------------------
/test_parser.py:
--------------------------------------------------------------------------------
1 | from extract_dump import parse_row, read_header
2 |
3 | headers = {
4 | "1": read_header("headers/empresa.csv"),
5 | "2": read_header("headers/socio.csv"),
6 | "6": read_header("headers/cnae_secundaria.csv"),
7 | }
8 |
9 |
10 | def test_empresa():
11 | data = "1F 000000000001911BANCO DO BRASIL SA DIRECAO GERAL 022005110300 2038196608016422100QUADRA SAUN QUADRA 5 LOTE B TORRES I, II E III SN ANDAR 1 A 16 SALA 101 A 1601 ANDAR 1 A 16 SALA 101 A 1601 ANDAR 1 A 16 SALA 101 A 1601 ASA NORTE 70040912DF9701BRASILIA 61 34939002 61 34931040SECEX@BB.COM.BR 10060000000000000500000000000000000N F\n"
12 | header = headers[data[0]]
13 | result = parse_row(header, data)
14 | expected = {
15 | "bairro": "ASA NORTE",
16 | "capital_social": 6000000000000,
17 | "cep": 70040912,
18 | "cnae_fiscal": 6422100,
19 | "cnpj": "00000000000191",
20 | "codigo_municipio": 9701,
21 | "codigo_natureza_juridica": 2038,
22 | "codigo_pais": "",
23 | "complemento": "ANDAR 1 A 16 SALA 101 A 1601 ANDAR 1 A 16 SALA 101 A 1601 ANDAR 1 A 16 SALA 101 A 1601",
24 | "correio_eletronico": "SECEX@BB.COM.BR",
25 | "data_exclusao_do_simples": "",
26 | "data_inicio_atividade": "1966-08-01",
27 | "data_opcao_pelo_simples": "",
28 | "data_situacao_cadastral": "2005-11-03",
29 | "data_situacao_especial": None,
30 | "ddd_fax": "61 34931040",
31 | "ddd_telefone_1": "61 34939002",
32 | "ddd_telefone_2": "",
33 | "descricao_tipo_logradouro": "QUADRA",
34 | "identificador_matriz_filial": 1,
35 | "logradouro": "SAUN QUADRA 5 LOTE B TORRES I, II E III",
36 | "motivo_situacao_cadastral": 0,
37 | "municipio": "BRASILIA",
38 | "nome_cidade_exterior": "",
39 | "nome_fantasia": "DIRECAO GERAL",
40 | "nome_pais": "",
41 | "numero": "SN",
42 | "opcao_pelo_mei": "N",
43 | "opcao_pelo_simples": "0",
44 | "porte": "05",
45 | "qualificacao_do_responsavel": 10,
46 | "razao_social": "BANCO DO BRASIL SA",
47 | "situacao_cadastral": 2,
48 | "situacao_especial": "",
49 | "uf": "DF",
50 | }
51 | assert result == expected
52 |
53 |
54 | def test_socio():
55 | data = "2F 000000000001912MARCIO HAMILTON FERREIRA 000***923641**100000020101117249ESTADOS UNIDOS ***000000**CPF INVALIDO 00 F\n"
56 | header = headers[data[0]]
57 | result = parse_row(header, data)
58 | expected = {
59 | "campo_desconhecido": "",
60 | "cnpj": "00000000000191",
61 | "cnpj_cpf_do_socio": "000***923641**",
62 | "codigo_pais": "249",
63 | "codigo_qualificacao_representante_legal": "00",
64 | "codigo_qualificacao_socio": "10",
65 | "cpf_representante_legal": "***000000**",
66 | "data_entrada_sociedade": "2010-11-17",
67 | "identificador_de_socio": 2,
68 | "nome_pais_socio": "ESTADOS UNIDOS",
69 | "nome_representante_legal": "CPF INVALIDO",
70 | "nome_socio": "MARCIO HAMILTON FERREIRA",
71 | "percentual_capital_social": 0,
72 | }
73 | assert result == expected
74 |
75 |
76 | def test_cnae_secundaria():
77 | datan"
78 | header = headers[data[0]]
79 | result = parse_row(header, data)
80 | expected = {
81 | "cnae
82 | "cnpj": "00000000000191",
83 | }
84 |
85 | assert result == expected
86 |
--------------------------------------------------------------------------------
/sql/04-create-old-views.sql:
--------------------------------------------------------------------------------
1 | CREATE VIEW view_socios AS
2 | SELECT
3 | s.cnpj AS cnpj,
4 | e.razao_social AS razao_social,
5 | s.cnpj_cpf_do_socio AS cpf_cnpj_socio,
6 | s.nome_socio AS nome_socio,
7 | s.codigo_qualificacao_socio AS codigo_qualificacao_socio,
8 | s.identificador_de_socio AS codigo_tipo_socio,
9 | CASE
10 | WHEN s.identificador_de_socio = 1 THEN 'Pessoa Jurídica'
11 | WHEN s.identificador_de_socio = 2 THEN 'Pessoa Física'
12 | WHEN s.identificador_de_socio = 3 THEN 'Nome Exterior'
13 | ELSE NULL
14 | END AS tipo_socio,
15 | CASE
16 | WHEN s.codigo_qualificacao_socio = 1 THEN 'Acionista'
17 | WHEN s.codigo_qualificacao_socio = 2 THEN 'Acionista Controlador'
18 | WHEN s.codigo_qualificacao_socio = 3 THEN 'Acionista Diretor'
19 | WHEN s.codigo_qualificacao_socio = 4 THEN 'Acionista Presidente'
20 | WHEN s.codigo_qualificacao_socio = 5 THEN 'Administrador'
21 | WHEN s.codigo_qualificacao_socio = 6 THEN 'Administradora de consórcio de Empresas ou Grupo de Empresas'
22 | WHEN s.codigo_qualificacao_socio = 7 THEN 'Comissário'
23 | WHEN s.codigo_qualificacao_socio = 8 THEN 'Conselheiro de Administração'
24 | WHEN s.codigo_qualificacao_socio = 9 THEN 'Curador'
25 | WHEN s.codigo_qualificacao_socio = 10 THEN 'Diretor'
26 | WHEN s.codigo_qualificacao_socio = 11 THEN 'Interventor'
27 | WHEN s.codigo_qualificacao_socio = 12 THEN 'Inventariante'
28 | WHEN s.codigo_qualificacao_socio = 13 THEN 'Liquidante'
29 | WHEN s.codigo_qualificacao_socio = 14 THEN 'Mãe'
30 | WHEN s.codigo_qualificacao_socio = 15 THEN 'Pai'
31 | WHEN s.codigo_qualificacao_socio = 16 THEN 'Presidente'
32 | WHEN s.codigo_qualificacao_socio = 17 THEN 'Procurador'
33 | WHEN s.codigo_qualificacao_socio = 18 THEN 'Secretário'
34 | WHEN s.codigo_qualificacao_socio = 19 THEN 'Síndico (Condomínio)'
35 | WHEN s.codigo_qualificacao_socio = 20 THEN 'Sociedade Consorciada'
36 | WHEN s.codigo_qualificacao_socio = 21 THEN 'Sociedade Filiada'
37 | WHEN s.codigo_qualificacao_socio = 22 THEN 'Sócio'
38 | WHEN s.codigo_qualificacao_socio = 23 THEN 'Sócio Capitalista'
39 | WHEN s.codigo_qualificacao_socio = 24 THEN 'Sócio Comanditado'
40 | WHEN s.codigo_qualificacao_socio = 25 THEN 'Sócio Comanditário'
41 | WHEN s.codigo_qualificacao_socio = 26 THEN 'Sócio de Indústria'
42 | WHEN s.codigo_qualificacao_socio = 27 THEN 'Sócio Residente ou Domiciliado no Exterior'
43 | WHEN s.codigo_qualificacao_socio = 28 THEN 'Sócio-Gerente'
44 | WHEN s.codigo_qualificacao_socio = 29 THEN 'Sócio ou Acionista Incapaz ou Relativamente Incapaz (exceto menor)'
45 | WHEN s.codigo_qualificacao_socio = 30 THEN 'Sócio ou Acionista Menor (Assistido/Representado)'
46 | WHEN s.codigo_qualificacao_socio = 31 THEN 'Sócio Ostensivo'
47 | WHEN s.codigo_qualificacao_socio = 32 THEN 'Tabelião'
48 | WHEN s.codigo_qualificacao_socio = 33 THEN 'Tesoureiro'
49 | WHEN s.codigo_qualificacao_socio = 34 THEN 'Titular de Empresa Individual Imobiliária'
50 | WHEN s.codigo_qualificacao_socio = 35 THEN 'Tutor'
51 | WHEN s.codigo_qualificacao_socio = 36 THEN 'Gerente-Delegado'
52 | WHEN s.codigo_qualificacao_socio = 37 THEN 'Sócio Pessoa Jurídica Domiciliado no Exterior'
53 | WHEN s.codigo_qualificacao_socio = 38 THEN 'Sócio Pessoa Física Residente ou Domiciliado no Exterior'
54 | WHEN s.codigo_qualificacao_socio = 39 THEN 'Diplomata'
55 | WHEN s.codigo_qualificacao_socio = 40 THEN 'Cônsul'
56 | WHEN s.codigo_qualificacao_socio = 41 THEN 'Representante de Organização Internacional'
57 | WHEN s.codigo_qualificacao_socio = 42 THEN 'Oficial de Registro'
58 | WHEN s.codigo_qualificacao_socio = 43 THEN 'Responsável'
59 | WHEN s.codigo_qualificacao_socio = 44 THEN 'Sócio Participante'
60 | WHEN s.codigo_qualificacao_socio = 45 THEN 'Sócio Investidor'
61 | WHEN s.codigo_qualificacao_socio = 46 THEN 'Ministro de Estado das Relações Exteriores'
62 | WHEN s.codigo_qualificacao_socio = 47 THEN 'Sócio Pessoa Física Residente no Brasil'
63 | WHEN s.codigo_qualificacao_socio = 48 THEN 'Sócio Pessoa Jurídica Domiciliado no Brasil'
64 | WHEN s.codigo_qualificacao_socio = 49 THEN 'Sócio-Administrador'
65 | WHEN s.codigo_qualificacao_socio = 50 THEN 'Empresário'
66 | WHEN s.codigo_qualificacao_socio = 51 THEN 'Candidato a Cargo Político Eletivo'
67 | WHEN s.codigo_qualificacao_socio = 52 THEN 'Sócio com Capital'
68 | WHEN s.codigo_qualificacao_socio = 53 THEN 'Sócio sem Capital'
69 | WHEN s.codigo_qualificacao_socio = 54 THEN 'Fundador'
70 | WHEN s.codigo_qualificacao_socio = 55 THEN 'Sócio Comanditado Residente no Exterior'
71 | WHEN s.codigo_qualificacao_socio = 56 THEN 'Sócio Comanditário Pessoa Física Residente no Exterior'
72 | WHEN s.codigo_qualificacao_socio = 57 THEN 'Sócio Comanditário Pessoa Jurídica Domiciliado no Exterior'
73 | WHEN s.codigo_qualificacao_socio = 58 THEN 'Sócio Comanditário Incapaz'
74 | WHEN s.codigo_qualificacao_socio = 59 THEN 'Produtor Rural'
75 | WHEN s.codigo_qualificacao_socio = 60 THEN 'Cônsul Honorário'
76 | WHEN s.codigo_qualificacao_socio = 61 THEN 'Responsável Indigena'
77 | WHEN s.codigo_qualificacao_socio = 62 THEN 'Representante das Instituições Extraterritoriais'
78 | WHEN s.codigo_qualificacao_socio = 63 THEN 'Cotas em Tesouraria'
79 | WHEN s.codigo_qualificacao_socio = 64 THEN 'Administrador Judicial'
80 | WHEN s.codigo_qualificacao_socio = 65 THEN 'Titular Pessoa Física Residente ou Domiciliado no Brasil'
81 | WHEN s.codigo_qualificacao_socio = 66 THEN 'Titular Pessoa Física Residente ou Domiciliado no Exterior'
82 | WHEN s.codigo_qualificacao_socio = 67 THEN 'Titular Pessoa Física Incapaz ou Relativamente Incapaz (exceto menor)'
83 | WHEN s.codigo_qualificacao_socio = 68 THEN 'Titular Pessoa Física Menor (Assistido/Representado)'
84 | WHEN s.codigo_qualificacao_socio = 69 THEN 'Beneficiário Final'
85 | WHEN s.codigo_qualificacao_socio = 70 THEN 'Administrador Residente ou Domiciliado no Exterior'
86 | WHEN s.codigo_qualificacao_socio = 71 THEN 'Conselheiro de Administração Residente ou Domiciliado no Exterior'
87 | WHEN s.codigo_qualificacao_socio = 72 THEN 'Diretor Residente ou Domiciliado no Exterior'
88 | WHEN s.codigo_qualificacao_socio = 73 THEN 'Presidente Residente ou Domiciliado no Exterior'
89 | WHEN s.codigo_qualificacao_socio = 74 THEN 'Sócio-Administrador Residente ou Domiciliado no Exterior'
90 | WHEN s.codigo_qualificacao_socio = 75 THEN 'Fundador Residente ou Domiciliado no Exterior'
91 | WHEN s.codigo_qualificacao_socio = 76 THEN 'Protetor'
92 | WHEN s.codigo_qualificacao_socio = 77 THEN 'Vice-Presidente'
93 | WHEN s.codigo_qualificacao_socio = 78 THEN 'Titular Pessoa Jurídica Domiciliada no Brasil'
94 | WHEN s.codigo_qualificacao_socio = 79 THEN 'Titular Pessoa Jurídica Domiciliada no Exterior'
95 | END AS qualificacao_socio
96 | FROM socio AS s
97 | LEFT JOIN empresa AS e
98 | ON s.cnpj = e.cnpj;
99 |
100 |
101 | CREATE VIEW view_holdings AS
102 | SELECT
103 | h.cnpj AS cnpj,
104 | h.razao_social AS razao_social,
105 | h.holding_cnpj AS cnpj_socia,
106 | h.qualificacao_socia AS qualificacao_socia,
107 | h.holding_razao_social AS razao_social_socia
108 | FROM holding AS h;
109 |
110 |
111 | CREATE VIEW view_empresas AS
112 | SELECT
113 | e.cnpj AS cnpj,
114 | e.razao_social AS razao_social,
115 | e.uf AS uf
116 | FROM empresa AS e;
117 |
--------------------------------------------------------------------------------
/LICENSE:
--------------------------------------------------------------------------------
1 | GNU LESSER GENERAL PUBLIC LICENSE
2 | Version 3, 29 June 2007
3 |
4 | Copyright (C) 2007 Free Software Foundation, Inc.
5 | Everyone is permitted to copy and distribute verbatim copies
6 | of this license document, but changing it is not allowed.
7 |
8 |
9 | This version of the GNU Lesser General Public License incorporates
10 | the terms and conditions of version 3 of the GNU General Public
11 | License, supplemented by the additional permissions listed below.
12 |
13 | 0. Additional Definitions.
14 |
15 | As used herein, "this License" refers to version 3 of the GNU Lesser
16 | General Public License, and the "GNU GPL" refers to version 3 of the GNU
17 | General Public License.
18 |
19 | "The Library" refers to a covered work governed by this License,
20 | other than an Application or a Combined Work as defined below.
21 |
22 | An "Application" is any work that makes use of an interface provided
23 | by the Library, but which is not otherwise based on the Library.
24 | Defining a subclass of a class defined by the Library is deemed a mode
25 | of using an interface provided by the Library.
26 |
27 | A "Combined Work" is a work produced by combining or linking an
28 | Application with the Library. The particular version of the Library
29 | with which the Combined Work was made is also called the "Linked
30 | Version".
31 |
32 | The "Minimal Corresponding Source" for a Combined Work means the
33 | Corresponding Source for the Combined Work, excluding any source code
34 | for portions of the Combined Work that, considered in isolation, are
35 | based on the Application, and not on the Linked Version.
36 |
37 | The "Corresponding Application Code" for a Combined Work means the
38 | object code and/or source code for the Application, including any data
39 | and utility programs needed for reproducing the Combined Work from the
40 | Application, but excluding the System Libraries of the Combined Work.
41 |
42 | 1. Exception to Section 3 of the GNU GPL.
43 |
44 | You may convey a covered work under sections 3 and 4 of this License
45 | without being bound by section 3 of the GNU GPL.
46 |
47 | 2. Conveying Modified Versions.
48 |
49 | If you modify a copy of the Library, and, in your modifications, a
50 | facility refers to a function or data to be supplied by an Application
51 | that uses the facility (other than as an argument passed when the
52 | facility is invoked), then you may convey a copy of the modified
53 | version:
54 |
55 | a) under this License, provided that you make a good faith effort to
56 | ensure that, in the event an Application does not supply the
57 | function or data, the facility still operates, and performs
58 | whatever part of its purpose remains meaningful, or
59 |
60 | b) under the GNU GPL, with none of the additional permissions of
61 | this License applicable to that copy.
62 |
63 | 3. Object Code Incorporating Material from Library Header Files.
64 |
65 | The object code form of an Application may incorporate material from
66 | a header file that is part of the Library. You may convey such object
67 | code under terms of your choice, provided that, if the incorporated
68 | material is not limited to numerical parameters, data structure
69 | layouts and accessors, or small macros, inline functions and templates
70 | (ten or fewer lines in length), you do both of the following:
71 |
72 | a) Give prominent notice with each copy of the object code that the
73 | Library is used in it and that the Library and its use are
74 | covered by this License.
75 |
76 | b) Accompany the object code with a copy of the GNU GPL and this license
77 | document.
78 |
79 | 4. Combined Works.
80 |
81 | You may convey a Combined Work under terms of your choice that,
82 | taken together, effectively do not restrict modification of the
83 | portions of the Library contained in the Combined Work and reverse
84 | engineering for debugging such modifications, if you also do each of
85 | the following:
86 |
87 | a) Give prominent notice with each copy of the Combined Work that
88 | the Library is used in it and that the Library and its use are
89 | covered by this License.
90 |
91 | b) Accompany the Combined Work with a copy of the GNU GPL and this license
92 | document.
93 |
94 | c) For a Combined Work that displays copyright notices during
95 | execution, include the copyright notice for the Library among
96 | these notices, as well as a reference directing the user to the
97 | copies of the GNU GPL and this license document.
98 |
99 | d) Do one of the following:
100 |
101 | 0) Convey the Minimal Corresponding Source under the terms of this
102 | License, and the Corresponding Application Code in a form
103 | suitable for, and under terms that permit, the user to
104 | recombine or relink the Application with a modified version of
105 | the Linked Version to produce a modified Combined Work, in the
106 | manner specified by section 6 of the GNU GPL for conveying
107 | Corresponding Source.
108 |
109 | 1) Use a suitable shared library mechanism for linking with the
110 | Library. A suitable mechanism is one that (a) uses at run time
111 | a copy of the Library already present on the user's computer
112 | system, and (b) will operate properly with a modified version
113 | of the Library that is interface-compatible with the Linked
114 | Version.
115 |
116 | e) Provide Installation Information, but only if you would otherwise
117 | be required to provide such information under section 6 of the
118 | GNU GPL, and only to the extent that such information is
119 | necessary to install and execute a modified version of the
120 | Combined Work produced by recombining or relinking the
121 | Application with a modified version of the Linked Version. (If
122 | you use option 4d0, the Installation Information must accompany
123 | the Minimal Corresponding Source and Corresponding Application
124 | Code. If you use option 4d1, you must provide the Installation
125 | Information in the manner specified by section 6 of the GNU GPL
126 | for conveying Corresponding Source.)
127 |
128 | 5. Combined Libraries.
129 |
130 | You may place library facilities that are a work based on the
131 | Library side by side in a single library together with other library
132 | facilities that are not Applications and are not covered by this
133 | License, and convey such a combined library under terms of your
134 | choice, if you do both of the following:
135 |
136 | a) Accompany the combined library with a copy of the same work based
137 | on the Library, uncombined with any other library facilities,
138 | conveyed under the terms of this License.
139 |
140 | b) Give prominent notice with the combined library that part of it
141 | is a work based on the Library, and explaining where to find the
142 | accompanying uncombined form of the same work.
143 |
144 | 6. Revised Versions of the GNU Lesser General Public License.
145 |
146 | The Free Software Foundation may publish revised and/or new versions
147 | of the GNU Lesser General Public License from time to time. Such new
148 | versions will be similar in spirit to the present version, but may
149 | differ in detail to address new problems or concerns.
150 |
151 | Each version is given a distinguishing version number. If the
152 | Library as you received it specifies that a certain numbered version
153 | of the GNU Lesser General Public License "or any later version"
154 | applies to it, you have the option of following the terms and
155 | conditions either of that published version or of any later version
156 | published by the Free Software Foundation. If the Library as you
157 | received it does not specify a version number of the GNU Lesser
158 | General Public License, you may choose any version of the GNU Lesser
159 | General Public License ever published by the Free Software Foundation.
160 |
161 | If the Library as you received it specifies that a proxy can decide
162 | whether future versions of the GNU Lesser General Public License shall
163 | apply, that proxy's public statement of acceptance of any version is
164 | permanent authorization for you to choose that version for the
165 | Library.
166 |
--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
1 | # Sócios de Empresas Brasileiras
2 |
3 | Script que baixa todos os dados de sócios das empresas brasileiras [disponíveis
4 | no site da Receita
5 | Federal](https://receita.economia.gov.br/orientacao/tributaria/cadastros/cadastro-nacional-de-pessoas-juridicas-cnpj/dados-publicos-cnpj),
6 | extrai, limpa e converte para CSV. Para entender melhor sobre quais dados estão
7 | disponíveis, consulte a [história desse dataset](historia-do-dataset.md).
8 |
9 |
10 | ## Licença
11 |
12 | A licença do código é [LGPL3](https://www.gnu.org/licenses/lgpl-3.0.en.html) e
13 | dos dados convertidos [Creative Commons Attribution
14 | ShareAlike](https://creativecommons.org/licenses/by-sa/4.0/). Caso utilize os
15 | dados, **cite a fonte original e quem tratou os dados**, como: **Fonte: Receita
16 | Federal do Brasil, dados tratados por Álvaro
17 | Justen/[Brasil.IO](https://brasil.io/)**. Caso compartilhe os dados, **utilize
18 | a mesma licença**.
19 |
20 |
21 | ## Dados
22 |
23 | ### Entrada
24 |
25 | Os dados publicados pela Receita Federal do Brasil contemplam as seguintes
26 | tabelas:
27 |
28 | - Cadastro das empresas, incluindo CNPJ, razão social, nome fantasia, endereço,
29 | CNAE fiscal e outros;
30 | - Cadastro de sócios, contendo CNPJ da empresa, documento do sócio, nome do
31 | sócio e outros;
32 | - CNAEs secundários para cada CNPJ.
33 |
34 | Os dados originalmente estão em um formato [fixed-width
35 | file](http://www.softinterface.com/Convert-XLS/Features/Fixed-Width-Text-File-Definition.htm)
36 | e cada linha possui um tipo diferente de registro (empresa, sócio, CNAE
37 | secundária, header ou trailler), que dificulta qualquer tipo de análise, sendo
38 | necessária a conversão para formatos mais amigáveis.
39 |
40 | O campo de qualificação do sócio foi definido com base [na tabela
41 | disponibilizada pela Receita
42 | Federal](http://idg.receita.fazenda.gov.br/orientacao/tributaria/cadastros/cadastro-nacional-de-pessoas-juridicas-cnpj/Qualificacao_socio.pdf)
43 | e está disponível no arquivo
44 | [`qualificacao-socio.csv`](qualificacao-socio.csv). Em breve também teremos
45 | arquivos com os nomes dos CNAEs e situação cadastral ([veja mais detalhes
46 | aqui](https://github.com/turicas/socios-brasil/issues/20)).
47 |
48 |
49 | ### Saída
50 |
51 | Além de extrair os dados do arquivo origingal, o script gera uma nova tabela
52 | contendo as empresas que são sócias de outras empresas (para facilitar buscas
53 | de *holdings*).
54 |
55 | Caso você não queira/possa rodar o script, **[acesse diretamente os dados
56 | convertidos no Brasil.IO](https://brasil.io/dataset/socios-brasil)**.
57 |
58 | Se esse programa e/ou os dados resultantes foram úteis a você ou à sua empresa,
59 | considere [fazer uma doação ao projeto Brasil.IO](https://brasil.io/doe), que é
60 | mantido voluntariamente.
61 |
62 | Como resultado temos os seguintes arquivos:
63 |
64 | - `empresa.csv.gz`: cadastro das empresas;
65 | - `socio.csv.gz`: cadastro dos sócios;
66 | - `cnae-secundaria.csv.gz`: lista de CNAEs secundárias;
67 | - `holding.csv.gz`: cadastro das empresas que são sócias de outras
68 | empresas (é o arquivo `socio.csv.gz` filtrado por sócios do tipo PJ).
69 |
70 | Além disso, os arquivos contidos nas pastas [schema](schema/) e
71 | [schema-full](schema-full/) podem te ajudar a importar os dados para um banco
72 | de dados (veja comandos para [SQLite](#sqlite) e [PostgreSQL](#postgresql)
73 | abaixo).
74 |
75 | > Nota 1: a extensão `.gz` quer dizer que o arquivo foi compactado usando gzip.
76 | > Para descompactá-lo execute o comando `gunzip arquivo.gz` (**não é necessário
77 | > descompactá-los** caso você siga as instruções de importação em
78 | > [SQLite](#sqlite) e [PostgreSQL](#postgresql)).
79 |
80 | > Nota 2: a codificação de caracteres original é ISO-8859-15, mas o script gera
81 | > os arquivos CSV em UTF-8.
82 |
83 | > Nota 3: se você estava usando os dados no formato anterior, veja como
84 | > converter os novos para o padrão antigo no arquivo
85 | > `sql/04-create-old-views.sql`.
86 |
87 |
88 | ### Privacidade
89 |
90 | Para garantir a privacidade, evitar SPAM e publicar apenas dados corretos, o
91 | script deleta/limpa algumas colunas com informações sensíveis ou incorretas.
92 | Essa é a forma padrão de funcionamento para não facilitar a exposição desses
93 | dados. Os dados censurados são:
94 |
95 | - Na tabela `empresa`:
96 | - Deletadas as colunas `codigo_pais` e `nome_pais`, pois os dados contidos
97 | nelas estão incorretos;
98 | - Deletada a coluna `correio_eletronico`, para evitar SPAM;
99 | - Na tabela `socio`:
100 | - Deletadas as colunas `codigo_pais` e `nome_pais`, pois os dados contidos
101 | nelas estão incorretos;
102 | - As colunas `complemento`, `ddd_fax`, `ddd_telefone_1`, `ddd_telefone_2`,
103 | `descricao_tipo_logradouro`, `logradouro`, `numero` terão seus dados
104 | deletados (ficarão em branco) para empresas que são empreendedores
105 | individuais (MEI, EI, EIRELI etc.) e, provavelmente, correspondem aos dados
106 | do sócio (endereço residencial, por exemplo);
107 | - Para os casos de empresas individuais que constarem o CPF na razão social
108 | (como é comum no caso de MEIs), o CPF será deletado.
109 |
110 | Caso queira rodar o script sem o modo censura, altere o script `run.sh` e
111 | adicione a opção `--no_censorship` para o script `extract_dump.py`.
112 |
113 |
114 | ### Dados auxiliares
115 |
116 | - Cadastro Nacional de Atividades Empresariais (CNAE): existe um spider que
117 | baixa os metadados das [atividades empresariais (CNAEs) do site do
118 | IBGE](https://cnae.ibge.gov.br). Veja a função `extract_cnae` no arquivo
119 | `run.sh`, ela baixará os dados para as versões 1.0, 1.1, 2.0, 2.1, 2.2 e 2.3
120 | e salvará em `data/output`. **Nota**: esse script será melhorado/alterado,
121 | veja a [issue #36](https://github.com/turicas/socios-brasil/issues/36).
122 | - Natureza jurídica: o arquivo `data/natureza-juridica.csv` contém o cadsatro
123 | de naturezas jurídicas das empresas (coluna `codigo_natureza_juridica` da
124 | tabela `empresa`). Esse arquivo é gerado pelo script `natureza_juridica.py`,
125 | que baixa os [dados do site da Receita
126 | Federal](https://www.receita.fazenda.gov.br/pessoajuridica/cnpj/tabelas/natjurqualificaresponsavel.htm).
127 |
128 |
129 | ## Rodando
130 |
131 | ### Instalando as Dependências
132 |
133 | Esse script depende de Python 3.7, de algumas bibliotecas e do software
134 | [aria2](https://aria2.github.io/). Depois de instalar o Python 3.7 e o aria2,
135 | instale as bibliotecas executando:
136 |
137 | ```bash
138 | pip install -r requirements.txt
139 | ```
140 |
141 | ### Executando
142 |
143 | Então basta executar o script `run.sh` para baixar os arquivos necessários e
144 | fazer as conversões:
145 |
146 | ```bash
147 | ./run.sh
148 | ```
149 |
150 | Você poderá rodar etapas separadamente também (leia o script [run.sh](run.sh)
151 | para mais detalhes).
152 |
153 | #### Agilizando o Download
154 |
155 | [O servidor da Receita Federal onde os dados estão hospedados é **muito
156 | lento**](https://twitter.com/turicas/status/1114185311372873729) e, por isso, o
157 | [Brasil.IO](https://brasil.io/) disponibiliza um *mirror* de onde o download
158 | pode ser feito mais rapidamente. Para executar o script baixando os dados do
159 | *mirror*, execute:
160 |
161 | ```bash
162 | ./run.sh --use-mirror
163 | ```
164 |
165 | > Nota: os *mirrors* do Brasil.IO ainda estão em fase de testes e não é
166 | > garantido que estejam sempre atualizados.
167 |
168 |
169 | ## Importando em Bancos de Dados
170 |
171 | Depois de executar o script ou baixar os dados já convertidos, o ideal é
172 | importá-los em um banco de dados para facilitar consultas. Com a [interface de
173 | linha de comando da rows](http://turicas.info/rows/cli/) é possível importá-los
174 | rapidamente em bancos SQLite e PostgreSQL.
175 |
176 | > Nota 1: depois de importar os dados em um banco de dados é recomendável a
177 | > criação de índices para agilizar as consultas. Um índice bem comum é na
178 | > coluna `cnpj` (de todas as tabelas), para facilitar encontrar uma determinada
179 | > empresa, seus sócios e CNAEs secundários através do CNPJ. Exemplo:
180 | > `CREATE INDEX IF NOT EXISTS idx_empresa_cnpj ON empresa (cnpj);`. Veja o
181 | > arquivo [sql/create-indexes.sql](sql/create-indexes.sql) para uma lista de
182 | > índices sugeridos; veja também os outros arquivos da pasta `sql/` para
183 | > criação de tabelas auxiliares, chaves primárias e estrangeiras e o arquivo
184 | > `import-postgresql.sh` para automatizar o processo de importação e criação
185 | > dos índices.
186 |
187 | > Nota 2: caso utilize a opção `--no_censorship`, utilize os arquivos da pasta
188 | > `schema-full` em vez da pasta `schema`, pois a versão "sem censura" possui
189 | > mais colunas.
190 |
191 | ### SQLite
192 |
193 | Instale a CLI da rows e a versão de desenvolvimento da biblioteca rodando
194 | (requer Python 3.7+):
195 |
196 | ```bash
197 | pip install rows[cli]
198 | pip install -U https://github.com/turicas/rows/archive/develop.zip
199 | ```
200 |
201 | Agora, com os arquivos na pasta `data/output` basta executar os seguintes
202 | comandos:
203 |
204 | ```bash
205 | DB_NAME="data/output/socios-brasil.sqlite"
206 | rows csv2sqlite --schemas=schema/empresa.csv data/output/empresa.csv.gz "$DB_NAME"
207 | rows csv2sqlite --schemas=schema/holding.csv data/output/holding.csv.gz "$DB_NAME"
208 | rows csv2sqlite --schemas=schema/socio.csv data/output/socio.csv.gz "$DB_NAME"
209 | rows csv2sqlite --schemas=schema/cnae-secundaria.csv data/output/cnae-secundaria.csv.gz "$DB_NAME"
210 | ```
211 |
212 | Pegue um café, aguarde alguns minutos e depois desfrute do banco de dados em
213 | `data/output/socios-brasil.sqlite`. :)
214 |
215 |
216 | ### PostgreSQL
217 |
218 | Instale a CLI da rows, as dependências do PostgreSQL e a versão de
219 | desenvolvimento da biblioteca rodando (requer Python 3.7+):
220 |
221 | ```bash
222 | pip install rows[cli]
223 | pip install rows[postgresql]
224 | pip install -U https://github.com/turicas/rows/archive/develop.zip
225 | ```
226 |
227 | Agora, com os arquivos na pasta `data/output` basta executar os seguintes
228 | comandos (não esqueça de preencher a variável `POSTGRESQL_URI` corretamente):
229 |
230 | ```bash
231 | POSTGRESQL_URI="postgres://:@:/" # PREENCHA!
232 | rows pgimport --schema=schema/empresa.csv data/output/empresa.csv.gz $POSTGRESQL_URI empresa
233 | rows pgimport --schema=schema/socio.csv data/output/empresa-socia.csv.gz $POSTGRESQL_URI empresa_socia
234 | rows pgimport --schema=schema/socio.csv data/output/socio.csv.gz $POSTGRESQL_URI socio
235 | rows pgimport --schema=schema/cnae-secundaria.csv data/output/cnae-secundaria.csv.gz $POSTGRESQL_URI cnae_secundaria
236 | ```
237 |
238 | Pegue um café, aguarde alguns minutos e depois desfrute do banco de dados em
239 | `$POSTGRESQL_URI`. :)
240 |
241 |
242 | ## Outras Implementações
243 |
244 | Em R:
245 |
246 | - [qsacnpj](https://github.com/georgevbsantiago/qsacnpj/)
247 | - [RFBCNPJ](http://curso-r.com/blog/2018/05/13/2018-05-13-rfbcnpj/)
248 |
249 | Em Python:
250 |
251 | - [CNPJ-full](https://github.com/fabioserpa/CNPJ-full)
252 |
--------------------------------------------------------------------------------
/extract_dump.py:
--------------------------------------------------------------------------------
1 | #!/usr/bin/env python3
2 | """
3 | Extrai os dados do dump do QSA da Receita Federal
4 |
5 | Dentro dos arquivos ZIP existe apenas um arquivo do tipo fixed-width file,
6 | contendo registros de diversas tabelas diferentes. O script descompacta sob
7 | demanda o ZIP e, conforme vai lendo os registros contidos, cria os arquivos de
8 | saída, em formato CSV. Você deve especificar o arquivo de entrada e o diretório
9 | onde ficarão os CSVs de saída (que por padrão ficam compactados também, em
10 | gzip, para diminuir o tempo de escrita e economizar espaço em disco).
11 | """
12 |
13 | from argparse import ArgumentParser
14 | from decimal import Decimal
15 | from io import TextIOWrapper
16 | from pathlib import Path
17 | from zipfile import ZipFile
18 |
19 | import rows
20 | from rows.fields import slug
21 | from rows.plugins.utils import ipartition
22 | from rows.utils import CsvLazyDictWriter, open_compressed
23 | from tqdm import tqdm
24 |
25 | # Fields to delete/clean in some cases so we don't expose personal information
26 | FIELDS_TO_DELETE_COMPANY = ("codigo_pais", "correio_eletronico", "nome_pais")
27 | FIELDS_TO_DELETE_PARTNER = ("codigo_pais", "nome_pais")
28 | FIELDS_TO_CLEAR_INDIVIDUAL_COMPANY = (
29 | "complemento",
30 | "ddd_fax",
31 | "ddd_telefone_1",
32 | "ddd_telefone_2",
33 | "descricao_tipo_logradouro",
34 | "logradouro",
35 | "numero",
36 | )
37 | ONE_CENT = Decimal("0.01")
38 | INDIVIDUAL_COMPANIES = tuple(
39 | row.codigo
40 | for row in rows.import_from_csv("data/natureza-juridica.csv")
41 | if "individual" in row.natureza_juridica.lower()
42 | )
43 |
44 |
45 | def clear_company_name(words):
46 | """Remove CPF from company name (useful to remove sensitive data from MEI)
47 |
48 | >>> clear_company_name(['FULANO', 'DE', 'TAL', '12345678901'])
49 | 'FULANO DE TAL'
50 | >>> clear_company_name(['FULANO', 'DE', 'TAL', 'CPF', '12345678901'])
51 | 'FULANO DE TAL'
52 | >>> clear_company_name(['FULANO', 'DE', 'TAL', '-', 'CPF', '12345678901'])
53 | 'FULANO DE TAL'
54 | >>> clear_company_name(['123456'])
55 | '123456'
56 | """
57 | if len(words) == 1 and words[0].isdigit(): # Weird name, but doesn't have a CPF
58 | return words[0]
59 |
60 | last_word = words[-1]
61 | if last_word.isdigit() and len(last_word) == 11: # Remove CPF (numbers)
62 | words.pop()
63 |
64 | if words[-1].upper() == "CPF": # Remove CPF (word)
65 | words.pop()
66 |
67 | if words[-1] == "-":
68 | words.pop()
69 |
70 | return " ".join(words).strip()
71 |
72 |
73 | class ParsingError(ValueError):
74 | def __init__(self, line, error):
75 | super().__init__()
76 | self.line = line
77 | self.error = error
78 |
79 |
80 | def clear_email(email):
81 | """
82 | >>> clear_email('-') is None
83 | True
84 | >>> clear_email('.') is None
85 | True
86 | >>> clear_email('0') is None
87 | True
88 | >>> clear_email('0000000000000000000000000000000000000000') is None
89 | True
90 | >>> clear_email('N/TEM') is None
91 | True
92 | >>> clear_email('NAO POSSUI') is None
93 | True
94 | >>> clear_email('NAO TEM') is None
95 | True
96 | >>> clear_email('NT') is None
97 | True
98 | >>> clear_email('S/N') is None
99 | True
100 | >>> clear_email('XXXXXXXX') is None
101 | True
102 | >>> clear_email('________________________________________') is None
103 | True
104 | >>> clear_email('n/t') is None
105 | True
106 | >>> clear_email('nao tem') is None
107 | True
108 | """
109 |
110 | clean = email.lower().replace("/", "").replace("_", "")
111 | if len(set(clean)) < 3 or clean in ("nao tem", "n tem", "ntem", "nao possui", "nt"):
112 | return None
113 | return email
114 |
115 |
116 | def read_header(filename):
117 | """Read a CSV file which describes a fixed-width file
118 |
119 | The CSV must have the following columns:
120 |
121 | - name (final field name)
122 | - size (fixed size of the field, in bytes)
123 | - start_column (column in the fwf file where the fields starts)
124 | - type ("A" for text, "N" for int)
125 | """
126 |
127 | table = rows.import_from_csv(filename)
128 | table.order_by("start_column")
129 | header = []
130 | for row in table:
131 | row = dict(row._asdict())
132 | row["field_name"] = slug(row["name"])
133 | row["start_index"] = row["start_column"] - 1
134 | row["end_index"] = row["start_index"] + row["size"]
135 | header.append(row)
136 | return header
137 |
138 |
139 | def transform_empresa(row, censor):
140 | """Transform row of type company"""
141 |
142 | if censor:
143 | for field_name in FIELDS_TO_DELETE_COMPANY:
144 | del row[field_name]
145 |
146 | if row["codigo_natureza_juridica"] in INDIVIDUAL_COMPANIES: # "eupresa"
147 | for field_name in FIELDS_TO_CLEAR_INDIVIDUAL_COMPANY:
148 | row[field_name] = ""
149 | for field_name in ("razao_social", "nome_fantasia"):
150 | words = row[field_name].split()
151 | if words and words[-1].isdigit():
152 | row[field_name] = clear_company_name(words)
153 |
154 | if "correio_eletronico" in row: # Could be deleted by censorship
155 | row["correio_eletronico"] = clear_email(row["correio_eletronico"])
156 |
157 | if row["opcao_pelo_simples"] in ("", "0", "6", "8"):
158 | row["opcao_pelo_simples"] = "0"
159 | elif row["opcao_pelo_simples"] in ("5", "7"):
160 | row["opcao_pelo_simples"] = "1"
161 | else:
162 | raise ValueError(f"Opção pelo Simples inválida: {row['opcao_pelo_simples']} (CNPJ: {row['cnpj']})")
163 |
164 | if row["opcao_pelo_mei"] in ("N", ""):
165 | row["opcao_pelo_mei"] = "0"
166 | elif row["opcao_pelo_mei"] == "S":
167 | row["opcao_pelo_mei"] = "1"
168 | else:
169 | raise ValueError(f"Opção pelo MEI inválida: {row['opcao_pelo_mei']} (CNPJ: {row['cnpj']})")
170 |
171 | if set(row["nome_fantasia"]) == set(["0"]):
172 | row["nome_fantasia"] = ""
173 |
174 | if row["capital_social"] is not None:
175 | row["capital_social"] = Decimal(row["capital_social"]) * ONE_CENT
176 |
177 | return [row]
178 |
179 |
180 | def transform_socio(row, censor):
181 | """Transform row of type partner"""
182 |
183 | if row["campo_desconhecido"] != "":
184 | raise ValueError(f"Campo desconhecido preenchido - checar: {row}")
185 | del row["campo_desconhecido"]
186 |
187 | if row["nome_representante_legal"] == "CPF INVALIDO":
188 | row["cpf_representante_legal"] = None
189 | row["nome_representante_legal"] = None
190 | row["codigo_qualificacao_representante_legal"] = None
191 |
192 | if row["cnpj_cpf_do_socio"] == "000***000000**":
193 | row["cnpj_cpf_do_socio"] = ""
194 |
195 | if row["identificador_de_socio"] == 2: # Pessoa Física
196 | row["cnpj_cpf_do_socio"] = row["cnpj_cpf_do_socio"][-11:]
197 |
198 | # TODO: convert percentual_capital_social
199 |
200 | # Delete some fields if needed
201 | if censor:
202 | for field_name in FIELDS_TO_DELETE_PARTNER:
203 | del row[field_name]
204 |
205 | return [row]
206 |
207 |
208 | def transform_cnae_secundaria(row, censor):
209 | """Transform row of type CNAE"""
210 |
211 | cnaes = ["".join(digits) for digits in ipartition(row.pop("cnae"), 7) if set(digits) != set(["0"])]
212 | data = []
213 | for cnae in cnaes:
214 | new_row = row.copy()
215 | new_row["cnae"] = cnae
216 | data.append(new_row)
217 |
218 | return data
219 |
220 |
221 | def parse_row(header, line):
222 | """Parse a fixed-width file line and returns a dict, based on metadata
223 |
224 | The `header` parameter is the return from `read_header`.
225 | Notes:
226 | 1- There's no check whether all fields are parsed (this function trusts
227 | the `header` was created in the correct way).
228 | 2- `line` is already decoded and since the input encoding is `latin1`, one
229 | character equals to one byte. If the input encoding does not have this
230 | characteristic then this function needs to be changed.
231 | """
232 | line = line.replace("\x00", " ").replace("\x02", " ")
233 | row = {}
234 | for field in header:
235 | field_name = field["field_name"]
236 | value = line[field["start_index"] : field["end_index"]].strip()
237 |
238 | if field_name == "filler":
239 | if set(value) not in (set(), {"9"}):
240 | raise ParsingError(line=line, error="Wrong filler")
241 | continue # Do not save `filler`
242 | elif field_name == "tipo_de_registro":
243 | continue # Do not save row type (will be saved in separate files)
244 | elif field_name == "fim":
245 | if value.strip() != "F":
246 | raise ParsingError(line=line, error="Wrong end")
247 | continue # Do not save row end mark
248 | elif field_name in ("indicador_full_diario", "tipo_de_atualizacao"):
249 | continue # These fields are usually useless
250 |
251 | if field_name.startswith("data_") and value:
252 | if len(str(value)) > 8:
253 | raise ParsingError(line=line, error="Wrong date size")
254 | value = f"{value[:4]}-{value[4:6]}-{value[6:8]}"
255 | if value == "0000-00-00":
256 | value = ""
257 | elif field["type"] == "N" and "*" not in value:
258 | try:
259 | value = int(value) if value else None
260 | except ValueError:
261 | raise ParsingError(line=line, error=f"Cannot convert {repr(value)} to int")
262 |
263 | row[field_name] = value
264 |
265 | return row
266 |
267 |
268 | def extract_files(
269 | filenames,
270 | header_definitions,
271 | transform_functions,
272 | output_writers,
273 | error_filename,
274 | input_encoding="latin1",
275 | censorship=True,
276 | ):
277 | """Extract files from a fixed-width file containing more than one row type
278 |
279 | `filenames` is expected to be a list of ZIP files having only one file
280 | inside each. The file is read and metadata inside `fobjs` is used to parse
281 | it and save the output files.
282 | """
283 | error_fobj = open_compressed(error_filename, mode="w", encoding="latin1")
284 | error_writer = CsvLazyDictWriter(error_fobj)
285 |
286 | for filename in filenames:
287 | # TODO: use another strategy to open this file (like using rows'
288 | # open_compressed when archive support is implemented)
289 | zf = ZipFile(filename)
290 | inner_filenames = zf.filelist
291 | assert len(inner_filenames) == 1, f"Only one file inside the zip is expected (got {len(inner_filenames)})"
292 | # XXX: The current approach of decoding here and then extracting
293 | # fixed-width-file data will work only for encodings where 1 character is
294 | # represented by 1 byte, such as latin1. If the encoding can represent one
295 | # character using more than 1 byte (like UTF-8), this approach will make
296 | # incorrect results.
297 | fobj = TextIOWrapper(zf.open(inner_filenames[0]), encoding=input_encoding)
298 | for line in tqdm(fobj, desc=f"Extracting {filename}"):
299 | row_type = line[0]
300 | try:
301 | row = parse_row(header_definitions[row_type], line)
302 | except ParsingError as exception:
303 | error_writer.writerow({"error": exception.error, "line": exception.line})
304 | continue
305 | data = transform_functions[row_type](row, censorship)
306 | for row in data:
307 | output_writers[row_type].writerow(row)
308 |
309 | fobj.close()
310 | zf.close()
311 |
312 | error_fobj.close()
313 |
314 |
315 | def main():
316 | base_path = Path(__file__).parent
317 | output_path = base_path / "data" / "output"
318 | error_filename = output_path / "errors.csv"
319 |
320 | parser = ArgumentParser()
321 | parser.add_argument("output_path", default=str(output_path))
322 | parser.add_argument("input_filenames", nargs="+")
323 | parser.add_argument("--no_censorship", action="store_true")
324 | args = parser.parse_args()
325 |
326 | input_encoding = "latin1"
327 | input_filenames = args.input_filenames
328 | output_path = Path(args.output_path)
329 | if not output_path.exists():
330 | output_path.mkdir(parents=True)
331 | error_filename = output_path / "error.csv.gz"
332 | censorship = not args.no_censorship
333 |
334 | row_types = {
335 | "0": {
336 | "header_filename": "headers/header.csv",
337 | "output_filename": output_path / "header.csv.gz",
338 | "transform_function": lambda row, censor: [row],
339 | },
340 | "1": {
341 | "header_filename": "headers/empresa.csv",
342 | "output_filename": output_path / "empresa.csv.gz",
343 | "transform_function": transform_empresa,
344 | },
345 | "2": {
346 | "header_filename": "headers/socio.csv",
347 | "output_filename": output_path / "socio.csv.gz",
348 | "transform_function": transform_socio,
349 | },
350 | "6": {
351 | "header_filename": "headers/cnae_secundaria.csv",
352 | "output_filename": output_path / "cnae_secundaria.csv.gz",
353 | "transform_function": transform_cnae_secundaria,
354 | },
355 | "9": {
356 | "header_filename": "headers/trailler.csv",
357 | "output_filename": output_path / "trailler.csv.gz",
358 | "transform_function": lambda row, censor: [row],
359 | },
360 | }
361 | header_definitions, output_writers, transform_functions = {}, {}, {}
362 | for row_type, data in row_types.items():
363 | header_definitions[row_type] = read_header(data["header_filename"])
364 | output_writers[row_type] = CsvLazyDictWriter(data["output_filename"])
365 | transform_functions[row_type] = data["transform_function"]
366 | extract_files(
367 | filenames=input_filenames,
368 | header_definitions=header_definitions,
369 | transform_functions=transform_functions,
370 | output_writers=output_writers,
371 | error_filename=error_filename,
372 | input_encoding=input_encoding,
373 | censorship=censorship,
374 | )
375 |
376 |
377 | if __name__ == "__main__":
378 | main()
379 |
--------------------------------------------------------------------------------