Um dos maiores desafios das análises de dados é a integração de informações provenientes de diferentes fontes. Essa “junção” de bases ocorre em uma das primeiras etapas do ciclo da ciência de dados.
O ciclo da ciência de dados é formado principalmente por 6 etapas, conforme descritas na imagem abaixo:
Sendo elas:
- Importar: Obtenção dos dados de interesse de todas as fontes possíveis
- Arrumar: Tratamento das inconsistências, integração entre as bases e armazenamento das bases “finais”.
- Ciclo de
- Transformar: Criação de novas variáveis e re-categorização de variáveis existentes.
- Visualizar: Observar os resultados das transformações em busca de eventuais relações de dependência entre as variáveis.
- Modelar: Desenvolver os modelos estatísticos responsáveis por responder às questões de interesse.
- Comunicar/Automatizar: Apresentar os resultados com certa inteligência visual.
A integração, por sua vez, faz parte da segunda etapa desse processo, a etapa de tratamento das informações.
Quando falamos de dados, independentemente da fonte, precisamos ter um pleno controle sobre qual é a nossa unidade amostral, isto é, qual é o significado de cada linha da nossa base de dados.
Em outras palavras, precisamos entender se cada linha da nossa base representa um processo, um incidente, um pedido de um processo, uma das partes do processo, uma movimentação do processo etc.
Na linguagem da ciência de dados, a unidade amostral é definida pela chave primária da base, isto é, a coluna, ou grupo de colunas que representam um único elemento.
Se a unidade amostral de uma base de dados é o processo, por exemplo, então a chave da base deve ser o número do processo. Nesse caso, não devem existir duas linhas da base com o mesmo número de processo. Se isso acontecer, trata-se de uma inconsistência que precisa ser tratada. Se a unidade amostral for o pedido dos processos, então a chave da base deve ser o número do processo e o pedido daquele processo. E assim por diante.
Certo, mas por que eu preciso saber o que é a chave de uma base?
Quando precisamos realizar integração de dados, a maneira mais inteligente de juntar duas ou mais bases é através da chave. Caso contrário, tal junção pode gerar duplicidades indesejadas, sendo extremamente difícil se livrar delas de maneira consistente.
Vamos deixar os detalhes sobre as junções de bases para um outro post. Por enquanto… apenas acredite em nós.
O ponto é: para juntar duas bases de fontes distintas, como por exemplo, uma base interna com uma base de dados com informações extraídas dos tribunais, precisamos saber exatamente o nível hierárquico da informação que estamos à procura e se tal informação está no mesmo nível da nossa unidade amostral.
Logo, o passo-a-passo para realizar a junção de uma base interna com uma base externa é:
1 – Definir qual é a unidade amostral da base interna.
* Exemplo: Processo
2 – Caso não exista, criar uma chave primária para essa base.
a) Garantir que a chave primária também existirá na base externa, caso contrário, não será possível realizar o cruzamento.
* Exemplo: Número do Processo
3 – Verificar se a informação desejada está no nível da sua unidade amostral
* Exemplo: Valor total da causa, ou valor total pedido (valor discutido no processo)
4 – Fazer a junção entre as duas bases através da chave.
* Exemplo: Cruzar as bases via “Número do Processo”. Como esta é a chave primária, será possível identificar qual o valor total da causa para cada processo da base.
* Esta etapa não precisa ser manual, ela pode ser automatizada. Por isso, não deixe de contar com a Terranova.