Processos

Autor
Palavras-chave

Processos, Prática, Projetos, CRISP-DM, KDD

Visto o que é e o que não é Ciência de Dados, resta saber como conduzir um projeto centrado em dados.

Como fazer Ciência de Dados

Simplificando, projetos de Ciência de Dados buscam extrair conhecimento de conjuntos de dados para atingir algum objetivo. Para isso, a literatura apresenta diversos processos1 que descrevem como isso pode ser feito.

CRISP-DM

O padrão de processo interindustrial para mineração de dados (do inglês cross-industry standard process for data mining) ou CRISP-DM2 é uma das abordagens mais conhecidas para organizar projetos de mineração de dados. Trata-se de um processo cíclico e centrado nos dados que envolve 6 (seis) etapas, conforme ilustradas na Figura 1.

CRISPDM d Dados p1 Entendimento do negócio p2 Entendimento dos dados p1->p2 p2->p1 p3 Preparação dos dados p2->p3 p4 Modelagem p3->p4 p4->p3 p5 Avaliação p4->p5 p5->p1 p6 Implantação p5->p6

Figura 1: Ciclo de etapas do CRISP-DM, adaptado de (Verri 2024, pág. 34)

O ciclo se inicia com uma troca iterativa entre as etapas de entendimento do negócio e dos dados. Entender o negócio inclui definir os objetivos mensuráveis do projeto. Entender os dados inclui coletar e explorar as características dos dados de acordo com os requisitos dos dados.

Em seguida, dá-se uma troca entre as etapas de preparação e modelagem dos dados. Na preparação, os dados são limpados, transformados e/ou agregados para se adequar aos requisitos da modelagem. Na modelagem, um modelo é treinado e validado de acordo com os requisitos de avaliação.

Por fim, a fase de avaliação dos modelos determina se o resultado pode ser implantado ou se é preciso reiniciar o ciclo. A avaliação deve ser realizada com dados diferentes dos dados de treinamento e validação.

Outros processos

Esta resenha pode ser expandida para comentar outros processos aplicáveis a projetos no contexto de Ciência de Dados, como o processo genérico de descoberta de conhecimento em bases de dados3, e SEMMA4, assim como processos sintetizados por outros autores, como os de Zumel & Mount, Verri (Verri 2024, págs. 35, 42) e o de Godsey (Godsey 2017).

De volta ao topo

Referências

Godsey, Brian. 2017. Think Like a Data Scientist: Tackle the Data Science Process Step-by-Step. Manning. https://www.manning.com/books/think-like-a-data-scientist.
Verri, Filipe Alves Neto. 2024. Data Science Project: An Inductive Learning Approach (versão 0.1.0). Leanpub. https://doi.org/10.5281/zenodo.14498011.

Notas de rodapé

  1. https://dictionary.cambridge.org/dictionary/english/process↩︎

  2. https://www.datascience-pm.com/crisp-dm-2/↩︎

  3. https://www.datascience-pm.com/kdd-and-data-mining/↩︎

  4. https://www.datascience-pm.com/semma/↩︎