Processos
Processos, Prática, Projetos, CRISP-DM, KDD
Visto o que é e o que não é Ciência de Dados, resta saber como conduzir um projeto centrado em dados.
Como fazer Ciência de Dados
Simplificando, projetos de Ciência de Dados buscam extrair conhecimento de conjuntos de dados para atingir algum objetivo. Para isso, a literatura apresenta diversos processos1 que descrevem como isso pode ser feito.
CRISP-DM
O padrão de processo interindustrial para mineração de dados (do inglês cross-industry standard process for data mining) ou CRISP-DM2 é uma das abordagens mais conhecidas para organizar projetos de mineração de dados. Trata-se de um processo cíclico e centrado nos dados que envolve 6 (seis) etapas, conforme ilustradas na Figura 1.
O ciclo se inicia com uma troca iterativa entre as etapas de entendimento do negócio e dos dados. Entender o negócio inclui definir os objetivos mensuráveis do projeto. Entender os dados inclui coletar e explorar as características dos dados de acordo com os requisitos dos dados.
Em seguida, dá-se uma troca entre as etapas de preparação e modelagem dos dados. Na preparação, os dados são limpados, transformados e/ou agregados para se adequar aos requisitos da modelagem. Na modelagem, um modelo é treinado e validado de acordo com os requisitos de avaliação.
Por fim, a fase de avaliação dos modelos determina se o resultado pode ser implantado ou se é preciso reiniciar o ciclo. A avaliação deve ser realizada com dados diferentes dos dados de treinamento e validação.
Outros processos
Esta resenha pode ser expandida para comentar outros processos aplicáveis a projetos no contexto de Ciência de Dados, como o processo genérico de descoberta de conhecimento em bases de dados3, e SEMMA4, assim como processos sintetizados por outros autores, como os de Zumel & Mount, Verri (Verri 2024, págs. 35, 42) e o de Godsey (Godsey 2017).