Áreas relacionadas
Big Data, Machine Learning, Data Mining, KDD
Existem várias outras áreas de conhecimento e campos de estudo que também colocam dados e seu processamento nos holofotes. Por exemplo, Big Data e Machine Learning são umas das mais populares. Considerando a ideia difusa de Ciência de Dados,1 é natural que haja alguma confusão e/ou sobreposição entre os tópicos.
O que não é Ciência de Dados?
O sinal de interrogação no título desta seção é proposital. É comum ser questionado se a Ciência de Dados não é apenas mais uma repaginação de inúmeros outros campos mais antigos que combinam engenharia de software com análise de dados (Godsey 2017). As áreas de conhecimento comentadas a seguir têm muito em comum com a Ciência de Dados, mas vamos procurar desambiguá-las.
Big Data
O termo Big Data costuma ser usado tanto para descrever grandes volumes de dados quanto para nomear a área de estudos e tecnologias voltadas a esses dados. Em Carvalho, Menezes, e Bonidia (2024), os autores apresentam Big Data falando sobre os três Vs que caracterizam seu objeto de estudo: dados com grande volume, velocidade e variedade. Os autores também tentam desambiguar Ciência de Dados de Big Data com o entendimento de que o primeiro lida com a formulação de soluções computacionais para transformar, preprocessar, modelar e extrair conhecimento de dados, e o segundo lida com o estudo de tecnologias para coletar, armazenar, processar e transmitir dados. Na minha visão, essa desambiguação não é clara o suficiente.
É possível que Big Data seja usado como sinônimo de Ciência de Dados e as diferenciações variam de autor para autor. Por exemplo, para Kotu e Deshpande (2018), o termo Ciência de Dados engloba as técnicas de processamento de Big Data que, por sua vez, apenas indica grandes volumes de dados. Já em Das (2016), o autor afirma que a Ciência de Dados está além do Big Data por incluir a criação de dados de várias fontes e sua quantificação em informação. Essas visões não são necessariamente contraditórias, mas também não deixam claro quanta sobreposição há entre os termos.
Em Morettin e Singer (2025), os autores comentam que ter de lidar com grandes volumes de dados não é o suficiente para marcar a divisão entre Ciência de Dados e Estatística. Por outro lado, essa distinção pode ser o suficiente para desambiguar a Ciência de Dados de Big Data. Em outras palavras, pode-se considerar que Big Data engloba o estudo de questões pertinentes para lidar com grandes volumes de dados, ao passo que a Ciência de Dados pode ou não ter de lidar com grandes volumes de dados, a depender do problema em investigação.
Aprendizagem de Máquina
De maneira semelhante à relação com Big Data, a Aprendizagem de Máquina ou Machine Learning pode ser uma ferramenta usada pela Ciência de Dados. Em Kotu e Deshpande (2018), a Ciência de Dados é tratada como um termo guarda-chuva em que os tipos de modelos de aprendizado tipicamente estudados em Machine Learning são vistos como seus subtópicos. Morettin e Singer (2025) também distingue a ideia de aprendizado estatístico do aprendizado automático, ambos termos que podem ser usados para designar Machine Learning.
Vale mencionar que Machine Learning faz parte do Diagrama de Venn da Ciência de Dados. Em seu texto original,2 Drew Conway comenta que conhecimentos de matemática e estatística com computação são os ingredientes para formar Machine Learning, mas não o suficiente para chegar na Ciência de Dados. Este tópico será abordado com mais profundidade em textos futuros.
Mineração de Dados
Mineração de dados ou data mining é uma das etapas do processo geral de descoberta de conhecimento em bases de dados3 que, por sua vez, pode ser considerado como um tópico mais específico dentro da grande área de Ciência de Dados. Assim como a Ciência de Dados, a mineração de dados também objetiva extrair conhecimento de conjuntos de dados. Mais expecificamente, extração de conhecimento e data mining4 são termos às vezes usados como sinônimos, pois a mineração de dados é vista como um passo crucial dentro do processo de descoberta de conhecimento. Mais detalhes sobre esse processo em si serão apresentados em textos futuros.
Outras áreas
Esta resenha pode ser expandida para fazer um paralelo e esclarecer a diferença entre Ciência de Dados e diversas outras áreas semelhantes. Por exemplo, pesquisa operacional, data analytics, business intelligence.