Dataset: entenda o que é e conheça 10 fontes confiáveis

Dataset é um pilar fundamental para projetos de Data Science, e profissionais da área precisam entender esse conceito.

Foto de Kindel Media no Pexels

Datasets são componentes fundamentais em um projeto de ciência de dados e machine learning. São a base utilizada para que os algoritmos consigam aprender, evoluir e exibir seus resultados. Com o conceito de dataset surgem também questões e desafios, como a limpeza dos dados, a segurança e a privacidade, bem como o nível de complexidade necessário para cada análise.

Assim, quem quer continuar aprofundando na área de Data Science precisa saber mais sobre esse termo. Afinal, parte do trabalho dessa profissão é administrar essas bases. É fundamental entender como obter datasets adequados para cada projeto, conhecer as possibilidades de datasets brasileiros e saber como conciliar os projetos com os dados existentes nas bases de uma companhia. 

Confira!

O que são datasets?

Os datasets são bases de dados específicas que servem de amostras para treinamentos de algoritmos de inteligência artificial ou para outros tipos de projetos de Data Science. São bases geralmente dispostas em formato tabular, com linhas e colunas bem definidas e organizadas com informações claras acerca de sua finalidade. O formato varia entre CSV, TXT, XML e até XLS.

Especificamente, os dados de um dataset podem ser usados para treinamento de um algoritmo de machine learning que vai prever alguma informação; como também pode ser base para a visualização de dados com gráficos e relatórios que descrevem a base e extraem insights de forma mais direta.

Esses dados são importados e processados com as bibliotecas e funções específicas da linguagem utilizada. Em Python, temos a biblioteca Pandas, que lida com especificações de datasets e possui vários recursos já prontos para a utilização.

Um ponto facilitador acerca dos datasets é que, como já falamos, eles surgem em formato de linhas e colunas. Em uma linha, podemos ter, por exemplo, o número do registro, e nas colunas, as características. Em uma base de uma empresa varejista, as linhas podem conter as vendas, ao passo que as colunas apresentam as características como o valor total e a forma de pagamento. 

Outro ponto interessante é que datasets tendem a representar fielmente as regras do negócio a que eles se referem. Assim, misturam dados nominais (palavras) e dados numéricos. Os dados numéricos em alguns casos possuem largas diferenças de escala, o que também requer um tratamento especial.

Contudo, um dos desafios é que muitos dados nessas linhas e colunas apresentam inconsistências que atrapalham a análise. Um exemplo: dados faltantes. Outro exemplo: dados inválidos ou errados. Sem falar em dados duplicados que também podem interferir na qualidade da análise. 

Nesses casos, é preciso submeter o dataset a uma sessão de limpeza e tratamento antes de usar os algoritmos específicos para treinar o sistema.

Uso para Machine Learning e visualização

O tipo de processamento necessário, é claro, depende do objetivo do projeto. Para o caso de passar dados para algoritmos de ML, é preciso sobretudo realizar: limpeza, tratamento de dados faltantes/duplicados/inválidos e também conversão dos dados para o formato mais adequado de acordo com o algoritmo. 

Por outro lado, quando se trata de visualização de dados ou análise estatística, é possível pular algumas dessas etapas (como a conversão dos dados).

Depois da importação e do tratamento em projetos de ML, pessoas cientistas de dados geralmente fazem uma separação do dataset entre dados de treinamento e dados de teste. Depois do treinamento, o modelo está pronto para analisar outros dados, oriundos de outras fontes. 

O tamanho do dataset naturalmente afeta a qualidade da modelagem e das previsões, a depender do problema. Se você tem um problema mais complexo para resolver, como análise e processamento de imagens, pode ser necessário usar bases maiores. Em outros tipos de análise, um dataset menor já dá conta do recado.  

A partir dos resultados do modelo, chegamos à conclusão acerca de seu desempenho e de sua precisão de análise. Às vezes, o modelo aprendeu com bons dados e uma base grande o suficiente, mas não se adaptou bem aos dados, portanto, não oferece boas previsões. Em outros casos, o modelo se adapta demais aos dados de treinamento e não consegue oferecer os mesmos resultados com outros dados, em cenários reais.

Dataset x Database: entenda a diferença

Com a definição que normalmente damos para dataset, existe uma clara confusão com a concepção de banco de dados, que é mais clássica. No universo de TI, falamos muito em datasets recentemente por conta da explosão dos dados e da evolução da inteligência artificial. Por sua vez, o conceito de banco de dados existe há muito tempo, como um suporte para sistemas de processamento de dados.

A principal diferença entre esses termos é que o dataset é uma amostra menor do que um database. É uma amostra específica para algum projeto, com uma relação muito clara entre os dados. Como um conjunto de dados de pessoas que foram vacinadas em um dado período ou o número de vendas de uma loja em todas as suas filiais em um ano. 

Ou seja, são dados finitos, com algum prazo definido. Databases, por sua vez, são bases maiores que representam a modelagem da realidade e dos relacionamentos entre elementos da realidade. Um banco de dados de uma rede social, por exemplo, contém os cadastros das pessoas, as informações de perfil e dados relacionados às conexões de cada perfil com outros perfis. 

Um CRM é outro bom exemplo de um banco de dados. Nele, estão dispostos os dados de todas as pessoas consumidoras de uma empresa que entraram em contato ou interagiram em algum momento. É uma estrutura maior que guarda os dados completos para atender ao objetivo daquela determinada aplicação.

Um banco de dados pode ser necessário em um site de rede social ou em uma aplicação de streaming. É usado em todas as aplicações web que utilizam cadastro, seja em lojas virtuais, seja em sites de fóruns. Além disso, é uma tecnologia integrante de aplicações desktop e mobile também, funcionando quase como uma espécie de memória do sistema.  

Por outro lado, a definição de dataset está sempre muito ligada a aplicações de inteligência artificial e Data Science. É um conjunto de dados usado para fins estatísticos e analíticos. 

Vamos continuar com a comparação: 

  • bancos de dados são bases de armazenamento, não necessariamente com um fim claramente estipulado;

  • já datasets são dados para um fim determinado que servem de entrada para a criação de uma aplicação que atenda àquele propósito. 

O dataset geralmente faz parte de um banco de dados maior e é separado para análises específicas. 

Bancos de dados geralmente pertencem a alguma organização que criou aquela aplicação que o utiliza. O banco de dados de pessoas usuárias do Spotify é propriedade da empresa. O de pessoas usuárias e dos filmes da Netflix é da Netflix. 

Datasets podem ser encontrados em locais públicos, disponíveis para uso de várias pessoas, como os datasets brasileiros que veremos mais adiante neste post. Muitos são disponibilizados de forma aberta para pessoas que estudam e querem praticar Data Science. 

Como encontrar datasets? [PAA]

Antes de começar um projeto de desenvolvimento de Data Science ou machine learning, as pessoas geralmente passam por um processo de busca dos datasets ideais. Para isso, é preciso atender a alguns critérios de procura.

O primeiro é saber se você precisa de uma base pública ou de dados privados de sua empresa. Em aplicações corporativas, por exemplo, é comum que profissionais de Data Science coletem dados de sistemas internos, como ERPs, CRMs ou ferramentas de marketing, atendimento e vendas. Já em projetos pessoais, estudantes tendem a buscar bases públicas.

No caso de bases públicas, é possível encontrar diversas fontes interessantes na internet, como as que mencionaremos no próximo tópico. 

Temos, inclusive, datasets brasileiros e vários outros datasets em outros idiomas (principalmente em inglês). A vantagem do dataset ser nacional é não conter termos específicos de segmentos que a pessoa cientista desconhece. Contudo, esse problema com datasets de fora é diminuído quando há uma documentação explicando as colunas e as características (embora essa documentação nem sempre esteja disponível). 

Geralmente, essas plataformas oferecem dados em formato CSV, JSON, PDF e outros. Então, a pessoa que cuida dessa área pode baixar os arquivos e fazer upload com as funções devidas. 

10 fontes de datasets para usar nos seus projetos

Agora, vamos efetivamente conhecer as melhores opções de sites para encontrar datasets de machine learning, deep learning e visualização de dados

1. Dados.gov

Seguindo uma proposta de trazer mais transparência para as ações governamentais e para os registros públicos, o site “Dados.gov.br” (Portal Brasileiro de Dados Abertos) reúne dados de diferentes instâncias para análise. É possível encontrar informações sobre ministérios específicos, como o da Fazenda, estados, setores específicos, bem como órgãos e instituições como IBGE, INSS, Banco Central. 

Além disso, você encontra informações específicas sobre o censo da população e sobre as pessoas que estão cadastradas em programas sociais, como o Bolsa Família. Os dados estão dispostos em diversos formatos, tais como PDF e XML, e envolvem dicionários para explicar como funcionam.

2. Banco Central do Brasil

Além do Data.gov, se a pessoa cientista de dados ou estudante quiser dados específicos acerca do sistema financeiro e bancário, pode encontrá-los no portal do Banco Central. São dados das instituições autorizadas pelo BC, que estão lá com o objetivo de gerar maior transparência. 

3. Google Analytics

No Google Analytics, encontramos dados analíticos sobre as visitas a um site, como: 

  • número de sessões; 

  • dispositivos usados;

  • navegadores usados, entre outros. 

É possível estabelecer filtros por dia, por mês, por semana ou por ano. O interessante é que você conta com dados em um formato gráfico, já com formas eficientes de visualização. 

4. Portal da Transparência

Outro bom exemplo de dataset brasileiro é o Portal da transparência, um registro acerca de investimentos públicos, despesas e ganhos das instituições. Você pode usar como um complemento ao data.gov. 

5. Reddit

Um dos fóruns mais famosos da internet, o Reddit apresenta várias vantagens que poucas pessoas conhecem. Uma delas é o repositório para cientistas de dados que contém diversas discussões úteis sobre questões da área. 

Além disso, existe uma seção específica para datasets de diversas qualidades e tipos. A pessoa pode ainda conferir os comentários acerca deles para saber se são ideais para o que procura.

Atualmente na base do Reddit você encontra datasets bem relevantes, como alguns sobre a empresa Uber, sobre a pandemia de Covid-19, sobre fake news, etc.

6. Kaggle

O Kaggle provavelmente é o mais famoso site para cientistas de dados. Contém diversos projetos e desafios que uma pessoa pode tentar superar em busca de prêmios. Além disso, é uma comunidade para pessoas da área se ajudarem em projetos. 

O site também traz inúmeras opções de datasets para auxiliar no desenvolvimento de modelos inteligentes e aplicações de visualização. 

Você consegue facilmente encontrar o que precisa com filtros e até mesmo encontrar uma documentação que ajuda bastante a compreender o que cada coluna significa. 

7. FiveThirtyEight

Outra plataforma muito conhecida por pessoas da área é o FiveThirtyEight. É um site que desenvolve alguns projetos envolvendo Data Science e também oferta diversas boas opções de datasets. 

No portfólio deles, encontram-se datasets sobre filmes, tendências do momento, eleições presidenciais, esportes e outros assuntos bem diversos. 

8. Repositório de Machine Learning da UCI

Outro site bastante famoso é o repositório de ML da UCI. São conjuntos de dados geralmente de boa qualidade, fornecidos pelas próprias pessoas usuárias. Os tópicos encontrados variam bastante, de e-mails com rótulos de spam para classificações a questões ambientais. 

O mais legal sobre as bases da UCI é que a plataforma distribui os sets para cada tipo de problema (classificação, regressão ou associação, por exemplo). Ademais, existem divisões por tipos de dados (nominais ou numéricos), formatos e outras características. Essa filtragem já ajuda no processo de escolha dos sets ideais.

9. Amazon Reviews

Para quem busca por datasets na área de processamento de linguagem natural (NLP), existe um site da Stanford com bases de reviews de produtos no site da Amazon, divididos pelo segmento do produto analisado por clientes. Trata-se de uma base bem grande para projetos bem interessantes. 

10. Google Dataset Search

A gigante das buscas tem um motor específico para datasets, assim como o motor das imagens e o acadêmico. São mais de 20 milhões de datasets que podem ser encontrados a partir das buscas, com dados do site de hospedagem e da pessoa que publicou aquele set. 

….

Um dataset é um importante elemento para projetos de Data Science e ML/DL. A qualidade dele já define muito acerca do quão preciso será o modelo criado. Evidentemente, suas limitações podem ser resolvidas com processos de tratamento e formatação. É importante conhecer alguns dos sites mais importantes que disponibilizaram esses conjuntos de dados para saber como começar seus projetos.

Agora que você já sabe mais sobre os datasets, entenda melhor o conceito de machine learning.