Encontrar os conjuntos de dados ideais pode ser desafiador, sobretudo quando eles são necessários para projetos de aprendizado de máquina (ML) e ciência de dados. Para facilitar sua busca, compilamos uma lista abrangente de conjuntos de dados gratuitos.
Conjuntos de dados são, essencialmente, coleções de informações. Esses dados podem ser de natureza financeira, de saúde pública, do mercado de ações, bancária, geográfica, de pesquisa científica de partículas, avaliações de produtos em plataformas de comércio eletrônico, entre outros.
Esses conjuntos são fruto de coleta de dados seguindo padrões de pesquisa científica, sendo cruciais para visualização, extração, previsão e outras análises. No universo digital, onde dados são como o petróleo bruto, conjuntos de dados se tornam cada vez mais valiosos e, por vezes, escassos.
Continue a leitura para aprofundar seu entendimento sobre conjuntos de dados. Apresentaremos também algumas opções de código aberto que são totalmente gratuitas e perfeitas para seus projetos de aprendizado de máquina (ML) ou ciência de dados.
O que são conjuntos de dados?
Conjuntos de dados consistem em uma coleção organizada e estruturada de informações. Pesquisadores frequentemente associam conjuntos de dados a entidades específicas, como o Banco Mundial e seus Dados Abertos.
Outro exemplo são os conjuntos de dados mantidos por coletores de dados com foco em um tema específico, como os Dados do Censo de 2020 dos Estados Unidos, divulgados pelo United States Census Bureau.
Existem inúmeros conjuntos de dados disponíveis sobre temas globais e locais. A maioria deles inclui pontos de dados interligados. Por exemplo, dados sobre a população de um país e como a obesidade se relaciona com diferentes segmentos dessa população.
Cientistas de dados podem precisar limpar, reestruturar e processar esses conjuntos utilizando ferramentas de big data para extrair conclusões significativas. Isso pode incluir ações como analisar dados de uso de plástico para reduzir o desperdício, analisar dados salariais para solucionar problemas de força de trabalho, treinar inteligência artificial (IA), entre outras aplicações.
Tipos de conjuntos de dados
De acordo com sua origem, conjuntos de dados podem ser públicos ou privados. Os conjuntos públicos estão acessíveis a todos e impulsionam a pesquisa e o desenvolvimento.
Além disso, dependendo das informações que contêm, os conjuntos de dados podem ser:
- Multivariados: contêm múltiplas variáveis.
- Categóricos: representam diversas categorias de indivíduos.
- Numéricos: medem dados em números, como idade e altura.
- De Correlação: os dados são inter-relacionados.
- Baseados em Arquivo: armazenados em arquivos.
- Bivariados: conjuntos com duas variáveis e a relação entre elas.
- Da Web: dados coletados de um ou mais portais de internet similares.
- De Banco de Dados: armazenam informações em tabelas, colunas e linhas.
Conjuntos de dados de código aberto para projetos de ciência de dados
Conjuntos de dados gratuitos são o combustível para sua paixão por uma carreira em ciência de dados. Se você está começando, pode querer experimentar projetos pessoais e não comerciais para ganhar confiança ou construir seu portfólio.
Primeiramente, você pode aplicar suas habilidades recém-adquiridas utilizando ferramentas e técnicas em problemas de conjuntos de dados reais.
Por exemplo, existem dados de pesquisa de câncer, dados da Covid-19, registros criminais do FBI, dados de análise de partículas do CERN, entre outros, disponíveis gratuitamente. Você pode utilizar esses dados e desenvolver modelos de ciência de dados para abordar questões sociais, financeiras e de saúde.
Em segundo lugar, esses projetos potencializam seu portfólio de carreira. Se você criar um modelo de análise de dados eficiente que ofereça insights práticos, poderá exibi-lo online através de um site de portfólio. Empregadores preferem projetos a meras declarações de intenção.
Conjuntos de dados gratuitos para projetos de aprendizado de máquina
Assim como um profissional de ciência de dados, um profissional de ML também se beneficia de projetos autogeridos para avaliar suas competências. Se bem-sucedido, o projeto se torna um componente valioso para seu portfólio online ou offline de projetos de ML.
Portanto, é crucial entender que o avanço da ciência de dados e do ML depende de conjuntos de dados bem estruturados. Caso esses conjuntos fossem altamente comercializados, a pesquisa e o desenvolvimento nessa área se tornariam predominantemente corporativos.
Para garantir que a pesquisa em ML e ciência de dados permaneça acessível a todos, diversas agências, instituições e plataformas oferecem conjuntos de dados gratuitamente, incluindo:
Data.gov
No Data.gov, você encontra dados abertos coletados e processados pelo governo dos EUA. A plataforma também oferece recursos e ferramentas para realizar pesquisas, criar visualizações de dados e desenvolver aplicativos web e móveis.
Entre os conjuntos de dados notáveis estão dados de uso sustentável da terra, habitação rural e cartas eletrônicas de navegação interior.
Conjuntos de dados abertos: Kaggle
Kaggle oferece uma vasta gama de dados públicos e códigos de computador para projetos de ciência de dados. Você pode escolher entre conjuntos de dados brutos e códigos de programação. Conjuntos de dados populares no Kaggle incluem dados AMEX, de audiência dos Simpsons e de treinamento de chatbots.
Conjuntos de dados do segmento: YouTube 8-M
Os conjuntos de dados do segmento do YouTube 8-M apresentam anotações de segmentos verificadas por revisores humanos. O conjunto de dados do YouTube-8M também está disponível no mesmo portal, contendo 6,1 milhões de IDs de vídeo, 350.000 horas de vídeo, 2,6 bilhões de recursos audiovisuais, 3.863 classes de vídeos e uma média de 3 rótulos por vídeo.
Registro de dados abertos na AWS
O ROD na AWS facilita o compartilhamento e a descoberta de conjuntos de dados hospedados em recursos da AWS por cientistas de dados. Alguns exemplos de conjuntos de dados interessantes incluem The Cancer Genome Atlas, Foldingathome COVID-19 Datasets e Common Crawl.
Repositório de aprendizado de máquina: UCI
O Repositório de Aprendizado de Máquina da UCI mantém atualmente 622 conjuntos de dados adequados para cientistas de dados e engenheiros de ML para treinar seus modelos de IA. Além disso, possui uma interface de pesquisa para facilitar a busca nos bancos de dados. Destaques incluem o conjunto de dados do Acelerômetro, o conjunto de dados da Máquina Síncrona, o Wikipedia Math Essentials e o conjunto de dados Turkish Headlines.
Conjuntos de dados públicos do BigQuery: Google Cloud
O BigQuery armazena vários conjuntos de dados públicos, tornando-os acessíveis gratuitamente através do Programa Google Cloud Public Dataset. No entanto, consultas gratuitas são limitadas a 1 TB por mês. É possível executar consultas SQL padrão e SQL herdado.
Conjuntos de dados públicos incríveis: GitHub
Awesome Public Datasets é um conjunto de dados de código aberto que contém dados públicos focados em temas específicos. Coletados e classificados a partir de diversos blogs, respostas e comentários de usuários, ele inclui conjuntos de dados gratuitos e pagos em física, esportes, software, linguagem natural e aprendizado de máquina.
Dados do Banco Mundial
O World Bank Open Data é uma plataforma que oferece acesso gratuito a dados de desenvolvimento global. Também fornece recursos valiosos, como tabelas e relatórios pré-formatados. É possível navegar por país ou indicador para obter o conjunto de dados necessário.
Cinco Trinta e Oito: Dados
FiveThirtyEight é um site americano especializado em análise de pesquisas de opinião, política, economia e esportes. Você pode acessar pesquisas e previsões através de conjuntos de dados disponíveis na plataforma, que podem ser baixados com um único clique.
ImageNet
ImageNet é um banco de dados de imagens que oferece conjuntos de dados de código aberto para pesquisadores em projetos não comerciais. As imagens são organizadas com base na hierarquia WordNet, e o projeto desempenha um papel crucial na pesquisa avançada de aprendizado profundo.
Arquivos de conjuntos de dados: DADOS UNICEF
Os Arquivos de Conjuntos de Dados permitem acessar dados coletados pelo UNICEF em todo o mundo. Dados sobre migração, deslocamento, dieta, conectividade, educação, saúde, mortalidade, violência, desenvolvimento infantil, casamento infantil, trabalho infantil e outras estatísticas estão disponíveis aqui.
Encontre dados abertos: Govt. do Reino Unido
Se você precisa de dados publicados pelo governo central e órgãos locais do Reino Unido, o portal Find Open Data é o lugar certo. Ele abrange gastos governamentais, negócios, saúde, educação, defesa e muitos outros temas.
Dados: United States Census Bureau
Precisa de dados do Censo dos EUA para seu projeto? O USCB Data pode ser útil. Aqui você pode explorar dados, tabelas, mapas e perfis do censo de 2020, além de visualizar dados e usar ferramentas de dados.
Dados e Estatísticas: CDC
O Centers for Disease Control and Prevention (CDC), agência federal dos EUA, também fornece acesso gratuito a conjuntos de dados e estatísticas. Os temas incluem saúde ambiental, doenças crônicas, nascimentos e natalidade, mortes e mortalidade, expectativa de vida, lesões e violência, saúde reprodutiva e doenças de notificação nacional.
Conjuntos de dados: MIT
Este conjunto de dados foca em dados de vibração induzida por vórtices. O Centro de Engenharia Oceânica do MIT hospeda conjuntos de dados disponíveis publicamente para benchmarking de códigos de computador. Os dados estão acessíveis para pesquisadores desenvolverem novas teorias e sincronizarem seus trabalhos.
Catálogo de Dados do Banco Mundial
O Catálogo de Dados do Banco Mundial é um compilado de conjuntos de dados gratuitos que tornam os dados relacionados ao desenvolvimento do Banco Mundial facilmente acessíveis. A plataforma oferece recursos para facilitar a busca e download de informações para uso em diversos projetos. Inclui mais de 5.000 conjuntos de dados das plataformas de microdados, finanças e energia do Banco Mundial.
Dados Científicos Espaciais da NASA
A NASA oferece acesso aos seus dados de arquivo através do Space Science Data Coordinated Archive. A plataforma é útil para o público em geral, especialmente para pessoas envolvidas com educação e pesquisa espacial. Possui 400 TB de dados digitais contendo informações de 550 ciências espaciais.
Obtenha os dados: por dentro do Airbnb
O Airbnb é um conhecido mercado online para casas de família e aluguéis de temporada. A empresa também oferece coleta de dados em várias cidades do mundo através do “Get the Data”. Você pode navegar por cidade para encontrar os dados rapidamente, além de solicitar dados específicos e revisar as suposições de dados no portal.
Dados da Web: Amazon Reviews
Interessados em pesquisas de mercado e análise de produtos podem utilizar os conjuntos de dados fornecidos pelo Snap Web Data. Eles incluem mais de 34 milhões de avaliações de usuários na Amazon de junho de 1995 a março de 2013, em texto simples, com informações de produtos, nomes de usuários, classificações e avaliações.
Dados do FMI
O portal de dados do FMI é útil para dados econômicos e financeiros. Seja para dados financeiros do FMI, estatísticas do setor externo, publicações de destaque ou dados microeconômicos, você os encontra aqui, com filtros para dados por país.
Ngrams do Google Livros
Se você trabalha com partes da fala e linguagem, o Google Books Ngrams pode ser uma ferramenta útil. O conjunto de dados de código aberto fornece informações sobre o uso de uma palavra ou frase específica ao longo da história ou em um período específico. A fonte desse conjunto de dados são documentos digitais indexados pelo Google.
Dados de mercado: The Financial Times
Se você precisa de dados de mercado de ações globais e regionais precisos, o Markets Data do Financial Times oferece suporte. Ele permite trabalhar com dados de mercado da América, Ásia-Pacífico, Europa, África e do mercado global.
Dados da Terra: NASA
A NASA oferece acesso total e aberto aos seus dados científicos por meio do programa Earth Data, que permite entender nosso planeta e desenvolver projetos relacionados. Você encontrará dados sobre atmosfera, biosfera, criosfera, dimensões humanas, superfície terrestre, oceano, terra sólida, interação sol-terra e hidrosfera terrestre.
Pesquisa de conjunto de dados: Google
Se você é estudante, pesquisador ou cientista de dados procurando conjuntos de dados para seu projeto, pode usar o portal Dataset Search, um motor de busca para conjuntos de dados que possibilita descobrir conjuntos hospedados em vários relatórios da web por meio de pesquisa por palavra-chave.
Dados abertos: CERN
A organização europeia de pesquisa CERN disponibiliza um portal de dados abertos que você pode usar para acessar os dados gerados pela pesquisa no CERN. O portal contém dois petabytes de dados relacionados à física de partículas, além de aplicativos e documentação necessários para análise de dados.
Explorador de dados de crimes: FBI
O Crime Data Explorer (CDE) é o conjunto de dados de código aberto do FBI que busca facilitar o acesso ao compartilhamento de dados criminais, não criminais e de aplicação da lei. Além de visualizar e filtrar dados, a plataforma permite baixar dados em formato CSV.
Palavras finais
Este artigo apresentou uma lista abrangente de conjuntos de dados de alta qualidade. Os dados abrangem diversos nichos, como ciências físicas, registros médicos, pesquisas espaciais, registros criminais, avaliações de produtos, etc.
Escolha um conjunto de dados dependendo do seu projeto de ciência de dados ou aprendizado de máquina. A maioria dos conjuntos de dados também inclui instruções úteis para auxiliar em seu projeto.
Você também pode estar interessado nesses recursos para aprender mais sobre ciência de dados e ML.