26 conjuntos de dados abertos incríveis para seus projetos de ciência de dados/ML

A busca pelos conjuntos de dados certos pode ser assustadora, especialmente quando você precisa deles para projetos de aprendizado de máquina (ML) e ciência de dados. Reduzimos seus esforços de pesquisa fornecendo a lista definitiva de conjuntos de dados gratuitos.

Conjuntos de dados são simplesmente coleções de dados. Pode ser financeiro, saúde da comunidade, dados do mercado de ações, dados bancários, dados geográficos, dados de pesquisa científica de partículas, classificações de produtos em um site de comércio eletrônico etc.

Os conjuntos de dados contêm dados coletados por meio de um padrão de pesquisa científica e são importantes para visualização, extração, previsão, etc. Como os dados são equivalentes ao petróleo bruto no universo digital, os conjuntos de dados estão se tornando comerciais e escassos.

Continue lendo para descobrir o básico sobre conjuntos de dados. Você também descobrirá alguns conjuntos de dados de código aberto que são realmente gratuitos para seus projetos de aprendizado de máquina (ML) ou ciência de dados.

O que são conjuntos de dados?

Conjuntos de dados são a coleção de dados em um contêiner estruturado e organizado. Normalmente, os pesquisadores associam conjuntos de dados a um corpo único, por exemplo, Dados Abertos do Banco Mundial.

Novamente, os coletores de dados mantêm os conjuntos de dados específicos para um tópico como os Dados do Censo de 2020 dos Estados Unidos da América publicados pelo United States Census Bureau.

Você encontrará muitos conjuntos de dados sobre questões globais e locais. A maioria dos conjuntos de dados contém pontos de dados inter-relacionados. Por exemplo, a população de um país e como a obesidade se relaciona com as diferentes classes dessa população.

Os cientistas de dados podem precisar limpar, reestruturar e processar esses conjuntos de dados usando ferramentas de big data para chegar a conclusões valiosas, como reduzir o desperdício de plástico analisando dados de uso de plástico, remediar problemas de força de trabalho analisando dados salariais, treinando inteligência artificial (IA) e assim por diante. sobre.

Tipos de conjuntos de dados

Dependendo da origem dos conjuntos de dados, eles podem ser públicos ou privados. Os conjuntos de dados públicos são abertos a todos e contribuem muito para a pesquisa e o desenvolvimento.

Novamente, os conjuntos de dados podem ser dos seguintes tipos, dependendo das informações contidas neles:

  • Multivariado: Esses dados contêm várias variáveis.
  • Categórico: Retrata muitas categorias de pessoas.
  • Numérico: Esses conjuntos de dados medem dados em números como idade, altura, etc.
  • Correlação: Neste tipo, os pontos de dados são inter-relacionados.
  • Baseado em arquivo: aqui, os conjuntos de dados são armazenados em arquivos.
  • Bivariado: Um conjunto de dados com duas variáveis ​​e um relacionamento entre elas.
  • Conjunto de dados da Web: Dados coletados de um ou vários portais de internet semelhantes.
  • Banco de dados: Esses conjuntos de dados armazenam dados em tabelas, colunas e linhas.
  Como fazer backup e restaurar sua ilha 'Animal Crossing: New Horizons'

Conjuntos de dados de código aberto para projetos de ciência de dados

Conjuntos de dados gratuitos são o combustível para impulsionar sua paixão por uma carreira em ciência de dados. Porque se você está nos estágios iniciais de sua carreira em ciência de dados, talvez queira assumir projetos pessoais e não comerciais para autoconfiança ou construção de portfólio.

Primeiro, você pode testar facilmente suas habilidades recém-adquiridas aplicando ferramentas e técnicas a problemas de conjuntos de dados do mundo real.

Por exemplo, existem dados de pesquisa de câncer disponíveis gratuitamente, dados Covid-19, dados de registros criminais do FBI, dados de análise de partículas do CERN etc. Você pode usar esses dados e criar um modelo de ciência de dados para responder a questões sociais, financeiras e de saúde vitais .

Em segundo lugar, esses projetos funcionam como potencializadores de portfólio para sua carreira. Se você puder criar um modelo de análise de dados bem-sucedido que possa oferecer insights acionáveis, poderá exibir esses modelos on-line criando sites de portfólio. Os empregadores preferem projetos a declarações de propósito.

Conjuntos de dados gratuitos para projetos de aprendizado de máquina

Assim como um profissional de ciência de dados, um profissional de ML também deve trabalhar em projetos autogerenciados para examinar suas habilidades. Se o projeto for bem-sucedido, ele também se tornará um componente ideal para seu portfólio online ou offline de projetos de ML.

Portanto, agora você pode entender que a ciência de dados e o crescimento de ML dependem de conjuntos de dados estruturados. Se esses conjuntos de dados fossem muito comercializados, a pesquisa e o desenvolvimento no campo da ciência de dados se tornariam totalmente centrados nas empresas.

Para manter a pesquisa de ML de ciência de dados aberta a todos, as seguintes agências, instituições e plataformas oferecem conjuntos de dados gratuitos:

Data.gov

Você encontrará todos os dados abertos coletados e processados ​​pelo governo dos EUA. em Data.gov. A plataforma também oferece recursos e ferramentas para realizar pesquisas, projetar visualizações de dados, desenvolver aplicativos móveis/web, etc.

Seus conjuntos de dados notáveis ​​incluem dados de uso sustentável da terra, dados de habitação rural, cartas eletrônicas de navegação interior, etc.

Conjuntos de dados abertos: Kaggle

Kaggle oferece um oceano de dados públicos e códigos de computador para projetos de ciência de dados. Você pode selecionar Conjuntos de dados para dados brutos e Código para códigos de programação. Os conjuntos de dados de tendências no Kaggle são dados AMEX, Simpsons Viewership, dados de treinamento do Chatbot, etc.

Conjuntos de dados do segmento: YouTube 8-M

Os conjuntos de dados de segmento do YouTube 8-M oferecem anotações de segmento verificadas por auditores humanos. Você também pode acessar o conjunto de dados do YouTube-8M no mesmo portal. O conjunto de dados contém 6,1 milhões de IDs de vídeo, 350.000 horas de vídeo, 2,6 bilhões de recursos audiovisuais, 3863 classes de vídeos e, em média, 3,0 rótulos por vídeo.

Registro de dados abertos na AWS

O ROD na AWS ajuda os cientistas de dados a compartilhar e descobrir conjuntos de dados hospedados em recursos da AWS. Alguns conjuntos de dados interessantes que você pode encontrar aqui são The Cancer Genome Atlas, Foldingathome COVID-19 Datasets, Common Crawl, etc.

  Como encontrar ocultar meu e-mail no aplicativo de e-mail

Repositório de aprendizado de máquina: UCI

Atualmente, o UCI Machine Learning Repository mantém 622 conjuntos de dados adequados para cientistas de dados e engenheiros de ML treinarem seus modelos de IA. Além disso, há uma interface pesquisável para pesquisar os bancos de dados. As atrações populares são o conjunto de dados Accelerometer, o conjunto de dados Synchronous Machine, o Wikipedia Math Essentials, o conjunto de dados Turkish Headlines, etc.

Conjuntos de dados públicos do BigQuery: Google Cloud

Muitos conjuntos de dados públicos são armazenados no BigQuery. O Google torna o conjunto de dados acessível gratuitamente por meio do Programa Google Cloud Public Dataset. No entanto, a consulta gratuita tem um limite de 1 TB por mês. Você pode executar consultas SQL padrão e SQL herdada.

Conjuntos de dados públicos incríveis: GitHub

Awesome Public Datasets é um conjunto de dados de código aberto que contém dados públicos centrados em tópicos. Coletado e classificado de vários blogs, respostas e comentários de usuários, ele combina conjuntos de dados gratuitos e pagos sobre física, esportes, software, linguagem natural e aprendizado de máquina.

Dados do Banco Mundial

O World Bank Open Data é a plataforma onde você obtém acesso gratuito aos dados de desenvolvimento global. Ele também oferece outros recursos valiosos, como tabelas e relatórios pré-formatados. Você pode navegar facilmente por país ou indicador para obter o conjunto de dados necessário.

Cinco Trinta e Oito: Dados

FiveThirtyEight é um site americano que lida com análise de pesquisas de opinião, política, economia e esportes. Você pode acessar essas pesquisas e previsões por meio de conjuntos de dados de sua plataforma. Você pode baixar os conjuntos de dados em um clique.

ImageNet

ImageNet é um banco de dados de imagens do qual pesquisadores em todo o mundo podem obter conjuntos de dados de código aberto para seus projetos não comerciais. Aqui, as imagens são organizadas com base na hierarquia WordNet. O projeto desempenha um papel vital na pesquisa de aprendizado profundo de nível avançado.

Arquivos de conjuntos de dados: DADOS UNICEF

Usando os Arquivos de Conjuntos de Dados, você pode obter conjuntos de dados coletados pelo UNICEF em todo o mundo. Dados sobre migração, deslocamento, dieta, conectividade, educação, saúde, aprendizagem, mortalidade, violência, desenvolvimento infantil, casamento infantil, trabalho infantil e várias estatísticas estão disponíveis aqui.

Encontre dados abertos: Govt. do Reino Unido

Se o seu projeto precisa de dados publicados por órgãos locais e pelo governo central do Reino Unido, o Find Open Data é o portal que você deve conferir. Abrange gastos governamentais, negócios, saúde, educação, defesa e mais conjuntos de dados.

Dados: United States Census Bureau

Você precisa de dados do Censo dos EUA para um projeto relevante? Você pode obter assistência da USCB Data. Aqui, você pode explorar dados, tabelas, mapas e perfis de dados do censo de 2020 enquanto visualiza dados e usa ferramentas de dados.

Dados e Estatísticas: CDC

A agência federal dos Estados Unidos, Centers for Disease Control and Prevention, também fornece conjuntos de dados gratuitos ao público para acessar dados e estatísticas deste portal. Os tópicos do conjunto de dados são Saúde Ambiental, Doenças Crônicas, Nascimentos e Natalidade, Mortes e Mortalidade, Expectativa de Vida, Lesões e Violência, Saúde Reprodutiva, Doenças de Notificação Nacional, etc.

Conjuntos de dados: MIT

Este conjunto de dados se concentra em dados de vibração induzidos por vórtices. O Centro de Engenharia Oceânica do MIT hospeda alguns conjuntos de dados disponíveis publicamente para benchmarking de código de computador. Os conjuntos de dados estão abertos a todos para convidar novas teorias dos dados e sincronizar pesquisadores que trabalham no mesmo campo.

  Como adicionar o DNS do Google no seu iPhone

Catálogo de Dados do Banco Mundial

O Catálogo de Dados coleta conjuntos de dados gratuitos que tornam os dados relacionados ao desenvolvimento do Banco Mundial facilmente acessíveis. Usá-lo em vários projetos é muito fácil, pois você pode facilmente encontrar e baixar suas informações preferidas. Ele contém mais de 5.000 conjuntos de dados que abrangem as plataformas de microdados, finanças e energia do Banco Mundial.

Dados Científicos Espaciais da NASA

A NASA oferece acesso aos seus dados de arquivo no Space Science Data Coordinated Archive. Esta plataforma é uma grande ajuda para o público em geral, especialmente para as pessoas que trabalham na educação e na pesquisa espacial. Possui 400 TB de dados digitais contendo informações sobre 550 ciências espaciais.

Obtenha os dados: por dentro do Airbnb

O Airbnb é um mercado online de renome mundial para casas de família e aluguéis de temporada. Ele também oferece coleta de dados em várias cidades do mundo a partir do Get the Data. Você pode navegar pela cidade para obter os dados rapidamente. Além disso, você pode solicitar seus dados necessários e ler suposições de dados neste portal.

Dados da Web: Amazon Reviews

Os interessados ​​em pesquisas de mercado e análises de produtos devem usar os conjuntos de dados fornecidos pelo Snap Web Data. Ele contém mais de 34 milhões de avaliações de usuários na Amazon, de junho de 1995 a março de 2013. O conjunto de dados contém texto simples, informações sobre produtos, nome de usuário, classificações e uma avaliação.

Dados do FMI

O portal de dados do FMI é valioso para todos os tipos de dados econômicos e financeiros. Esteja você procurando dados financeiros do FMI, estatísticas do setor externo, publicações emblemáticas ou dados de microeconomia, é aqui que você pode encontrá-los. Além disso, você pode usar um filtro para obter dados por país.

Ngrams do Google Livros

Se você estiver trabalhando em partes da fala e linguagem, o Google Books Ngrams pode ajudá-lo significativamente. Esse conjunto de dados de código aberto fornece uma ideia sobre o uso de uma palavra e frase específica ao longo da história ou em um intervalo de tempo específico. A fonte desse conjunto de dados são os documentos digitais indexados pelo Google.

Dados de mercado: The Financial Times

Se você deseja obter dados de mercado de ações globais e regionais confiáveis ​​e precisos, o Markets Data do Financial Times está aqui para ajudá-lo. Ele permite que você trabalhe com dados de mercado da América, Ásia-Pacífico, Europa, África e do mercado global.

Dados da Terra: NASA

A NASA fornece acesso total e aberto aos seus dados científicos por meio do programa Earth Data, que ajuda você a entender nosso planeta natal e fazer projetos com ele. Você pode encontrar conjuntos de dados gratuitos sobre atmosfera, biosfera, criosfera, dimensões humanas, superfície terrestre, oceano, terra sólida, interação sol-terra e hidrosfera terrestre.

Pesquisa de conjunto de dados: Google

Se você for um estudante, pesquisador ou cientista de dados procurando conjuntos de dados para dar suporte ao seu projeto, você pode obter assistência no portal Dataset Search. Você pode chamá-lo de mecanismo de pesquisa para conjuntos de dados, pois permite descobrir conjuntos de dados hospedados em vários relatórios na Web por meio de pesquisa por palavra-chave.

Dados abertos: CERN

A organização europeia de pesquisa CERN tem um portal de dados abertos que você pode usar para acessar os dados gerados pela pesquisa no CERN. Este portal de conjunto de dados contém dois petabytes de dados relacionados à física de partículas. Além disso, ele vem com aplicativos e documentação necessários para análise de dados.

Explorador de dados de crimes: FBI

O Crime Data Explorer (CDE) é o conjunto de dados de código aberto do FBI que visa fornecer acesso mais fácil ao compartilhamento de dados criminais, não criminais e de aplicação da lei. Além de permitir que você descubra os dados necessários por meio de visualização e filtragem de categorias, esta plataforma permite baixar dados em formato CSV.

Palavras finais

Até agora, você passou por uma lista realmente exaustiva de conjuntos de dados de alta qualidade. O artigo apresenta dados de vários nichos, como ciências físicas, registros médicos, pesquisas espaciais, registros criminais, classificações de produtos, etc.

Dependendo do projeto de ciência de dados ou aprendizado de máquina que você está fazendo, você pode escolher. Quase todos os conjuntos de dados também possuem instruções adequadas para ajudá-lo em seu projeto.

Você também pode estar interessado nesses recursos para aprender ciência de dados e ML.