Nota: O seguinte artigo irá ajudá-lo com: Onde encontrar conjuntos de dados? [Top 10 Repositories]
Os conjuntos de dados são o pão com manteiga dos analistas de dados. Se você já realizou pesquisas analíticas com várias variáveis, sabe como elas são vitais. Então, onde encontrar conjuntos de dados ao realizar pesquisas?
Felizmente, várias plataformas online hospedam e fornecem serviços de conjunto de dados. Vamos explorar vários repositórios e aprofundar um pouco mais os conjuntos de dados.
O que é um conjunto de dados?
Simplificando, é uma coleção de informações específicas.
Os conjuntos de dados do Excel vêm principalmente em forma de tabela. Geralmente existem variáveis que representam diferentes facetas de um fenômeno. Um exemplo são os detalhes tabularizados sobre os locais de distribuição de um produto ou serviço com base em diferentes critérios, como faixa etária.
Em outras palavras, consiste em variáveis e valores correspondentes. A melhor maneira de criá-lo é usar um módulo ou pacote de dados. Hoje, existem vários pacotes de software que você pode empregar para criar um armazenamento de dados.
O primeiro o é coletar as informações. Dependendo da área de estudo ou interesse, vários métodos são utilizados, tais como:
- Testes
- Questionários
- Formulários de pesquisa on-line
- Sistemas de gerenciamento de casos
- Registros de dados
- Sistemas de relatórios.
Os conjuntos de dados CSV geralmente consistem em linhas, números inteiros e colunas de dados abertos. Os analistas costumam usar software de visualização de dados, como o SPSS, para desvendar os segredos internos de cada conjunto. Esta ferramenta analisa conjuntos de dados numéricos com algoritmos exclusivos, garantindo a apresentação eficaz de seus resultados.
Onde encontrar conjuntos de dados?
Os conjuntos de dados não são tão difíceis de encontrar quanto você pode imaginar. Muitas agências e organizações privadas armazenam grandes quantidades de informações. Nos últimos anos, cada vez mais se tornaram públicos – oferecendo conjuntos de graça. Um excelente exemplo disso é quando a Amazon tornou seu banco de dados ível no Open Registry.
Muitos bancos de dados estão disponíveis online. Armazenados digitalmente em diferentes formatos, incluindo CSV, estudantes e pesquisadores podem baixá-los para uso.
Vamos dar uma olhada nos dez principais repositórios para conjuntos de dados gratuitos.
Como uma das empresas de tecnologia, o Google é um gigante na coleta de dados. Não é de surpreender, então, que ele ofereça um tesouro de informações.
Os conjuntos de dados públicos do Google oferecem uma excelente solução para analistas que procuram conjuntos de dados gratuitos e de código aberto para apoiar suas pesquisas. Sua versão beta surgiu em 2018 e ficou disponível publicamente no início de 2020.
A Pesquisa de conjuntos de dados do Google fornece conjuntos de dados on-line gratuitos para alunos e projetos. Após fazer no portal, você pode realizar pesquisas intuitivamente.
Existem milhares de conjuntos de dados disponíveis, incluindo o Repositório de Dados Abertos COVID-19. Esse conjunto de dados inclui informações coletadas do Eurostat, da OMS, do New York Times e de outras fontes. Ele pode ser baixado como conjuntos de dados gratuitos do Excel.
Seja você um cientista de dados ou um estudante, esta é uma solução ideal para quem deseja realizar pesquisas aprofundadas.
Kaggle
A Google, empresa controladora da Kaggle, a fundou em 2010 como um fórum público para gurus de dados e entusiastas de aprendizado de máquina. O Kaggle permite que os usuários coletem e publiquem seus conjuntos de dados exclusivos.
Além disso, cria modelos de forma colaborativa com outros cientistas de dados. Ao fazer isso, eles competem para fornecer soluções funcionais para vários desafios da ciência de dados.
Se estiver preocupado em como encontrar conjuntos de dados, o Kaggle deve ser uma de suas primeiras opções. Possui uma vasta gama de CSVs relacionados a negócios adequados para pesquisas inovadoras para empresas. Os conjuntos de dados do Kaggle são gerados principalmente a partir de redes neurais, pesquisas acadêmicas de pós-graduação e contribuições pessoais de cientistas de dados.
AWS (Amazon Web Services)
Como varejista online líder mundial, a Amazon cresceu para fornecer muitos produtos e serviços ao longo dos anos. Dentro do setor de tecnologia e informação digital, a Amazon lançou seu Registro de Dados Abertos em 2018, fornecendo conjuntos de dados online gratuitos.
Este repositório possui conjuntos de dados de negócios e outros que abrangem geografia e saúde pública. Há uma ênfase particular neste último com esforços para rastrear a gênese genética do genoma do câncer em um esforço para erradicar diferentes formas desta doença.
Para garantir a conformidade com as melhores práticas digitais, os usuários devem seguir diretrizes rígidas ao adicionar conjuntos ao Registro de Dados Abertos. Há uma barra de pesquisa dedicada para navegar até os tópicos de interesse. Antes de fazer ou ar quaisquer dados, os usuários devem criar uma conta da AWS. Uma versão gratuita está disponível.
Os analistas podem ar conjuntos de dados estatísticos na forma de planilhas de dados do Excel que são compatíveis com o Hadoop e o programa EC2 dedicado da AWS.
NASA
Em 2016, a NASA lançou sua câmara de compensação de publicações técnicas e científicas para o público em geral com DATA.NASA.GOV.
Enquanto algumas plataformas fornecem uma grande variedade de conjuntos de dados, algumas se concentram em disciplinas específicas. Não é surpresa que a NASA ofereça uma seleção impressionante de folhas relacionadas à ciência relevantes para:
- Aeronáutica
- Engenharia espacial
- Ciência da Terra
- Estudos geoespaciais
- Ciência atmosférica.
Seus conjuntos de dados públicos estão disponíveis gratuitamente em seu portal, oferecendo ampla oportunidade para os pesquisadores classificarem dados relacionados à terra e ao espaço no formato CSV.
Data.Gov
Estudantes e cientistas de dados interessados nos EUA encontrarão no Data.gov um recurso valioso com conjuntos de dados de código aberto.
Criado em 2009, o Data.gov inicialmente forneceu o a conjuntos de dados do Poder Executivo. Hoje, o Data.gov é um repositório abrangente que hospeda mais de 200.000 conjuntos de dados de pesquisa cobrindo uma ampla variedade de tópicos.
Esse banco de dados fácil de usar permite que os pesquisadores restrinjam as pesquisas com base no formato do arquivo, organização e localização geográfica. Você também pode selecionar o nível de governo da sua pesquisa.
O Data.gov é ideal para quem busca informações específicas dos EUA sobre tópicos como psicologia, crime, clima e muito mais.
Dados abertos do Banco Mundial
O Banco Mundial também fornece dados nominais de código aberto para analistas interessados.
Sua iniciativa de dados abertos recentemente resultou no agrupamento de conjuntos de dados agregados em um único banco de dados disponível publicamente.
Com o por meio de seu portal, os usuários podem pesquisar palavras-chave, indicadores ou nacionalidades. Alguns exemplos destes incluem:
- Desenvolvimento agrícola, rural, urbano e social
- Proteção e trabalho
- Gênero
- Espanhol.
Com base em modelos econômicos e suas atividades globais em várias esferas, seus conjuntos de dados públicos gratuitos são frequentemente relevantes para pesquisadores com interesses em finanças e geografia.
Datahub.io
Como um dos bancos de dados online mais populares, o Datahub é uma ótima opção para encontrar conjuntos de dados interessantes e especializados.
Seus fundadores o descrevem como um meio de armazenar, compartilhar, publicar, inspecionar e processar dados usando os melhores métodos e ferramentas. As tabelas do banco de dados são abrangentes e apresentam informações brutas sobre tópicos como:
- Preços de propriedades
- Logística
- Inflação
- Mercado de ações.
Com o Datahub, empreendedores e analistas de dados podem fazer inferências relevantes para melhorar suas decisões de negócios. Os documentos de amostra são atualizados regularmente, portanto, há uma variedade interminável de planilhas.
O Datahub permite que especialistas usem ferramentas de análise estatística como SPSS e APIs relevantes para vasculhar os dados. Esse processo eficaz evita a necessidade de processar meticulosamente as estatísticas no Excel.
Cinco Trinta e Oito
Poucas fontes fornecem grandes conjuntos de dados mais abrangentes relacionados à política e esportes dos EUA. Os usuários podem baixar seus conjuntos gratuitos de código aberto para uso offline com o a informações brutas e visualizações de dados.
A plataforma de jornalismo de dados autodescrito começou a operar em 2008, e o New York Times posteriormente a apresentou em 2010 – principalmente com base em suas previsões eleitorais bem-sucedidas. A gigante da transmissão esportiva ESPN adquiriu os direitos do site três anos depois. Desde então, tornou-se um hub para obter conjuntos de dados sobre atletas.
Seus conjuntos de dados incluem informações sobre clubes de futebol, NBA, NFL e eventos esportivos profissionais. Além disso, há muitos exemplos de conjuntos de dados sobre tópicos de pesquisa obscuros.
O site também fornece amostras de dados e armazena informações sobre a política dos EUA, como debates no Congresso, previsões eleitorais, psicologia eleitoral e outras tendências.
Notícias do BuzzFeed
O BuzzFeed se destaca em visualizações de dados com vários guias, ferramentas, bibliotecas e conjuntos de dados. Como uma empresa de mídia fundada em 2006, ela cresceu de força em força, desenvolvendo suas próprias tabelas de banco de dados com conjuntos de dados concisos baseados no GitHub.
O repositório do Buzzfeed fornece conjuntos de dados públicos abrangentes sobre pandemias e vírus, economia, política e geoestatística.
Por exemplo, existem conjuntos de dados sobre vigilância do governo, salário mínimo e mensalidades universitárias. Além disso, as partes interessadas podem encontrar conjuntos específicos relacionados à saúde, incluindo dados sobre o vírus Zika.
Também é interessante que o Buzzfeed oferece conjuntos de dados para realizar verificações de antecedentes em compras de armas de fogo.
Torrentes Acadêmicos
Lançada em 2013 como um projeto independente do Institute for Reproducible Research, esta plataforma utiliza o BitTorrent como protocolo de compartilhamento de arquivos e meio de distribuição de arquivos digitais.
Embora menos conhecido do que muitas outras fontes de conjuntos de dados online, ele facilita de forma exclusiva a transferência de conjuntos de dados por meio de s de torrent. Isso permite maior anonimato ao adquirir conjuntos de dados.
Embora os torrents sejam um tema quente de debate entre os puristas legais, ele continua popular. Os Academic Torrents permitem que analistas competentes distribuam trabalhos de pesquisa e hospedem conjuntos de dados para outros.
Ao fazer isso, há o gratuito ilimitado aos seus conjuntos de dados CSV e Excel. Complementando isso, os usuários podem fazer backup de dados com diferentes semeadores em todo o mundo. E, por último, sua interface suave o torna uma excelente opção para pesquisadores que desejam baixar conjuntos de dados facilmente.
Um de seus conjuntos de dados mais exclusivos é o Developing Human Connectome Project. Ele contém informações sobre a anatomia e funcionalidade do cérebro.
Empacotando
Os conjuntos de dados provam ser úteis sempre. Eles são ótimos para analisar práticas da vida real para obter deduções relevantes para resolver problemas do mundo real. Com tantas informações capturadas digitalmente disponíveis, os repositórios de dados entraram em cena para garantir o o e o armazenamento.
E embora existam muitas plataformas que vendem dados, esses dez repositórios de dados são excelentes fontes de conjuntos de dados públicos gratuitos. Um benefício adicional é que muitas das plataformas usam combinação de dados de várias fontes para fornecer experiências abrangentes de visualização de dados.
No mundo conectado de hoje, pesquisadores e estudantes têm à sua disposição grandes quantidades de conjuntos de dados.