10 Conjuntos de dados públicos e onde encontrá-los

Video: Grings - Moda, Média e Mediana aula 4

conjuntos de dados públicos são muito grandes conjuntos de dados que estão livremente disponíveis para você download ou conectam a via nuvem. Existem vários sites bem-curadoria com as últimas informações sobre conjuntos de dados públicos e como usá-los, incluindo o seguinte:

  • Amazon Web Services: Atualmente 56 conjuntos de dados públicos que residem na Amazon Web Services disponíveis para o público.

  • Open Science Nuvem de Dados: O Open Science Nuvem de Dados é um consórcio patrocinado pela Fundação Gordon e Betty Moore, Yahoo !, CISCO, e da National Science Foundation.

  • BigData-Comece: BigData-Startup é um recurso online para todas as coisas de big data. Esta lista contém uma longa lista de organizações que hospedam bancos de dados públicos.

Há todos os tipos de conjuntos de dados para classificar através de, a partir de projetos genoma de weblogs para e-mails de empresas notórios. Aqui estão dez conjuntos de dados públicos e onde você pode ir para começar:

Video: Matemática - Conjuntos Numéricos

Projeto 1000 genomas (200TB): O Projeto 1000 Genomas é patrocinado pela Amazônia e do Centro Nacional de Informações sobre Biotecnologia. Este conjunto de dados contém conjuntos de dados de mais de 2.600 pessoas de 26 populações diferentes de todo o mundo.

  • Conclua Genomas dados públicos (50 TB): Este é um dado genoma sequenciado de Complete Genomics, uma empresa que presta serviços de sequenciação do genoma.

  • Earth Observing-1 Mission (80.5TB): NASA abriu a visão panorâmica da Terra. Estes são os dados recolhidos pelo Advanced Land Imager (ALI). Esta informação é usada para melhor compreender como eventos Terra como vulcões, incêndios florestais e inundações evoluir com o tempo e afetam o nosso planeta.



  • Comum Crawl Corpus (541TB): Alguma vez você já quis começar suas mãos em dados de rastreamento para bilhões de páginas da web com trilhões de links? Aqui está sua chance. O Crawl Corpus comum fornece um rico conjunto de ferramentas, exemplos e projetos que você pode saltar para hoje.

  • Marvel Universe Social Graph (1GB): Este é um olhar divertido na conexão social do mundo Marvel de caracteres. Os fundadores afirmam que a análise deste mundo social é notavelmente perto de nossa própria.

    Video: Raciocínio Lógico para concursos públicos - Teoria dos Conjuntos - Parte 01

  • Os e-mails da Enron (210GB): Esses e-mails - todos os 1,2 milhões, com quase 500.000 anexos - foram libertados como parte da investigação da Federal Energy Regulatory Commission para a firma infame.

  • Dataset Amostra milhões Canção (500GB): Você está procurando conjuntos de dados em um milhão de canções populares? Não procure mais. The Million Canção Dataset contém alguns recursos de áudio e metadados para um milhão de canções populares.

    Video: Me Salva! Vestibular - Como encontrar o número de divisores de um número?

  • projeto Gutenberg (742GB): Projeto Gutenberg faz mais de 46.000 livros disponíveis para análise. Estes livros estão agora no domínio público porque seus direitos autorais já expiraram.

  • U.S. Census conjuntos de dados (1,8 TB): A cada dez anos, os Estados Unidos devem fazer um censo. O principal objectivo deste é garantir uma boa distribuição dos assentos parlamentares.

  • NOAA Centro Nacional de Dados Climáticos (3,3 TB): Não acredite no aquecimento global ou as alterações climáticas? Validá-lo (ou invalidá-la) você mesmo. Este conjunto de dados contém dados sobre mais de 150 anos de tempo de muitas fontes que vão de estações meteorológicas para leituras aeroporto de dados de satélite.

    Você pode olhar para coisas como pontos de orvalho, velocidade do vento e temperatura. Pode ser interessante olhar para as correlações entre este conjunto de dados e da Amostra Million Song. Existe uma ligação entre tempo e bater recordes? Soa como uma grande questão de dados grande para alguém para responder. . . .


  • Publicações relacionadas