Ciência de dados: contextualizar os problemas e dados em python
Colocar o seu problema no contexto correto é uma parte essencial do desenvolvimento de uma solução a ciência de dados com Python para um dado problema e dados associados. ciência dados são definitivamente a ciência aplicada, e abstratas abordagens manuais pode não funcionar tão bem em sua situação específica.
Conteúdo
Executando um cluster Hadoop ou a construção de uma rede neural profunda pode soar legal na frente de colegas e fazer você se sentir que você está fazendo grandes projetos de ciência de dados, mas eles podem não fornecer o que você precisa para resolver seu problema.
Colocar o problema no contexto correto não é apenas uma questão de deliberar se pretende utilizar um determinado algoritmo ou que você deve transformar os dados em uma determinada maneira - é a arte de examinar criticamente o problema e os recursos disponíveis e criar um ambiente no que para resolver o problema e obter uma solução desejada.
O ponto chave aqui é a desejado solução, em que você poderia chegar a soluções que não são desejáveis porque não dizer o que você precisa saber - ou, mesmo quando eles lhe dizer o que você precisa saber, eles perdem muito tempo e recursos.
Avaliando um problema de ciência de dados
Ao trabalhar com um problema de ciência de dados, você precisa começar por considerar o seu objetivo e os recursos que você tem disponível para alcançar esse objetivo. Os recursos são dados, recursos computacionais, como memória disponível, CPUs, e espaço em disco.
Na maioria das vezes, você tem que enfrentar completamente novos problemas, e você tem que construir a sua solução a partir do zero. Durante a sua primeira avaliação de um problema de ciência de dados, você precisa considerar o seguinte:
Os dados disponíveis em termos de acessibilidade, quantidade e qualidade. Você também deve considerar os dados em termos de possíveis vieses que poderiam influenciar ou mesmo distorcer suas características e conteúdo. Os dados nunca contém verdades absolutas, somente verdades relativas que lhe oferecem uma visão mais ou menos úteis de um problema. Sempre estar ciente da veracidade dos dados e aplicar o raciocínio crítico como parte de sua análise do mesmo.
Os métodos que você puderem usar para analisar o conjunto de dados. Considere se os métodos são simples ou complexos. Você também deve decidir quão bem você conhece uma metodologia particular. Comece usando abordagens simples, e nunca se apaixonar por qualquer técnica particular. Não há nem almoços grátis nem Santo Graal na ciência de dados.
As perguntas que você quer responder ao realizar a sua análise e como você pode medir quantitativamente se você conseguiu uma resposta satisfatória para eles. “Se você não consegue medir, você não pode melhorá-lo”, como Lord Kelvin afirmou. Se você pode medir o desempenho, você pode determinar o impacto do seu trabalho e até mesmo fazer uma estimativa monetária. As partes interessadas terá o prazer de saber que você já descobriu o que fazer.
Video: 2015 - Visualização de dados - Parte 1 de 3
pesquisando soluções
ciência de dados é um sistema complexo de conhecimentos, na intersecção da ciência da computação, matemática, estatística e negócios. Se alguém já enfrentou o mesmo problema ou dilemas como você enfrenta, reinventando a roda faz pouco sentido. Agora que você já contextualizada seu projeto, você sabe o que você está procurando e você pode procurá-lo de diferentes maneiras.
Verifique a documentação do Python. Você pode ser capaz de encontrar exemplos que sugerem uma possível solução. NumPy, SciPy, pandas, e especialmente Scikit-learn detalharam in-line e documentação on-line com abundância de exemplos relacionados com a ciência de dados.
Procure artigos online e blogs que fazem alusão a como outros profissionais resolvido problemas semelhantes. Q&A sites como o Quora, Stack Overflow, e cruz Validado pode fornecer-lhe com abundância de respostas para problemas semelhantes.
Consulte trabalhos acadêmicos. Por exemplo, você pode consultar o seu problema em Google Scholar ou Microsoft Academic Search. Você pode encontrar uma série de artigos científicos que podem lhe dizer sobre apara os dados ou detalhar o tipo de algoritmos que funcionam melhor para um problema particular.
Pode parecer trivial, mas as soluções que você cria têm para refletir o problema que você está tentando resolver. Como você pesquisar soluções, você pode achar que alguns deles parecem promissores no início, mas então você não pode aplicá-los com sucesso para o seu caso porque algo em seu contexto é diferente.
Video: Formação Cientista de Dados
Por exemplo, o conjunto de dados podem estar incompletos ou não pode fornecer dados suficientes para resolver o problema. Além disso, o modelo de análise que você selecionar não pode realmente dar a resposta que você precisa ou a resposta pode provar impreciso. Como você trabalha com o problema, não tenha medo de realizar suas pesquisas várias vezes como você descobrir, testar e avaliar possíveis soluções que você poderia aplicar dados os recursos disponíveis e suas limitações reais.
Formular uma hipótese
Em algum ponto, você tem tudo o que você acha que precisa para resolver o problema. Claro, é um erro supor agora que as soluções criadas podem realmente resolver o problema. Você tem uma hipótese, ao invés de uma solução, porque você tem que demonstrar a eficácia da solução potencial de uma forma científica. A fim de formar e testar uma hipótese, você deve treinar um modelo usando um conjunto de dados de treinamento e, em seguida, testá-lo usando um conjunto de dados totalmente diferente.
Apara seus dados
Depois de ter alguma idéia do problema e sua solução, você sabe as entradas necessárias para fazer o trabalho algoritmo. Infelizmente, os dados provavelmente aparece em múltiplas formas, você obtê-lo a partir de múltiplas fontes, e alguns dados são totalmente ausente. Além disso, os desenvolvedores dos recursos que as fontes de dados existentes fornecem pode criaram-los para fins diferentes do seu e você tem que transformá-los para que você possa usar o seu algoritmo em seu poder máximo.
Para fazer o trabalho algoritmo, você deve aparar os dados. Isto significa verificar se há falta de dados, a criação de novos recursos, conforme necessário, e possivelmente manipular o conjunto de dados para obtê-lo em uma forma que o seu algoritmo pode realmente usar para fazer uma dicção.