Suavização de dados em excel
Os estatísticos geralmente tem que olhar para as grandes massas de dados e encontrar padrões difíceis de ver. Às vezes, uma tendência global sugere uma ferramenta analítica particular. E às vezes essa ferramenta, embora estatisticamente poderoso, não ajuda o estatístico chegar a uma explicação.
Conteúdo
Video: 1 SEGREDO PARA PERSONALIZAR SEGMENTAÇÃO DE DADOS NO EXCEL | DASHBOARD EXCEL |
A figura a seguir é um gráfico de home runs atingidas na liga americana de 1901 até 2008.
A tendência geral óbvia é que, como o passar dos anos, mais home runs são atingidos. Montagem de uma linha de regressão confirma esta ideia. A equação
Home Runs = 24,325 * Year - 465395
é um excelente ajuste aos dados. A equação dá um valor de R-Squared de 0,91, indicando que um modelo linear bem descreve a relação entre home runs e anos.
E entao . . . o que?
Apenas montagem de uma linha de regressão escamoteia coisas importantes dentro de beisebol - coisas grandes e pequenas que compõem a temporada de beisebol, uma época, uma história. E beisebol tem muitas dessas coisas. O objetivo é levá-los a revelar-se.
O outro extremo da linha de regressão é a de ligar os pontos. Isso seria apenas dar um monte de ziguezagues que provavelmente não vai iluminar um século de história.
O problema é como resumir sem eliminar demais: se livrar dos ziguezagues, mas manter os picos e vales importantes. Como você faz isso sem saber o que é importante com antecedência?
análise exploratória de dados (EDA) ajuda a apontar o caminho. Uma técnica EDA é chamado suavização de três mediano. Para cada ponto de dados em uma série, substitua esse ponto de dados com a média de três números: o próprio ponto de dados, os dados apontam que o precede, e o ponto de dados que se segue.
Por que a mediana? Ao contrário a média, a mediana não é sensível a valores extremos que ocorrem uma vez em algum tempo - como um zig zag ou um. O efeito é o de filtrar o ruído e deixar ups significativas e baixos.
Por três números? Como a maioria tudo em EDA, que não é ferro. Para alguns conjuntos de dados, você pode querer a mediana para cobrir mais números. É até as intuições, experiências e idéias do analista.
Outra técnica, Hanning, é uma média ponderada em execução. Você substituir um ponto de dados com a soma de um quarto do ponto de dados anterior mais a metade do ponto de dados mais de um quarto do ponto de dados seguinte. Ainda outra técnica é a pular significa.
Em EDA, você não apenas usar uma técnica em um conjunto de dados. Muitas vezes, você começa com um suave mediana, repeti-lo várias vezes, e em seguida, tentar um ou dois outros.
Para os dados no gráfico de dispersão, aplicar o bom três mediana, repeti-lo (ou seja, aplicá-lo com os dados recém-suavizadas), Han os dados suavizados, e em seguida, aplicar o salto dizer. Mais uma vez, nenhuma técnica (ou ordem de técnicas) é certo ou errado. Você aplicar o que você acha que ilumina características significativas dos dados.
A seguir é parte de uma planilha para tudo isso. Coluna A mostra do ano, e coluna B mostra o número de home runs bater esse ano na liga americana. As restantes colunas mostram suaviza sucessivas dos dados.
Coluna C aplica-se o bom três mediana para a Coluna B, e Coluna D aplica-se o bom três mediano para coluna C. Uma rápida olhada nos números mostra que a repetição não faz muita diferença. Coluna E aplica Hanning a coluna D, e aplica-se a Coluna F Ir significar a coluna E.
Nas colunas C a F, o número real de home runs é usado para o primeiro valor (para o ano de 1901) e para o valor final (para o ano 2008).
Você pode facilmente ver o efeito de cada técnica de alisamento sucessivos na linha suavizada. A chave é para a direita; clique na área de desenho e escolha Selecionar dados no menu pop-up. Clique no nome da série de dados que representa a linha alisada, edite o intervalo de células da série para refletir a coluna que contém a técnica de alisamento particular, e clique em OK para fechar as caixas de diálogo edição.
E agora a história começa a se revelar. Em vez de uma linha de regressão que só lhe diz que home runs aumento como o passar dos anos, os altos e baixos estimular o pensamento a respeito de porque eles estão lá. Aqui está uma versão altamente abreviada da história do beisebol consistente com as voltas e reviravoltas da linha suavizada.
A baixa segmento plano de 1901 e 1920 significa a “era de bola morta,” num momento em que a composição de uma bola de beisebol inibida bateu bolas de ir longe o suficiente para se tornar home runs.
Video: Consolidação de Dados com Excel.mp4
Explorar e visualizar os dados estimula a reflexão sobre o que está produzindo os padrões os Descobre exploração. A especulação leva a hipóteses testáveis, que levam a análise.