Suavização de dados em excel

Os estatísticos geralmente tem que olhar para as grandes massas de dados e encontrar padrões difíceis de ver. Às vezes, uma tendência global sugere uma ferramenta analítica particular. E às vezes essa ferramenta, embora estatisticamente poderoso, não ajuda o estatístico chegar a uma explicação.

Video: 1 SEGREDO PARA PERSONALIZAR SEGMENTAÇÃO DE DADOS NO EXCEL | DASHBOARD EXCEL |

A figura a seguir é um gráfico de home runs atingidas na liga americana de 1901 até 2008.

A tendência geral óbvia é que, como o passar dos anos, mais home runs são atingidos. Montagem de uma linha de regressão confirma esta ideia. A equação

Home Runs = 24,325 * Year - 465395

é um excelente ajuste aos dados. A equação dá um valor de R-Squared de 0,91, indicando que um modelo linear bem descreve a relação entre home runs e anos.

E entao . . . o que?

Apenas montagem de uma linha de regressão escamoteia coisas importantes dentro de beisebol - coisas grandes e pequenas que compõem a temporada de beisebol, uma época, uma história. E beisebol tem muitas dessas coisas. O objetivo é levá-los a revelar-se.

O outro extremo da linha de regressão é a de ligar os pontos. Isso seria apenas dar um monte de ziguezagues que provavelmente não vai iluminar um século de história.

O problema é como resumir sem eliminar demais: se livrar dos ziguezagues, mas manter os picos e vales importantes. Como você faz isso sem saber o que é importante com antecedência?

análise exploratória de dados (EDA) ajuda a apontar o caminho. Uma técnica EDA é chamado suavização de três mediano. Para cada ponto de dados em uma série, substitua esse ponto de dados com a média de três números: o próprio ponto de dados, os dados apontam que o precede, e o ponto de dados que se segue.

Por que a mediana? Ao contrário a média, a mediana não é sensível a valores extremos que ocorrem uma vez em algum tempo - como um zig zag ou um. O efeito é o de filtrar o ruído e deixar ups significativas e baixos.



Por três números? Como a maioria tudo em EDA, que não é ferro. Para alguns conjuntos de dados, você pode querer a mediana para cobrir mais números. É até as intuições, experiências e idéias do analista.

Outra técnica, Hanning, é uma média ponderada em execução. Você substituir um ponto de dados com a soma de um quarto do ponto de dados anterior mais a metade do ponto de dados mais de um quarto do ponto de dados seguinte. Ainda outra técnica é a pular significa.

Em EDA, você não apenas usar uma técnica em um conjunto de dados. Muitas vezes, você começa com um suave mediana, repeti-lo várias vezes, e em seguida, tentar um ou dois outros.

Para os dados no gráfico de dispersão, aplicar o bom três mediana, repeti-lo (ou seja, aplicá-lo com os dados recém-suavizadas), Han os dados suavizados, e em seguida, aplicar o salto dizer. Mais uma vez, nenhuma técnica (ou ordem de técnicas) é certo ou errado. Você aplicar o que você acha que ilumina características significativas dos dados.

A seguir é parte de uma planilha para tudo isso. Coluna A mostra do ano, e coluna B mostra o número de home runs bater esse ano na liga americana. As restantes colunas mostram suaviza sucessivas dos dados.

Coluna C aplica-se o bom três mediana para a Coluna B, e Coluna D aplica-se o bom três mediano para coluna C. Uma rápida olhada nos números mostra que a repetição não faz muita diferença. Coluna E aplica Hanning a coluna D, e aplica-se a Coluna F Ir significar a coluna E.

Nas colunas C a F, o número real de home runs é usado para o primeiro valor (para o ano de 1901) e para o valor final (para o ano 2008).

Você pode facilmente ver o efeito de cada técnica de alisamento sucessivos na linha suavizada. A chave é para a direita; clique na área de desenho e escolha Selecionar dados no menu pop-up. Clique no nome da série de dados que representa a linha alisada, edite o intervalo de células da série para refletir a coluna que contém a técnica de alisamento particular, e clique em OK para fechar as caixas de diálogo edição.

E agora a história começa a se revelar. Em vez de uma linha de regressão que só lhe diz que home runs aumento como o passar dos anos, os altos e baixos estimular o pensamento a respeito de porque eles estão lá. Aqui está uma versão altamente abreviada da história do beisebol consistente com as voltas e reviravoltas da linha suavizada.

A baixa segmento plano de 1901 e 1920 significa a “era de bola morta,” num momento em que a composição de uma bola de beisebol inibida bateu bolas de ir longe o suficiente para se tornar home runs.

Video: Consolidação de Dados com Excel.mp4

Explorar e visualizar os dados estimula a reflexão sobre o que está produzindo os padrões os Descobre exploração. A especulação leva a hipóteses testáveis, que levam a análise.


Publicações relacionadas