Mostram a distribuição com histogramas

Video: Histograma e polígono de frequência

histogramas são gráficos de barras que mostram que fração dos indivíduos têm valores abrangidos intervalos especificados. O principal objetivo de um histograma é mostrar-lhe como os valores de um valor numérico são distribuídos. Esta distribuição é uma aproximação da distribuição de frequência população verdadeiro para essa variável.

A curva mostra como os valores de IQ são distribuídos em um infinitamente grande população. A altura da curva em qualquer valor IQ é proporcional à fracção da população na vizinhança imediata de que o QI. Esta curva tem a forma típica de “sino” de uma distribuição normal.

O histograma indica como os QI de 60 sujeitos seleccionados aleatoriamente a partir da população pode ser distribuído. Cada barra representa um intervalo de valores de QI com uma largura de dez pontos de QI, e a altura de cada barra é proporcional ao número de indivíduos na amostra cujo QI caiu dentro desse intervalo.

distribuições de log-normal

Porque um exemplo é apenas uma representação imperfeita da população, determinando a forma precisa de uma distribuição pode ser difícil a menos que o tamanho da amostra é muito grande. No entanto, um histograma geralmente ajuda a detectar enviesada dados.

Uma forma distorcida é típico de um log-normal distribuição, o que ocorre muitas vezes no trabalho biológico. É chamado log-normal porque se você tomar o logaritmo de cada valor de dados (não importa que tipo de logaritmo você tomar), os logs resultantes terão uma distribuição normal.

Video: Distribuiçao de frequência

Por isso, é boa prática para preparar um histograma para cada variável numérica que pretende analisar, para ver se é notoriamente distorcida e, em caso afirmativo, se uma “transformação” logarítmica faz com que a distribuição mais quase normal.

Outras distribuições anormais



Log-normalidade não é o único tipo de não-normalidade que podem surgir em dados do mundo real. Dependendo do processo subjacente que dá origem aos dados, os números podem ser distribuídos de outras maneiras.

Por exemplo, as contagens de eventos muitas vezes se comportam de acordo com a distribuição de Poisson e pode ser, pelo menos aproximadamente, normalizada tomando a raiz quadrada de cada contagem (em vez do logaritmo, como você faz para dados de log-normal). Ainda outros processos podem dar origem a esquerda; dados inclinados ou de dados com dois (ou mais) picos.

E se nem o log-normal, nem a transformação de raiz quadrada normaliza seus dados distorcidos? Uma abordagem é usar o Box-Cox transformação, que tem a fórmula geral: Transformado X = (XUMA - 1) /UMA, Onde UMA é um parâmetro ajustável que pode variar de negativo para valores positivos.

Dependendo do valor de UMA, Esta transformação pode muitas vezes fazer à esquerda; enviesada ou direita; dados inclinados mais simétrico (e mais normalmente distribuído). A figura mostra como a transformação Box-Cox pode ajudar a normalizar os dados enviesados.

Alguns software permite variar UMA através de uma gama de valores positivos ou negativos usando um controle deslizante na tela que você pode mover com o mouse. Conforme você desliza a UMA valorizar e para trás, você vê o histograma mudar a sua forma a partir da esquerda, inclinado para simétrica para a direita; distorcida. Aqui, usando UMA = 0,12 normaliza os dados bastante bem.

Quando UMA é exatamente 0, a fórmula Box-Cox torna-se 0/0, que é indeterminada. Mas pode-se mostrar que, como UMA se aproxima de 0 (a partir do lado positivo ou negativo), a fórmula de Box-Cox torna-se a mesma que a função de logaritmo. Assim, a transformação logarítmica é apenas um caso especial de transformação mais geral Box-Cox.

Se você não consegue encontrar qualquer transformação que faz olhar os seus dados mesmo aproximadamente normal, então você tem que analisar seus dados usando não paramétrico métodos, que não assuma que os seus dados são normalmente distribuídos.


Publicações relacionadas