sábado, 8 de agosto de 2009

ANALYZE #2 - O teorema do limite central e os intervalos de confiança

Um conceito muito importante que não pode ficar esquecido é o do chamado Teorema do Limite Central. Este teorema basicamente consiste em provar que, não importa a distribuição dos dados da população, se você amostrar o processo em grupos de observações, após certa quantidade de amostras, as médias destes grupos irá possuir uma distribuição normal. Ele é uma particularidade do teorema dos números grandes. A figura abaixo ilustra o processo.
Note que, independentemente de onde vieram as amostras, após coletar em grupos (criando amostras de n elementos), a distribuição das médias irá seguir uma distribuição normal. Isto é basicamente o que diz o teorema do limite central.
O problema com relação a amostragem, é que para sabermos com 100% de certeza os parâmetros da população (parâmetros = média, desvio padrão), somente se medirmos todos os elementos desta população. Ao amostrar, sempre estaremos cometendo um erro... Por isso, com o tempo, foram surgindo maneiras de tornar a confiança das amostras maiores. Uma maneira bem popular é a que um senhor chamado W. S. Gosset (pseudônimo de Student) inventou. Ele inventou uma maneira de inferir sobre o parâmetro real de uma população, chamado intervalos de confiança. Com amostras relativamente pequenas, era possível não ter 100% de certeza, mas ter ~95% que a média estaria dentro de uma faixa (um intervalo) de confiança razoável. O gráfico abaixo ilustra diversos intervalos de tamanho n = 5, tirados de uma população de média =1750 e desvio = 15. A faixa preta representa a média real. Note que a maioria dos intervalos contém a média real.Uma história interessante ocorreu quando Gosset descobriu tal fato. Ele trabalhava na cervejaria Guiness, e havia sido proibido a publicação de artigos acadêmicos pelo staff da cervejaria, pois em casos anteriores de artigos publicados, houve vazamento de segredos industriais. Ele então para evitar retaliação por parte da Guiness, usou o pseudonimo de Student, e a distribuição até hoje leva esse nome (distribuição t de student). Ela surge quando se divide uma variável normal pela raíz de uma variável chi-squared dividida pelos graus de liberdade... Student descobriu que tal distribuição se aproxima demais da normal padrão quando n > 25...
A foto dele segue abaixo.

O conceito de intervalo de confiança então fica assim definido: intervalos de confiança são faixas onde se espera, com 95% (padrão atual) de confiança, esteja contida a média real de uma população. Quando obtemos uma média de uma amostra, podemos criar o intervalo de confiança para a média real da população utilizando o conceito abaixo:

Acima, x-barra representa a média da amostra, t representa o valor da distribuição t (encontrada em tabelas de estatística, ou através do Minitab/Excel/Statistica) de alfa sobre dois, com n-1 graus de liberdade (n-1 é o mesmo que o número de elementos em uma amostra menos um) multiplicada pelo standard error (s é o desvio padrão e n é o número de elementos da amostra). Abaixo um exemplo de como seria a tomada de decisão utilizando intervalos de confiança. Os intervalos de confiança são importantes para os próximos passos (testes estatísticos) pois irão nos ajudar a concluir se uma amostra pertence ou não a uma determinada população.

Se existir sobreposição entre os intervalos, a evidência estatística da diferença fica comprometida, mas se eles não sobrepoem, então você tem certeza de que não são da mesma população (existe diferença entre eles).

Acredito ser isso por hoje. Um forte abraço, fiquem com Deus, e feliz dia dos pais a todos os pais (assim como eu!).

2 comentários:

Anônimo disse...

Obrigada pela excelente informação!!
Bom Trabalho :)

Fernando disse...

Obrigado, mas quem é você?