terça-feira, 29 de setembro de 2015

Perguntas frequentes em bioestatística #8. Para que serve o teorema do limite central?

A seguinte mensagem é a oitava comunicação da série Perguntas Frequentes em Bioestatística, da autoria de membros do Laboratório de Bioestatística e Informática Médica da Faculdade de Medicina da Universidade de Coimbra. Pretende-se fomentar uma discussão sobre as melhores práticas estatísticas na área da saúde.

Perguntas frequentes em bioestatística #8. Para que serve o teorema do limite central?

Miguel Patrício e Francisco Caramelo



Na impossibilidade de se ter acesso a todos os dados relativos a uma determinada população, é comum obter-se uma amostra da mesma e efectuar-se as medidas relevantes apenas para os elementos da amostra. Denomina-se por inferência estatística ao processo em que se tiram conclusões sobre a população tendo por base o que foi observado para a amostra. O teorema do limite central (ou teorema central do limite) surge neste contexto, validando o processo de inferência e permitindo quantificar o erro subjacente ao mesmo. Sendo a amostra representativa da população, espera-se que aquilo que se observa relativamente à amostra seja generalizável para a população. Porém, nem sempre isto acontece, ainda que se tenha aderido às melhores práticas estatísticas: poderá, por mero capricho da sorte, ter-se tido a infelicidade de seleccionar uma amostra cujas características não espelham a da população. Por exemplo, suponhamos que queremos estudar a prevalência da diabetes na população portuguesa: poderemos ter o azar, mesmo escolhendo uma amostra da dimensão adequada e com os melhores métodos de amostragem, de apenas encontrar indivíduos diabéticos na amostra, o que nos levaria a concluir erradamente que a prevalência de diabetes na população portuguesa seria de 100%. Porém, sabemos de forma intuitiva que é muito improvável termos tamanho azar.

O teorema do limite central permite quantificar a confiança que se pode ter no processo de inferência estatística. É deste modo um dos resultados mais importantes e fascinantes da teoria das probabilidades, devido quer à sua vasta aplicação quer à força e beleza do conceito subjacente. Como ponto de partida, o teorema toma uma população e um instrumento de medida quantitativa que pode ser aplicado a cada elemento da população. De uma forma simplificada, o teorema do limite central afirma que a distribuição de médias amostrais tende para uma distribuição normal à medida que o tamanho das amostras aumenta. Tal tem como consequência que, se tivermos amostras suficientemente grandes, é improvável cometermos erros graves no processo de inferência, Figura 1. Um enunciado mais rigoroso pode ser encontrado em [1]. Naturalmente, na prática, num processo de inferência apenas se recolhe uma amostra da população. Mas o conhecimento da distribuição das médias das diferentes amostras permite quantificar a probabilidade de se obter uma boa estimativa para essa amostra.




Figura 1. Representação da distribuição normal das médias amostrais correspondendo a uma população com média µ e desvio padrão σ. Segundo o teorema do limite central, a probabilidade de uma amostra com tamanho suficientemente grande ter média que diste menos de δ de µ é aproximadamente igual à área da região a sombreado na figura, que é delimitada pelo eixo dos XX, pela curva de Gauss de média µ e desvio padrão σ/√n e pelas rectas verticais x= µ-δ e x= µ+δ.




Para percebermos melhor o que significa o teorema, comecemos por considerar uma experiência aleatória simples: o lançamento de um dado. Esta experiência diz-se aleatória na medida em que a face que sai não é conhecida antecipadamente, apesar do conjunto dos resultados estar bem definido. Pode associar-se de forma natural uma variável aleatória à experiência, que exprime o resultado da mesma – de cada vez que se lançar um dado, a variável aleatória tomará o número que ficar visível na face de cima. Em cada lançamento, a variável aleatória tomará assim um número entre 1 e 6. Será deste modo idêntico afirmar, por exemplo, que “saíu o 5” ou que a variável aleatória “toma o valor 5”. Neste contexto, é ainda útil considerar a distribuição de probabilidades da variável aleatória ou, por outras palavras, perceber quão provável é que ocorra cada um dos acontecimentos possíveis. Quando todas as faces têm a mesma chance de sair, a distribuição de probabilidades é uniforme, Figura 2. Como a repetição da experiência não altera as chances de ocorrência dos possíveis resultados, a variável aleatória é dita independente e identicamente distribuída (iid).


Figura 2. Distribuição de probabilidades (função de densidade de probabilidades) associada a um dado não viciado. No eixo das abcissas encontram-se representados os valores que é possível a variável aleatória X que exprime o número que sai ao lançar um dado tomar, no eixo das ordenadas representam-se as correspondentes probabilidades, em percentagem. A variável aleatória X é tal que P(X=k)=1/6, sendo k um número natural entre 1 e 6.

Para exemplificar a utilidade do teorema do limite central é útil considerar o lançamento de cada vez mais dados. Comecemos por considerar o lançamento de dois dados e a respectiva variável aleatória que exprime a soma dos números das faces que saírem no topo. O que acontece neste caso, como sabemos intuitivamente dos jogos de dados, é nem todos os acontecimentos têm a mesma chance de ocorrer, ver Figura 3.
 


Figura 3. (fonte da figura) Distribuição de probabilidades (função de densidade de probabilidades) associada a dois dados não viciados. No eixo das abcissas encontram-se representados os valores que é possível a variável aleatória X que exprime a soma dos números das faces que saírem tomar; no eixo das ordenadas representam-se as correspondentes probabilidades, em percentagem. Os acontecimentos não são equiprováveis: P(X=k) é tanto maior quanto mais k se aproxima de 7. Os acontecimentos extremos (saída do valor 2 ou do valor 12)  são os que têm menor probabilidade de ocorrência.




À semelhança do lançamento de um dado, a experiência de lançamento de dois dados continua a ser aleatória porque não é possível saber o resultado de antemão. No entanto, agora cada resultado apresenta diferente probabilidade de ocorrer: os resultados mais prováveis são so que se encontram representados no centro da Figura 3, em que a soma dos números saídos ao lançar os dois dados se aproxima do número 7. Experimentando lançar três, quatro, cinco ou n dados poderá verificar-se que a distribuição de probabilidade associada à variável aleatória que exprime a soma dos números saídos se vai aproximando cada vez mais da distribuição normal[2], ver Figura 4. Este resultado traduz uma das ideias fundamentais do teorema do limite central que foi apresentada anteriormente: à medida que o n aumenta, a distribuição de probabilidades torna-se cada vez mais próxima de uma distribuição normal. Tal tem profundas implicações para o processo de decisão estatística. De facto, em vez de pensarmos no lançamento de 10 dados pensemos na recolha de uma amostra com 10 elementos e, em vez de pensarmos no cálculo da soma dos 10 números saídos pensemos na média das observações feitas para cada elemento da amostra. O que o teorema do limite central permite concluir é que é improvável (assumindo cumprirem-se as melhores práticas estatísticas) a média das observações ser muito distante da média populacional que queremos estimar, ver de novo Figura 1. 



Figura 4. Distribuição de probabilidades (função de densidade de probabilidades) associada a n=10 dados não viciados. No eixo das abcissas encontram-se representados os valores que é possível a variável aleatória X tomar, os quais exprimem a soma dos números das faces que saírem. No eixo das ordenadas representam-se as correspondentes probabilidades, em percentagem. Os acontecimentos não são equiprováveis: sendo k um número natural, P(X=k) é maior quando k se aproxima de 35.

Interessa referir que o teorema se continua a verificar independentemente da distribuição da variável aleatória, desde que a mesma seja iid. No exemplo prático anteriormente colocado, esta situação poderia corresponder ao caso em que se tem um dado “viciado” para uma determinada face, o que iria determinar uma distribuição de probabilidade não uniforme. Mesmo nesta situação, o teorema do limite central verificar-se-ia observando-se que a variável aleatória correspondente à soma das faces assumiria uma distribuição tendencialmente normal à medida que o número de dados aumentasse. Esta distribuição, embora normal, não seria igual à obtida com lançamentos sucessivos de um dado não viciado: o acontecimento mais provável (ou, por outras palavras, o ponto mais alto da curva) não seria o mesmo. De facto, a natureza da experiência aleatória de base determina a distribuição normal obtida quando a experiência é repetida várias vezes. A distribuição normal resultante encontra-se centrada num ponto específico e a sua largura relacionada com a dispersão original. Nas condições do teorema do limite central, a média desta distribuição normal (das médias amostrais) corresponde à média da população e a sua variância é igual à variância da população dividida pelo número de elementos da amostra. De forma equivalente, também o desvio-padrão populacional σ se relaciona com o desvio padrão da distribuição das médias amostrais das amostras de dimensão n, que é dado por σ/√n  e que é usual denominar-se de erro padrão.

FAQ:

1. O que é a média amostral?
A média amostral é a média aritmética da amostra.

2. Qual a relação entre o erro padrão e o desvio padrão da distribuição das médias amostrais?
São a mesma coisa. Nas condições do teorema do limite central, o desvio padrão da distribuição de médias amostrais, que denominamos por erro padrão, é dado por σ/√n, onde n é o tamanho das amostras consideradas e σ é o desvio padrão da população.

3. Qual é a relação entre intervalos de confiança a 95% e o teorema do limite central?
Se considerarmos  uma amostra suficientemente grande, podemos ter 95% de certeza que a média amostral da mesma não distará da média populacional mais que uma certa quantidade que podemos estimar, Figura 5. Por outras palavras, é possível calcular uma aproximação para o número Δ tal que 95% de hipotéticas amostras que possamos recolher terão como média um valor no intervalo [µ-Δ, µ+Δ]. Consideremos então uma amostra, com média . Então temos 95% de certeza que x̄ pertence a [µ-Δ, µ+Δ]. Segue então que podemos ter 95% de confiança que o intervalo [ - Δ, x̄+ Δ] contém a média populacional µ. 




Figura 5. Distribuição normal das médias amostrais correspondendo a uma população com média µ e desvio padrão σ. O teorema do limite central permite determinar uma aproximação do número Δ que é tal que uma determinada percentagem das amostras de um determinado tamanho terão média amostral que não diste mais de Δ da média populacional. Quando essa percentagem é 95%, Δ é aproximadamente igual a 2σ/√n.


4. E se quisermos obter intervalos de confiança a 99%?
Estes, tais como intervalos a outras confianças, poderão ser obtidos de forma equivalente. Apenas se alterará a amplitude do intervalo.

5. O teorema do limite central indica que é mais provável obtermos uma amostra com média próxima da média populacional, mas não garante que tal aconteça?
Não, não garante. Esta é uma das razões pelas quais interessa garantir reprodutibilidade de estudos clínicos. Repetindo o mesmo estudo várias vezes, será possível chegar a uma resposta com muito mais confiança.

6. O teorema do limite central também tem implicações para testes de hipóteses?
Sim. O teorema do limite central permite arquitectar um raciocínio deveras poderoso que começa por assumir que o pior cenário que pode acontecer a um investigador é a variável em que está interessado ser aleatória. Ora, assumindo isto e invocando o teorema do limite central é possível defender que a média dessa variável segue uma distribuição normal. Uma vez que o conhecimento das características (média e variância) da distribuição normal se traduz na possibilidade de calcular probabilidades torna-se então possível aferir o grau de plausibilidade de determinadas afirmações. Por exemplo, um investigador questiona se os filhos de parturientes fumadoras têm menor peso à nascença do que a média do peso dos recém-nascidos em Portugal. Para responder à questão obtém uma amostra dos pesos de recém-nascidos de mães fumadoras. A observação directa dos valores não lhe permite responder categoricamente à questão uma vez que existem bebés com menor peso do que a média nacional e outros com maior peso. A variável peso comporta-se de forma aleatória e a comparação directa da média da amostra com o valor da média nacional não transmite confiança porque noutra amostra a conclusão poderia ser diferente. Todavia, a invocação do teorema do limite central permite restringir a média da amostra a uma distribuição normal de características conhecidas e, assim, é possível determinar a probabilidade da média dos pesos dos recém-nascidos de mães fumadoras ser menor do que a média nacional. Desta forma a resposta não é dada de forma categórica, mas associada a um grau de plausibilidade.





[2] O exemplo é passível de ser criticado na medida em que a distribuição obtida é discreta e a distribuição normal é contínua. O que se pretende, todavia, é ilustrar a ideia subjacente ao teorema e o exemplo serve este propósito.