A seguinte mensagem é a oitava comunicação da série Perguntas Frequentes
em Bioestatística, da autoria de membros do Laboratório de Bioestatística e
Informática Médica da Faculdade de Medicina da Universidade de Coimbra. Pretende-se
fomentar uma discussão sobre as melhores práticas estatísticas na área da
saúde.
Perguntas frequentes em bioestatística #8. Para que serve o teorema do limite central?
Miguel Patrício e Francisco Caramelo
Na impossibilidade
de se ter acesso a todos os dados relativos a uma determinada população, é
comum obter-se uma amostra da mesma e efectuar-se as medidas relevantes apenas
para os elementos da amostra. Denomina-se por inferência estatística ao
processo em que se tiram conclusões sobre a população tendo por base o que foi
observado para a amostra. O teorema do limite central (ou teorema central do
limite) surge neste contexto, validando o processo de inferência e permitindo
quantificar o erro subjacente ao mesmo. Sendo a amostra representativa da
população, espera-se que aquilo que se observa relativamente à amostra seja generalizável
para a população. Porém, nem sempre isto acontece, ainda que se tenha aderido
às melhores práticas estatísticas: poderá, por mero capricho da sorte, ter-se tido
a infelicidade de seleccionar uma amostra cujas características não espelham a
da população. Por exemplo, suponhamos que queremos estudar a prevalência da
diabetes na população portuguesa: poderemos ter o azar, mesmo escolhendo uma
amostra da dimensão adequada e com os melhores métodos de amostragem, de apenas
encontrar indivíduos diabéticos na amostra, o que nos levaria a concluir
erradamente que a prevalência de diabetes na população portuguesa seria de
100%. Porém, sabemos de forma intuitiva que é muito improvável termos tamanho azar.
O teorema do limite
central permite quantificar a confiança que se pode ter no processo de
inferência estatística. É deste modo um dos resultados mais importantes e
fascinantes da teoria das probabilidades, devido quer à sua vasta aplicação quer
à força e beleza do conceito subjacente. Como ponto de partida, o teorema toma
uma população e um instrumento de medida quantitativa que pode ser aplicado a
cada elemento da população. De uma forma simplificada, o teorema do limite
central afirma que a distribuição de médias amostrais tende para uma
distribuição normal à medida que o tamanho das amostras aumenta. Tal tem como
consequência que, se tivermos amostras suficientemente grandes, é improvável
cometermos erros graves no processo de inferência, Figura 1. Um enunciado mais
rigoroso pode ser encontrado em [1]. Naturalmente, na prática, num processo de
inferência apenas se recolhe uma amostra da população. Mas o conhecimento da
distribuição das médias das diferentes amostras permite quantificar a probabilidade
de se obter uma boa estimativa para essa amostra.
Figura 1. Representação
da distribuição normal das médias amostrais correspondendo a uma população com
média µ e desvio padrão σ. Segundo o teorema do limite central, a probabilidade
de uma amostra com tamanho suficientemente grande ter média que diste menos de δ de µ é
aproximadamente igual à área da região a sombreado na figura, que é delimitada
pelo eixo dos XX, pela curva de Gauss de média µ e desvio padrão σ/√n e pelas
rectas verticais x= µ-δ e x= µ+δ.
Para percebermos
melhor o que significa o teorema, comecemos por considerar uma experiência
aleatória simples: o lançamento de um dado. Esta experiência diz-se aleatória
na medida em que a face que sai não é conhecida antecipadamente, apesar do
conjunto dos resultados estar bem definido. Pode associar-se de forma natural
uma variável aleatória à experiência, que exprime o resultado da mesma – de
cada vez que se lançar um dado, a variável aleatória tomará o número que ficar
visível na face de cima. Em cada lançamento, a variável aleatória tomará assim
um número entre 1 e 6. Será deste modo idêntico afirmar, por exemplo, que “saíu
o 5” ou que a variável aleatória “toma o valor 5”. Neste contexto, é ainda útil
considerar a distribuição de probabilidades da variável aleatória ou, por
outras palavras, perceber quão provável é que ocorra cada um dos acontecimentos
possíveis. Quando todas as faces têm a mesma chance de sair, a distribuição de
probabilidades é uniforme, Figura 2. Como a repetição da experiência não altera
as chances de ocorrência dos possíveis resultados, a variável aleatória é dita
independente e identicamente distribuída (iid).
Figura 2. Distribuição
de probabilidades (função de densidade de probabilidades) associada a um dado
não viciado. No eixo das abcissas encontram-se representados os valores que é
possível a variável aleatória X que exprime o número que sai ao lançar um dado tomar,
no eixo das ordenadas representam-se as correspondentes probabilidades, em
percentagem. A variável aleatória X é tal que P(X=k)=1/6, sendo k um número
natural entre 1 e 6.
Para exemplificar a
utilidade do teorema do limite central é útil considerar o lançamento de cada
vez mais dados. Comecemos por considerar o lançamento de dois dados e a respectiva
variável aleatória que exprime a soma dos números das faces que saírem no topo.
O que acontece neste caso, como sabemos intuitivamente dos jogos de dados, é nem
todos os acontecimentos têm a mesma chance de ocorrer, ver Figura 3.
Figura 3. (fonte da figura) Distribuição de probabilidades (função de
densidade de probabilidades) associada a dois dados não viciados. No eixo das
abcissas encontram-se representados os valores que é possível a variável aleatória
X que exprime a soma dos números das faces que saírem tomar; no eixo das
ordenadas representam-se as correspondentes probabilidades, em percentagem. Os
acontecimentos não são equiprováveis: P(X=k) é tanto maior quanto mais k se
aproxima de 7. Os acontecimentos extremos (saída do valor 2 ou do valor
12) são os que têm menor probabilidade
de ocorrência.
À semelhança do
lançamento de um dado, a experiência de lançamento de dois dados continua a ser
aleatória porque não é possível saber o resultado de antemão. No entanto, agora
cada resultado apresenta diferente probabilidade de ocorrer: os resultados mais
prováveis são so que se encontram representados no centro da Figura 3, em que a
soma dos números saídos ao lançar os dois dados se aproxima do número 7. Experimentando
lançar três, quatro, cinco ou n dados poderá verificar-se que a distribuição de
probabilidade associada à variável aleatória que exprime a soma dos números
saídos se vai aproximando cada vez mais da distribuição normal[2],
ver Figura 4. Este resultado traduz uma das ideias fundamentais do teorema do
limite central que foi apresentada anteriormente: à medida que o n aumenta, a
distribuição de probabilidades torna-se cada vez mais próxima de uma
distribuição normal. Tal tem profundas implicações para o processo de decisão
estatística. De facto, em vez de pensarmos no lançamento de 10 dados pensemos
na recolha de uma amostra com 10 elementos e, em vez de pensarmos no cálculo da
soma dos 10 números saídos pensemos na média das observações feitas para cada
elemento da amostra. O que o teorema do limite central permite concluir é que é
improvável (assumindo cumprirem-se as melhores práticas estatísticas) a média
das observações ser muito distante da média populacional que queremos estimar,
ver de novo Figura 1.
Figura 4.
Distribuição de probabilidades (função de densidade de probabilidades)
associada a n=10 dados não viciados. No eixo das abcissas encontram-se
representados os valores que é possível a variável aleatória X tomar, os quais exprimem
a soma dos números das faces que saírem. No eixo das ordenadas representam-se
as correspondentes probabilidades, em percentagem. Os acontecimentos não são equiprováveis:
sendo k um número natural, P(X=k) é maior quando k se aproxima de 35.
Interessa referir que
o teorema se continua a verificar independentemente da distribuição da variável
aleatória, desde que a mesma seja iid. No exemplo prático anteriormente
colocado, esta situação poderia corresponder ao caso em que se tem um dado
“viciado” para uma determinada face, o que iria determinar uma distribuição de
probabilidade não uniforme. Mesmo nesta situação, o teorema do limite central
verificar-se-ia observando-se que a variável aleatória correspondente à soma
das faces assumiria uma distribuição tendencialmente normal à medida que o
número de dados aumentasse. Esta distribuição, embora normal, não seria igual à
obtida com lançamentos sucessivos de um dado não viciado: o acontecimento mais
provável (ou, por outras palavras, o ponto mais alto da curva) não seria o
mesmo. De facto, a natureza da experiência aleatória de base determina a
distribuição normal obtida quando a experiência é repetida várias vezes. A
distribuição normal resultante encontra-se centrada num ponto específico e a
sua largura relacionada com a dispersão original. Nas condições do teorema do
limite central, a média desta distribuição normal (das médias amostrais)
corresponde à média da população e a sua variância é igual à variância da
população dividida pelo número de elementos da amostra. De forma equivalente,
também o desvio-padrão populacional σ se relaciona com o desvio padrão da
distribuição das médias amostrais das amostras de dimensão n, que é dado por σ/√n
e
que é usual denominar-se de erro padrão.
FAQ:
1. O que é a média amostral?
A média amostral é a média aritmética da amostra.
2. Qual a relação entre o erro padrão e o
desvio padrão da distribuição das médias amostrais?
São a mesma coisa.
Nas condições do teorema do limite central, o desvio padrão da distribuição de
médias amostrais, que denominamos por erro padrão, é dado por σ/√n, onde n é o tamanho das amostras
consideradas e σ é o desvio padrão da população.
3. Qual é a relação entre intervalos de
confiança a 95% e o teorema do limite central?
Se
considerarmos uma amostra
suficientemente grande, podemos ter 95% de certeza que a média amostral da mesma
não distará da média populacional mais que uma certa quantidade que podemos
estimar, Figura 5. Por outras palavras, é possível calcular uma aproximação
para o número Δ tal que 95% de hipotéticas amostras que possamos recolher terão
como média um valor no intervalo [µ-Δ, µ+Δ]. Consideremos então uma amostra,
com média x̄
. Então temos 95% de certeza que x̄ pertence a [µ-Δ, µ+Δ]. Segue então que podemos ter 95% de confiança que o
intervalo [
x̄- Δ,
x̄+ Δ] contém a média
populacional µ.
Figura 5.
Distribuição normal das médias amostrais correspondendo a uma população com
média µ e desvio padrão σ. O teorema do limite central permite determinar uma
aproximação do número Δ que é tal que uma determinada percentagem das amostras
de um determinado tamanho terão média amostral que não diste mais de Δ da média
populacional. Quando essa percentagem é 95%, Δ é aproximadamente igual a 2σ/√n.
4. E se quisermos obter intervalos de
confiança a 99%?
Estes, tais como
intervalos a outras confianças, poderão ser obtidos de forma equivalente.
Apenas se alterará a amplitude do intervalo.
5. O teorema do limite central indica que é
mais provável obtermos uma amostra com média próxima da média populacional, mas
não garante que tal aconteça?
Não, não garante. Esta é uma das razões pelas
quais interessa garantir reprodutibilidade de estudos clínicos. Repetindo o
mesmo estudo várias vezes, será possível chegar a uma resposta com muito mais
confiança.
6. O teorema do limite central também tem
implicações para testes de hipóteses?
Sim. O teorema do
limite central permite arquitectar um raciocínio deveras poderoso que começa
por assumir que o pior cenário que pode acontecer a um investigador é a
variável em que está interessado ser aleatória. Ora, assumindo isto e invocando
o teorema do limite central é possível defender que a média dessa variável
segue uma distribuição normal. Uma vez que o conhecimento das características
(média e variância) da distribuição normal se traduz na possibilidade de
calcular probabilidades torna-se então possível aferir o grau de plausibilidade
de determinadas afirmações. Por exemplo, um investigador questiona se os filhos
de parturientes fumadoras têm menor peso à nascença do que a média do peso dos
recém-nascidos em Portugal. Para responder à questão obtém uma amostra dos
pesos de recém-nascidos de mães fumadoras. A observação directa dos valores não
lhe permite responder categoricamente à questão uma vez que existem bebés com
menor peso do que a média nacional e outros com maior peso. A variável peso
comporta-se de forma aleatória e a comparação directa da média da amostra com o
valor da média nacional não transmite confiança porque noutra amostra a
conclusão poderia ser diferente. Todavia, a invocação do teorema do limite
central permite restringir a média da amostra a uma distribuição normal de
características conhecidas e, assim, é possível determinar a probabilidade da
média dos pesos dos recém-nascidos de mães fumadoras ser menor do que a média
nacional. Desta forma a resposta não é dada de forma categórica, mas associada
a um grau de plausibilidade.
[2] O exemplo é passível de ser criticado na medida em que a distribuição
obtida é discreta e a distribuição normal é contínua. O que se pretende,
todavia, é ilustrar a ideia subjacente ao teorema e o exemplo serve este
propósito.