terça-feira, 29 de setembro de 2015

Perguntas frequentes em bioestatística #8. Para que serve o teorema do limite central?

A seguinte mensagem é a oitava comunicação da série Perguntas Frequentes em Bioestatística, da autoria de membros do Laboratório de Bioestatística e Informática Médica da Faculdade de Medicina da Universidade de Coimbra. Pretende-se fomentar uma discussão sobre as melhores práticas estatísticas na área da saúde.

Perguntas frequentes em bioestatística #8. Para que serve o teorema do limite central?

Miguel Patrício e Francisco Caramelo



Na impossibilidade de se ter acesso a todos os dados relativos a uma determinada população, é comum obter-se uma amostra da mesma e efectuar-se as medidas relevantes apenas para os elementos da amostra. Denomina-se por inferência estatística ao processo em que se tiram conclusões sobre a população tendo por base o que foi observado para a amostra. O teorema do limite central (ou teorema central do limite) surge neste contexto, validando o processo de inferência e permitindo quantificar o erro subjacente ao mesmo. Sendo a amostra representativa da população, espera-se que aquilo que se observa relativamente à amostra seja generalizável para a população. Porém, nem sempre isto acontece, ainda que se tenha aderido às melhores práticas estatísticas: poderá, por mero capricho da sorte, ter-se tido a infelicidade de seleccionar uma amostra cujas características não espelham a da população. Por exemplo, suponhamos que queremos estudar a prevalência da diabetes na população portuguesa: poderemos ter o azar, mesmo escolhendo uma amostra da dimensão adequada e com os melhores métodos de amostragem, de apenas encontrar indivíduos diabéticos na amostra, o que nos levaria a concluir erradamente que a prevalência de diabetes na população portuguesa seria de 100%. Porém, sabemos de forma intuitiva que é muito improvável termos tamanho azar.

O teorema do limite central permite quantificar a confiança que se pode ter no processo de inferência estatística. É deste modo um dos resultados mais importantes e fascinantes da teoria das probabilidades, devido quer à sua vasta aplicação quer à força e beleza do conceito subjacente. Como ponto de partida, o teorema toma uma população e um instrumento de medida quantitativa que pode ser aplicado a cada elemento da população. De uma forma simplificada, o teorema do limite central afirma que a distribuição de médias amostrais tende para uma distribuição normal à medida que o tamanho das amostras aumenta. Tal tem como consequência que, se tivermos amostras suficientemente grandes, é improvável cometermos erros graves no processo de inferência, Figura 1. Um enunciado mais rigoroso pode ser encontrado em [1]. Naturalmente, na prática, num processo de inferência apenas se recolhe uma amostra da população. Mas o conhecimento da distribuição das médias das diferentes amostras permite quantificar a probabilidade de se obter uma boa estimativa para essa amostra.




Figura 1. Representação da distribuição normal das médias amostrais correspondendo a uma população com média µ e desvio padrão σ. Segundo o teorema do limite central, a probabilidade de uma amostra com tamanho suficientemente grande ter média que diste menos de δ de µ é aproximadamente igual à área da região a sombreado na figura, que é delimitada pelo eixo dos XX, pela curva de Gauss de média µ e desvio padrão σ/√n e pelas rectas verticais x= µ-δ e x= µ+δ.




Para percebermos melhor o que significa o teorema, comecemos por considerar uma experiência aleatória simples: o lançamento de um dado. Esta experiência diz-se aleatória na medida em que a face que sai não é conhecida antecipadamente, apesar do conjunto dos resultados estar bem definido. Pode associar-se de forma natural uma variável aleatória à experiência, que exprime o resultado da mesma – de cada vez que se lançar um dado, a variável aleatória tomará o número que ficar visível na face de cima. Em cada lançamento, a variável aleatória tomará assim um número entre 1 e 6. Será deste modo idêntico afirmar, por exemplo, que “saíu o 5” ou que a variável aleatória “toma o valor 5”. Neste contexto, é ainda útil considerar a distribuição de probabilidades da variável aleatória ou, por outras palavras, perceber quão provável é que ocorra cada um dos acontecimentos possíveis. Quando todas as faces têm a mesma chance de sair, a distribuição de probabilidades é uniforme, Figura 2. Como a repetição da experiência não altera as chances de ocorrência dos possíveis resultados, a variável aleatória é dita independente e identicamente distribuída (iid).


Figura 2. Distribuição de probabilidades (função de densidade de probabilidades) associada a um dado não viciado. No eixo das abcissas encontram-se representados os valores que é possível a variável aleatória X que exprime o número que sai ao lançar um dado tomar, no eixo das ordenadas representam-se as correspondentes probabilidades, em percentagem. A variável aleatória X é tal que P(X=k)=1/6, sendo k um número natural entre 1 e 6.

Para exemplificar a utilidade do teorema do limite central é útil considerar o lançamento de cada vez mais dados. Comecemos por considerar o lançamento de dois dados e a respectiva variável aleatória que exprime a soma dos números das faces que saírem no topo. O que acontece neste caso, como sabemos intuitivamente dos jogos de dados, é nem todos os acontecimentos têm a mesma chance de ocorrer, ver Figura 3.
 


Figura 3. (fonte da figura) Distribuição de probabilidades (função de densidade de probabilidades) associada a dois dados não viciados. No eixo das abcissas encontram-se representados os valores que é possível a variável aleatória X que exprime a soma dos números das faces que saírem tomar; no eixo das ordenadas representam-se as correspondentes probabilidades, em percentagem. Os acontecimentos não são equiprováveis: P(X=k) é tanto maior quanto mais k se aproxima de 7. Os acontecimentos extremos (saída do valor 2 ou do valor 12)  são os que têm menor probabilidade de ocorrência.




À semelhança do lançamento de um dado, a experiência de lançamento de dois dados continua a ser aleatória porque não é possível saber o resultado de antemão. No entanto, agora cada resultado apresenta diferente probabilidade de ocorrer: os resultados mais prováveis são so que se encontram representados no centro da Figura 3, em que a soma dos números saídos ao lançar os dois dados se aproxima do número 7. Experimentando lançar três, quatro, cinco ou n dados poderá verificar-se que a distribuição de probabilidade associada à variável aleatória que exprime a soma dos números saídos se vai aproximando cada vez mais da distribuição normal[2], ver Figura 4. Este resultado traduz uma das ideias fundamentais do teorema do limite central que foi apresentada anteriormente: à medida que o n aumenta, a distribuição de probabilidades torna-se cada vez mais próxima de uma distribuição normal. Tal tem profundas implicações para o processo de decisão estatística. De facto, em vez de pensarmos no lançamento de 10 dados pensemos na recolha de uma amostra com 10 elementos e, em vez de pensarmos no cálculo da soma dos 10 números saídos pensemos na média das observações feitas para cada elemento da amostra. O que o teorema do limite central permite concluir é que é improvável (assumindo cumprirem-se as melhores práticas estatísticas) a média das observações ser muito distante da média populacional que queremos estimar, ver de novo Figura 1. 



Figura 4. Distribuição de probabilidades (função de densidade de probabilidades) associada a n=10 dados não viciados. No eixo das abcissas encontram-se representados os valores que é possível a variável aleatória X tomar, os quais exprimem a soma dos números das faces que saírem. No eixo das ordenadas representam-se as correspondentes probabilidades, em percentagem. Os acontecimentos não são equiprováveis: sendo k um número natural, P(X=k) é maior quando k se aproxima de 35.

Interessa referir que o teorema se continua a verificar independentemente da distribuição da variável aleatória, desde que a mesma seja iid. No exemplo prático anteriormente colocado, esta situação poderia corresponder ao caso em que se tem um dado “viciado” para uma determinada face, o que iria determinar uma distribuição de probabilidade não uniforme. Mesmo nesta situação, o teorema do limite central verificar-se-ia observando-se que a variável aleatória correspondente à soma das faces assumiria uma distribuição tendencialmente normal à medida que o número de dados aumentasse. Esta distribuição, embora normal, não seria igual à obtida com lançamentos sucessivos de um dado não viciado: o acontecimento mais provável (ou, por outras palavras, o ponto mais alto da curva) não seria o mesmo. De facto, a natureza da experiência aleatória de base determina a distribuição normal obtida quando a experiência é repetida várias vezes. A distribuição normal resultante encontra-se centrada num ponto específico e a sua largura relacionada com a dispersão original. Nas condições do teorema do limite central, a média desta distribuição normal (das médias amostrais) corresponde à média da população e a sua variância é igual à variância da população dividida pelo número de elementos da amostra. De forma equivalente, também o desvio-padrão populacional σ se relaciona com o desvio padrão da distribuição das médias amostrais das amostras de dimensão n, que é dado por σ/√n  e que é usual denominar-se de erro padrão.

FAQ:

1. O que é a média amostral?
A média amostral é a média aritmética da amostra.

2. Qual a relação entre o erro padrão e o desvio padrão da distribuição das médias amostrais?
São a mesma coisa. Nas condições do teorema do limite central, o desvio padrão da distribuição de médias amostrais, que denominamos por erro padrão, é dado por σ/√n, onde n é o tamanho das amostras consideradas e σ é o desvio padrão da população.

3. Qual é a relação entre intervalos de confiança a 95% e o teorema do limite central?
Se considerarmos  uma amostra suficientemente grande, podemos ter 95% de certeza que a média amostral da mesma não distará da média populacional mais que uma certa quantidade que podemos estimar, Figura 5. Por outras palavras, é possível calcular uma aproximação para o número Δ tal que 95% de hipotéticas amostras que possamos recolher terão como média um valor no intervalo [µ-Δ, µ+Δ]. Consideremos então uma amostra, com média . Então temos 95% de certeza que x̄ pertence a [µ-Δ, µ+Δ]. Segue então que podemos ter 95% de confiança que o intervalo [ - Δ, x̄+ Δ] contém a média populacional µ. 




Figura 5. Distribuição normal das médias amostrais correspondendo a uma população com média µ e desvio padrão σ. O teorema do limite central permite determinar uma aproximação do número Δ que é tal que uma determinada percentagem das amostras de um determinado tamanho terão média amostral que não diste mais de Δ da média populacional. Quando essa percentagem é 95%, Δ é aproximadamente igual a 2σ/√n.


4. E se quisermos obter intervalos de confiança a 99%?
Estes, tais como intervalos a outras confianças, poderão ser obtidos de forma equivalente. Apenas se alterará a amplitude do intervalo.

5. O teorema do limite central indica que é mais provável obtermos uma amostra com média próxima da média populacional, mas não garante que tal aconteça?
Não, não garante. Esta é uma das razões pelas quais interessa garantir reprodutibilidade de estudos clínicos. Repetindo o mesmo estudo várias vezes, será possível chegar a uma resposta com muito mais confiança.

6. O teorema do limite central também tem implicações para testes de hipóteses?
Sim. O teorema do limite central permite arquitectar um raciocínio deveras poderoso que começa por assumir que o pior cenário que pode acontecer a um investigador é a variável em que está interessado ser aleatória. Ora, assumindo isto e invocando o teorema do limite central é possível defender que a média dessa variável segue uma distribuição normal. Uma vez que o conhecimento das características (média e variância) da distribuição normal se traduz na possibilidade de calcular probabilidades torna-se então possível aferir o grau de plausibilidade de determinadas afirmações. Por exemplo, um investigador questiona se os filhos de parturientes fumadoras têm menor peso à nascença do que a média do peso dos recém-nascidos em Portugal. Para responder à questão obtém uma amostra dos pesos de recém-nascidos de mães fumadoras. A observação directa dos valores não lhe permite responder categoricamente à questão uma vez que existem bebés com menor peso do que a média nacional e outros com maior peso. A variável peso comporta-se de forma aleatória e a comparação directa da média da amostra com o valor da média nacional não transmite confiança porque noutra amostra a conclusão poderia ser diferente. Todavia, a invocação do teorema do limite central permite restringir a média da amostra a uma distribuição normal de características conhecidas e, assim, é possível determinar a probabilidade da média dos pesos dos recém-nascidos de mães fumadoras ser menor do que a média nacional. Desta forma a resposta não é dada de forma categórica, mas associada a um grau de plausibilidade.





[2] O exemplo é passível de ser criticado na medida em que a distribuição obtida é discreta e a distribuição normal é contínua. O que se pretende, todavia, é ilustrar a ideia subjacente ao teorema e o exemplo serve este propósito.

sexta-feira, 25 de setembro de 2015

Os números por outras palavras

Na celebração dos cinco anos da Pordata, não se pode perder a "intervenção de Hans Rosling, um académico sueco da Fundação Gapminder, internacionalmente conhecido pelas suas apresentações criativas e didáticas de estatísticas variadas". A intervenção de Rosling (médico e estatístico) poderá ser encontrada aqui.

quinta-feira, 3 de setembro de 2015

Frequência absoluta e percentagens

O uso de percentagens em vez de valores absolutos é em muitas situações útil. Percentagens permitem a comparação entre dois valores, exprimindo quantidades relativas ou variações. Por vezes surge a dúvida: é melhor apresentar percentagens do que valores absolutos? Há quem seja defensor absoluto de percentagens (a mensagem seguinte é tirada de uma thread encontrada online):

Sem dúvida, as percentagens são úteis em muitas situações. Porém, a afirmação anterior, tão enfática, foi recebida com sarcasmo:

Há bons motivos para ser reticente ao uso exclusivo de percentagens. De facto, as mesmas poderão induzir em erro. Nas figuras seguintes, divulgadas num meio de comunicação social, recorreu-se a percentagens para exprimir o  aumento do número de vendas de automóveis de três marcas.



Se não tivessem sido incluídos também valores absolutos, a mera análise das percentagens levar-nos-ia a concluir ter havido um aumento de vendas de automóveis da marca Suzuki (1800%) muito superior ao da marca Smart (93.1%). Em valores absolutos, porém, verificamos terem sido vendidos mais 854 Smart e "apenas" mais 72 Suzuki do que no ano anterior. Neste caso, o que é mais ilustrativo da evolução das vendas dos automóveis - percentagens ou valores absolutos?

Não há regras definitivas que indiquem quando é melhor usar percentagens ou valores absolutos. Em muitos casos é melhor apresentar ambas. Em geral, nada melhor que o bom senso.

sexta-feira, 17 de julho de 2015

Workshop de Bioestatística para trabalhos de investigação:rescaldo

Como prometido aos participantes do Workshop Bioestatística para trabalhos de investigação, colocamos aqui fotografias do encontro. O auditório do CNC encheu-se de 96 participantes e muita luz.


O Workshop foi composto por um total de 9 palestras, em que se discutiram aspectos deste a formatação de dados até ao problema das escolhas múltiplas.

Pós-Workshop, fez-se uma sessão extra de discussão, perguntas e respostas. Com mais de 40 participantes nessa sessão fantasma, não previamente anunciada,  a resistir ao cansaço de uma tarde em ritmo intenso, houve troca de opiniões e partilha de inquietações.


O Laboratório de Bioestatística e Informática Médica agradece a todos os participantes e todos os que contribuiram para tornar o Workshop possível.

terça-feira, 7 de julho de 2015

Workshop de Bioestatística para trabalhos de investigação

A Estatística engloba um conjunto de conceitos: tabelas, gráficos, testes, valores p, software estatístico. A operacionalização destes depende do contexto, havendo mais que uma forma de analisar um conjunto de dados. Em paralelo, há um conjunto de recomendações sobre práticas adequadas, a ter em conta.

O Laboratório de Bioestatística e Informática Médica (LBIM) oferece frequentemente cursos de introdução à bioestatística, em que são apresentados exemplos práticos e é discutida a forma de melhor os analisar, interpretando-se os testes estatísticos aplicados.

Sentimos, porém, a necessidade de intervir de uma forma mais dirigida a públicos-alvo mais homogéneos e focando mais os mecanismos do pensamento estatístico que aspectos operacionais.

Neste contexto, o LBIM, enquanto Laboratório do IBILI, e o Centro de Neurociências e Biologia Celular (CNC) da UC organizam, no próximo dia 16 de Julho (das 14 às 17 horas), um Workshop de Bioestatística para trabalhos de investigação, no Auditório do CNC (CNC - Pólo I, 2º andar). Prevê-se a realização posterior de Workshops junto de outros grupos da Faculdade de Medicina da Universidade de Coimbra.

Para participar basta preencher e enviar para bioestatistica@fmed.uc.pt a ficha de inscrição.

Nota posterior: Não será possível aceitar mais inscrições, devido a ter-se atingido a lotação da sala.