segunda-feira, 16 de novembro de 2015

Inquérito sobre hábitos tabágicos


Os estudantes mais novos, com idades compreendidas entre os 12 e os 13 anos, são "os que mais relatam ter começado a fumar na escola, sendo a tendência maior nas raparigas", concluiu um estudo sobre hábitos tabágicos em meio escolar, afirma a Universidade de Coimbra (UC), numa nota hoje divulgada. 

De acordo com a investigação, "a grande maioria (79%) de estudantes não fuma" e, entre os 21% de fumadores, "cerca de metade (10,2%) fá-lo regularmente, consumindo em média meio maço de cigarros por dia".

Desenvolvido pela delegação em Coimbra da Fundação Portuguesa do Pulmão (FPP) e pelo Laboratório de Bioestatística e Informática Médica (LBIM) da Faculdade de Medicina da UC (FMUC), o estudo envolveu 3.289 alunos (1.584 do sexo masculino e 1.705 do sexo feminino) do terceiro ciclo do ensino básico (7º, 8º e 9º anos de escolaridade)e do ensino secundário (10º, 11º e 12º anos) de vinte escolas do concelho de Coimbra.

Os resultados do inquérito, aprovado pelo Ministério da Educação e Ciência, que também avalia o conhecimento dos alunos relativamente à relação entre doenças pulmonares e o tabaco, vão ser apresentados terça-feira, 17 de novembro, às 17:30, na delegação da FPP em Coimbra, no âmbito da III Semana do Pulmão.

As conclusões da pesquisa alertam, designadamente, para "a necessidade de se apostar em campanhas de sensibilização nas escolas sobre os malefícios do tabaco" e de "sensibilizar os pais para esta realidade, dado que a maioria dos alunos fumadores (51,9%) diz que os pais fumam em casa", salienta João Rui de Almeida, presidente da FPP em Coimbra.

"Este estudo revela ainda que é nas escolas que os alunos mais jovens (12-13 anos) começam a fumar", adverte aquele responsável.

Francisco Caramelo, coordenador da equipa do LBIM* que realizou a análise dos dados, sublinhou, por seu lado, o facto de se observar nestes alunos "um padrão de crescimento do número de fumadores com a idade".

O fenómeno significa que "existe um efeito cumulativo, ou seja, quem começa a fumar dificilmente deixa de o fazer, e a probabilidade de fumar aumenta cerca de 1,5 vezes por cada ano", adiantou Francisco Caramelo.

A maioria dos alunos fumadores (51,9%) refere ter familiares na sua residência que fumam, mas esta percentagem desce (para 40, 6%) no caso dos não fumadores, notando-se que há "uma grande prevalência de alunos fumadores passivos".

Embora a generalidade dos alunos (95,8%) afirma ter consciência dos malefícios do tabaco, só 57,9% dos fumadores revelou que gostaria de deixar de fumar, refere a nota da UC.

* [Nota: Bárbara Oliveiros, Marisa Loureiro e Miguel Patrício]

quarta-feira, 4 de novembro de 2015

Perguntas frequentes em bioestatística #9. Que aspectos estatísticos se deve ter em conta para desenhar um projecto de investigação?

Miguel Patrício e Francisco Caramelo
 
A investigação científica é, em termos práticos, realizada com base em projectos que combinados podem levar a uma alteração do paradigma científico, o que tende a acontecer por acumulação sucessiva de conhecimento. O sucesso de um projecto científico pode ser medido pela consistência e clareza das suas conclusões e estas dependem grandemente da forma como este é construído. Infelizmente, os projectos tendem a ser avaliados relativamente à sua ambição, por vezes em desprimor do que realmente atingem, levando frequentemente a construções pouco produtivas ou mesmo estéreis [1]. A elaboração de um projecto de investigação é pensada muitas vezes de forma imediatista a partir de problemas que surgem num qualquer estudo prévio, sem haver a devida e atempada ponderação que garanta resultados efectivamente úteis. Estes constrangimentos podem porém ser mitigados se se partir do conhecimento dos diferentes elementos que concorrem para a arquitectura de um estudo antes de se o propôr.

Apesar de existirem inúmeros cambiantes para a estrutura de um estudo de investigação, é possível identificar alguns elementos em comum e sobre cuja importância interessa reflectir. Um dos aspectos primordiais é a questão de investigação, a qual constitui o real motivo do estudo. Note-se que esta é uma faceta primordial, no sentido de originária, primitiva, pelo que imprime desde logo, ou não, relevância face ao paradigma científico. A questão de investigação é então objecto de análise e a forma de a encarar dá origem a diferentes tipos de estudo. Existem várias taxonomias relativas a tipos de estudo, sendo geralmente aceite que a variável tempo e a intervenção do observador conduzem a diferentes planos de investigação. Esta ideia encontra-se expressa na figura seguinte.


Figura 1 – Tipo de estudos de investigação [2].

A intervenção activa ou a inacção do investigador sobre o objecto de estudo determina dois tipos de estudos diferentes: estudo experimental e estudo observacional. No primeiro caso (estudo experimental) o investigador tem um papel activo impondo, criando, escolhendo e controlando condições diferentes que determinam a constituição de grupos visando algum tipo de comparação entre estes. Já num estudo observacional, o investigador limita-se a contemplar de forma organizada e quantitativa a realidade com que se depara. Embora se diga que o observador permanece inactivo, tal não é completamente correcto uma vez que existe sempre selecção dos dados. A forma de selecção das observações é assim um ponto verdadeiramente determinante para a credibilidade das conclusões, uma vez que os critérios de inclusão e exclusão das observações podem produzir vieses desmesurados. Esta é uma razão para que muitas vezes este tipo de estudos seja desconsiderado relativamente aos estudos experimentais. No entanto, recorrendo a técnicas validadas de selecção (e.g., aleatorização) as conclusões são igualmente legítimas, tendo a vantagem de serem estudos menos onerosos – e frequentemente mais exequíveis - do que os experimentais.

A variável tempo pode ser considerada activamente, quando existem comparações de variáveis medidas em diferentes pontos do tempo. Pode, ao invés, não ser considerada no caso em que as comparações são realizadas numa mesma janela temporal, de forma independente do tempo. No primeiro caso, denominam-se frequentemente os estudos por longitudinais (alternativamente, temporais) e, no segundo, por transversais (alternativamente, seccionais). Este tipo de divisão tem particular importância prática, impactando em aspectos como a inserção de dados numa base de dados ou o tamanho amostral.

Nos estudos longitudinais o sentido temporal – do presente para o passado ou do presente para o futuro –, dá origem a duas classificações distintas: estudos retrospectivos e prospectivos, respectivamente. 

Cada área (por exemplo, a epidemiologia) tem especificidades próprias pelo que, naturalmente, os estudos de investigação apresentam uma estrutura adequada à mesma. Ainda assim, estes contêm as variáveis anteriormente discutidas, como se pode depreender do esquema seguinte onde se apresentam diferentes tipos de estudos epidemiológicos:



Figura 2 – Tipo de estudos epidemiológicos [3].

Um tipo de estudo com particular interesse na área da saúde são os ensaios clínicos, que têm particularidades estreitamente ligadas ao acto médico que se reflectem em diferentes pontos do projecto. São disto exemplo conceitos como a fase de um ensaio clínico (I, II, III ou IV), as hipóteses de investigação (equivalência, superioridade e não inferioridade) ou as estruturas de comparação (por exemplo, paralelo, cruzado, em cluster). Estes aspectos determinam os objectivos, os métodos estatísticos e o tipo de conclusão a que é possível chegar. A aleatorização e os diferentes métodos de a realizar ganham singular importância nos ensaios clínicos, na medida em que a intenção de tratamento se encontra intrinsecamente presente. Estes e outros aspectos revestem-se de grande interesse mas ultrapassam largamente o âmbito do presente documento, não podendo ser aqui explorados com a profundidade adequada.

O nome dado ao tipo de estudo a realizar apenas define alguns aspectos formais do mesmo. É a procura de resposta à questão de investigação que enforma o estudo científico concomitante, comportando os seguintes elementos essenciais: a medida principal, a população, a amostragem e o tamanho da amostra. Demasiadas vezes a atenção do investigador foca-se no tamanho amostral sem compreender que o número de elementos da amostra é fundamentalmente determinado pelas características da medida principal. Neste sentido, para o cálculo do tamanho amostral, a medida julgada principal num estudo é única e deve ser definida a priori, tendo em conta algumas características. Em particular, deve ser avaliada sem vieses em todos os elementos do estudo, ser precisa e exacta e contribuir para que se atinja a potência estatística adoptada.

Note-se que os estudos são geralmente realizados tendo por base uma amostra mas com o intuito de obter conclusões válidas para a população. É, assim, de extrema importância saber qual é a população sobre a qual se está a tirar conclusões.  Apenas depois da definição da população é possível delinear uma estratégia de amostragem. É crucial que esta seja de boa qualidade, pois as técnicas estatísticas que permitem a generalização do que se observa na amostra para uma população em nada ajudam no caso da amostra se encontrar enviesada (uma expressão tipicamente usada para descrever os resultados de um estudo mal planeado é Garbage In Garbage Out). 

Finalmente, um aspecto que deve ser pensado e discutido na elaboração de um desenho de estudo são os instrumentos de medida. Estes traduzem uma realidade mensurável numa quantidade. Por exemplo, a intensidade de luz pode ser medida por um dispositivo electrónico que transforma a luz em corrente eléctrica. Esta última é comparada com uma referência, permitindo a sua tradução numa quantidade (genericamente estes dispositivos electrónicos costumam designar-se por transdutores). Não havendo instrumentos de medida perfeitos, as medidas resultantes destes últimos não são livres de erros. 

Também num estudo estatístico, os resultados obtidos são uma representação da realidade, apresentando erros de qualidades diferentes. Deverão distinguir-se erros sistemáticos de erros acidentais. Os primeiros estão usualmente associados a calibrações deficientes, fazendo com que o erro da medida mantenha a sua grandeza independentemente das condições de medida. Diz-se neste caso que a medida não é exacta, uma vez que se afasta do valor real. Porém, detectando-se este erro e havendo a possibilidade do mesmo ser medido, pode introduzir-se uma correcção ao instrumento de medida. Os erros acidentais ou aleatórios têm uma natureza estocástica cuja dispersão é associada à precisão do instrumento de medida. Desta forma, um instrumento preciso produz medidas consecutivas muito próximas entre si. Ou, dito de outra forma, um instrumento preciso apresenta uma grande reprodutibilidade. Estes erros, não sendo passíveis de serem evitados, podem ser controlados aumentando o número de medidas.

A noção de resolução de um instrumento de medida também deve ser tida em conta pelo investigador no momento da comparação entre grupos. A resolução pode ser aplicada a qualquer natureza de sinal que esteja a ser medido, consubstanciando-se na capacidade de discriminar dois sinais que estejam próximos entre si. Um exemplo exagerado seria a tentativa de discriminar dois pontos à distância de 1 mm com recurso a instrumento cuja resolução fosse de 1 mm. A mensagem central é que deve ser conhecido (ou pelo menos estimado) o tamanho do efeito que se prevê encontrar e, para isso, usar um instrumento de medida com uma resolução adequada.


[2] Eurotrials, 3Aª, Pedro Aguiar, Catarina Silva, Filipa Chaves, 2005
[3] http://pt.slideshare.net/FClinico/tipos-de-estudos-epidemiolgicos-26672507

Na próxima edição do Perguntas Frequentes em Bioestatística: “Como determinar o tamanho da amostra?”



Como gerar dados aleatoriamente com Excel

A necessidade de gerar aleatoriamente bases de dados surge quer no ensino da Bioestatística quer em estudos de simulação. O ponto de partida é o conhecimento das variáveis que se querem criar, definido-se:
  • Para cada variável qualitativa - quais são as possíveis categorias que a variável pode tomar, expressas por números. Por exemplo, para uma variável "grupo" que exprima o estado de saúde, as categorias poderão ser 1=Controlo e 2=Paciente.
  • Para cada variável quantitativa, qual é o valor mínimo e máximo que a mesma pode tomar. Por exemplo, para uma variável "idade" que exprima o número de anos de vida de um sujeito do estudo, poderemos definir como mínimo 0 anos e máximo 120 anos.
Tomemos como exemplo uma base de dados em que temos dois grupos (variável "grupo": 1=Controlo, 2=Paciente). Para cada sujeito regista-se a sua idade (variável "idade", que para o estudo assumimos estar compreendida entre 35 e 45 anos) e a sua frequência cardíaca (variável "freq", que para o estudo assumimos estar compreendida entre 60 e 100 batimentos por minuto). A base de dados a preencher (gerar aleatoriamente) terá o seguinte aspecto:


A geração da variável grupo é simples. Basta definir quantos controlos saudáveis (grupo=1) se quer ter na base de dados e quantos pacientes (grupo=2) se pretende inserir. Para este exemplo, considerarmos ter 14 controlos saudáveis e apenas 9 pacientes.


Relativamente à variável idade, iremos recorrer à função do Excel RANDBETWEEN(., .) - ou, em português, ALEATÓRIOENTRE(.; .). Esta é uma função que gera números aleatoriamente. Funciona de uma forma muito simples. Escrevendo numa célula do Excel "=RANDBETWEEN(35, 45)", este irá gerar números inteiros entre 35 e 45:


Procedendo como na animação em cima, as idades são geradas de forma igual para doentes e controlos. Suponhamos que relativamente às frequências cardíacas se espera que os doentes tenham valores elevados (entre 70 e 120 batimentos por minutos) quando comparados com os controlos (entre 60 e 100 batimentos por minuto). Nesse caso, deverá usar-se a função RANDBETWEEN(60, 100) para gerar dados de controlos e RANDBETWEEN(70, 120) para gerar dados de doentes:


 Notas:
  • Podem-se ainda querer acrescentar-se valores fora dos intervalos definidos para um ou dois sujeitos (acrescentando valores atípicos ou outliers). Tal poderá ser feito manualmente: após a geração de dados para a variável, alguns destes poderão ser substituídos como se entender. Por exemplo, poderemos querer considerar um controlo com frequência cardíaca reduzida (36 batimentos por minuto) e um paciente com frequência cardíaca alta (140 batimentos por minuto):
  •  Suponhamos que queríamos ser muito precisos na idade. Em vez de números inteiros entre 35 e 45, queríamos números com uma casa decimal. Nesse caso, basta usar a função "RANDBETWEEN(350, 450)/10":

  • A função RANDBETWEEN(., .) gera números uniformemente distribuídos. Podemos ainda querer gerar números normalmente distribuídos. Tal é possível com a função NORMINV(RAND(), ., .) - em português, INV.NORMAL(ALEATÓRIO(); .; .). Por exemplo, escrevendo numa célula "=NORMINV(RAND(), 10, 1)" e arrastando para gerar novos números, estes serão gerados seguindo uma distribuição normal com média 10 e desvio padrão 1.
  •  Cada vez que há mudanças à base de dados, os números aleatórios são gerados de novo.

terça-feira, 20 de outubro de 2015

Domínio e declínio (?) do SPSS

Na Faculdade de Medicina da Universidade de Coimbra, o ensino da Bioestatística a alunos dos mestrados integrados de Medicina e Medicina Dentária tem vindo nos anos recentes a distanciar-se do ensino do SPSS.  Ainda é esse o software que recomendamos como preferencial aos nossos alunos, mas nas aulas focam-se mais os processos de decisão e de interpretação de resultados (que, a par da teoria estatística, sempre foram a componente principal das cadeiras de Bioestatística) do que como navegar nos menus do SPSS. Essa última parte, sendo importante, tem sido gradualmente deixada mais a cargo dos alunos, com a ajuda de materiais de apoio.

Há algumas razões para isso: 1) a cada geração, a relação com os computadores é mais íntima; 2) os programas evoluem rapidamente, os princípios do pensamento estatístico e da Medicina baseada na evidência não; 3) menos tempo das aulas dedicado a software significa mais tempo que se pode investir a incrementar espírito crítico e 4) o SPSS está rapidamente a perder influência. Quanto às primeiras três razões, são meras opiniões emitidas pelo autor destas linhas. Já a perda de influência do SPSS é bem ilustrada no gráfico seguinte (fonte), que mostra o número de artigos publicados (na verdade, número de hits no Google Scholar), por ano, desde 1995, usando diferentes programas que permitem fazer análise de dados:

Claramente o SPSS lidera, mas o número de artigos publicados está a diminuir de forma rápida. Também a perder influência neste sentido tem-se o SAS. Logo atrás, mas com o número de hits no Google Scholar a aumentar, aparece o R, que neste momento é o software usado para o ensino da Bioestatística no curso de Engenharia Biomédica. O gráfico seguinte é idêntico ao anterior, mas para melhor visulização dos novos contenders excluem-se dados relativos ao SPSS e ao SAS (a fonte é a mesma):

A continuada perda de domínio por parte do SPSS, a par da consciência aguda de que o ensino da Estatística não é o ensino de um software, tem levado a discussões no seio do Laboratório de Bioestatística. O ensino clássico de linguagens de programação como o R implica uma curva de aprendizagem maior que o SPSS (exigindo conhecimentos a priori que é duvidoso que um aluno típico que entre em Medicina ou Medicina Dentária tenha). O uso de linguagens como R traz vantagens muito claras, como a possibilidade da criação de scripts que asseguram maior reprodutiblidade de análise. Por outro lado, o uso de um software como o SPSS distancia o utilizador do pensamento estatístico: trata-se de uma blackbox sofisticada que tem a qualidade e o defeito de fazer exactamente o que o utilizador pedir. É muito fácil clicar apenas num botão e obter-se resultados, porém perde-se noção dos processos que estão envolvidos. Se haverá uma forma de compatibilizar os conhecimentos à entrada do curso com o ensino eficaz de Bioestatística operacionalizada numa linguagem como o R é neste momento, para nós, um problema em aberto. Se será esse o caminho a seguir é um tema de discussão. Colocar o foco no pensamento estatístico e não no software é a garantia de que os alunos sairão mais preparados.

As duas imagens acima foram retiradas do artigo The Popularity of Data Analysis Software, escrito por Robert Muenchen, o autor de R for SAS and SPSS Users. Uma outra imagem que se pode encontrar nesse artigo é a seguinte, em que se mostra o número de trabalhos analíticos no site Indeed.com, segmentados por software de análise. Vale a pena consultar o artigo para ver as tendências de uso de cada linguagem.
Nota: As opiniões emitidas neste post são apenas isso - meras opiniões - do abaixo assinado.

quinta-feira, 15 de outubro de 2015

Gráficos de dispersão

Gráficos de dispersão são muito úteis para representar correlações entre duas variáveis quantitativas. A cada sujeito (ou objecto do estudo) faz-se corresponder um ponto cujas coordenadas são os valores das variáveis observadas para esse sujeito, como exemplificado de seguida:


Este tipo de gráfico tem a vantagem de mostrar os dados como foram obtidos, não apenas uma medida sumária dos mesmos. Naturalmente, não será adequado para todas as situações - por exemplo, quando se tem uma amostra muito grande, um gráfico de dispersão não resulta bem. Uma dificuldade que surge quando se quer comparar os valores obtidos para uma única variável quantitativa entre vários grupos é que se podem ter dados sobrepostos, como ilustrado no gráfico à esquerda da figura seguinte (fonte), em que se representa uma variável quantitativa (response time) em função de diferentes scores (temos grupos de dados correspondendo aos diferentes scores, de 1 a 5):



Uma solução, nesses casos, passa por agitar (à falta de melhor palavra; em inglês a expressão é jitter) horizontalmente os pontos de forma aleatória, obtendo um gráfico como o incluído à direita na última figura. Alguns (poucos) programas oferecem a possibilidade de se criar automaticamente gráficos assim. Ainda que de forma não automática, pode-se recorrer ao Excel, como explicado aqui. Como há diferentes versões do Excel, poderá haver diferenças nos procedimentos que cada utilizador terá de descobrir por si. Possivelmente, em vez de RAND() poderá ter de se usar o equivalente em português, ALEATÓRIO(); eventualmente a transparência deverá ser introduzida clicando com o botão direito do rato num dos pontos e alterando as definições de preenchimento de cada um dos pontos.

Less is more

Um bom gráfico deve mostrar bem os dados e ser apelativo. A questão é como o criar. Uma filosofia interessante é baseada no conceito de Data-ink, de Edward Tufte, segundo a qual se deve reduzir a tinta gasta na impressão de um gráfico para mostrar apenas os dados, removendo tudo o que sejam elementos redundantes: "Rather than dressing our data up we should be stripping it down". O conceito, que não é desprovido de críticas, consegue em muitas ocasiões ser eficaz. Um exemplo de aplicação desta filosofia, que pode ser encontrado aqui. Um outro exemplo interessante (da mesma fonte) é a aplicação da filosofia ao muito odiado gráfico circular


Há outros processos de redução de gráficos ao essencial que merecem ser vistos, como este retirado daqui:

A mesma lógica pode ser aplicada a tabelas (fonte):


terça-feira, 29 de setembro de 2015

Perguntas frequentes em bioestatística #8. Para que serve o teorema do limite central?

A seguinte mensagem é a oitava comunicação da série Perguntas Frequentes em Bioestatística, da autoria de membros do Laboratório de Bioestatística e Informática Médica da Faculdade de Medicina da Universidade de Coimbra. Pretende-se fomentar uma discussão sobre as melhores práticas estatísticas na área da saúde.

Perguntas frequentes em bioestatística #8. Para que serve o teorema do limite central?

Miguel Patrício e Francisco Caramelo



Na impossibilidade de se ter acesso a todos os dados relativos a uma determinada população, é comum obter-se uma amostra da mesma e efectuar-se as medidas relevantes apenas para os elementos da amostra. Denomina-se por inferência estatística ao processo em que se tiram conclusões sobre a população tendo por base o que foi observado para a amostra. O teorema do limite central (ou teorema central do limite) surge neste contexto, validando o processo de inferência e permitindo quantificar o erro subjacente ao mesmo. Sendo a amostra representativa da população, espera-se que aquilo que se observa relativamente à amostra seja generalizável para a população. Porém, nem sempre isto acontece, ainda que se tenha aderido às melhores práticas estatísticas: poderá, por mero capricho da sorte, ter-se tido a infelicidade de seleccionar uma amostra cujas características não espelham a da população. Por exemplo, suponhamos que queremos estudar a prevalência da diabetes na população portuguesa: poderemos ter o azar, mesmo escolhendo uma amostra da dimensão adequada e com os melhores métodos de amostragem, de apenas encontrar indivíduos diabéticos na amostra, o que nos levaria a concluir erradamente que a prevalência de diabetes na população portuguesa seria de 100%. Porém, sabemos de forma intuitiva que é muito improvável termos tamanho azar.

O teorema do limite central permite quantificar a confiança que se pode ter no processo de inferência estatística. É deste modo um dos resultados mais importantes e fascinantes da teoria das probabilidades, devido quer à sua vasta aplicação quer à força e beleza do conceito subjacente. Como ponto de partida, o teorema toma uma população e um instrumento de medida quantitativa que pode ser aplicado a cada elemento da população. De uma forma simplificada, o teorema do limite central afirma que a distribuição de médias amostrais tende para uma distribuição normal à medida que o tamanho das amostras aumenta. Tal tem como consequência que, se tivermos amostras suficientemente grandes, é improvável cometermos erros graves no processo de inferência, Figura 1. Um enunciado mais rigoroso pode ser encontrado em [1]. Naturalmente, na prática, num processo de inferência apenas se recolhe uma amostra da população. Mas o conhecimento da distribuição das médias das diferentes amostras permite quantificar a probabilidade de se obter uma boa estimativa para essa amostra.




Figura 1. Representação da distribuição normal das médias amostrais correspondendo a uma população com média µ e desvio padrão σ. Segundo o teorema do limite central, a probabilidade de uma amostra com tamanho suficientemente grande ter média que diste menos de δ de µ é aproximadamente igual à área da região a sombreado na figura, que é delimitada pelo eixo dos XX, pela curva de Gauss de média µ e desvio padrão σ/√n e pelas rectas verticais x= µ-δ e x= µ+δ.




Para percebermos melhor o que significa o teorema, comecemos por considerar uma experiência aleatória simples: o lançamento de um dado. Esta experiência diz-se aleatória na medida em que a face que sai não é conhecida antecipadamente, apesar do conjunto dos resultados estar bem definido. Pode associar-se de forma natural uma variável aleatória à experiência, que exprime o resultado da mesma – de cada vez que se lançar um dado, a variável aleatória tomará o número que ficar visível na face de cima. Em cada lançamento, a variável aleatória tomará assim um número entre 1 e 6. Será deste modo idêntico afirmar, por exemplo, que “saíu o 5” ou que a variável aleatória “toma o valor 5”. Neste contexto, é ainda útil considerar a distribuição de probabilidades da variável aleatória ou, por outras palavras, perceber quão provável é que ocorra cada um dos acontecimentos possíveis. Quando todas as faces têm a mesma chance de sair, a distribuição de probabilidades é uniforme, Figura 2. Como a repetição da experiência não altera as chances de ocorrência dos possíveis resultados, a variável aleatória é dita independente e identicamente distribuída (iid).


Figura 2. Distribuição de probabilidades (função de densidade de probabilidades) associada a um dado não viciado. No eixo das abcissas encontram-se representados os valores que é possível a variável aleatória X que exprime o número que sai ao lançar um dado tomar, no eixo das ordenadas representam-se as correspondentes probabilidades, em percentagem. A variável aleatória X é tal que P(X=k)=1/6, sendo k um número natural entre 1 e 6.

Para exemplificar a utilidade do teorema do limite central é útil considerar o lançamento de cada vez mais dados. Comecemos por considerar o lançamento de dois dados e a respectiva variável aleatória que exprime a soma dos números das faces que saírem no topo. O que acontece neste caso, como sabemos intuitivamente dos jogos de dados, é nem todos os acontecimentos têm a mesma chance de ocorrer, ver Figura 3.
 


Figura 3. (fonte da figura) Distribuição de probabilidades (função de densidade de probabilidades) associada a dois dados não viciados. No eixo das abcissas encontram-se representados os valores que é possível a variável aleatória X que exprime a soma dos números das faces que saírem tomar; no eixo das ordenadas representam-se as correspondentes probabilidades, em percentagem. Os acontecimentos não são equiprováveis: P(X=k) é tanto maior quanto mais k se aproxima de 7. Os acontecimentos extremos (saída do valor 2 ou do valor 12)  são os que têm menor probabilidade de ocorrência.




À semelhança do lançamento de um dado, a experiência de lançamento de dois dados continua a ser aleatória porque não é possível saber o resultado de antemão. No entanto, agora cada resultado apresenta diferente probabilidade de ocorrer: os resultados mais prováveis são so que se encontram representados no centro da Figura 3, em que a soma dos números saídos ao lançar os dois dados se aproxima do número 7. Experimentando lançar três, quatro, cinco ou n dados poderá verificar-se que a distribuição de probabilidade associada à variável aleatória que exprime a soma dos números saídos se vai aproximando cada vez mais da distribuição normal[2], ver Figura 4. Este resultado traduz uma das ideias fundamentais do teorema do limite central que foi apresentada anteriormente: à medida que o n aumenta, a distribuição de probabilidades torna-se cada vez mais próxima de uma distribuição normal. Tal tem profundas implicações para o processo de decisão estatística. De facto, em vez de pensarmos no lançamento de 10 dados pensemos na recolha de uma amostra com 10 elementos e, em vez de pensarmos no cálculo da soma dos 10 números saídos pensemos na média das observações feitas para cada elemento da amostra. O que o teorema do limite central permite concluir é que é improvável (assumindo cumprirem-se as melhores práticas estatísticas) a média das observações ser muito distante da média populacional que queremos estimar, ver de novo Figura 1. 



Figura 4. Distribuição de probabilidades (função de densidade de probabilidades) associada a n=10 dados não viciados. No eixo das abcissas encontram-se representados os valores que é possível a variável aleatória X tomar, os quais exprimem a soma dos números das faces que saírem. No eixo das ordenadas representam-se as correspondentes probabilidades, em percentagem. Os acontecimentos não são equiprováveis: sendo k um número natural, P(X=k) é maior quando k se aproxima de 35.

Interessa referir que o teorema se continua a verificar independentemente da distribuição da variável aleatória, desde que a mesma seja iid. No exemplo prático anteriormente colocado, esta situação poderia corresponder ao caso em que se tem um dado “viciado” para uma determinada face, o que iria determinar uma distribuição de probabilidade não uniforme. Mesmo nesta situação, o teorema do limite central verificar-se-ia observando-se que a variável aleatória correspondente à soma das faces assumiria uma distribuição tendencialmente normal à medida que o número de dados aumentasse. Esta distribuição, embora normal, não seria igual à obtida com lançamentos sucessivos de um dado não viciado: o acontecimento mais provável (ou, por outras palavras, o ponto mais alto da curva) não seria o mesmo. De facto, a natureza da experiência aleatória de base determina a distribuição normal obtida quando a experiência é repetida várias vezes. A distribuição normal resultante encontra-se centrada num ponto específico e a sua largura relacionada com a dispersão original. Nas condições do teorema do limite central, a média desta distribuição normal (das médias amostrais) corresponde à média da população e a sua variância é igual à variância da população dividida pelo número de elementos da amostra. De forma equivalente, também o desvio-padrão populacional σ se relaciona com o desvio padrão da distribuição das médias amostrais das amostras de dimensão n, que é dado por σ/√n  e que é usual denominar-se de erro padrão.

FAQ:

1. O que é a média amostral?
A média amostral é a média aritmética da amostra.

2. Qual a relação entre o erro padrão e o desvio padrão da distribuição das médias amostrais?
São a mesma coisa. Nas condições do teorema do limite central, o desvio padrão da distribuição de médias amostrais, que denominamos por erro padrão, é dado por σ/√n, onde n é o tamanho das amostras consideradas e σ é o desvio padrão da população.

3. Qual é a relação entre intervalos de confiança a 95% e o teorema do limite central?
Se considerarmos  uma amostra suficientemente grande, podemos ter 95% de certeza que a média amostral da mesma não distará da média populacional mais que uma certa quantidade que podemos estimar, Figura 5. Por outras palavras, é possível calcular uma aproximação para o número Δ tal que 95% de hipotéticas amostras que possamos recolher terão como média um valor no intervalo [µ-Δ, µ+Δ]. Consideremos então uma amostra, com média . Então temos 95% de certeza que x̄ pertence a [µ-Δ, µ+Δ]. Segue então que podemos ter 95% de confiança que o intervalo [ - Δ, x̄+ Δ] contém a média populacional µ. 




Figura 5. Distribuição normal das médias amostrais correspondendo a uma população com média µ e desvio padrão σ. O teorema do limite central permite determinar uma aproximação do número Δ que é tal que uma determinada percentagem das amostras de um determinado tamanho terão média amostral que não diste mais de Δ da média populacional. Quando essa percentagem é 95%, Δ é aproximadamente igual a 2σ/√n.


4. E se quisermos obter intervalos de confiança a 99%?
Estes, tais como intervalos a outras confianças, poderão ser obtidos de forma equivalente. Apenas se alterará a amplitude do intervalo.

5. O teorema do limite central indica que é mais provável obtermos uma amostra com média próxima da média populacional, mas não garante que tal aconteça?
Não, não garante. Esta é uma das razões pelas quais interessa garantir reprodutibilidade de estudos clínicos. Repetindo o mesmo estudo várias vezes, será possível chegar a uma resposta com muito mais confiança.

6. O teorema do limite central também tem implicações para testes de hipóteses?
Sim. O teorema do limite central permite arquitectar um raciocínio deveras poderoso que começa por assumir que o pior cenário que pode acontecer a um investigador é a variável em que está interessado ser aleatória. Ora, assumindo isto e invocando o teorema do limite central é possível defender que a média dessa variável segue uma distribuição normal. Uma vez que o conhecimento das características (média e variância) da distribuição normal se traduz na possibilidade de calcular probabilidades torna-se então possível aferir o grau de plausibilidade de determinadas afirmações. Por exemplo, um investigador questiona se os filhos de parturientes fumadoras têm menor peso à nascença do que a média do peso dos recém-nascidos em Portugal. Para responder à questão obtém uma amostra dos pesos de recém-nascidos de mães fumadoras. A observação directa dos valores não lhe permite responder categoricamente à questão uma vez que existem bebés com menor peso do que a média nacional e outros com maior peso. A variável peso comporta-se de forma aleatória e a comparação directa da média da amostra com o valor da média nacional não transmite confiança porque noutra amostra a conclusão poderia ser diferente. Todavia, a invocação do teorema do limite central permite restringir a média da amostra a uma distribuição normal de características conhecidas e, assim, é possível determinar a probabilidade da média dos pesos dos recém-nascidos de mães fumadoras ser menor do que a média nacional. Desta forma a resposta não é dada de forma categórica, mas associada a um grau de plausibilidade.





[2] O exemplo é passível de ser criticado na medida em que a distribuição obtida é discreta e a distribuição normal é contínua. O que se pretende, todavia, é ilustrar a ideia subjacente ao teorema e o exemplo serve este propósito.