quarta-feira, 11 de março de 2015

Perguntas frequentes em bioestatística #5. Qual é o teste estatístico adequado?

A seguinte mensagem é a quinta comunicação da série Perguntas Frequentes em Bioestatística, da autoria de membros do Laboratório de Bioestatística e Informática Médica da Faculdade de Medicina da Universidade de Coimbra. Pretende-se fomentar uma discussão sobre as melhores práticas estatísticas na área da saúde.

Perguntas frequentes em bioestatística #5. Qual é o teste estatístico adequado?
Francisco Caramelo e Miguel Patrício

Decidir qual é o teste estatístico adequado a cada situação é uma dificuldade comum em estatística. Nem sempre a decisão é imediata; pode haver mais que uma forma lícita de analisar um conjunto de dados. Porém, nos casos mais simples, é possível sistematizar o processo de decisão (ver, por exemplo, [1]). Este processo parte do conhecimento sobre o número e o nível de mensuração das variáveis dependentes, o número e a natureza das variáveis independentes e, ainda, se as variáveis dependentes são normalmente distribuídas.

Neste texto iremos focar apenas a análise univariada, isto é, o caso em que apenas se tem uma variável dependente (ver Perguntas frequentes em bioestatística #1). Pode-se então pensar numa amostra, representativa de uma população (ver Perguntas frequentes em bioestatística #2), relativamente à qual se observam as concretizações de uma variável. Por outras palavras, para cada elemento da amostra, conhece-se o valor que toma a variável principal em estudo. Pretende-se, no contexto de testes de hipóteses, efectuar uma comparação dos valores que a variável toma entre grupos amostrais: por exemplo, podemos querer comparar o número diário médio de cafés bebidos (variável dependente) por homens e por mulheres (variável independente). É ainda possível comparar os valores da variável dependente com uma quantidade de referência: por exemplo, poderemos querer aferir se o número diário médio de cafés bebidos em Portugal, no presente ano civil, é igual ao que havia sido reportado num estudo em 1990. 

O processo de tomada de decisão do teste estatístico a utilizar, cuja potência se pretende o mais elevada possível, pode ser dividido em pequenos passos. O primeiro consiste na formulação precisa e inequívoca da questão a responder. De seguida, deve-se determinar o nível de mensuração da variável dependente (como discutido mais em pormenor nas FAQs incluídas no fim deste documento). De uma forma abreviada, tal consiste na classificação da variável dependente como quantitativa, qualitativa nominal ou qualitativa ordinal. No caso de uma variável quantitativa que seja normalmente distribuída para cada grupo amostral, podem-se usar testes paramétricos. Não se verificando normalidade ou sendo a variável qualitativa, os testes a usar deverão ser não paramétricos.

Na Tabela 1 incluem-se os nomes dos testes (paramétricos ou não paramétricos) a utilizar quando se tem uma variável quantitativa. Para uma variável com outro nível de mensuração, o processo de decisão é semelhante, como veremos. Focando-nos agora apenas nas variáveis quantitativas, a escolha do teste exige a determinação do número de grupos amostrais e que se verifique se os grupos se encontram emparelhados ou se são independentes. Tipicamente, grupos emparelhados encontram-se quando há medidas repetidas no tempo ou na situação em que para cada sujeito se obteve um conjunto de medidas obtidas recorrendo a diferentes instrumentos. Medidas de pressão arterial efectuadas antes e após a toma de cafeína são um exemplo em que há um emparelhamento de dois grupos.

Tabela 1. Indicação do teste a efectuar em situações em que se tem uma variável dependente quantitativa. Deverão ser utilizados testes paramétricos se se verificar a normalidade da variável (para cada grupo amostral) e testes não paramétricos caso contrário.




Como ilustração do uso da Tabela 1 no processo de tomada de decisão do teste estatístico a utilizar, consideremos os seguintes exemplos:

  • Pretende-se aferir se o número diário médio de cafés bebidos em Portugal ainda é igual ao que havia sido reportado num estudo em 1990. Para tanto, questiona-se uma amostra representativa dos portugueses sobre os seus hábitos de consumo de café. Tem-se então apenas uma amostra, relativamente à qual se observa o número diário consumido de cafés, valor que se pretende comparar com o valor de referência do estudo de 1990. Deverá testar-se a normalidade da amostra: verificando-se a mesma ser normalmente distribuída, o teste a utilizar será o t-Student para uma amostra. Caso contrário, será o teste Wilcoxon signed rank;
  • Pretende-se saber quem consome mais café, se os homens ou as mulheres. Nesse caso, teremos dois grupos independentes (homens e mulheres). Deve testar-se a normalidade da distribuição do número de cafés bebido por homens e também do número bebido por mulheres. No caso de se verificar normalidade para ambas as amostras, recorre-se ao teste paramétrico: neste caso, t-Student para amostras independentes. Caso contrário, usa-se o teste de Mann-Whitney;
  • Pretende-se saber se o consumo anual de café de um determinado grupo de pessoas se manteve constante entre 2012 e 2014. Temos assim 3 grupos a comparar: o consumo de café em 2012, o consumo em 2013 e o consumo em 2014. Como as medidas se referem sempre ao mesmo conjunto de pessoas, há emparelhamento das amostras. Caso estas sejam todas normalmente distribuídas, o teste a usar será a ANOVA de medidas repetidas. Caso falhe a normalidade para algum dos três anos, o teste será o Friedman.

No exposto em cima, restringimos a discussão às variáveis quantitativas. O processo de decisão ilustrado na Tabela 1 poderá ainda ser aplicado a variáveis ordinais, sendo que para estas se deverá usar sempre testes não paramétricos. Não é porém, devido à sua simplicidade, extensível a variáveis nominais.  Uma generalização do processo de inclusão que inclui variáveis nominais encontra-se ilustrada nas árvores de decisão incluídas na página 2 do seguinte documento (cortesia das Edições Sílabo). Como ponto de partida numa consulta a essas árvores deverá saber-se se os testes a aplicar são paramétricos ou não paramétricos. De seguida, o processo é semelhante ao explicitado nos exemplos anteriores. Recorde-se que apenas se aplicam testes paramétricos se a variável dependente é quantitativa e normalmente distribuída para cada grupo amostral. 

Os processos de decisão que apontámos, tanto o ilustrado na tabela 1 quanto o incluído no documento, são simples e funcionam para a grande maioria dos casos. É necessário, no entanto, realçar que existem situações em que aparentemente as regras anteriores são deliberadamente violadas. Isto deve-se, essencialmente, a situações de excepção em que os testes paramétricos são robustos a pequenas violações dos pressupostos expostos e permanecem como os testes mais potentes, sendo por isso preferíveis.

FAQ:

1-  Como determinar o nível de mensuração de uma variável?

Anteriormente havíamos discutido a diferença entre uma variável quantitativa e uma variável qualitativa. Enquanto as primeiras atribuem a cada elemento da amostra uma característica que é expressa por uma quantidade, as variáveis qualitativas - também denominadas por variáveis categóricas - atribuem a cada elemento da amostra uma característica que não é expressa por uma quantidade (ver Perguntas frequentes em bioestatística #2). Uma variável qualitativa poderá ainda ser classificada como nominal, quando não exista uma ordem nas categorias, ou ordinal, quando exista uma ordem. Para exemplificar esta distinção, consideremos que se obteve uma amostra de portugueses adultos aos quais se colocaram duas perguntas. A primeira, cujas respostas foram registadas na variável 1, questionava: “bebeu café ontem? (sim/não)”. A segunda, com respostas registadas na variável 2, colocava a questão: “em que escalão etário se insere? (30 anos ou menos, 31 até 60 anos ou mais de 60 anos)”. A variável 1 não é imediatamente ordenável, sendo portanto nominal. Já a variável 2 será ordinal pois existe uma ordem natural: pessoas de idade até 30 anos são mais novas que pessoas de idades superiores a 30 e até 60 anos, enquanto estas últimas são mais novas que pesssoas com idades superiores a 60 anos.

2-  Como determinar se uma variável é normalmente distribuída?
Existem vários métodos para verificar se uma variável é normalmente distribuída, não sendo esta uma questão consensual, [2]. É usual recomendar-se a verificação da normalidade com o teste de Shapiro Wilk. Quando se tem uma amostra com menos de 10 elementos, não faz muito sentido testar a normalidade e recorre-se a testes não paramétricos.

[2] Ghasemi, Asghar, and Saleh Zahediasl. 2012. “Normality Tests for Statistical Analysis: a Guide for Non-Statisticians.” International Journal of Endocrinology and Metabolism 10 (2)




Na próxima edição do Perguntas Frequentes em Bioestatística: “Como comunicar resultados científicos?

sexta-feira, 27 de fevereiro de 2015

Ich glaube nur der Statistik, die ich selbst gefälscht habe…

A Winston Churchill é frequentemente atribuída a frase:“I only believe in statistics that I doctored myself". Traduzindo, o antigo primeiro ministro britânico apenas acreditaria em estatísticas falsificadas por ele próprio.

Curiosamente, a frase é mais conhecida na Alemanha que na Grã-Bretanha, onde não há recordação ou alguma prova escrita conhecida que Churchill a tenha proferido. Aliás, o governante era conhecido pelo seu apreço pela Estatística, tendo recorrido à mesma para tomar decisões cruciais durante a segunda guerra mundial. Autor de obra extensa - chegou a ganhar o Nobel da Literatura - não será impossível que Churchill seja mesmo o autor da frase, mas há alguma desconfiança de que tal não terá acontecido. Há até quem atribua a frase à propaganda nazi.

Alvíssaras a quem encontrar documentos ou links mais esclarecedores sobre esta questão.

sexta-feira, 13 de fevereiro de 2015

Experimentação Animal: FRAME Training School in Experimental Design and Statistical Analysis of Biomedical Experiments

Irá decorrer entre os dias 30 de março e 1 de abril do presente ano a FRAME Training School in Experimental Design and Statistical Analysis of Biomedical Experiments. O curso, co-organizado pelo Laboratório de Bioestatística da Faculdade de Medicina da Universidade de Coimbra e pelo Fórum dos investigadores doutorados do CNC.IBILI, dirige-se a todos os interessados em experimentação animal. Aborda temas como desenho de estudo, análise estatística dos dados e apresentação de resultados e permitirá adquirir competências ao nível dos procedimentos corretos com animais, minimização do tamanho de amostra e otimização da qualidade e relevância do output científico.


São oferecidos preços reduzidos (200 euros por participante) a trabalhadores e alunos da Universidade de Coimbra. Consultando o site do curso pode obter uma lista de oportunidades de financiamento para ajudar a custear as despesas com a inscrição.

O prazo de inscrição foi alargado para 27 de fevereiro.

Encontrará a ficha de inscrição para membros da Universidade de Coimbra no site do LBIM. Para outras fichas de inscrição, mais informações sobre programa, apoios ou outros aspetos relacionados com o curso poderá consultar o site da Frame Training School.

Perguntas frequentes em bioestatística #4. Que estatística aprendem os alunos do primeiro ano de Medicina?

A seguinte mensagem é a quarta comunicação da série Perguntas Frequentes em Bioestatística, da autoria de membros do Laboratório de Bioestatística e Informática Médica da Faculdade de Medicina da Universidade de Coimbra. Pretende-se fomentar uma discussão sobre as melhores práticas estatísticas na área da saúde.



Perguntas frequentes em bioestatística #4. Que estatística aprendem os alunos
do primeiro ano de Medicina?
Bárbara Oliveiros, Francisco Caramelo e Miguel Patrício

Como parte da cadeira de Biomatemática, lecionada no primeiro semestre do presente ano letivo (2014-2015), propôs-se aos alunos a realização de um trabalho de tema livre a ser apresentado na forma de um poster. O peso deste trabalho na nota final foi de 15%. Pretendeu-se desta forma expôr os alunos do primeiro ano do Mestrado Integrado em Medicina a dados reais, avaliar as suas capacidades para aplicar os conhecimentos de estatística adquiridos e incentivar a aquisição de competências, nomeadamente ao nível da síntese, apresentação e comunicação de resultados.

Foi sugerido como ponto de partida a consulta das bases de dados públicas da PORDATA, do Instituto Nacional de Estatística e da Organização Mundial de Saúde. Os alunos organizaram-se em grupos com 4 ou 5 elementos. Cada um dos 46 grupos definiu a sua própria questão de investigação. De forma propositadamente vaga, havia-se pedido apenas aos alunos que escolhessem um tema interessante e que formulassem uma questão de investigação adequada. Como já discutido antes, o processo de definição da questão não é isento de dificuldades e o mesmo foi sentido pelos alunos. Os temas abordados pelos diferentes grupos foram diversos, apesar de algumas naturais sobreposições. Listam-se de seguida os títulos de alguns posters, tal como foram propostos pelos alunos. Por uma questão de brevidade, excluem-se da listagem títulos exprimindo variações do mesmo tema. 

* Alzheimer: uma doença sem cura, mas com prevenção
* Intervenções cirúrgicas cardiovasculares, em ambulatório, e a sua relação com o PIB nos países europeus
* Relação entre a classificação final de curso e a do exame de acesso à especialidade, por sexo, no ano de 2007
* Número de obstetras vs.  número de partos
* Os países mais ricos têm mais médicos?
* Taxa de nados vivos fora do casamento, região e ano: qual a relação?
* Há relação entre o número de médicos dos países da EU e a respetiva esperança média de vida? (Ano de 2011)
* Cardiologistas vs. morte por Isquémia
* Incidência de todas as formas de TB e prevalência estimada de HIV em adultos com TB nos países SADC
* Impacto da saída de um aluno de casa no seu desempenho académico
* A renovação da população em Portugal: a influência do número de pediatras
* O consumo de antidepressivos é influenciado pelo número de horas de sol?
* Estudo comparativo da evolução do número de médicos por género em Portugal entre 1980 e 2011
* Estará o PIB per capita relacionado com a Esperança média de Vida à Nascença, nos países da União Europeia, entre 2004 e 2012?
* Evolução do número de médicos em Portugal de 1980 a 2011 e relação com o número de matrículas no Ensino Superior



Sensivelmente um mês após o início do trabalho, pediu-se aos membros de cada grupo que apresentassem, durante 5 minutos, o seu poster. Os mesmos foram avaliados tendo-se em conta a formulação da questão abordada, o rigor e correção da análise estatística, a capacidade de síntese e a apresentação e discussão dos resultados obtidos. Foram ainda valorizadas a organização do poster, a exposição feita pelos alunos e as respostas aos docentes na consequente discussão .

Os trabalhos que mais se destacaram podem ser visualizados no blog do LBIM (no post imediatamente anterior a este). Estes são uma mostra do trabalho dos alunos do primeiro ano do Mestrado Integrado em Medicina e uma forma de diagnosticar o que os mesmos aprendem na Unidade Curricular de Biomatemática.

Na próxima edição do Perguntas Frequentes em Bioestatística: “Qual é o teste estatístico adequado?

Posters - Biomatemática 2014/2015

No âmbito da cadeira de Biomatemática, no primeiro semestre do ano lectivo de 2014/2015, foi pedido aos alunos da Faculdade de Medicina da Universidade de Coimbra que realizassem posters apresentando temas por eles escolhidos. Seguem-se 9 dos 46 posters apresentados: