segunda-feira, 29 de fevereiro de 2016

Revisões sistemáticas e meta-análises

Para o LBIM, 2016 é o ano de todos os cursos. Na última sexta-feira, dia 26 de Fevereiro, decorreu o curso "Revisões sistemáticas e meta-análises", no qual se tiraram as fotografias que podem ser vistas em baixo. Já nos próximos dias 4 e 11 de Março, terá lugar o curso "Estatística com SPSS". Segue-se, no dia 18 de Março, o curso "Simulação em estatística".






sexta-feira, 19 de fevereiro de 2016

Curso Pensamento Estatístico Aplicado

Após ter sido realizado em Janeiro o curso Desenho de estudos clínicos, chega a vez do segundo curso dos cursos LBIM 2016: "Pensamento Estatístico Aplicado". Partilhamos algumas fotos.




sábado, 6 de fevereiro de 2016

Programas de análise estatística

Neste blog já se falou de como o SPSS parece estar na liderança mas a perder a corrida ao programa mais frequentemente usado no mundo académico para fazer análise estatística. No mundo empresarial, nem chega a ser um player. Os competidores maiores serão programas como o SAS, o R ou o Python. O primeiro tem a aura de ser o único aprovado pela FDA para ensaios clínicos, mas será mesmo assim? Na verdade, nenhum software é aprovado pela FDA*, ler mais aqui. Tanto o R como o Python têm a vantagem de ser livres e ter comunidades muito activas a desenvolver e partilhar código. Para quem quer escolher aprender a usar uma destas ferramentas, a escolha é difícil. A infografia que se segue, tirada daqui, ajuda:

* tanto quanto o autor destas linhas julga perceber do assunto. Comentários ou mais esclarecimentos serão bem vindos.

sexta-feira, 5 de fevereiro de 2016

Workshop Bioestatística e desenho de projectos

No Hospital Pediátrico do Centro Hospitalar e Universitário de Coimbra há uma particularidade: é pedido a cada interno que desenvolva um projecto de investigação. Tal tem levado a que haja uma colaboração constante (e cada vez mais forte) entre o Pediátrico e o Laboratório de Bioestatística e Informática Médica (LBIM). Como prova dessa colaboração, hoje foi realizado o Workshop Bioestatística e desenho de projectos, organizado pelo LBIM e pelo Centro de Investigação e Formação Clínica do Hospital Pediátrico. Como começa a ser tradição, disponibilizamos aqui algumas fotos.



O Workshop contou, na assistência, com a presença de médicos internos e especialistas do Pediátrico. Em (cerca de) oito horas muito intensas, houve tempo para tudo: 
  • uma pequena introdução teórica por parte de membros do LBIM
  • duas sessões hands-on, em que a cada médico interno foi pedido que definisse muito claramente os aspectos clínicos e estatísticos do seu projecto. Para tanto, contou com a ajuda dos seus colegas internos, dos especialistas e dos membros do LBIM
  • uma apresentação, por parte de cada médico interno, dos aspectos fundamentais do seu projecto
 O balanço é feito pelos médicos internos, a quem foi pedido que indicassem se o Workshop os ajudou a clarificar ideias sobre os seus projectos. As respostas foram as seguintes:


terça-feira, 2 de fevereiro de 2016

Perguntas frequentes em bioestatística #12. Que cuidados se deve ter quando se efectuam muitos testes estatísticos num mesmo trabalho?



A seguinte mensagem é a décima segunda comunicação da série Perguntas Frequentes em Bioestatística, da autoria de membros do Laboratório de Bioestatística e Informática Médica da Faculdade de Medicina da Universidade de Coimbra. Pretende-se fomentar uma discussão sobre as melhores práticas estatísticas na área da saúde.



Miguel Patrício e Francisco Caramelo

Uma análise estatística deverá ser sempre o mais focada possível: o ponto de partida é uma questão de investigação, define-se a priori a medida principal e apenas se recolhem as medidas secundárias indispensáveis, ver Perguntasfrequentes em bioestatística #1. Na situação mais simples, bastaria medir-se uma única variável e realizar um teste estatístico para responder à questão de investigação. Porém, a realidade tende a ser mais complexa, levando a que quase sempre se tenha de recolher mais dados e a efectuar mais testes. Em particular, em trabalhos de índole exploratório é comum inúmeras medições serem efectuadas e apenas a posteriori tentar-se perceber que variáveis parecem ter interesse.

Antes de se iniciar uma análise estatística, deverá escolher-se o nível de significância, geralmente denotado por α. A maioria dos estudos trabalham com um nível de significância de 5% (α=0.05), que adoptaremos também para este texto. Num teste de hipóteses, rejeitar-se-á a hipótese nula se o valor p resultante do teste estatístico for inferior a α, não se a rejeitando caso contrário. A razão pela qual se procede assim é porque se pretende ter uma forma objectiva de decidir quais resultados são estatisticamente significativos. Diferentes valores de α têm impacto na probabilidade de ocorrência de falsos positivos (erro tipo I). Quanto menor o valor de α, menos provável é ter-se um falso positivo, ou seja, torna-se menos provável concluirmos existirem diferenças que na realidade não existem.

Ao realizar-se um teste estatístico, parte-se do princípio que a hipótese nula é verdadeira. A obtenção de um valor p de 0.01 pode ser interpretada como havendo 1% de chance de obter um resultado como o observado na condição da hipótese nula ser verdadeira. Partindo dessa premissa, se se observar um resultado com menos de 5% de chance (sendo α=0.05) na mesma condição, então por um raciocínio de reductio ad absurdum é provável que a hipótese nula não seja verdadeira. Rejeita-se por isso essa hipótese ou, numa linguagem mais estatística, indica-se estar perante um resultado estatisticamente significativo. Também se pode dizer que não existe evidência da hipótese nula ser verdadeira. Isto deriva naturalmente de se ter encontrado uma probabilidade muito pequena quando se parte do pressuposto da hipótese nula ser verdadeira.

Quando se realiza mais do que um teste estatístico o raciocínio anterior é desvirtuado e surge um problema. Note-se que:

  • Quando se usa α=0.05 e se realiza um teste de hipóteses, a probabilidade de obter um falso positivo se a hipótese nula for verdadeira é P=5%.
  • Quando se usa α=0.05 e se realizam 2 testes de hipóteses independentes, a probabilidade de obter um falso positivo se as hipóteses nulas forem verdadeira é P=(1-0.95*0.95)=9.75%
  • Quando se usa α=0.05 e se realizam 3 testes de hipóteses independentes, a probabilidade de obter um falso positivo se as hipóteses nulas forem verdadeira é P=(1-0.95*0.95*0.95)=14.26%
Desta forma, quantos mais testes de hipótese forem realizados, mais provável será encontrar-se falsos positivos. O valor de α é assim desvirtuado e diz-se que se comete um erro de comparações múltiplas. Para evitar este problema, poderá recorrer-se a métodos de correcção para comparações múltiplas como o método de Bonferroni. Visando controlar o erro numa família de testes (family wise error rate) e evitar a acumulação de falsos positivos que advém da realização de vários testes, a correcção de Bonferroni propõe que se compare o valor p resultante de cada teste com α/m, onde m é o número de testes; ou seja, procede-se a uma correcção do valor de alfa. A título de exemplo, consideremos os dados representados na Tabela 1. Nesta, incluem-se os dados em bruto relativos a um estudo onde se observaram quatro medidas cognitivas (C1 a C4) e cinco medidas demográficas (D1 a D5), em quinze sujeitos pertencentes a três grupos.

Tabela 1. Quatro medidas cognitivas e cinco medidas demográficas, observadas para os quinze sujeitos de três grupos.





Se se pretender saber para que variáveis há diferenças estatisticamente significativas entre os três grupos, poderá efectuar-se um teste de Kruskal-Wallis para cada variável (recorde Perguntasfrequentes em bioestatística #5). Os valores p correspondentes podem ler-se na Tabela 2.

Tabela 2. Resultados (valores p) dos testes de Kruskal-Wallis realizados para cada uma das variáveis.





Sem se recorrer a qualquer correcção para comparações múltiplas, concluir-se-á ter-se obtido resultados estatisticamente significativos para as variáveis C1, D4 e D5, para as quais os valores p obtidos são inferiores a 0.05. Porém, como vimos antes, esta conclusão peca por não se acautelar a ocorrência de falsos positivos. Adoptando uma correcção de Bonferroni e considerando ter-se uma família de 9 testes, cada valor p deverá ser comparado com 0.05/9≈0.0056, ou, de forma equivalente, cada valor p deverá ser multiplicado por 9 e comparado com 0.05. Desta forma, apenas relativamente à variável D5 se terá um resultado estatisticamente significativo (sendo o valor p a reportar, após correcção de Bonferroni, 0.002*9=0.018).

Um aspecto subjectivo numa correcção de Bonferroni é o de família de testes. A correcção pretende controlar a ocorrência de falsos positivos numa tal família. É discutível, no exemplo apresentado, se todos os testes pertencem à mesma família ou se temos uma família de testes para medidas cognitivas e outra para medidas demográficas. Os resultados obtidos são influenciados por esta escolha subjectiva. No exemplo anterior, poderá ser defensável realizar-se uma correcção de Bonferroni para as medidas cognitivas e outra para as medidas demográficas. Os valores de p correspondentes deverão então ser comparados com 0.05/4 e 0.05/5, respectivamente. Ou, de forma equivalente, os valores p advindos de medidas cognitivas poderão ser multiplicados por 4 e os relativos a medidas demográficas multiplicados por 5, devendo ser todos estes comparados com α=0.05, ver Tabela 3. Procedendo desta forma, conclui-se que há diferenças estatisticamente significativas entre os três grupos para as variáveis D4 e D5. Para estas variáveis, deverá fazer-se testes post hoc (do latim, depois disto) para averiguar entre que grupos é que há diferenças. Para cada variável, irão fazer-se três testes de Mann-Whitney U para averiguar entre que par de grupos existem diferenças estatisticamente significativas. Deverá novamente usar-se uma estratégia de correcção de comparações múltiplas para estas novas comparações. Poderá outra vez recorrer-se a uma correcção de Bonferroni, embora para comparação de uma única variável entre vários grupos haja muitas alternativas menos conservadoras que poderão ser preferíveis (por exemplo, testes Tukey).

Tabela 3. Resultados (valores p) dos testes de Kruskal-Wallis realizados para cada uma das variáveis, ajustados por correcções de Bonferroni.





A correcção de Bonferroni, apesar de ser simples de usar, é muito conservadora, correndo-se o risco de se desprezar muitos resultados que correspondem a diferenças realmente existentes na população. Uma alternativa a Bonferroni quando se querem fazer testes a muitas variáveis consiste em colocar-se o foco em controlar a proporção de falsos positivos nos resultados significativos encontrados, recorrendo a correcções como a de Benjamini-Hochberg, [1]. Em particular em estudos exploratórios, é comum estar-se disposto a aceitar uma proporção de Q=5%, Q=10% ou mesmo Q=20% de falsos positivos nos resultados encontrados ao realizar m testes. Existe, no entanto, um custo: se em estudos posteriores se voltarem a realizar os testes para os quais se observou haver, no estudo exploratório e após uma correcção de Benjamini-Hochberg, significância estatística, deverá esperar-se haver uma proporção Q de testes no novo estudo para os quais não se verificará haver significância estatística. Para efectuar uma correcção de Benjamini-Hochberg,



  • Ordenam-se os m valores p obtidos, por ordem crescente
  • Numeram-se os valores p atribuindo a cada um o seu rank i, isto é, o valor p mais pequeno terá rank i=1, o seguinte i=2 e por aí em diante
  • Calcula-se o valor de Benjamini-Hochberg para cada valor p usando a fórmula (i/m)Q
  • Compara-se cada valor p ao valor de Benjamini-Hochberg correspondente. O maior valor p (aqui denotado por pM) que seja menor que o seu valor de Benjamini-Hochberg é considerado estatisticamente significativo.
  • Todos os valores p menores que pM são também considerados estatisticamente significativos.


Na Tabela 4 ilustra-se a aplicação da correcção de Benjamini-Hochberg para os resultados obtidos para as variáveis da Tabela 1, adoptando-se Q=0.25, ou seja, estando-se disposto a aceitar uma proporção de 25% de falsos positivos nos resultados estatisticamente significativos encontrados. Considera-se ainda que todos os testes pertencem à mesma família, embora seja eventualmente aceitável considerar duas famílias de testes.

Tabela 4. Resultados (valores p) dos testes de Kruskal-Wallis realizados para cada uma das variáveis e processo de correcção com o método de Benjamini-Hochberg.





Cada valor p obtido deverá ser comparado com o valor de Benjamini-Hochberg (i/m)Q correspondente. O maior valor p que ainda é menor que o valor de Benjamini-Hochberg calculado é o que resulta da variável C1. Deste modo consideramos estatisticamente significativos os resultados encontrados para todas as variáveis para as quais o valor p determinado não exceda 0.031 (ou seja, C1, D4 e D5).

Finalmente, note-se que se poderia evitar ter de recorrer a técnicas de correcção de comparações múltiplas se se usasse testes de estatística multivariada. Tal não é sempre possível ou exige que se reduza previamente o número de variáveis envolvidas, eliminando as que apresentam pouca variabilidade e eventualmente recorrendo a ferramentas como análise de componentes principais ou análise factorial. Poderá ainda ser útil, tendo-se amostras de dimensão reduzida, recorrer a técnicas mais avançadas como boostrapping.


 [1] Benjamini, Yoav; Hochberg, Yosef (1995). "Controlling the false discovery rate: a practical and powerful approach to multiple testing" (PDF). Journal of the Royal Statistical Society, Series B 57 (1): 289–300

Na próxima edição do Perguntas Frequentes em Bioestatística: “O que é uma boa questão de investigação?”