Para o LBIM, 2016 é o ano de todos os cursos. Na última sexta-feira, dia 26 de Fevereiro, decorreu o curso "Revisões sistemáticas e meta-análises", no qual se tiraram as fotografias que podem ser vistas em baixo. Já nos próximos dias 4 e 11 de Março, terá lugar o curso "Estatística com SPSS". Segue-se, no dia 18 de Março, o curso "Simulação em estatística".
Blog do LBIM: Notícias, informações e comunicações do Laboratório de Bioestatística e Informática Médica da Faculdade de Medicina da Universidade de Coimbra.
segunda-feira, 29 de fevereiro de 2016
sexta-feira, 19 de fevereiro de 2016
Curso Pensamento Estatístico Aplicado
Após ter sido realizado em Janeiro o curso Desenho de estudos clínicos, chega a vez do segundo curso dos cursos LBIM 2016: "Pensamento Estatístico Aplicado". Partilhamos algumas fotos.
sábado, 6 de fevereiro de 2016
Programas de análise estatística
Neste blog já se falou de como o SPSS parece estar na liderança mas a perder a corrida ao programa mais frequentemente usado no mundo académico para fazer análise estatística. No mundo empresarial, nem chega a ser um player. Os competidores maiores serão programas como o SAS, o R ou o Python. O primeiro tem a aura de ser o único aprovado pela FDA para ensaios clínicos, mas será mesmo assim? Na verdade, nenhum software é aprovado pela FDA*, ler mais aqui. Tanto o R como o Python têm a vantagem de ser livres e ter comunidades muito activas a desenvolver e partilhar código. Para quem quer escolher aprender a usar uma destas ferramentas, a escolha é difícil. A infografia que se segue, tirada daqui, ajuda:
* tanto quanto o autor destas linhas julga perceber do assunto. Comentários ou mais esclarecimentos serão bem vindos.
sexta-feira, 5 de fevereiro de 2016
Workshop Bioestatística e desenho de projectos
No Hospital Pediátrico do Centro Hospitalar e Universitário de Coimbra há uma particularidade: é pedido a cada interno que desenvolva um projecto de investigação. Tal tem levado a que haja uma colaboração constante (e cada vez mais forte) entre o Pediátrico e o Laboratório de Bioestatística e Informática Médica (LBIM). Como prova dessa colaboração, hoje foi realizado o Workshop Bioestatística e desenho de projectos, organizado pelo LBIM e pelo Centro de Investigação e Formação Clínica do Hospital Pediátrico. Como começa a ser tradição, disponibilizamos aqui algumas fotos.
O Workshop contou, na assistência, com a presença de médicos internos e especialistas do Pediátrico. Em (cerca de) oito horas muito intensas, houve tempo para tudo:
- uma pequena introdução teórica por parte de membros do LBIM
- duas sessões hands-on, em que a cada médico interno foi pedido que definisse muito claramente os aspectos clínicos e estatísticos do seu projecto. Para tanto, contou com a ajuda dos seus colegas internos, dos especialistas e dos membros do LBIM
- uma apresentação, por parte de cada médico interno, dos aspectos fundamentais do seu projecto
terça-feira, 2 de fevereiro de 2016
Perguntas frequentes em bioestatística #12. Que cuidados se deve ter quando se efectuam muitos testes estatísticos num mesmo trabalho?
A seguinte mensagem é a décima segunda comunicação da série Perguntas
Frequentes em Bioestatística, da autoria de membros do Laboratório de
Bioestatística e Informática Médica da Faculdade de Medicina da Universidade de
Coimbra. Pretende-se fomentar uma discussão sobre as melhores práticas
estatísticas na área da saúde.
Miguel Patrício e Francisco Caramelo
Uma análise estatística deverá ser sempre o mais focada possível: o ponto
de partida é uma questão de investigação, define-se a priori a medida principal e apenas se recolhem as medidas
secundárias indispensáveis, ver Perguntasfrequentes em bioestatística #1. Na situação mais simples, bastaria medir-se
uma única variável e realizar um teste estatístico para responder à questão de
investigação. Porém, a realidade tende a ser mais complexa, levando a que quase
sempre se tenha de recolher mais dados e a efectuar mais testes. Em particular,
em trabalhos de índole exploratório é comum inúmeras medições serem efectuadas
e apenas a posteriori tentar-se
perceber que variáveis parecem ter interesse.
Antes de se iniciar uma análise estatística, deverá escolher-se o nível de
significância, geralmente denotado por α. A maioria dos estudos trabalham com
um nível de significância de 5% (α=0.05), que adoptaremos também para este
texto. Num teste de hipóteses, rejeitar-se-á a hipótese nula se o valor p
resultante do teste estatístico for inferior a α, não se a rejeitando caso
contrário. A razão pela qual se procede assim é porque se pretende ter uma
forma objectiva de decidir quais resultados são estatisticamente significativos.
Diferentes valores de α têm impacto na probabilidade de ocorrência de falsos
positivos (erro tipo I). Quanto menor o valor de α, menos provável é ter-se um
falso positivo, ou seja, torna-se menos provável concluirmos existirem
diferenças que na realidade não existem.
Ao realizar-se um teste estatístico, parte-se do princípio que a hipótese
nula é verdadeira. A obtenção de um valor p de 0.01 pode ser interpretada como
havendo 1% de chance de obter um resultado como o observado na condição da
hipótese nula ser verdadeira. Partindo dessa premissa, se se observar um
resultado com menos de 5% de chance (sendo α=0.05) na mesma condição, então por
um raciocínio de reductio ad absurdum é
provável que a hipótese nula não seja verdadeira. Rejeita-se por isso essa
hipótese ou, numa linguagem mais estatística, indica-se estar perante um
resultado estatisticamente significativo. Também se pode dizer que não existe
evidência da hipótese nula ser verdadeira. Isto deriva naturalmente de se ter
encontrado uma probabilidade muito pequena quando se parte do pressuposto da
hipótese nula ser verdadeira.
Quando se realiza mais do que um teste estatístico o raciocínio anterior é
desvirtuado e surge um problema. Note-se que:
- Quando se usa α=0.05 e se realiza um teste de hipóteses, a probabilidade de obter um falso positivo se a hipótese nula for verdadeira é P=5%.
- Quando se usa α=0.05 e se realizam 2 testes de hipóteses independentes, a probabilidade de obter um falso positivo se as hipóteses nulas forem verdadeira é P=(1-0.95*0.95)=9.75%
- Quando se usa α=0.05 e se realizam 3 testes de hipóteses independentes, a probabilidade de obter um falso positivo se as hipóteses nulas forem verdadeira é P=(1-0.95*0.95*0.95)=14.26%
Desta forma, quantos mais testes de hipótese forem realizados, mais
provável será encontrar-se falsos positivos. O valor de α é assim desvirtuado e
diz-se que se comete um erro de comparações múltiplas. Para evitar este
problema, poderá recorrer-se a métodos de correcção para comparações múltiplas
como o método de Bonferroni. Visando controlar o erro numa família de testes (family wise error rate) e evitar a
acumulação de falsos positivos que advém da realização de vários testes, a
correcção de Bonferroni propõe que se compare o valor p resultante de cada
teste com α/m, onde m é o número de testes; ou seja,
procede-se a uma correcção do valor de alfa. A título de exemplo, consideremos
os dados representados na Tabela 1. Nesta, incluem-se os dados em bruto
relativos a um estudo onde se observaram quatro medidas cognitivas (C1 a C4) e
cinco medidas demográficas (D1 a D5), em quinze sujeitos pertencentes a três
grupos.
Tabela 1. Quatro medidas cognitivas e cinco medidas demográficas,
observadas para os quinze sujeitos de três grupos.
Se se pretender saber para que variáveis há diferenças estatisticamente
significativas entre os três grupos, poderá efectuar-se um teste de
Kruskal-Wallis para cada variável (recorde Perguntasfrequentes em bioestatística #5). Os valores p correspondentes podem ler-se
na Tabela 2.
Tabela 2. Resultados (valores p) dos testes de Kruskal-Wallis realizados
para cada uma das variáveis.
Sem se recorrer a qualquer correcção para comparações múltiplas,
concluir-se-á ter-se obtido resultados estatisticamente significativos para as
variáveis C1, D4 e D5, para as quais os valores p obtidos são inferiores a
0.05. Porém, como vimos antes, esta conclusão peca por não se acautelar a
ocorrência de falsos positivos. Adoptando uma correcção de Bonferroni e
considerando ter-se uma família de 9 testes, cada valor p deverá ser comparado
com 0.05/9≈0.0056, ou, de forma equivalente, cada valor p deverá ser
multiplicado por 9 e comparado com 0.05. Desta forma, apenas relativamente à
variável D5 se terá um resultado estatisticamente significativo (sendo o valor
p a reportar, após correcção de Bonferroni, 0.002*9=0.018).
Um aspecto subjectivo numa correcção de Bonferroni é o de família de
testes. A correcção pretende controlar a ocorrência de falsos positivos numa
tal família. É discutível, no exemplo apresentado, se todos os testes pertencem
à mesma família ou se temos uma família de testes para medidas cognitivas e
outra para medidas demográficas. Os resultados obtidos são influenciados por
esta escolha subjectiva. No exemplo anterior, poderá ser defensável realizar-se
uma correcção de Bonferroni para as medidas cognitivas e outra para as medidas
demográficas. Os valores de p correspondentes deverão então ser comparados com
0.05/4 e 0.05/5, respectivamente. Ou, de forma equivalente, os valores p
advindos de medidas cognitivas poderão ser multiplicados por 4 e os relativos a
medidas demográficas multiplicados por 5, devendo ser todos estes comparados
com α=0.05, ver Tabela 3. Procedendo desta forma, conclui-se que há diferenças
estatisticamente significativas entre os três grupos para as variáveis D4 e D5.
Para estas variáveis, deverá fazer-se testes post hoc (do latim, depois disto) para averiguar entre que grupos é
que há diferenças. Para cada variável, irão fazer-se três testes de
Mann-Whitney U para averiguar entre que par de grupos existem diferenças
estatisticamente significativas. Deverá novamente usar-se uma estratégia de
correcção de comparações múltiplas para estas novas comparações. Poderá outra
vez recorrer-se a uma correcção de Bonferroni, embora para comparação de uma
única variável entre vários grupos haja muitas alternativas menos conservadoras
que poderão ser preferíveis (por exemplo, testes Tukey).
Tabela 3. Resultados (valores p) dos testes de Kruskal-Wallis realizados
para cada uma das variáveis, ajustados por correcções de Bonferroni.
A correcção de Bonferroni, apesar de ser simples de usar, é muito
conservadora, correndo-se o risco de se desprezar muitos resultados que
correspondem a diferenças realmente existentes na população. Uma alternativa a
Bonferroni quando se querem fazer testes a muitas variáveis consiste em
colocar-se o foco em controlar a proporção de falsos positivos nos resultados
significativos encontrados, recorrendo a correcções como a de
Benjamini-Hochberg, [1]. Em particular em estudos exploratórios, é comum estar-se
disposto a aceitar uma proporção de Q=5%, Q=10% ou mesmo Q=20% de falsos
positivos nos resultados encontrados ao realizar m testes. Existe, no entanto, um
custo: se em estudos posteriores se voltarem a realizar os testes para os quais
se observou haver, no estudo exploratório e após uma correcção de
Benjamini-Hochberg, significância estatística, deverá esperar-se haver uma
proporção Q de testes no novo estudo para os quais não se verificará haver
significância estatística. Para efectuar uma correcção de Benjamini-Hochberg,
- Ordenam-se os m valores p obtidos, por ordem crescente
- Numeram-se os valores p atribuindo a cada um o seu rank i, isto é, o valor p mais pequeno terá rank i=1, o seguinte i=2 e por aí em diante
- Calcula-se o valor de Benjamini-Hochberg para cada valor p usando a fórmula (i/m)Q
- Compara-se cada valor p ao valor de Benjamini-Hochberg correspondente. O maior valor p (aqui denotado por pM) que seja menor que o seu valor de Benjamini-Hochberg é considerado estatisticamente significativo.
- Todos os valores p menores que pM são também considerados estatisticamente significativos.
Na Tabela 4 ilustra-se a aplicação da correcção de Benjamini-Hochberg para
os resultados obtidos para as variáveis da Tabela 1, adoptando-se Q=0.25, ou
seja, estando-se disposto a aceitar uma proporção de 25% de falsos positivos
nos resultados estatisticamente significativos encontrados. Considera-se ainda
que todos os testes pertencem à mesma família, embora seja eventualmente
aceitável considerar duas famílias de testes.
Tabela 4. Resultados (valores p) dos testes de Kruskal-Wallis realizados
para cada uma das variáveis e processo de correcção com o método de
Benjamini-Hochberg.
Cada valor p obtido deverá ser comparado com o valor de Benjamini-Hochberg (i/m)Q
correspondente. O maior valor p que ainda é menor que o valor de
Benjamini-Hochberg calculado é o que resulta da variável C1. Deste modo
consideramos estatisticamente significativos os resultados encontrados para
todas as variáveis para as quais o valor p determinado não exceda 0.031 (ou
seja, C1, D4 e D5).
Finalmente, note-se que se poderia evitar ter de recorrer a técnicas de
correcção de comparações múltiplas se se usasse testes de estatística
multivariada. Tal não é sempre possível ou exige que se reduza previamente o
número de variáveis envolvidas, eliminando as que apresentam pouca
variabilidade e eventualmente recorrendo a ferramentas como análise de
componentes principais ou análise factorial. Poderá ainda ser útil, tendo-se
amostras de dimensão reduzida, recorrer a técnicas mais avançadas como boostrapping.
[1] Benjamini, Yoav;
Hochberg, Yosef (1995). "Controlling the false discovery rate: a practical
and powerful approach to multiple testing" (PDF). Journal of the Royal Statistical Society, Series B
57 (1): 289–300
Na próxima edição do Perguntas Frequentes em Bioestatística: “O que
é uma boa questão de investigação?”
Subscrever:
Mensagens (Atom)