Perguntas frequentes em bioestatística #12. Que cuidados se deve ter quando se efectuam muitos testes estatísticos num mesmo trabalho?

A seguinte mensagem é a décima segunda comunicação da série Perguntas Frequentes em Bioestatística, da autoria de membros do Laboratório de Bioestatística e Informática Médica da Faculdade de Medicina da Universidade de Coimbra. Pretende-se fomentar uma discussão sobre as melhores práticas estatísticas na área da saúde.

Miguel Patrício e Francisco Caramelo

Uma análise estatística deverá ser sempre o mais focada possível: o ponto de partida é uma questão de investigação, define-se a priori a medida principal e apenas se recolhem as medidas secundárias indispensáveis, ver Perguntasfrequentes em bioestatística #1. Na situação mais simples, bastaria medir-se uma única variável e realizar um teste estatístico para responder à questão de investigação. Porém, a realidade tende a ser mais complexa, levando a que quase sempre se tenha de recolher mais dados e a efectuar mais testes. Em particular, em trabalhos de índole exploratório é comum inúmeras medições serem efectuadas e apenas a posteriori tentar-se perceber que variáveis parecem ter interesse.

Antes de se iniciar uma análise estatística, deverá escolher-se o nível de significância, geralmente denotado por α. A maioria dos estudos trabalham com um nível de significância de 5% (α=0.05), que adoptaremos também para este texto. Num teste de hipóteses, rejeitar-se-á a hipótese nula se o valor p resultante do teste estatístico for inferior a α, não se a rejeitando caso contrário. A razão pela qual se procede assim é porque se pretende ter uma forma objectiva de decidir quais resultados são estatisticamente significativos. Diferentes valores de α têm impacto na probabilidade de ocorrência de falsos positivos (erro tipo I). Quanto menor o valor de α, menos provável é ter-se um falso positivo, ou seja, torna-se menos provável concluirmos existirem diferenças que na realidade não existem.

Ao realizar-se um teste estatístico, parte-se do princípio que a hipótese nula é verdadeira. A obtenção de um valor p de 0.01 pode ser interpretada como havendo 1% de chance de obter um resultado como o observado na condição da hipótese nula ser verdadeira. Partindo dessa premissa, se se observar um resultado com menos de 5% de chance (sendo α=0.05) na mesma condição, então por um raciocínio de reductio ad absurdum é provável que a hipótese nula não seja verdadeira. Rejeita-se por isso essa hipótese ou, numa linguagem mais estatística, indica-se estar perante um resultado estatisticamente significativo. Também se pode dizer que não existe evidência da hipótese nula ser verdadeira. Isto deriva naturalmente de se ter encontrado uma probabilidade muito pequena quando se parte do pressuposto da hipótese nula ser verdadeira.

Quando se realiza mais do que um teste estatístico o raciocínio anterior é desvirtuado e surge um problema. Note-se que:

Quando se usa α=0.05 e se realiza um teste de hipóteses, a probabilidade de obter um falso positivo se a hipótese nula for verdadeira é P=5%.
Quando se usa α=0.05 e se realizam 2 testes de hipóteses independentes, a probabilidade de obter um falso positivo se as hipóteses nulas forem verdadeira é P=(1-0.95*0.95)=9.75%
Quando se usa α=0.05 e se realizam 3 testes de hipóteses independentes, a probabilidade de obter um falso positivo se as hipóteses nulas forem verdadeira é P=(1-0.95*0.95*0.95)=14.26%

Desta forma, quantos mais testes de hipótese forem realizados, mais provável será encontrar-se falsos positivos. O valor de α é assim desvirtuado e diz-se que se comete um erro de comparações múltiplas. Para evitar este problema, poderá recorrer-se a métodos de correcção para comparações múltiplas como o método de Bonferroni. Visando controlar o erro numa família de testes (family wise error rate) e evitar a acumulação de falsos positivos que advém da realização de vários testes, a correcção de Bonferroni propõe que se compare o valor p resultante de cada teste com α/m, onde m é o número de testes; ou seja, procede-se a uma correcção do valor de alfa. A título de exemplo, consideremos os dados representados na Tabela 1. Nesta, incluem-se os dados em bruto relativos a um estudo onde se observaram quatro medidas cognitivas (C1 a C4) e cinco medidas demográficas (D1 a D5), em quinze sujeitos pertencentes a três grupos.

Tabela 1. Quatro medidas cognitivas e cinco medidas demográficas, observadas para os quinze sujeitos de três grupos.

Se se pretender saber para que variáveis há diferenças estatisticamente significativas entre os três grupos, poderá efectuar-se um teste de Kruskal-Wallis para cada variável (recorde Perguntasfrequentes em bioestatística #5). Os valores p correspondentes podem ler-se na Tabela 2.

Tabela 2. Resultados (valores p) dos testes de Kruskal-Wallis realizados para cada uma das variáveis.

Sem se recorrer a qualquer correcção para comparações múltiplas, concluir-se-á ter-se obtido resultados estatisticamente significativos para as variáveis C1, D4 e D5, para as quais os valores p obtidos são inferiores a 0.05. Porém, como vimos antes, esta conclusão peca por não se acautelar a ocorrência de falsos positivos. Adoptando uma correcção de Bonferroni e considerando ter-se uma família de 9 testes, cada valor p deverá ser comparado com 0.05/9≈0.0056, ou, de forma equivalente, cada valor p deverá ser multiplicado por 9 e comparado com 0.05. Desta forma, apenas relativamente à variável D5 se terá um resultado estatisticamente significativo (sendo o valor p a reportar, após correcção de Bonferroni, 0.002*9=0.018).

Um aspecto subjectivo numa correcção de Bonferroni é o de família de testes. A correcção pretende controlar a ocorrência de falsos positivos numa tal família. É discutível, no exemplo apresentado, se todos os testes pertencem à mesma família ou se temos uma família de testes para medidas cognitivas e outra para medidas demográficas. Os resultados obtidos são influenciados por esta escolha subjectiva. No exemplo anterior, poderá ser defensável realizar-se uma correcção de Bonferroni para as medidas cognitivas e outra para as medidas demográficas. Os valores de p correspondentes deverão então ser comparados com 0.05/4 e 0.05/5, respectivamente. Ou, de forma equivalente, os valores p advindos de medidas cognitivas poderão ser multiplicados por 4 e os relativos a medidas demográficas multiplicados por 5, devendo ser todos estes comparados com α=0.05, ver Tabela 3. Procedendo desta forma, conclui-se que há diferenças estatisticamente significativas entre os três grupos para as variáveis D4 e D5. Para estas variáveis, deverá fazer-se testes post hoc (do latim, depois disto) para averiguar entre que grupos é que há diferenças. Para cada variável, irão fazer-se três testes de Mann-Whitney U para averiguar entre que par de grupos existem diferenças estatisticamente significativas. Deverá novamente usar-se uma estratégia de correcção de comparações múltiplas para estas novas comparações. Poderá outra vez recorrer-se a uma correcção de Bonferroni, embora para comparação de uma única variável entre vários grupos haja muitas alternativas menos conservadoras que poderão ser preferíveis (por exemplo, testes Tukey).

Tabela 3. Resultados (valores p) dos testes de Kruskal-Wallis realizados para cada uma das variáveis, ajustados por correcções de Bonferroni.

A correcção de Bonferroni, apesar de ser simples de usar, é muito conservadora, correndo-se o risco de se desprezar muitos resultados que correspondem a diferenças realmente existentes na população. Uma alternativa a Bonferroni quando se querem fazer testes a muitas variáveis consiste em colocar-se o foco em controlar a proporção de falsos positivos nos resultados significativos encontrados, recorrendo a correcções como a de Benjamini-Hochberg, [1]. Em particular em estudos exploratórios, é comum estar-se disposto a aceitar uma proporção de Q=5%, Q=10% ou mesmo Q=20% de falsos positivos nos resultados encontrados ao realizar m testes. Existe, no entanto, um custo: se em estudos posteriores se voltarem a realizar os testes para os quais se observou haver, no estudo exploratório e após uma correcção de Benjamini-Hochberg, significância estatística, deverá esperar-se haver uma proporção Q de testes no novo estudo para os quais não se verificará haver significância estatística. Para efectuar uma correcção de Benjamini-Hochberg,

Ordenam-se os m valores p obtidos, por ordem crescente
Numeram-se os valores p atribuindo a cada um o seu rank i, isto é, o valor p mais pequeno terá rank i=1, o seguinte i=2 e por aí em diante
Calcula-se o valor de Benjamini-Hochberg para cada valor p usando a fórmula (i/m)Q
Compara-se cada valor p ao valor de Benjamini-Hochberg correspondente. O maior valor p (aqui denotado por p_M) que seja menor que o seu valor de Benjamini-Hochberg é considerado estatisticamente significativo.
Todos os valores p menores que p_M são também considerados estatisticamente significativos.

Na Tabela 4 ilustra-se a aplicação da correcção de Benjamini-Hochberg para os resultados obtidos para as variáveis da Tabela 1, adoptando-se Q=0.25, ou seja, estando-se disposto a aceitar uma proporção de 25% de falsos positivos nos resultados estatisticamente significativos encontrados. Considera-se ainda que todos os testes pertencem à mesma família, embora seja eventualmente aceitável considerar duas famílias de testes.

Tabela 4. Resultados (valores p) dos testes de Kruskal-Wallis realizados para cada uma das variáveis e processo de correcção com o método de Benjamini-Hochberg.

Cada valor p obtido deverá ser comparado com o valor de Benjamini-Hochberg (i/m)Q correspondente. O maior valor p que ainda é menor que o valor de Benjamini-Hochberg calculado é o que resulta da variável C1. Deste modo consideramos estatisticamente significativos os resultados encontrados para todas as variáveis para as quais o valor p determinado não exceda 0.031 (ou seja, C1, D4 e D5).

Finalmente, note-se que se poderia evitar ter de recorrer a técnicas de correcção de comparações múltiplas se se usasse testes de estatística multivariada. Tal não é sempre possível ou exige que se reduza previamente o número de variáveis envolvidas, eliminando as que apresentam pouca variabilidade e eventualmente recorrendo a ferramentas como análise de componentes principais ou análise factorial. Poderá ainda ser útil, tendo-se amostras de dimensão reduzida, recorrer a técnicas mais avançadas como boostrapping.

[1] Benjamini, Yoav; Hochberg, Yosef (1995). "Controlling the false discovery rate: a practical and powerful approach to multiple testing" (PDF). Journal of the Royal Statistical Society, Series B 57 (1): 289–300

Na próxima edição do Perguntas Frequentes em Bioestatística: “O que é uma boa questão de investigação?”

Blog do LBIM - www.uc.pt/fmuc/lbim

terça-feira, 2 de fevereiro de 2016

Perguntas frequentes em bioestatística #12. Que cuidados se deve ter quando se efectuam muitos testes estatísticos num mesmo trabalho?

Sem comentários:

Enviar um comentário

Número total de visualizações de páginas