A seguinte mensagem é a décima quinta comunicação da série Perguntas
Frequentes em Bioestatística, da autoria de membros do Laboratório de
Bioestatística e Informática Médica da Faculdade de Medicina da Universidade de
Coimbra. Pretende-se fomentar uma discussão sobre as melhores práticas
estatísticas na área da saúde.
Miguel Patrício, Francisco Caramelo
A Estatística é um mundo complexo de regras e excepções, com diferentes
estratégias para lidar com o mesmo problema e muitos avisos sobre o que é pouco
aconselhável fazer-se. É frequentemente difícil desbravar o caminho no meio dos
dados colhidos e conseguir extrair conclusões dos mesmos. Em simultâneo, é
comum a noção (errada) que torturando os dados se pode sempre descobrir algum
padrão ou extrair alguma informação apelativa. Esta forma de pensar é, mais do
que se gostaria de admitir, profícua no mundo da investigação - de facto, após
a recolha dos dados existe a ideia que é quase sempre possível efectuar
diferentes análises estatísticas, obter algum valor-p interessante do ponto de
vista da publicação (tipicamente, p<0.05) e construir uma narrativa. Inverte-se
assim a lógica do método científico, em que o ponto de partida é uma questão,
se recolhem dados para responder a esta e os mesmos são analisados para se
obter a resposta. Deste modo, a colocação a
posteriori de perguntas, após a recolha dos dados, constitui uma forma
errada de construir Ciência e é fonte de inúmeros erros. É aliás um dos
factores que contribui para erodir a credibilidade das publicações científicas[1].
Tem havido uma grande discussão sobre a credibilidade da ciência, das
revistas e do sistema de peer-review.
São sobejamente conhecidos exemplos de autores que conseguem publicar, em
revistas de reputação pouco sólida, artigos com conteúdo jocoso[2].
O problema de se publicar o impublicável afecta também melhores revistas, em
que os editores e revisores muitas vezes não estão avisados para erros básicos
como o que se referiu em cima, de colocação de uma pergunta a posteriori[3] ou
para outros de carácter estatístico ou metodológico. De facto, com boa ou má
intenção, muitas publicações têm erros crassos que podem ser evitados tendo-se
em conta princípios básicos da Estatística (ou, com igual propriedade, do Método
Científico e do bom senso) como:
- As perguntas têm de ser colocadas a priori, antes da recolha dos dados. A análise estatística deve ser feita tendo as perguntas previamente colocadas em mente[4];
- A inferência estatística (por outras palavras, o cálculo de valores-p[5]) deve ser feita apenas quando fizer sentido. Deve-se ser parcimonioso, pois o recurso a muitos testes estatísticos obriga a correcções de comparações múltiplas[6];
- O tamanho da amostra deve ser suficientemente grande se se pretende fazer inferência. A razão é simples: para se poder inferir algo é preciso ter confiança nessa inferência - é preciso ser convincente. Dificilmente se consegue ser convincente com tamanhos amostrais como n=3. Há fórmulas para calcular o tamanho amostral[7];
- O tamanho do efeito deve ser objecto de discussão independentemente do significado estatístico[8].
Há muitas outras regras, ditadas pela Estatística, pelo Método Científico
ou pelo bom senso, que se poderiam acrescentar à lista em cima. Como sempre
acontece quando há muitos cuidados a ter em conta nalguma tarefa, torna-se
difícil, mesmo para a pessoa mais bem intencionada, tomar outra posição que não
seja ficar bloqueado ou avançar de forma temerária. Em paralelo, para quem
ensina Estatística[9],
colocam-se também desafios complicados - reduzir a complexidade de uma
disciplina a algumas horas implica fazer escolhas como apresentar sempre
exemplos simples, desenhos de estudo claros, questões em que a resposta seja
linear. A realidade, porém, é muito mais rica, complicada e não linear. Nalguns
casos, aparenta chocar com as regras da Estatística. Por exemplo, é frequente
que quem trabalha com animais se queixe de não poder ter um tamanho amostral
grande. E, se relativamente a isso a Estatística é clara (para se fazer
inferência é preciso calcular o tamanho amostral a priori), a prática vai noutra direcção - raramente se deixa de
fazer um trabalho por considerações sobre o tamanho amostral. É também comum
apresentarem-se valores-p em situações que não faz sentido. Se nalgumas
revistas já começa a ser colocado em causa o foco excessivo no valor-p[10],
este ainda é necessário para conseguir publicações com impacto na maioria das
áreas.
A aparente ou real falta de consenso e harmonia entre as exigências da
Estatística (e do bom senso) e as exigências do sucesso académico levam a que
facilmente as primeiras sejam abandonadas ou deturpadas. A persistência em
erros comuns é ainda banal, embora vá havendo cada vez maior discussão e
esforço para depurar a Ciência. Em particular, vê-se com assustadora
frequência:
- a indefinição da questão de investigação;
- o recurso a um número excessivo de testes estatísticos num mesmo trabalho, sem recurso a correcção para comparações múltiplas;
- a interpretação abusiva do valor-p;
- o recurso a testes paramétricos quando deveriam ser não paramétricos;
- más representações gráficas dos resultados[11], que induzem a interpretações erradas
Urge procurar caminhos que compatibilizem o rigor da Estatística e do
Método Científico com as práticas académicas. Se o rigor é inegociável, ou se
alteram as práticas na sua substância ou estas terão de ser reinterpretadas, de
forma a que explicitamente se afirme os limites da sua validade. Nesse sentido,
há algumas ideias que poderão ser úteis:
- Qualquer trabalho de índole estatístico deverá ter duas fases: uma fase de planeamento e uma fase de concretização. Na primeira fase, terá de definir-se claramente qual é a questão de investigação a que se pretende responder. Tudo o resto ficará subordinado a esta questão. Desta forma, a análise dos dados obtidos é determinada claramente pela questão de investigação, que não faz sentido definir a posteriori;
- É importante distinguir trabalhos exploratórios ou descritivos de trabalhos confirmatórios. Nos últimos pretende-se responder a uma questão muito específica, sendo o foco colocado na inferência. Nos primeiros pretende-se fazer um trabalho meramente descritivo (sem desprimor para a sua importância) ou procurar questões que possam ser posteriormente reanalisadas num trabalho confirmatório. Em trabalhos confirmatórios é fundamental fazer o cálculo do tamanho da amostra. Não sendo isto feito, o trabalho é automaticamente exploratório ou descritivo, não fazendo sentido calcular valores-p no seu sentido usual[12];
- O valor-p, como interpretado no sentido usual, apenas deverá ser calculado quando se pretenda fazer inferência estatística. Para esse efeito, deverá ter-se tido em conta cálculos do tamanho amostral. Mais ainda, o valor-p não deverá ser apresentado sem que, em conjunto, se apresentem medidas descritivas. De facto, é importante distinguir entre significância estatística e significância biológica (ou clínica) - o valor-p apenas se refere à primeira[13];
- Nalguns casos é possível calcular o valor-p sem se ter calculado primeiro o tamanho da amostra. Assim, mesmo em estudos exploratórios ou descritivos é aceitável a apresentação de valores-p. Porém, o significado dos mesmos devem ser clarificados: não se pretendendo fazer inferência, o valor-p serve como uma medida de tamanho do efeito, sendo meramente descritivo. Neste sentido, ter-se p<α não tem o significado usual de se ter significância estatística[14], ou seja, de se poder concluir algo relativamente à população. A interpretação deverá ser diferente: quanto mais pequeno for o valor-p, maior será o tamanho do efeito que se observa.
- É possível fazer muitos testes estatísticos num mesmo trabalho, mas terá de se recorrer a correcções para comparações múltiplas ou interpretar os valores-p obtidos no sentido exposto no último ponto - como sendo uma medida do tamanho do efeito.
Na verdade, as regras da Estatística, do Método Científico e do bom senso
deverão aplicar-se sempre. Compatibilizar as mesmas com as práticas exigidas
para se obter sucesso académico pode ser difícil, mas ou é possível ou o
sucesso será imerecido. Uma transferência de saber transparente clarificando os
aspectos anteriormente discutidos também ajuda o leitor a julgar de forma
crítica os achados em cada trabalho.
[1]
A este respeito, vale a pena ler o artigo: Ioannidis JPA (2005) Why Most
Published Research Findings Are False. PLoS Med 2(8): e124. doi:
10.1371/journal.pmed.0020124 ou o artigo “Estimating the reproducibility of psychological
science”: Open Science Collaboration, Science 349, aac4716 (2015). DOI: 10.1126/science.aac4716.
[2] Ver, por exemplo, o seguinte artigo
publicado por personagens dos Simpsons http://www.sciencealert.com/two-scientific-journals-have-accepted-a-study-by-maggie-simpson-and-edna-krabappel ou um artigo com linguagem imprópria em http://www.vox.com/2014/11/21/7259207/scientific-paper-scam.
[3] Um exemplo famoso da colocação de uma
pergunta a posteriori (que
estatisticamente se traduz pela necessidade de efectuar uma correcção para
comparações múltiplas) é explicado pelo autor de um artigo que proclamava
mostrar que comer chocolate preto ajuda a emagrecer. Na verdade, a colocação da
questão de investigação a posteriori
foi propositado e teve como objectivo demonstrar que este é um erro comum, como
explica o próprio autor do artigo aqui: http://io9.gizmodo.com/i-fooled-millions-into-thinking-chocolate-helps-weight-1707251800.
[5] O cálculo de um valor-p é efectuado tendo
em conta a amostra e a população. Por outras palavras, quando se aplica um
teste estatístico a dados amostrais, calcula-se um valor-p. Quando este é
inferior ao nível de significância (tipicamente α=0.05) rejeita-se a hipótese
nula para toda população. Por exemplo, se ao comparar níveis médios de
colesterol entre amostras de dois grupos, se obtiver p<α, então pode-se
inferir que há diferenças entre as médias populacionais dos níveis de
colesterol dos dois grupos. A partir das amostras dos grupos infere-se o que
acontece na população.
[8] Ver Sullivan, G. M., & Feinn,
R. (2012). Using Effect Size—or Why the P Value Is Not
Enough. Journal of Graduate Medical Education, 4(3), 279–282.
http://doi.org/10.4300/JGME-D-12-00156.1.
[9] São comuns as queixas do ensino da Estatística
ser muito desfasado da realidade com que o investigador se depara. Descontadas
as naturais faltas de perfeição dos professores da disciplina, até certo ponto
tal desfasamento deve-se à realidade exigir um grau de complexidade que
transvasa aquilo que se pode ensinar em poucas horas. Porém, também tem a ver
com um desrespeito generalizado que se verifica, no mundo da Ciência, pelo
Método Científico. Se cabe ou não à Estatística - ou apenas à Estatística - procurar
resolver este último aspecto é discutível.
[10] Não se coloca aqui em causa a
importância do valor-p, mas sim que o mesmo seja excessivamente calculado e
valorizado: ver http://laboratoriobioestatistica.blogspot.pt/2015/05/p-value-o-grande-enganador-ou-como.html. Vale também a pena ler o artigo seminal Johnson,
D. (1999). The Insignificance of Statistical Significance Testing. The
Journal of Wildlife Management, 63(3), 763-772. doi:1. Retrieved from http://www.jstor.org/stable/3802789
doi:1.
[11] Por exemplo, apesar da sua quase
omnipresença, o uso de gráficos de barras para representar variáveis
quantitativas deve ser desencorajado, ver por exemplo Streit M, Gehlenborg N.
Bar charts and box plots. Nat Methods 2014; 11:117.
[12] Por sentido usual, pretendemos
dizer no sentido inferencial. Por outras palavras, a menos que o estudo seja
confirmatório, o objectivo não deverá ser verificar se uma determinada
hipótese, colocada relativamente a uma população, pode ou não ser rejeitada.
[14] Não se pode, desta forma, afirmar haver
diferenças estatisticamente significativas. É possível explicitar qual foi o
valor-p obtido, mas tendo em conta que este é uma medida do tamanho do efeito e
não uma indicação de podermos ou não inferir algo acerca da população.