quarta-feira, 22 de junho de 2016

Perguntas frequentes em bioestatística #15. E quando as regras da estatística não se parecem aplicar?



A seguinte mensagem é a décima quinta comunicação da série Perguntas Frequentes em Bioestatística, da autoria de membros do Laboratório de Bioestatística e Informática Médica da Faculdade de Medicina da Universidade de Coimbra. Pretende-se fomentar uma discussão sobre as melhores práticas estatísticas na área da saúde.

Miguel Patrício, Francisco Caramelo

A Estatística é um mundo complexo de regras e excepções, com diferentes estratégias para lidar com o mesmo problema e muitos avisos sobre o que é pouco aconselhável fazer-se. É frequentemente difícil desbravar o caminho no meio dos dados colhidos e conseguir extrair conclusões dos mesmos. Em simultâneo, é comum a noção (errada) que torturando os dados se pode sempre descobrir algum padrão ou extrair alguma informação apelativa. Esta forma de pensar é, mais do que se gostaria de admitir, profícua no mundo da investigação - de facto, após a recolha dos dados existe a ideia que é quase sempre possível efectuar diferentes análises estatísticas, obter algum valor-p interessante do ponto de vista da publicação (tipicamente, p<0.05) e construir uma narrativa. Inverte-se assim a lógica do método científico, em que o ponto de partida é uma questão, se recolhem dados para responder a esta e os mesmos são analisados para se obter a resposta. Deste modo, a colocação a posteriori de perguntas, após a recolha dos dados, constitui uma forma errada de construir Ciência e é fonte de inúmeros erros. É aliás um dos factores que contribui para erodir a credibilidade das publicações científicas[1]

Tem havido uma grande discussão sobre a credibilidade da ciência, das revistas e do sistema de peer-review. São sobejamente conhecidos exemplos de autores que conseguem publicar, em revistas de reputação pouco sólida, artigos com conteúdo jocoso[2]. O problema de se publicar o impublicável afecta também melhores revistas, em que os editores e revisores muitas vezes não estão avisados para erros básicos como o que se referiu em cima, de colocação de uma pergunta a posteriori[3] ou para outros de carácter estatístico ou metodológico. De facto, com boa ou má intenção, muitas publicações têm erros crassos que podem ser evitados tendo-se em conta princípios básicos da Estatística (ou, com igual propriedade, do Método Científico e do bom senso) como:

  • As perguntas têm de ser colocadas a priori, antes da recolha dos dados. A análise estatística deve ser feita tendo as perguntas previamente colocadas em mente[4];
  • A inferência estatística (por outras palavras, o cálculo de valores-p[5]) deve ser feita apenas quando fizer sentido. Deve-se ser parcimonioso, pois o recurso a muitos testes estatísticos obriga a correcções de comparações múltiplas[6];
  • O tamanho da amostra deve ser suficientemente grande se se pretende fazer inferência. A razão é simples: para se poder inferir algo é preciso ter confiança nessa inferência - é preciso ser convincente. Dificilmente se consegue ser convincente com tamanhos amostrais como n=3. Há fórmulas para calcular o tamanho amostral[7];
  • O tamanho do efeito deve ser objecto de discussão independentemente do significado estatístico[8].

Há muitas outras regras, ditadas pela Estatística, pelo Método Científico ou pelo bom senso, que se poderiam acrescentar à lista em cima. Como sempre acontece quando há muitos cuidados a ter em conta nalguma tarefa, torna-se difícil, mesmo para a pessoa mais bem intencionada, tomar outra posição que não seja ficar bloqueado ou avançar de forma temerária. Em paralelo, para quem ensina Estatística[9], colocam-se também desafios complicados - reduzir a complexidade de uma disciplina a algumas horas implica fazer escolhas como apresentar sempre exemplos simples, desenhos de estudo claros, questões em que a resposta seja linear. A realidade, porém, é muito mais rica, complicada e não linear. Nalguns casos, aparenta chocar com as regras da Estatística. Por exemplo, é frequente que quem trabalha com animais se queixe de não poder ter um tamanho amostral grande. E, se relativamente a isso a Estatística é clara (para se fazer inferência é preciso calcular o tamanho amostral a priori), a prática vai noutra direcção - raramente se deixa de fazer um trabalho por considerações sobre o tamanho amostral. É também comum apresentarem-se valores-p em situações que não faz sentido. Se nalgumas revistas já começa a ser colocado em causa o foco excessivo no valor-p[10], este ainda é necessário para conseguir publicações com impacto na maioria das áreas.
A aparente ou real falta de consenso e harmonia entre as exigências da Estatística (e do bom senso) e as exigências do sucesso académico levam a que facilmente as primeiras sejam abandonadas ou deturpadas. A persistência em erros comuns é ainda banal, embora vá havendo cada vez maior discussão e esforço para depurar a Ciência. Em particular, vê-se com assustadora frequência:

  • a indefinição da questão de investigação;
  • o recurso a um número excessivo de testes estatísticos num mesmo trabalho, sem recurso a correcção para comparações múltiplas;
  • a interpretação abusiva do valor-p;
  • o recurso a testes paramétricos quando deveriam ser não paramétricos;
  • más representações gráficas dos resultados[11], que induzem a interpretações erradas

 Urge procurar caminhos que compatibilizem o rigor da Estatística e do Método Científico com as práticas académicas. Se o rigor é inegociável, ou se alteram as práticas na sua substância ou estas terão de ser reinterpretadas, de forma a que explicitamente se afirme os limites da sua validade. Nesse sentido, há algumas ideias que poderão ser úteis:

  • Qualquer trabalho de índole estatístico deverá ter duas fases: uma fase de planeamento e uma fase de concretização. Na primeira fase, terá de definir-se claramente qual é a questão de investigação a que se pretende responder. Tudo o resto ficará subordinado a esta questão. Desta forma, a análise dos dados obtidos é determinada claramente pela questão de investigação, que não faz sentido definir a posteriori;
  • É importante distinguir trabalhos exploratórios ou descritivos de trabalhos confirmatórios. Nos últimos pretende-se responder a uma questão muito específica, sendo o foco colocado na inferência. Nos primeiros pretende-se fazer um trabalho meramente descritivo (sem desprimor para a sua importância) ou procurar questões que possam ser posteriormente reanalisadas num trabalho confirmatório. Em trabalhos confirmatórios é fundamental fazer o cálculo do tamanho da amostra. Não sendo isto feito, o trabalho é automaticamente exploratório ou descritivo, não fazendo sentido calcular valores-p no seu sentido usual[12];
  • O valor-p, como interpretado no sentido usual, apenas deverá ser calculado quando se pretenda fazer inferência estatística. Para esse efeito, deverá ter-se tido em conta cálculos do tamanho amostral. Mais ainda, o valor-p não deverá ser apresentado sem que, em conjunto, se apresentem medidas descritivas. De facto, é importante distinguir entre significância estatística e significância biológica (ou clínica) - o valor-p apenas se refere à primeira[13];
  • Nalguns casos é possível calcular o valor-p sem se ter calculado primeiro o tamanho da amostra. Assim, mesmo em estudos exploratórios ou descritivos é aceitável a apresentação de valores-p. Porém, o significado dos mesmos devem ser clarificados: não se pretendendo fazer inferência, o valor-p serve como uma medida de tamanho do efeito, sendo meramente descritivo. Neste sentido, ter-se p<α não tem o significado usual de se ter significância estatística[14], ou seja, de se poder concluir algo relativamente à população. A interpretação deverá ser diferente: quanto mais pequeno for o valor-p, maior será o tamanho do efeito que se observa.
  • É possível fazer muitos testes estatísticos num mesmo trabalho, mas terá de se recorrer a correcções para comparações múltiplas ou interpretar os valores-p obtidos no sentido exposto no último ponto - como sendo uma medida do tamanho do efeito.
Na verdade, as regras da Estatística, do Método Científico e do bom senso deverão aplicar-se sempre. Compatibilizar as mesmas com as práticas exigidas para se obter sucesso académico pode ser difícil, mas ou é possível ou o sucesso será imerecido. Uma transferência de saber transparente clarificando os aspectos anteriormente discutidos também ajuda o leitor a julgar de forma crítica os achados em cada trabalho.



[1] A este respeito, vale a pena ler o artigo: Ioannidis JPA (2005) Why Most Published Research Findings Are False. PLoS Med 2(8): e124. doi: 10.1371/journal.pmed.0020124 ou o artigo “Estimating the reproducibility of psychological science”: Open Science Collaboration, Science 349, aac4716 (2015). DOI: 10.1126/science.aac4716.
[2] Ver, por exemplo, o seguinte artigo publicado por personagens dos Simpsons http://www.sciencealert.com/two-scientific-journals-have-accepted-a-study-by-maggie-simpson-and-edna-krabappel ou um artigo com linguagem imprópria em http://www.vox.com/2014/11/21/7259207/scientific-paper-scam.
[3] Um exemplo famoso da colocação de uma pergunta a posteriori (que estatisticamente se traduz pela necessidade de efectuar uma correcção para comparações múltiplas) é explicado pelo autor de um artigo que proclamava mostrar que comer chocolate preto ajuda a emagrecer. Na verdade, a colocação da questão de investigação a posteriori foi propositado e teve como objectivo demonstrar que este é um erro comum, como explica o próprio autor do artigo aqui: http://io9.gizmodo.com/i-fooled-millions-into-thinking-chocolate-helps-weight-1707251800.
[5] O cálculo de um valor-p é efectuado tendo em conta a amostra e a população. Por outras palavras, quando se aplica um teste estatístico a dados amostrais, calcula-se um valor-p. Quando este é inferior ao nível de significância (tipicamente α=0.05) rejeita-se a hipótese nula para toda população. Por exemplo, se ao comparar níveis médios de colesterol entre amostras de dois grupos, se obtiver p<α, então pode-se inferir que há diferenças entre as médias populacionais dos níveis de colesterol dos dois grupos. A partir das amostras dos grupos infere-se o que acontece na população.
[8] Ver Sullivan, G. M., & Feinn, R. (2012). Using Effect Size—or Why the P Value Is Not Enough. Journal of Graduate Medical Education, 4(3), 279–282. http://doi.org/10.4300/JGME-D-12-00156.1.
[9] São comuns as queixas do ensino da Estatística ser muito desfasado da realidade com que o investigador se depara. Descontadas as naturais faltas de perfeição dos professores da disciplina, até certo ponto tal desfasamento deve-se à realidade exigir um grau de complexidade que transvasa aquilo que se pode ensinar em poucas horas. Porém, também tem a ver com um desrespeito generalizado que se verifica, no mundo da Ciência, pelo Método Científico. Se cabe ou não à Estatística - ou apenas à Estatística - procurar resolver este último aspecto é discutível.
[10] Não se coloca aqui em causa a importância do valor-p, mas sim que o mesmo seja excessivamente calculado e valorizado: ver http://laboratoriobioestatistica.blogspot.pt/2015/05/p-value-o-grande-enganador-ou-como.html. Vale também a pena ler o artigo seminal Johnson, D. (1999). The Insignificance of Statistical Significance Testing. The Journal of Wildlife Management, 63(3), 763-772. doi:1. Retrieved from http://www.jstor.org/stable/3802789 doi:1.
[11] Por exemplo, apesar da sua quase omnipresença, o uso de gráficos de barras para representar variáveis quantitativas deve ser desencorajado, ver por exemplo Streit M, Gehlenborg N. Bar charts and box plots. Nat Methods 2014; 11:117.
[12] Por sentido usual, pretendemos dizer no sentido inferencial. Por outras palavras, a menos que o estudo seja confirmatório, o objectivo não deverá ser verificar se uma determinada hipótese, colocada relativamente a uma população, pode ou não ser rejeitada.
[14] Não se pode, desta forma, afirmar haver diferenças estatisticamente significativas. É possível explicitar qual foi o valor-p obtido, mas tendo em conta que este é uma medida do tamanho do efeito e não uma indicação de podermos ou não inferir algo acerca da população.