sexta-feira, 14 de outubro de 2016

Revisões Sistemáticas e Meta-Análises no CINEICC

Hoje o dia de alguns membros do LBIM foi passado na companhia de membros do CINEICC a discutir Revisões Sistemáticas e Meta-Análises. Seguem-se as fotos da praxe.




Big Data

A definição de "big data" não é muito clara. Segundo o quase-omnisciente Google, big data é uma expressão usada para designar "extremely large data sets that may be analysed computationally to reveal patterns, trends, and associations, especially relating to human behaviour and interactions." Uma definição que costumamos usar no LBIM é que "big data" são bases de dados tão grandes que o Excel não as consegue abrir.

Em especial na Medicina, big data traz muitas vezes big trouble, como é descrito neste artigo de opinião. Muito do que causa problemas é comum a problemas onde a base de dados não é grande, como por exemplo:

  • missing data: quando há variáveis diferentes com missing data, isso poderá diminuir drasticamente o n (tamanho da amostra) do estudo. Havendo três variáveis com missing data cada uma, qualquer teste estatístico que envolva as três variáveis só poderá ter em conta as observações para as quais se tenham observado as três variáveis. A existência de missing data pode transformar tantos dados "normais" quanto big data em insufficient data;
  • garbage in, garbage out: quando os dados não são de qualidade, os resultados de uma análise estatística não poderão ser bons. A inclusão de uma variável medida sem precisão suficiente estraga de forma irremediável qualquer modelo, mesmo quando se usa o melhor método nos melhores computadores;
  • falta de planeamento: por vezes há a oportunidade de registar dados muito promissores. Porém, a ideia de adquirir dados e depois tentar extrair deles informação interessante, sem um planeamento a priori, é geralmente um passo para o desastre. A ordem correcta do raciocínio deve ser:
    • definição do que se quer obter de dados que é possível obter
    • definição das características dos dados que é necessário obter (por exemplo, qual terá de ser o sample size? Como deverão ser armazenados os dados para permitir a sua análise)
    • obtenção dos dados
    • análise
A possibilidade cada vez mais frequente de se obter big data (ou mesmo bases de dados que, não sendo big data, são "grandes" relativamente ao que é comum nalgumas áreas, tendo por exemplo n=300 ou n=400) é aliciante, mas é também terreno fértil para oportunidades falhadas. Colher dados por colher (e depois se vê...) raramente dará bons resultados. O planeamento prévio é essencial.

quinta-feira, 22 de setembro de 2016

Balanço do curso "Investigação Replicável"

Fazendo jus à (recente) tradição de publicar fotos dos nossos cursos, seguem-se algumas. De pouca qualidade, é certo, pelo que se pede indulgência: a sala estava escura para melhor se verem os slides e a câmara era do telemóvel.

Mais importante: tivemos a sorte de poder contar com o contributo precioso dos participantes, que muito agradecemos. Para um futuro (tanto quanto possível) próximo, ficou o compromisso de colocar a discussão do curso num documento.





Resultados do inquérito pré-curso "Investigação Replicável"

Como prometido no último post, tornamos públicos o resultado do questionário sobre Investigação replicável. Os dados em bruto podem ser encontrados aqui

Analisados os dados no dia 20/09/2016, constatou-se ter havido à data 58 respondentes ao inquérito, dos quais 17 professores, 17 investigadores, 14 estudantes, 10 pessoas com “outra ocupação”. Um total de 51 dos respondentes indicaram ser da área das “Ciências Médicas ou Ciências da Vida”, 2 da área das ”Ciências Sociais” e 5 de outras áreas. Relativamente às idades, 6 indicaram ter menos de 25 anos, 19 ter idade entre 25 e 34 anos, 11 entre 35 e 44 anos, 15 entre 45 e 54 anos, 6 entre 55 e 64 anos e 1 respondente 65 anos ou mais.

De forma porventura pouco surpreendente, os resultados são qualitativamente parecidos aos que haviam sido desvendados num outro inquérito (mais completo e com muitos mais respondentes), da Nature. Incluimos de seguida gráficos onde se pode observar as distribuições das respostas às principais perguntas do noso inquérito:











O nosso inquérito foi realizado para iniciar uma discussão sobre a replicabilidade em Ciência, com particular enfoque nas áreas Biomédica, sendo um instrumento informal de recolha de opiniões, sem fins científicos. Ainda assim, cremos que permite tirar algumas conclusões interessantes. Estas e o que tem sido publicado sobre replicabilidade serão objecto de discussão no curso de hoje, "Investigação Replicável". Esperamos em breve ter a oportunidade de glosar as principais conclusões num documento que partilharemos aqui.

segunda-feira, 12 de setembro de 2016

Replicabilidade em Ciência






O Laboratório de Bioestatística e Informática Médica (LBIM) da Faculdade de Medicina da Universidade de Coimbra irá organizar, no dia 22 de Setembro, o curso “Investigação Replicável”, no qual se pretende discutir o que funciona, o que falha e como melhorar para garantir replicabilidade dos estudos científicos. Será colocado um particular enfoque no papel da Bioestatística. O curso é aberto a todos os interessados, solicitando-se apenas, motivos logísticos, que seja efectuada uma inscrição. Como prelúdio ao curso, pedimos ainda o preenchimento de um breve questionário, cujos resultados darão mote à discussão e serão posteriormente apresentados no blog do LBIM.

Nota:  Houve uma alteração da sala onde irá decorrer o curso, passando a ser o Anfiteatro 1 da sub-Unidade I da Faculdade de Medicina (pólo  III)

sexta-feira, 15 de julho de 2016

Ano lectivo 2015/2016 a chegar ao fim

Com a realização hoje do último dos cursos LBIM do segundo semestre do presente ano lectivo, chega o tempo de fazer um pequeno balanço.

Fotografia tirada no curso ANOVA e GLM

O ano de 2016 tem permitido a implementação de grandes mudanças no Laboratório de Bioestatística e Informática Médica (LBIM):
  • Começámos este ano a estruturar os cursos que oferecemos (abertos a toda a comunidade) numa estrutura coerente: os cursos LBIM2016. Até hoje já decorreram 10 desses cursos, estando ainda previstos 4 cursos entre Setembro e Dezembro de 2016: Investigação Replicável, Análise Factorial e Análise de Clusters, O problema das comparações múltiplas e Classificação Estatística. Sendo certo que serão proximamente divulgados os cursos LBIM2017, ainda estamos em discussões internas sobre o seu formato.
  • Iniciámos este ano a leccionação de novas Unidades Curriculares. Uma destas, "Métodos de Investigação I : Planeamento de Trabalhos Experimentais e de Dissertação", leccionada em ambos os semestres aos 4º e 5º anos do Mestrado Integrado em Medicina, permitiu fornecermos um apoio estruturado a alunos na fase em que estão a trabalhar nas suas dissertações de Mestrado. Para o LBIM, a inclusão desta Unidade Curricular opcional no plano do Mestrado Integrado em Medicina foi uma pequena revolução. De facto, há todos os anos muitos alunos da FMUC que pedem ajuda a membros do LBIM para a análise estatística dos dados das suas dissertações. No passado, essa ajuda era muitas vezes prestada de forma informal e quando possível, sem uma estrutura clara e em detrimento das demais actividades dos membros do LBIM, não sendo contabilizado na sua produção científica ou pedagógica. Neste momento, para além da possibilidade (quando faça sentido) que todos os alunos têm de serem orientados ou co-orientados por membros do LBIM, os alunos do Mestrado Integrado em Medicina podem inscrever-se na Unidade Curricular "Métodos de Investigação I : Planeamento de Trabalhos Experimentais e de Dissertação". Nesta pretende-se que os alunos adquiram todas as ferramentas para realizarem de forma autónoma toda a análise estatística dos seus dados - o acompanhamento é próprio, mas exige-se essa autonomia.
  • Temos procurado eliminar o trabalho informal realizado por elementos do LBIM. Procura-se assim libertar um bem escasso essencial - tempo! - bem como aumentar indicadores de produtividade como orientações ou artigos publicados.
Naturalmente, todas as mudanças são ancoradas na continuidade da filosofia em que nos baseamos: procuramos ir para além da Estatística, defendendo as boas práticas que decorrem da correcta aplicação do método científico. Procuramos ainda ter a abertura que acreditamos dever caracterizar todos os grupos de investigação, sendo essa uma das razões pelas quais tentamos organizar um número grande de cursos e manter em funcionamento este blog. Temos como objectivo (reconhecidamente ainda pouco conseguido) a implementação de uma discussão activa sobre bioestatística e, de forma mais geral, como melhorar a investigação que é feita presentemente. O próximo curso que organizaremos, "Investigação Replicável", propõe-se discutir isso mesmo: qual é o estado da Ciência e como fazer melhor Ciência? Adicionalmente, não faltam ideias sobre os passos a seguir pelo LBIM para atingir o objectivo de dinamizar uma discussão mais profícua que envolva toda a Faculdade de Medicina e demais comunidade: esperamos ter novidades em breve.

Todas as sugestões, críticas ou comentários que nos possam deixar serão muito apreciadas. 

quinta-feira, 14 de julho de 2016

Lying with statistics

Qual a melhor medida descritiva? Média, mediana, mínimo, máximo, outra? Qualquer um pode ser inadequado. Como sempre, o bom senso é a única resposta.

quarta-feira, 22 de junho de 2016

Perguntas frequentes em bioestatística #15. E quando as regras da estatística não se parecem aplicar?



A seguinte mensagem é a décima quinta comunicação da série Perguntas Frequentes em Bioestatística, da autoria de membros do Laboratório de Bioestatística e Informática Médica da Faculdade de Medicina da Universidade de Coimbra. Pretende-se fomentar uma discussão sobre as melhores práticas estatísticas na área da saúde.

Miguel Patrício, Francisco Caramelo

A Estatística é um mundo complexo de regras e excepções, com diferentes estratégias para lidar com o mesmo problema e muitos avisos sobre o que é pouco aconselhável fazer-se. É frequentemente difícil desbravar o caminho no meio dos dados colhidos e conseguir extrair conclusões dos mesmos. Em simultâneo, é comum a noção (errada) que torturando os dados se pode sempre descobrir algum padrão ou extrair alguma informação apelativa. Esta forma de pensar é, mais do que se gostaria de admitir, profícua no mundo da investigação - de facto, após a recolha dos dados existe a ideia que é quase sempre possível efectuar diferentes análises estatísticas, obter algum valor-p interessante do ponto de vista da publicação (tipicamente, p<0.05) e construir uma narrativa. Inverte-se assim a lógica do método científico, em que o ponto de partida é uma questão, se recolhem dados para responder a esta e os mesmos são analisados para se obter a resposta. Deste modo, a colocação a posteriori de perguntas, após a recolha dos dados, constitui uma forma errada de construir Ciência e é fonte de inúmeros erros. É aliás um dos factores que contribui para erodir a credibilidade das publicações científicas[1]

Tem havido uma grande discussão sobre a credibilidade da ciência, das revistas e do sistema de peer-review. São sobejamente conhecidos exemplos de autores que conseguem publicar, em revistas de reputação pouco sólida, artigos com conteúdo jocoso[2]. O problema de se publicar o impublicável afecta também melhores revistas, em que os editores e revisores muitas vezes não estão avisados para erros básicos como o que se referiu em cima, de colocação de uma pergunta a posteriori[3] ou para outros de carácter estatístico ou metodológico. De facto, com boa ou má intenção, muitas publicações têm erros crassos que podem ser evitados tendo-se em conta princípios básicos da Estatística (ou, com igual propriedade, do Método Científico e do bom senso) como:

  • As perguntas têm de ser colocadas a priori, antes da recolha dos dados. A análise estatística deve ser feita tendo as perguntas previamente colocadas em mente[4];
  • A inferência estatística (por outras palavras, o cálculo de valores-p[5]) deve ser feita apenas quando fizer sentido. Deve-se ser parcimonioso, pois o recurso a muitos testes estatísticos obriga a correcções de comparações múltiplas[6];
  • O tamanho da amostra deve ser suficientemente grande se se pretende fazer inferência. A razão é simples: para se poder inferir algo é preciso ter confiança nessa inferência - é preciso ser convincente. Dificilmente se consegue ser convincente com tamanhos amostrais como n=3. Há fórmulas para calcular o tamanho amostral[7];
  • O tamanho do efeito deve ser objecto de discussão independentemente do significado estatístico[8].

Há muitas outras regras, ditadas pela Estatística, pelo Método Científico ou pelo bom senso, que se poderiam acrescentar à lista em cima. Como sempre acontece quando há muitos cuidados a ter em conta nalguma tarefa, torna-se difícil, mesmo para a pessoa mais bem intencionada, tomar outra posição que não seja ficar bloqueado ou avançar de forma temerária. Em paralelo, para quem ensina Estatística[9], colocam-se também desafios complicados - reduzir a complexidade de uma disciplina a algumas horas implica fazer escolhas como apresentar sempre exemplos simples, desenhos de estudo claros, questões em que a resposta seja linear. A realidade, porém, é muito mais rica, complicada e não linear. Nalguns casos, aparenta chocar com as regras da Estatística. Por exemplo, é frequente que quem trabalha com animais se queixe de não poder ter um tamanho amostral grande. E, se relativamente a isso a Estatística é clara (para se fazer inferência é preciso calcular o tamanho amostral a priori), a prática vai noutra direcção - raramente se deixa de fazer um trabalho por considerações sobre o tamanho amostral. É também comum apresentarem-se valores-p em situações que não faz sentido. Se nalgumas revistas já começa a ser colocado em causa o foco excessivo no valor-p[10], este ainda é necessário para conseguir publicações com impacto na maioria das áreas.
A aparente ou real falta de consenso e harmonia entre as exigências da Estatística (e do bom senso) e as exigências do sucesso académico levam a que facilmente as primeiras sejam abandonadas ou deturpadas. A persistência em erros comuns é ainda banal, embora vá havendo cada vez maior discussão e esforço para depurar a Ciência. Em particular, vê-se com assustadora frequência:

  • a indefinição da questão de investigação;
  • o recurso a um número excessivo de testes estatísticos num mesmo trabalho, sem recurso a correcção para comparações múltiplas;
  • a interpretação abusiva do valor-p;
  • o recurso a testes paramétricos quando deveriam ser não paramétricos;
  • más representações gráficas dos resultados[11], que induzem a interpretações erradas

 Urge procurar caminhos que compatibilizem o rigor da Estatística e do Método Científico com as práticas académicas. Se o rigor é inegociável, ou se alteram as práticas na sua substância ou estas terão de ser reinterpretadas, de forma a que explicitamente se afirme os limites da sua validade. Nesse sentido, há algumas ideias que poderão ser úteis:

  • Qualquer trabalho de índole estatístico deverá ter duas fases: uma fase de planeamento e uma fase de concretização. Na primeira fase, terá de definir-se claramente qual é a questão de investigação a que se pretende responder. Tudo o resto ficará subordinado a esta questão. Desta forma, a análise dos dados obtidos é determinada claramente pela questão de investigação, que não faz sentido definir a posteriori;
  • É importante distinguir trabalhos exploratórios ou descritivos de trabalhos confirmatórios. Nos últimos pretende-se responder a uma questão muito específica, sendo o foco colocado na inferência. Nos primeiros pretende-se fazer um trabalho meramente descritivo (sem desprimor para a sua importância) ou procurar questões que possam ser posteriormente reanalisadas num trabalho confirmatório. Em trabalhos confirmatórios é fundamental fazer o cálculo do tamanho da amostra. Não sendo isto feito, o trabalho é automaticamente exploratório ou descritivo, não fazendo sentido calcular valores-p no seu sentido usual[12];
  • O valor-p, como interpretado no sentido usual, apenas deverá ser calculado quando se pretenda fazer inferência estatística. Para esse efeito, deverá ter-se tido em conta cálculos do tamanho amostral. Mais ainda, o valor-p não deverá ser apresentado sem que, em conjunto, se apresentem medidas descritivas. De facto, é importante distinguir entre significância estatística e significância biológica (ou clínica) - o valor-p apenas se refere à primeira[13];
  • Nalguns casos é possível calcular o valor-p sem se ter calculado primeiro o tamanho da amostra. Assim, mesmo em estudos exploratórios ou descritivos é aceitável a apresentação de valores-p. Porém, o significado dos mesmos devem ser clarificados: não se pretendendo fazer inferência, o valor-p serve como uma medida de tamanho do efeito, sendo meramente descritivo. Neste sentido, ter-se p<α não tem o significado usual de se ter significância estatística[14], ou seja, de se poder concluir algo relativamente à população. A interpretação deverá ser diferente: quanto mais pequeno for o valor-p, maior será o tamanho do efeito que se observa.
  • É possível fazer muitos testes estatísticos num mesmo trabalho, mas terá de se recorrer a correcções para comparações múltiplas ou interpretar os valores-p obtidos no sentido exposto no último ponto - como sendo uma medida do tamanho do efeito.
Na verdade, as regras da Estatística, do Método Científico e do bom senso deverão aplicar-se sempre. Compatibilizar as mesmas com as práticas exigidas para se obter sucesso académico pode ser difícil, mas ou é possível ou o sucesso será imerecido. Uma transferência de saber transparente clarificando os aspectos anteriormente discutidos também ajuda o leitor a julgar de forma crítica os achados em cada trabalho.



[1] A este respeito, vale a pena ler o artigo: Ioannidis JPA (2005) Why Most Published Research Findings Are False. PLoS Med 2(8): e124. doi: 10.1371/journal.pmed.0020124 ou o artigo “Estimating the reproducibility of psychological science”: Open Science Collaboration, Science 349, aac4716 (2015). DOI: 10.1126/science.aac4716.
[2] Ver, por exemplo, o seguinte artigo publicado por personagens dos Simpsons http://www.sciencealert.com/two-scientific-journals-have-accepted-a-study-by-maggie-simpson-and-edna-krabappel ou um artigo com linguagem imprópria em http://www.vox.com/2014/11/21/7259207/scientific-paper-scam.
[3] Um exemplo famoso da colocação de uma pergunta a posteriori (que estatisticamente se traduz pela necessidade de efectuar uma correcção para comparações múltiplas) é explicado pelo autor de um artigo que proclamava mostrar que comer chocolate preto ajuda a emagrecer. Na verdade, a colocação da questão de investigação a posteriori foi propositado e teve como objectivo demonstrar que este é um erro comum, como explica o próprio autor do artigo aqui: http://io9.gizmodo.com/i-fooled-millions-into-thinking-chocolate-helps-weight-1707251800.
[5] O cálculo de um valor-p é efectuado tendo em conta a amostra e a população. Por outras palavras, quando se aplica um teste estatístico a dados amostrais, calcula-se um valor-p. Quando este é inferior ao nível de significância (tipicamente α=0.05) rejeita-se a hipótese nula para toda população. Por exemplo, se ao comparar níveis médios de colesterol entre amostras de dois grupos, se obtiver p<α, então pode-se inferir que há diferenças entre as médias populacionais dos níveis de colesterol dos dois grupos. A partir das amostras dos grupos infere-se o que acontece na população.
[8] Ver Sullivan, G. M., & Feinn, R. (2012). Using Effect Size—or Why the P Value Is Not Enough. Journal of Graduate Medical Education, 4(3), 279–282. http://doi.org/10.4300/JGME-D-12-00156.1.
[9] São comuns as queixas do ensino da Estatística ser muito desfasado da realidade com que o investigador se depara. Descontadas as naturais faltas de perfeição dos professores da disciplina, até certo ponto tal desfasamento deve-se à realidade exigir um grau de complexidade que transvasa aquilo que se pode ensinar em poucas horas. Porém, também tem a ver com um desrespeito generalizado que se verifica, no mundo da Ciência, pelo Método Científico. Se cabe ou não à Estatística - ou apenas à Estatística - procurar resolver este último aspecto é discutível.
[10] Não se coloca aqui em causa a importância do valor-p, mas sim que o mesmo seja excessivamente calculado e valorizado: ver http://laboratoriobioestatistica.blogspot.pt/2015/05/p-value-o-grande-enganador-ou-como.html. Vale também a pena ler o artigo seminal Johnson, D. (1999). The Insignificance of Statistical Significance Testing. The Journal of Wildlife Management, 63(3), 763-772. doi:1. Retrieved from http://www.jstor.org/stable/3802789 doi:1.
[11] Por exemplo, apesar da sua quase omnipresença, o uso de gráficos de barras para representar variáveis quantitativas deve ser desencorajado, ver por exemplo Streit M, Gehlenborg N. Bar charts and box plots. Nat Methods 2014; 11:117.
[12] Por sentido usual, pretendemos dizer no sentido inferencial. Por outras palavras, a menos que o estudo seja confirmatório, o objectivo não deverá ser verificar se uma determinada hipótese, colocada relativamente a uma população, pode ou não ser rejeitada.
[14] Não se pode, desta forma, afirmar haver diferenças estatisticamente significativas. É possível explicitar qual foi o valor-p obtido, mas tendo em conta que este é uma medida do tamanho do efeito e não uma indicação de podermos ou não inferir algo acerca da população.