sexta-feira, 19 de dezembro de 2014

Pie charts are bad

Gráficos circulares (em pizza ou em queijo): há quem defenda que são maus. Há ainda quem ache que não há pior. Especialmente odiadas são as versões em 3D:




Mas talvez a má fama dos gráficos circulares não seja completamente justa. Há quem consiga encontrar um exemplo de boa aplicação deste tipo de gráficos: quando se pretende demonstrar uma desproporção grande entre duas categorias como no gráfico seguinte.


Alvíssaras a quem encontrar outros bons exemplos.

sexta-feira, 12 de dezembro de 2014

Neural correlates of interspecies perspective taking in the post-mortem Atlantic Salmon: An argument for multiple comparisons correction


With the extreme dimensionality of functional neuroimaging data comes extreme risk for false positives. Across the 130,000 voxels in a typical fMRI volume the probability of a false positive is almost certain. Correction for multiple comparisons should be completed with these datasets, but is often ignored by investigators. To illustrate the magnitude of the problem we carried out a real experiment that demonstrates the danger of not correcting for chance properly.

Ler mais sobre a vida após a morte dos salmões aqui.

Perguntas frequentes em bioestatística #2. Qual é a população no meu estudo? E a amostra?



A seguinte mensagem é a segunda comunicação da série Perguntas Frequentes em Bioestatística, da autoria de membros do Laboratório de Bioestatística e Informática Médica da Faculdade de Medicina da Universidade de Coimbra. Pretende-se fomentar uma discussão sobre as melhores práticas estatísticas na área da saúde.






Perguntas frequentes em bioestatística #2. Qual é a população no meu estudo? E a amostra?
Francisco Caramelo e Miguel Patrício




O desenho de um estudo pode ser encarado como a definição de um conjunto de fatores. Tendo como ponto de partida uma questão de investigação bem formulada, deverão tornar-se claros, entre outros, aspectos como qual é a população a ser estudada, como deve ser escolhida a amostra ou qual a “main outcome measure” (variável principal) a medir ou observar. Relembramos que na comunicação anterior havíamos focado a questão “Que dados se deverá recolher para fazer uma análise estatística?”. Pretendemos na presente comunicação discutir a definição de população e de amostra, bem como a relação entre as duas. 

Os itens da lista de elementos a definir na fase de desenho do estudo não são independentes entre si, existindo conexões que devem ser tidas em conta. Em particular, a definição da variável principal é crucial para o cálculo do tamanho da amostra. Por outro lado, a definição da população restringe a amostra. Pode-se pensar em população como sendo o grupo de pessoas – ou animais ou outros objectos, consoante o estudo - para o qual quereremos aplicar as conclusões do nosso estudo e para o qual pensamos virem estas a ser válidas. Nem todos os elementos da população estarão necessariamente disponíveis para participar no estudo, sendo a sua disponibilidade afectada por diversos factores - geográficos, éticos ou outros. Assim, é usual distinguir-se população alvo de população acessível, sendo esta última um subconjunto da primeira, para a qual por sua vez quereremos tirar conclusões. Como exemplo de uma população alvo podemos considerar os consumidores habituais de café residentes em Portugal e como população acessível os clientes de uma cadeia de estabelecimentos de restauração que colabora no estudo.

Para além de população alvo e população acessível, deverá ainda definir-se o conceito de amostra. Nem todas as pessoas pertencentes à população acessível participarão no estudo. Designa-se este último subgrupo que participa no estudo como a amostra. Assume-se então que as conclusões que se venham a tirar no estudo a partir da amostra deverão ser válidas para a população alvo. A validade deste processo carece de alguns requisitos e alguns cuidados que devem ser tidos em conta. Desde logo a forma como é escolhida a amostra tem um papel de grande relevância. É também nesta fase que devem ser definidos os critérios de inclusão e exclusão, os quais devem ser norteados pela representatividade da amostra. Ou seja, pela capacidade das conclusões retiradas serem válidas para a população definida.

FAQ:

1-     Como escolher a amostra?
Existem várias técnicas de amostragem sendo genericamente divididas em métodos probabilísticos e não probabilísticos. Um método probabilístico é tal que cada um dos seus sujeitos apresenta uma probabilidade finita não nula de ser escolhido e esta probabilidade é determinável. Este método produz amostras não enviesadas que representam os traços presentes na população. Já um método não probabilístico é tal que existem elementos com probabilidade nula de serem escolhidos. Assim, neste caso são produzidos vieses de exclusão colocando balizas nas extrapolações que se podem fazer a partir da amostra.

2-     Quão grande deve ser a amostra?
A dimensão da amostra é determinada para a questão principal e partindo do conhecimento de alguns parâmetros que dependem da natureza da questão, mas que geralmente envolvem o tamanho do efeito e a dispersão nas medidas. Este valor é calculado caso a caso usando expressões estabelecidas. Por facilidade, é usual recorrer a programas computacionais.

Na próxima edição do Perguntas Frequentes em Bioestatística: “Como estruturar os dados para análise estatística?”
 

Do doctors understand test results?





Are doctors confused by statistics? A new book by one prominent statistician says they are - and that this makes it hard for patients to make informed decisions about treatment. 

Ler mais aqui.

Perguntas frequentes em bioestatística #1. Que dados se deverá recolher para fazer uma análise estatística?



A seguinte mensagem é a primeira comunicação da série Perguntas Frequentes em Bioestatística, da autoria de membros do Laboratório de Bioestatística e Informática Médica da Faculdade de Medicina da Universidade de Coimbra. Pretende-se fomentar uma discussão sobre as melhores práticas estatísticas na área da saúde.




Perguntas frequentes em bioestatística #1. Que dados se deverá recolher para fazer uma análise estatística?
Francisco Caramelo e Miguel Patrício
 
Uma análise estatística é sempre precedida de uma questão de investigação. Há algo que se quer estudar, eventualmente uma conjetura que se pretende comprovar. Exemplificando com uma questão simples, talvez se queira perceber se beber café preserva a inteligência.

O primeiro passo para abordar a questão de investigação é defini-la claramente, balizá-la, retirar-lhe ambiguidade. Queremos considerar todos os tipos de grão de café, ou só alguns? E como definimos inteligência? Deverá identificar-se uma medida principal (main outcome measure) a analisar. Esta reflectirá os objetivos estabelecidos na questão de investigação e aportará uma forma de quantificação objetiva. A medida principal depende, naturalmente, do tipo de estudo que se pretenda efetuar. No exemplo que propusemos, a medida principal poderá ser o QI mensurado por um determinado tipo de teste proposto na literatura. 

A definição da medida principal deve ser cuidada, uma vez que tem um peso enorme na estratégia de investigação. Em particular, é determinante no cálculo do  número de sujeitos a testar, no estabelecimento das medidas a efetuar e no protocolo da experiência. Se nada mais fosse medido além da “main outcome measure”, esta deveria ser suficiente para dar uma resposta à questão de investigação.

Tipicamente, num estudo não se obtém apenas uma variável. Para além da “main outcome measure” recolhem-se outros dados que ajudam à resposta da questão de investigação, genericamente designados por medidas secundárias (secondary outcome measures). As medidas secundárias são usadas para avaliar outros potenciais efeitos importantes, concorrentes para a hipótese primária. Podem ser variáveis que permitam ter uma avaliação mais completa da questão de investigação. Poderão eventualmente exprimir possíveis fatores condicionantes da relação beneficio/risco. No exemplo da associação entre café e QI, poderá ser relevante registar as idades e níveis de escolaridade dos participantes no estudo, que são elementos que poderão afetar os resultados nos testes de inteligência. Também podem ser recolhidos dados de variáveis associadas a segurança ou efeitos adversos. Ou variáveis medidas com o intuito de tentar perceber um mecanismo envolvido na questão de investigação. 

Paralelamente à definição clara de uma questão de investigação objetiva e relevante, a escolha da “main outcome measure” é um dos aspectos centrais de um estudo estatístico. Deverá ter-se em consideração alguns aspetos:

1.      A medida principal deve ser definida a priori, isto é, na fase de desenho do estudo que ocorre antes de se começar a coligir os dados. Quando a definição da medida principal é guiada pela observação dos dados serão produzidos vieses, falseando irremediavelmente as conclusões que se obtenham.

2.      O processo de medida associado à “main outcome measure” deve ser exato, preciso e de elevada confiabilidade, devendo ser aplicado uniformemente para todos os elementos do estudo. Em cada área do conhecimento, é preferível adoptar como medida principal algo aceite pela comunidade científica, evitando novas técnicas que ainda não foram completamente comprovadas.

3.      A medida principal deve ser independente dos elementos de estudo. A sua definição ou processo de medição não deverá ser adaptado aos diferentes subgrupos. 

4.      Considerações de potência devem ser tidas em conta, isto é, diferenças entre grupos e a variabilidade nos grupos.

FAQ:

1-     Quantas “main outcome measures” se devem considerar?
Deverá haver apenas uma medida principal, a qual deverá observar estritamente as qualidades discutidas anteriormente.

2-     Quantas secondary outcome measures se devem considerar?
As que contribuam para responder à questão de investigação de uma forma objetiva. Deverá ser-se o mais criterioso e parcimonioso possível na escolha de variáveis a incluir no estudo. Não incluir uma variável que seja importante para explicar os resultados prejudica a análise dos dados, pois faltarão fatores que permitam explicar os mesmos. Por outro lado, incluir variáveis inúteis ou pouco relevantes é contraproducente. De uma forma geral, quantos menos testes estatísticos forem realizados, mais robusta será a análise. Como regra prática a lembrar, quer-se sempre ter muito mais sujeitos no estudo que variáveis medidas. A inclusão de mais variáveis poderá obrigar também à inclusão de mais sujeitos.

3-     Qual deve ser o número de sujeitos a incluir na experiência?
Depende do tamanho do efeito (o qual depende das diferenças estimadas e a variabilidade nos grupos) que se pretende observar. Espera-se que beber café tenha um grande efeito? Então não são precisos muitos sujeitos. Espera-se que haja uma grande variabilidade nos resultados? Teremos então de incluir mais pessoas. Há formulas para calcular o “n” de uma experiência, mas o uso das mesmas depende do conhecimento (ou suposição de conhecimento) a priori de alguns elementos.

Na próxima edição do Perguntas Frequentes em Bioestatística: “Qual é a população no meu estudo? E a amostra?”