terça-feira, 13 de janeiro de 2015

Perguntas frequentes em bioestatística #3. Como estruturar os dados para análise estatística?

A seguinte mensagem é a terceira comunicação da série Perguntas Frequentes em Bioestatística, da autoria de membros do Laboratório de Bioestatística e Informática Médica da Faculdade de Medicina da Universidade de Coimbra. Pretende-se fomentar uma discussão sobre as melhores práticas estatísticas na área da saúde.

Perguntas frequentes em bioestatística #3. Como estruturar os dados para análise estatística?
Francisco Caramelo e Miguel Patrício


Num estudo estatístico, o ponto de partida é a questão de investigação. Estando esta bem formulada e tendo-se definido as medidas a efectuar, obtém-se uma amostra relativamente à qual se observam as variáveis definidas (ver Perguntas frequentes em bioestatística #1). Coloca-se então a questão de como colocar os dados recolhidos numa base de dados - por exemplo, numa folha de cálculo do programa Excel - de forma a facilitar a subsequente análise estatística.
Tipicamente, os dados são guardados numa tabela. Em cada linha colocam-se os dados observados ou medidos para cada sujeito da análise. As colunas corresponderão às variáveis do estudo, ver tabela 1.
  

Tabela 1. Dados estruturados para análise estatística


Os sujeitos relativamente aos quais se recolhe informação poderão ser pessoas, animais, objectos, artigos científicos; serão os elementos cujas características se pretende caracterizar. Deverão ser representativos da população que se quer estudar, que por sua vez é um conjunto de sujeitos nos quais se inserem aqueles cujas características foram recolhidas para o estudo. Deverá ter-se em atenção que as conclusões que se retirarem do estudo serão referentes a esta população (ver Perguntas frequentes em bioestatística #2).

Relativamente às variáveis, é útil distinguir entre variáveis categóricas e quantitativas. As primeiras são aquelas que atribuem a cada sujeito uma característica que não é expressa por uma quantidade (por exemplo, a variável género ou se uma determinada pessoa bebe café ou não). Variáveis quantitativas podem ser mensuradas e apresentadas numericamente (por exemplo, idade ou quantos cafés uma determinada pessoa bebe por dia). Cada coluna da tabela contendo os dados estruturados para análise estatística deverá corresponder a uma só variável. Estará assim a adaptar-se a apresentação da informação recolhida no estudo para que numa folha de cálculo se consiga facilmente, para variáveis categóricas, criar uma tabela indicando a frequência relativa de ocorrência de cada categoria (indicando, por exemplo, a percentagem das pessoas que bebem café e das que não bebem). Para variáveis quantitativas, será igualmente fácil calcular indicadores como a sua média, mediana ou desvio-padrão.

Tomando como exemplo um estudo fictício em que se pretende caracterizar hábitos de consumo de café no qual se registaram também género e idades de uma amostra, os dados poderão ser armazenados como na tabela 2 e codificados como na tabela 3.

Tabelas 2. Dados de um estudo de hábitos de consumo de café, estruturados para análise estatística

 Note-se que:
1-  Para facilitar a manipulação da tabela de dados num computador e a sua fácil compreensão, os nomes dados às variáveis:
a. Não têm acentos
b. Não têm espaços: cada nome é constituído por uma cadeia de caracteres em que as palavras são separadas pelo símbolo “_”
c. São facilmente interpretáveis

2- Todos os dados foram colocados num formato numérico para evitar ambiguidades e facilitar a manipulação computacional dos dados. Se para as variáveis quantitativas (Idade e Quantidade_cafes) tal é o procedimento óbvio, no caso das variáveis qualitativas (Genero e Bebe_cafe) houve o cuidado de traduzir as diferentes categorias em números. A tradução do significado dos diferentes números registou-se na Tabela 3.

Tabela 3. Codificação da tabela 2

Tipicamente, os dados que consistem o ponto de partida de uma análise estatística estarão contidos em duas tabelas: uma contendo as observações recolhidas e outra explicando o significado de cada variável, a codificação adoptada para cada variável qualitativa e as unidades em que estão expressas as variáveis quantitativas.

FAQ:
1- Em que software deverão ser colocados os dados?
Há uma grande escolha. Não sendo o volume de dados excessivamente grande, poderá usar-se o Excel. Nesse caso, os dados recolhidos (correspondentes à Tabela 2) poderão ser colocados numa folha e a codificação (correspondente à Tabela 3) noutra. É frequente também introduzir-se directamente os dados num programa específico para análises estatísticas como o IBM SPSS, o Graphpad ou outro. Este tipo de programas geralmente permitem a importação de dados em Excel.
2- Como se deverão guardar variáveis que não são traduzíveis em números, como nomes de pessoas?
Estes dados podem ser registadas na base de dados, mas a menos que possam ser traduzidos em números ou que dos mesmos se possa registar alguma característica numérica, não serão passíveis de ser analisados estatisticamente. Servirão eventualmente para alguma análise qualitativa, como referência para um processo clínico ou algum aspecto que possa ser importante manter em registo. Deverá nalguns casos ter-se cuidado e guardar confidencialidade na partilha de dados, eventualmente excluíndo variáveis que permitam a identificação de pessoas ou outras informações sensíveis.

Na próxima edição do Perguntas Frequentes em Bioestatística: “Que estatística aprendem os alunos
do primeiro ano de Medicina?”

sexta-feira, 19 de dezembro de 2014

Pie charts are bad

Gráficos circulares (em pizza ou em queijo): há quem defenda que são maus. Há ainda quem ache que não há pior. Especialmente odiadas são as versões em 3D:




Mas talvez a má fama dos gráficos circulares não seja completamente justa. Há quem consiga encontrar um exemplo de boa aplicação deste tipo de gráficos: quando se pretende demonstrar uma desproporção grande entre duas categorias como no gráfico seguinte.


Alvíssaras a quem encontrar outros bons exemplos.

sexta-feira, 12 de dezembro de 2014

Neural correlates of interspecies perspective taking in the post-mortem Atlantic Salmon: An argument for multiple comparisons correction


With the extreme dimensionality of functional neuroimaging data comes extreme risk for false positives. Across the 130,000 voxels in a typical fMRI volume the probability of a false positive is almost certain. Correction for multiple comparisons should be completed with these datasets, but is often ignored by investigators. To illustrate the magnitude of the problem we carried out a real experiment that demonstrates the danger of not correcting for chance properly.

Ler mais sobre a vida após a morte dos salmões aqui.

Perguntas frequentes em bioestatística #2. Qual é a população no meu estudo? E a amostra?



A seguinte mensagem é a segunda comunicação da série Perguntas Frequentes em Bioestatística, da autoria de membros do Laboratório de Bioestatística e Informática Médica da Faculdade de Medicina da Universidade de Coimbra. Pretende-se fomentar uma discussão sobre as melhores práticas estatísticas na área da saúde.






Perguntas frequentes em bioestatística #2. Qual é a população no meu estudo? E a amostra?
Francisco Caramelo e Miguel Patrício




O desenho de um estudo pode ser encarado como a definição de um conjunto de fatores. Tendo como ponto de partida uma questão de investigação bem formulada, deverão tornar-se claros, entre outros, aspectos como qual é a população a ser estudada, como deve ser escolhida a amostra ou qual a “main outcome measure” (variável principal) a medir ou observar. Relembramos que na comunicação anterior havíamos focado a questão “Que dados se deverá recolher para fazer uma análise estatística?”. Pretendemos na presente comunicação discutir a definição de população e de amostra, bem como a relação entre as duas. 

Os itens da lista de elementos a definir na fase de desenho do estudo não são independentes entre si, existindo conexões que devem ser tidas em conta. Em particular, a definição da variável principal é crucial para o cálculo do tamanho da amostra. Por outro lado, a definição da população restringe a amostra. Pode-se pensar em população como sendo o grupo de pessoas – ou animais ou outros objectos, consoante o estudo - para o qual quereremos aplicar as conclusões do nosso estudo e para o qual pensamos virem estas a ser válidas. Nem todos os elementos da população estarão necessariamente disponíveis para participar no estudo, sendo a sua disponibilidade afectada por diversos factores - geográficos, éticos ou outros. Assim, é usual distinguir-se população alvo de população acessível, sendo esta última um subconjunto da primeira, para a qual por sua vez quereremos tirar conclusões. Como exemplo de uma população alvo podemos considerar os consumidores habituais de café residentes em Portugal e como população acessível os clientes de uma cadeia de estabelecimentos de restauração que colabora no estudo.

Para além de população alvo e população acessível, deverá ainda definir-se o conceito de amostra. Nem todas as pessoas pertencentes à população acessível participarão no estudo. Designa-se este último subgrupo que participa no estudo como a amostra. Assume-se então que as conclusões que se venham a tirar no estudo a partir da amostra deverão ser válidas para a população alvo. A validade deste processo carece de alguns requisitos e alguns cuidados que devem ser tidos em conta. Desde logo a forma como é escolhida a amostra tem um papel de grande relevância. É também nesta fase que devem ser definidos os critérios de inclusão e exclusão, os quais devem ser norteados pela representatividade da amostra. Ou seja, pela capacidade das conclusões retiradas serem válidas para a população definida.

FAQ:

1-     Como escolher a amostra?
Existem várias técnicas de amostragem sendo genericamente divididas em métodos probabilísticos e não probabilísticos. Um método probabilístico é tal que cada um dos seus sujeitos apresenta uma probabilidade finita não nula de ser escolhido e esta probabilidade é determinável. Este método produz amostras não enviesadas que representam os traços presentes na população. Já um método não probabilístico é tal que existem elementos com probabilidade nula de serem escolhidos. Assim, neste caso são produzidos vieses de exclusão colocando balizas nas extrapolações que se podem fazer a partir da amostra.

2-     Quão grande deve ser a amostra?
A dimensão da amostra é determinada para a questão principal e partindo do conhecimento de alguns parâmetros que dependem da natureza da questão, mas que geralmente envolvem o tamanho do efeito e a dispersão nas medidas. Este valor é calculado caso a caso usando expressões estabelecidas. Por facilidade, é usual recorrer a programas computacionais.

Na próxima edição do Perguntas Frequentes em Bioestatística: “Como estruturar os dados para análise estatística?”