terça-feira, 13 de janeiro de 2015

Perguntas frequentes em bioestatística #3. Como estruturar os dados para análise estatística?

A seguinte mensagem é a terceira comunicação da série Perguntas Frequentes em Bioestatística, da autoria de membros do Laboratório de Bioestatística e Informática Médica da Faculdade de Medicina da Universidade de Coimbra. Pretende-se fomentar uma discussão sobre as melhores práticas estatísticas na área da saúde.

Perguntas frequentes em bioestatística #3. Como estruturar os dados para análise estatística?
Francisco Caramelo e Miguel Patrício


Num estudo estatístico, o ponto de partida é a questão de investigação. Estando esta bem formulada e tendo-se definido as medidas a efectuar, obtém-se uma amostra relativamente à qual se observam as variáveis definidas (ver Perguntas frequentes em bioestatística #1). Coloca-se então a questão de como colocar os dados recolhidos numa base de dados - por exemplo, numa folha de cálculo do programa Excel - de forma a facilitar a subsequente análise estatística.
Tipicamente, os dados são guardados numa tabela. Em cada linha colocam-se os dados observados ou medidos para cada sujeito da análise. As colunas corresponderão às variáveis do estudo, ver tabela 1.
  

Tabela 1. Dados estruturados para análise estatística


Os sujeitos relativamente aos quais se recolhe informação poderão ser pessoas, animais, objectos, artigos científicos; serão os elementos cujas características se pretende caracterizar. Deverão ser representativos da população que se quer estudar, que por sua vez é um conjunto de sujeitos nos quais se inserem aqueles cujas características foram recolhidas para o estudo. Deverá ter-se em atenção que as conclusões que se retirarem do estudo serão referentes a esta população (ver Perguntas frequentes em bioestatística #2).

Relativamente às variáveis, é útil distinguir entre variáveis categóricas e quantitativas. As primeiras são aquelas que atribuem a cada sujeito uma característica que não é expressa por uma quantidade (por exemplo, a variável género ou se uma determinada pessoa bebe café ou não). Variáveis quantitativas podem ser mensuradas e apresentadas numericamente (por exemplo, idade ou quantos cafés uma determinada pessoa bebe por dia). Cada coluna da tabela contendo os dados estruturados para análise estatística deverá corresponder a uma só variável. Estará assim a adaptar-se a apresentação da informação recolhida no estudo para que numa folha de cálculo se consiga facilmente, para variáveis categóricas, criar uma tabela indicando a frequência relativa de ocorrência de cada categoria (indicando, por exemplo, a percentagem das pessoas que bebem café e das que não bebem). Para variáveis quantitativas, será igualmente fácil calcular indicadores como a sua média, mediana ou desvio-padrão.

Tomando como exemplo um estudo fictício em que se pretende caracterizar hábitos de consumo de café no qual se registaram também género e idades de uma amostra, os dados poderão ser armazenados como na tabela 2 e codificados como na tabela 3.

Tabelas 2. Dados de um estudo de hábitos de consumo de café, estruturados para análise estatística

 Note-se que:
1-  Para facilitar a manipulação da tabela de dados num computador e a sua fácil compreensão, os nomes dados às variáveis:
a. Não têm acentos
b. Não têm espaços: cada nome é constituído por uma cadeia de caracteres em que as palavras são separadas pelo símbolo “_”
c. São facilmente interpretáveis

2- Todos os dados foram colocados num formato numérico para evitar ambiguidades e facilitar a manipulação computacional dos dados. Se para as variáveis quantitativas (Idade e Quantidade_cafes) tal é o procedimento óbvio, no caso das variáveis qualitativas (Genero e Bebe_cafe) houve o cuidado de traduzir as diferentes categorias em números. A tradução do significado dos diferentes números registou-se na Tabela 3.

Tabela 3. Codificação da tabela 2

Tipicamente, os dados que consistem o ponto de partida de uma análise estatística estarão contidos em duas tabelas: uma contendo as observações recolhidas e outra explicando o significado de cada variável, a codificação adoptada para cada variável qualitativa e as unidades em que estão expressas as variáveis quantitativas.

FAQ:
1- Em que software deverão ser colocados os dados?
Há uma grande escolha. Não sendo o volume de dados excessivamente grande, poderá usar-se o Excel. Nesse caso, os dados recolhidos (correspondentes à Tabela 2) poderão ser colocados numa folha e a codificação (correspondente à Tabela 3) noutra. É frequente também introduzir-se directamente os dados num programa específico para análises estatísticas como o IBM SPSS, o Graphpad ou outro. Este tipo de programas geralmente permitem a importação de dados em Excel.
2- Como se deverão guardar variáveis que não são traduzíveis em números, como nomes de pessoas?
Estes dados podem ser registadas na base de dados, mas a menos que possam ser traduzidos em números ou que dos mesmos se possa registar alguma característica numérica, não serão passíveis de ser analisados estatisticamente. Servirão eventualmente para alguma análise qualitativa, como referência para um processo clínico ou algum aspecto que possa ser importante manter em registo. Deverá nalguns casos ter-se cuidado e guardar confidencialidade na partilha de dados, eventualmente excluíndo variáveis que permitam a identificação de pessoas ou outras informações sensíveis.

Na próxima edição do Perguntas Frequentes em Bioestatística: “Que estatística aprendem os alunos
do primeiro ano de Medicina?”