A seguinte mensagem é a terceira comunicação da série Perguntas
Frequentes em Bioestatística, da autoria de membros do Laboratório de
Bioestatística e Informática Médica da Faculdade de Medicina da Universidade de
Coimbra. Pretende-se fomentar uma discussão sobre as melhores práticas
estatísticas na área da saúde.
Perguntas frequentes em
bioestatística #3. Como estruturar os dados para análise estatística?
Francisco Caramelo e Miguel Patrício
Num estudo estatístico, o ponto de partida é a questão de investigação.
Estando esta bem formulada e tendo-se definido as medidas a efectuar, obtém-se
uma amostra relativamente à qual se observam as variáveis definidas (ver Perguntas frequentes em bioestatística #1).
Coloca-se então a questão de como colocar os dados recolhidos numa base de
dados - por exemplo, numa folha de cálculo do programa Excel - de forma a
facilitar a subsequente análise estatística.
Tipicamente, os dados são guardados numa tabela. Em cada linha colocam-se
os dados observados ou medidos para cada sujeito da análise. As colunas
corresponderão às variáveis do estudo, ver tabela 1.
Tabela 1. Dados estruturados para análise estatística
Os sujeitos relativamente aos quais se recolhe informação poderão ser
pessoas, animais, objectos, artigos científicos; serão os elementos cujas
características se pretende caracterizar. Deverão ser representativos da
população que se quer estudar, que por sua vez é um conjunto de sujeitos nos
quais se inserem aqueles cujas características foram recolhidas para o estudo.
Deverá ter-se em atenção que as conclusões que se retirarem do estudo serão
referentes a esta população (ver Perguntas frequentes em bioestatística #2).
Relativamente às variáveis, é útil distinguir entre variáveis categóricas e
quantitativas. As primeiras são aquelas que atribuem a cada sujeito uma
característica que não é expressa por uma quantidade (por exemplo, a variável
género ou se uma determinada pessoa bebe café ou não). Variáveis quantitativas
podem ser mensuradas e apresentadas numericamente (por exemplo, idade ou
quantos cafés uma determinada pessoa bebe por dia). Cada coluna da tabela contendo
os dados estruturados para análise estatística deverá corresponder a uma só
variável. Estará assim a adaptar-se a apresentação da informação recolhida no
estudo para que numa folha de cálculo se consiga facilmente, para variáveis
categóricas, criar uma tabela indicando a frequência relativa de ocorrência de
cada categoria (indicando, por exemplo, a percentagem das pessoas que bebem
café e das que não bebem). Para variáveis quantitativas, será igualmente fácil calcular
indicadores como a sua média, mediana ou desvio-padrão.
Tomando como exemplo um estudo fictício em que se pretende caracterizar
hábitos de consumo de café no qual se registaram também género e idades de uma
amostra, os dados poderão ser armazenados como na tabela 2 e codificados como
na tabela 3.
Tabelas 2. Dados de um estudo de hábitos de consumo de café, estruturados
para análise estatística
Note-se que:
1- Para facilitar a manipulação da tabela de dados num computador e a sua fácil compreensão, os nomes dados às variáveis:
a. Não têm acentos
b. Não têm espaços: cada nome é constituído por uma cadeia de caracteres em que as palavras são separadas pelo símbolo “_”
c. São facilmente interpretáveis
2- Todos os dados foram colocados num formato numérico para evitar ambiguidades e facilitar a manipulação computacional dos dados. Se para as variáveis quantitativas (Idade e Quantidade_cafes) tal é o procedimento óbvio, no caso das variáveis qualitativas (Genero e Bebe_cafe) houve o cuidado de traduzir as diferentes categorias em números. A tradução do significado dos diferentes números registou-se na Tabela 3.
1- Para facilitar a manipulação da tabela de dados num computador e a sua fácil compreensão, os nomes dados às variáveis:
a. Não têm acentos
b. Não têm espaços: cada nome é constituído por uma cadeia de caracteres em que as palavras são separadas pelo símbolo “_”
c. São facilmente interpretáveis
2- Todos os dados foram colocados num formato numérico para evitar ambiguidades e facilitar a manipulação computacional dos dados. Se para as variáveis quantitativas (Idade e Quantidade_cafes) tal é o procedimento óbvio, no caso das variáveis qualitativas (Genero e Bebe_cafe) houve o cuidado de traduzir as diferentes categorias em números. A tradução do significado dos diferentes números registou-se na Tabela 3.
Tabela 3. Codificação da tabela 2
FAQ:
1- Em que software deverão ser colocados os dados?
Há uma grande escolha. Não sendo o volume de dados excessivamente grande, poderá usar-se o Excel. Nesse caso, os dados recolhidos (correspondentes à Tabela 2) poderão ser colocados numa folha e a codificação (correspondente à Tabela 3) noutra. É frequente também introduzir-se directamente os dados num programa específico para análises estatísticas como o IBM SPSS, o Graphpad ou outro. Este tipo de programas geralmente permitem a importação de dados em Excel.
2- Como se deverão guardar variáveis que não são traduzíveis em números, como nomes de pessoas?
Estes dados podem ser registadas na base de dados, mas a menos que possam ser traduzidos em números ou que dos mesmos se possa registar alguma característica numérica, não serão passíveis de ser analisados estatisticamente. Servirão eventualmente para alguma análise qualitativa, como referência para um processo clínico ou algum aspecto que possa ser importante manter em registo. Deverá nalguns casos ter-se cuidado e guardar confidencialidade na partilha de dados, eventualmente excluíndo variáveis que permitam a identificação de pessoas ou outras informações sensíveis.
Na próxima edição do Perguntas Frequentes em Bioestatística: “Que estatística aprendem os alunos
do primeiro ano de Medicina?”