Miguel Patrício e Francisco Caramelo
A fase da apresentação de resultados de um estudo clínico, quer seja num
relatório, num poster, numa apresentação oral, num artigo ou noutro formato, é
crucial. Neste texto pretende-se discutir as diferentes formas de representação
de dados, distinguindo entre a apresentação de medidas sumárias, tabelas ou
gráficos.
Antes de se iniciar a fase de recolha de dados para um estudo clínico,
deverá já ter-se claro como os mesmos serão analisados. O ideal será mesmo criar-se
um plano de análise delineado, discriminando como se descreverá cada variável
(recorrendo, por exemplo, a média, mediana, desvio-padrão), que técnicas de
inferência estatística serão usadas, bem como que tabelas e gráficos serão
obtidos. A criação do plano tem a virtude de promover uma organização mais minuciosa
do estudo clínico, havendo então alinhamento harmonioso entre as questões que
se coloca e aquelas a que se pode responder. Infelizmente, poderá acontecer,
uma vez obtidos os dados, que os mesmos obriguem a que se tenha de adaptar o
plano de análise de variáveis à realidade observada. Em situações em que é
provável esta situação ocorrer o próprio plano deve conter uma ou mais
avaliações intermédias com o intuito de optimização. Ainda assim, a claridade
que o plano oferece à fase de análise estatística permite frequentemente encontrar
facilmente outras técnicas alternativas para extrair a informação dos dados.
Nada ajuda mais à obtenção de bons resultados que, além de se ter bons dados,
ter-se ideias claras sobre o que se quer retirar dos dados.
Apesar das vantagens que proporciona a definição a priori de um plano detalhado de análise das variáveis, este nem
sempre é criado. Coloca-se como exigência mínima a qualquer investigador que antes
de iniciar a recolha de dados tenha decidido qual é a medida principal e qual é
o teste estatístico que permite responder à questão de investigação. Note-se
que apenas assim será possível calcular o tamanho da amostra. Naturalmente, em
estudos exploratórios em que se tenha pré-determinado o número de sujeitos a incluir,
poderá não haver uma medida principal perfeitamente identificada. Não haverá
também, em muitos casos, potência para se conseguir significância estatística.
A partir do momento em que os dados foram já obtidos e analisados, é
preciso decidir a forma mais eficaz de os apresentar. Para cada variável, será
possível obter medidas sumárias:
- De variáveis qualitativas é possível obter frequências absolutas e relativas;
- Para variáveis quantitativas deverá começar-se por avaliar a normalidade. Sendo uma variável normalmente distribuída, o mais comum é recorrer-se a medidas sumárias como média e desvio-padrão. Não o sendo, será preferível recorrer a medianas e eventualmente à amplitude interquartil. Em ambos os casos poderá ser útil apresentar máximos, mínimos, percentis ou outras medidas mais adequadas, a decidir caso a caso.
Consideremos como exemplo os dados incluídos nas Tabelas 1 e 2,
correspondentes a um estudo em que o objectivo principal é comparar hábitos de
consumo de café entre quem mora em meios urbanos e quem mora em meios rurais,
sendo a questão de investigação: há diferenças significativas de consumo mensal
de café entre meios urbanos e rurais? Note-se que a amostra não tem dimensão
adequada para responder à questão de investigação. Neste texto negligenciaremos
esse facto por uma questão de simplicidade e tendo em vista o objectivo de
ilustrar o processo de representação de variáveis.
Tabela 1. Dados de um estudo de hábitos de consumo de café.
Tabela 2. Codificação da tabela 1
A primeira variável incluída nas tabelas, Sujeito, é um identificador
numérico que substitui os nomes das pessoas incluídas no estudo (regra geral,
os nomes estão sob sigilo neste tipo de estudos). Relativamente às variáveis
observadas no estudo, duas são quantitativas (Idade e Quantidade_cafes), sendo
as restantes (Meio, Se_fuma, Se_bebe_alcool) qualitativas. É possível descrever
as diferentes variáveis por recurso a medidas sumárias, o que pode ser feito
textualmente como no parágrafo seguinte:
“Do total de 13 sujeitos incluídos no
estudo, 6 (46%) provêm de um meio urbano e os restantes 7 (54%) de um meio
rural. As medianas das idades [nota 1] são
43.5 e 33.0 anos, respectivamente. A mediana do consumo mensal de cafés para
sujeitos do meio urbano é 52.0 cafés por mês, sendo 70.0 para quem vem de um
meio rural. Quanto aos hábitos tabágicos, 2 residentes em meios urbanos (33%)
afirmam fumar e 4 (67%) negam fazê-lo, sendo que em meios rurais 3 fumam (43%)
e 4 (57%) não o fazem. Finalmente, 5 (83%) habitantes em meio urbano declararam
consumir álcool, havendo 1 (17%) que não o faz. No meio rural, 4 (57%)
reportaram consumir álcool e 3 (43%) não o fazer”.
Note-se que, tratando-se de uma amostra tão pequena, é discutível se fará
sentido incluir percentagens. De facto, estas podem ser enganadoras: 1 sujeito
em 2 dá, em percentagem, o mesmo que 500 sujeitos em 1000 - porém, os
significados destas proporções são diferentes. Não é consensual a partir de que
tamanho de amostra fará sentido calcular percentagens. Também relativamente ao
cálculo de medianas se poderá discutir se o mesmo faz sentido. Tendo-se apenas
6 pessoas de um meio urbano e 7 de um meio rural, poderá ser mais adequado
mostrar os dados para cada pessoa (toda a Tabela 1) que recorrer a medidas
sumárias. Tomando, a bem da simplicidade, a posição de que fará sentido
calcular percentagens e medianas para os dados registados na Tabela 1,
poderemos optar por uma forma alternativa ao texto do parágrafo anterior de
apresentar os resultados: os mesmos poderão ser tabelados, ver Tabela 3.
Tabela 3. Caracterização das variáveis do estudo.
Para
variáveis quantitativas apresenta-se a mediana, para variáveis qualitativas a
frequência absoluta (frequência relativa). Foram realizadas observações
relativas a 13 sujeitos, 6 (46%) dos quais provenientes do meio urbano e 7
(53%) do meio rural. Os valores-p foram obtidos por testes de associação com o
meio (urbano e rural) para variáveis qualitativas e por testes de Mann-Whitney
(comparando entre os meios urbano e rural) para variáveis quantitativas.
Representar os dados numa tabela, em texto ou em ambos é uma escolha de
quem apresenta os dados. As tabelas são geralmente formas elegantes de
representação de medidas sumárias de um conjunto maior de variáveis. Há alguns
aspectos a ter em conta ao criar tabelas:
- Os nomes das linhas e das colunas devem ser criteriosamente escolhidos, pois são geralmente o primeiro aspecto observado por quem consultar a tabela;
- A colocação de duas colunas lado a lado (no caso da Tabela 3, uma correspondente a sujeitos do meio rural e outra a sujeitos do meio urbano) permite uma comparação fácil entre as mesmas;
- Tudo o que figurar na tabela deverá ser explicado: no caso da tabela 3, teve-se o cuidado de indicar as unidades de cada variável. Na legenda, é explicitado que medidas sumárias se utilizou e a que testes estatísticos se recorreu para calcular os valores-p;
- Numa tabela é possível dar destaque a algum valor a que se pretenda, por exemplo colorindo a célula correspondente ou recorrendo ao uso de negrito (bold);
- As rectas que delimitam as colunas e as linhas da tabela não têm de ser todas desenhadas. O seu uso criterioso ajudará a guiar a visão do leitor pela tabela. Rectas horizontais tenderão a guiar a leitura nessa direcção e rectas verticais tenderam a fixar a leitura na vertical.
Finalmente, consideremos a representação gráfica de variáveis. A simples
visualização de uma tabela com muitos valores muitas vezes não permite, ou pelo
menos dificulta, a observação de relações entre variáveis. Uma alternativa será
recorrer a um gráfico- existem várias regras para produção de bons gráficos:
- Em gráficos quer-se comprimir informação mantendo-se a simplicidade. Quanto mais dos dados se puder mostrar, melhor, mas nunca incluindo algo que confunda ou que seja prescindível. Fazer-se um gráfico é um exercício de eficácia e eficiência: quer-se comunicar o que os dados dizem da melhor forma possível com o mínimo de recursos pictóricos;
Gráficos com muitas cores e diferentes tipos de elementos tendem a tornar-se confusos. Há quem defenda que os gráficos devem ser desprovidos de tudo o que não seja essencial para mostrar os dados – nesse sentido, less is more [nota 2];
Os eixos e os elementos do gráfico, sempre que faça sentido, devem ser legendados e as unidades indicadas.
Apesar de enunciarmos algumas regras para produção de um bom gráfico, note-se
que é impossível listar um conjunto de regras universais. O melhor guia é o bom
senso e, por vezes, a experimentação: a criação de vários gráficos para
representar as mesmas variáveis permitirá visualizar diferentes aspectos dos
dados. Poderá então fazer-se uma escolha mais informada sobre qual será o
melhor gráfico para exprimir as variáveis em questão. Fazer um bom gráfico é
uma tarefa difícil, morosa e que exige paciência e sentido crítico apurado. A
recompensa que se obtém de construir um bom gráfico é que a mensagem que se
quer transmitir se torna clara e objectiva.
Existem diferentes tipos de gráficos, apropriados a diferentes situações.
No que se segue, discutimos alguns dos tipos de gráficos mais frequentemente
utilizados.
1)
Gráfico
de dispersão e gráfico de linhas
Em gráficos de dispersão, a cada sujeito (ou objecto do estudo) faz-se
corresponder um ponto cujas coordenadas são os valores das variáveis observadas
para esse sujeito, ver Figura 1 (esquerda). Sendo uma das variáveis
qualitativas, atribui-se um número natural a cada categoria da variável
qualitativa, ver um exemplo na Figura 1 (direita) [nota 3].
Gráficos de dispersão têm a vantagem de mostrar os dados como foram obtidos e não
apenas uma medida sumária dos mesmos. Naturalmente, não serão adequados para
todas as situações - por exemplo, quando se tem uma amostra muito grande, um
gráfico de dispersão não resulta bem.
Figura 1. Gráficos de dispersão. Esquerda – pressão sanguínea expressa em
função da idade. Direita – tempo de resposta para sujeitos do grupo de controlo
e sujeitos a tratamento (fonte: http://nmarinsek.com/how-to-jitter-overlapping-data-points-in-excel/).
Quando se pretende representar a evolução de uma variável quantitativa em
função de outra variável quantitativa, ou ordinal com muitas categorias, é
frequente recorrer-se a um gráfico de linhas. Tipicamente, coloca-se a variável
em que os pontos de medição são ordenados no eixo das abcissas, colocando-se os
valores da outra variável (tipicamente correspondendo a uma medida agregada dos
sujeitos, e.g., uma média) no eixo das ordenadas. Os pontos são unidos por uma
linha, sequencialmente, ver Figura 2. Este tipo de gráfico é particularmente
adequado para permitir a comparação entre a evolução de duas variáveis ou da
mesma variável em dois grupos diferentes.
Figura 2. Gráfico de linhas. Cada linha corresponde a um dos grupos
(controlos e pacientes) dos sujeitos incluídos no estudo.
Note-se que enquanto na Figura 1 os dados de cada sujeito aparecem
representados individualmente, na Figura 2 os dados são apresentados de forma
agregada - a informação apresentada é referente aos grupos e não aos
indivíduos, tendo-se menos detalhe e mais sumarização.
2) Histograma e polígono de frequências
Histogramas são úteis para representar a distribuição de variáveis
quantitativas (ou ordinais com um número grande de categorias). Ao contrário
dos gráficos de dispersão, os histogramas não representam os dados
individualmente para cada sujeito. Ao invés, agrupam os valores de uma variável
quantitativa num determinado número intervalos, que são geralmentede igual
amplitude. A cada intervalo fazem corresponder uma barra, sendo a altura da
mesma uma medida do número de sujeitos da amostra para os quais, relativamente
à variável em questão, se observaram valores pertencentes ao intervalo, ver
Figura 3. Note-se que o número de intervalos pode ser definido por quem cria o
gráfico: ao considerar menos intervalos, sumariza-se mais os dados mas a
informação é consequentemente menos detalhada. Comparativamente a gráficos de
dispersão, estes últimos permitem a observação do comportamento de cada sujeito
de estudo, enquanto os histogramas agrupam sujeitos.
Figura 3. Histogramas (horizontais) para as idades de homens e mulheres na
Europa Ocidental (fonte: http://www.prb.org/images2/pyramid_cohorts.gif).
Se em vez de usar barras para representar as dimensões de cada intervalo se
optar por usar linhas que unam os pontos médios dos segmentos superiores (de
maior altura) dos rectângulos de um histograma vertical, obtêm-se polígonos de
frequências. Estes são particularmente adequados quando se pretende comparar
distribuições, ver Figura 4.
Figura 4. Polígonos de frequências para níveis de colesterol de homens mais
jovens (entre 25 e 34 anos) e não tão jovens (entre 55 e 64 anos). Facilmente
se observa que os níveis de colesterol são mais baixos nos homens mais jovens
(fonte: http://ksrowell.com/blog-visualizing-data/wp-content/uploads/2014/04/frequency-polygon.png).
3) Gráfico de barras
À semelhança de um histograma, este tipo de gráfico usa barras para
representar frequências. As diferenças são que gráficos de barras são
vocacionados para representar variáveis qualitativas [nota 4]
e é usual deixar um espaço entre as barras, ver Figura 5.
Figura 5. Gráfico de barras. Da direita para a esquerda, as alturas das
barras representam os números de sujeitos do sexo Feminino e Masculino. Dados
retirados da base de dados disponibilizada em https://archive.ics.uci.edu/ml/datasets/Heart+Disease.
Tendo-se uma variável qualitativa, colocam-se no eixo das abcissas as
diferentes categorias (tipicamente fazendo corresponder um número natural a
cada categoria, começando no número 1 e incrementando até ao número total de
categorias). Nalgumas circunstâncias, em particular quando se tem muitas
categorias, a colocação das barras por ordem crescente ou decrescente do número
de elementos na categoria correspondente (i.e., uma ordenação por altura)
permite uma mais fácil leitura do gráfico. É possível ainda, dentro de cada
categoria, segmentar os dados por categorias de uma segunda variável
qualitativa. Como exemplo, consideremos a Figura 6 (esquerda), onde se
distinguem, dentro de cada género, sujeitos com angina típica, com angina
atípica, com dor não anginosa e assintomáticos. Os mesmos dados estão
representados na Figura 6 (direita), agora empilhando as barras. Gráficos com
barras empilhadas podem ser usados para comparar perfis entre grupos, no caso
em que a variável representada por cores diferentes seja ordinal.
Figura 6. Gráfico de barras. Esquerda - as quatro barras da esquerda
correspondem a sujeitos com angina típica, com angina atípica, com dor não
anginosa e assintomáticos do género feminino. Os quatro grupos estão
representados, na ordem por que foram enunciados na úiltima frase, por tons
cada vez mais escuros. As quatro barras da direita correspondem, pela mesma
ordem, aos diferentes tipos de sujeitos do género masculino. Direita – gráfico
de barras empilhadas. A coluna da esquerda corresponde a sujeitos do género
feminino e a da direita a sujeitos do género masculino. O esquema de cores é
análogo ao da figura da esquerda. Para ambas as figuras, os dados foram retirados
da base de dados disponibilizada em https://archive.ics.uci.edu/ml/datasets/Heart+Disease.
4) Diagrama de extremos e quartis
Este tipo de diagrama permite uma maior sumarização dos valores de uma
variável quantitativa, ou ordinal com um número grande de categorias, que um
histograma (e, a fortiori, que um
gráfico de dispersão). No gráfico, cada variável fica reduzida a cinco
elementos: mínimo, primeiro quartil, mediana, terceiro quartil e máximo da
variável, ver Figura 7 [nota 5].
No caso em que existam sujeitos com valores muito inferiores ao primeiro
quartil ou muito superiores ao terceiro quartil, estes valores serão
representados individualmente no gráfico (tipicamente como um círculo ou uma estrela),
prestando-se a uma discussão personalizada. Diagramas de extremos e quartis
podem ser muito úteis, em particular para fazer comparações entre vários
grupos, quando é de facto possível sumarizar os dados. Em contrapartida, será
preferível recorrer a um gráfico de dispersão para amostras muito pequenas.
Figura 7. Diagrama de extremos e quartis. À esquerda estão representadas
medidas descritivas das idades de sujeitos do género feminino: as alturas das
barras horizontais correspondem, por ordem crescente, ao mínimo, primeiro
quartil, mediana, terceiro quartil e máximo da variável idade. O círculo
corresponde a um sujeito bastante mais novo que os restantes. À direita
utiliza-se o mesmo tipo de representação para sujeitos do género masculino.
Perguntas frequentes:
1-
Para
apresentar dados, quando se deverá recorrer a tabelas ou gráficos ou apenas
indicar num texto algumas medidas sumárias?
Não é uma pergunta à qual seja possível dar uma resposta imediata: tudo
depende. Há dois factores importantes a ter em conta: o número de variáveis e o
destaque que se quer dar às mesmas. Numa tabela pode-se colocar informação
sobre muitas variáveis, tipicamente num gráfico não. Por outro lado, este
último dá um ênfase maior ao que se quer mostrar e às possíveis relações entre
as variáveis– a leitura de uma tabela é, geralmente, menos apetecível. Tendo-se
poucas variáveis poderá, se forem menos importantes, descrevê-las apenas por
escrito. Querendo colocar-se o foco nalgumas destas, fará sentido incluir um
gráfico. Não há melhor resposta que o recurso ao bom senso.
2-
É
importante apresentar muitos gráficos?
É importante apresentar os gráficos certos. Mostrar muitos gráficos retira
foco ao que é realmente importante – se um gráfico não for indispensável, será
melhor não o incluir. Por outro lado, mostrar gráficos a menos promove a
superficialidade, não permite ter uma ideia real dos dados. Novamente, deverá
recorrer-se ao bom senso.
3-
Mas
afinal, como escolher o melhor gráfico?
Depende, novamente, da situação. O ideal é experimentar vários tipos de
gráficos, obter uma boa ideia dos dados e depois escolher o gráfico. Deverá
conseguir-se um bom equilíbrio entre a sumarização dos dados (quanto menos se
apresenta, mais clara será a mensagem) e o detalhe fornecido ao leitor (o ideal
será sempre apresentar o máximo possível dos dados).
4-
Onde
fazer gráficos?
Possibilidades
não faltam. Desde Excel, SPSS ou outros programas não gratuitos a aplicações
online como http://plot.ly/ ou https://infogr.am/.
5-
Ao
usar gráficos de barras para representar variáveis quantitativas, devo usar
desvio-padrão ou erro-padrão?
Gráficos de
barras não são vocacionados para representar variáveis quantitativas, [1, 2].
6-
Por
que não referiram o gráfico circular?
É um gráfico que raramente deve ser utilizado, [3].
7-
Por que
não referiram outros gráficos?
Optámos por
referir alguns dos mais comuns. Há uma grande diversidade de gráficos muito
bons.
[1] T.L. Weissgerber, N.M. Milic, S.J. Winham, V.D. Garovic. Beyond Bar and Line Graphs: Time for
a New Data Presentation Paradigm. PLoS Biol 13(4), 2015
[2] E.Z. Martinez. Description of
continuous data using bar graphs: a misleading approach. Rev Soc Bras Med Trop 48(4):494-497, 2015
[3] http://laboratoriobioestatistica.blogspot.pt/2014/12/pie-charts-are-bad.html
Na próxima edição do Perguntas Frequentes em Bioestatística: “Que
cuidados se deve ter quando se efectuam muitos testes estatísticos num mesmo
trabalho?”
[nota 1] Quando se têm amostras pequenas, não faz sentido fazer testes à normalidade (a potência dos testes de normalidade para estas situações não é aceitável), assumindo-se por cautela que estas não provêm de uma população com distribuição normal. Não se indicam então médias e desvios-padrão (ou erros-padrão), mas sim medianas (e eventualmente, para cada variável, a sua amplitude interquartil).
[nota 2] Ver http://laboratoriobioestatistica.blogspot.pt/2015/10/less-is-more.html?q=less+is+more.[nota 3] Poderá consultar: http://laboratoriobioestatistica.blogspot.pt/2015/10/graficos-de-dispersao.html.
[nota 2] Ver http://laboratoriobioestatistica.blogspot.pt/2015/10/less-is-more.html?q=less+is+more.[nota 3] Poderá consultar: http://laboratoriobioestatistica.blogspot.pt/2015/10/graficos-de-dispersao.html.
[nota 4] Apesar de ser usual encontrarem-se, na literatura, muitos exemplos do uso de gráficos de barras para representar variáveis quantitativas, tal é criticável e deverá ser evitado: Weissgerber TL, Milic NM, Winham SJ,
Garovic VD, Beyond Bar and Line Graphs: Time for a New Data Presentation Paradigm. PLoS Biol 13(4), 2015.
Garovic VD, Beyond Bar and Line Graphs: Time for a New Data Presentation Paradigm. PLoS Biol 13(4), 2015.
[nota 5] Para uma explicação mais pormenorizada deste tipo de gráficos, ver: http://laboratoriobioestatistica.blogspot.pt/2015/06/perguntas-frequentes-em-bioestatistica.html?q=boxplot.
Sem comentários:
Enviar um comentário