Blog do LBIM - www.uc.pt/fmuc/lbim: janeiro 2016

Miguel Patrício e Francisco Caramelo

A fase da apresentação de resultados de um estudo clínico, quer seja num relatório, num poster, numa apresentação oral, num artigo ou noutro formato, é crucial. Neste texto pretende-se discutir as diferentes formas de representação de dados, distinguindo entre a apresentação de medidas sumárias, tabelas ou gráficos.

Antes de se iniciar a fase de recolha de dados para um estudo clínico, deverá já ter-se claro como os mesmos serão analisados. O ideal será mesmo criar-se um plano de análise delineado, discriminando como se descreverá cada variável (recorrendo, por exemplo, a média, mediana, desvio-padrão), que técnicas de inferência estatística serão usadas, bem como que tabelas e gráficos serão obtidos. A criação do plano tem a virtude de promover uma organização mais minuciosa do estudo clínico, havendo então alinhamento harmonioso entre as questões que se coloca e aquelas a que se pode responder. Infelizmente, poderá acontecer, uma vez obtidos os dados, que os mesmos obriguem a que se tenha de adaptar o plano de análise de variáveis à realidade observada. Em situações em que é provável esta situação ocorrer o próprio plano deve conter uma ou mais avaliações intermédias com o intuito de optimização. Ainda assim, a claridade que o plano oferece à fase de análise estatística permite frequentemente encontrar facilmente outras técnicas alternativas para extrair a informação dos dados. Nada ajuda mais à obtenção de bons resultados que, além de se ter bons dados, ter-se ideias claras sobre o que se quer retirar dos dados.

Apesar das vantagens que proporciona a definição a priori de um plano detalhado de análise das variáveis, este nem sempre é criado. Coloca-se como exigência mínima a qualquer investigador que antes de iniciar a recolha de dados tenha decidido qual é a medida principal e qual é o teste estatístico que permite responder à questão de investigação. Note-se que apenas assim será possível calcular o tamanho da amostra. Naturalmente, em estudos exploratórios em que se tenha pré-determinado o número de sujeitos a incluir, poderá não haver uma medida principal perfeitamente identificada. Não haverá também, em muitos casos, potência para se conseguir significância estatística.

A partir do momento em que os dados foram já obtidos e analisados, é preciso decidir a forma mais eficaz de os apresentar. Para cada variável, será possível obter medidas sumárias:

De variáveis qualitativas é possível obter frequências absolutas e relativas;
Para variáveis quantitativas deverá começar-se por avaliar a normalidade. Sendo uma variável normalmente distribuída, o mais comum é recorrer-se a medidas sumárias como média e desvio-padrão. Não o sendo, será preferível recorrer a medianas e eventualmente à amplitude interquartil. Em ambos os casos poderá ser útil apresentar máximos, mínimos, percentis ou outras medidas mais adequadas, a decidir caso a caso.

Consideremos como exemplo os dados incluídos nas Tabelas 1 e 2, correspondentes a um estudo em que o objectivo principal é comparar hábitos de consumo de café entre quem mora em meios urbanos e quem mora em meios rurais, sendo a questão de investigação: há diferenças significativas de consumo mensal de café entre meios urbanos e rurais? Note-se que a amostra não tem dimensão adequada para responder à questão de investigação. Neste texto negligenciaremos esse facto por uma questão de simplicidade e tendo em vista o objectivo de ilustrar o processo de representação de variáveis.

Tabela 1. Dados de um estudo de hábitos de consumo de café.

Tabela 2. Codificação da tabela 1

A primeira variável incluída nas tabelas, Sujeito, é um identificador numérico que substitui os nomes das pessoas incluídas no estudo (regra geral, os nomes estão sob sigilo neste tipo de estudos). Relativamente às variáveis observadas no estudo, duas são quantitativas (Idade e Quantidade_cafes), sendo as restantes (Meio, Se_fuma, Se_bebe_alcool) qualitativas. É possível descrever as diferentes variáveis por recurso a medidas sumárias, o que pode ser feito textualmente como no parágrafo seguinte:

“Do total de 13 sujeitos incluídos no estudo, 6 (46%) provêm de um meio urbano e os restantes 7 (54%) de um meio rural. As medianas das idades [nota 1] são 43.5 e 33.0 anos, respectivamente. A mediana do consumo mensal de cafés para sujeitos do meio urbano é 52.0 cafés por mês, sendo 70.0 para quem vem de um meio rural. Quanto aos hábitos tabágicos, 2 residentes em meios urbanos (33%) afirmam fumar e 4 (67%) negam fazê-lo, sendo que em meios rurais 3 fumam (43%) e 4 (57%) não o fazem. Finalmente, 5 (83%) habitantes em meio urbano declararam consumir álcool, havendo 1 (17%) que não o faz. No meio rural, 4 (57%) reportaram consumir álcool e 3 (43%) não o fazer”.

Note-se que, tratando-se de uma amostra tão pequena, é discutível se fará sentido incluir percentagens. De facto, estas podem ser enganadoras: 1 sujeito em 2 dá, em percentagem, o mesmo que 500 sujeitos em 1000 - porém, os significados destas proporções são diferentes. Não é consensual a partir de que tamanho de amostra fará sentido calcular percentagens. Também relativamente ao cálculo de medianas se poderá discutir se o mesmo faz sentido. Tendo-se apenas 6 pessoas de um meio urbano e 7 de um meio rural, poderá ser mais adequado mostrar os dados para cada pessoa (toda a Tabela 1) que recorrer a medidas sumárias. Tomando, a bem da simplicidade, a posição de que fará sentido calcular percentagens e medianas para os dados registados na Tabela 1, poderemos optar por uma forma alternativa ao texto do parágrafo anterior de apresentar os resultados: os mesmos poderão ser tabelados, ver Tabela 3.

Tabela 3. Caracterização das variáveis do estudo.

Para variáveis quantitativas apresenta-se a mediana, para variáveis qualitativas a frequência absoluta (frequência relativa). Foram realizadas observações relativas a 13 sujeitos, 6 (46%) dos quais provenientes do meio urbano e 7 (53%) do meio rural. Os valores-p foram obtidos por testes de associação com o meio (urbano e rural) para variáveis qualitativas e por testes de Mann-Whitney (comparando entre os meios urbano e rural) para variáveis quantitativas.

Representar os dados numa tabela, em texto ou em ambos é uma escolha de quem apresenta os dados. As tabelas são geralmente formas elegantes de representação de medidas sumárias de um conjunto maior de variáveis. Há alguns aspectos a ter em conta ao criar tabelas:

Os nomes das linhas e das colunas devem ser criteriosamente escolhidos, pois são geralmente o primeiro aspecto observado por quem consultar a tabela;
A colocação de duas colunas lado a lado (no caso da Tabela 3, uma correspondente a sujeitos do meio rural e outra a sujeitos do meio urbano) permite uma comparação fácil entre as mesmas;
Tudo o que figurar na tabela deverá ser explicado: no caso da tabela 3, teve-se o cuidado de indicar as unidades de cada variável. Na legenda, é explicitado que medidas sumárias se utilizou e a que testes estatísticos se recorreu para calcular os valores-p;
Numa tabela é possível dar destaque a algum valor a que se pretenda, por exemplo colorindo a célula correspondente ou recorrendo ao uso de negrito (bold);
As rectas que delimitam as colunas e as linhas da tabela não têm de ser todas desenhadas. O seu uso criterioso ajudará a guiar a visão do leitor pela tabela. Rectas horizontais tenderão a guiar a leitura nessa direcção e rectas verticais tenderam a fixar a leitura na vertical.

Finalmente, consideremos a representação gráfica de variáveis. A simples visualização de uma tabela com muitos valores muitas vezes não permite, ou pelo menos dificulta, a observação de relações entre variáveis. Uma alternativa será recorrer a um gráfico- existem várias regras para produção de bons gráficos:

Em gráficos quer-se comprimir informação mantendo-se a simplicidade. Quanto mais dos dados se puder mostrar, melhor, mas nunca incluindo algo que confunda ou que seja prescindível. Fazer-se um gráfico é um exercício de eficácia e eficiência: quer-se comunicar o que os dados dizem da melhor forma possível com o mínimo de recursos pictóricos;
Gráficos com muitas cores e diferentes tipos de elementos tendem a tornar-se confusos. Há quem defenda que os gráficos devem ser desprovidos de tudo o que não seja essencial para mostrar os dados – nesse sentido, less is more [nota 2];
Os eixos e os elementos do gráfico, sempre que faça sentido, devem ser legendados e as unidades indicadas.

Apesar de enunciarmos algumas regras para produção de um bom gráfico, note-se que é impossível listar um conjunto de regras universais. O melhor guia é o bom senso e, por vezes, a experimentação: a criação de vários gráficos para representar as mesmas variáveis permitirá visualizar diferentes aspectos dos dados. Poderá então fazer-se uma escolha mais informada sobre qual será o melhor gráfico para exprimir as variáveis em questão. Fazer um bom gráfico é uma tarefa difícil, morosa e que exige paciência e sentido crítico apurado. A recompensa que se obtém de construir um bom gráfico é que a mensagem que se quer transmitir se torna clara e objectiva.

Existem diferentes tipos de gráficos, apropriados a diferentes situações. No que se segue, discutimos alguns dos tipos de gráficos mais frequentemente utilizados.

1) Gráfico de dispersão e gráfico de linhas

Em gráficos de dispersão, a cada sujeito (ou objecto do estudo) faz-se corresponder um ponto cujas coordenadas são os valores das variáveis observadas para esse sujeito, ver Figura 1 (esquerda). Sendo uma das variáveis qualitativas, atribui-se um número natural a cada categoria da variável qualitativa, ver um exemplo na Figura 1 (direita) [nota 3]. Gráficos de dispersão têm a vantagem de mostrar os dados como foram obtidos e não apenas uma medida sumária dos mesmos. Naturalmente, não serão adequados para todas as situações - por exemplo, quando se tem uma amostra muito grande, um gráfico de dispersão não resulta bem.

Figura 1. Gráficos de dispersão. Esquerda – pressão sanguínea expressa em função da idade. Direita – tempo de resposta para sujeitos do grupo de controlo e sujeitos a tratamento (fonte: http://nmarinsek.com/how-to-jitter-overlapping-data-points-in-excel/).

Quando se pretende representar a evolução de uma variável quantitativa em função de outra variável quantitativa, ou ordinal com muitas categorias, é frequente recorrer-se a um gráfico de linhas. Tipicamente, coloca-se a variável em que os pontos de medição são ordenados no eixo das abcissas, colocando-se os valores da outra variável (tipicamente correspondendo a uma medida agregada dos sujeitos, e.g., uma média) no eixo das ordenadas. Os pontos são unidos por uma linha, sequencialmente, ver Figura 2. Este tipo de gráfico é particularmente adequado para permitir a comparação entre a evolução de duas variáveis ou da mesma variável em dois grupos diferentes.

Figura 2. Gráfico de linhas. Cada linha corresponde a um dos grupos (controlos e pacientes) dos sujeitos incluídos no estudo.

Note-se que enquanto na Figura 1 os dados de cada sujeito aparecem representados individualmente, na Figura 2 os dados são apresentados de forma agregada - a informação apresentada é referente aos grupos e não aos indivíduos, tendo-se menos detalhe e mais sumarização.

2) Histograma e polígono de frequências

Histogramas são úteis para representar a distribuição de variáveis quantitativas (ou ordinais com um número grande de categorias). Ao contrário dos gráficos de dispersão, os histogramas não representam os dados individualmente para cada sujeito. Ao invés, agrupam os valores de uma variável quantitativa num determinado número intervalos, que são geralmentede igual amplitude. A cada intervalo fazem corresponder uma barra, sendo a altura da mesma uma medida do número de sujeitos da amostra para os quais, relativamente à variável em questão, se observaram valores pertencentes ao intervalo, ver Figura 3. Note-se que o número de intervalos pode ser definido por quem cria o gráfico: ao considerar menos intervalos, sumariza-se mais os dados mas a informação é consequentemente menos detalhada. Comparativamente a gráficos de dispersão, estes últimos permitem a observação do comportamento de cada sujeito de estudo, enquanto os histogramas agrupam sujeitos.

Figura 3. Histogramas (horizontais) para as idades de homens e mulheres na Europa Ocidental (fonte: http://www.prb.org/images2/pyramid_cohorts.gif).

Se em vez de usar barras para representar as dimensões de cada intervalo se optar por usar linhas que unam os pontos médios dos segmentos superiores (de maior altura) dos rectângulos de um histograma vertical, obtêm-se polígonos de frequências. Estes são particularmente adequados quando se pretende comparar distribuições, ver Figura 4.

Figura 4. Polígonos de frequências para níveis de colesterol de homens mais jovens (entre 25 e 34 anos) e não tão jovens (entre 55 e 64 anos). Facilmente se observa que os níveis de colesterol são mais baixos nos homens mais jovens (fonte: http://ksrowell.com/blog-visualizing-data/wp-content/uploads/2014/04/frequency-polygon.png).

3) Gráfico de barras

À semelhança de um histograma, este tipo de gráfico usa barras para representar frequências. As diferenças são que gráficos de barras são vocacionados para representar variáveis qualitativas [nota 4] e é usual deixar um espaço entre as barras, ver Figura 5.

Figura 5. Gráfico de barras. Da direita para a esquerda, as alturas das barras representam os números de sujeitos do sexo Feminino e Masculino. Dados retirados da base de dados disponibilizada em https://archive.ics.uci.edu/ml/datasets/Heart+Disease.

Tendo-se uma variável qualitativa, colocam-se no eixo das abcissas as diferentes categorias (tipicamente fazendo corresponder um número natural a cada categoria, começando no número 1 e incrementando até ao número total de categorias). Nalgumas circunstâncias, em particular quando se tem muitas categorias, a colocação das barras por ordem crescente ou decrescente do número de elementos na categoria correspondente (i.e., uma ordenação por altura) permite uma mais fácil leitura do gráfico. É possível ainda, dentro de cada categoria, segmentar os dados por categorias de uma segunda variável qualitativa. Como exemplo, consideremos a Figura 6 (esquerda), onde se distinguem, dentro de cada género, sujeitos com angina típica, com angina atípica, com dor não anginosa e assintomáticos. Os mesmos dados estão representados na Figura 6 (direita), agora empilhando as barras. Gráficos com barras empilhadas podem ser usados para comparar perfis entre grupos, no caso em que a variável representada por cores diferentes seja ordinal.

Figura 6. Gráfico de barras. Esquerda - as quatro barras da esquerda correspondem a sujeitos com angina típica, com angina atípica, com dor não anginosa e assintomáticos do género feminino. Os quatro grupos estão representados, na ordem por que foram enunciados na úiltima frase, por tons cada vez mais escuros. As quatro barras da direita correspondem, pela mesma ordem, aos diferentes tipos de sujeitos do género masculino. Direita – gráfico de barras empilhadas. A coluna da esquerda corresponde a sujeitos do género feminino e a da direita a sujeitos do género masculino. O esquema de cores é análogo ao da figura da esquerda. Para ambas as figuras, os dados foram retirados da base de dados disponibilizada em https://archive.ics.uci.edu/ml/datasets/Heart+Disease.

4) Diagrama de extremos e quartis

Este tipo de diagrama permite uma maior sumarização dos valores de uma variável quantitativa, ou ordinal com um número grande de categorias, que um histograma (e, a fortiori, que um gráfico de dispersão). No gráfico, cada variável fica reduzida a cinco elementos: mínimo, primeiro quartil, mediana, terceiro quartil e máximo da variável, ver Figura 7 [nota 5]. No caso em que existam sujeitos com valores muito inferiores ao primeiro quartil ou muito superiores ao terceiro quartil, estes valores serão representados individualmente no gráfico (tipicamente como um círculo ou uma estrela), prestando-se a uma discussão personalizada. Diagramas de extremos e quartis podem ser muito úteis, em particular para fazer comparações entre vários grupos, quando é de facto possível sumarizar os dados. Em contrapartida, será preferível recorrer a um gráfico de dispersão para amostras muito pequenas.

Figura 7. Diagrama de extremos e quartis. À esquerda estão representadas medidas descritivas das idades de sujeitos do género feminino: as alturas das barras horizontais correspondem, por ordem crescente, ao mínimo, primeiro quartil, mediana, terceiro quartil e máximo da variável idade. O círculo corresponde a um sujeito bastante mais novo que os restantes. À direita utiliza-se o mesmo tipo de representação para sujeitos do género masculino.

Perguntas frequentes:

1- Para apresentar dados, quando se deverá recorrer a tabelas ou gráficos ou apenas indicar num texto algumas medidas sumárias?

Não é uma pergunta à qual seja possível dar uma resposta imediata: tudo depende. Há dois factores importantes a ter em conta: o número de variáveis e o destaque que se quer dar às mesmas. Numa tabela pode-se colocar informação sobre muitas variáveis, tipicamente num gráfico não. Por outro lado, este último dá um ênfase maior ao que se quer mostrar e às possíveis relações entre as variáveis– a leitura de uma tabela é, geralmente, menos apetecível. Tendo-se poucas variáveis poderá, se forem menos importantes, descrevê-las apenas por escrito. Querendo colocar-se o foco nalgumas destas, fará sentido incluir um gráfico. Não há melhor resposta que o recurso ao bom senso.

2- É importante apresentar muitos gráficos?

É importante apresentar os gráficos certos. Mostrar muitos gráficos retira foco ao que é realmente importante – se um gráfico não for indispensável, será melhor não o incluir. Por outro lado, mostrar gráficos a menos promove a superficialidade, não permite ter uma ideia real dos dados. Novamente, deverá recorrer-se ao bom senso.

3- Mas afinal, como escolher o melhor gráfico?

Depende, novamente, da situação. O ideal é experimentar vários tipos de gráficos, obter uma boa ideia dos dados e depois escolher o gráfico. Deverá conseguir-se um bom equilíbrio entre a sumarização dos dados (quanto menos se apresenta, mais clara será a mensagem) e o detalhe fornecido ao leitor (o ideal será sempre apresentar o máximo possível dos dados).

4- Onde fazer gráficos?

Possibilidades não faltam. Desde Excel, SPSS ou outros programas não gratuitos a aplicações online como http://plot.ly/ ou https://infogr.am/.

5- Ao usar gráficos de barras para representar variáveis quantitativas, devo usar desvio-padrão ou erro-padrão?

Gráficos de barras não são vocacionados para representar variáveis quantitativas, [1, 2].

6- Por que não referiram o gráfico circular?

É um gráfico que raramente deve ser utilizado, [3].

7- Por que não referiram outros gráficos?

Optámos por referir alguns dos mais comuns. Há uma grande diversidade de gráficos muito bons.

[1] T.L. Weissgerber, N.M. Milic, S.J. Winham, V.D. Garovic. Beyond Bar and Line Graphs: Time for a New Data Presentation Paradigm. PLoS Biol 13(4), 2015

[2] E.Z. Martinez. Description of continuous data using bar graphs: a misleading approach. Rev Soc Bras Med Trop 48(4):494-497, 2015

[3] http://laboratoriobioestatistica.blogspot.pt/2014/12/pie-charts-are-bad.html

Na próxima edição do Perguntas Frequentes em Bioestatística: “Que cuidados se deve ter quando se efectuam muitos testes estatísticos num mesmo trabalho?”

[nota 1] Quando se têm amostras pequenas, não faz sentido fazer testes à normalidade (a potência dos testes de normalidade para estas situações não é aceitável), assumindo-se por cautela que estas não provêm de uma população com distribuição normal. Não se indicam então médias e desvios-padrão (ou erros-padrão), mas sim medianas (e eventualmente, para cada variável, a sua amplitude interquartil).
[nota 2] Ver http://laboratoriobioestatistica.blogspot.pt/2015/10/less-is-more.html?q=less+is+more.[nota 3] Poderá consultar: http://laboratoriobioestatistica.blogspot.pt/2015/10/graficos-de-dispersao.html.

[nota 4] Apesar de ser usual encontrarem-se, na literatura, muitos exemplos do uso de gráficos de barras para representar variáveis quantitativas, tal é criticável e deverá ser evitado: Weissgerber TL, Milic NM, Winham SJ,
Garovic VD, Beyond Bar and Line Graphs: Time for a New Data Presentation Paradigm. PLoS Biol 13(4), 2015.

[nota 5] Para uma explicação mais pormenorizada deste tipo de gráficos, ver: http://laboratoriobioestatistica.blogspot.pt/2015/06/perguntas-frequentes-em-bioestatistica.html?q=boxplot.

Blog do LBIM - www.uc.pt/fmuc/lbim

quinta-feira, 28 de janeiro de 2016

Workshop "LIMO EEG"

sexta-feira, 22 de janeiro de 2016

Curso Desenho de estudos de investigação clínica - primeiras impressões

terça-feira, 5 de janeiro de 2016

Perguntas frequentes em bioestatística #11. Como apresentar dados obtidos num estudo clínico?

Número total de visualizações de páginas