quinta-feira, 15 de outubro de 2015

Gráficos de dispersão

Gráficos de dispersão são muito úteis para representar correlações entre duas variáveis quantitativas. A cada sujeito (ou objecto do estudo) faz-se corresponder um ponto cujas coordenadas são os valores das variáveis observadas para esse sujeito, como exemplificado de seguida:


Este tipo de gráfico tem a vantagem de mostrar os dados como foram obtidos, não apenas uma medida sumária dos mesmos. Naturalmente, não será adequado para todas as situações - por exemplo, quando se tem uma amostra muito grande, um gráfico de dispersão não resulta bem. Uma dificuldade que surge quando se quer comparar os valores obtidos para uma única variável quantitativa entre vários grupos é que se podem ter dados sobrepostos, como ilustrado no gráfico à esquerda da figura seguinte (fonte), em que se representa uma variável quantitativa (response time) em função de diferentes scores (temos grupos de dados correspondendo aos diferentes scores, de 1 a 5):



Uma solução, nesses casos, passa por agitar (à falta de melhor palavra; em inglês a expressão é jitter) horizontalmente os pontos de forma aleatória, obtendo um gráfico como o incluído à direita na última figura. Alguns (poucos) programas oferecem a possibilidade de se criar automaticamente gráficos assim. Ainda que de forma não automática, pode-se recorrer ao Excel, como explicado aqui. Como há diferentes versões do Excel, poderá haver diferenças nos procedimentos que cada utilizador terá de descobrir por si. Possivelmente, em vez de RAND() poderá ter de se usar o equivalente em português, ALEATÓRIO(); eventualmente a transparência deverá ser introduzida clicando com o botão direito do rato num dos pontos e alterando as definições de preenchimento de cada um dos pontos.

1 comentário:

  1. A minha questão é um pouco abstracta (talvez venha a ser abordada num outro post). Não especificamente sobre a apresentação de resultados em gráficos de dispersão, mas relativamente à análise de regressão muitas vezes subjacente ao gráfico, há algum critério que possa tornar relevante "forçar" uma curva de regressão passar na origem de coordenadas (0,0), ou deve-se sempre tentar encontrar a que se "molde" melhor aos dados? Falando em origem, também posso perguntar relativamente ao "tipo" de curva, dado que a maior parte das vezes vejo um ajuste linear.

    ResponderEliminar