terça-feira, 20 de outubro de 2015

Domínio e declínio (?) do SPSS

Na Faculdade de Medicina da Universidade de Coimbra, o ensino da Bioestatística a alunos dos mestrados integrados de Medicina e Medicina Dentária tem vindo nos anos recentes a distanciar-se do ensino do SPSS.  Ainda é esse o software que recomendamos como preferencial aos nossos alunos, mas nas aulas focam-se mais os processos de decisão e de interpretação de resultados (que, a par da teoria estatística, sempre foram a componente principal das cadeiras de Bioestatística) do que como navegar nos menus do SPSS. Essa última parte, sendo importante, tem sido gradualmente deixada mais a cargo dos alunos, com a ajuda de materiais de apoio.

Há algumas razões para isso: 1) a cada geração, a relação com os computadores é mais íntima; 2) os programas evoluem rapidamente, os princípios do pensamento estatístico e da Medicina baseada na evidência não; 3) menos tempo das aulas dedicado a software significa mais tempo que se pode investir a incrementar espírito crítico e 4) o SPSS está rapidamente a perder influência. Quanto às primeiras três razões, são meras opiniões emitidas pelo autor destas linhas. Já a perda de influência do SPSS é bem ilustrada no gráfico seguinte (fonte), que mostra o número de artigos publicados (na verdade, número de hits no Google Scholar), por ano, desde 1995, usando diferentes programas que permitem fazer análise de dados:

Claramente o SPSS lidera, mas o número de artigos publicados está a diminuir de forma rápida. Também a perder influência neste sentido tem-se o SAS. Logo atrás, mas com o número de hits no Google Scholar a aumentar, aparece o R, que neste momento é o software usado para o ensino da Bioestatística no curso de Engenharia Biomédica. O gráfico seguinte é idêntico ao anterior, mas para melhor visulização dos novos contenders excluem-se dados relativos ao SPSS e ao SAS (a fonte é a mesma):

A continuada perda de domínio por parte do SPSS, a par da consciência aguda de que o ensino da Estatística não é o ensino de um software, tem levado a discussões no seio do Laboratório de Bioestatística. O ensino clássico de linguagens de programação como o R implica uma curva de aprendizagem maior que o SPSS (exigindo conhecimentos a priori que é duvidoso que um aluno típico que entre em Medicina ou Medicina Dentária tenha). O uso de linguagens como R traz vantagens muito claras, como a possibilidade da criação de scripts que asseguram maior reprodutiblidade de análise. Por outro lado, o uso de um software como o SPSS distancia o utilizador do pensamento estatístico: trata-se de uma blackbox sofisticada que tem a qualidade e o defeito de fazer exactamente o que o utilizador pedir. É muito fácil clicar apenas num botão e obter-se resultados, porém perde-se noção dos processos que estão envolvidos. Se haverá uma forma de compatibilizar os conhecimentos à entrada do curso com o ensino eficaz de Bioestatística operacionalizada numa linguagem como o R é neste momento, para nós, um problema em aberto. Se será esse o caminho a seguir é um tema de discussão. Colocar o foco no pensamento estatístico e não no software é a garantia de que os alunos sairão mais preparados.

As duas imagens acima foram retiradas do artigo The Popularity of Data Analysis Software, escrito por Robert Muenchen, o autor de R for SAS and SPSS Users. Uma outra imagem que se pode encontrar nesse artigo é a seguinte, em que se mostra o número de trabalhos analíticos no site Indeed.com, segmentados por software de análise. Vale a pena consultar o artigo para ver as tendências de uso de cada linguagem.
Nota: As opiniões emitidas neste post são apenas isso - meras opiniões - do abaixo assinado.

quinta-feira, 15 de outubro de 2015

Gráficos de dispersão

Gráficos de dispersão são muito úteis para representar correlações entre duas variáveis quantitativas. A cada sujeito (ou objecto do estudo) faz-se corresponder um ponto cujas coordenadas são os valores das variáveis observadas para esse sujeito, como exemplificado de seguida:


Este tipo de gráfico tem a vantagem de mostrar os dados como foram obtidos, não apenas uma medida sumária dos mesmos. Naturalmente, não será adequado para todas as situações - por exemplo, quando se tem uma amostra muito grande, um gráfico de dispersão não resulta bem. Uma dificuldade que surge quando se quer comparar os valores obtidos para uma única variável quantitativa entre vários grupos é que se podem ter dados sobrepostos, como ilustrado no gráfico à esquerda da figura seguinte (fonte), em que se representa uma variável quantitativa (response time) em função de diferentes scores (temos grupos de dados correspondendo aos diferentes scores, de 1 a 5):



Uma solução, nesses casos, passa por agitar (à falta de melhor palavra; em inglês a expressão é jitter) horizontalmente os pontos de forma aleatória, obtendo um gráfico como o incluído à direita na última figura. Alguns (poucos) programas oferecem a possibilidade de se criar automaticamente gráficos assim. Ainda que de forma não automática, pode-se recorrer ao Excel, como explicado aqui. Como há diferentes versões do Excel, poderá haver diferenças nos procedimentos que cada utilizador terá de descobrir por si. Possivelmente, em vez de RAND() poderá ter de se usar o equivalente em português, ALEATÓRIO(); eventualmente a transparência deverá ser introduzida clicando com o botão direito do rato num dos pontos e alterando as definições de preenchimento de cada um dos pontos.

Less is more

Um bom gráfico deve mostrar bem os dados e ser apelativo. A questão é como o criar. Uma filosofia interessante é baseada no conceito de Data-ink, de Edward Tufte, segundo a qual se deve reduzir a tinta gasta na impressão de um gráfico para mostrar apenas os dados, removendo tudo o que sejam elementos redundantes: "Rather than dressing our data up we should be stripping it down". O conceito, que não é desprovido de críticas, consegue em muitas ocasiões ser eficaz. Um exemplo de aplicação desta filosofia, que pode ser encontrado aqui. Um outro exemplo interessante (da mesma fonte) é a aplicação da filosofia ao muito odiado gráfico circular


Há outros processos de redução de gráficos ao essencial que merecem ser vistos, como este retirado daqui:

A mesma lógica pode ser aplicada a tabelas (fonte):