quinta-feira, 19 de maio de 2016

Perguntas frequentes em bioestatística #14. Com a estatística também se erra?



A seguinte mensagem é a décima quarta comunicação da série Perguntas Frequentes em Bioestatística, da autoria de membros do Laboratório de Bioestatística e Informática Médica da Faculdade de Medicina da Universidade de Coimbra. Pretende-se fomentar uma discussão sobre as melhores práticas estatísticas na área da saúde.

Bárbara Oliveiros, Francisco Caramelo e Miguel Patrício

Em análise estatística existem vários tipos de erros, tanto na fase de desenho do estudo quanto na fase de aplicação do protocolo experimental. Os erros podem ocorrer na colheita dos dados, no seu registo, na sua análise ou mesmo ao relatar resultados e extrair conclusões. Por outro lado, também os próprios métodos estatísticos assentam na medição da incerteza, com bases fortes na teoria de probabilidades. Deste modo, em Estatística, não existem resultados exactos, mas apenas resultados prováveis. Sendo-se mais preciso e adoptando a perspectiva das teorias frequencistas que remontam ao início do século XX (tendo como “pai” Sir Ronald Fisher e sendo estas as mais utilizadas actualmente), os resultados em estatística são prováveis com um determinado grau de confiança, ou com um erro inferior a um limite pré-estabelecido. Citando Samuel Langhorne Clemens, mais conhecido por Mark Twain, “há mentiras, mentiras malditas e estatísticas”. Isto não significa que todas as estatísticas sejam mentira, mas também não significa que todas as estatísticas sejam 100% verdade. Existe sempre algum erro associado a qualquer inferência estatística que se faça de uma amostra para a população.

É útil distinguir duas fases numa análise estatística: “Estatística Descritiva” e “Estatística Inferencial”. No que diz respeito à estatística descritiva, esta pode ser realizada relativamente a uma amostra ou para toda a população, pelo que não existe erro associado às medidas obtidas para além do próprio erro inerente às medições e instrumentos de medida usados. A partir do momento em que fazemos inferência acerca dos valores observados na amostra (procurando extrair informação para a população), então temos ainda de somar aos erros das medições e instrumentos de medida o erro associado à amostragem, uma vez que estamos a tirar conclusões para um conjunto de sujeitos para os quais não efectuámos medições directas.

O processo de inferência estatística divide-se geralmente ainda em “Teoria da Estimação”, onde são vulgarmente utilizados intervalos de confiança para um dado parâmetro, e “Teoria da Decisão” onde se aplica um ou mais testes estatísticos. Terá de se ter em atenção que o conjunto de testes estatísticos a aplicar deverá ser o indicado para responder à questão de investigação colocada e também deverá estar de acordo com o nível de mensuração das variáveis e com o papel das mesmas. A não observância destes cuidados leva certamente à introdução de um factor de erro adicional na análise. Naturalmente, esta não é a única premissa que preside à escolha dos testes: em cada estudo, o conjunto de testes a aplicar deverá ter em conta o princípio segundo o qual se deve recorrer à aplicação do teste mais potente para cada situação, como explicitado de seguida.

Um teste estatístico tem por base duas hipóteses, denominadas por hipótese nula (H0), que é considerada verdadeira até prova em contrário, e hipótese alternativa (H1 ou HA). A sua aplicação visa determinar se existe evidência suficiente para se abandonar a hipótese nula e tomar como verdadeira a alternativa. A formulação da hipótese nula, que como o nome indica representa uma “nulidade”, é baseada numa ausência de efeito que se pode traduzir, por exemplo, na ausência de diferença ou na ausência de associação. Obviamente que na população nunca podemos determinar se a hipótese nula é realmente válida ou não, a não ser realizando um censo. No entanto, a partir dos dados amostrais podemos tentar avaliar a plausibilidade da hipótese nula: partindo do pressuposto de que a mesma é verdadeira, mede-se a probabilidade de se encontrar dados amostrais como os observados ou mais afastados do que seria expectável. A esta probabilidade dá-se o nome de valor-p, ou probabilidade de significância. Na prática, quando se encontra um valor-p pequeno, rejeita-se a hipótese nula e toma-se como verdadeira a hipótese alternativa. Naturalmente, nem sempre tal é correcto: poderá por mero acaso encontrar-se uma amostra distante do que seria de esperar, à qual corresponderá um valor-p pequeno, e ainda a hipótese nula ser verdadeira. É improvável, mas possível. Quando tal acontece e se rejeita a hipótese nula, comete-se um erro tipo I. O limite superior que estamos dispostos a aceitar para este erro é normalmente representado por a e denomina-se nível de significância do teste estatístico: tal leva a que se rejeita a hipótese nula quando p<α. O nível de significância (α) do teste deve ser definido a priori no desenho do estudo, de forma a não dar azo à escolha conveniente de um nível de significância que permita rejeitar a hipótese nula após análise dos dados - este procedimento, além de introduzir um viés no estudo, também invalida o desenho do mesmo. Normalmente, é usado o valor α = 0,05. Assim, sempre que se obtenha um valor-p inferior a 5% poderemos afirmar que existe evidência estatística suficiente para rejeitar a hipótese nula. Dado que a hipótese nula indica ausência de efeito, a rejeição da mesma significa em linguagem comum que o efeito observado nos dados amostrais pode ser estendido para a população. Interessa enfatizar que esta afirmação de inferência para a população tem evidentemente associado um erro potencial igual ao valor-p obtido.

Como vimos, o valor de  adoptado num estudo limita a probabilidade máxima de se cometer erros tipo I. Note-se que a escolha do nível de significância (α) depende do estudo em causa. Em determinados estudos, como por exemplo nos ensaios de bioequivalência de fármacos para introdução de fármacos novos no mercado, é importante considerar pequenos efeitos como estatisticamente significativos. Desta forma, o nível de significância a considerar é maior que os habituais 5%: usualmente é de 10%. Ao invés, quando se pretende reduzir a ocorrência de falsos positivos face ao aumento de falsos negativos, ou seja, se pretendermos tornar o teste estatístico mais específico à custa da perda na sensibilidade, então é preferível usar α = 0,01. Contudo, qualquer que seja o nível de significância a adoptar, este deve ser definido a priori e ser constante ao longo de todo o estudo.

Os erros tipo I também podem ocorrer no cálculo de estimativas intervalares para parâmetros. De facto, a estatística reproduz a incerteza nos resultados recorrendo a intervalos de confiança. Como o nome indica, o intervalo de confiança é um intervalo de valores dentro do qual se estima que o parâmetro em consideração (e.g. média, proporção, variância) se encontre com uma confiança de (1-α)x100% . Por exemplo, o intervalo de confiança para a média a 95% (IC95%) indica o intervalo de valores dentro do qual se pressupõe estar a média da população com uma probabilidade de 95%. Percebe-se, então, que a apresentação do intervalo de confiança admite uma possibilidade de erro (exprime incerteza) que no caso do IC95% seria de 5%.

Portanto, quando vemos publicitado que um determinado candidato tem entre 40 a 45% das intenções de voto, com 95% de confiança, sabemos que com base nas intenções de voto obtidas por uma sondagem (amostra, supostamente aleatória e representativa da população), o valor esperado para a proporção de votos de toda a população estaria entre os 40 e os 45%, sendo o erro associado de 5%. Quando um anúncio afirma “perca até 10 kg em 2 meses”, é razoável subentender-se que se tivermos obtido 100 amostras diferentes de pessoas que experimentaram a dieta em causa, em cerca de 95 amostras a redução média de peso em 2 meses tinha sido um valor até 10 kg. Contudo, é importante notar que a redução anunciada de 10 kg é uma média pelo que nalguns casos a redução foi menor ou poderá até ter havido aumento de peso. Ora, conhecer o limite inferior do intervalo de confiança torna-se fundamental já que se este for negativo, significa que pode haver lugar ao aumento do peso médio. Em termos de teste de hipóteses a ausência de efeito da dieta (H0) traduz-se por uma redução nula. Se o intervalo de confiança para a redução de peso fosse tal que o limite inferior é negativo e o superior é positivo isto indicaria que a redução nula (valor zero de redução) se encontra dentro do intervalo. Por conseguinte, teríamos de admitir que nesse caso não existiria um efeito estatisticamente significativo (logo, que não existiria evidência para rejeitar a hipótese nula).

Centrámo-nos até ao momento no erro tipo I que ocorre quando se rejeita a hipótese nula mas a mesma é realmente verdadeira. Contudo, outro erro pode ocorrer não rejeitar a hipótese nula e ela ser realmente falsa. Designa-se este erro por erro tipo II e a sua probabilidade de ocorrência é normalmente representada por β. Na prática, em vez de nos centrarmos no valor de β, é mais usual pensar na probabilidade da rejeição da hipótese nula sendo ela realmente falsa, ou seja, em (1 - β). Esta quantidade designa-se por potência do teste, sendo desejável que seja o mais alta possível (apontando-se o valor de 80% como potência mínima desejável).

Ao realizar um teste de hipóteses, qualquer que seja a decisão que tomemos acerca da rejeição ou não da hipótese nula, e dado que nunca conhecemos a sua veracidade a não ser que possamos medir toda a população (e nessa situação o teste estatístico é desnecessário), teremos sempre presente a probabilidade de cometer erros tipo I e tipo II. Estes erros estão dependentes da dimensão do efeito observado (effect size[1]), que por sua vez depende da dimensão da amostra e da sua variabilidade.
Na figura 1 podemos observar um exemplo da variação da potência do teste t-Student, bicaudal, em função da dimensão da amostra. O gráfico foi obtido tendo como fixos o effect size (d = 0,225) e o nível de significância (a = 0,05) e recorrendo ao software GPower. Podemos observar que para detectar o tamanho do efeito considerado com uma potência mínima dentro do que é considerado como razoável (80%), seria necessário ter uma amostra de dimensão n = 160.



Figura 1 – Variação da potência do teste t-Student para uma amostra (bilateral) de acordo com a variação da dimensão da amostra

O nível de significância (α) , a potência do teste (1-β), o tamanho do efeito e o tamanho da amostra estão interligados e, por isso, qualquer alteração num deles provoca alterações nos restantes. As relações existentes entre estes factores permitem então realizar dois tipos de cálculos diferentes: tamanho da amostra e potência de um estudo. O cálculo do tamanho da amostra realiza-se fixando o nível de significância (α), a potência do teste (1-β) e o tamanho do efeito (o qual é estimado recorrendo a estudos piloto, a publicações existentes ou a considerações sobre significância clínica). Já a potência do estudo é feita fixando o nível de significância (α), usando o tamanho da amostra que se usou e o tamanho do efeito que foi observado no estudo realizado. Como se pode depreender, o cálculo do tamanho da amostra é uma análise que é feita antes do estudo ser realizado e o cálculo da potência é feito depois do estudo ter sido concluído.

Na figura 2, obtida na aplicação GPower, podemos observar as variações (o aumento) da potência do teste Z (bicaudal) devido às variações (aumento) do effect size. Quanto maior o efeito, mais provável é obtermos diferenças estatisticamente significativas, e também mais provável é estas diferenças serem, de facto, verdadeiras.



Figura 2 – Variação da potência do teste Z (bicaudal) de acordo com a variação na dimensão do efito (effect size)

Não podemos contudo deixar de frisar que a ausência de diferenças estatisticamente significativas não significa que não existam diferenças clinicamente significativas, pelo todos estes aspectos devem ser ponderados.





Na próxima edição do Perguntas Frequentes em Bioestatística: “E quando as regras da estatística não se parecem aplicar?”


[1] O effect size é uma quantidade que exprime as diferenças que esperamos encontrar entre dois grupos. Por exemplo, se o grupo A tiver média 10 e desvio padrão 2 e o grupo B tiver média 5 e desvio padrão também 2, o effect size será (10-5)/2=2.5. Quanto maior o effect size, maiores serão as diferenças entre os grupos (tendo em conta a variância em cada grupo).

sexta-feira, 13 de maio de 2016

Cursos LBIM 2016



Para inscrições ou mais informações, poderá consultar o site.

quarta-feira, 11 de maio de 2016

A ciência, vista por John Oliver

Uma das maiores preocupações do Laboratório de Bioestatística e Informática Médica é a qualidade da investigação nas Ciências da Saúde. Cada vez mais, no ensino e na prática diária, colocamos maior ênfase em metodologias (e no método científico) que em fórmulas. Os cursos LBIM 2016 são prova disso mesmo: os dois primeiros cursos foram dedicados ao desenho de estudo e a como pensar problemas do ponto de vista estatístico. Tudo o mais, é instrumental. Em Setembro, oferecemos um curso de uma tarde dedicado à Investigação Replicável. Queremos discutir o que está mal na Ciência e como evitar os erros mais comuns. Naturalmente, a preocupação não é só nossa. Vale a pena ver o vídeo:


Final da época desportiva vista do ponto de vista estatístico

Agora que a época desportiva futebolística se aproxima do final, acende-se a discussão de qual foi a melhor equipa este ano: Benfica ou Sporting. Opiniões subjectivas há para todos os gostos, quem preferir dados mais objectivos pode consultar este site.


segunda-feira, 4 de abril de 2016

LBIM no Porto

Tivemos a felicidade de ser convidados para dar uma aula de Estatística na Escola Superior de Tecnologia da Saúde do Instituto Politécnico do Porto, sendo esta dividida em três partes:

- Importância de uma boa definição da questão de investigação;
- Técnicas estatísticas: quais existem e como escolher entre elas;
- Roteiro para o desenho de um estudo clínico;
 
 Foram 4 horas intensas, com muita participação por parte da audiência e com direito até a bolo de aniversário (pão de ló com recheio e cobertura de chocolate). Seguem as fotos.




Correlações

"Correlation does not imply causation" é das frases de inspiração estatística mais repetidas. E, de facto, não faltam exemplos (alguns até bastante cómicos) de correlações espúrias. Ainda assim, a análise da correlação entre variáveis é uma ferramenta muito importante em Ciência. E agora, para os mais nerds, é também um jogo. Quem quiser adivinhar o grau de correlação entre duas variáveis quantitativas, poderá fazê-lo aqui.

segunda-feira, 28 de março de 2016

Perguntas frequentes em bioestatística #13. O que é uma boa questão de investigação?



A seguinte mensagem é a décima terceira comunicação da série Perguntas Frequentes em Bioestatística, da autoria de membros do Laboratório de Bioestatística e Informática Médica da Faculdade de Medicina da Universidade de Coimbra. Pretende-se fomentar uma discussão sobre as melhores práticas estatísticas na área da saúde.



Miguel Patrício e Francisco Caramelo



Um estudo clínico é norteado pela questão de investigação a que se procura responder. Distinguem-se assim duas fases:

  • Na fase de desenho de estudo, a questão de investigação é formulada e define-se o protocolo que se seguirá para recolher e analisar os dados que lhe poderão responder;
  • No fase do estudo clínico, aplica-se o protocolo: efectuam-se as medições planeadas, analizam-se os dados, discutem-se e apresentam-se os resultados.

O desenho do estudo é a etapa crucial de planeamento que antecede um estudo clínico. Deverão definir-se todos os aspectos do protocolo, como o tipo de estudo, critérios de inclusão e exclusão, método de amostragem, tamanho da amostra, medidas a efectuar, estrutura da base de dados ou plano de análise estatística previsto. O protocolo deverá ser plasmado num documento de uma forma rigorosa, rígida e completamente objectiva: todos os passos de obtenção e armazenamento de dados definidos deverão ser seguidos aquando da realização do estudo clínico, sem qualquer desvio[1].

A fase de desenho de estudo pode ser, em simultâneo, entusiasmante e angustiante. De facto, há a liberdade de se definir o que se pretende vir a investigar. Porém, com esta vem a dificuldade de encontrar uma boa questão de investigação, que garanta sucesso. Não é fácil fazê-lo e a margem de erro é muito pequena: a escolha de uma má questão de investigação irá ter repercussões ao longo do estudo, ao nível dos resultados obtidos e até na forma como os mesmos serão recebidos pela comunidade científica. 

Uma vez encontrada uma questão de investigação, há alguns critérios para avaliar a qualidade da mesma, que deverá ser[2]:

  • Feasible (exequível) - de nada valerá formular uma questão de investigação se não for possível obter, com os recursos disponíveis, uma resposta esclarecedora;
  • Interesting (interessante) - a questão de investigação deve ser motivante, para quem vai desenhar e implementar o estudo. Se não o for, o nível de esforço a que a investigação científica obriga dificilmente será comportável e recompensante;
  • Novel (nova) - o estudo deverá acrescentar algo ao que já é sabido na ciência[3];
  • Ethical (ética) - apenas será aceitável seguir com o estudo se este não transgredir princípios éticos;
  • Relevant (relevante) - mesmo que se faça um estudo perfeito, se os resultados não tiverem qualquer interesse e pertinência, perde-se tempo e dinheiro.
Encontrar uma questão de investigação que reúna todas as condições para se ter sucesso não é fácil e exige muito trabalho. Há, porém, fontes de boas questões. A primeira destas é a literatura: nos artigos já publicados os autores apresentam o estado actual da investigação no seu campo e é muito frequente indicarem questões que estão por resolver. Qualquer candidata a questão de investigação deverá ser analisada tendo por base o que a literatura reporta. Também é frequente que surjam boas questões de investigação a quem já trabalha numa determinada área. A experiência, intuição (e conhecimento do que já foi feito e do que falta fazer) destes investigadores poderá ser aproveitada. Assim, qualquer candidata a questão de investigação deverá passar por um processo de depuração, em que a mesma é discutida com outros investigadores e avaliada face à literatura, ver Figura 1. Seguidamente, terá de definir-se uma estratégia (noutras palavras, um rascunho de um protocolo) para responder à questão, fazendo uma previsão dos dados que é necessário obter, das medidas que se poderão efectuar, dos custos envolvidos e todos os demais aspectos necessários para a concretização de um estudo que permita obter a resposta pretendida.



Figura 1. Processo de escolha de uma boa questão de investigação.

A questão de investigação deverá ser avaliada em função do seu interesse, novidade e relevância. A estratégia poderá ser avaliada em função da sua exequibilidade e considerando princípios éticos e do método científico[4]. Uma vez tendo-se uma boa questão e uma boa estratégia, urge responder a uma pergunta crucial: a análise dos dados prevista pela estratégia permitirá responder à questão de forma cabal? Se sim, poderá definir-se o protocolo de estudo de forma precisa, reavaliar se ainda se considera estar perante uma boa questão de investigação e uma boa estratégia e em caso positivo avançar-se para o estudo.

Na maioria dos casos, a escolha de uma questão de investigação é um processo iterativo longo. Muitas vezes não se sabe se se está perante uma boa questão antes de a explorar: formulando-a, lendo-a à luz da literatura, discutindo-a com outras pessoas, avaliando possíveis métodos de encontrar uma resposta à mesma. Todo este processo pode ser longo e até frustrante e cansativo. Porém a escolha de uma boa questão de investigação e o planeamento do protocolo são cruciais para o sucesso de qualquer estudo. É importante, em todos os momentos, saber manter o foco: a quantidade de questões interessantes no mundo é inumerável, contudo num estudo particular apenas quereremos considerar uma. Haverá outras certamente interessantes, mas apenas se pode responder de forma conclusiva a uma questão de cada vez.

Note-se que a insistência na necessidade de se definir apenas uma questão de investigação não implica que não se possa responder a outras questões num mesmo estudo. Pode, mas serão secundárias e deverão ser consideradas como tal. Mais ainda, as questões secundárias deverão ter uma relação com a questão principal, não podendo ser desligadas da mesma. Este é um princípio de economia de recursos e de foco sobre o que interessa.

FAQ:
1- Em que consiste um plano de análise estatística das variáveis?
Para além de se definir claramente a questão de investigação, deverá definir-se também a medida principal e o teste estatístico que mais directamente responderá à questão de investigação. Este último teste fará parte do plano de análise estatística das variáveis. Neste constarão todas as técnicas de obtenção de resultados a partir dos dados.

2- Não é impossível, na fase do plano de estudos, ainda não se conhecendo qualquer resultado, definir um plano de análise estatística dos resultados?
Não. Se for impossível é porque a questão de investigação e toda a sua envolvente não estão bem definidas - aliás, em estudos que careçam de um cálculo do tamanho da amostra é essencial definir a técnica estatística a aplicar que mais directamente consegue, a partir dos dados recolhidos, responder à questão de investigação. No entanto, também é verdade que na fase da análise estatística dos dados pode haver necessidade de efectuar alguma análise que não foi prevista a priori. Mas tal deverá apenas acontecer se surgir a necessidade de explicar ou descrever alguma relação surpreendente ou interessante que surja nos resultados e que se relacione directamente com os objectivos do trabalho.

3- Não se deve aproveitar o ensejo do estudo para recolher tanta informação quanto possível, de forma a responder a questões futuras que não tenham sido tidas em conta?
Não. Para a realização de um estudo, tudo o que seja a mais tem custos de recursos humanos, recursos materiais e tempo. A chance desses dados espúrios virem a ser analisados é diminuta, o que aliado ao facto de haver uma altíssima probabilidade de não haver potência suficiente para responder a questões provenientes dessa informação torna muito dispendioso e, acima de tudo, completamente inconsequente, recolher dados não relacionados com a questão principal.
Deverá considerar-se, porém, uma excepção: é lícito recolher dados de carácter exploratório, úteis para definir estudos futuros. Estes não serão considerados, porém, como dados do estudo em questão.

4- No meu estudo eu consigo detectar duas questões principais, é possível?
Assim sendo significa que tem dois estudos e não um. Para cada um desses estudos deve definir a medida principal e os testes estatísticos apropriados; com base nesta informação calcular o tamanho de cada uma das duas amostras suficientes para responder de forma cabal a cada uma das questões em cada estudo.


Na próxima edição do Perguntas Frequentes em Bioestatística: “Com a estatística também se erra?”

 


[1] Poderá considerar-se como excepção os estudos clínicos exploratórios, em que não é ainda claro o protocolo a seguir e se admite que o mesmo poderá ir sendo alterado à medida que se obtêm resultados preliminares. Poderá também ter-se um desenho de estudo adaptativo, onde são considerados os diferentes cenários e limites, ver Lorch U, O’Kane M, Taubel J. Three steps to writing adaptive study protocols in the early phase clinical development of new medicines. BMC Medical Research Methodology. 2014.
[2] De acordo com os critérios FINER, sugeridos em Hulley S, Cummings S, Browner W, et al. Designing clinical research. 3rd ed. Philadelphia (PA): Lippincott Williams and Wilkins; 2007.
[3] A replicação de estudos é importante. Mas também esta oferece novidade, a menos que seja a replicação de estudos já absolutamente consensuais e metodologicamente correctos.
[4] Deverá, por exemplo, avaliar-se se a estratégia de resposta à questão é replicável ou se permite obter resultados robustos. Os resultados terão de ser credíveis e, por isso, reprodutíveis por outros investigadores.