quinta-feira, 19 de maio de 2016

Perguntas frequentes em bioestatística #14. Com a estatística também se erra?



A seguinte mensagem é a décima quarta comunicação da série Perguntas Frequentes em Bioestatística, da autoria de membros do Laboratório de Bioestatística e Informática Médica da Faculdade de Medicina da Universidade de Coimbra. Pretende-se fomentar uma discussão sobre as melhores práticas estatísticas na área da saúde.

Bárbara Oliveiros, Francisco Caramelo e Miguel Patrício

Em análise estatística existem vários tipos de erros, tanto na fase de desenho do estudo quanto na fase de aplicação do protocolo experimental. Os erros podem ocorrer na colheita dos dados, no seu registo, na sua análise ou mesmo ao relatar resultados e extrair conclusões. Por outro lado, também os próprios métodos estatísticos assentam na medição da incerteza, com bases fortes na teoria de probabilidades. Deste modo, em Estatística, não existem resultados exactos, mas apenas resultados prováveis. Sendo-se mais preciso e adoptando a perspectiva das teorias frequencistas que remontam ao início do século XX (tendo como “pai” Sir Ronald Fisher e sendo estas as mais utilizadas actualmente), os resultados em estatística são prováveis com um determinado grau de confiança, ou com um erro inferior a um limite pré-estabelecido. Citando Samuel Langhorne Clemens, mais conhecido por Mark Twain, “há mentiras, mentiras malditas e estatísticas”. Isto não significa que todas as estatísticas sejam mentira, mas também não significa que todas as estatísticas sejam 100% verdade. Existe sempre algum erro associado a qualquer inferência estatística que se faça de uma amostra para a população.

É útil distinguir duas fases numa análise estatística: “Estatística Descritiva” e “Estatística Inferencial”. No que diz respeito à estatística descritiva, esta pode ser realizada relativamente a uma amostra ou para toda a população, pelo que não existe erro associado às medidas obtidas para além do próprio erro inerente às medições e instrumentos de medida usados. A partir do momento em que fazemos inferência acerca dos valores observados na amostra (procurando extrair informação para a população), então temos ainda de somar aos erros das medições e instrumentos de medida o erro associado à amostragem, uma vez que estamos a tirar conclusões para um conjunto de sujeitos para os quais não efectuámos medições directas.

O processo de inferência estatística divide-se geralmente ainda em “Teoria da Estimação”, onde são vulgarmente utilizados intervalos de confiança para um dado parâmetro, e “Teoria da Decisão” onde se aplica um ou mais testes estatísticos. Terá de se ter em atenção que o conjunto de testes estatísticos a aplicar deverá ser o indicado para responder à questão de investigação colocada e também deverá estar de acordo com o nível de mensuração das variáveis e com o papel das mesmas. A não observância destes cuidados leva certamente à introdução de um factor de erro adicional na análise. Naturalmente, esta não é a única premissa que preside à escolha dos testes: em cada estudo, o conjunto de testes a aplicar deverá ter em conta o princípio segundo o qual se deve recorrer à aplicação do teste mais potente para cada situação, como explicitado de seguida.

Um teste estatístico tem por base duas hipóteses, denominadas por hipótese nula (H0), que é considerada verdadeira até prova em contrário, e hipótese alternativa (H1 ou HA). A sua aplicação visa determinar se existe evidência suficiente para se abandonar a hipótese nula e tomar como verdadeira a alternativa. A formulação da hipótese nula, que como o nome indica representa uma “nulidade”, é baseada numa ausência de efeito que se pode traduzir, por exemplo, na ausência de diferença ou na ausência de associação. Obviamente que na população nunca podemos determinar se a hipótese nula é realmente válida ou não, a não ser realizando um censo. No entanto, a partir dos dados amostrais podemos tentar avaliar a plausibilidade da hipótese nula: partindo do pressuposto de que a mesma é verdadeira, mede-se a probabilidade de se encontrar dados amostrais como os observados ou mais afastados do que seria expectável. A esta probabilidade dá-se o nome de valor-p, ou probabilidade de significância. Na prática, quando se encontra um valor-p pequeno, rejeita-se a hipótese nula e toma-se como verdadeira a hipótese alternativa. Naturalmente, nem sempre tal é correcto: poderá por mero acaso encontrar-se uma amostra distante do que seria de esperar, à qual corresponderá um valor-p pequeno, e ainda a hipótese nula ser verdadeira. É improvável, mas possível. Quando tal acontece e se rejeita a hipótese nula, comete-se um erro tipo I. O limite superior que estamos dispostos a aceitar para este erro é normalmente representado por a e denomina-se nível de significância do teste estatístico: tal leva a que se rejeita a hipótese nula quando p<α. O nível de significância (α) do teste deve ser definido a priori no desenho do estudo, de forma a não dar azo à escolha conveniente de um nível de significância que permita rejeitar a hipótese nula após análise dos dados - este procedimento, além de introduzir um viés no estudo, também invalida o desenho do mesmo. Normalmente, é usado o valor α = 0,05. Assim, sempre que se obtenha um valor-p inferior a 5% poderemos afirmar que existe evidência estatística suficiente para rejeitar a hipótese nula. Dado que a hipótese nula indica ausência de efeito, a rejeição da mesma significa em linguagem comum que o efeito observado nos dados amostrais pode ser estendido para a população. Interessa enfatizar que esta afirmação de inferência para a população tem evidentemente associado um erro potencial igual ao valor-p obtido.

Como vimos, o valor de  adoptado num estudo limita a probabilidade máxima de se cometer erros tipo I. Note-se que a escolha do nível de significância (α) depende do estudo em causa. Em determinados estudos, como por exemplo nos ensaios de bioequivalência de fármacos para introdução de fármacos novos no mercado, é importante considerar pequenos efeitos como estatisticamente significativos. Desta forma, o nível de significância a considerar é maior que os habituais 5%: usualmente é de 10%. Ao invés, quando se pretende reduzir a ocorrência de falsos positivos face ao aumento de falsos negativos, ou seja, se pretendermos tornar o teste estatístico mais específico à custa da perda na sensibilidade, então é preferível usar α = 0,01. Contudo, qualquer que seja o nível de significância a adoptar, este deve ser definido a priori e ser constante ao longo de todo o estudo.

Os erros tipo I também podem ocorrer no cálculo de estimativas intervalares para parâmetros. De facto, a estatística reproduz a incerteza nos resultados recorrendo a intervalos de confiança. Como o nome indica, o intervalo de confiança é um intervalo de valores dentro do qual se estima que o parâmetro em consideração (e.g. média, proporção, variância) se encontre com uma confiança de (1-α)x100% . Por exemplo, o intervalo de confiança para a média a 95% (IC95%) indica o intervalo de valores dentro do qual se pressupõe estar a média da população com uma probabilidade de 95%. Percebe-se, então, que a apresentação do intervalo de confiança admite uma possibilidade de erro (exprime incerteza) que no caso do IC95% seria de 5%.

Portanto, quando vemos publicitado que um determinado candidato tem entre 40 a 45% das intenções de voto, com 95% de confiança, sabemos que com base nas intenções de voto obtidas por uma sondagem (amostra, supostamente aleatória e representativa da população), o valor esperado para a proporção de votos de toda a população estaria entre os 40 e os 45%, sendo o erro associado de 5%. Quando um anúncio afirma “perca até 10 kg em 2 meses”, é razoável subentender-se que se tivermos obtido 100 amostras diferentes de pessoas que experimentaram a dieta em causa, em cerca de 95 amostras a redução média de peso em 2 meses tinha sido um valor até 10 kg. Contudo, é importante notar que a redução anunciada de 10 kg é uma média pelo que nalguns casos a redução foi menor ou poderá até ter havido aumento de peso. Ora, conhecer o limite inferior do intervalo de confiança torna-se fundamental já que se este for negativo, significa que pode haver lugar ao aumento do peso médio. Em termos de teste de hipóteses a ausência de efeito da dieta (H0) traduz-se por uma redução nula. Se o intervalo de confiança para a redução de peso fosse tal que o limite inferior é negativo e o superior é positivo isto indicaria que a redução nula (valor zero de redução) se encontra dentro do intervalo. Por conseguinte, teríamos de admitir que nesse caso não existiria um efeito estatisticamente significativo (logo, que não existiria evidência para rejeitar a hipótese nula).

Centrámo-nos até ao momento no erro tipo I que ocorre quando se rejeita a hipótese nula mas a mesma é realmente verdadeira. Contudo, outro erro pode ocorrer não rejeitar a hipótese nula e ela ser realmente falsa. Designa-se este erro por erro tipo II e a sua probabilidade de ocorrência é normalmente representada por β. Na prática, em vez de nos centrarmos no valor de β, é mais usual pensar na probabilidade da rejeição da hipótese nula sendo ela realmente falsa, ou seja, em (1 - β). Esta quantidade designa-se por potência do teste, sendo desejável que seja o mais alta possível (apontando-se o valor de 80% como potência mínima desejável).

Ao realizar um teste de hipóteses, qualquer que seja a decisão que tomemos acerca da rejeição ou não da hipótese nula, e dado que nunca conhecemos a sua veracidade a não ser que possamos medir toda a população (e nessa situação o teste estatístico é desnecessário), teremos sempre presente a probabilidade de cometer erros tipo I e tipo II. Estes erros estão dependentes da dimensão do efeito observado (effect size[1]), que por sua vez depende da dimensão da amostra e da sua variabilidade.
Na figura 1 podemos observar um exemplo da variação da potência do teste t-Student, bicaudal, em função da dimensão da amostra. O gráfico foi obtido tendo como fixos o effect size (d = 0,225) e o nível de significância (a = 0,05) e recorrendo ao software GPower. Podemos observar que para detectar o tamanho do efeito considerado com uma potência mínima dentro do que é considerado como razoável (80%), seria necessário ter uma amostra de dimensão n = 160.



Figura 1 – Variação da potência do teste t-Student para uma amostra (bilateral) de acordo com a variação da dimensão da amostra

O nível de significância (α) , a potência do teste (1-β), o tamanho do efeito e o tamanho da amostra estão interligados e, por isso, qualquer alteração num deles provoca alterações nos restantes. As relações existentes entre estes factores permitem então realizar dois tipos de cálculos diferentes: tamanho da amostra e potência de um estudo. O cálculo do tamanho da amostra realiza-se fixando o nível de significância (α), a potência do teste (1-β) e o tamanho do efeito (o qual é estimado recorrendo a estudos piloto, a publicações existentes ou a considerações sobre significância clínica). Já a potência do estudo é feita fixando o nível de significância (α), usando o tamanho da amostra que se usou e o tamanho do efeito que foi observado no estudo realizado. Como se pode depreender, o cálculo do tamanho da amostra é uma análise que é feita antes do estudo ser realizado e o cálculo da potência é feito depois do estudo ter sido concluído.

Na figura 2, obtida na aplicação GPower, podemos observar as variações (o aumento) da potência do teste Z (bicaudal) devido às variações (aumento) do effect size. Quanto maior o efeito, mais provável é obtermos diferenças estatisticamente significativas, e também mais provável é estas diferenças serem, de facto, verdadeiras.



Figura 2 – Variação da potência do teste Z (bicaudal) de acordo com a variação na dimensão do efito (effect size)

Não podemos contudo deixar de frisar que a ausência de diferenças estatisticamente significativas não significa que não existam diferenças clinicamente significativas, pelo todos estes aspectos devem ser ponderados.





Na próxima edição do Perguntas Frequentes em Bioestatística: “E quando as regras da estatística não se parecem aplicar?”


[1] O effect size é uma quantidade que exprime as diferenças que esperamos encontrar entre dois grupos. Por exemplo, se o grupo A tiver média 10 e desvio padrão 2 e o grupo B tiver média 5 e desvio padrão também 2, o effect size será (10-5)/2=2.5. Quanto maior o effect size, maiores serão as diferenças entre os grupos (tendo em conta a variância em cada grupo).

Sem comentários:

Enviar um comentário