A seguinte mensagem é a décima quarta comunicação da série Perguntas
Frequentes em Bioestatística, da autoria de membros do Laboratório de
Bioestatística e Informática Médica da Faculdade de Medicina da Universidade de
Coimbra. Pretende-se fomentar uma discussão sobre as melhores práticas
estatísticas na área da saúde.
Bárbara Oliveiros, Francisco Caramelo e Miguel
Patrício
Em análise estatística existem vários tipos de erros, tanto na fase de desenho
do estudo quanto na fase de aplicação do protocolo experimental. Os erros podem
ocorrer na colheita dos dados, no seu registo, na sua análise ou mesmo ao
relatar resultados e extrair conclusões. Por outro lado, também os próprios métodos
estatísticos assentam na medição da incerteza, com bases fortes na teoria de
probabilidades. Deste modo, em Estatística, não existem resultados exactos, mas
apenas resultados prováveis. Sendo-se mais preciso e adoptando a perspectiva
das teorias frequencistas que remontam ao início do século XX (tendo como “pai”
Sir Ronald Fisher e sendo estas as mais utilizadas actualmente), os resultados
em estatística são prováveis com um determinado grau de confiança, ou com um
erro inferior a um limite pré-estabelecido. Citando Samuel Langhorne Clemens,
mais conhecido por Mark Twain, “há mentiras, mentiras malditas e estatísticas”.
Isto não significa que todas as estatísticas sejam mentira, mas também não
significa que todas as estatísticas sejam 100% verdade. Existe sempre algum
erro associado a qualquer inferência estatística que se faça de uma amostra
para a população.
É útil distinguir duas fases numa análise estatística: “Estatística
Descritiva” e “Estatística Inferencial”. No que diz respeito à estatística
descritiva, esta pode ser realizada relativamente a uma amostra ou para toda a
população, pelo que não existe erro associado às medidas obtidas para além do
próprio erro inerente às medições e instrumentos de medida usados. A partir do
momento em que fazemos inferência acerca dos valores observados na amostra (procurando
extrair informação para a população), então temos ainda de somar aos erros das
medições e instrumentos de medida o erro associado à amostragem, uma vez que
estamos a tirar conclusões para um conjunto de sujeitos para os quais não efectuámos
medições directas.
O processo de inferência estatística divide-se geralmente ainda em “Teoria
da Estimação”, onde são vulgarmente utilizados intervalos de confiança para um
dado parâmetro, e “Teoria da Decisão” onde se aplica um ou mais testes
estatísticos. Terá de se ter em atenção que o conjunto de testes estatísticos a
aplicar deverá ser o indicado para responder à questão de investigação colocada
e também deverá estar de acordo com o nível de mensuração das variáveis e com o
papel das mesmas. A não observância destes cuidados leva certamente à
introdução de um factor de erro adicional na análise. Naturalmente, esta não é
a única premissa que preside à escolha dos testes: em cada estudo, o conjunto
de testes a aplicar deverá ter em conta o princípio segundo o qual se deve
recorrer à aplicação do teste mais potente para cada situação, como explicitado
de seguida.
Um teste estatístico tem por base duas hipóteses, denominadas por hipótese
nula (H0), que é considerada verdadeira até prova em contrário, e
hipótese alternativa (H1 ou HA). A sua aplicação visa
determinar se existe evidência suficiente para se abandonar a hipótese nula e
tomar como verdadeira a alternativa. A formulação da hipótese nula, que como o
nome indica representa uma “nulidade”, é baseada numa ausência de efeito que se
pode traduzir, por exemplo, na ausência de diferença ou na ausência de
associação. Obviamente que na população nunca podemos determinar se a hipótese
nula é realmente válida ou não, a não ser realizando um censo. No entanto, a partir dos dados amostrais podemos tentar avaliar
a plausibilidade da hipótese nula: partindo do pressuposto de que a mesma é
verdadeira, mede-se a probabilidade de se encontrar dados amostrais como os
observados ou mais afastados do que seria expectável. A esta probabilidade
dá-se o nome de valor-p, ou probabilidade de significância. Na prática, quando
se encontra um valor-p pequeno, rejeita-se a hipótese nula e toma-se como
verdadeira a hipótese alternativa. Naturalmente, nem sempre tal é correcto:
poderá por mero acaso encontrar-se uma amostra distante do que seria de
esperar, à qual corresponderá um valor-p pequeno, e ainda a hipótese nula ser
verdadeira. É improvável, mas possível. Quando tal acontece e se rejeita a
hipótese nula, comete-se um erro tipo I. O limite superior que estamos
dispostos a aceitar para este erro é normalmente representado por a e denomina-se nível de significância do teste
estatístico: tal leva a que se rejeita a hipótese nula quando p<α. O nível de significância (α) do teste deve ser definido a priori no desenho do estudo, de forma a não dar azo à escolha conveniente
de um nível de significância que permita rejeitar a hipótese nula após análise
dos dados - este procedimento, além de introduzir um viés no estudo, também
invalida o desenho do mesmo. Normalmente, é usado o valor α = 0,05. Assim, sempre que se obtenha um valor-p
inferior a 5% poderemos afirmar que existe evidência estatística suficiente
para rejeitar a hipótese nula. Dado que a hipótese nula indica ausência de
efeito, a rejeição da mesma significa em linguagem comum que o efeito observado
nos dados amostrais pode ser estendido para a população. Interessa enfatizar
que esta afirmação de inferência para a população tem evidentemente associado
um erro potencial igual ao valor-p obtido.
Como vimos, o valor de
adoptado num estudo limita a probabilidade
máxima de se cometer erros tipo I. Note-se que a escolha do nível de
significância (α) depende
do estudo em causa. Em determinados estudos, como por exemplo nos ensaios de
bioequivalência de fármacos para introdução de fármacos novos no mercado, é
importante considerar pequenos efeitos como estatisticamente significativos.
Desta forma, o nível de significância a considerar é maior que os habituais 5%:
usualmente é de 10%. Ao invés, quando se pretende reduzir a ocorrência de
falsos positivos face ao aumento de falsos negativos, ou seja, se pretendermos
tornar o teste estatístico mais específico à custa da perda na sensibilidade, então
é preferível usar α = 0,01. Contudo,
qualquer que seja o nível de significância a adoptar, este deve ser definido a priori e ser constante ao longo de
todo o estudo.
Os erros tipo I também podem ocorrer no cálculo de estimativas intervalares
para parâmetros. De facto, a estatística reproduz a incerteza nos resultados recorrendo
a intervalos de confiança. Como o nome indica, o intervalo de confiança é um
intervalo de valores dentro do qual se estima que o parâmetro em consideração
(e.g. média, proporção, variância) se encontre com uma confiança de (1-α)x100%
. Por exemplo, o
intervalo de confiança para a média a 95% (IC95%) indica o intervalo de valores dentro do qual se pressupõe estar
a média da população com uma probabilidade de 95%. Percebe-se, então, que a
apresentação do intervalo de confiança admite uma possibilidade de erro
(exprime incerteza) que no caso do IC95% seria de 5%.
Portanto, quando vemos publicitado que um determinado candidato tem entre
40 a 45% das intenções de voto, com 95% de confiança, sabemos que com base nas
intenções de voto obtidas por uma sondagem (amostra, supostamente aleatória e
representativa da população), o valor esperado para a proporção de votos de
toda a população estaria entre os 40 e os 45%, sendo o erro associado de 5%. Quando
um anúncio afirma “perca até 10 kg em 2 meses”, é razoável subentender-se que
se tivermos obtido 100 amostras diferentes de pessoas que experimentaram a
dieta em causa, em cerca de 95 amostras a redução média de peso em 2 meses tinha
sido um valor até 10 kg. Contudo, é importante notar que a redução anunciada de
10 kg é uma média pelo que nalguns casos a redução foi menor ou poderá até ter
havido aumento de peso. Ora, conhecer o limite inferior do intervalo de
confiança torna-se fundamental já que se este for negativo, significa que pode
haver lugar ao aumento do peso médio. Em termos de teste de hipóteses a
ausência de efeito da dieta (H0) traduz-se por uma redução nula. Se
o intervalo de confiança para a redução de peso fosse tal que o limite inferior
é negativo e o superior é positivo isto indicaria que a redução nula (valor
zero de redução) se encontra dentro do intervalo. Por conseguinte, teríamos de
admitir que nesse caso não existiria um efeito estatisticamente significativo
(logo, que não existiria evidência para rejeitar a hipótese nula).
Centrámo-nos até ao momento no erro tipo I que ocorre quando se rejeita a
hipótese nula mas a mesma é realmente verdadeira. Contudo, outro erro pode
ocorrer não rejeitar a hipótese nula e ela ser realmente falsa. Designa-se este
erro por erro tipo II e a sua probabilidade de ocorrência é normalmente representada
por β. Na prática, em vez de nos centrarmos no
valor de β,
é mais usual pensar na
probabilidade da rejeição da hipótese nula sendo ela realmente falsa, ou seja,
em (1 - β). Esta quantidade designa-se por potência
do teste, sendo desejável que seja o mais alta possível (apontando-se o valor
de 80% como potência mínima desejável).
Ao realizar um teste de hipóteses, qualquer que seja a decisão que tomemos acerca
da rejeição ou não da hipótese nula, e dado que nunca conhecemos a sua
veracidade a não ser que possamos medir toda a população (e nessa situação o
teste estatístico é desnecessário), teremos sempre presente a probabilidade de
cometer erros tipo I e tipo II. Estes erros estão dependentes da dimensão do
efeito observado (effect size[1]),
que por sua vez depende da dimensão da amostra e da sua variabilidade.
Na figura 1 podemos observar um exemplo da variação da potência do teste
t-Student, bicaudal, em função da dimensão da amostra. O gráfico foi obtido
tendo como fixos o effect size (d =
0,225) e o nível de significância (a = 0,05) e recorrendo ao software
GPower. Podemos observar que para detectar o tamanho do efeito considerado com uma
potência mínima dentro do que é considerado como razoável (80%), seria
necessário ter uma amostra de dimensão n = 160.
Figura 1 – Variação da potência do teste t-Student para uma amostra
(bilateral) de acordo com a variação da dimensão da amostra
O nível de significância (α)
, a potência do
teste (1-β), o tamanho do
efeito e o tamanho da amostra estão interligados e, por isso, qualquer alteração num deles provoca
alterações nos restantes. As relações existentes entre estes factores permitem
então realizar dois tipos de cálculos diferentes: tamanho da amostra e potência
de um estudo. O cálculo do tamanho da amostra realiza-se fixando o nível de
significância (α), a potência
do teste (1-β) e o tamanho do
efeito (o qual é estimado
recorrendo a estudos piloto, a publicações existentes ou a considerações sobre
significância clínica). Já a potência do estudo é feita fixando o nível de
significância (α), usando
o tamanho da amostra que se usou e o tamanho do efeito que foi observado no
estudo realizado. Como se pode depreender, o cálculo do tamanho da amostra é
uma análise que é feita antes do estudo ser realizado e o cálculo da potência é
feito depois do estudo ter sido concluído.
Na figura 2, obtida na aplicação GPower, podemos observar as variações (o
aumento) da potência do teste Z (bicaudal) devido às variações (aumento) do effect size. Quanto maior o efeito, mais
provável é obtermos diferenças estatisticamente significativas, e também mais
provável é estas diferenças serem, de facto, verdadeiras.
Figura 2 – Variação da potência do teste Z (bicaudal) de acordo com a
variação na dimensão do efito (effect
size)
Não podemos contudo deixar de frisar que a ausência de diferenças
estatisticamente significativas não significa que não existam diferenças
clinicamente significativas, pelo todos estes aspectos devem ser ponderados.
Na próxima edição do Perguntas Frequentes em Bioestatística: “E
quando as regras da estatística não se parecem aplicar?”
[1] O effect size é uma quantidade que
exprime as diferenças que esperamos encontrar entre dois grupos. Por exemplo,
se o grupo A tiver média 10 e desvio padrão 2 e o grupo B tiver média 5 e
desvio padrão também 2, o effect size será (10-5)/2=2.5. Quanto maior o effect
size, maiores serão as diferenças entre os grupos (tendo em conta a variância
em cada grupo).