segunda-feira, 7 de dezembro de 2015

Perguntas frequentes em bioestatística #10. Como determinar o tamanho da amostra?



Miguel Patrício e Francisco Caramelo



Um dos aspectos importantes no desenho de um estudo estatístico (de carácter não meramente exploratório) é a determinação do tamanho da amostra, habitualmente denotado por n. Este número deverá ser tal que seja possível, a partir dos dados recolhidos no estudo, responder de forma cabal à questão de investigação. A escolha de uma amostra demasiado grande, em contextos clínicos, é geralmente pouco ética e demasiado onerosa em tempo e dinheiro. Por outro lado, uma amostra demasiado pequena também implica desperdício de recursos, pois o estudo não responderá de forma convincente à questão de investigação colocada. Corre-se nesse caso o risco, tratando-se de um estudo reportado num artigo, do mesmo ser rejeitado por não ter potência estatística suficiente; tratando-se de uma proposta de projecto submetida a financiamento, poderá ser rejeitada pela mesma razão. 

Antes de discutir como pode ser efectuado o cálculo do tamanho da amostra para um estudo, é importante estabelecer uma distinção entre significância estatística e significância clínica. Tomemos para tanto o exemplo da comparação entre a diminuição do inchaço entre sujeitos que utilizaram uma pomada A e outros que usaram uma pomada B. As médias de uma medida da diminuição do inchaço podem ser comparadas directamente entre os dois grupos sujeitos a tratamentos (A e B). Contudo, esta informação circunscreve-se à amostra e as conclusões apenas são válidas para aquele conjunto de pessoas. O fabricante da pomada com pior desempenho poderia sempre contrapor que o resultado observado se deve ao acaso e que apenas se verifica naquela amostra. Para contrariar este argumento legítimo recorre-se a um teste estatístico, que consegue avaliar qual é a probabilidade das diferenças observadas entre tratamentos serem reais e não se deverem apenas a mero acaso. O valor-p resultante do teste é, neste contexto, uma medida dessa probabilidade, tendo-se significância estatística (i.e., rejeitando-se a hipótese do acaso) quando o valor-p é menor do que um limiar pré-estabelecido (p<α), tipicamente 5% (α=0.05). O valor-p nada exprime sobre as magnitudes das diferenças: se o tratamento A for apenas marginalmente superior ao B, a atribuição de uma chancela estatística à diferença não obvia a pouca relevância do achado.  Diria o fabricante de B que a diferença para a outra pomada é tão pequena que ninguém seria capaz de notar. Por outras palavras, pode-se ter um resultado estatisticamente significativo mas este não ser clinicamente significativo – neste caso, a conclusão é que as diferenças encontradas entre os tratamentos não são apenas válidas para a amostra mas para toda a população, sendo porém irrelevantes. O contrário também pode suceder: encontrarem-se entre grupos da amostra diferenças médias clinicamente muito significativas mas estas não serem generalizáveis por ser válido o argumento do mero acaso da amostra, que é o mesmo que dizer não haver significância estatística. Citando a este propósito um estatístico americano, Gene Glass: “Statistical significance is the least interesting thing about the results. You should describe the results in terms of measures of magnitude –not just, does a treatment affect people, but how much does it affect them”, [1].

Tendo este prelúdio em conta, há ainda várias questões que têm de ser respondidas para se poder determinar o tamanho de uma amostra:

  • Qual é o teste estatístico que mais directamente responde à questão do estudo?
  • Qual é o nível de significância desejado?
  • Qual é a potência exigida para o teste?
  • Qual é o menor efeito que se deseja conseguir detectar?

Relativamente à escolha do teste estatístico, recorde-se que o ponto de partida no desenho de um estudo estatístico é a definição da questão de investigação e a escolha de uma medida como sendo a principal. Tendo estes pontos bem claros será fácil, na maioria dos casos, indicar-se qual é o teste estatístico que mais directamente responde à questão de investigação. Quando esta escolha do teste é difícil, parecendo haver vários com igual importância, será aconselhável fazer-se uma opção por um único teste, tendo por guia a questão de investigação.

O nível de significância, usualmente denotado por α, define quão disponível se está para cometer erros do tipo I, i.e., acidentalmente rejeitar a hipótese nula quando esta é verdadeira. Note-se que num processo de inferência estatística (em que dos dados amostrais se retiram conclusões relativas à população), é impossível assegurar que não se cometem erros. Aquilo que se pode fazer é escolher qual a força que tem de ter o nível da evidência (observada na amostra) para se aceitar uma inferência. No exemplo da comparação entre os dois tratamentos, cometer um erro do tipo I seria concluir que  haveria diferenças entre as eficácias das pomadas A e B quando na verdade não existem. O valor de α é usado como limiar (limite máximo) para o valor-p, que exprime a força da evidência estatística: quando menor o valor-p, mais forte esta é. Na interpretação dos resultados de um teste estatístico, tendo-se p<α rejeita-se a hipótese nula. Tipicamente, α=0.05, embora haja situações em que se poderá escolher outros valores para α. 

Tomando novamente como exemplo a comparação da eficácia entre dois tratamentos (duas pomadas), há sempre a possibilidade de cometermos o erro de não concluir que há diferenças quando de facto as há. Este erro é expresso numericamente por b e denominado por erro tipo II. Já a potência, 1-b, de um teste mede a sua capacidade de rejeitar a hipótese nula quando esta não é de facto verdadeira. O que se pretende de um teste é que tenha uma potência o mais elevada possível, sendo o limiar mínimo aceitável para a potência usualmente definido como 80%. A potência de um teste cresce com o tamanho da amostra, o que é natural: amostras grandes mais facilmente demonstrarão a existência de diferenças (quando de facto existem). 

Finalmente, o tamanho do efeito (em inglês, effect size) mede a magnitude de um fenómeno e existem várias fórmulas para o calcular. É equivalente afirmar que existe uma diferença grande entre tratamentos ou que o effect size é grande. O cálculo do tamanho do efeito é tipicamente baseado em dados preliminares, estudos anteriores publicados na literatura ou educated guesses (suposições abalizadas). Por exemplo, ao realizar um teste de comparação de médias entre duas amostras independentes, o effect size depende não apenas da média mas também do desvio-padrão de cada grupo. Na prática, mesmo que os grupos difiram muito em média, sendo os respectivos desvios-padrão muito elevados, o efeito será pequeno. Já diferindo pouco em média mas havendo muito pouca variabilidade dentro de cada grupo, o efeito será grande. Exemplificando, se se espera que fazer dieta irá permitir ao grupo de pessoas A (sem exercício físico) diminuir a massa gorda num ano em 15% (±DP=2%) e ao grupo B (com exercício físico) uma diminuição da massa gorda em 20% (±DP=2%), o tamanho do efeito pode neste caso fazendo aproximações razoáveis ser determinado pelo quociente entre a diferença das médias e o desvio padrão comum a ambos os grupos: (20-15)/2=2.5. O resultado obtido tem no caso apresentado o significado de número de desvios padrão, ou seja, o tamanho do efeito é de 2.5 desvios padrão. Há diferentes fórmulas para calcular o effect size, dependendo da situação em concreto. Em todo o caso, ao fazer-se um cálculo do tamanho da amostra, terá de se indicar qual o menor tamanho do efeito que ainda corresponde a uma diferença clinicamente significativa.

O cálculo do tamanho amostral será efectuado de forma a que se consiga que o teste estatístico que mais directamente responde à questão de investigação consiga, com a potência definida, ser capaz de detectar o tamanho de efeito determinado, ao nível de significância escolhido. Sobra então a questão de como efectuar o cálculo do tamanho do efeito e do tamanho amostral. Existem vários programas que permitem fazer este cálculo, como o Gpower [2-4], o PS [5] ou o NCSS [6], entre outros [7]. Os dois primeiros são gratuitos, o último oferece um período de teste (free trial). 

Ao apresentar os resultados do cálculo do tamanho amostral, além de se apresentar o tamanho amostral resultante também devem ser indicadas as escolhas efectuadas que levaram ao número apurado. Em particular, deverá explicitar-se quais são o teste estatístico considerado, o nível de significância, a potência e o effect size, justificando a escolha deste último. Deverá ainda indicar-se a fórmula de cálculo ou o software utilizado.

Finalmente, note-se que o raciocínio exposto acima aplica-se ao cálculo a priori do tamanho da amostra. Uma vez um estudo realizado, é possível efectuar o cálculo da potência que se obteve (post hoc). É usual considerar-se que estudos com potência inferior a 80% não têm potência estatística suficiente (em inglês, um estudo assim é dito underpowered), correndo o risco de não serem bem aceites.

  FAQ:

1- Nalgumas situações, a escolha do teste estatístico depende da normalidade dos dados quantitativos, que não é conhecida a priori. Devem ser considerados testes paramétricos ou não paramétricos?



Na maioria dos casos é possível assumir que os valores que a variável quantitativa toma são normalmente distribuídos na população em estudo (ou, querendo comparar-se entre grupos, em cada grupo da população). Quando há razões para acreditar que esta hipótese não é razoável, pode-se calcular o tamanho da amostra para um teste não paramétrico.

2- Que acontece quando não é possível conseguir-se ter um tamanho de amostra como o calculado?



Há diversos factores, como custo, tempo ou mesmo disponibilidade de sujeitos, que podem condicionar o número de elementos que na prática uma amostra poderá ter. Porém, estes factores não são considerados no cálculo do tamanho que a amostra precisa de ter. Se não é possível atingir este número, há duas possibilidades para além da implementação de um estudo multicêntrico. A primeira passa por tentar diminuir a variabilidade dentro de cada grupo, eventualmente escolhendo grupos mais homogéneos ou escolhendo uma medida mais adequada. Estas escolhas irão repercurtir-se no tamanho amostral, que deverá ser recalculado considerando as mesmas. Se nem assim for possível, na prática, ter uma amostra do tamanho calculado, é aconselhável não prosseguir com o estudo. Não há interesse em realizar um estudo inconclusivo, que não permite responder à questão de investigação. De facto, deve-se evitar entrar num círculo vicioso em que se justifica a não obtenção de significância estatística com o tamanho amostral, ver Figura 1.
 


Figura 1. Círculo vicioso em que se fica satisfeito com a obtenção de significância estatística e se justifica a não obtenção da mesma com o tamanho da amostra, sugerindo a repetição do estudo. Este procedimento leva a que haja um enviezamento na literatura, pois mais facilmente se publicam resultados falsos positivos.

3- Os possíveis desistentes num estudo devem ser incluídos no cálculo do tamanho da amostra?



Sim. Os desistentes (dropouts) devem ser tidos em consideração. Se existe informação que num dado centro é usual ter uma percentagem de 5% de participantes no estudo que acabam por o abandonar, o tamanho da amostra deve estar “inflacionado” desta taxa por forma a manter a garantia de potência que se pretende atingir.

4- Como fazer se não for possível escolher um único teste que se dirá que responde mais directamente à questão de investigação?



Nem sempre esta escolha é fácil. Há quem defenda que deverá ainda assim ser feita uma escolha por um único teste, assumindo-se as consequências da escolha nos objectivos do estudo. Uma alternativa a que alguns investigadores recorrem é considerar os vários testes que mais directamente respondem à questão de investigação e fazer o cálculo da amostra para cada um. Disto resultarão várias estimativas para o tamanho amostral, entre as quais será necessário escolher. Não há uma regra categórica para esta escolha. Uma possibilidade será escolher o menor tamanho amostral calculado para que haja significância estatística em pelo menos um dos testes. Outra será escolher o maior dos tamanhos amostrais calculados, para se ter potência estatística para qualquer um dos testes. Nalguns casos, opta-se por um compromisso entre estes dois cenários. Como exemplo, consideremos uma situação em que se pretende estudar a eficácia de três tratamentos para uma mesma doença, não sendo possível eleger um dos tratamentos como preferencial devido a outros factores. Poderá ser defensável fazer o cálculo do tamanho da amostra tendo em conta três testes, um por tratamento. Para cada um dos testes, será calculado o tamanho mínimo da amostra que permitirá detectar-se com significância estatística se há um efeito clinicamente significativo. Destes três números que se obtêm, fará então sentido tomar-se como tamanho da amostra o maior entre eles.
 


[1] G. Sullivan, R. Feinn, UsingEffect Size—or Why the P Value Is Not Enough. Journal of Graduate Medical Education, 4 (3) 279-282, 2012
[7] E. McCrum-Gardner, Sample size and power calculations madesimple. International Journal of Therapy and Rehabilitation, 17:10-14, 2010


Na próxima edição do Perguntas Frequentes em Bioestatística: “Como apresentar dados obtidos num estudo clínico?”


Sem comentários:

Publicar um comentário