Blog do LBIM: Notícias, informações e comunicações do Laboratório de Bioestatística e Informática Médica da Faculdade de Medicina da Universidade de Coimbra.
quarta-feira, 23 de dezembro de 2015
sexta-feira, 18 de dezembro de 2015
Cursos LBIM 2016
No próximo ano o Laboratório de Bioestatística e Informática Médica oferece os cursos LBIM2016:
São no total 13 cursos, dos quais 5 são gratuitos. As inscrições poderão ser realizadas preenchendo uma ficha de inscrição disponível aqui. Para mais informações, poderá consultar os seguintes documentos:
- Desenho de estudos de investigação clínica (22 de Janeiro)
- Pensamento estatístico aplicado (19 de Fevereiro)
- Revisões sistemáticas e meta-análises (26 de Fevereiro)
- Estatística com SPSS (1ª edição: 4 e 11 de Março; 2ª edição: 1 e 8 de Julho)
- Simulação em estatística (18 de Março)
- Regressão logística e análise ROC (22 de Abril)
- Modelos de regressão (20 de Maio)
- Análise de risco e análise de sobrevivência (17 de Junho)
- ANOVA e GLM (15 de Julho)
- Investigação replicável (22 de Setembro)
- Análise factorial e análise de clusters (21 de Outubro)
- O problema das comparações múltiplas (25 de Novembro)
- Classificação estatística (16 de Dezembro)
segunda-feira, 7 de dezembro de 2015
Perguntas frequentes em bioestatística #10. Como determinar o tamanho da amostra?
Miguel Patrício e Francisco Caramelo
Um dos aspectos importantes no desenho de um estudo estatístico (de
carácter não meramente exploratório) é a determinação do tamanho da amostra,
habitualmente denotado por n. Este número deverá ser tal que seja possível, a
partir dos dados recolhidos no estudo, responder de forma cabal à questão de
investigação. A escolha de uma amostra demasiado grande, em contextos clínicos,
é geralmente pouco ética e demasiado onerosa em tempo e dinheiro. Por outro
lado, uma amostra demasiado pequena também implica desperdício de recursos,
pois o estudo não responderá de forma convincente à questão de investigação
colocada. Corre-se nesse caso o risco, tratando-se de um estudo reportado num
artigo, do mesmo ser rejeitado por não ter potência estatística suficiente;
tratando-se de uma proposta de projecto submetida a financiamento, poderá ser
rejeitada pela mesma razão.
Antes de discutir como pode ser efectuado o cálculo do tamanho da amostra
para um estudo, é importante estabelecer uma distinção entre significância
estatística e significância clínica. Tomemos para tanto o exemplo da comparação
entre a diminuição do inchaço entre sujeitos que utilizaram uma pomada A e
outros que usaram uma pomada B. As médias de uma medida da diminuição do
inchaço podem ser comparadas directamente entre os dois grupos sujeitos a
tratamentos (A e B). Contudo, esta informação circunscreve-se à amostra e as
conclusões apenas são válidas para aquele conjunto de pessoas. O fabricante da
pomada com pior desempenho poderia sempre contrapor que o resultado observado
se deve ao acaso e que apenas se verifica naquela amostra. Para contrariar este
argumento legítimo recorre-se a um teste estatístico, que consegue avaliar qual
é a probabilidade das diferenças observadas entre tratamentos serem reais e não
se deverem apenas a mero acaso. O valor-p resultante do teste é, neste
contexto, uma medida dessa probabilidade, tendo-se significância estatística (i.e.,
rejeitando-se a hipótese do acaso) quando o valor-p é menor do que um limiar
pré-estabelecido (p<α), tipicamente 5% (α=0.05). O valor-p nada exprime
sobre as magnitudes das diferenças: se o tratamento A for apenas marginalmente
superior ao B, a atribuição de uma chancela estatística à diferença não obvia a
pouca relevância do achado. Diria o
fabricante de B que a diferença para a outra pomada é tão pequena que ninguém
seria capaz de notar. Por outras palavras, pode-se ter um resultado
estatisticamente significativo mas este não ser clinicamente significativo –
neste caso, a conclusão é que as diferenças encontradas entre os tratamentos
não são apenas válidas para a amostra mas para toda a população, sendo porém
irrelevantes. O contrário também pode suceder: encontrarem-se entre grupos da
amostra diferenças médias clinicamente muito significativas mas estas não serem
generalizáveis por ser válido o argumento do mero acaso da amostra, que é o
mesmo que dizer não haver significância estatística. Citando a este
propósito um estatístico americano, Gene Glass: “Statistical significance is
the least interesting thing about the results. You should describe the results
in terms of measures of magnitude –not just, does a treatment affect people, but
how much does it affect them”, [1].
Tendo este prelúdio em conta, há ainda várias questões que têm de ser
respondidas para se poder determinar o tamanho de uma amostra:
- Qual é o teste estatístico que mais directamente responde à questão do estudo?
- Qual é o nível de significância desejado?
- Qual é a potência exigida para o teste?
- Qual é o menor efeito que se deseja conseguir detectar?
Relativamente à escolha do teste estatístico, recorde-se que o ponto de
partida no desenho de um estudo estatístico é a definição da questão de investigação
e a escolha de uma medida como sendo a principal. Tendo estes pontos bem claros
será fácil, na maioria dos casos, indicar-se qual é o teste estatístico que
mais directamente responde à questão de investigação. Quando esta escolha do
teste é difícil, parecendo haver vários com igual importância, será
aconselhável fazer-se uma opção por um único teste, tendo por guia a questão de
investigação.
O nível de significância, usualmente denotado por α, define quão disponível
se está para cometer erros do tipo I, i.e., acidentalmente rejeitar a hipótese
nula quando esta é verdadeira. Note-se que num processo de inferência
estatística (em que dos dados amostrais se retiram conclusões relativas à
população), é impossível assegurar que não se cometem erros. Aquilo que se pode
fazer é escolher qual a força que tem de ter o nível da evidência (observada na
amostra) para se aceitar uma inferência. No exemplo da comparação entre os dois
tratamentos, cometer um erro do tipo I seria concluir que haveria diferenças entre as eficácias das
pomadas A e B quando na verdade não existem. O valor de α é usado como limiar
(limite máximo) para o valor-p, que exprime a força da evidência estatística:
quando menor o valor-p, mais forte esta é. Na interpretação dos resultados de
um teste estatístico, tendo-se p<α rejeita-se a hipótese
nula. Tipicamente, α=0.05, embora haja situações em que se poderá escolher
outros valores para α.
Tomando novamente como exemplo a comparação da eficácia entre dois
tratamentos (duas pomadas), há sempre a possibilidade de cometermos o erro de
não concluir que há diferenças quando de facto as há. Este erro é expresso
numericamente por b e denominado
por erro tipo II. Já a potência, 1-b, de um teste mede a sua capacidade de rejeitar a
hipótese nula quando esta não é de facto verdadeira. O que se pretende de um
teste é que tenha uma potência o mais elevada possível, sendo o limiar mínimo
aceitável para a potência usualmente definido como 80%. A potência de um teste
cresce com o tamanho da amostra, o que é natural: amostras grandes mais
facilmente demonstrarão a existência de diferenças (quando de facto existem).
Finalmente, o tamanho do efeito (em inglês, effect size) mede a
magnitude de um fenómeno e existem várias fórmulas para o calcular. É
equivalente afirmar que existe uma diferença grande entre tratamentos ou que o effect size é grande. O cálculo do
tamanho do efeito é tipicamente baseado em dados preliminares, estudos
anteriores publicados na literatura ou educated
guesses (suposições abalizadas). Por exemplo, ao realizar um teste de
comparação de médias entre duas amostras independentes, o effect size depende não apenas da média mas também do desvio-padrão
de cada grupo. Na prática, mesmo que os grupos difiram muito em média, sendo os
respectivos desvios-padrão muito elevados, o efeito será pequeno. Já diferindo
pouco em média mas havendo muito pouca variabilidade dentro de cada grupo, o
efeito será grande. Exemplificando, se se espera que fazer dieta irá permitir ao
grupo de pessoas A (sem exercício físico) diminuir a massa gorda num ano em 15%
(±DP=2%) e ao grupo B (com exercício físico) uma diminuição da massa gorda em
20% (±DP=2%), o tamanho do efeito pode neste caso fazendo aproximações razoáveis
ser determinado pelo quociente entre a diferença das médias e o desvio padrão
comum a ambos os grupos: (20-15)/2=2.5. O resultado obtido tem no caso
apresentado o significado de número de desvios padrão, ou seja, o tamanho do
efeito é de 2.5 desvios padrão. Há diferentes fórmulas para calcular o effect size, dependendo da situação em
concreto. Em todo o caso, ao fazer-se um cálculo do tamanho da amostra, terá de
se indicar qual o menor tamanho do efeito que ainda corresponde a uma diferença
clinicamente significativa.
O cálculo do tamanho amostral será efectuado de forma a que se consiga que
o teste estatístico que mais directamente responde à questão de investigação
consiga, com a potência definida, ser capaz de detectar o tamanho de efeito
determinado, ao nível de significância escolhido. Sobra então a questão de como
efectuar o cálculo do tamanho do efeito e do tamanho amostral. Existem vários
programas que permitem fazer este cálculo, como o Gpower [2-4], o PS [5] ou o
NCSS [6], entre outros [7]. Os dois primeiros são gratuitos, o último oferece
um período de teste (free trial).
Ao apresentar os resultados do cálculo do tamanho amostral, além de se apresentar
o tamanho amostral resultante também devem ser indicadas as escolhas efectuadas
que levaram ao número apurado. Em particular, deverá explicitar-se quais são o
teste estatístico considerado, o nível de significância, a potência e o effect size, justificando a escolha
deste último. Deverá ainda indicar-se a fórmula de cálculo ou o software utilizado.
Finalmente, note-se que o raciocínio exposto acima aplica-se ao cálculo a priori do tamanho da amostra. Uma vez
um estudo realizado, é possível efectuar o cálculo da potência que se obteve (post hoc). É usual considerar-se que
estudos com potência inferior a 80% não têm potência estatística suficiente (em
inglês, um estudo assim é dito underpowered),
correndo o risco de não serem bem aceites.
FAQ:
1- Nalgumas situações, a escolha do teste estatístico depende da normalidade dos dados quantitativos, que não é conhecida a priori. Devem ser considerados testes paramétricos ou não paramétricos?
Na maioria dos casos é possível assumir que os valores que a variável
quantitativa toma são normalmente distribuídos na população em estudo (ou,
querendo comparar-se entre grupos, em cada grupo da população). Quando há
razões para acreditar que esta hipótese não é razoável, pode-se calcular o
tamanho da amostra para um teste não paramétrico.
2- Que acontece quando não é possível conseguir-se ter um tamanho de amostra como o calculado?
Há diversos factores, como custo, tempo ou mesmo disponibilidade de
sujeitos, que podem condicionar o número de elementos que na prática uma
amostra poderá ter. Porém, estes factores não são considerados no cálculo do
tamanho que a amostra precisa de ter. Se não é possível atingir este número, há
duas possibilidades para além da implementação de um estudo multicêntrico. A
primeira passa por tentar diminuir a variabilidade dentro de cada grupo,
eventualmente escolhendo grupos mais homogéneos ou escolhendo uma medida mais
adequada. Estas escolhas irão repercurtir-se no tamanho amostral, que deverá
ser recalculado considerando as mesmas. Se nem assim for possível, na prática,
ter uma amostra do tamanho calculado, é aconselhável não prosseguir com o
estudo. Não há interesse em realizar um estudo inconclusivo, que não permite
responder à questão de investigação. De facto, deve-se evitar entrar num
círculo vicioso em que se justifica a não obtenção de significância estatística
com o tamanho amostral, ver Figura 1.
Figura 1. Círculo vicioso em que se fica satisfeito com a obtenção de
significância estatística e se justifica a não obtenção da mesma com o tamanho
da amostra, sugerindo a repetição do estudo. Este procedimento leva a que haja
um enviezamento na literatura, pois mais facilmente se publicam resultados
falsos positivos.
3- Os possíveis desistentes num estudo devem ser incluídos no cálculo do tamanho da amostra?
Sim. Os desistentes (dropouts)
devem ser tidos em consideração. Se existe informação que num dado centro é
usual ter uma percentagem de 5% de participantes no estudo que acabam por o
abandonar, o tamanho da amostra deve estar “inflacionado” desta taxa por forma
a manter a garantia de potência que se pretende atingir.
4- Como fazer se não for possível escolher um único teste que se dirá que responde mais directamente à questão de investigação?
Nem sempre esta escolha é fácil. Há quem defenda que deverá ainda assim ser
feita uma escolha por um único teste, assumindo-se as consequências da escolha
nos objectivos do estudo. Uma alternativa a que alguns investigadores recorrem
é considerar os vários testes que mais directamente respondem à questão de
investigação e fazer o cálculo da amostra para cada um. Disto resultarão várias
estimativas para o tamanho amostral, entre as quais será necessário escolher. Não
há uma regra categórica para esta escolha. Uma possibilidade será escolher o
menor tamanho amostral calculado para que haja significância estatística em
pelo menos um dos testes. Outra será escolher o maior dos tamanhos amostrais
calculados, para se ter potência estatística para qualquer um dos testes.
Nalguns casos, opta-se por um compromisso entre estes dois cenários. Como
exemplo, consideremos uma situação em que se pretende estudar a eficácia de três
tratamentos para uma mesma doença, não sendo possível eleger um dos tratamentos
como preferencial devido a outros factores. Poderá ser defensável fazer o
cálculo do tamanho da amostra tendo em conta três testes, um por tratamento.
Para cada um dos testes, será calculado o tamanho mínimo da amostra que
permitirá detectar-se com significância estatística se há um efeito
clinicamente significativo. Destes três números que se obtêm, fará então
sentido tomar-se como tamanho da amostra o maior entre eles.
[1] G. Sullivan, R. Feinn, UsingEffect Size—or Why the P Value Is Not Enough. Journal of Graduate Medical
Education, 4 (3) 279-282, 2012
[7] E. McCrum-Gardner, Sample size and power calculations madesimple. International Journal of Therapy and Rehabilitation, 17:10-14, 2010
Na próxima edição do Perguntas Frequentes em Bioestatística: “Como
apresentar dados obtidos num estudo clínico?”
Subscrever:
Mensagens (Atom)