Número mínimo de observações para aplicar um teste

Uma pergunta muito importante que deve ser feita antes de um experimento ser realizado é em relação a quantidade de observações aleatórias que devem ser realizadas. Ou seja: qual é o número mínimo de observações que devem ser obtidos para garantir que o resultado do teste seja correto?

Estimar a quantidade de observações aleatórias e independentes que devem ser obtidas esta relacionado as chances de se cometer um erro de Tipo II. Um erro de Tipo II ocorre quando falhamos em rejeitar a hipótese nula quando a hipótese nula não é verdadeira (aceitamos que $\mu = \mu_{0}$ quando na realidade temos que $\mu \neq \mu_{0}$: $H_{0}$ é FALSA). Ou seja, verdadeiramente temos $\mu = \mu_{0} + \delta$, onde $\delta$ é a diferença entre $\mu$ e $\mu_{0}$.

Este deslocamento traz um inconveniente: a equação para estimar o poder do teste se torna bastante complexa, e deve ser resolvida numericamente. Felizmente, tais cálculos já foram realizados, e existem cartas e tabelas com valores prontos para o poder do teste, como as fornecidas por (FERRIS; GRUBBS; WEAVER, 1946). Porém, não é tão simples encontrar estas curvas completas, o que dificulta seu uso.

Fatores que influenciam na determinação do número mínimo de observações

Todavia, o problema citado acima é facilmente resolvido utilizando softwares adequados, como o Minitab, STATISTICA, R ou Python. Contudo, antes de fazer os cálculos, precisamos entender quais fatores estão envolvidos no controle do erro de Tipo II. Apenas para simplificação, os fatores foram separados em dois grupos: natureza do experimento e você.

Fatores determinados pela natureza do experimento que influenciam no tamanho da amostra

Estes são os fatores que dependem do experimento em si. Dado que o experimento é realizado com rigor e precisão adequados, precisamos nos preocupar com um único fator: o desvio padrão ($s$). Para determinar o número mínimo de observações aleatórias e independentes que devem ser realizadas é preciso saber o desvio padrão. Mas, como saber o desvio padrão se eu nem fui para o laboratório ainda? Isto certamente é um problema!

Duas abordagens são interessantes para enfrentar este dilema. A primeira, e talvez a mais adequada, é buscar na literatura trabalhos similares ao que você esta desenvolvendo, e utilizar o desvio padrão encontrado nestes papers como valor de referência. Esta abordagem é interessante, pois fornece um bom critério sem precisar realizar experimento algum.

A outra abordagem é ir para o laboratório e obter algumas repetições (3 ou 4) e estimar o desvio padrão com estas medidas. A vantagem desta abordagem é que ela contempla as suas práticas de laboratório (sejam elas boas ou ruins). No primeiro caso, tais práticas são geralmente desconhecidas (escolha com bastante critério as revistas que irá procurar estas informações).

Fatores determinados por você que influenciam no tamanho da amostra

Temos três fatores que são determinados pelo pesquisador:

  • O nível de significância ($\alpha$);

    O nível de significância determina a probabilidade de cometer um erro de Tipo I. Utilize $\alpha=0,05$ (ou $95\%$ de confiança, que é a mesma coisa).

  • O poder do teste ($1-\beta$);

    O poder do teste determina a probabilidade de cometer um erro de Tipo II. Este é mais complexo de determinar um valor consolidado, pois ele varia muito de acordo com o tipo de trabalho e o requerimento da pesquisa; porém, $\beta=0,20$ é um critério que mantém um nível razoável de confiança ($80\%$) e não exige muitas repetições aleatórias independentes. Quanto menor o $\beta$, maior será o tamanho amostral requerido. A recomendação para decidir qual o valor de $\beta$ que deve ser adotado é buscar na literatura especializada da sua área qual valor geralmente é adotado. Infelizmente, tal informação é rara de ser obtida em papers. Uma estratégia é entrar em contato com o pesquisador responsável e perguntar diretamente.

  • O tamanho do efeito ($\delta$);

    Por fim, o efeito. O efeito nada mais é do que o valor mínimo que se espera para que a hipótese nula  seja FALSA. Em alguns casos é adotado como a diferença entre o média da amostra e o valor esperado:

    $$ \delta=\overline{x}-\mu_{0} $$

    Porém, o ideal é utilizar um valor que represente adequadamente a distância que se espera em que a média seja considerada diferente do valor esperado.

Comentários sobre o número de amostras

Infelizmente, os cálculos que devem ser feitos para estimar o tamanho amostral são complexos especialmente quando estamos trabalhando com dados amostrais. Para dados populacionais, onde conhecemos a variância da população, tais cálculos se tornam relativamente simples e podem ser estimados até mesmo “na mão”. No caso de dados amostrais, é fortemente recomendado utilizar uma ferramenta especializada.

Você encontra sites que fazem estes cálculos de forma bem simples, porém, tenha cautela ao utiliza-los pois não há garantias de que os resultados são confiáveis. A recomendação é utilizar a linguagem R (R CORE TEAM, 2023) ou algum software especializado, o que garante resultados adequados.

Veremos exemplos práticos de como estimar o tamanho amostral em um futuro próximo.

E sobre calcular o poder do teste post-hoc (poder observado)?

Existe a possibilidade de estimar o poder do teste após os dados terem sido obtidos e o teste aplicado. Contudo, esta prática não é adequada e nada ajuda na interpretação dos resultados. Isto se deve ao fato que a função utilizada para determinar a probabilidade do teste também determina o seu poder, em uma relação de 1 para 1 (Hoeniga & Heisey, 2010). Por este motivo, o poder do teste não traz nenhuma informação nova ao resultado do teste.

Isto ocorre pois utilizamos o número de observações e tamanho do efeito estimado com os dados experimentais para calcular o poder do teste, e acaba fazendo com o valor de $\beta$ não tenha significado verdadeiro. Cálculos do poder do teste são úteis para preparar o delineamento, mas não tem significado nenhum após os resultados terem sido obtidos.

Leitura recomendada

Para ir além neste tópico, sugiro a leitura de papers especializados.

  • The Abuse of Power: The Pervasive Fallacy of Power Calculations for Data Analysis, por HOENIG; HEISEY (2001);
  • Post hoc power analysis: is it an informative and meaningful analysis?, por ZHANG et al. (2019);
  • The interpretation of statistical power after the data have been gathered, por DZIAK; DIERKER; ABAR (2020);

Dentre os três papers, o mais recomendado é o (Hoeniga & Heisey, 2010). Sério, leia pelo menos este paper.

“Os cálculos de poder nos dizem o quão bem podemos caracterizar a natureza no futuro, dado um estado particular e um projeto de estudo estatístico, mas eles não podem usar informações nos dados para nos dizer sobre os prováveis estados da natureza.” (Hoeniga & Heisey, 2010)

Referências

DZIAK, J. J.; DIERKER, L. C.; ABAR, B. The interpretation of statistical power after the data have been gathered. Current Psychology, v. 39, n. 3, p. 870–877, jun. 2020. DOI: 10.1007/s12144-018-0018-1

FERRIS, C. D.; GRUBBS, F. E.; WEAVER, C. L. Operating Characteristics for the Common Statistical Tests of Significance. The Annals of Mathematical Statistics, v. 17, n. 2, p. 178–197, 1946. DOI: 10.1214/aoms/1177730979

HOENIG, J. M.; HEISEY, D. M. The Abuse of Power: The Pervasive Fallacy of Power Calculations for Data Analysis. The American Statistician, v. 55, n. 1, p. 19–24, fev. 2001. DOI: 10.1198/000313001300339897

R CORE TEAM. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing, 2023.

ZHANG, Y. et al. Post hoc power analysis: is it an informative and meaningful analysis? General Psychiatry, v. 32, n. 4, p. e100069, ago. 2019. DOI: 10.1136/gpsych-2019-100069

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *