sábado, 26 de junho de 2021

Falácias comuns sobre o valor de P

 


Vimos na publicação anterior o que representa o valor de P. A probabilidade de encontrar um resultado ou mais extremo, considerando a H0 como verdadeira. Porém, devido a esse conceito não ser muito bem compreendido, e talvez, não muito intuitivo, alguns professores acabam tentando explicar o conceito e aplicabilidade do valor de P erroneamente.

Vou abordar aqui algumas falácias que são atribuídas ao conceito de Valor de P. Mas antes, vamos testar seus conhecimentos. Diante das frases abaixo, identifique a que representa corretamente o significado de valor de P.


De todas as afirmativas expostas na tabela, a única que podemos considerar como verdadeira é a 4 - A probabilidade dos resultados encontrados, considerando H0 verdadeira, é <0,05. O restante são todas falácias atribuídas ao valor de P.

Falácia 1: A probabilidade do acaso.

Quando o computador calcula o valor de P, ele já está assumindo que a H0 é verdadeira. Diante disso, a probabilidade de ocorrência de qualquer valor ser devido ao acaso é de 100%. Então não faz sentido dizer que o valor encontrado ser devido ao acaso.

Falácia 2: A probabilidade de H0 ser verdadeira é <0,05.

O Valor de P trabalha dentro da noção de H0 sendo supostamente verdadeira, ele não mensura a probabilidade de H0 está correta nem a da hipótese alternativa (H1) ser verdadeira. O valor de P não mensura a probabilidade de qualquer hipótese está correta. O pensamento Bayesiano é o que mais pode se aproximar disso.

Falácia 3: A probabilidade de que um erro Tipo I tenha sido cometido ao rejeitar H0 é <0,05.

A probabilidade de rejeitar a H0, quando ela é verdadeira (erro tipo I) é mensurada pelo nível de significância (alfa). O valor de P é um ponto onde se encontra a distribuição dos dados da amostra.

Falácia 4: Falácia da replicabilidade.

Os dados apresentados pelo valor de P referem-se à amostra e não tem robustez para afirmar nada em relação aos resultados de pesquisas subsequentes.

Falácia 5: Falácia da validade.

Esta falácia refere-se à interpretação errônea de que 100 - p é a probabilidade de que H1 seja verdadeira. Por exemplo, se p <0,05, então a interpretação de que H1 é verdadeiro com uma probabilidade> 0,95 exemplifica essa falsidade. O valor de P não testa a probabilidade de uma hipótese ser verdadeira ou falsa.

Outras falácias comuns:

Falácia da magnitude – Um valor de P significativo pode não representar uma diferença muito relevante na prática. Um n amostral muito grande pode favorecer a ocorrência de um valor de P significante, porém sem significado clínico. Dessa forma, medidas de efeito como o intervalo de confiança devem ser acompanhadas do valor de P.

Falácias das hipóteses (atribui esse nome rs) – É a falácia que diz que ao rejeitarmos a H0, assumimos que H1 é verdadeira. Não há como mensurar certeza de hipóteses. O que há são probabilidades! Além disso, bons estudos metodologicamente bem feitos devem ser executados e não somente olhar para o valor de P.

Falácia zero – Falhar em rejeitar H0 não mostra que o efeito não exista, pois o teste de significância não mensura o 0%. Afinal de contas, como dizia Sagan “ Ausência de evidência não é a evidência da ausência”.

Falácia da qualidade – Um estudo que apresenta significância estatística não demonstra que ele foi bem conduzido metodologicamente. Um projeto de estudo ruim ou um erro de amostragem podem levar à rejeição incorreta de H0 ou a um erro Tipo I.

Falácia da qualidade inversa - É a crença errônea de que a falta de significância estatística marca o estudo como ruim. Embora métodos inadequados ou pequenos tamanhos de amostra em combinação com baixo poder estatístico possam causar erros do Tipo II, a falha em rejeitar H0 pode ser um resultado informativo.

Falácia da santificação - Refere ao pensamento dicotômico sobre os valores de P. Se alfa = 0,05, então um resultado em que p = 0,049 versus um em que p = 0,051 são praticamente idênticos em termos de resultados de teste de significância. Mas um pesquisador pode fazer um grande alarme sobre o primeiro, pois é “significativo”. Mas ignora ou desconsidera o segundo. Sabemos que em se tratando de probabilidades, 0,051 e 0,049 são praticamente idênticos. Vale ressaltar que o alfa=0,05 é atribuído aleatoriamente, portanto, verificar os resultados de um estudo somente pelo valor de P não é muito interessante. Pois podemos ver coisas que podem não existir.

 

Referência: KLINE, Rex B. Becoming a behavioral science researcher: A guide to producing research that matters. Guilford Press, 2008.

BADENES-RIBERA, Laura et al. Misconceptions of the p-value among Chilean and Italian academic psychologists. Frontiers in Psychology, v. 7, p. 1247, 2016.


sexta-feira, 11 de junho de 2021

Valor de P e Nível de significância estatística

 


Quando um estudo é planejado, os autores objetivam responder uma pergunta de pesquisa, testando sua hipótese. A hipótese é uma suposição potencialmente verdadeira que é geralmente derivada de observações prévias ou estudos preliminares sobre um determinado assunto. As hipóteses podem ser sobre diferenças entre grupos ou associações.

Os pesquisadores sabem que não há como obter certeza se uma hipótese é verdadeira ou não, mesmo construindo e executando o estudo da forma mais transparente e acurada possível. Só existe uma maneira de obter certeza nos valores de uma população, quando analisamos o seu total, ou seja, 100%, todos os indivíduos. Geralmente, os estudos não analisam toda uma população, mas uma parte representativa da mesma, essa parte representativa é chamada de amostra. O problema é que, por mais que seja feito o cálculo do tamanho amostral para saber quantos indivíduos devem ser incluídos para que tenhamos um “n” representativo, os valores decorrentes da análise dessa amostra podem ser diferentes dos verdadeiros valores populacionais para a(s) variável(is) analisada(s), por simples obra do acaso (erro randômico). Com essa percepção do erro randômico, sabemos que todo resultado proveniente de uma amostra possui um grau de incerteza, assim, realizamos uma inferência do que seria o verdadeiro valor de populacional a partir da amostra. Desse modo, a estatística inferencial se torna uma grande ferramenta para a interpretação dos resultados obtidos, pois a análise dos dados nos oferece o grau de incerteza dos nossos resultados.

O exemplo abaixo envolve cálculos, porém não é preciso e nem se faz necessário decorar as fórmulas matemáticas para a compreensão do assunto, porém a apresentação a seguir tornará mais fácil o seu entendimento (eu acredito :) ).

Supondo que você jogue uma moeda honesta 10x, qual a probabilidade de ocorrer 5 caras e 5 coroas?

Primeiro calculamos o número de combinações possíveis, conforme a fórmula abaixo.

Agora a probabilidade de serem sorteadas 5 caras e 5 coroas.



A probabilidade de ocorrência de 5 caras e 5 coroas em 10 lançamentos de uma moeda não viciada é de 0,25 ou 25%.

Distribuição de probabilidade em 10 lançamentos de um moeda honesta

n° de caras

probabilidades

porcentagem

0

0,01

0,1

1

0,010

1,0

2

0,045

4,5

3

0,117

11,7

4

0,205

20,5

5

0,246

24,6

6

0,205

20,5

7

0,117

11,7

8

0,045

4,5

9

0,010

1,0


Observe que, os valores com maior probabilidade de ocorrer (mais frequentes) estão localizados no centro da distribuição e os valores menos frequentes, nos extremos (assemelhando a curva normal). Se pegarmos os valores de probabilidade para 7 ou mais caras ou para 3 ou menos coroas temos uma probabilidade total de 0,35 ou 35% essa probabilidade é o valor de P atribuído nessa distribuição. Mas o q ele representa? Representa a probabilidade daquele resultado ou mais extremo acontecer quando lançamos uma moeda honesta. Assim, a probabilidade de eu jogar uma moeda honesta 10 vezes e encontrar 7 ou mais caras ou 3 ou menos coroas é de 0,35 ou 35%.

Gráfico que representa a probabilidade do resultado ser “cara” em 10 lançamentos de uma moeda não viciada

Eixo vertical: probabilidade

Eixo horizontal: número de caras em 10 lançamentos


Portanto, o valor de P representa a probabilidade de encontrar o valor observado ou mais extremo, dado que a H0 é verdadeira. Na área da saúde, é consenso utilizar o valor de P como <0,05, isso significa que a probabilidade de termos encontrado aquele resultado observado é menor que 5%, considerando a H0 como verdadeira. 

Valor P


Agora vamos para uma situação na área da saúde.

Exemplo de ideia de pesquisa: Deseja-se verificar a influência do tabagismo materno durante a gravidez, no peso do recém-nascido.

Pergunta de pesquisa a partir dessa ideia:

Será que o do tabagismo materno durante a gravidez interfere no peso do recém-nascido?

Para responder a essa pergunta, precisamos seguir os passos abaixo:

Passo 1: construir 2 hipóteses, a hipótese nula (H0) e a hipótese alternativa (H1).

A hipótese nula (H0) diz que não há interferência do tabagismo materno, durante a gestação, no peso do recém-nascido.

A hipótese alternativa (H1) diz que há interferência do tabagismo materno, durante a gestação, no peso do recém-nascido.

A H1 é a do pesquisador, a que ele acredita ser verdadeira e colocará à prova. Já a H0 é a hipótese que os testes estatísticos trabalham. Dessa forma, o teste estatístico irá rejeitar a H0 ou falhar em rejeitar a H0. Mas não confunda falhar em rejeitar a H0 com aceitar H0, são coisas diferentes!

Passo 2: determinar o nível de significância do teste estatístico

Toda pesquisa realizada com amostra possui um erro intrínseco, o chamado erro aleatório (grau de incerteza). Para visualização e análise dos dados considerando a incerteza, a estatística possui o conceito de nível de significância (que podemos interpretar como o máximo erro tolerável. Quanto maior ele for, maior a facilidade em rejeitar a H0. No caso de valores extremos, quando o nível de significância for 1 (100%) será impossível não rejeitar H0, no caso do nível de significância 0 (0%) será impossível rejeitar H0. Na área da saúde, costuma-se determinar o nível de significância como 5% ou 1%. Quando estamos falando de nível de significância estatística, não podemos deixar de mencionar 2 conceitos. O erro do tipo I e erro do tipo II.

Conjunto de valores que levará a rejeição da hipótese nula (região crítica)


O erro do tipo I é o erro de afirmar que há uma diferença, quando na verdade ela não existe.

O erro do tipo II é o erro de afirmar que não existe diferença quando na verdade ela existe.

 

O nível de significância mensura o erro do tipo I, pois ele quantifica a probabilidade de estarmos errados ao afirmar que existe uma diferença. Quando eu assumo um nível de significância de 5%, isso indica que eu assumo uma probabilidade de erro de 5% quando encontro uma diferença entre os grupos.

 

Passo 3:execução da pesquisa

Os pesquisadores escolheram de maneira aleatória, 200 bebês para analisar seu peso e o histórico de tabagismo das mães durante a gestação. Foi verificado que 44 das mães fumaram durante a gestação e 156 não fumaram, a diferença da média de peso entre bebês de mães não fumantes e fumantes foi de 208,4g (fumantes = 3,046g e não fumantes = 3,255,0g). 

Passo 4:análise dos dados

A análise estatista é feita. É gerado um valor de P de 0,012. O que isso quer dizer?

Antes de responder, atente-se que quando expliquei sobre o posicionamento do valor de P, coloquei a imagem de uma curva normal com a área de significância e sem significância. Mas agora, estamos diante de 2 grupos, consequentemente 2 distribuições de dados com 2 médias, para a variável peso, no caso, peso de recém nascidos, como mostra a figura abaixo:

Mas professor, com esse valor de P 0,012, como vou saber se há ou não há diferença estatística entre as médias dos grupos?

O processo é bem simples. As curvas normais dos grupos irão se interpenetrar (uma encostar na outra), resta saber em qual local dessa interpenetração as curvas irão, estatisticamente se tocar.

Veja que na imagem abaixo, as curvas se interpenetram dentro da região de significância estatística (5%), pois o valor de P encontrado (0,012) está dentro dos 5% estabelecido a priori, dessa forma, muito provavelmente as médias são diferentes. 



O valor de P = 0,012 indica que a probabilidade de um resultado tão diferente entre os dois grupos (208,4g ) ter aparecido, considerando a H0 verdadeira é de 1%. 

Dessa forma, vamos verificar se os grupos apresentam diferença estatística.

Voltamos ao nível de significância (alfa) estabelecido como 5%. Observe que o valor de P encontrado é menor que o nível de significância estabelecido a priori. Assim sendo, consideramos que muito provavelmente houve diferença entre os grupos.




Dependendo da situação, pode-se assumir um nível de significância mais rigoroso de 1%. Caso esse nível de significância fosse o estabelecido ao invés dos 5%, a H0 não seria rejeitada, pois o valor de P obtido é foi maior que o nível de significância estabelecido.

Terminamos aqui uma postagem conceitual do valor de P. Porém, pelo motivo de que muitos livros, ao explicarem o valor de p, recorrerem a conceitos didáticos que fogem da definição real, a interpretação desse artifício estatístico fica deturpada, por exemplo, não podemos dizer que um tratamento é bom ou não apenas verificando o valor de P, mas isso é assunto para postagens futuras. Até lá!


quinta-feira, 3 de junho de 2021

NE.: POST 1 - Pirâmide das evidências



Muitos já se depararam com a imagem acima intitulada “Pirâmide das evidências”, muito comum em livros de metodologia da pesquisa e epidemiologia. Nessa pirâmide, os tipos de estudo/delineamento de pesquisa estão apresentados de forma hierárquica, em que na parte mais inferior está localizada as opiniões de especialistas e na parte superior as revisões sistemáticas como metanálise.

Na mesma imagem, podemos perceber também, que estudos experimentais com seres humanos estão acima de estudos observacionais. Quanto mais superior está o tipo de estudo de pesquisa, menos susceptível a vieses a evidência estará.

Porém devemos ter cuidado ao interpretar essa pirâmide!

Por exemplo, nos livros de epidemiologia está disponível uma tabela que aponta os tipos de estudo mais comuns na área da saúde, seus objetivos, assim como suas limitações. Dessa forma, percebe-se que para cada objetivo de hipótese a ser testada, existe um tipo de delineamento de pesquisa que auxilie no teste dessa hipótese.

Assim, caso eu queira verificar a prevalência de algo, o melhor tipo de estudo é o transversal. Se o objetivo for verificar se uma exposição é um fator de risco para uma determinada patologia, um estudo do tipo caso - controle é interessante. Na ocorrência de uma doença rara, a compreensão do fenômeno seria auxiliada por um estudo de relato de caso. Numa situação onde pesquisadores querem verificar a eficácia de uma intervenção, o melhor tipo de estudo a ser conduzido seria um ensaio clínico randomizado.

Diante do exposto, você já consegue verificar que ao falar de tipos de estudo não podemos incorrer no erro de coloca-los numa determinada hierarquia geral para todas as evidências. Cada evidência deve ser cuidadosamente analisada, respeitando a hipótese de cada pesquisa. A forma como essa pirâmide das evidências apresenta os tipos de estudos quanto aos seus vieses (do inglês, bias) só faz sentido caso a hipótese a ser testada queira verificar a eficácia de uma intervenção. 

Como já dito anteriormente, para testar intervenções, o ensaio clínico é o melhor tipo de delineamento. Revisões sistemáticas com ou sem metanálise podem ser feitas para resumir o que os ensaios clínicos de boa qualidade metodológica, tem a dizer sobre um determinado tema. Porém, para uma revisão sistemática ser considerada uma boa evidência, essa precisa ser metodologicamente bem construída. Isso se dá também para os outros tipos de delineamento.

Para que os estudos possam ser considerados boas evidências, esses precisam ser metodologicamente bem construídos. Para um mesmo tema, um estudo observacional do tipo coorte, bem feito, tem mais valor do que um ensaio clinico mal conduzido, logicamente, deve-se ter em mente até onde os estudos observacionais podem ir em termos de conclusão e para o que ele foi planejado.

Por fim, a interpretação dessa essa pirâmide precisa ser feita de forma racional, devemos analisar primeiramente a hipótese a ser testada e o melhor tipo de delineamento que ajude a responder essa pergunta. Em resumo, essa pirâmide só faz sentido quando estamos diante de estudos bem conduzidos e quando a hipótese de pesquisa quer verificar a eficácia do tratamento.


Falácias comuns sobre o valor de P

  Vimos na publicação anterior o que representa o valor de P. A probabilidade de encontrar um resultado ou mais extremo, considerando a H0 c...