De como el manoseo de la Estadística engendra consecuencias insospechadas
De la página web:
S. Stanley Young and Warren Kindzierski han completado un estudio para la National Association of Scholars que ponen al descubierto las erróneas prácticas estadísticas usadas en el campo de la epidemiología medioambiental. Pone el foco sobre todo en los estudios de los efectos sobre la salud de las partículas en suspensión PM2.5 que son más frecuentes en grandes ciudades o en invasiones de polvo en suspensión. Estos estudios acaban apoyando políticas de intervención en las regulaciones con importantes consecuencias sociales y económicas.
Young SS,
Kindzierski W, Randall D. 2021. Shifting Sands: Unsound Science and Unsafe
Regulation. Keeping Count of Government Science: P-Value Plotting, P-Hacking,
and PM2.5 Regulation. National Association of Scholars, New York, NY.
https://www.nas.org/reports/shifting-sands
Este estudio encontró pruebas de que las conclusiones de que las partículas PM2.5 incrementan la mortalidad, ataques al corazón y asma están afectadas por malas prácticas estadísticas. Estas prácticas hacen dudosas las investigaciones y favorecen a las falsas hipótesis.
Un camino para sesgar las conclusiones es estimar el
número de tests estadísticos en un estudio. Hoy en día es muy fácil para los
investigadores llevar a cabo un gran número de tests estadísticos y usar diferentes
modelos estadísticos y series de datos observacionales. Los investigadores
luego seleccionan (a su gusto) una porción de los tests y modelos cuyos
resultados se ajustan a una determinada narrativa.
Una forma sencilla de poner en evidencia estos métodos es
contando. Los autores estimaron el número de hipótesis estadísticas ejecutadas
en 70 estudios publicados que determinan efectos en la salud de las PM2.5. El
número medio de tests ejecutados en cada estudio fue de unos 13.000.
Los epidemiólogos usan como criterios de decisión conceptos como el índice
de confianza (p-valor< 0.05) para
justificar un efecto significativo de las partículas PM2.5 en la salud en un
test estadístico. No obstante para cualquier número dado de tests estadísticos
realizados sobre el mismo grupo de datos, cabe esperar que el 5% den un
significativo, aunque falso, resultado. Un
estudio con 13.000 tests estadísticos podría llegar a tener 650 resultados significativos
estadísticamente, pero falsos.
Con la ventaja de las programaciones estadísticas avanzadas
de las que se disponen hoy, los epidemiólogos pueden fácilmente llevar a cabo
esta gran cantidad o incluso más tests estadísticos con una muestra de datos
observacionales. Luego pueden elegir 10 o 20 de los mas interesantes hallazgos
y publicar un estudio, con conclusiones que muy probablemente sean falsas y no
replicables.
Los autores utilizaron un método para diagnosticar las tres posibles formas de manipulación de un estudios que son:
- Sesgo de la publicación: solo se publican los resultados si muestran asociaciones significativas
- p-manipulación: es reanalizar los datos en muchas formas diferentes hasta llegar a un resultado deseado.
- Hipotetizar después de resultados conocidos: es usar los datos para generar una hipótesis y fingir que la hipótesis fue hecha antes.
Es tradicional en epidemiología usar intervalos de confianza en vez de p-valores de un test de hipótesis para demostrar significancia estadística. Como tanto los intervalos de confianza como los p-valores se construyen con los mismos datos son intercambiables, y uno puedes ser calculado con el otro.
Luego calcularon los p-valores a partir de los intervalos de
confianza de los datos de los estudios de meta-análisis que suponen que las
PM2.5 tienen efectos en la salud. Un meta-análisis es un procedimiento
sistemático para combinar estadísticamente datos de muchos estudios que ponen su
objetivo en los mismo. Usaron estudios que ponen la diana en que PM2.5 causa
aumento de la mortalidad, ataques al corazón o asma.
Luego usaron una sencillo método estadístico, el ploteo del
p-valor, para diagnosticar el posible sesgo en la investigación. En concreto, después de calcular los p-valores
con los intervalos de confianza, plotearon la distribución ordenada de los
mismos. El ploteo del p-valor nos permite
examinar la hipótesis de que un factor A causa un resultado B usando datos
combinados de un buen número de estudios observacionales.
Por ejemplo, como se muestra abajo para el caso entre la
relación del tabaco con un tipo de cáncer, con la mayor parte de los p-valores
pequeños (menos de 0,05), nos prueba que hay un efecto real, sostenido
estadísticamente.
Sin embargo, en el siguiente gráfico, elaborado con 29 estudios, la evidente bilinearidad, con clara división en dos líneas, nos muestra que solo 12 de ellos muestran una
relación causa-efecto. La bilinearidad evidencia el sesgo, manipulación del
p-valor y/o la hipotetización después de resultados conocidos.
No hay comentarios:
Publicar un comentario