Investigadores de prestigio proponen cambiar el valor estadístico p

Publicado por Dr. Jordi Roig Cutillas a 21 septiembre, 2017

Categorías

Investigación científica

Un equipo de investigadores propone cambiar el valor p inferior a 0,05 como estadísticamente significativo por un nuevo valor de p inferior a 0,005 en el ámbito de las ciencias sociales y biomédicas.

La ciencia está atravesando una crisis de reproducibilidad, y los investigadores, los financiadores y los editores están cada vez más preocupados de que la literatura académica esté llena de resultados poco fiables. Ahora, un grupo de 72 investigadores prominentes están apuntando como la causa del problema los débiles estándares estadísticos de los nuevos descubrimientos.

En muchas disciplinas, la importancia de los hallazgos se juzga por los valores de p. Se usan para probar (y rechazar) una ‘hipótesis nula’, que generalmente postula que el efecto que se está probando no existe. Cuanto menor sea el valor de p que se encuentra para un conjunto de resultados, menos probable es que los resultados sean puramente debidos al azar. Los resultados se consideran “estadísticamente significativos” cuando este valor es inferior a 0,05.

Pero muchos científicos temen que el umbral de 0,05 haya causado que aparezcan demasiados falsos positivos en la literatura científica, un problema exacerbado por una práctica llamada p-hacking, también conocido como pesca de datos, en la que los investigadores recopilan datos sin antes crear una hipótesis para probar y luego buscar patrones en la resultados que pueden ser reportados como estadísticamente significativos.

En un artículo publicado en Nature Human Behaviour, los investigadores sostienen que los umbrales de valor p deberían reducirse a 0,005 para las ciencias sociales y biomédicas

“Los investigadores simplemente no se dan cuenta de lo débil que es la evidencia cuando el valor de p es 0,05”, dice Daniel Benjamin, uno de los autores del estudio y economista de la Universidad del Sur de California, Estados Unidos. Según Benjamin, las afirmaciones con valores de p que se encuentren entre 0,05 y 0,005 deben tratarse simplemente como “evidencia sugestiva” en lugar del conocimiento establecido.

Muestras de gran tamaño

Un problema con la reducción de los umbrales del valor p es que pueden aumentar las probabilidades de un falso negativo – afirmando que los efectos no existen cuando de hecho lo hacen – dice Casper Albers, un investigador en psicometría y estadística en la Universidad de Groningen en los Países Bajos. Para contrarrestar ese problema, Benjamin y sus colegas sugieren que los investigadores aumentan el tamaño de las muestras en un 70%; dicen que esto evitaría el aumento de las tasas de falsos negativos, mientras que se reducirían dramáticamente las tasas de falsos positivos. Pero Albers piensa que en la práctica, sólo los científicos bien financiados tendrían los medios para hacerlo.

Shlomo Argamon, un científico informático del Instituto de Tecnología de Illinois, dice que no hay una respuesta simple al problema, ya que “no importa qué nivel de confianza elijas, si hay bastantes formas diferentes de diseñar tu experimento, que al menos uno de ellos dará un resultado estadísticamente significativo sólo por casualidad”. Se necesitan cambios más radicales como nuevos estándares metodológicos e incentivos a la investigación, explica.

La reducción de los umbrales de valor p también puede agravar el sesgo de publicación, en el que los estudios con resultados negativos se dejan de publicar, dice Tom Johnstone, neurocientífico cognitivo de la Universidad de Reading, Reino Unido. Pero Benjamin dice que toda investigación debe publicarse, independientemente del valor de p.

Cambio en las reglas

Otros campos científicos ya han actuado sobre los valores de p. En 2015 una revista de psicología los prohibió. Los físicos de partículas, que recolectan resmas de datos de experimentos de colisiones de átomos, llevan mucho tiempo exigiendo un valor de p por debajo de 0,0000003 (o 3 x 10^-7) debido a la preocupación de que un umbral más bajo podría conducir a afirmaciones equivocadas, señala Valen Johnson, coautor del artículo. Hace más de una década, los genetistas tomaron medidas similares para establecer un umbral de 5 x 10^-8 para los estudios de genoma donde buscan diferencias entre las personas que tienen una enfermedad y las que no.

Sin embargo, otros científicos han abandonado los valores de p en favor de instrumentos estadísticos más sofisticados, como las pruebas bayesianas, que requieren que los investigadores definan y prueben dos hipótesis alternativas. Pero no todos los investigadores tendrán la experiencia técnica necesaria para llevar a cabo pruebas bayesianas, dice Johnson, que piensa que los valores de p pueden ser útiles para determinar si una hipótesis es apoyada por evidencia. “El valor de p por sí mismo no es necesariamente malvado.”

Noticia original: Big names in statistics want to shake up much-maligned P value
Artículo: Redefine statistical significance

Dr. Jordi Roig Cutillas

El Doctor y Neumólogo Jordi Roig Cutilas es licenciado en Medicina y Cirugía y Doctor Cum Laude por la Universidad de Barcelona. Formado como Especialista en Neumología en el Hospital del Valle de Hebrón. Autor de más 100 publicaciones en prestigiosas revistas internacionales y de varios capítulos de libros. Investigador principal de varios ensayos clínicos internacionales. Gold Member del European Respiratory Society, Fellow del American College of Chest Physicians y miembro del grupo Colleman. Ha sido Presidente del Comité Científico y de Investigación de la SEPAR, Miembro de la Comisión Técnica de Evaluación de Enfermedades Respiratorias del FIS, entre otros.