Un tipo de sesgo muy peligroso en la investigación científica es el conocido como p-hacking o dragado de datos, que ocurre cuando los investigadores recopilan o seleccionan datos o análisis estadísticos hasta que los resultados no significativos se vuelven significativos.
Los resultados de un estudio se pueden analizar de diversas formas, y p-hacking se refiere a una práctica en la que los investigadores seleccionan el análisis que produce un resultado satisfactorio. La p se refiere al valor p, una entidad estadística que es esencialmente una medida de cuán sorprendentes serían los resultados de un estudio si el efecto que está buscando no estuviera allí. P sería la probabilidad de que un hallazgo o hipótesis sea el resultado de la casualidad.
Los efectos del P-hacking
Los primeros en detectar esta manipulación fueron los psicólogos Uri Simonsohn, Joseph Simmons y Leif Nelson que definieron el concepto de “p-hacking”, demostrando que seleccionando los datos a considerar y adaptando el tamaño de las muestras era posible alterar el valor “p” de una hipótesis.
Cuando se prueban suficientes hipótesis, es prácticamente seguro que algunas serán consideradas estadísticamente significativas (aunque esto sea engañoso), ya que es probable que casi todos los conjuntos de datos con algún grado de aleatoriedad contengan (por ejemplo) algunas correlaciones falsas . Si no son cautelosos, los investigadores que utilizan técnicas de minería de datos pueden ser fácilmente engañados por estos resultados.
Steven Pinker, en su último libro Racionalidad, pone un ejemplo de ello:
Imaginemos a un científico que lleva a cabo un laborioso experimento y obtiene datos que son lo contrario del "eureka". Antes de abandonar el experimento, puede sentir la tentación de preguntarse si el efecto se produce realmente, pero solo en el caso de los hombres, o solo con las mujeres, o si se rechazan los datos anómalos de los participantes que se habían distraído, o si se excluyen los años locos de Trump, o si se cambia a una prueba estadística que se fije en la clasificación de los datos más que en sus valores hasta el último decimal.
Debido al p-hacking, así como a otros sesgos en investigación, como la falacia del francotirador de Texas (se comete cuando se ignoran las diferencias en los datos, pero se enfatizan demasiado las similitudes), muchos estudios acaban siendo erróneos o sencillamente no se pueden replicar.
Una crisis de replicabilidad que ha sacudido campos como la epidemiología, la psicología social, la genética humana y otros, o que nos hace poner, por ejemplo, el grito en el cielo a la hora de demonizar las pantallas:
Ver 1 comentarios