La estadística de las encuestas que nació de la cerveza

La estadística de las encuestas que nació de la cerveza
Facebook Twitter Flipboard E-mail

¿Habéis oído hablrar alguna del 'intervalo de confianza' de una encuesta?. Los que estén más familiarizados con la estadística y la econometría seguramente estén hartos de oírlo, y probablemente sepan también que estos márgenes de confianza se calculan con la famosa función t de Student. Es menos probable, sin embargo, que sepan que esta función matemática nació en la fábrica de cerveza Guinness.

La historia de la función t

A finales del siglo XIX, la fábrica de Saint James's Gate, en Dublín, era la cervecería más grande del mundo. La Guinness no sólo se consumía a espuertas en Irlanda y Gran Bretaña, sino que comenzaba a exportarse por todo el mundo. Como líder mundial, a los dueños de Guinness les preocupaba la calidad de su producto, y fueron pioneros en establecer rigurosos controles de calidad.

En el marco de esta campaña, en 1899 deciden contratar a William Sealy Gosset, un reputado estadístico inglés, que se traslada a Dublín para mejorar tanto el proceso de fermentación como la selección de materias primas. Gosset tendría como objetivo analizar muestras para optimizar ambos procesos. Su problema, matemáticamente hablando, era obtener resultados estadísticamente significativos a partir de un número comparativamente reducido de muestras.

Con la ayuda del matemático Karl Pearson, Gosset obtuvo unos resultados a los que en principio no se concedió mucha importancia, pero que acabarían siendo claves para la estadística moderna. Había un pequeño problema: Guinness prohibía la publicación de las investigaciones realizadas por la compañía, puesto que lo consideraba como un secreto industrial. Gosset decidió entonces utilizar el seudónimo "Student" y publicarlas igualmente, con la esperanza de no ser descubierto.

El trabajo de Gosset pasó inicialmente inadvertido. Envió sus tablas al padre de la bioestadística Ronald Fisher, diciéndole que creía que sería el único que las fuese a utilizar. Fisher comprendió el gran alcance del trabajo de Gosset, y lo aplicó a sus propias investigaciones, completándolo y mejorándolo. La función t de Student se hizo famosa, de hecho, gracias a Fisher.

Se da la circunstancia de que, al parecer, Fisher y Pearson tenían una gran rivalidad personal, con lo cual no dejaba de ser irónico el éxito de Fisher basándose precisamente en las fórmulas que Pearson había contribuido a conseguir, aunque despreciase su importancia. Gosset, sin embargo, era un hombre modesto, y en cierta ocasión respondió a un admirador de su trabajo que "Fisher lo habría descubierto tarde o temprano, de todas formas".

La importancia de la función t

La t de Student está relacionada con el estudio de poblaciones muy grandes a partir de una muestra comparativamente muy pequeña. La función surge al querer estimar la media de una determinada variable en cierta población, que se supone normalmente distribuida, pero de la cual se desconoce la varianza, es decir, la tendencia de las muestras a desviarse del valor promedio.

Pues bien, este es precisamente el caso de las encuestas realizadas sobre la población de un territorio. Por ejemplo, el objetivo de una encuesta electoral es estimar el promedio de intención de voto de cada partido, contando con muy pocas muestras aleatorias de la población total. Para evaluar la 'calidad' de la estimación, es necesario recurrir a la función t de Student, de la cual obtenemos un intervalo de confianza.

Es habitual en las encuestas publicar los resultados con un intervalo de confianza del 95 %. Si en la ficha técnica de una encuesta electoral, por ejemplo, se dice que el margen de error es del 2 % y el intervalo de confianza es el 95 %, lo que quiere decir es que según la función t de Student asociada, la posibilidad de que la intención de voto real de la población estudiada esté fuera de los márgenes de error es del 5 %.

Distribución t de Student

Matemáticamente, la función de distribución t es de la forma Z / √(v/V), donde Z es una distribución normal (también llamada gaussiana), y V es una distribución de tipo χ², con v grados de libertad. La forma de esta distribución de probabilidad se muestra en el trazo rojo de la imagen. Es similar a la distribución normal (la famosa 'campana de Gauss', en azul) aunque los flancos son algo más 'pesados', es decir, la posibilidad de obtener valores muy desviados de la media es mayor.

Seguramente el bueno de Gosset jamás se imaginaría que sus trabajos en la producción de Guinness alcanzaran nunca esta repercusión.

En Genciencia | La mortal historia de la centralita telefónica

Comentarios cerrados
Inicio