Deep Blue, la potente serie de ordenadores centrales de IBM consiguió en 1997 derrotar al gran maestro de ajedrez Gary Kasparov. Deep Blue analizaba más de 200 millones de posibles jugadas por segundo (el cerebro de Kasparavo sólo evaluaba unas 5 jugadas por segundo).
Pero Deep Blue consumía mucha energía y requería un dispositivo de disipación del calor para no arder. Kasparov, por su parte, apenas sudaba. Por esa razón, el cerebro humano es un modelo de rendimiento: la corteza consume menos energía que una bombilla.
Además, es significativo que Deep Blue tenga que pensar millones de veces más deprisa que su adversario humano para poder vencerle; y por muy poco. La razón de este despilfarro de recursos es que los programas convencionales son muy rígidos, tal y como señala el psicólogo Jonah Leherer:
La mayor parte de la inteligencia de Deep Blue derivaba de otros grandes maestros del ajedrez, cuya sabiduría había sido concienzudamente programada en la máquina. (Los programadores de IBM también estudiaron las anteriores partidas de Kasparov y crearon el software que permitiera sacar provecho de sus recurrentes errores estratégicos). Sin embargo, la máquina era incapaz de aprender. En lugar de ellos, tomaba decisiones prediciendo los probables resultados de varios millones de jugadas diferentes. El ordenador acababa ejecutando la jugada con el “valor previsto más elevado. Para Deep Blue, el ajedrez era tan sólo una serie interminable de problemas matemáticos.
Lo que ocurría en el cerebro de Kasparov es que, décadas de experiencia, lo habían perfeccionado para detectar patrones espaciales sutiles en el tablero. Kasparov no analizaba “todos” los movimientos posibles, tal y como hacía Deep Blue, sino que se concentraba en la evaluación de las alternativas estratégicas más útiles.
Gerald Tesauro, programador informático de IBM, intentó crear una Inteligencia Artificial que funcionara de ese modo, basándose en el innovador trabajo de los científicos computacionales Rich Sutton y Andrew Barto. Para ello, escogió un juego de mesa que tuvo sus inicios en Mesopotamia, hacia el año 3000 a. C. Llamó al programa TD-Gammon (TD significa “diferencia temporal”).
Deep Blue había sido preprogramado con perspicacia ajedrecística, pero el software de Tesauro empezó con un conocimiento absolutamente nulo. Al principio, sus jugadas de backgammon eran totalmente al azar. Perdía todas las partidas y cometía errores estúpidos. Pero el ordenador no fue novato durante mucho tiempo; TD-Gammon estaba diseñado para aprender de su propia experiencia. Día y noche, el software jugaba al backgammon contra sí mismo, asimilando con paciencia las jugadas más efectivas. Tras varios cientos de miles de partidas, TD-Gammon era capaz de derrotar a los mejores jugadores humanos del mundo.
TD-Gammon, pues, era lo más parecido al cerebro de Kasparov. Ya no analizaba todas las partidas posibles, sino que generaba una serie de predicciones sobre cómo se desarrollará la partida, partiendo siempre de experiencias previas.
Este tipo de computación ha sido usada más tarde para resolver toda clase de problemas complejos, por ejemplo: programas núcleos de ascensores, o determinar horarios de vuelos.
La distinción fundamental entre estos programas de aprendizaje de refuerzo y los enfoques tradicionales es que los nuevos programas encuentran las soluciones óptimas por sí mismos. Nadie le dice al ordenador cómo organizar los ascensores, sino que aprende metódicamente haciendo pruebas y fijándose en sus errores hasta que, al cabo de un cierto número de ensayos, los ascensores funcionan con la máxima eficiencia posible. Han desaparecido los errores aparentemente inevitables.
Vía | Cómo aprendemos de Jonah Leherer