El primer episodio de plaza Sésamo (el programa de televisión para niños que luego se llamaría en España Ábrete Sésamo), emitido en 1969, incluía un fragmento titulado «Una de esas cosas no es como la otra». A los espectadores se les pedía que se fijasen en un cartel que mostraba tres 2 y una W; mientras se cantaba una canción que se llamaba como el juego tenían que determinar qué símbolo no encajaba ahí. Un juego así aparecería en docenas de episodios; se comparaba de todo, de patrones abstractos a platos de verduras. Los niños no tenían que volver a aprender las reglas cada vez. Les bastaba con distinguir entre «lo mismo» y “diferente».

A las máquinas les cuesta mucho más. A una de las clases más potentes de sistemas de inteligencia artificial (IA), las redes neuronales convolucionales (el acrónimo en inglés es CNN), se la puede entrenar para que realice una serie de tareas complejas mejor que las personas: de reconocer un cáncer en imágenes clínicas a jugar una partida de Go. Pero investigaciones recientes han mostrado que las CNN solo pueden decir en circunstancias muy limitadas si dos patrones visuales sencillos son idénticos o no. En cuanto esas circunstancias cambien, por poco que sea, el rendimiento de la red se desplomará.

Estos resultados han sido motivo de debate entre los investigadores del aprendizaje profundo y los científicos de la cognición. Una ingeniería mejor, ¿producirá CNN que entiendan de forma generalizada, como los niños, lo de ser lo mismo, por ejemplo el ser dos figuras iguales, y ser diferente? ¿O está la capacidad de razonamiento abstracto de las CNN limitada fundamentalmente, no importa lo inteligentemente que se las construya y entrene? Sea como sea, la mayoría de los investigadores parece coincidir en que entender las relaciones del tipo lo mismo-diferente es un rasgo crucial de la inteligencia, artificial o no.

«No solo usted y yo acertamos en la tarea de lo mismo-diferente; aciertan también un montón de animales no humanos, los patitos, las abejas aciertan“, dado Chaz Firestone, que estudia la cognición visual en la Universidad Johns Hopkins.

Cabe ver la capacidad de tener éxito en esa tarea como el fundamento de todo tipo de inferencias que hacemos los seres humanos. Adam Santoro, investigador de DeepMind, dice que el laboratorio de inteligencia artificial de Google «estudia las relaciones lo mismo-diferente de modo holístico», no solo en escenas visuales sino también en interacciones mediante el lenguaje natural y en interacciones físicas. «Cuando le pido a un agente [de IA] que ‘coja el coche de juguete’ se sobreentiende que estoy hablando del mismo coche con el que habíamos estado jugando y no de otro distinto que está en la habitación de al lado», explica. Un repaso reciente de las investigaciones del razonamiento sobre lo mismo-diferente resaltaba también ese punto. «Sin la capacidad de reconocer cuándo es lo mismo», escriben los autores, «parece que hay pocas esperanzas de realizar el sueño de crear máquinas de razonamiento visual verdaderamente inteligentes».

Las relaciones del tipo lo mismo-diferente se les escapan a las redes neuronales desde al menos 2013, cuando el investigador pionero de la IA Yoshua Bengio y su coautor, Caglar Gulcehre, demostraron que una CNN era incapaz de determinar si unos grupos de figuras de bloques, como de Tetris, eran idénticas o no. Pero ese punto débil no impidió que las CNN dominasen la IA. Para finales de la década, AlphaGo batía gracias a las redes convolucionales al mejor jugador mundial de Go y casi el 90 por ciento de las aplicaciones para Android con capacidad de aprendizaje profundo se basaban en ellas.

Esta explosión de su capacidad reavivó el interés de algunos investigadores en explorar qué era lo que esas redes neuronales no podían hacer. Las CNN aprenden imitando burdamente la forma en que los cerebros de los mamíferos procesan las entradas visuales. Una capa de neuronas artificiales detecta rasgos simples en los datos en crudo, las líneas brillantes, por ejemplo, o las diferencias de contraste. La red pasa esos rasgos a capas sucesivas, que los combinan en categorías más complejas, abstractas. Según Matthew Ricci, de la Universidad Brown, investigador del aprendizaje por máquinas, las relaciones del tipo lo mismo-diferente parecmin una buena formar de comprobar los límites de las CNN porque son «lo más simple que se puede preguntar de una imagen que no dependa de sus rasgos». Es decir, que dos objetos sean lo mismo no depende de que sean un par de triángulos azules o un par de círculos rojos. La relación entre los rasgos importa, no los rasgos en sí.

En 2018, Ricci y sus colaboradores Junkyung Kim y Thomas Serre pusieron a prueba las CNN con imágenes del Test de Razonamiento Visual Sintético (SVRT), una colección de patrones simples diseñados para sondear las habilidades en el razonamiento abstracto de las redes neuronales. Los patrones consisten en pares de figuras irregulares dibujadas como siluetas negras sobre un recuadro blanco. Si el par era idéntico en forma, tamaño y orientación, la imagen se clasificaba como «lo mismo»; si no, se etiquetaba al par como «diferentes».

Los investigadores vieron que una CNN entrenada con muchos ejemplos de esos patrones podía distinguir «lo mismo» de «diferente» con un acierto de un 75 por ciento cuando se le enseñaban ejemplos nuevos sacados del conjunto SVRT de imágenes. Pero en cuanto se modificaban las ffiguras de dos maneras superficiales (hacerlas mayores o colocarlas más separadas entre sí), el acierto de las CNN se iba «para abajo, para abajo, para abajo», dice Ricci. Los investigadores concluyeron que las redes neuronales seguían fijadas en los rasgos en vez de aprender el concepto relacional de «ser igual».

El año pasado, Christina Funke y Judy Borowski, de la Universidad de Tubinga, mostraron que aumentar el número de capas de una red neuronal de 6 a 50 elevaba su acierto con las figuras del SVRT hasta por encima del 90 por cien en la tarea de lo mismo-diferente. Sin embargo, no comprobaron el grado de acierto de esta CNN «más profunda» con ejemplos que no perteneciesen al conjunto de datos del SVRT, como hizo el grupo de Ricci. Por lo tanto, el estudio no ofreció prueba alguna de que CNN más profundas pudiesen generalizar los conceptos de lo mismo y diferente.

Guillermo Puebla y Jeffrey Bowers, científicos de la cognición de la Universidad de Bristol, han proseguido la investigación con un estudio publicado este año. «Una vez se ha captado una relación, se puede aplicarla a todo aquello con que se tope uno», dice Puebla. Las CNN, mantiene, deberían medirse con esa mismo criterio.

Puebla y Bowers entrenaron cuatro CNN con varias conformaciones iniciales (entre ellas algunas de las utilizadas por Funke y Borowski) mediante unas cuantas variaciones de la tarea lo mismo-diferente del SVRT. Vieron que cambios sutiles en los rasgos de bajo nivel de los patrones (cambiar, por ejemplo, el grosor de la línea que delimita una figura de un píxel a dos) bastaba para reducir el acierto de una CNN a la mitad, de casi perfecto a apenas por encima deel azar.

El significado de esto para la IA depende de a quién se pregunte. Firestone y Puebla creen que los resultados recientes ofrecen una prueba empIrica de que las CNN actuales carecen de una capacidad de raciocinio fundamental que no se puede remedar con más daas o con un entrenoiento más hábil. Pese a que sus poderes no paren de crecer, «es muy poco probable que las CNN vayan a resolver ese problema» de discriminar lo mismo de lo diferente, dice Puebla. «Podrían ser parte de la solución si se añade algo más. Pero ¿por sí mismas? No parece».

Funke está de acuerdo en que los resultados de Puebla dan a entender que las CNN siguen sin poder generalizar el concepto de lo mismo-diferente. «Sin embargo», dice, «recomiendo que se tenga mucho cuidado cuando se afirma que las redes neuronales convolucionales profundas, en general, no pueden aprender el concepto». Santoro, el investigador de DeepMind, está de acuerdo: «Que no haya pruebas de algo no es necesariamente prueba de que no haya ese algo, y con las redes neuronales así ha sido históricamente». Señala que se ha demostrado matemáticamente que las redes neuronales tienen, en principio, la capacidad de aproximar cualquier función. «El trabajo de un investigador consiste en determinar en qué condiciones se aprende en la práctica una función deseada», dice Santoro.

Ricci cree que para conseguir que una máquina aprenda a distinguir lo mismo de lo diferente hará falta un paso adelante en el conocimiento del aprendizaje mismo. Los niños entienden las reglas de «Una de esas cosas no es como la otra» tras un solo episodio de plaza Sésamo; no necesitaron un gran entrenamiento. Pájaros, abejas y personas: todos aprenden de esa forma, y no solo a distinguir lo mismo de lo diferente, sino a realizar una variedad de tareas cognoscitivas. «Creo que mientras no sepamos cómo se aprende con unos pocos ejemplos y objetos nuevos, no vamos a ir bien», dice Ricci.

Juan Pablo / Revista Quanta

Artículo traducido por Investigación y Ciencia con el permiso de QuantaMagazine.org, una publicación independiente promovida por la Fundación Simons para potenciar la comprensión pública de la ciencia.

Referencia: «¿Pueden las redes neuronales convolucionales profundas aprender relaciones iguales y diferentes?», de Guillermo Puebla y Jeffrey S. Bowers, en bioRxiv, 12 de mayo de 2021.



Ver Publicación Original

Comparte el Conocimiento

No responses yet

Leave a Reply

%d bloggers like this: