Cuando las inteligencias artificiales aprenden idiomas, normalmente tienen billones de ejemplos disponibles en Internet. En los niños pequeños, sin embargo, la adquisición del lenguaje se basa exclusivamente en lo que captan en su entorno. Ahora los investigadores han entrenado una inteligencia artificial utilizando grabaciones de vídeo desde la perspectiva de un niño individual. De hecho, así fue como la inteligencia artificial aprendió a asociar palabras con objetos y generalizar conceptos. Los hallazgos proporcionan información sobre la adquisición del lenguaje humano desde una nueva perspectiva.
Los bebés empiezan a aprender sus primeras palabras entre los seis y nueve meses. Al hacerlo, conectan lo que ven y experimentan con los nombres correspondientes que escuchan de las personas que los rodean. ¿Pero realmente es suficiente con aprender un idioma desde cero? ¿O los humanos ya tenemos un conocimiento innato que nos ayuda a comprender mejor los conceptos del lenguaje?
Niño como asistente de investigación
Para llegar al fondo de esta cuestión, un equipo dirigido por Wai Keen Vong de la Universidad de Nueva York entrenó una inteligencia artificial que recibía como entrada sólo lo que un niño ve y oye. Para ello, los investigadores equiparon a un bebé de seis meses con una cámara de vídeo ligera montada en la cabeza. Hasta poco después de su segundo cumpleaños, el niño llevaba regularmente la cámara consigo durante las actividades diarias, por ejemplo en el patio de recreo, mientras comía o mientras miraba libros ilustrados con sus padres.
De este modo se recopilaron aproximadamente 61 horas de material de vídeo. «Aunque estas grabaciones representan sólo alrededor del 1% de las horas de vigilia del niño, todavía proporcionan información detallada sobre las experiencias del niño desde su perspectiva», escriben los investigadores. Utilizaron estos datos para impulsar una red neuronal artificial. Dividieron el video en imágenes individuales y agregaron una transcripción de lo que se dijo durante cada una. «Esto le da al modelo una pista sobre qué palabras deben asociarse con qué objetos», explica Vong. «La combinación de estas pistas te permite determinar gradualmente qué palabras pertenecen a qué imágenes».
Conecta palabras e imágenes
Pero, ¿esta información sería suficiente para que el algoritmo aprenda el significado de determinadas palabras, tal como lo hace el niño pequeño? Los investigadores probaron esto asignando a la IA tareas que también se utilizan con niños para evaluar sus habilidades lingüísticas. Por ejemplo, se les presentaron cuatro imágenes y se les preguntó cuál mostraba una pelota. Y efectivamente: la inteligencia artificial seleccionó con precisión la imagen correcta basándose en numerosas palabras del mundo de las experiencias del niño.
«Nuestro estudio muestra por primera vez que una red neuronal entrenada con información realista del desarrollo de un solo niño puede aprender a asociar palabras con sus equivalentes visuales», dice Vong. Al igual que los niños pequeños, la IA también pudo generalizar ejemplos concretos. Por ejemplo, reconoció la imagen de una mariposa real, aunque hasta entonces sólo había visto mariposas como dibujos en un libro para niños.
Conceptos básicos de la adquisición del lenguaje.
Desde el punto de vista de los investigadores, los hallazgos pueden contribuir a una mejor comprensión de la adquisición del lenguaje por parte de los niños. «Al utilizar modelos de inteligencia artificial para estudiar el aprendizaje de idiomas en el mundo real en niños, estamos contribuyendo al clásico debate sobre los ingredientes que los niños necesitan para aprender palabras, como por ejemplo si se necesita un conocimiento innato o si el aprendizaje asociativo es suficiente», explica el colega de Vong . Lago Brenden. «Nuestros resultados sugieren que el aprendizaje asociativo puede lograr más de lo esperado».
Los investigadores advierten que la IA sólo aprendió los nombres de objetos concretos, pero no otras dimensiones del lenguaje, como las conexiones con creencias e intenciones. Sin embargo, también carecía de muchas de las experiencias que un niño pequeño tiene naturalmente, desde tocar objetos hasta su propia vida emocional. «Pero incluso con estas limitaciones, el modelo muestra cómo es posible un aprendizaje profundo de las palabras a partir de fragmentos de la experiencia de un niño individual», escriben Vong y su equipo.
Fuente: Wai Keen Vong (Universidad de Nueva York) et al., Science, doi: 10.1126/science.adi1374