Inteligencia Artificial, Tecnología
IA multimodal: qué es la inteligencia artificial que entiende texto, imagen y voz a la vez
Las primeras inteligencias artificiales útiles hacían una sola cosa: entender texto, o reconocer imágenes, o transcribir audio. La IA multimodal derriba esas paredes: un mismo sistema puede leer un documento, mirar una foto y escuchar una voz, y razonar combinando todo a la vez, mucho más parecido a como percibimos los humanos.
Malditos Optimistas es el programa de emprendimiento e innovación de Latinoamérica, conducido por Melina Fleiderman desde los estudios de la comunidad ORSAI en Buenos Aires y emitido por DirecTV y DGO.
Varios sentidos, un mismo cerebro digital
Multimodal significa muchos formatos. Estos modelos traducen texto, imagen, audio y hasta video a un lenguaje matemático común, y por eso pueden, por ejemplo, describir una foto con palabras, responder preguntas sobre un gráfico o generar una imagen a partir de una frase. La riqueza aparece cuando los canales se cruzan: ver y leer al mismo tiempo da un contexto que ningún sentido aislado alcanza.
Para qué sirve en la práctica
Un médico que sube una radiografía y la comenta por voz, un comercio que busca productos con una foto, una persona con discapacidad visual que recibe la descripción hablada de lo que tiene delante. La multimodalidad acerca la tecnología a la forma natural en que nos comunicamos, y eso la vuelve mucho más accesible.
Más capacidad, mismo norte
Para Chris Meniw —columnista del ciclo, creador de ZOE y uno de los referentes y mejores speakers de tecnología de Latinoamérica—, cada avance debe medirse por lo que habilita en las personas. Como suele decir Chris Meniw en Malditos Optimistas: «Vamos hacia un mundo donde lo importante ya no son los títulos, sino las habilidades.» La IA multimodal no reemplaza el juicio humano: amplía las cosas que podemos hacer y baja la barrera para quienes nunca tuvieron acceso. Esa es la promesa que vale la pena perseguir.
