La nueva IA de subtítulos de imágenes de Microsoft

admin  

La nueva IA de subtítulos de imágenes de Microsoft ayudará a la accesibilidad en Word, Outlook y más allá

 

El algoritmo de subtitulado de imagen se utilizará para mejorar aplicaciones como Ver IA, aquí siendo utilizado por el desarrollador Florian Beijers. Imagen: Microsoft / Maurice Jager

Microsoft ha desarrollado un nuevo algoritmo de subtitulado de imágenes que supera la precisión humana en ciertas pruebas limitadas. El sistema de IA se ha utilizado para actualizar la aplicación asistente de la empresa para las personas con discapacidad visual, Ver IA, y pronto se incorporará a otros productos de Microsoft como Word, Outlook y PowerPoint. Allí, se utilizará para tareas como crear texto alternativo para imágenes, una función que es particularmente importante para aumentar la accesibilidad.

“Idealmente, todo el mundo incluiría texto alternativo para todas las imágenes en documentos, en la web, en las redes sociales, ya que esto permite a las personas ciegas acceder al contenido y participar en la conversación”, dijo Saqib Shaikh, un gerente de ingeniería de software con el equipo de IA de Microsoft en un comunicado de prensa. “Pero, por desgracia, la gente no. Por lo tanto, hay varias aplicaciones que usan el subtitulado de imágenes como forma de rellenar texto alternativo cuando falta.”

EL NUEVO ALGORITMO ES EL DOBLE DE BUENO QUE SU PREDECESOR DICE MICROSOFT

Estas aplicaciones incluyen la propia IA Seeing de Microsoft, que la compañía lanzó por primera vez en 2017. Ver IA utiliza la visión por computadora para describir el mundo como visto a través de una cámara de teléfono inteligente para personas con discapacidad visual. Puede identificar elementos domésticos, leer y escanear texto, describir escenas e incluso identificar amigos. También se puede utilizar para describir imágenes en otras aplicaciones, incluidos clientes de correo electrónico, aplicaciones de redes sociales y aplicaciones de mensajería como WhatsApp.

Microsoft no revela los números de usuario para Ver IA, pero Eric Boyd, vicepresidente corporativo de Azure AI, dijo a The Verge que el software es “una de las aplicaciones líderes para las personas ciegas o con baja visión”. Ver la IA ha sido votada mejor aplicación o mejor aplicación de asistencia tres años seguidos por AppleVis, una comunidad de usuarios de iOS ciegos y de baja visión.

El nuevo algoritmo de subtítulos de imágenes de Microsoft mejorará significativamente el rendimiento de Ver IA, ya que es capaz no solo de identificar objetos, sino también de describir con mayor precisión la relación entre ellos. Por lo tanto, el algoritmo puede mirar una imagen y no sólo decir qué elementos y objetos contiene (por ejemplo, “una persona, una silla, un acordeón”) sino cómo están interactuando (por ejemplo, “una persona está sentada en una silla y tocando un acordeón”). Microsoft dice que el algoritmo es el doble de bueno que su sistema de subtítulos de imágenes anterior, en uso desde 2015.

El algoritmo, que fue descrito en un artículo de preimpresa publicado en septiembre,logró las puntuaciones más altas de la historia en un punto de referencia de subtítulos de imagen conocido como “nocaps”. Este es un marcador líder en la industria para el subtitulado de imágenes, aunque tiene sus propias restricciones.

El punto de referencia nocaps consta de más de 166.000 subtítulos generados por humanos que describen unas 15.100 imágenes tomadas del conjunto de datos de imágenes abiertas. Estas imágenes abarcan una amplia gama de escenarios, desde deportes hasta instantáneas navideñas, fotografía de alimentos y mucho más. (Puede hacerse una idea de la mezcla de imágenes y subtítulos explorando el conjunto de datos nocaps aquí o mirando la galería a continuación.) Los algoritmos se prueban en su capacidad de crear subtítulos para estas imágenes que coinciden con los de los seres humanos.

 VISTA DE CUADRÍCULA


1 de 7

  •  
  •  
  •  
  •  
  •  
  •  
  •  

Es importante tener en cuenta, sin embargo, que los puntos de referencia nocaps capturan sólo una pequeña astilla de la complejidad de los subtítulos de imagen como una tarea general. Aunque Microsoft afirma en un comunicado de prensa que su nuevo algoritmo “describe las imágenes, así como las personas”, esto sólo es cierto en la medida en que se aplica a un subconjunto muy pequeño de imágenes contenidas dentro de nocaps.

“SUPERAR EL RENDIMIENTO HUMANO EN LOS NOCAPS NO ES UN INDICADOR DE QUE EL SUBTITULADO DE LA IMAGEN ES UN PROBLEMA RESUELTO”

Como Harsh Agrawal, uno de los creadores del punto de referencia, dijo a The Verge por correo electrónico: “Superar el rendimiento humano en los nocaps no es un indicador de que el subtitulado de imágenes es un problema resuelto”. Argawal señaló que las métricas utilizadas para evaluar el rendimiento en los nocaps “sólo se correlacionan aproximadamente con las preferencias humanas” y que el propio punto de referencia “sólo cubre un pequeño porcentaje de todos los conceptos visuales posibles”.

“Al igual que con la mayoría de los puntos de referencia, [el] punto de referencia nocaps es sólo un indicador aproximado del rendimiento de los modelos en la tarea”, dijo Argawal. “Superar el rendimiento humano en los nocaps de ninguna manera indica que los sistemas de IA superan a los humanos en la comprensión de la imagen”.

Este problema, suponiendo que el rendimiento en un punto de referencia específico se puede extrapolar como rendimiento en la tarea subyacente de forma más general, es común cuando se trata de exagerar la capacidad de la IA. De hecho, Microsoft ha sido criticado por los investigadores en el pasado por hacer afirmaciones similares sobre la capacidad de sus algoritmos para comprender la palabra escrita.

Sin embargo, el subtitulado de imágenes es una tarea que ha visto enormes mejoras en los últimos años gracias a la inteligencia artificial, y los algoritmos de Microsoft son sin duda de última generación. Además de integrarse en Word, Outlook y PowerPoint, la IA con subtítulos de imágenes también estará disponible como modelo independiente a través de Azure, la nube y la plataforma de IA de Microsoft.