Cómo La Ia Ve A Través Del Espejo: Las Cosas Son Diferentes Al Otro Lado Del Espejo

Resumen de quiralidad visual

Las cosas son diferentes al otro lado del espejo.

El texto está al revés. Los relojes funcionan en sentido antihorario. Los coches circulan por el lado equivocado de la carretera. Las manos derechas se convierten en manos izquierdas.

Intrigado por cómo la reflexión cambia las imágenes de formas sutiles y no tan sutiles, un equipo de investigadores de Cornell utilizó inteligencia artificial para investigar qué diferencia a los originales de sus reflejos. Sus algoritmos aprendieron a detectar pistas inesperadas, como las partes del cabello, la dirección de la mirada y, sorprendentemente, las barbas, hallazgos con implicaciones para entrenar modelos de aprendizaje automático y detectar imágenes falsas.

“El universo no es simétrico. Si volteas una imagen, hay diferencias “, dijo Noah Snavely, profesor asociado de ciencias de la computación en Cornell Tech y autor principal del estudio,” Visual Chirality “, presentado en la Conferencia 2020 sobre Visión por Computadora y Reconocimiento de Patrones, que se realizó virtualmente en junio 14-19. “Estoy intrigado por los descubrimientos que puede hacer con nuevas formas de recopilar información”.

Zhiqui Lin ’20 es el primer autor del artículo; los coautores son Abe Davis, profesor asistente de informática, y el investigador postdoctoral de Cornell Tech, Jin Sun.

Diferenciar entre imágenes originales y reflejos es una tarea sorprendentemente fácil para la IA, dijo Snavely: un algoritmo básico de aprendizaje profundo puede aprender rápidamente a clasificar si una imagen se ha volteado entre un 60% y un 90%. exactitud , dependiendo de los tipos de imágenes utilizadas para entrenar el algoritmo. Muchas de las pistas que capta son difíciles de notar para los humanos.

Original y Reflexión

La IA aprende a captar pistas inesperadas para diferenciar las imágenes originales de sus reflejos, encontraron los investigadores. Crédito: Universidad de Cornell

Para este estudio, el equipo desarrolló tecnología para crear un mapa de calor que indica las partes de la imagen que son de interés para el algoritmo, para obtener información sobre cómo toma estas decisiones.

Descubrieron, como era de esperar, que la pista más utilizada era el texto, que se ve diferente al revés en cada idioma escrito. Para obtener más información, eliminaron imágenes con texto de su conjunto de datos y descubrieron que el siguiente conjunto de características en las que se centró el modelo incluía relojes de pulsera, cuellos de camisa (los botones tienden a estar en el lado izquierdo), caras y teléfonos, que la mayoría de las personas tienden a llevar en sus manos derechas, así como otros factores que revelan ser diestros.

Los investigadores estaban intrigados por la tendencia del algoritmo a enfocarse en las caras, que no parecen obviamente asimétricas. “De alguna manera, dejó más preguntas que respuestas”, dijo Snavely.

Luego, llevaron a cabo otro estudio que se centró en las caras y encontraron que el mapa de calor se iluminaba en áreas que incluían la parte del cabello, la mirada (la mayoría de las personas, por razones que los investigadores no conocen, miran hacia la izquierda en las fotos de retratos) y las barbas.

Snavely dijo que él y los miembros de su equipo no tienen idea de qué información está encontrando el algoritmo en las barbas, pero plantearon la hipótesis de que la forma en que las personas se peinan o se afeitan la cara podría revelar la mano.

“Es una forma de descubrimiento visual”, dijo Snavely. “Si puede ejecutar el aprendizaje automático a escala en millones y millones de imágenes, tal vez pueda comenzar a descubrir nuevos datos sobre el mundo”.

Cada una de estas pistas individualmente puede no ser confiable, pero el algoritmo puede generar una mayor confianza al combinar múltiples pistas, mostraron los hallazgos. Los investigadores también encontraron que el algoritmo utiliza señales de bajo nivel, derivadas de la forma en que las cámaras procesan las imágenes, para tomar sus decisiones.

Aunque se necesitan más estudios, los hallazgos podrían afectar la forma en que se entrenan los modelos de aprendizaje automático. Estos modelos necesitan una gran cantidad de imágenes para aprender a clasificar e identificar imágenes, por lo que los científicos informáticos a menudo usan reflejos de imágenes existentes para duplicar efectivamente sus conjuntos de datos.

Examinar cómo estas imágenes reflejadas difieren de las originales podría revelar información sobre posibles sesgos en el aprendizaje automático que podrían conducir a resultados inexactos, dijo Snavely.

“Esto lleva a una pregunta abierta para la comunidad de visión por computadora, que es, ¿cuándo está bien hacer este cambio para aumentar su conjunto de datos y cuándo no?” él dijo. “Espero que esto haga que la gente piense más sobre estas preguntas y comience a desarrollar herramientas para comprender cómo está sesgando el algoritmo”.

Comprender cómo la reflexión cambia una imagen también podría ayudar a usar la inteligencia artificial para identificar imágenes que han sido falsificadas o manipuladas, un tema de creciente preocupación en Internet.

“Esta es quizás una nueva herramienta o conocimiento que se puede utilizar en el universo de la ciencia forense de imágenes, si desea saber si algo es real o no”, dijo Snavely.

###

Referencia: “Visual Chirality” por Zhiqiu Lin, Jin Sun, Abe Davis y Noah Snavely, Conferencia 2020 sobre Visión por Computador y Reconocimiento de Patrones .
pdf

La investigación fue apoyada en parte por los filántropos Eric Schmidt, ex director ejecutivo de Google, y Wendy Schmidt.

Añadir un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *