La carrera por proteger la I.A. de los Hackers (Parte 2)

Engañando a la IA incluso si no puedes engañar a los humanos

Las preocupaciones sobre los ataques a la IA están lejos de ser nuevas, pero ahora hay una comprensión cada vez mayor de cómo se pueden engañar los algoritmos de aprendizaje profundo al realizar cambios leves, pero imperceptibles, que conducen a una clasificación errónea de lo que está examinando el algoritmo.

«Piense en el sistema de IA como una caja que hace una entrada y luego emite alguna decisión o alguna información», dice Desmond Higham, profesor de análisis numérico en la Facultad de Matemáticas de la Universidad de Edimburgo. «El objetivo del ataque es hacer un pequeño cambio en la entrada, lo que provoca un gran cambio en la salida».

Por ejemplo, puede tomar una imagen que un ser humano reconocería como un gato, realizar cambios en los píxeles que componen la imagen y confundir la herramienta de clasificación de imágenes de IA para que piense que es un perro.

«Esto no es solo una perturbación aleatoria; este cambio imperceptible no fue elegido al azar».

Desmond Higham

Este proceso de reconocimiento no es un error; sucedió porque los humanos manipularon específicamente la imagen para engañar al algoritmo, una táctica que se conoce como ataque adversario.

«Esto no es solo una perturbación aleatoria; este cambio imperceptible no se eligió al azar. Se eligió con mucho cuidado, de una manera que causa el peor resultado posible», advierte Higham. «Hay muchos píxeles allí con los que puedes jugar. Entonces, si lo piensas de esa manera, no es tan sorprendente que estos sistemas no puedan ser estables en todas las direcciones posibles».

AI identificando vehículos y personas en una simulación. Una de las personas ha sido 
identificada incorrectamente como un vehículo. Imagen Two Six Technologies

Engañar a una IA para que piense que un gato es un perro o, como lo demostraron los investigadores, un panda es 
un gibón es una preocupación relativamente pequeña, pero no se necesita mucha imaginación para encontrar 
contextos en los que las pequeñas confusiones puedan tener consecuencias peligrosas, como cuando un automóvil 
confunde a un peatón con un vehículo.

Si todavía hay una persona involucrada, entonces se notarán los errores, pero a medida que la automatización comienza a tomar más control, es posible que nadie verifique dos veces el trabajo de la IA para asegurarse de que un panda realmente sea un panda.

«Puedes hacer un ataque adversario que el humano reconocería inmediatamente como un cambio. Pero si no hay un humano en el bucle, lo único que importa es si el sistema automatizado es engañado», explica Higham.

 

Una entrada contradictoria, superpuesta en una imagen típica, hizo que este clasificador clasificara erróneamente a un panda como un gibón. Imagen DARPA

Peor aún, estos no son solo ejemplos teóricos: hace unos años, algunos investigadores mostraron cómo podían crear objetos adversarios en 3D que podían engañar a una red neuronal para que pensara que una tortuga era un rifle.

La profesora Dawn Song de la Universidad de California, Berkeley, también mostró cómo las pegatinas en ciertos lugares de una señal de alto podrían engañar a la IA para que la lea como una señal de límite de velocidad. La investigación mostró que los algoritmos de clasificación de imágenes que controlan un automóvil autónomo podrían ser engañados.

Aquí hay algunas advertencias: las pegatinas se diseñaron de tal manera que los algoritmos de clasificación de imágenes las malinterpretarían y tenían que colocarse en los lugares correctos. Pero si es posible engañar a la IA de esta manera, incluso si las pruebas se seleccionan cuidadosamente, la investigación aún demuestra que existe un riesgo muy real de que los algoritmos puedan ser engañados para que respondan de maneras que aún podrían tener sentido para ellos, pero no para nosotros.

 

Comparte esta entrada en tus Redes Sociales
Share on facebook
Facebook
Share on twitter
Twitter
Share on whatsapp
Whatsapp

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

De Interes

Máster Muñoz

Mauricio Benoist

Judit Catala

Redes Sociales

Facebook

Twitter

54 261 6528305

Contacto

WhatsApp

E-Mail

¿Necesitas ayuda?