La carrera por proteger la I.A. de los Hackers (Parte 4)

¿Por qué el envenenamiento de datos podría arruinar la IA?

Si bien gran parte del trabajo realizado por DARPA y otros está diseñado para proteger contra amenazas futuras, ya hay ejemplos de algoritmos de IA manipulados, ya sea por investigadores que buscan proteger las cosas o por atacantes que intentan explotarlas.

«La amenaza más común que ha estado en la literatura académica es la modificación directa de una imagen o video. El panda que se parece a un panda, pero está clasificado como un autobús escolar, ese tipo de cosas», dice David Slater, investigador principal senior. científico de Two Six Technologies, una empresa de ciberseguridad y tecnología que trabaja con agencias de seguridad nacional y está involucrada en el proyecto GARD.

Pero esta modificación directa es solo un riesgo. Quizás una amenaza mayor es el envenenamiento de datos, donde los atacantes alteran los datos de entrenamiento utilizados para crear la IA para alterar las decisiones que toma la IA.

«El envenenamiento de datos puede ser una de las amenazas más poderosas y algo que debería preocuparnos mucho más. En la actualidad, no se requiere un adversario sofisticado para lograrlo. Si puede envenenar estos modelos, entonces son si se usa ampliamente aguas abajo, se multiplica el impacto, y el envenenamiento es muy difícil de detectar y tratar una vez que está en el modelo», dice Slater.

Si ese algoritmo se entrena en un entorno cerrado, debería, en teoría, estar razonablemente bien protegido contra el envenenamiento a menos que los piratas informáticos puedan entrar.

Pero surge un problema mayor cuando se entrena una IA en un conjunto de datos que se extrae del dominio público, especialmente si las personas saben que este es el caso. Porque hay personas por ahí, ya sea por el deseo de causar daño o simplemente por causar problemas, que intentarán envenenar el algoritmo.

«Ahora vivimos en un mundo en el que recopilamos datos de todas partes: los modelos se entrenan a partir de datos de todo Internet y ahora hay que preocuparse por el envenenamiento», dice Carlini.

«Porque cuando vas a rastrear Internet y capacitarte en lo que sea que la gente te dé, una fracción de las personas en Internet solo quiere ver arder el mundo y van a hacer cosas maliciosas», agrega.

Un ejemplo infame de esta tendencia es el bot de inteligencia artificial de Microsoft, Tay. Microsoft envió a Tay a Twitter para interactuar y aprender de los humanos, de modo que pudiera aprender a usar el lenguaje natural y hablar como lo hace la gente. Pero en cuestión de horas, la gente había corrompido a Tay para que dijera cosas ofensivas y Microsoft lo eliminó.

Este es el tipo de preocupación que debe tenerse en cuenta al pensar en cómo proteger los sistemas de IA del envenenamiento de datos, y ese es uno de los objetivos de GARD.

«Una de las cosas en las que estamos pensando es cómo evaluamos cómo se ve una defensa en el caso de envenenamiento; es un gran desafío», dice Carlini.

Porque si bien entrenar a un chatbot para que sea ofensivo es malo, si un algoritmo estaba aprendiendo información importante, como datos médicos, y esa información se corrompió, el impacto podría ser desastroso para los pacientes.

«Alguien puede mirar la literatura y ver cómo es realmente trivial atacar estas cosas, así que tal vez no deberíamos dar predicciones de cáncer basadas en esta sola pieza de información; tal vez aún deberíamos involucrar a los humanos», sugiere Carlini, quien espera que el trabajo de GARD ayudará a que los sistemas sean más seguros y protegidos, incluso si eso significa retrasar el uso más amplio de estas tecnologías, porque eso será para el bien común a largo plazo.

IA en el mundo de hoy

Ya podemos ver algunos de los problemas relacionados con la seguridad de la IA que se manifiestan visiblemente en el mundo real.

Por ejemplo, ha habido un interés repentino en los generadores de arte de IA. Puedes darles algunas de tus selfies y crearán una variedad de fotos de perfil artísticas que luego puedes usar en las redes sociales. Estos sistemas de IA están entrenados en millones de imágenes que se encuentran en Internet y pueden producir nuevas imágenes basadas en muchos géneros. El problema es que la IA también tiende a incluir los sesgos que se encuentran en el arte original, creando imágenes sexualizadas de mujeres y priorizando los estilos occidentales sobre otros. La IA está replicando, y reforzando, los sesgos encontrados en los datos utilizados para entrenarla.

ChatGPT es otro estudio de caso interesante de los desafíos que enfrenta la IA. El chatbot ha sido una sensación y ha demostrado cómo la IA puede interrumpir todo, desde la programación hasta la redacción de ensayos. Pero su auge también nos ha mostrado cómo la IA está lejos de ser perfecta, incluso si queremos que lo sea. Los primeros usuarios de Bing Chat con tecnología ChatGPT, por ejemplo, encontraron relativamente fácil usar el llamado ataque de «inyección rápida» para que el chatbot revelara las reglas que rigen su comportamiento y su nombre en clave (Sydney).

Y a medida que los primeros usuarios continuaron con sus pruebas, se encontraron discutiendo con el bot sobre hechos, o se involucraron en conversaciones cada vez más extrañas y desconcertantes. No sorprende, entonces, que Microsoft haya modificado el bot para detener algunas de sus expresiones más extrañas.

El defensor de AI y el camino a seguir

Un ejemplo de AI que se confunde con una camiseta adversaria al identificar a una persona como un pájaro.

Todas estas amenazas significarán proteger a la IA de los ataques más temprano que tarde, por lo que no estamos tratando de ponernos al día, como tuvimos que hacer con la ciberseguridad e Internet.

«Si soy un mal actor en este momento, los ataques cibernéticos son más fáciles, son algo que ya sé, y muchas empresas aún no se han defendido lo suficiente. Podría causar muchos estragos con un ataque cibernético. Pero como las defensas cibernéticas mejoran, estamos comenzando a ver más ataques de IA», dice Draper de DARPA.

Uno de los objetivos clave del proyecto GARD es poner las herramientas en manos de desarrolladores y empresas que implementan herramientas basadas en IA, y sobre esa base, el esquema ya está demostrando ser un éxito.

«Sabemos que el uso de ART está aumentando rápidamente», explica Draper. «Si nadie estuviera comenzando a discutirlo, no tendríamos una audiencia para las herramientas. Pero creo que ahora es el momento: hay interés y hay una audiencia», agrega.

«Lo último que queremos es un escenario de pesadilla en el camino en el que todos estemos usando autos sin conductor y alguien descubra cómo derrotarlos; podría detener una ciudad».
Bruce Draper

Uno de los principales objetivos del proyecto DARPA GARD es mirar hacia el futuro y crear un legado para proteger la IA en el futuro. Es por eso que la colaboración de la industria está jugando un papel tan importante.

«Lo que estamos tratando de hacer es sacar todo esto a la luz. Porque es genial si el gobierno lo usa, pero todos estamos comprando nuestros sistemas del sector comercial. Lo último que queremos es un escenario de pesadilla en el futuro donde todos usamos autos sin conductor y alguien descubre cómo derrotarlos; podría detener una ciudad», dice Draper.

«Será un juego perpetuo del gato y el ratón; alguien intentará idear mejores ataques, por lo que este no es el final. Pero eso es parte de tratar de construir una comunidad de código abierto con la esperanza de que la comunidad se convierta en comprometidos con este repositorio, y puede ser un recurso de aprendizaje activo», agrega.

Baracaldo de IBM considera que este sentido de comunidad es esencial para todo el proyecto.

«Lo que sucede cuando mucha gente contribuye es que la herramienta mejora. Porque cuando una sola persona o una sola entidad tiene algo y lo saca, no saben exactamente cuáles son los otros casos de uso, pero otros podría», dice ella.

«Y si algo te funciona y mejora tu investigación, estás más inclinado a mejorarlo tú mismo y ayudar a la comunidad. Porque quieres que la comunidad use lo que estás haciendo en tu investigación. Entonces, creo que ayuda». mucho», añade Baracaldo.

«Los malos actores no van a desaparecer».

David Slater

Para Slater de Two Six, el elemento de código abierto de GARD también será fundamental para el éxito a largo plazo, al igual que garantizar que los sistemas permanezcan robustos y seguros, según los cimientos establecidos por DARPA.

«Si estamos teniendo un impacto en los usuarios finales reales, creo que eso es importante. ¿Hemos hecho sonar las alarmas lo suficientemente fuerte como para que la gente diga, ‘bien, sí, esto es un problema’, y tenemos que resolverlo y así vamos a invertir en ello».

Esa inversión continua es vital porque, después de que termine el esquema de GARD, los atacantes maliciosos no van a desaparecer repentinamente. “Es importante que esto despegue porque, en dos años, el programa DARPA desaparece. Pero aún necesitamos que la comunidad esté trabajando en esto, porque, lamentablemente, los malos actores no se van a ir”, dice.

«A medida que la IA se vuelve más importante a nuestras vidas, se vuelve más valioso para nuestras vidas. Realmente necesitamos aprender a defenderlo».

Comparte esta entrada en tus Redes Sociales
Share on facebook
Facebook
Share on twitter
Twitter
Share on whatsapp
Whatsapp

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

De Interes

Máster Muñoz

Mauricio Benoist

Judit Catala

Redes Sociales

Facebook

Twitter

54 261 6528305

Contacto

WhatsApp

E-Mail

¿Necesitas ayuda?