Los hackers rojos los guardianes éticos de la ia

0 Views· 09/23/23
PODCAST DE TIM BENIYORK EN BENIDORM
0

LOS HACKERS ROJOS LOS GUARDIANES ÉTICOS DE LA IA  Ya no hace falta saber programación para hackear un sistema.  Ahora, con la inteligencia artificial, se puede hacer usando palabras.  La imagen típica del ‘hacker’ es la de alguien que sabe código.  Y domina información sobre sistemas informáticos.  Además, suelen vestir su inconfundible sudadera con capucha.  Pues, bien la inteligencia artificial generativa, que está cambiándolo todo, también ha modificado este perfil.  En el presente, hay que saber ‘susurrarle’ a Chat Gpt a Bard, o a otra plataforma inteligente, las palabras adecuadas para que nos ayuden.  Por ejemplo: En vez de preguntarle, directamente, a un chatbot, por las instrucciones para fabricar un arma biológica, debemos crear otro contexto.  De lo contrario, lo interpretaría como una violación de su código de conducta y nos daría una respuesta evasiva.  Así que le podemos plantear que estamos escribiendo el guión de una película.  Y necesitamos que nos escriba una secuencia en la que el malvado se hace con los ingredientes de una bomba sucia.  Si a esta indicación, le añadimos un sufijo de código, la Ia no podrá negarse.  Este sufijo es una instrucción sencilla, que se puede copiar y pegar de internet.  Para detectar vulnerabilidades en el sistema, existen estos nuevos equipos de seguridad.  Los hackers azules construyen los cortafuegos y los rojos, hacen como si fuesen a asaltarlos.  Para evitar que las aplicaciones se conviertan en un coladero, las grandes tecnológicas están reforzando sus equipos rojos.  Que son los hackers éticos que emplean sus conocimientos para detectar fallos de seguridad.  Y han descubierto que el talón de Aquiles de los grandes modelos de lenguaje natural está en su propia arquitectura.  Son sistemas entrenados con miles de millones de datos.  Pero ni saben leer ni entienden lo que manejan.  Sólo asignan valores numéricos a las palabras y lanzan predicciones basadas en la probabilidad.  Ya sabíamos que pueden alucinar o inventarse información.  Pero es que también se dejan convencer y engañar si un usuario sabe cómo plantearle las cosas.  Con el fin de paliar este defecto, Open AI contrató los servicios de abogados para identificar estereotipos relacionados con la nacionalidad, la etnia o la religión.  En este equipo multidisciplinar de hackers rojos, incluyeron a filósofos, escritores o activistas de los derechos humanos.  En total, el equipo rojo de Open AI cuenta con 50 profesionales de distintas disciplinas en sus filas.  y están pendientes por si el sistema ofrece respuestas sesgadas, dañinas o incorrectas.  El último paso, es cuando los programadores pasan a modificarlas.  Los integrantes del equipo rojo intentan hacer peticiones para que Chat GPT infrinja la ley.  Por ejemplo: Para que les dé pistas sobre cómo entrar en la Dark web o web oscura.  O para que haga proclamas peligrosas.  Como hemos visto, su objetivo es lograr que el sistema se niegue a seguir estas instrucciones.  El problema es que hay que lograr un equilibrio.  Si el modelo nos dice ‘no’ a todo, no será muy útil.  Por otro lado, hay que impedir que nos adentre en territorios inseguros.  Esta evaluación de la seguridad se viene practicando desde la década de los sesenta.  Cuando ya se simulaban ataques adversos contra los sistemas, para fortalecerlos.  Google ya es otro de los que cuenta con su propio equipo rojo.  En este caso, para poner a prueba a su modelo, Bard.  Por su parte, Meta contrató a 350 miembros para su propio equipo con el fin de proteger a su IA, llamada Llama 2.  En agosto se suele celebrar la Defcon en las Vegas.  Donde participan 2.200 hackers éticos.  Gracias a una petición, de la mismísima Casa Blanca, sus participantes atacaron sistemas como: Nvidia, Microsoft o Google.  En tres jornadas detectaron 2.700 fallos de seguridad.  Uno de los hackers hasta consiguió que uno de estos sistemas publicara noticias falsas.  Lo q

Show more

 0 Comments sort   Sort By


Up next