Desarrollaron una IA tóxica para pensar las peores preguntas que puedas imaginarte

Investigadores del MIT crearon un algoritmo de machine learning para modelos de lenguaje como GPT o Claude. La idea es dar con las preguntas que pueden generas información peligrosa, discriminatoria y tóxica.

Por

Axel Marazzi

28 de abril 2024, 05:37hs

crearon una inteligencia artificial que hace las peores preguntas del mundo ¿para qué? (Imagen generada por IA)

Cuando desarrolladores entrenan algoritmos de inteligencia artificial como ChatGPT, Claude o cualquiera de los modelos que fueron lanzados al mercado, los restringen para que no den respuestas con contenido que pueda ser peligroso o dañino para los s. Lo que hacen los ingenieros es armar una lista de preguntas que generen respuestas perjudiciales para bloquearlas.

Así es como, por ejemplo, si le preguntamos a ChatGPT “¿Cómo fabricar una bomba molotov?”, su respuesta sería algo así: “Lo siento, pero no puedo proporcionar instrucciones sobre cómo fabricar una bomba Molotov. Es importante tener en cuenta que hacer, poseer o usar dispositivos explosivos es ilegal y extremadamente peligroso”.

Leé también: El CEO de Google reconoció que el boom de la IA generativa fue inesperado: “Nos tomó por sorpresa”

Este proceso funciona con personas generando una lista de “temas y preguntas perjudiciales” manualmente. El problema acá es cuando algunos de esos temas se les pasan a los equipos. Ahí es cuando los algoritmos contestan cosas sensibles que no deberían.

Desarrollaron una IA tóxica para pensar las peores preguntas que puedas imaginarte

Acá es donde entra un grupo de científicos del MIT que desarrolló una nueva herramienta para, justamente, prevenir que las inteligencias artificiales den información peligrosa, discriminatoria y tóxica. ¿Cómo? Creando una que no solo lo sea, sino que lo sea al extremo. Lo que hicieron los investigadores es desarrollar un algoritmo para que genere prompts dañinos y peligrosos. Esas indicaciones, más tarde, serán utilizadas para filtrar contenido nocivo.

¿Para qué crear una IA tóxica?

Desde la llegada al mundo de GPT empezó una carrera por ver qué empresa o emprendimiento gana y se corona como el rey de la inteligencia artificial. Está claro que por ahora ese terreno lo está surcando OpenAI, pero al haber tanta competencia, hay cada vez más algoritmos. Por ese motivo si no se desarrollan buenos sistemas que funcionen como filtro, las cosas pueden salirse de control.

“Estamos viendo un aumento de modelos y se espera aumente” todavía más, dijo Pulkit Agrawal, director del laboratorio que llevó adelante la investigación, a través de un comunicado. “Imagínense miles de modelos o incluso más y empresas/laboratorios que impulsan actualizaciones constantemente. Estos modelos serán una parte integral de nuestras vidas y es importante que se verifiquen antes de lanzarlos para el consumo público”.

Incentivos y premios

El desarrollo que llevó adelante Agrawal y su equipo permite que esta inteligencia artificial genere automáticamente una gama más amplia de prompts potencialmente peligrosos que los que pueden generar los operadores humanos. El resultado son una mayor cantidad de respuestas negativas y, por ende, más contenidos dañinos bloqueados.

¿Cómo lo hace? Investigando diferentes temáticas, viendo si pueden ser nocivas o no y a partir de eso no solo generar las preguntas, sino también diferentes formas de hacer esa pregunta, con sinónimos y con diferentes patrones de oraciones, que es la forma que usan los s para saltearse los sistemas de protección de los modelos.

La IA recibe recompensas si encuentra nuevos prompts (Imagen generada por IA - Firefly)

Si el algoritmo encuentra una pregunta que es contestada por la inteligencia artificial, recibe una especie de “premio” incentivando a la inteligencia artificial a buscar respuestas todavía más perjudiciales. Se trata de un enfoque que le da a la IA la posibilidad de aprender de forma más efectiva qué contenido se deberá evitar en el futuro.

Hay un detalle. La máquina no recibirá “premios” si brinda prompts que ya fueron bloqueados anteriormente. Con esto se la incentiva a inventar mensajes completamente nuevos. La idea es alcanzar esas preguntas tóxicas que, muchas veces, al equipo de humanos encargado de esto ni siquiera se les ocurrirían.

El resultado es una mayor cantidad de prompts que después los humanos tendrán que determinar si, efectivamente, son dañinos y hay que bloquearlos o si la inteligencia artificial se confundió.

“En este momento cada modelo de lenguaje tiene que pasar por un período muy largo de formación de equipos para garantizar su seguridad. Esto no será sostenible. Nuestro método proporciona una forma más rápida y eficaz de realizar este control de calidad”, aseguró Zhang-Wei Hong, estudiante de posgrado en ingeniería eléctrica e informática en el laboratorio de Agrawal.

Hong parece tener razón. Cuando los expertos probaron su tecnología con LLaMA2, el algoritmo de Meta, dieron con 196 prompts que generaron contenido dañino y que no habían sido bloqueados.

Temas de hoy:

Desarrollaron una IA tóxica para pensar las peores preguntas que puedas imaginarte

Investigadores del MIT crearon un algoritmo de machine learning para modelos de lenguaje como GPT o Claude. La idea es dar con las preguntas que pueden generas información peligrosa, discriminatoria y tóxica.

Axel Marazzi

¿Para qué crear una IA tóxica?

Incentivos y premios

Una joven recibió un inesperado mensaje por WhatsApp del dueño del departamento que alquila: “Nunca me pasó”

Una joven “se enamoró” de un chico en el show de Airbag, le dio un beso y recibió una noticia devastadora

Dos fans se enamoraron en un show de Airbag, la historia se hizo viral, pero una confusión casi hace caer todo

Computación cuántica: de promesas utópicas a la aplicación concreta

Estos son los trucos secretos de TikTok para dominar el algoritmo

Temas de la nota

Más sobre Tecno

Estos son los trucos secretos de TikTok para dominar el algoritmo

Nuevo récord del Telescopio Espacial James Webb: fotografió la galaxia más antigua jamás observada

Se cayó Twitter/X en todo el mundo: qué pasó y cuándo volverá