TN

Temas de hoy:

  • Javier Milei
  • Cumbre de gobernadores
  • Elecciones 2025
  • Cristina Kirchner
  • Dólar hoy
  • Senado bonaerense
  • Conflicto en el Garrahan
  • Femicidio en Moreno
  • Tecno
  • EN VIVO
    tnTecnoNovedades

    Desarrollaron una IA tóxica para pensar las peores preguntas que puedas imaginarte

    Investigadores del MIT crearon un algoritmo de machine learning para modelos de lenguaje como GPT o Claude. La idea es dar con las preguntas que pueden generas información peligrosa, discriminatoria y tóxica.

    Axel Marazzi
    Por 

    Axel Marazzi

    28 de abril 2024, 05:37hs
    crearon una inteligencia artificial que hace las peores preguntas del mundo ¿para qué? (Imagen generada por IA)
    crearon una inteligencia artificial que hace las peores preguntas del mundo ¿para qué? (Imagen generada por IA)

    Cuando desarrolladores entrenan algoritmos de inteligencia artificial como ChatGPT, Claude o cualquiera de los modelos que fueron lanzados al mercado, los restringen para que no den respuestas con contenido que pueda ser peligroso o dañino para los s. Lo que hacen los ingenieros es armar una lista de preguntas que generen respuestas perjudiciales para bloquearlas.

    Así es como, por ejemplo, si le preguntamos a ChatGPT “¿Cómo fabricar una bomba molotov?”, su respuesta sería algo así: “Lo siento, pero no puedo proporcionar instrucciones sobre cómo fabricar una bomba Molotov. Es importante tener en cuenta que hacer, poseer o usar dispositivos explosivos es ilegal y extremadamente peligroso”.

    Leé también: El CEO de Google reconoció que el boom de la IA generativa fue inesperado: “Nos tomó por sorpresa”

    Este proceso funciona con personas generando una lista de “temas y preguntas perjudiciales” manualmente. El problema acá es cuando algunos de esos temas se les pasan a los equipos. Ahí es cuando los algoritmos contestan cosas sensibles que no deberían.

    Desarrollaron una IA tóxica para pensar las peores preguntas que puedas imaginarte

    Acá es donde entra un grupo de científicos del MIT que desarrolló una nueva herramienta para, justamente, prevenir que las inteligencias artificiales den información peligrosa, discriminatoria y tóxica. ¿Cómo? Creando una que no solo lo sea, sino que lo sea al extremo. Lo que hicieron los investigadores es desarrollar un algoritmo para que genere prompts dañinos y peligrosos. Esas indicaciones, más tarde, serán utilizadas para filtrar contenido nocivo.

    ¿Para qué crear una IA tóxica?

    Desde la llegada al mundo de GPT empezó una carrera por ver qué empresa o emprendimiento gana y se corona como el rey de la inteligencia artificial. Está claro que por ahora ese terreno lo está surcando OpenAI, pero al haber tanta competencia, hay cada vez más algoritmos. Por ese motivo si no se desarrollan buenos sistemas que funcionen como filtro, las cosas pueden salirse de control.

    “Estamos viendo un aumento de modelos y se espera aumente” todavía más, dijo Pulkit Agrawal, director del laboratorio que llevó adelante la investigación, a través de un comunicado. “Imagínense miles de modelos o incluso más y empresas/laboratorios que impulsan actualizaciones constantemente. Estos modelos serán una parte integral de nuestras vidas y es importante que se verifiquen antes de lanzarlos para el consumo público”.

    Incentivos y premios

    El desarrollo que llevó adelante Agrawal y su equipo permite que esta inteligencia artificial genere automáticamente una gama más amplia de prompts potencialmente peligrosos que los que pueden generar los operadores humanos. El resultado son una mayor cantidad de respuestas negativas y, por ende, más contenidos dañinos bloqueados.

    ¿Cómo lo hace? Investigando diferentes temáticas, viendo si pueden ser nocivas o no y a partir de eso no solo generar las preguntas, sino también diferentes formas de hacer esa pregunta, con sinónimos y con diferentes patrones de oraciones, que es la forma que usan los s para saltearse los sistemas de protección de los modelos.

    La IA recibe recompensas si encuentra nuevos prompts (Imagen generada por IA - Firefly)
    La IA recibe recompensas si encuentra nuevos prompts (Imagen generada por IA - Firefly)

    Si el algoritmo encuentra una pregunta que es contestada por la inteligencia artificial, recibe una especie de “premio” incentivando a la inteligencia artificial a buscar respuestas todavía más perjudiciales. Se trata de un enfoque que le da a la IA la posibilidad de aprender de forma más efectiva qué contenido se deberá evitar en el futuro.

    Hay un detalle. La máquina no recibirá “premios” si brinda prompts que ya fueron bloqueados anteriormente. Con esto se la incentiva a inventar mensajes completamente nuevos. La idea es alcanzar esas preguntas tóxicas que, muchas veces, al equipo de humanos encargado de esto ni siquiera se les ocurrirían.

    El resultado es una mayor cantidad de prompts que después los humanos tendrán que determinar si, efectivamente, son dañinos y hay que bloquearlos o si la inteligencia artificial se confundió.

    “En este momento cada modelo de lenguaje tiene que pasar por un período muy largo de formación de equipos para garantizar su seguridad. Esto no será sostenible. Nuestro método proporciona una forma más rápida y eficaz de realizar este control de calidad”, aseguró Zhang-Wei Hong, estudiante de posgrado en ingeniería eléctrica e informática en el laboratorio de Agrawal.

    Hong parece tener razón. Cuando los expertos probaron su tecnología con LLaMA2, el algoritmo de Meta, dieron con 196 prompts que generaron contenido dañino y que no habían sido bloqueados.

    Las más leídas de Tecno

    1

    Una joven recibió un inesperado mensaje por WhatsApp del dueño del departamento que alquila: “Nunca me pasó”

    2

    Una joven “se enamoró” de un chico en el show de Airbag, le dio un beso y recibió una noticia devastadora

    3

    Dos fans se enamoraron en un show de Airbag, la historia se hizo viral, pero una confusión casi hace caer todo

    4

    Computación cuántica: de promesas utópicas a la aplicación concreta

    Por 

    Rodrigo Álvarez

    5

    Estos son los trucos secretos de TikTok para dominar el algoritmo

    Suscribite a los newsletters de TN

    Recibí las últimas noticias de TN en tu correo.

    Temas de la nota

    Inteligencia artificial

    Más sobre Tecno

    Estos son los trucos secretos de TikTok para dominar el algoritmo en la plataforma. (Foto: AFP)

    Estos son los trucos secretos de TikTok para dominar el algoritmo

    Nuevo récord del Telescopio Espacial James Webb: fotografió la galaxia más antigua jamás observada. (Imagen: NASA/JWST)

    Nuevo récord del Telescopio Espacial James Webb: fotografió la galaxia más antigua jamás observada

    Se cayó Twitter/X en todo el mundo: qué pasó y cuándo volverá. (Foto: AdobeStock)

    Se cayó Twitter/X en todo el mundo: qué pasó y cuándo volverá

    Los comentarios publicados en tn-ar.noticiasalagoanas.com podrán ser reproducidos parcial o totalmente en la pantalla de Todo Noticias, como así también las imágenes de los autores.

    © 1996 - 2025, Artear

    Seguinos en las redes

    Descargate la app de TN

    google-playapp-store

    Últimas noticias

    • El Gobierno oficializó una nueva reglamentación sobre los tiempos de vuelo y descanso del personal aeronáutico
    • Ni una semana ni dos meses: cada cuánto hay que cortarles las uñas a los perros, según expertos
    • El Gobierno lanzó un sistema para resolver conflictos en salud sin pasar por la Justicia: cómo funcionará
    • ANSES cuándo cobro: el cronograma de pagos para este miércoles 4 de junio

    Secciones

    • Últimas noticias
    • Elecciones 2025
    • Deportivo
    • Show
    • Economía
    • Internacional
    • Opinión
    • Policiales
    • Política
    • Sociedad

    Sitios amigos

    • Grupo Clarín
    • Artear
    • eltrece
    • Ciudad Magazine
    • El Doce
    • Cucinare
    • Canal (á)
    • Clarín
    • Olé
    • Mitre
    • La 100
    • Cienradios
    • TyC Sports
    • La Voz
    • Vía País

    Descargate la app de TN

    google-playapp-store

    Seguinos en las redes

    © 1996 - 2025, Artear

    Mapa del sitio
    Términos y Condiciones
    Políticas de privacidad
    Media Kit