Humanos en el bucle GenAI Innovación

Humanos en el bucle GenAI

Un visitante toma una foto con su teléfono móvil de una imagen diseñada con inteligencia artificial por el creador digital basado en Berlín Julian van Dieken (C) inspirado en la pintura de Johannes Vermeer "La joven de la perla" en el museo Mauritshuis en La Haya el 9 de marzo de 2023. – La obra de Julian van Dieken realizada con inteligencia artificial (IA) forma parte de la instalación especial de recreaciones de fans del cuadro "La joven de la perla" de Johannes Vermeer. en exhibición en el museo Mauritshuis.

La IA generativa, la tecnología detrás de ChatGPT, se está convirtiendo en una supernova, como dicen los astrónomos, eclipsando otras innovaciones por el momento. Pero a pesar de las predicciones alarmistas de que los señores de la IA esclavizan a la humanidad, la tecnología aún requiere controladores humanos y lo hará durante algún tiempo.

Si bien la IA puede generar contenido y código a un ritmo vertiginoso, todavía requiere que los humanos supervisen la salida, que puede ser de baja calidad o simplemente incorrecta. Ya sea escribiendo un informe o escribiendo un programa de computadora, no se puede confiar en que la tecnología brinde una precisión en la que los humanos pueden confiar. Está mejorando, pero incluso ese proceso de mejora depende de que un ejército de humanos corrija minuciosamente los errores del modelo de IA en un esfuerzo por enseñarle a 'comportarse'.

Humans in the loop es un concepto antiguo en IA. Se refiere a la práctica de involucrar a expertos humanos en el proceso de capacitación y refinamiento de los sistemas de IA para garantizar que funcionen correctamente y cumplan con los objetivos deseados.

En los primeros días de la investigación de la IA, los científicos informáticos se centraron en desarrollar sistemas basados en reglas que pudieran razonar y tomar decisiones basadas en reglas preprogramadas. Sin embargo, estos sistemas eran tediosos de construir (requerían expertos para escribir las reglas) y estaban limitados por el hecho de que solo podían operar dentro de las restricciones de las reglas que estaban explícitamente programadas en ellos.

A medida que avanzaba la tecnología de IA, los investigadores comenzaron a explorar nuevos enfoques, como el aprendizaje automático y las redes neuronales, que permitían a las computadoras aprender por sí mismas a partir de grandes volúmenes de datos de entrenamiento.

Pero el pequeño y sucio secreto detrás de la primera ola de tales aplicaciones, que siguen siendo la forma dominante de IA utilizada en la actualidad, es que dependen de datos etiquetados a mano. Decenas de miles de personas siguen trabajando duro en la aburrida tarea de colocar etiquetas en imágenes, texto y sonido para enseñar a los sistemas de IA supervisados qué buscar o escuchar.

Luego llegó la IA generativa, que no requiere datos etiquetados. Se aprende a sí mismo consumiendo grandes cantidades de datos y aprendiendo las relaciones dentro de esos datos, al igual que lo hace un animal en la naturaleza. Los modelos de lenguaje grande, que usan IA generativa, aprenden el mundo a través de la lente del texto y el mundo se ha sorprendido por la capacidad de estos modelos para redactar respuestas similares a las humanas e incluso participar en conversaciones similares a las humanas.

ChatGPT, un gran modelo de lenguaje entrenado por OpenAI, ha asombrado al mundo con la profundidad de su conocimiento y la fluidez de sus respuestas. Sin embargo, su utilidad está limitada por las llamadas alucinaciones, errores en el texto generado que son semántica o sintácticamente plausibles pero que, de hecho, son incorrectos o sin sentido.

¿La respuesta? Humanos, de nuevo. OpenAI está trabajando para abordar las alucinaciones de ChatGPT a través del aprendizaje reforzado con retroalimentación humana (RLHF), empleando, sí, una gran cantidad de trabajadores.

RLHF se ha empleado para dar forma al comportamiento de ChatGPT, donde los datos recopilados durante sus interacciones se utilizan para entrenar una red neuronal que funciona como un "predictor de recompensas". El predictor de recompensas evalúa los resultados de ChatGPT y predice un número puntuación que representa qué tan bien se alinean esas acciones con el comportamiento deseado del sistema. Un evaluador humano verifica periódicamente las respuestas de ChatGPT y selecciona aquellas que mejor reflejan el comportamiento deseado. Esta retroalimentación se utiliza para ajustar la red neuronal del predictor de recompensas, que luego se utiliza para modificar el comportamiento del modelo de IA.

Ilya Sutskever, científico jefe de OpenAI y uno de los creadores de ChatGPT, cree que el problema de las alucinaciones desaparecerá con el tiempo a medida que los grandes modelos de lenguaje aprendan a anclar sus respuestas en la realidad. Sugiere que las limitaciones de ChatGPT que vemos hoy disminuirán a medida que mejore el modelo. Sin embargo, es probable que los humanos en el circuito sigan siendo una característica de la asombrosa tecnología en los próximos años.

Esta es la razón por la cual los asistentes de codificación de IA generativa como CoPilot de GitHub y CodeWhisperer de Amazon son solo eso, asistentes que trabajan en conjunto con codificadores experimentados que pueden corregir sus errores o elegir la mejor opción entre un puñado de sugerencias de codificación. Si bien la IA puede generar código a un ritmo rápido, los humanos aportan creatividad, contexto y habilidades de pensamiento crítico a la mesa.

La verdadera autonomía en la IA depende de la confianza y la confiabilidad de los sistemas de IA, que pueden surgir a medida que esos sistemas mejoren. Pero por ahora, los humanos son los amos supremos y los resultados confiables dependen de la colaboración entre los humanos y la IA.

Humanos en el bucle GenAI

Next Up

General

Aficiones e intereses

Tecnología y finanzas

Escriba para buscar

Humanos en el bucle GenAI

Next Up

General

Aficiones e intereses

Tecnología y finanzas