GP4-o audio, o3: “razonamiento” y voz, las dos modas de OpenAI

Monday 23rd December 2024 01:35 PM

Durante su maratón de anuncios en diciembre, OpenAI destacó particularmente sus características relacionadas con ChatGPT.

De hecho, todos ellos dependen de la evolución de sus principales modelos lingüísticos y de sus herramientas. “Armas” que la startup pone a disposición de los desarrolladores.

Empezando por la disponibilidad general de la colección de modelos “razonamiento” 01, publicación de su previsión. Además de las llamadas a funciones, este LLM podría generar contenido estructurado (incluidos esquemas JSON) y leer imágenes como entrada. Sobre todo, OpenAI ha tomado medidas para reducir los costes de uso reduciendo la cantidad de tokens para el “razonamiento”. En este sentido, entrega un parámetro API llamado “esfuerzo de razonamiento”. Los “esfuerzos de razonamiento” se utilizan para controlar tanto la duración del procesamiento como la cantidad de tokens necesarios para ejecutar una tarea. La startup también introdujo un sistema de instrucción destinado a guiar aún más los resultados de los desarrolladores.

Un arsenal de herramientas para explotar los modelos de audio o1 y GPT-4o

Funciones como el modo de voz avanzado están habilitadas en parte gracias a mejoras en la API de transcripción en tiempo real, que se beneficia de la integración con WebRTC en JavaScript. Incluye funciones de codificación de audio y gestión de streaming, supresión de ruido y control de velocidad de bits.

Aún en fase beta, la API Realtime viene acompañada de la disponibilidad de gpt-4o mini realtimevista previa, una variante del modelo capaz de procesar texto y audio, así como gpt-4o audio y mini audiovista previa, ambos modelos exclusivamente de voz a voz. .

La API que le permite interactuar con GPt4o mediante voz se beneficia de nuevos parámetros para paralelizar el procesamiento de filtrado de contenido y agregar contexto para generar la respuesta vocal. También es posible posponer la respuesta a una pregunta en el lado del servidor recopilando más información sobre el interlocutor humano. Luego, la respuesta se puede activar manualmente o mediante un. Las sesiones ahora pueden durar 30 minutos en lugar de 15 minutos antes.

Aquí, OpenAI dice que ha reducido drásticamente el precio de sus modelos de voz a voz.

“El precio del GPT-4o mini para audio es de 10 dólares por millón de tokens de entrada y de 20 dólares por millón de tokens de salida”, dice el proveedor en su documentación. “Los tokens de texto tienen un precio de 0,60 dólares por millón de tokens de entrada y 2,40 dólares por millón de tokens de salida. Los archivos de audio y texto en caché cuestan 0,30 dólares por millón de tokens”.

Además, los desarrolladores tienen derechos beta sobre los SDK para Java y Go, además de los kits de desarrollo para Python, .Net, TypeScript/JavaScript ya disponibles.

OpenAI empuja a las empresas a perfeccionar sus modelos

Sin mencionar que OpenAI cree que puede ayudar a los desarrolladores a realizar ajustes ligeros con técnicas de ajuste de preferencias y, más particularmente, optimización directa de preferencias (DPO). Esta técnica, habitualmente utilizada en las fases finales de formación de un LLM, consiste en proporcionar un conjunto de datos compuesto por preguntas o indicaciones y respuestas comparadas por anotadores. Algunas son ideales y otras son “subóptimas” o menos buenas (“A es mejor que B”). Luego, las etiquetas de comparación de respuestas permiten optimizar directamente los parámetros del modelo para reducir la cantidad de resultados no deseados.

Este método debe distinguirse del ajuste supervisado que utiliza etiquetas fijas, que es más apropiado para obtener respuestas objetivas y más estructuradas. “Al aprender de comparaciones por pares en lugar de objetivos fijos, el ajuste de preferencias es particularmente efectivo para tareas subjetivas donde el tono, el estilo y la creatividad son importantes”, dice OpenAI. Unas diez muestras serían suficientes para empezar a obtener resultados.

Hablando de aprendizaje por refuerzo, OpenAI está lanzando un programa de investigación dedicado al “reinforcement fine-tuning” (RFT), es decir, una técnica específica para perfeccionar los conocimientos de los LLM a través de un circuito de entrenamiento que involucra un modelo de recompensa. EL modelo de recompensa OpenAI, la clave de su éxito técnico.

En este caso, la startup pretende poner a disposición de las grandes cuentas e investigadores una herramienta (en alfa) para especializar el LLM o1 para realizar tareas “complejas” en sus respectivos campos: finanzas, derecho, investigación médica, etc., a partir de unos miles de ejemplos.

Los conjuntos de datos se componen de un caso, una serie de instrucciones y una respuesta “correcta”, oculta al LLM a entrenar, pero utilizada por el modelo de recompensa para evaluar la predicción del LLM.

Existen varios modelos de recompensa, aquí denominados “evaluador” en función de la tarea a realizar. Según los investigadores de OpenAI, el entrenamiento de RFT llevaría desde unas pocas horas hasta varios días, dependiendo de la cantidad de datos de entrada. La técnica permitiría entrenar un mini modelo o1 para hacerlo más eficiente que un LLM o1 genérico en lo que respecta a la realización de una tarea “experta”, como determinar el gen o los genes responsables de una enfermedad. La transmisión RFT estará disponible de forma general el próximo año.

OpenAI presenta o3 (para no ofender a Telefónica)

Pero el lanzamiento más esperado del próximo año no es otro que el de o3. “Pensabas que este modelo se llamaría o2, pero por respeto a nuestros amigos de Telefónica [propriétaire de l’opérateur et de la marque O², N.D.L.R] y en la gran tradición de OpenAI de ser realmente terrible a la hora de encontrar nombres, se llamará o3”, dice Sam Altman, cofundador y director ejecutivo de OpenAI, en el último vídeo de la serie de anuncios.

Estos modelos de “razonamiento” entrenados con técnicas de “cadena de pensamiento” ya serían mejores que los o1 una vez que se enfrenten a tareas de programación, matemáticas e investigación fundamental.

“Estamos casi saturando los puntos de referencia que tenemos a nuestra disposición”, afirma Mark Chen, vicepresidente senior de investigación de OpenAI. De ahí la necesidad de encontrar y diseñar comparaciones cada vez más difíciles. OpenAI se está asociando con la Fundación ARC para desarrollar un punto de referencia para o3 que ya alcanzaría niveles de rendimiento sin precedentes.

Si la gente común y las empresas tienen que esperar hasta el próximo año para probar las colecciones o3 y o3 mini, los investigadores especializados en técnicas adversas están invitados a participar en el programa de pruebas, abierto durante la noche del viernes al sábado. De hecho, OpenAI busca probar el desempeño de su (nuevo) método de alinear las respuestas con las preferencias humanas, llamado alineación deliberativa.

Aquí se trata de permitir al LLM “deliberar”, es decir, razonar para saber si la solicitud de un usuario es aceptable o no, sin mostrarle los entresijos. Sólo debe recibir la respuesta final. El proceso difiere significativamente de los enfoques de aprendizaje reforzado con retroalimentación humana y de la IA constitucional desarrollada por Anthropic.

“Entrenamos un modelo en dos etapas para garantizar su utilidad y seguridad. En primer lugar, el modelo se refina sin datos relacionados con la seguridad. Luego, generamos un conjunto de datos donde las cadenas de razonamiento (Cadenas de Pensamientos o CoTs) integran las especificaciones de seguridad, gracias a indicaciones enriquecidas del sistema”, indica OpenAI en una publicación de blog.

Mediante el refinamiento supervisado (SFT), el modelo aprende a razonar en función de especificaciones de seguridad. El aprendizaje por refuerzo (RL) debería mejorar el uso de estos razonamientos, con un modelo de recompensa alineado con las políticas de seguridad.

Las especificaciones de entrada y las indicaciones se utilizan para generar datos sintéticos. Lo que eliminaría la necesidad de anotaciones humanas y facilitaría el ciclo de ajuste.