Hoy lanzamos GPT‑5.4 en ChatGPT (como GPT‑5.4 Thinking), en la API y en Codex. Es nuestro modelo de vanguardia más capaz y eficiente para el trabajo profesional. También lanzamos GPT‑5.4 Pro en ChatGPT y en la API, para quienes buscan el máximo rendimiento en tareas complejas.
GPT‑5.4 reúne lo mejor de nuestros avances recientes en razonamiento, programación y flujos de trabajo con agentes en un único modelo de vanguardia. Incorpora las capacidades de codificación líderes del sector de GPT‑5.3‑Codex y mejora la forma en que el modelo funciona con herramientas, en entornos de software y en tareas profesionales que involucran hojas de cálculo, presentaciones y documentos. El resultado es un modelo capaz de realizar trabajo complejo del mundo real con precisión, eficacia y eficiencia, entregando lo que pediste con menos idas y vueltas.
En ChatGPT, GPT‑5.4 Thinking ahora puede compartir un plan de razonamiento desde el inicio, para que puedas ajustar el rumbo a mitad de la respuesta mientras trabaja y llegar a un resultado final más alineado con lo que necesitas, sin turnos adicionales. GPT‑5.4 Thinking también mejora la investigación profunda en la web, especialmente para consultas muy específicas, y mantiene mejor el contexto en preguntas que requieren un análisis más prolongado. En conjunto, estas mejoras se traducen en respuestas de mayor calidad: llegan más rápido y se mantienen relevantes para la tarea.
En Codex y la API, GPT‑5.4 es el primer modelo de propósito general que lanzamos con capacidades nativas y de vanguardia para el uso de computadoras lo que permite a los agentes operar computadoras y ejecutar flujos de trabajo complejos en distintas aplicaciones. Admite hasta 1 millón de tokens de contexto, lo que permite a los agentes planificar, ejecutar y verificar tareas a lo largo de horizontes amplios. GPT‑5.4 también mejora el funcionamiento de los modelos en grandes ecosistemas de herramientas y conectores gracias a la búsqueda de herramientas, lo que ayuda a los agentes a encontrar y utilizar las herramientas adecuadas con mayor eficiencia sin sacrificar inteligencia. Por último, GPT‑5.4 es nuestro modelo de razonamiento más eficiente, en términos de tokens, hasta la fecha, ya que utiliza significativamente menos tokens para resolver problemas en comparación con GPT‑5.2, lo que se traduce en un menor consumo de tokens y mayores velocidades.
Junto con avances en razonamiento general, programación y trabajo profesional especializado, GPT‑5.4 permite agentes más confiables, flujos de trabajo para desarrolladores más rápidos y resultados de mayor calidad en ChatGPT, la API y Codex.
GPT‑5.4 | GPT‑5.3‑Codex | GPT‑5.2 | |
GDPval (victorias o empates) | 83.0 % | 70.9 % | 70.9 % |
SWE-Bench Pro (Public) | 57.7 % | 56.8 % | 55.6 % |
OSWorld-Verified | 75.0 % | 74.0 %* | 47.3 % |
Toolathlon | 54.6 % | 51.9 % | 46.3 % |
BrowseComp | 82.7 % | 77.3 % | 65.8 % |
*Previamente se reportó como 64.7 %. GPT‑5.3‑Codex alcanza el 74.0 % con un parámetro de la API recién introducido que preserva la resolución original de la imagen.
GPT‑5.4 amplía las capacidades generales de razonamiento de GPT‑5.2 y ofrece resultados aún más consistentes y precisos en tareas del mundo real relevantes para los profesionales.
En GDPval, que evalúa la capacidad de los agentes para producir trabajo especializado bien definido en 44 ocupaciones, GPT‑5.4 marca un nuevo estándar, igualando o superando a profesionales de la industria en 83.0 % de las comparaciones, frente a 71.0 % de GPT‑5.2.
En GDPval, los modelos intentan realizar tareas de conocimiento bien definidas que abarcan 44 ocupaciones en las 9 principales industrias que contribuyen al PIB de EE. UU. Estas tareas requieren productos de trabajo reales, como presentaciones de ventas, hojas de cálculo contables, horarios de atención urgente, diagramas de fabricación o videos cortos. El esfuerzo de razonamiento se configuró en muy alto para GPT‑5.4 y en profundo para GPT‑5.2 (un nivel ligeramente inferior disponible en ChatGPT).
“GPT-5.4 es el mejor modelo que hemos probado. Ahora está en la cima de la tabla de clasificación en nuestra prueba de referencia APEX-Agents, que mide el rendimiento del modelo para trabajo de servicios profesionales. Se destaca en la creación de trabajos de largo plazo, como presentaciones, modelos financieros y análisis jurídico, ofreciendo un rendimiento superior mientras funciona más rápido y a un menor costo que los modelos de vanguardia de la competencia”.
Pusimos especial énfasis en mejorar la capacidad de GPT‑5.4 para crear y editar hojas de cálculo, presentaciones y documentos. En una evaluación interna de tareas de modelado en hojas de cálculo que podría realizar un analista junior de banca de inversión, GPT‑5.4 obtiene un puntaje promedio de 87.5%, frente al 68.4% de GPT‑5.2. En un conjunto de prompts utilizado para evaluar presentaciones, los evaluadores humanos prefirieron las presentaciones de GPT‑5.4 el 68.0% de las veces frente a las de GPT‑5.2, debido a una estética más sólida, mayor variedad visual y un uso más eficaz de la generación de imágenes.

Los documentos se generaron con el esfuerzo de razonamiento configurado en muy alto
Puedes probar estas capacidades en ChatGPT con GPT‑5.4 Thinking o Pro. Si eres cliente Enterprise, te recomendamos usar nuestros complementos de ChatGPT para Excel y Google Sheets(se abre en una nueva ventana), que se presentaron hoy. También actualizamos las skills de hojas de cálculo(se abre en una nueva ventana) y presentaciones(se abre en una nueva ventana) disponibles en Codex y en la API.
Para que GPT‑5.4 funcione mejor en tareas del mundo real, seguimos avanzando en la reducción de alucinaciones y errores. GPT‑5.4 es nuestro modelo más preciso hasta la fecha: en un conjunto de prompts anonimizados en los que los usuarios marcaron errores fácticos, las afirmaciones individuales de GPT‑5.4 son un 33 % menos propensas a ser falsas y sus respuestas completas son un 18 % menos propensas a contener algún error, en comparación con GPT‑5.2.
“GPT-5.4 establece un nuevo estándar para el trabajo legal intensivo en documentos. En nuestra evaluación BigLaw Bench, obtuvo un puntaje del 91 %. En comparación con otros modelos, GPT-5.4 es actualmente mejor para estructurar análisis transaccionales complejos, mantener la precisión en contratos extensos y ofrecer el alto nivel de detalle que requieren los profesionales del derecho”.
GPT‑5.4 es nuestro primer modelo de propósito general con capacidades nativas para usar computadoras y representa un gran avance tanto para desarrolladores como para agentes. Es el mejor modelo disponible actualmente para quienes crean agentes capaces de completar tareas reales en sitios web y sistemas de software.
Diseñamos GPT‑5.4 para que rinda bien en una amplia gama de cargas de trabajo de uso de computadoras. Destaca al escribir código para operar computadoras mediante bibliotecas como Playwright, así como al emitir comandos de ratón y teclado a partir de capturas de pantalla. Su comportamiento puede guiarse mediante mensajes de desarrollador, lo que permite ajustar el modelo a casos de uso específicos. Además, los desarrolladores pueden configurar el comportamiento de seguridad del modelo según distintos niveles de tolerancia al riesgo mediante políticas de confirmación personalizadas.
El rendimiento y la flexibilidad del modelo se reflejan en evaluaciones comparativas que analizan el uso de computadoras en distintos entornos. En OSWorld-Verified, que mide la capacidad de un modelo para navegar por un entorno de escritorio a partir de capturas de pantalla y acciones de teclado y ratón, GPT‑5.4 alcanza un resultado de vanguardia de 75.0 % de éxito, superando ampliamente el de GPT‑5.2 (47.3 %) y también el rendimiento humano (72.4 %).1
En WebArena-Verified, que evalúa el uso del navegador, GPT‑5.4 logra una tasa de éxito líder del 67.3% al usar interacción basada tanto en el DOM como en capturas de pantalla, en comparación con el 65.4 % de GPT‑5.2. En Online-Mind2Web, que también evalúa el uso del navegador, GPT‑5.4 alcanza una tasa de éxito del 92.8 % usando únicamente observaciones basadas en capturas de pantalla, lo que mejora la confiabilidad de sistemas como el modo de agente de ChatGPT Atlas, que alcanza una tasa de éxito del 70.9 %.
Un ciclo de espera de herramientas ocurre cuando el asistente cede el control para esperar la respuesta de una herramienta. Si se llaman tres herramientas en paralelo y luego otras tres también en paralelo, el número de ciclos de espera sería dos. Los ciclos de espera de herramientas son un mejor indicador de la latencia que las llamadas a herramientas, porque reflejan los beneficios de la paralelización.
GPT‑5.4 interpreta capturas de pantalla de una interfaz del navegador e interactúa con elementos de la interfaz de usuario mediante clics basados en coordenadas para enviar correos electrónicos y programar eventos en el calendario.
El uso de computadora mejorado de GPT‑5.4 se basa en las mejoras en las capacidades de percepción visual general del modelo. En MMMU-Pro, una prueba de la comprensión visual y el razonamiento de un modelo, GPT‑5.4 logra una tasa de éxito del 81.2 % sin uso de herramientas, una mejora respecto a la de GPT‑5.2 79.5 %. La percepción visual mejorada también se traduce en mejores capacidades de análisis de documentos. En OmniDocBench, sin esfuerzo de razonamiento, GPT‑5.4 logra un error promedio (medido por la distancia de edición normalizada entre la predicción del modelo y la verdad de referencia) de 0.109, una mejora frente a 0.140 de GPT‑5.2.
MMMUPro se ejecutó con el esfuerzo de razonamiento configurado en muy alto. OmniDocBench se ejecutó con el esfuerzo de razonamiento configurado en nulo, para reflejar un rendimiento de bajo costo y baja latencia.
También estamos mejorando la comprensión visual para imágenes densas y de alta resolución, donde la fidelidad total es importante. A partir de GPT‑5.4, introducimos un nivel original de detalle de entrada(se abre en una nueva ventana) de imagen que permite una percepción con fidelidad total de hasta 10.24 millones de píxeles totales o una dimensión máxima de 6000 píxeles, lo que sea menor; el nivel de high detalle de entrada de imagen ahora admite hasta 2.56 millones de píxeles totales o una dimensión máxima de 2048 píxeles.En las primeras pruebas con usuarios de la API, observamos mejoras significativas en la capacidad de localización, la comprensión de imágenes y la precisión de clic al usar el nivel de detalle original o alto.
“En nuestras evaluaciones que miden el rendimiento en el uso de computadoras en aproximadamente 30 mil portales de HOA e impuestos a la propiedad, GPT-5.4 logró una tasa de éxito del 95 % en el primer intento y del 100 % en un máximo de tres intentos, en comparación con entre un 73 % y un 79 % con modelos CUA (AUC) anteriores. También completó las sesiones aproximadamente 3 veces más rápido mientras usaba alrededor de un 70 % menos tokens, lo que mejora de forma sustancial la confiabilidad y la eficiencia de costos a escala".
En la API, los desarrolladores pueden acceder a estas capacidades mediante la herramienta de computadora actualizada. Consulta nuestra documentación(se abre en una nueva ventana) para conocer las prácticas recomendadas.
GPT‑5.4 combina las fortalezas de codificación de GPT‑5.3‑Codex con capacidades líderes para el trabajo de conocimiento y el uso de computadoras, que son especialmente importantes en tareas prolongadas en las que el modelo puede usar herramientas, iterar y avanzar más con menos intervención manual. Iguala o supera a GPT‑5.3‑Codex en SWE-Bench Pro y, al mismo tiempo, ofrece menor latencia en distintos niveles de esfuerzo de razonamiento.
Estimamos la latencia observando el comportamiento de nuestros modelos en producción y mediante simulaciones sin conexión. La estimación tiene en cuenta la duración de las llamadas a herramientas (tiempo de ejecución del código), así como los tokens muestreados y los tokens de entrada. La latencia en el mundo real puede variar considerablemente y depende de muchos factores que no se capturan en nuestra simulación. Los esfuerzos de razonamiento se ajustaron de nulo a muy alto.
Cuando está activado, el /fast mode en Codex ofrece hasta 1.5 veces más velocidad de token con GPT‑5.4. Es el mismo modelo y la misma inteligencia, solo que más rápido. Esto permite avanzar en tareas de programación, iteración y depuración sin perder el ritmo de trabajo. Los desarrolladores también pueden acceder a GPT‑5.4 a estas mismas velocidades a través de la API con procesamiento prioritario(se abre en una nueva ventana).
En la evaluación y las pruebas internas, descubrimos que GPT‑5.4 destaca en tareas complejas de frontend, con resultados notablemente más estéticos y más funcionales que los de cualquier modelo que hayamos lanzado anteriormente.
Como demostración de las capacidades mejoradas del modelo para usar la computadora y programar en conjunto, también lanzamos una skill de Codex experimental llamada “Playwright (Interactive)(se abre en una nueva ventana)”. Esto permite que Codex depure visualmente aplicaciones web y de Electron; incluso puede usarla para probar una aplicación mientras la está desarrollando.
Juego de simulación de parque temático creado con GPT‑5.4 a partir de un solo prompt con especificaciones mínimas, usando Playwright Interactive para probar el juego en el navegador y generación de imágenes para el conjunto de recursos isométricos. La simulación incluye la colocación de caminos basada en casillas, construcción de atracciones y escenografía, búsqueda de rutas de los visitantes, formación de filas y ciclos de las atracciones, mientras que las métricas del parque, como el dinero, la cantidad de visitantes, la felicidad, la limpieza y la calificación, suben o bajan según el rendimiento del diseño y la respuesta de los visitantes. Playwright se utilizó para automatizar pruebas en el navegador mediante la construcción y expansión del parque, la colocación y eliminación de caminos y atracciones, la comprobación de la navegación de la cámara y la verificación de que los visitantes, las filas, los estados de las atracciones y las métricas de la IU se actualizaran correctamente a lo largo de varias rondas de juego.
Prompt: usa $playwright-interactive y $imagegen. Crea un juego de simulación isométrico e interactivo de parque temático que pueda construir y recorrer en el navegador.Usa $imagegen para definir la visión visual general y generar los recursos del juego, incluidos atracciones, caminos, terreno, árboles, agua, puestos de comida, decoraciones, edificios, íconos e ilustraciones de la interfaz de usuario. El mundo debe sentirse cohesivo, pulido y visualmente rico, con una dirección de arte premium que funcione bien desde una perspectiva isométrica.Permíteme colocar y quitar caminos, agregar atracciones, ubicar la escenografía y moverme por el parque con fluidez, mientras monitoreo la actividad de los visitantes, el estado de las atracciones y el crecimiento del parque. Incluye movimiento creíble de los visitantes y sistemas simples de gestión del parque, como dinero, limpieza, filas y felicidad, y haz que la experiencia se sienta juguetona, clara y completa, no como un prototipo tosco. Prioriza el encanto, la legibilidad y una gran sensación de juego por encima del realismo.
Al realizar pruebas de juego, asegúrate de construir y expandir un parque a lo largo de varias rondas de juego, verificar que la colocación y la navegación funcionen sin problemas, confirmar que los visitantes reaccionen al diseño del parque y a las atracciones, y asegurarte de que los elementos visuales, la UI y las interacciones se sientan estables y coherentes.
“Nuestros ingenieros encuentran a GPT-5.4 más natural y seguro que los modelos anteriores. Resuelve problemas ambiguos sin dudar de sí mismo y es proactivo al paralelizar el trabajo para que las cosas sigan avanzando".
Con GPT‑5.4 mejoramos significativamente la forma en que los modelos trabajan con herramientas externas. Ahora los agentes pueden operar en ecosistemas de herramientas más amplios, elegir las herramientas adecuadas con mayor fiabilidad y completar flujos de trabajo de varios pasos con menor costo y latencia.
En la API, GPT‑5.4 presenta la búsqueda de herramientas(se abre en una nueva ventana), que permite a los modelos trabajar de forma eficiente cuando se les proporcionan muchas herramientas.
Antes, cuando se proporcionaban herramientas a un modelo, todas las definiciones de herramientas se incluían en el prompt desde el principio. En sistemas con muchas herramientas, esto podía añadir miles —o incluso decenas de miles— de tokens a cada solicitud, lo que aumentaba el costo, ralentizaba las respuestas y llenaba el contexto con información que el modelo quizá nunca usara.
Con la búsqueda de herramientas, GPT‑5.4 recibe en su lugar una lista ligera de herramientas disponibles junto con una función de búsqueda. Cuando el modelo necesita usar una herramienta, puede buscar su definición y agregarla a la conversación en ese momento.
Este enfoque reduce drásticamente la cantidad de tokens necesarios para flujos de trabajo con muchas herramientas y conserva el caché, lo que hace que las solicitudes sean más rápidas y económicas. También permite que los agentes trabajen de manera confiable con ecosistemas de herramientas mucho más grandes. Para los servidores MCP que pueden contener decenas de miles de tokens de definiciones de herramientas, las mejoras de eficiencia pueden ser sustanciales.
Para demostrar las ganancias de eficiencia, evaluamos 250 tareas de la evaluación comparativa MCP Atlas(se abre en una nueva ventana) de Scale con los 36 servidores MCP habilitados en dos modos: (1) exponer cada función de MCP directamente en el contexto del modelo y (2) colocar todos los servidores MCP detrás de la búsqueda de herramientas. La configuración con búsqueda de herramientas redujo el uso total de tokens en un 47 % y mantuvo la misma precisión.
Los recuentos de tokens de ejemplo provienen del promedio de 250 tareas en el conjunto de datos público MCP-Atlas.
GPT‑5.4 también mejora la llamada a herramientas, lo que la hace más precisa y eficiente al decidir cuándo y cómo usar herramientas durante el razonamiento, especialmente en la API. En comparación con GPT‑5.2, logra mayor precisión en menos turnos en Toolathlon, una evaluación comparativa que mide qué tan bien los agentes de IA utilizan herramientas y API del mundo real para completar tareas de varios pasos. Por ejemplo, un agente puede leer correos electrónicos, extraer los archivos adjuntos de las tareas, cargarlos, calificarlos y registrar los resultados en una hoja de cálculo.
Un ciclo de espera de herramientas ocurre cuando el asistente cede el control para esperar la respuesta de una herramienta. Si se llaman tres herramientas en paralelo y luego otras tres también en paralelo, el número de ciclos de espera sería dos. Los ciclos de espera de herramientas son un mejor indicador de la latencia que las llamadas a herramientas, porque reflejan los beneficios de la paralelización.
Para casos de uso sensibles a la latencia en los que se prefiere un esfuerzo de razonamiento nulo (None), GPT‑5.4 mejora aún más respecto a sus predecesores.
In τ2-bench(se abre en una nueva ventana), a model must use tools to accomplish a customer service task, where there may be a simulated user who can communicate and take actions on the world state. Reasoning effort was set to None.
GPT‑5.4 mejora el rendimiento en la búsqueda en la web con agentes. En BrowseComp, una evaluación comparativa que mide qué tan bien los agentes de IA pueden navegar de forma persistente por la web para encontrar información difícil de localizar, GPT‑5.4 supera a GPT‑5.2 por 17 %abs, y GPT‑5.4 Pro establece un nuevo resultado de vanguardia del 89.3 %.
En la práctica, esto significa que GPT‑5.4 Thinking es más eficaz para responder preguntas que requieren reunir información de muchas fuentes en la web. Puede buscar de forma más persistente a lo largo de varias rondas para identificar las fuentes más relevantes, especialmente en preguntas del tipo “aguja en un pajar”, y sintetizarlas en una respuesta clara y bien fundamentada.
En BrowseComp utilizamos una lista de bloqueo de búsquedas que excluye sitios web con respuestas de referencia de la evaluación, para evitar su contaminación y garantizar una medición justa del rendimiento. GPT‑5.4 se evaluó en una fecha posterior a GPT‑5.2, de modo que las puntuaciones reflejen cambios en el modelo, en nuestro sistema de búsqueda y en el estado de internet. GPT‑5.4 también se probó con una lista de bloqueo más extensa y actualizada. Los modelos utilizan la herramienta de búsqueda de ChatGPT, que puede presentar pequeñas diferencias respecto a la búsqueda disponible en la API.
“GPT-5.4 muy alto es el nuevo referente de vanguardia para el uso de herramientas en varios pasos. Zapier ejecuta algunas de las pruebas de referencia de uso de herramientas más rigurosas de la industria, evaluando modelos en cientos de flujos de trabajo avanzados del mundo real. GPT-5.4 terminó el trabajo donde los modelos anteriores se rindieron: el modelo más persistente hasta la fecha”.
De forma similar a como Codex describe su enfoque al empezar a trabajar, GPT‑5.4 Thinking en ChatGPT ahora presenta un preámbulo que explica su enfoque para consultas más largas y complejas. También puedes añadir instrucciones o ajustar su dirección a mitad de la respuesta. Esto facilita guiar al modelo hacia el resultado exacto que quieres sin tener que empezar de nuevo ni añadir múltiples turnos adicionales. Esta función ya está disponible en chatgpt.com(se abre en una nueva ventana) y en la aplicación de Android; muy pronto estará disponible en la app de iOS.
El modelo también puede pensar más tiempo en tareas difíciles mientras mantiene una mayor conciencia de los pasos anteriores en la conversación. Esto le permite manejar flujos de trabajo más largos y prompts más complejos, manteniendo las respuestas coherentes y relevantes en todo momento.
Este video se aceleró con fines ilustrativos.
En los últimos meses, hemos seguido mejorando las salvaguardas que introdujimos con GPT‑5.3‑Codex mientras preparamos GPT‑5.4 para su implementación. Al igual que GPT‑5.3‑Codex, tratamos a GPT‑5.4 como de alta capacidad cibernética dentro de nuestro Marco de preparación, y lo desplegamos con las protecciones correspondientes, tal como se documenta en la tarjeta del sistema. Esto incluye una pila ampliada de seguridad cibernética, con sistemas de monitoreo, controles de acceso confiables y bloqueo asincrónico para solicitudes de mayor riesgo en superficies de Retención Cero de Datos (ZDR), junto con una inversión continua en el ecosistema de seguridad más amplio.
Dado que las capacidades de ciberseguridad son inherentemente de doble uso, mantenemos un enfoque preventivo en el despliegue mientras seguimos ajustando nuestras políticas y clasificadores. Para ciertos clientes, en superficies ZDR, el bloqueo a nivel de solicitud sigue siendo parte de nuestra pila de mitigación de riesgos cibernéticos; dado que los clasificadores aún están mejorando, pueden producirse algunos falsos positivos mientras continuamos perfeccionando estas salvaguardas. Estas actualizaciones buscan mejorar cómo operan las salvaguardas en la práctica, lo que incluye reducir los rechazos innecesarios y las respuestas con demasiadas advertencias, al tiempo que se mantienen protecciones sólidas contra el uso indebido.
Continuamos nuestra investigación en seguridad sobre la capacidad de monitoreo de la cadena de pensamiento (Chain-of-Thought, CoT) para comprender mejor cómo razonan los modelos y ayudar a detectar posibles comportamientos indebidos. Como parte de este trabajo, presentamos una nueva evaluación de código abierto, controlabilidad de CoT, que mide si los modelos pueden ofuscar deliberadamente su razonamiento para evadir la supervisión. Observamos que la capacidad de GPT‑5.4 Thinking para controlar su CoT es baja, lo cual es una propiedad positiva para la seguridad, ya que sugiere que el modelo carece de la capacidad de ocultar su razonamiento y que la supervisión de la CoT sigue siendo una herramienta de seguridad eficaz.
GPT‑5.4 se está implementando gradualmente hoy en ChatGPT y Codex. En la API, GPT‑5.4 ya está disponible como gpt-5.4. GPT‑5.4 Pro también está disponible en la API como gpt-5.4-pro para desarrolladores que necesitan el máximo rendimiento en las tareas más complejas.
En ChatGPT, GPT‑5.4 Thinking está disponible desde hoy para los usuarios de ChatGPT Plus, Team y Pro, y reemplaza a GPT‑5.2 Thinking. El modelo GPT‑5.2 Thinking seguirá disponible durante tres meses para los usuarios de planes de pago en el selector de modelos, en la sección Modelos anteriores, tras lo cual se retirará el 5 de junio de 2026. Los administradores de los planes Enterprise y Edu pueden habilitar el acceso anticipado desde la configuración de administración. GPT‑5.4 Pro está disponible para los planes Pro y Enterprise. Las ventanas de contexto(se abre en una nueva ventana) en ChatGPT para GPT‑5.4 Thinking permanecen sin cambios respecto a GPT‑5.2.
GPT‑5.4 es nuestro primer modelo de razonamiento principal que incorpora las capacidades de codificación de vanguardia de GPT‑5.3‑Codex y que se está desplegando en ChatGPT, la API y Codex. Lo llamamos GPT‑5.4 para reflejar ese salto y para simplificar la elección entre modelos al usar Codex. Con el tiempo, puedes esperar que nuestros modelos Instant y nuestros modelos Thinking evolucionen a ritmos diferentes.
GPT‑5.4 en Codex incluye compatibilidad experimental con la ventana de contexto de 1 millón. Los desarrolladores pueden probar esto configurando model_context_window y model_auto_compact_token_limit. Las solicitudes que excedan la ventana de contexto estándar de 272 mil se contabilizan en los límites de uso al doble de la tasa normal.
En la API, GPT‑5.4 tiene un precio por token más alto que GPT‑5.2 para reflejar sus capacidades mejoradas, mientras que su mayor eficiencia en el uso de tokens ayuda a reducir la cantidad total de tokens necesarios para muchas tareas. Los precios de Batch y Flex están disponibles a la mitad de la tarifa estándar de la API, mientras que el procesamiento prioritario está disponible al doble de la tarifa estándar de la API.
Modelo de API | Precio de entrada | Precio de entrada en caché | Precio de salida |
gpt-5.2 | USD 1.75 / millón de tokens | USD 0.175 / millón de tokens | USD 14 / millón de tokens |
gpt-5.4 | USD 2.50 / millón de tokens | USD 0.25 / millón de tokens | USD 15 / millón de tokens |
gpt-5.2-pro | USD 21 / millón de tokens | - | USD 168 / millón de tokens |
gpt-5.4-pro | USD 30 / millón de tokens | - | USD 180 / millón de tokens |
Profesional
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
GDPval | 83.0 % | 82.0 % | 70.9 % | 70.9 % | 74.1% |
FinanceAgent v1.1 | 56.0 % | 61.5 % | 54.0 % | 59.5 % | — |
Tareas de modelado de banca de inversión (Internas) | 87.3 % | 83.6 % | 79.3 % | 68.4% | 71.7% |
OfficeQA | 68.1 % | — | 65.1 % | 63.1 % | — |
Programación
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
SWE-Bench Pro (Public) | 57.7 % | — | 56.8 % | 55.6 % | — |
Terminal-Bench 2.0 | 75.1 % | — | 77.3 % | 62.2 % | — |
Uso de la computadora y visión
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
OSWorld-Verified | 75.0 % | — | 74.0% | 47.3 % | — |
MMMU Pro (sin herramientas) | 81.2 % | — | — | 79.5 % | — |
MMMU Pro (con herramientas) | 82.1 % | — | — | 80.4 % | — |
Uso de herramientas
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
BrowseComp | 82.7 % | 89.3 % | 77.3 % | 65.8 % | 77.9 % |
MCP Atlas | 67.2 % | — | — | 60.6 % | — |
Toolathlon | 54.6 % | — | 51.9 % | 45.7 % | — |
Evaluación TAU 2 (Telecom) | 98.9 % | — | — | 98.7 % | — |
Académico
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Investigación científica de vanguardia | 33.0 % | 36.7 % | — | 25.2 % | — |
FrontierMath Niveles 1–3 | 47.6 % | — | — | 40.7% | — |
FrontierMath Nivel 4 | 27.1 % | 38.0 % | — | 18.8 % | 31.3 % |
GPQA Diamond | 92.8 % | 94.4 % | 92.6% | 92.4 % | 93.2 % |
Humanity's Last Exam (sin herramientas) | 39.8 % | 42.7 % | — | 34.5 % | 36.6 % |
Humanity's Last Exam (con herramientas) | 52.1 % | 58.7 % | — | 45.5 % | 50.0 % |
Contexto largo
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Graphwalks BFS 0K–128 mil | 93.0 % | — | — | 94.0 % | — |
Graphwalks BFS 256 mil–1 millón de tokens | 21.4 % | — | — | — | — |
Graphwalks padres 0–128 mil (precisión) | 89.8% | — | — | 89.0 % | — |
Graphwalks padres 256 mil–1 millón (precisión) | 32.4 % | — | — | — | — |
OpenAI MRCR v2 8 agujas 4 mil–8 mil | 97.3 % | — | — | 98.2 % | — |
OpenAI MRCR v2 8 agujas 8 mil –16 mil | 91.4 % | — | — | 89.3 % | — |
OpenAI MRCR v2 8 agujas 16 mil–32 mil | 97.2 % | — | — | 95.3 % | — |
OpenAI MRCR v2 8-agujas 32 mil–64 mil | 90.5 % | — | — | 92.0 % | — |
OpenAI MRCR v2 8 agujas 64 mil –128 mil | 86.0 % | — | — | 85.6 % | — |
OpenAI MRCR v2 8-agujas 128 mil –256 mil | 79.3 % | — | — | 77.0 % | — |
OpenAI MRCR v2 8-agujas 256 mil –512 mil | 57.5 % | — | — | — | — |
OpenAI MRCR v2 8 agujas 512 mil–1 mil | 36.6 % | — | — | — | — |
Razonamiento abstracto
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
ARC-IAG-1 (Verificado) | 93.7 % | 94.5% | — | 86.2 % | 90.5 % |
ARC-IAG-2 (Verificado) | 73.3 % | 83.3 % | — | 52.9 % | 54.2% (alto) |
Evaluaciones sin razonamiento
Eval | GPT‑5.4 | GPT‑5.2 | GPT‑4.1 |
OmniDocBench (distancia de edición normalizada) | 0.109 | 0.140 | — |
Evaluación TAU 2 (Telecom) | 64.3 % | 57.2 % | 43.6 % |
Las evaluaciones se ejecutaron con el esfuerzo de razonamiento configurado en nivel muy alto (xhigh), excepto cuando se indicó lo contrario. Se realizaron en un entorno de investigación, por lo que en algunos casos los resultados pueden diferir ligeramente de los que se obtienen en ChatGPT en producción.
Autor
Notas al pie
1 Rendimiento humano reportado en OSWorld: evaluación comparativa de agentes multimodales para tareas abiertas en entornos informáticos reales(se abre en una nueva ventana).


