OpenAI presenta una creación sencilla de asistentes de voz en el evento para desarrolladores de 2024

Benj Edwards

El lunes, OpenAI inició su anual Día del desarrollador evento en San Francisco, que presenta cuatro importantes actualizaciones de API para desarrolladores que integran los modelos de IA de la empresa en sus productos. A diferencia del evento del año pasado en un solo lugar con un discurso de apertura del CEO Sam Altman, DevDay 2024 es más que un solo día, adoptando un enfoque global con eventos adicionales planeados para Londres el 30 de octubre y Singapur el 21 de noviembre.

El evento de San Francisco, al que sólo se podía acceder con invitación y cerrado a la prensa, contó con oradores en el escenario pasando por presentaciones técnicas. Quizás la nueva característica API más notable es la API en tiempo real, ahora en versión beta pública, que admite conversaciones de voz a voz utilizando seis voces preestablecidas y permite a los desarrolladores crear características muy similares al modo de voz avanzado (AVM) de ChatGPT en sus aplicaciones.

OpenAI dice que Realtime API agiliza el proceso de creación de asistentes de voz. Anteriormente, los desarrolladores tenían que utilizar múltiples modelos para el reconocimiento de voz, el procesamiento de texto y la conversión de texto a voz. Ahora pueden manejar todo el proceso con una única llamada API.

La compañía planea agregar capacidades de entrada y salida de audio a su API de finalización de chat en las próximas semanas, lo que permitirá a los desarrolladores ingresar texto o audio y recibir respuestas en cualquier formato.

Dos nuevas opciones para una inferencia más barata

OpenAI también anunció dos características que pueden ayudar a los desarrolladores a equilibrar el rendimiento y el costo al crear aplicaciones de IA. La “destilación de modelos” ofrece a los desarrolladores una forma de ajustar (personalizar) modelos más pequeños y económicos como GPT-4o mini utilizando resultados de modelos más avanzados como GPT-4o y o1-preview. Potencialmente, esto permite a los desarrolladores obtener resultados más relevantes y precisos mientras ejecutan el modelo más económico.

Además, OpenAI anunció el “almacenamiento en caché rápido”, una característica similar a una introducido por antrópico para su Claude API en agosto. Acelera la inferencia (el modelo de IA que genera resultados) al recordar las indicaciones utilizadas con frecuencia (tokens de entrada). Además, la función ofrece un descuento del 50 por ciento en tokens de entrada y tiempos de procesamiento más rápidos al reutilizar tokens de entrada vistos recientemente.

Y por último, pero no menos importante, la compañía amplió sus capacidades de ajuste para incluir imágenes (lo que llama “ajuste de visión”), lo que permite a los desarrolladores personalizar GPT-4o alimentándolo con imágenes y texto personalizados. Básicamente, los desarrolladores pueden enseñarle a la versión multimodal de GPT-4o a reconocer visualmente ciertas cosas. OpenAI dice que la nueva característica abre posibilidades para una funcionalidad de búsqueda visual mejorada, una detección de objetos más precisa para vehículos autónomos y posiblemente un análisis de imágenes médicas mejorado.

¿Dónde está el discurso de apertura de Sam Altman?

El director ejecutivo de OpenAI, Sam Altman, habla durante el evento OpenAI DevDay el 6 de noviembre de 2023 en San Francisco.
Agrandar / El director ejecutivo de OpenAI, Sam Altman, habla durante el evento OpenAI DevDay el 6 de noviembre de 2023 en San Francisco.

Imágenes falsas

A diferencia del año pasado, DevDay no se transmite en vivo, aunque OpenAI planea publicar contenido de video más adelante en su canal de YouTube. La programación del evento incluye sesiones de trabajo, focos comunitarios y demostraciones. Pero el mayor cambio desde el año pasado es la falta de una aparición principal del director ejecutivo de la empresa. Este año, la presentación estuvo a cargo del equipo de producto OpenAI, según un representante de OpenAI que habló con Ars Technica.

En el DevDay inaugural del año pasado, el 6 de noviembre de 2023, el director ejecutivo de OpenAI, Sam Altman, pronunció un discurso al estilo de Steve Jobs. discurso de apertura en vivo a desarrolladores reunidos, empleados de OpenAI y prensa. Durante su presentación, el CEO de Microsoft, Satya Nadella, hizo una aparición sorpresa, hablando de la asociación entre las empresas.

Once días después, la junta de OpenAI despidió a Altman, lo que provocó una semana de agitación que resultó en el regreso de Altman como CEO y una nueva junta directiva. Justo después del despido, Kara Swisher retransmitido Fuentes internas dijeron que el discurso de apertura de Altman en DevDay y la introducción de la tienda GPT habían sido un factor precipitante en el despido (aunque no el factor clave), debido a algunos desacuerdos internos sobre la dirección más orientada al consumidor de la compañía desde el lanzamiento de ChatGPT.

Con esa historia en mente, tal vez la compañía decidió que era mejor dejar que Altman se alejara del escenario y dejar que la tecnología OpenAI se convirtiera en el foco clave del evento en lugar de él. Estamos puramente especulando sobre ese punto, pero OpenAI ciertamente ha experimentado su parte de drama durante el último mes, por lo que puede haber sido una decisión prudente.

A pesar de la falta de un discurso de apertura, Altman está presente hoy en el Dev Day San Francisco y está programado para realizar una “charla informal” de cierre al final (lo que aún no ha sucedido al momento de escribir este artículo), según un portavoz de OpenAI que habló con Ars Técnica. Además, Altman hizo un declaración sobre DevDay on X, señalando que desde el DevDay del año pasado, OpenAI había visto algunos cambios dramáticos (literalmente):

Desde el último día de desarrollo hasta este:

*Disminución del 98% en el costo por token de GPT-4 a 4o mini
*Aumento de 50 veces en el volumen de tokens en nuestros sistemas
*excelente progreso de inteligencia del modelo
*(y un poco de drama en el camino)

En un tweet de seguimiento entregado en su característica minúscula, Altman compartió un mensaje prospectivo que hacía referencia a la búsqueda de la compañía de IA a nivel humano, a menudo llamada AGI: “emocionado de lograr aún más progreso de este día de desarrollo al siguiente”. él escribió. “El camino hacia la agi nunca ha sido más claro”.

Leave a Comment