Suscríbase a nuestros boletines diarios y semanales para recibir las últimas actualizaciones y contenido exclusivo sobre la cobertura de inteligencia artificial líder en la industria. Más información
A medida que las empresas tecnológicas se apresuran a ofrecer inteligencia artificial en los dispositivos, estamos viendo un creciente conjunto de investigaciones y técnicas para crear modelos de lenguaje pequeños (SLM) que puedan ejecutarse en dispositivos con recursos limitados.
Los últimos modelos, creados por un equipo de investigación de Nvidiaaprovechan los avances recientes en poda y destilación para crear Llama-3.1-Minitron 4B, una versión comprimida del modelo Llama 3. Este modelo rivaliza en rendimiento con modelos más grandes y SLM de igual tamaño, al tiempo que es significativamente más eficiente para entrenar e implementar.
El poder de la poda y la destilación
La poda y la destilación son dos técnicas clave para crear modelos de lenguaje más pequeños y eficientes. La poda implica eliminar los componentes menos importantes de un modelo. La “poda en profundidad” elimina capas completas, mientras que la “poda en ancho” descarta elementos específicos, como neuronas y cabezas de atención.
La destilación de modelos es una técnica que transfiere conocimientos y capacidades de un modelo grande, a menudo llamado el “modelo del maestro”, a un “modelo del estudiante” más pequeño y simple. Hay dos formas principales de hacer la destilación. La primera es el “entrenamiento SGD”, donde el modelo del estudiante se entrena en las entradas y respuestas del maestro. Otro método es la “destilación clásica del conocimiento”, donde además de los resultados, el estudiante se entrena en las activaciones internas del modelo del maestro.
En un estudio previoLos investigadores de Nvidia demostraron la eficacia de combinar la poda con la destilación clásica de conocimientos. Comenzaron con el modelo Nemotron 15B y lo fueron podando y destilando progresivamente hasta obtener un modelo de 8 mil millones de parámetros. Luego realizaron un procedimiento de reentrenamiento ligero utilizando la destilación del modelo con el modelo original como profesor y el modelo podado como estudiante. Finalmente, repitieron el proceso con el modelo 8B como punto de partida para crear un modelo 4B más pequeño.
Este enfoque dio como resultado una mejora del 16 % en el rendimiento del popular benchmark MMLU en comparación con el entrenamiento de un modelo de 4 mil millones de parámetros desde cero. Sorprendentemente, todo el proceso requirió 40 veces menos tokens que el entrenamiento del modelo desde cero. El rendimiento del modelo fue comparable al de Mistral 7B, Gemma 7B y Llama-3 8B, que se entrenaron con billones de tokens.
Destilando Llama 3.1
Basándose en su trabajo anterior, el equipo de Nvidia decidió aplicar las mismas técnicas al modelo Llama 3.1 8B. Su objetivo era crear una versión del modelo con 4 mil millones de parámetros que pudiera igualar el rendimiento de modelos más grandes y, al mismo tiempo, ser más eficiente de entrenar.
El primer paso fue ajustar el modelo 8B sin podar en un conjunto de datos de 94 mil millones de tokens para corregir el cambio de distribución entre los datos de entrenamiento del modelo original y su conjunto de datos de destilación.
“Los experimentos demostraron que, sin corregir el cambio de distribución, el profesor proporciona una guía subóptima sobre el conjunto de datos cuando se está destilando”, escriben los investigadores en un artículo. Entrada de blog.
A continuación, los investigadores aplicaron dos tipos de poda: poda de solo profundidad, en la que eliminaron el 50% de las capas, y poda de solo ancho, en la que eliminaron el 50% de las neuronas de algunas de las capas densas de los bloques de transformadores. Esto dio como resultado dos versiones diferentes del modelo Llama-3.1-Minitron 4B.
Finalmente, los investigadores ajustaron los modelos podados utilizando Alineador NeMoun conjunto de herramientas que admite varios algoritmos de alineación, como el aprendizaje de refuerzo a partir de la retroalimentación humana (RLHF), la optimización de preferencia directa (DPO) y el propio algoritmo de Nvidia. Dirección LM.
Los investigadores evaluaron los modelos Llama-3.1-Minitron 4B en cuanto a habilidades de seguimiento de instrucciones, juego de roles, generación aumentada por recuperación (RAG) y llamado de funciones.
Los resultados mostraron que, a pesar de su pequeño corpus de entrenamiento, Llama-3.1-Minitron 4B tiene un rendimiento cercano al de otros SLM, incluidos Phi-2 2.7B, Gemma2 2.6B y Qwen2-1.5B. Si bien Llama-3.1-Minitron 4B es al menos un 50 % más grande que esos modelos, se ha entrenado con una fracción de los datos de entrenamiento. Esto proporciona una nueva dinámica interesante para equilibrar los costos de entrenamiento e inferencia.
El equipo ha lanzado la versión reducida en ancho del modelo en Cara abrazada Bajo la licencia Nvidia Open Model License, que permite su uso comercial, lo que lo hace accesible a una gama más amplia de usuarios y desarrolladores que pueden beneficiarse de su eficiencia y rendimiento.
“La poda y la destilación del conocimiento clásico es un método altamente rentable para obtener progresivamente modelos de lenguaje grandes (LLM) de menor tamaño, logrando una precisión superior en comparación con el entrenamiento desde cero en todos los dominios”, escribieron los investigadores. “Sirve como un enfoque más eficaz y eficiente en el uso de datos en comparación con el ajuste fino de estilo de datos sintéticos o el preentrenamiento desde cero”.
Este trabajo es un recordatorio del valor y la importancia de la comunidad de código abierto para el progreso de la IA. La poda y la destilación son parte de un conjunto más amplio de investigaciones que permiten a las empresas optimizar y personalizar los LLM a una fracción del costo normal. Otros trabajos notables en el campo incluyen el algoritmo de fusión de modelos evolutivo de Sakana AI, que permite ensamblar partes de diferentes modelos para combinar sus puntos fuertes sin la necesidad de recursos de capacitación costosos.