Esta semana, Meta ha lanzado los modelos de código abierto Llama 3.2. El lanzamiento consta de 4 modelos con tamaños y características diferentes, que son: 1B, 3B, 11B y 90B. Todos en su forma “base” e “instruct”, es decir, con y sin entrenamiento para interactuar en forma de chat.
Modelos 1B y 3B
Los modelos más pequeños (1B y 3B), con mil millones de parámetros y 3 mil millones de parámetros respectivamente, están pensados para poder ser embebidos y utilizados en dispositivos pequeños, a fin de ser empleados de forma local.
Son modelos de texto a texto que, según la propia Meta, son ideales para resumir contenido, parafrasearlo, o el llamado de herramientas locales, como las que podrían existir en un teléfono o sistema local.
Son multilenguaje, soportando oficialmente: inglés, alemán, francés, italiano, portugués, hindi, español y tailandés, aunque en su entrenamiento hay contenido de otros lenguajes, con una ventana de contexto de 128k tokens.
Modelos 11B y 90B multimodales
A diferencia de los modelos anteriores, estos son imagen-texto a texto, siendo capaces de comprender y describir una imagen. Es decir, son modelos multimodales.
Al igual que sus hermanos pequeños, soportan una ventana de contexto de 128k tokens y los idiomas mencionados: inglés, alemán, francés, italiano, portugués, hindi, español y tailandés.
Según palabras de Meta, pueden ser considerados como los reemplazos de sus modelos anteriores Llama 3.1 de 8B y 70B de parámetros, respectivamente. Aún así, los modelos Llama 3.1 son lo suficientemente buenos, si no son necesarias las nuevas capacidades de visión de los modelos más recientes.
Referencia oficial: https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/