Meta presenta Llama 4, la nueva generación de su IA multimodal
Meta ha ampliado su familia de modelos de lenguaje a gran escala (LLM) con la presentación de Llama 4. La tecnológica ha desarrollado tres versiones de esta IA multimodal (Scout, Maverick y Behemoth), con las que pretende ayudar a desarrolladores y profesionales a construir experiencias más personalizadas.
Un aspecto a destacar de los modelos Llama 4 es que son los primeros de Meta que utilizan una arquitectura de Mezcla de Expertos (MoE). Esto significa que, en lugar de tener una única red neuronal que procese toda la información, la IA posee una red neuronal avanzada compuesta de varios «expertos», que son subredes o modelos especializados en tareas concretas.
Gracias a esto, tan solo se activarán los «expertos» necesarios para cada consulta, mejorando la eficiencia y reduciendo la latencia o tiempo de respuesta. Otras IAs que se basan en MoE son DeepSeek V3, Qwen2.5-Max o Gemini 1.5 Pro.
Los modelos Llama 4 Scout y Llama 4 Maverick ya pueden descargarse en llama.com y Hugging Face. Además, la tecnológica ha afirmado que, en los próximos días, también estarán disponibles a través de sus socios. Por otra parte, la tecnología de Llama 4 se ha activado en Meta AI, tanto en su sitio web como en WhatsApp, Messenger e Instagram.
Sin embargo, Meta deja muy claro en su política de uso que los derechos de uso y distribución de Llama 4 «no se le otorgan si usted es una persona física o una empresa con sede principal en la Unión Europea. Esta restricción no se aplica a los usuarios finales de un producto o servicio que incorpore dichos modelos multimodales».
El próximo 29 de abril, en el marco de su evento para desarrolladores LlamaCon, el gigante tecnológico tiene previsto compartir más información sobre Llama 4.
Today is the start of a new era of natively multimodal AI innovation.
Today, we’re introducing the first Llama 4 models: Llama 4 Scout and Llama 4 Maverick — our most advanced models yet and the best in their class for multimodality.
Llama 4 Scout
• 17B-active-parameter model… pic.twitter.com/Z8P3h0MA1P— AI at Meta (@AIatMeta) April 5, 2025
Modelos Llama 4
Los modelos de Llama 4 han sido diseñados con multimodalidad nativa, pudiendo entender y generar texto, imágenes e incluso vídeo como parte de su funcionamiento principal, y no como una capacidad añadida a posteriori.
Además, incorpora «fusión temprana», una técnica que permite combinar los diferentes datos (ya sean texto, imágenes o vídeo), desde las primeras capas del modelo, en vez de procesarlas por separado. «La fusión temprana supone un gran avance, ya que nos permite preentrenar conjuntamente el modelo con grandes cantidades de datos de texto, imagen y vídeo sin etiquetar», explica Meta.
Así mismo, la tecnológica ha mejorado el codificador de visión en Llama 4, el cual se basa en MetaCLIP, pero se ha entrado con otro modelo Llama para adaptarlo mejor.
Llama 4 Scout
Se trata de la versión más reducida de Llama 4, pero aun así es más potente que todos los modelos de Llama de generaciones anteriores. Ha sido diseñado para funcionar con una sola GPU y, según Meta, ha obtenido mejores resultados que otros modelos como Gemma 3, Gemini 2.0 Flash-Lite y Mistral 3.1 en diversas pruebas.
Llama 4 Scout es un modelo de 17.000 millones de parámetros activos y 16 «expertos» que ofrece una ventana de contexto de 10 millones de tokens.
Recordemos que los parámetros son los valores internos que un modelo aprende durante su entrenamiento. No son el conjunto de datos en sí, sino los controles e indicaciones integradas en su sistema que le permiten definir cómo procesar y transformar la información que analiza.
Llama 4 Maverick
Por su parte, Llama 4 Maverick se trata de un modelo de 17.000 millones de parámetros activos y 128 «expertos». Meta afirma que «es el mejor modelo multimodal de su clase, superando a GPT-4o y Gemini 2.0 Flash en una amplia gama de benchmarks ampliamente difundidos, a la vez que logra resultados comparables a los del nuevo DeepSeek v3 en razonamiento y codificación, con menos de la mitad de los parámetros activos».
Este modelo también destaca por sus capacidades mejoradas de comprensión de imágenes y texto. Así mismo, ofrece una gran relación rendimiento-coste, con una versión de chat experimental con una puntuación ELO de 1.417 en LMArena.
Llama 4 Behemoth
Este se trata del modelo que ha servido de guía para la creación de Scout y Maverick, y que Meta afirma que seguirá funcionado como tal para próximas versiones. La tecnológica lo cataloga como «uno de los modelos LLM más inteligentes del mundo y el más potente hasta la fecha».
Por el momento, Llama 4 Behemoth todavía se encuentra en desarrollo, pero ya obtiene resultados que superan a GPT-4.5, Claude Sonnet 3.7 y Gemini 2.0 Pro en benchmarks enfocados en STEM. Posee 288.000 millones de parámetros activos y cuenta con 16 «expertos» y casi 2 billones de parámetros totales.
Foto: GPT-4o