MiniMax M2.7 trae un modelo de IA de 230 mil millones de parámetros a la infraestructura de NVIDIA

AsiaTokenFund · 2026-04-13T00:50:08+00:00

MiniMax ha lanzado M2.7, un modelo de IA de 230 mil millones de parámetros optimizado para GPUs NVIDIA, que presenta una tasa de activación del 4.3% mediante una arquitectura de mezcla de expertos. Mejora el rendimiento hasta 2.7 veces en hardware Blackwell, dirigido a flujos de trabajo autónomos complejos.

AsiaTokenFund

2026-04-13 00:50:08

Generación de resúmenes en curso

Ted Hisokawa

12 de abr. de 2026 01:37

MiniMax lanza M2.7, un modelo de mezcla de expertos de 230 mil millones de parámetros optimizado para GPUs NVIDIA con ganancias de rendimiento de hasta 2.7x en hardware Blackwell.

MiniMax ha lanzado M2.7, un modelo de IA de pesos abiertos de 230 mil millones de parámetros diseñado específicamente para flujos de trabajo de agentes autónomos, ahora disponible en todo el ecosistema de inferencia de NVIDIA, incluyendo las últimas GPUs Blackwell Ultra.

El modelo representa una jugada de eficiencia significativa en IA empresarial. A pesar de sus masivos 230B de parámetros totales, M2.7 activa solo 10B de parámetros por token—una tasa de activación del 4.3% lograda mediante arquitectura de mezcla de expertos (MoE) con 256 expertos locales. Esto mantiene los costos de inferencia manejables mientras conserva la capacidad de razonamiento de un modelo mucho más grande.

Números de rendimiento en Blackwell

NVIDIA colaboró con comunidades de código abierto para optimizar M2.7 para cargas de trabajo de producción. Dos optimizaciones clave—un núcleo fusionado de Norm RMS QK y la integración FP8 MoE de TensorRT-LLM—ofrecieron mejoras sustanciales en el rendimiento en GPUs Blackwell Ultra.

Las pruebas con un conjunto de datos de secuencia de entrada/salida de 1K/1K mostraron que vLLM alcanzó hasta 2.5x de mejora en el rendimiento, mientras que SGLang logró ganancias de 2.7x. Ambas optimizaciones se implementaron en un mes, lo que sugiere que aún existe espacio para mejorar el rendimiento.

Arquitectura técnica

M2.7 soporta una longitud de contexto de entrada de 200K a través de 62 capas, usando atención causal multi-cabeza con Embeddings de Posición Rotary (RoPE). Un mecanismo de enrutamiento de expertos top-k activa solo 8 de los 256 expertos para cualquier entrada dada, lo que permite que el modelo mantenga bajos los costos de inferencia a pesar de su escala.

La arquitectura está orientada a desafíos de codificación y tareas complejas de agentes—flujos de trabajo donde los sistemas de IA necesitan planificar, ejecutar y iterar de forma autónoma en lugar de responder a un solo prompt.

Opciones de despliegue

Los desarrolladores pueden acceder a M2.7 a través de múltiples canales. La pila de referencia NemoClaw de NVIDIA ofrece un despliegue con un clic para ejecutar agentes autónomos con tiempo de ejecución OpenShell. El modelo también está disponible a través de microservicios en contenedores NIM de NVIDIA para despliegues en local, en la nube o híbridos.

Para equipos que desean personalizar el modelo, la biblioteca NeMo AutoModel de NVIDIA soporta ajuste fino con recetas publicadas. Los flujos de trabajo de aprendizaje por refuerzo están disponibles a través de NeMo RL con configuraciones de muestra para secuencias de 8K y 16K.

Puntos finales acelerados por GPU gratuitos en build.nvidia.com permiten realizar pruebas antes de comprometerse con la infraestructura. Los pesos abiertos también están disponibles en Hugging Face para despliegues autohospedados.

El lanzamiento posiciona a MiniMax como una alternativa creíble a los modelos cerrados de OpenAI y Anthropic para empresas que construyen sistemas de IA autónomos, especialmente aquellas ya invertidas en infraestructura de NVIDIA.

Fuente de la imagen: Shutterstock

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.