Mistral Small 4 — 119B MoE, 6B ativos por token, Apache 2.0. O sweet spot que faltava.

Mistral Small 4 — 119B MoE, 6B ativos por token, Apache 2.0. O sweet spot que faltava.

Eu passo uma quantidade absurda de tempo avaliando modelos open-source para produção. A maioria decepciona: ou o modelo é grande demais para servir sem um cluster, ou é pequeno o suficiente mas entrega respostas medianas. O Mistral Small 4, lançado em 16 de março de 2026, acerta exatamente no meio — e dessa vez os números sustentam o hype.

119B de parâmetros totais. 6B ativos por token. Apache 2.0 sem nenhum asterisco. Isso muda a conta de self-hosting de forma real.

A arquitetura: 128 experts, 4 ativos

O Mistral Small 4 usa uma arquitetura Mixture of Experts (MoE) com 128 experts, dos quais apenas 4 são ativados por token. Isso dá ~6B de parâmetros ativos por forward pass — o que significa que a latência e o custo de inference se comportam como um modelo de 6B, mas a capacidade total do modelo é de 119B.

Não é um truque novo — o Switch Transformer do Google já explorava isso em 2021 — mas a execução aqui é notavelmente boa. O roteamento de experts no Small 4 parece ter sido treinado com muito cuidado: a distribuição de carga entre experts é uniforme o suficiente para evitar os gargalos clássicos de MoE.

Specs rápidas:

ParâmetroValor
Parâmetros totais119B
Parâmetros ativos/token~6B
Experts128 (4 ativos)
ModalidadesTexto, visão, código
ReasoningModo configurável
LicençaApache 2.0
Contexto128K tokens

O modo de reasoning configurável é um detalhe que importa. Você pode ligar ou desligar o chain-of-thought dependendo do caso de uso — código complexo com reasoning, chatbot simples sem. Menos tokens de output = menos custo de serving.

Benchmarks: os números que importam

Vamos ao que interessa. Não confio em benchmarks do próprio vendor, mas os números do Small 4 já foram reproduzidos por terceiros.

LiveCodeBench (código)

O Small 4 bate o GPT-OSS 120B no LiveCodeBench — que é o benchmark de code generation mais respeitado atualmente porque usa problemas novos, não contaminados no treino. O detalhe mais interessante: o Small 4 faz isso produzindo 20% menos output. Menos tokens, mais acurácia. Isso é eficiência de reasoning, não brute force.

LCR (Length-Controlled Reasoning)

Esse é o benchmark que separa modelos eficientes de modelos verbosos:

ModeloAcurácia LCROutput médio
Mistral Small 40.721.6K chars
Qwen 2.5-72B0.715.8K chars
Qwen 2.5-Coder-32B0.706.1K chars

Leu direito: o Small 4 atinge acurácia comparável ao Qwen 2.5-72B com 3.6x menos output. Isso não é um detalhe cosmético — em produção, menos tokens de output significam menor latência percebida pelo usuário e menor custo por request.

vs Mistral Small 3

Comparado com o antecessor direto:

  • 40% menos latência por request
  • 3x mais throughput (requests/segundo no mesmo hardware)

Isso é melhoria de arquitetura, não apenas de scale. O MoE com 128 experts permite paralelismo de roteamento que modelos densos simplesmente não conseguem.

Como rodar: vLLM, Ollama, e os caminhos práticos

O modelo está disponível no Hugging Face e o peso é Apache 2.0 — download, serve, vende, sem pedir permissão a ninguém.

Com vLLM

pip install vllm --upgrade

python -m vllm.entrypoints.openai.api_server \
    --model mistralai/Mistral-Small-4-Instruct \
    --tensor-parallel-size 2 \
    --max-model-len 32768 \
    --port 8000

Duas GPUs A100 80GB rodam o modelo em FP16 sem quantização. Com AWQ 4-bit, dá para servir numa única A100 80GB — o que muda completamente a conta.

Com Ollama (para teste local)

ollama run mistral-small-4

A versão quantizada Q4_K_M cabe em ~32GB de RAM. Se você tem um Mac com 64GB de memória unificada, roda local com performance razoável para desenvolvimento.

API compatível com OpenAI

Uma vez rodando com vLLM, a API é drop-in replacement para a OpenAI:

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="not-needed")

response = client.chat.completions.create(
    model="mistralai/Mistral-Small-4-Instruct",
    messages=[
        {"role": "user", "content": "Implemente um rate limiter com sliding window em Go"}
    ],
    temperature=0.3,
)
print(response.choices[0].message.content)

A economia de MoE: por que 6B ativos muda tudo

Vamos fazer a conta que importa — custo por milhão de tokens em self-hosting:

SetupGPUCusto/hora (spot)Throughput (tok/s)Custo/1M tokens
Llama 4 70B (denso)2x A100 80GB~US$2.20~800~US$0.76
Mistral Small 4 (FP16)2x A100 80GB~US$2.20~2400~US$0.25
Mistral Small 4 (AWQ 4bit)1x A100 80GB~US$1.10~1800~US$0.17

O Small 4 entrega 3x mais throughput que um modelo denso de tamanho similar no mesmo hardware. E com quantização, cabe em metade das GPUs. Para quem serve milhões de requests por dia, a diferença anualizada é de dezenas de milhares de dólares.

Esse é o ponto fundamental de MoE bem executado: você paga inference de 6B mas tem a qualidade treinada em 119B. O overhead de roteamento existe, mas é negligível comparado ao ganho.

Limitações — o que ainda não é perfeito

Já testei o suficiente para listar as dores reais:

  • Quantização agressiva: abaixo de 4-bit (GPTQ 3-bit, por exemplo), a qualidade cai visivelmente mais do que em modelos densos equivalentes. MoE é sensível a erros no roteamento de experts, e quantização extrema prejudica exatamente isso.
  • Latência de primeiro token: o modelo é ótimo em throughput, mas o time-to-first-token é levemente maior que modelos densos de 6-7B. O roteamento de experts tem overhead fixo. Para chatbots interativos, pode ser perceptível.
  • Long context real: o modelo anuncia 128K de contexto, mas nos meus testes a qualidade de retrieval degrada significativamente acima de 64K tokens. Não é exclusivo do Small 4 — praticamente todo modelo aberto tem esse gap.
  • Vision: a capacidade multimodal existe, mas não é state-of-the-art. Para tarefas pesadas de visão, Qwen-VL ainda leva vantagem.

Nenhum desses pontos invalida o modelo. Mas é bom saber antes de colocar em produção e descobrir na marra.

Veredito

O Mistral Small 4 é, na minha avaliação, o melhor modelo open-source para self-hosting em produção em março de 2026. A combinação de qualidade (bate GPT-OSS 120B em código), eficiência (6B ativos, 3x throughput), e licença (Apache 2.0, zero fricção legal) não tem equivalente direto no mercado.

Se você está servindo um modelo denso de 70B+ e não explorou MoE ainda, faça um benchmark com o Small 4 no seu workload. Aposto que a conta fecha. Se você está preso em API proprietária por medo de qualidade, rode o LiveCodeBench e compare. Os números falam.

Modelo: Hugging Face — mistralai/Mistral-Small-4-Instruct. Apache 2.0. Sem asteriscos. Vai lá e mede.