Mistral Small 4 — 119B MoE, 6B ativos por token, Apache 2.0. O sweet spot que faltava.
-
Diego Hartmann - 30 Mar, 2026
Eu passo uma quantidade absurda de tempo avaliando modelos open-source para produção. A maioria decepciona: ou o modelo é grande demais para servir sem um cluster, ou é pequeno o suficiente mas entrega respostas medianas. O Mistral Small 4, lançado em 16 de março de 2026, acerta exatamente no meio — e dessa vez os números sustentam o hype.
119B de parâmetros totais. 6B ativos por token. Apache 2.0 sem nenhum asterisco. Isso muda a conta de self-hosting de forma real.
A arquitetura: 128 experts, 4 ativos
O Mistral Small 4 usa uma arquitetura Mixture of Experts (MoE) com 128 experts, dos quais apenas 4 são ativados por token. Isso dá ~6B de parâmetros ativos por forward pass — o que significa que a latência e o custo de inference se comportam como um modelo de 6B, mas a capacidade total do modelo é de 119B.
Não é um truque novo — o Switch Transformer do Google já explorava isso em 2021 — mas a execução aqui é notavelmente boa. O roteamento de experts no Small 4 parece ter sido treinado com muito cuidado: a distribuição de carga entre experts é uniforme o suficiente para evitar os gargalos clássicos de MoE.
Specs rápidas:
| Parâmetro | Valor |
|---|---|
| Parâmetros totais | 119B |
| Parâmetros ativos/token | ~6B |
| Experts | 128 (4 ativos) |
| Modalidades | Texto, visão, código |
| Reasoning | Modo configurável |
| Licença | Apache 2.0 |
| Contexto | 128K tokens |
O modo de reasoning configurável é um detalhe que importa. Você pode ligar ou desligar o chain-of-thought dependendo do caso de uso — código complexo com reasoning, chatbot simples sem. Menos tokens de output = menos custo de serving.
Benchmarks: os números que importam
Vamos ao que interessa. Não confio em benchmarks do próprio vendor, mas os números do Small 4 já foram reproduzidos por terceiros.
LiveCodeBench (código)
O Small 4 bate o GPT-OSS 120B no LiveCodeBench — que é o benchmark de code generation mais respeitado atualmente porque usa problemas novos, não contaminados no treino. O detalhe mais interessante: o Small 4 faz isso produzindo 20% menos output. Menos tokens, mais acurácia. Isso é eficiência de reasoning, não brute force.
LCR (Length-Controlled Reasoning)
Esse é o benchmark que separa modelos eficientes de modelos verbosos:
| Modelo | Acurácia LCR | Output médio |
|---|---|---|
| Mistral Small 4 | 0.72 | 1.6K chars |
| Qwen 2.5-72B | 0.71 | 5.8K chars |
| Qwen 2.5-Coder-32B | 0.70 | 6.1K chars |
Leu direito: o Small 4 atinge acurácia comparável ao Qwen 2.5-72B com 3.6x menos output. Isso não é um detalhe cosmético — em produção, menos tokens de output significam menor latência percebida pelo usuário e menor custo por request.
vs Mistral Small 3
Comparado com o antecessor direto:
- 40% menos latência por request
- 3x mais throughput (requests/segundo no mesmo hardware)
Isso é melhoria de arquitetura, não apenas de scale. O MoE com 128 experts permite paralelismo de roteamento que modelos densos simplesmente não conseguem.
Como rodar: vLLM, Ollama, e os caminhos práticos
O modelo está disponível no Hugging Face e o peso é Apache 2.0 — download, serve, vende, sem pedir permissão a ninguém.
Com vLLM
pip install vllm --upgrade
python -m vllm.entrypoints.openai.api_server \
--model mistralai/Mistral-Small-4-Instruct \
--tensor-parallel-size 2 \
--max-model-len 32768 \
--port 8000
Duas GPUs A100 80GB rodam o modelo em FP16 sem quantização. Com AWQ 4-bit, dá para servir numa única A100 80GB — o que muda completamente a conta.
Com Ollama (para teste local)
ollama run mistral-small-4
A versão quantizada Q4_K_M cabe em ~32GB de RAM. Se você tem um Mac com 64GB de memória unificada, roda local com performance razoável para desenvolvimento.
API compatível com OpenAI
Uma vez rodando com vLLM, a API é drop-in replacement para a OpenAI:
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="not-needed")
response = client.chat.completions.create(
model="mistralai/Mistral-Small-4-Instruct",
messages=[
{"role": "user", "content": "Implemente um rate limiter com sliding window em Go"}
],
temperature=0.3,
)
print(response.choices[0].message.content)
A economia de MoE: por que 6B ativos muda tudo
Vamos fazer a conta que importa — custo por milhão de tokens em self-hosting:
| Setup | GPU | Custo/hora (spot) | Throughput (tok/s) | Custo/1M tokens |
|---|---|---|---|---|
| Llama 4 70B (denso) | 2x A100 80GB | ~US$2.20 | ~800 | ~US$0.76 |
| Mistral Small 4 (FP16) | 2x A100 80GB | ~US$2.20 | ~2400 | ~US$0.25 |
| Mistral Small 4 (AWQ 4bit) | 1x A100 80GB | ~US$1.10 | ~1800 | ~US$0.17 |
O Small 4 entrega 3x mais throughput que um modelo denso de tamanho similar no mesmo hardware. E com quantização, cabe em metade das GPUs. Para quem serve milhões de requests por dia, a diferença anualizada é de dezenas de milhares de dólares.
Esse é o ponto fundamental de MoE bem executado: você paga inference de 6B mas tem a qualidade treinada em 119B. O overhead de roteamento existe, mas é negligível comparado ao ganho.
Limitações — o que ainda não é perfeito
Já testei o suficiente para listar as dores reais:
- Quantização agressiva: abaixo de 4-bit (GPTQ 3-bit, por exemplo), a qualidade cai visivelmente mais do que em modelos densos equivalentes. MoE é sensível a erros no roteamento de experts, e quantização extrema prejudica exatamente isso.
- Latência de primeiro token: o modelo é ótimo em throughput, mas o time-to-first-token é levemente maior que modelos densos de 6-7B. O roteamento de experts tem overhead fixo. Para chatbots interativos, pode ser perceptível.
- Long context real: o modelo anuncia 128K de contexto, mas nos meus testes a qualidade de retrieval degrada significativamente acima de 64K tokens. Não é exclusivo do Small 4 — praticamente todo modelo aberto tem esse gap.
- Vision: a capacidade multimodal existe, mas não é state-of-the-art. Para tarefas pesadas de visão, Qwen-VL ainda leva vantagem.
Nenhum desses pontos invalida o modelo. Mas é bom saber antes de colocar em produção e descobrir na marra.
Veredito
O Mistral Small 4 é, na minha avaliação, o melhor modelo open-source para self-hosting em produção em março de 2026. A combinação de qualidade (bate GPT-OSS 120B em código), eficiência (6B ativos, 3x throughput), e licença (Apache 2.0, zero fricção legal) não tem equivalente direto no mercado.
Se você está servindo um modelo denso de 70B+ e não explorou MoE ainda, faça um benchmark com o Small 4 no seu workload. Aposto que a conta fecha. Se você está preso em API proprietária por medo de qualidade, rode o LiveCodeBench e compare. Os números falam.
Modelo: Hugging Face — mistralai/Mistral-Small-4-Instruct. Apache 2.0. Sem asteriscos. Vai lá e mede.