Showing Posts From

Benchmark

Mistral Small 4 — 119B MoE, 6B ativos por token, Apache 2.0. O sweet spot que faltava.

Eu passo uma quantidade absurda de tempo avaliando modelos open-source para produção. A maioria decepciona: ou o modelo é grande demais para servir sem um cluster, ou é pequeno o suficiente mas entrega respostas medianas. O Mistral Small 4, lançado em 16 de março de 2026, acerta exatamente no meio — e dessa vez os números sustentam o hype. 119B de parâmetros totais. 6B ativos por token. Apache 2.0 sem nenhum asterisco. Isso muda a conta de self-hosting de forma real. A arquitetura: 128 experts, 4 ativos O Mistral Small 4 usa uma arquitetura Mixture of Experts (MoE) com 128 experts, dos quais apenas 4 são ativados por token. Isso dá ~6B de parâmetros ativos por forward pass — o que significa que a latência e o custo de inference se comportam como um modelo de 6B, mas a capacidade total do modelo é de 119B. Não é um truque novo — o Switch Transformer do Google já explorava isso em 2021 — mas a execução aqui é notavelmente boa. O roteamento de experts no Small 4 parece ter sido treinado com muito cuidado: a distribuição de carga entre experts é uniforme o suficiente para evitar os gargalos clássicos de MoE. Specs rápidas:Parâmetro ValorParâmetros totais 119BParâmetros ativos/token ~6BExperts 128 (4 ativos)Modalidades Texto, visão, códigoReasoning Modo configurávelLicença Apache 2.0Contexto 128K tokensO modo de reasoning configurável é um detalhe que importa. Você pode ligar ou desligar o chain-of-thought dependendo do caso de uso — código complexo com reasoning, chatbot simples sem. Menos tokens de output = menos custo de serving. Benchmarks: os números que importam Vamos ao que interessa. Não confio em benchmarks do próprio vendor, mas os números do Small 4 já foram reproduzidos por terceiros. LiveCodeBench (código) O Small 4 bate o GPT-OSS 120B no LiveCodeBench — que é o benchmark de code generation mais respeitado atualmente porque usa problemas novos, não contaminados no treino. O detalhe mais interessante: o Small 4 faz isso produzindo 20% menos output. Menos tokens, mais acurácia. Isso é eficiência de reasoning, não brute force. LCR (Length-Controlled Reasoning) Esse é o benchmark que separa modelos eficientes de modelos verbosos:Modelo Acurácia LCR Output médioMistral Small 4 0.72 1.6K charsQwen 2.5-72B 0.71 5.8K charsQwen 2.5-Coder-32B 0.70 6.1K charsLeu direito: o Small 4 atinge acurácia comparável ao Qwen 2.5-72B com 3.6x menos output. Isso não é um detalhe cosmético — em produção, menos tokens de output significam menor latência percebida pelo usuário e menor custo por request. vs Mistral Small 3 Comparado com o antecessor direto:40% menos latência por request 3x mais throughput (requests/segundo no mesmo hardware)Isso é melhoria de arquitetura, não apenas de scale. O MoE com 128 experts permite paralelismo de roteamento que modelos densos simplesmente não conseguem. Como rodar: vLLM, Ollama, e os caminhos práticos O modelo está disponível no Hugging Face e o peso é Apache 2.0 — download, serve, vende, sem pedir permissão a ninguém. Com vLLM pip install vllm --upgradepython -m vllm.entrypoints.openai.api_server \ --model mistralai/Mistral-Small-4-Instruct \ --tensor-parallel-size 2 \ --max-model-len 32768 \ --port 8000Duas GPUs A100 80GB rodam o modelo em FP16 sem quantização. Com AWQ 4-bit, dá para servir numa única A100 80GB — o que muda completamente a conta. Com Ollama (para teste local) ollama run mistral-small-4A versão quantizada Q4_K_M cabe em ~32GB de RAM. Se você tem um Mac com 64GB de memória unificada, roda local com performance razoável para desenvolvimento. API compatível com OpenAI Uma vez rodando com vLLM, a API é drop-in replacement para a OpenAI: from openai import OpenAIclient = OpenAI(base_url="http://localhost:8000/v1", api_key="not-needed")response = client.chat.completions.create( model="mistralai/Mistral-Small-4-Instruct", messages=[ {"role": "user", "content": "Implemente um rate limiter com sliding window em Go"} ], temperature=0.3, ) print(response.choices[0].message.content)A economia de MoE: por que 6B ativos muda tudo Vamos fazer a conta que importa — custo por milhão de tokens em self-hosting:Setup GPU Custo/hora (spot) Throughput (tok/s) Custo/1M tokensLlama 4 70B (denso) 2x A100 80GB ~US$2.20 ~800 ~US$0.76Mistral Small 4 (FP16) 2x A100 80GB ~US$2.20 ~2400 ~US$0.25Mistral Small 4 (AWQ 4bit) 1x A100 80GB ~US$1.10 ~1800 ~US$0.17O Small 4 entrega 3x mais throughput que um modelo denso de tamanho similar no mesmo hardware. E com quantização, cabe em metade das GPUs. Para quem serve milhões de requests por dia, a diferença anualizada é de dezenas de milhares de dólares. Esse é o ponto fundamental de MoE bem executado: você paga inference de 6B mas tem a qualidade treinada em 119B. O overhead de roteamento existe, mas é negligível comparado ao ganho. Limitações — o que ainda não é perfeito Já testei o suficiente para listar as dores reais:Quantização agressiva: abaixo de 4-bit (GPTQ 3-bit, por exemplo), a qualidade cai visivelmente mais do que em modelos densos equivalentes. MoE é sensível a erros no roteamento de experts, e quantização extrema prejudica exatamente isso. Latência de primeiro token: o modelo é ótimo em throughput, mas o time-to-first-token é levemente maior que modelos densos de 6-7B. O roteamento de experts tem overhead fixo. Para chatbots interativos, pode ser perceptível. Long context real: o modelo anuncia 128K de contexto, mas nos meus testes a qualidade de retrieval degrada significativamente acima de 64K tokens. Não é exclusivo do Small 4 — praticamente todo modelo aberto tem esse gap. Vision: a capacidade multimodal existe, mas não é state-of-the-art. Para tarefas pesadas de visão, Qwen-VL ainda leva vantagem.Nenhum desses pontos invalida o modelo. Mas é bom saber antes de colocar em produção e descobrir na marra. Veredito O Mistral Small 4 é, na minha avaliação, o melhor modelo open-source para self-hosting em produção em março de 2026. A combinação de qualidade (bate GPT-OSS 120B em código), eficiência (6B ativos, 3x throughput), e licença (Apache 2.0, zero fricção legal) não tem equivalente direto no mercado. Se você está servindo um modelo denso de 70B+ e não explorou MoE ainda, faça um benchmark com o Small 4 no seu workload. Aposto que a conta fecha. Se você está preso em API proprietária por medo de qualidade, rode o LiveCodeBench e compare. Os números falam. Modelo: Hugging Face — mistralai/Mistral-Small-4-Instruct. Apache 2.0. Sem asteriscos. Vai lá e mede.