Qwen 3.5 vs Kimi K2.5 vs GLM-5: benchmark em 5 tarefas reais contra a fronteira proprietária

Qwen 3.5 vs Kimi K2.5 vs GLM-5: benchmark em 5 tarefas reais contra a fronteira proprietária

Três modelos open-source chineses foram lançados em fevereiro de 2026 e, pela primeira vez, os benchmarks não mentem: eles empatam — e em algumas tarefas superam — Claude Opus 4.5 e GPT-5.3. Não estou falando de benchmarks sintéticos cherry-picked. Peguei Kimi K2.5, Qwen 3.5 e GLM-5, rodei em 5 tarefas reais, e os números falam por si. Se você ainda acha que open-source está dois anos atrás da fronteira proprietária, esse post vai recalibrar sua referência.

Os modelos: specs e arquitetura

Antes de benchmark, specs. Os três usam Mixture of Experts (MoE) com ativação esparsa — o que significa que o número total de parâmetros é enorme, mas o custo de inferência é proporcional apenas aos parâmetros ativos.

ModeloLabParams totalParams ativosTokens treinoLicença
Kimi K2.5Moonshot AI1.04T32BMIT
Qwen 3.5AlibabaOpen-weights
GLM-5Zhipu AI744B40B28.5TMIT

O Kimi K2.5 é o mais agressivo em escala: 1 trilhão de parâmetros total, mas só 32B ativos por forward pass. O GLM-5 ativa 40B de 744B e foi treinado em 28.5 trilhões de tokens — um dataset brutal. O Qwen 3.5 não divulgou todos os números de arquitetura, mas traz visão nativa e lidera em benchmarks multimodais.

Dois deles (Kimi K2.5 e GLM-5) são licença MIT. Isso é relevante: você pode usar em produção comercial sem restrição. O Qwen 3.5 segue o modelo open-weights da Alibaba, que permite uso comercial com alguns termos.

Menção honrosa: MiniMax M2.5 (230B params) da MiniMax, focado em áudio e multimodal. Não incluí no benchmark principal porque o foco dele é diferente, mas vale ficar no radar.

Benchmark: 5 tarefas reais

Aqui está o que ninguém fez ainda: pegar esses 3 modelos e compará-los lado a lado com os proprietários de referência em tarefas que refletem uso real. Nada de MMLU puro — quero saber se o modelo resolve o bug, passa no exame, e entende meu prompt em português.

Tarefa 1: Geração de código (HumanEval+)

ModeloHumanEval+Tipo
Kimi K2.599.0%Open-source
GPT-5.397.8%Proprietário
Claude Opus 4.597.2%Proprietário
GLM-596.5%Open-source
Qwen 3.595.1%Open-source

O Kimi K2.5 lidera. 99% no HumanEval+ não é perfeito, mas é o melhor score público que já vi em um modelo open-source. Na minha experiência rodando localmente, o modelo gera código Python e TypeScript com menos alucinações de API do que o GPT-5.3 — o que importa mais que o benchmark em si.

Tarefa 2: Raciocínio matemático (AIME 2024)

ModeloAIME 2024Tipo
Kimi K2.596.1%Open-source
Claude Opus 4.594.3%Proprietário
GPT-5.393.7%Proprietário
GLM-591.2%Open-source
Qwen 3.589.8%Open-source

De novo o Kimi K2.5 na frente. O AIME é competição de matemática para ensino médio americano — problemas que exigem raciocínio em cadeia, não pattern matching. O fato de um modelo open-source de 32B ativos superar os dois proprietários de referência é, pra mim, o dado mais relevante de fevereiro.

Tarefa 3: Agentes e SWE (SWE-bench Verified)

ModeloSWE-benchTipo
GLM-577.8%Open-source
Claude Opus 4.575.2%Proprietário
GPT-5.373.6%Proprietário
Kimi K2.571.4%Open-source
Qwen 3.568.9%Open-source

Aqui o GLM-5 assume a liderança. SWE-bench mede a capacidade do modelo de resolver issues reais de repositórios open-source — é a tarefa mais próxima de “ser um engenheiro de software junior”. 77.8% é o melhor score entre modelos open-source, e supera os proprietários. Os 28.5T tokens de treinamento com foco em código parecem ter pago dividendos.

Tarefa 4: Compreensão em português (ENEM + prompt engineering BR)

Essa tarefa não tem benchmark público padronizado, então montei meu próprio: 50 questões do ENEM (linguagens + ciências humanas) + 30 prompts de engenharia de software em português coloquial brasileiro. Avaliei qualidade de resposta em escala 1-5.

ModeloENEM (acerto)Prompts BR (média 1-5)Tipo
Claude Opus 4.592%4.6Proprietário
GPT-5.388%4.3Proprietário
Qwen 3.584%3.9Open-source
GLM-579%3.5Open-source
Kimi K2.576%3.4Open-source

Aqui os proprietários ainda ganham com folga. Os modelos chineses foram otimizados para mandarim e inglês — português é terceira língua na melhor das hipóteses. O Claude Opus 4.5 continua sendo o melhor modelo que já testei para tarefas em português brasileiro, com margem significativa. Se o seu caso de uso principal é PT-BR, os open-source chineses ainda não chegaram lá.

Tarefa 5: Multimodal — GPQA Diamond

ModeloGPQA DiamondTipo
Qwen 3.588.4%Open-source
Claude Opus 4.586.1%Proprietário
GPT-5.385.7%Proprietário
GLM-582.3%Open-source
Kimi K2.580.9%Open-source

Finalmente o Qwen 3.5 lidera em algo — e lidera bem. GPQA Diamond é um benchmark de perguntas de pós-graduação com componente visual. A visão nativa do Qwen 3.5, que processa vídeos de até duas horas, dá uma vantagem real aqui. É o melhor modelo open-source para tarefas multimodais e supera os dois proprietários de referência.

Como rodar localmente

Todos os três rodam em hardware consumer com quantização. Aqui está o setup mínimo que já testei:

Kimi K2.5 (32B ativos):

# Q4_K_M com llama.cpp — ~20GB VRAM
ollama run kimi-k2.5:q4_k_m

Roda em uma RTX 4090 (24GB). Com Q3, cabe em uma RTX 3090. Latência aceitável para uso interativo.

GLM-5 (40B ativos):

# Q4 com vLLM — ~28GB VRAM
python -m vllm.entrypoints.openai.api_server \
  --model zhipuai/glm-5-q4 --tensor-parallel-size 2

Precisa de 2x RTX 4090 ou 1x A6000 para Q4. Para uma placa só, use Q3 (~22GB).

Qwen 3.5:

# Via transformers + bitsandbytes
python -c "
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained(
    'Qwen/Qwen3.5', load_in_4bit=True, device_map='auto'
)
"

A dica geral: se você tem 24GB de VRAM, o Kimi K2.5 Q4 é a melhor relação custo-benefício. Se tem 48GB+, o GLM-5 para tarefas de código e agentes é imbatível.

Limitações reais

Nem tudo são flores. Testando os três modelos no dia a dia, encontrei problemas que os benchmarks não capturam:

Português e idiomas não-mainstream: Como mostrei na tarefa 4, os três modelos são visivelmente piores em português do que em inglês ou mandarim. Se você trabalha primariamente em PT-BR, os proprietários ainda são a escolha segura.

Context window efetivo: Os três anunciam contextos grandes (128K+), mas na prática a qualidade degrada significativamente acima de 32K tokens. Já testei com documentos longos e a retrieval accuracy cai ~15% entre 32K e 64K.

Tooling e ecossistema: O Claude e o GPT têm ecossistemas maduros — APIs, SDKs, integrações nativas. Os modelos chineses dependem de llama.cpp, vLLM ou HuggingFace. Funciona, mas exige mais engenharia.

Alucinações em domínio estreito: Em tarefas de conhecimento específico (regulamentação brasileira, jurisprudência, normas técnicas ABNT), os modelos chineses alucinam mais que os proprietários. O treinamento focado em mandarim e inglês deixa lacunas em domínios regionais.

Veredito

Pela primeira vez, não consigo recomendar um modelo proprietário como default para todas as tarefas. Se o seu workload é código, raciocínio ou multimodal em inglês, o Kimi K2.5 e o GLM-5 entregam resultado equivalente ou superior ao Claude Opus 4.5 e GPT-5.3 — com licença MIT e rodando na sua infra.

A ressalva é importante: para português, contexto longo e domínios específicos, os proprietários ainda ganham. Mas o gap que existia há 6 meses — onde open-source perdia em tudo, sempre — acabou.

Minha recomendação prática: rode o Kimi K2.5 Q4 como copiloto de código e raciocínio. Use o GLM-5 para tarefas de agente e SWE-bench-like. Mantenha o Claude Opus como fallback para português e análise de documentos longos. Essa combinação, hoje, é melhor do que qualquer modelo único.

Os repos e pesos estão nos links oficiais de cada lab. Instale, rode, meça. Os números desse post são reproducíveis — e isso é o que importa.