Qwen 3.5 vs Kimi K2.5 vs GLM-5: benchmark em 5 tarefas reais contra a fronteira proprietária
-
Diego Hartmann - 15 Feb, 2026
Três modelos open-source chineses foram lançados em fevereiro de 2026 e, pela primeira vez, os benchmarks não mentem: eles empatam — e em algumas tarefas superam — Claude Opus 4.5 e GPT-5.3. Não estou falando de benchmarks sintéticos cherry-picked. Peguei Kimi K2.5, Qwen 3.5 e GLM-5, rodei em 5 tarefas reais, e os números falam por si. Se você ainda acha que open-source está dois anos atrás da fronteira proprietária, esse post vai recalibrar sua referência.
Os modelos: specs e arquitetura
Antes de benchmark, specs. Os três usam Mixture of Experts (MoE) com ativação esparsa — o que significa que o número total de parâmetros é enorme, mas o custo de inferência é proporcional apenas aos parâmetros ativos.
| Modelo | Lab | Params total | Params ativos | Tokens treino | Licença |
|---|---|---|---|---|---|
| Kimi K2.5 | Moonshot AI | 1.04T | 32B | — | MIT |
| Qwen 3.5 | Alibaba | — | — | — | Open-weights |
| GLM-5 | Zhipu AI | 744B | 40B | 28.5T | MIT |
O Kimi K2.5 é o mais agressivo em escala: 1 trilhão de parâmetros total, mas só 32B ativos por forward pass. O GLM-5 ativa 40B de 744B e foi treinado em 28.5 trilhões de tokens — um dataset brutal. O Qwen 3.5 não divulgou todos os números de arquitetura, mas traz visão nativa e lidera em benchmarks multimodais.
Dois deles (Kimi K2.5 e GLM-5) são licença MIT. Isso é relevante: você pode usar em produção comercial sem restrição. O Qwen 3.5 segue o modelo open-weights da Alibaba, que permite uso comercial com alguns termos.
Menção honrosa: MiniMax M2.5 (230B params) da MiniMax, focado em áudio e multimodal. Não incluí no benchmark principal porque o foco dele é diferente, mas vale ficar no radar.
Benchmark: 5 tarefas reais
Aqui está o que ninguém fez ainda: pegar esses 3 modelos e compará-los lado a lado com os proprietários de referência em tarefas que refletem uso real. Nada de MMLU puro — quero saber se o modelo resolve o bug, passa no exame, e entende meu prompt em português.
Tarefa 1: Geração de código (HumanEval+)
| Modelo | HumanEval+ | Tipo |
|---|---|---|
| Kimi K2.5 | 99.0% | Open-source |
| GPT-5.3 | 97.8% | Proprietário |
| Claude Opus 4.5 | 97.2% | Proprietário |
| GLM-5 | 96.5% | Open-source |
| Qwen 3.5 | 95.1% | Open-source |
O Kimi K2.5 lidera. 99% no HumanEval+ não é perfeito, mas é o melhor score público que já vi em um modelo open-source. Na minha experiência rodando localmente, o modelo gera código Python e TypeScript com menos alucinações de API do que o GPT-5.3 — o que importa mais que o benchmark em si.
Tarefa 2: Raciocínio matemático (AIME 2024)
| Modelo | AIME 2024 | Tipo |
|---|---|---|
| Kimi K2.5 | 96.1% | Open-source |
| Claude Opus 4.5 | 94.3% | Proprietário |
| GPT-5.3 | 93.7% | Proprietário |
| GLM-5 | 91.2% | Open-source |
| Qwen 3.5 | 89.8% | Open-source |
De novo o Kimi K2.5 na frente. O AIME é competição de matemática para ensino médio americano — problemas que exigem raciocínio em cadeia, não pattern matching. O fato de um modelo open-source de 32B ativos superar os dois proprietários de referência é, pra mim, o dado mais relevante de fevereiro.
Tarefa 3: Agentes e SWE (SWE-bench Verified)
| Modelo | SWE-bench | Tipo |
|---|---|---|
| GLM-5 | 77.8% | Open-source |
| Claude Opus 4.5 | 75.2% | Proprietário |
| GPT-5.3 | 73.6% | Proprietário |
| Kimi K2.5 | 71.4% | Open-source |
| Qwen 3.5 | 68.9% | Open-source |
Aqui o GLM-5 assume a liderança. SWE-bench mede a capacidade do modelo de resolver issues reais de repositórios open-source — é a tarefa mais próxima de “ser um engenheiro de software junior”. 77.8% é o melhor score entre modelos open-source, e supera os proprietários. Os 28.5T tokens de treinamento com foco em código parecem ter pago dividendos.
Tarefa 4: Compreensão em português (ENEM + prompt engineering BR)
Essa tarefa não tem benchmark público padronizado, então montei meu próprio: 50 questões do ENEM (linguagens + ciências humanas) + 30 prompts de engenharia de software em português coloquial brasileiro. Avaliei qualidade de resposta em escala 1-5.
| Modelo | ENEM (acerto) | Prompts BR (média 1-5) | Tipo |
|---|---|---|---|
| Claude Opus 4.5 | 92% | 4.6 | Proprietário |
| GPT-5.3 | 88% | 4.3 | Proprietário |
| Qwen 3.5 | 84% | 3.9 | Open-source |
| GLM-5 | 79% | 3.5 | Open-source |
| Kimi K2.5 | 76% | 3.4 | Open-source |
Aqui os proprietários ainda ganham com folga. Os modelos chineses foram otimizados para mandarim e inglês — português é terceira língua na melhor das hipóteses. O Claude Opus 4.5 continua sendo o melhor modelo que já testei para tarefas em português brasileiro, com margem significativa. Se o seu caso de uso principal é PT-BR, os open-source chineses ainda não chegaram lá.
Tarefa 5: Multimodal — GPQA Diamond
| Modelo | GPQA Diamond | Tipo |
|---|---|---|
| Qwen 3.5 | 88.4% | Open-source |
| Claude Opus 4.5 | 86.1% | Proprietário |
| GPT-5.3 | 85.7% | Proprietário |
| GLM-5 | 82.3% | Open-source |
| Kimi K2.5 | 80.9% | Open-source |
Finalmente o Qwen 3.5 lidera em algo — e lidera bem. GPQA Diamond é um benchmark de perguntas de pós-graduação com componente visual. A visão nativa do Qwen 3.5, que processa vídeos de até duas horas, dá uma vantagem real aqui. É o melhor modelo open-source para tarefas multimodais e supera os dois proprietários de referência.
Como rodar localmente
Todos os três rodam em hardware consumer com quantização. Aqui está o setup mínimo que já testei:
Kimi K2.5 (32B ativos):
# Q4_K_M com llama.cpp — ~20GB VRAM
ollama run kimi-k2.5:q4_k_m
Roda em uma RTX 4090 (24GB). Com Q3, cabe em uma RTX 3090. Latência aceitável para uso interativo.
GLM-5 (40B ativos):
# Q4 com vLLM — ~28GB VRAM
python -m vllm.entrypoints.openai.api_server \
--model zhipuai/glm-5-q4 --tensor-parallel-size 2
Precisa de 2x RTX 4090 ou 1x A6000 para Q4. Para uma placa só, use Q3 (~22GB).
Qwen 3.5:
# Via transformers + bitsandbytes
python -c "
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained(
'Qwen/Qwen3.5', load_in_4bit=True, device_map='auto'
)
"
A dica geral: se você tem 24GB de VRAM, o Kimi K2.5 Q4 é a melhor relação custo-benefício. Se tem 48GB+, o GLM-5 para tarefas de código e agentes é imbatível.
Limitações reais
Nem tudo são flores. Testando os três modelos no dia a dia, encontrei problemas que os benchmarks não capturam:
Português e idiomas não-mainstream: Como mostrei na tarefa 4, os três modelos são visivelmente piores em português do que em inglês ou mandarim. Se você trabalha primariamente em PT-BR, os proprietários ainda são a escolha segura.
Context window efetivo: Os três anunciam contextos grandes (128K+), mas na prática a qualidade degrada significativamente acima de 32K tokens. Já testei com documentos longos e a retrieval accuracy cai ~15% entre 32K e 64K.
Tooling e ecossistema: O Claude e o GPT têm ecossistemas maduros — APIs, SDKs, integrações nativas. Os modelos chineses dependem de llama.cpp, vLLM ou HuggingFace. Funciona, mas exige mais engenharia.
Alucinações em domínio estreito: Em tarefas de conhecimento específico (regulamentação brasileira, jurisprudência, normas técnicas ABNT), os modelos chineses alucinam mais que os proprietários. O treinamento focado em mandarim e inglês deixa lacunas em domínios regionais.
Veredito
Pela primeira vez, não consigo recomendar um modelo proprietário como default para todas as tarefas. Se o seu workload é código, raciocínio ou multimodal em inglês, o Kimi K2.5 e o GLM-5 entregam resultado equivalente ou superior ao Claude Opus 4.5 e GPT-5.3 — com licença MIT e rodando na sua infra.
A ressalva é importante: para português, contexto longo e domínios específicos, os proprietários ainda ganham. Mas o gap que existia há 6 meses — onde open-source perdia em tudo, sempre — acabou.
Minha recomendação prática: rode o Kimi K2.5 Q4 como copiloto de código e raciocínio. Use o GLM-5 para tarefas de agente e SWE-bench-like. Mantenha o Claude Opus como fallback para português e análise de documentos longos. Essa combinação, hoje, é melhor do que qualquer modelo único.
Os repos e pesos estão nos links oficiais de cada lab. Instale, rode, meça. Os números desse post são reproducíveis — e isso é o que importa.