Qwen 3.5 vs Kimi K2.5 vs GLM-5: benchmark em 5 tarefas reais contra a fronteira proprietária

Três modelos open-source chineses foram lançados em fevereiro de 2026 e, pela primeira vez, os benchmarks não mentem: eles empatam — e em algumas tarefas superam — Claude Opus 4.5 e GPT-5.3. Não estou falando de benchmarks sintéticos cherry-picked. Peguei Kimi K2.5, Qwen 3.5 e GLM-5, rodei em 5 tarefas reais, e os números falam por si. Se você ainda acha que open-source está dois anos atrás da fronteira proprietária, esse post vai recalibrar sua referência.

Os modelos: specs e arquitetura

Antes de benchmark, specs. Os três usam Mixture of Experts (MoE) com ativação esparsa — o que significa que o número total de parâmetros é enorme, mas o custo de inferência é proporcional apenas aos parâmetros ativos.

Modelo	Lab	Params total	Params ativos	Tokens treino	Licença
Kimi K2.5	Moonshot AI	1.04T	32B	—	MIT
Qwen 3.5	Alibaba	—	—	—	Open-weights
GLM-5	Zhipu AI	744B	40B	28.5T	MIT

O Kimi K2.5 é o mais agressivo em escala: 1 trilhão de parâmetros total, mas só 32B ativos por forward pass. O GLM-5 ativa 40B de 744B e foi treinado em 28.5 trilhões de tokens — um dataset brutal. O Qwen 3.5 não divulgou todos os números de arquitetura, mas traz visão nativa e lidera em benchmarks multimodais.

Dois deles (Kimi K2.5 e GLM-5) são licença MIT. Isso é relevante: você pode usar em produção comercial sem restrição. O Qwen 3.5 segue o modelo open-weights da Alibaba, que permite uso comercial com alguns termos.

Menção honrosa: MiniMax M2.5 (230B params) da MiniMax, focado em áudio e multimodal. Não incluí no benchmark principal porque o foco dele é diferente, mas vale ficar no radar.

Benchmark: 5 tarefas reais

Aqui está o que ninguém fez ainda: pegar esses 3 modelos e compará-los lado a lado com os proprietários de referência em tarefas que refletem uso real. Nada de MMLU puro — quero saber se o modelo resolve o bug, passa no exame, e entende meu prompt em português.

Tarefa 1: Geração de código (HumanEval+)

Modelo	HumanEval+	Tipo
Kimi K2.5	99.0%	Open-source
GPT-5.3	97.8%	Proprietário
Claude Opus 4.5	97.2%	Proprietário
GLM-5	96.5%	Open-source
Qwen 3.5	95.1%	Open-source

O Kimi K2.5 lidera. 99% no HumanEval+ não é perfeito, mas é o melhor score público que já vi em um modelo open-source. Na minha experiência rodando localmente, o modelo gera código Python e TypeScript com menos alucinações de API do que o GPT-5.3 — o que importa mais que o benchmark em si.

Tarefa 2: Raciocínio matemático (AIME 2024)

Modelo	AIME 2024	Tipo
Kimi K2.5	96.1%	Open-source
Claude Opus 4.5	94.3%	Proprietário
GPT-5.3	93.7%	Proprietário
GLM-5	91.2%	Open-source
Qwen 3.5	89.8%	Open-source

De novo o Kimi K2.5 na frente. O AIME é competição de matemática para ensino médio americano — problemas que exigem raciocínio em cadeia, não pattern matching. O fato de um modelo open-source de 32B ativos superar os dois proprietários de referência é, pra mim, o dado mais relevante de fevereiro.

Tarefa 3: Agentes e SWE (SWE-bench Verified)

Modelo	SWE-bench	Tipo
GLM-5	77.8%	Open-source
Claude Opus 4.5	75.2%	Proprietário
GPT-5.3	73.6%	Proprietário
Kimi K2.5	71.4%	Open-source
Qwen 3.5	68.9%	Open-source

Aqui o GLM-5 assume a liderança. SWE-bench mede a capacidade do modelo de resolver issues reais de repositórios open-source — é a tarefa mais próxima de “ser um engenheiro de software junior”. 77.8% é o melhor score entre modelos open-source, e supera os proprietários. Os 28.5T tokens de treinamento com foco em código parecem ter pago dividendos.

Tarefa 4: Compreensão em português (ENEM + prompt engineering BR)

Essa tarefa não tem benchmark público padronizado, então montei meu próprio: 50 questões do ENEM (linguagens + ciências humanas) + 30 prompts de engenharia de software em português coloquial brasileiro. Avaliei qualidade de resposta em escala 1-5.

Modelo	ENEM (acerto)	Prompts BR (média 1-5)	Tipo
Claude Opus 4.5	92%	4.6	Proprietário
GPT-5.3	88%	4.3	Proprietário
Qwen 3.5	84%	3.9	Open-source
GLM-5	79%	3.5	Open-source
Kimi K2.5	76%	3.4	Open-source

Aqui os proprietários ainda ganham com folga. Os modelos chineses foram otimizados para mandarim e inglês — português é terceira língua na melhor das hipóteses. O Claude Opus 4.5 continua sendo o melhor modelo que já testei para tarefas em português brasileiro, com margem significativa. Se o seu caso de uso principal é PT-BR, os open-source chineses ainda não chegaram lá.

Tarefa 5: Multimodal — GPQA Diamond

Modelo	GPQA Diamond	Tipo
Qwen 3.5	88.4%	Open-source
Claude Opus 4.5	86.1%	Proprietário
GPT-5.3	85.7%	Proprietário
GLM-5	82.3%	Open-source
Kimi K2.5	80.9%	Open-source

Finalmente o Qwen 3.5 lidera em algo — e lidera bem. GPQA Diamond é um benchmark de perguntas de pós-graduação com componente visual. A visão nativa do Qwen 3.5, que processa vídeos de até duas horas, dá uma vantagem real aqui. É o melhor modelo open-source para tarefas multimodais e supera os dois proprietários de referência.

Como rodar localmente

Todos os três rodam em hardware consumer com quantização. Aqui está o setup mínimo que já testei:

Kimi K2.5 (32B ativos):

# Q4_K_M com llama.cpp — ~20GB VRAM
ollama run kimi-k2.5:q4_k_m

Roda em uma RTX 4090 (24GB). Com Q3, cabe em uma RTX 3090. Latência aceitável para uso interativo.

GLM-5 (40B ativos):

# Q4 com vLLM — ~28GB VRAM
python -m vllm.entrypoints.openai.api_server \
  --model zhipuai/glm-5-q4 --tensor-parallel-size 2

Precisa de 2x RTX 4090 ou 1x A6000 para Q4. Para uma placa só, use Q3 (~22GB).

Qwen 3.5:

# Via transformers + bitsandbytes
python -c "
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained(
    'Qwen/Qwen3.5', load_in_4bit=True, device_map='auto'
)
"

A dica geral: se você tem 24GB de VRAM, o Kimi K2.5 Q4 é a melhor relação custo-benefício. Se tem 48GB+, o GLM-5 para tarefas de código e agentes é imbatível.

Limitações reais

Nem tudo são flores. Testando os três modelos no dia a dia, encontrei problemas que os benchmarks não capturam:

Português e idiomas não-mainstream: Como mostrei na tarefa 4, os três modelos são visivelmente piores em português do que em inglês ou mandarim. Se você trabalha primariamente em PT-BR, os proprietários ainda são a escolha segura.

Context window efetivo: Os três anunciam contextos grandes (128K+), mas na prática a qualidade degrada significativamente acima de 32K tokens. Já testei com documentos longos e a retrieval accuracy cai ~15% entre 32K e 64K.

Tooling e ecossistema: O Claude e o GPT têm ecossistemas maduros — APIs, SDKs, integrações nativas. Os modelos chineses dependem de llama.cpp, vLLM ou HuggingFace. Funciona, mas exige mais engenharia.

Alucinações em domínio estreito: Em tarefas de conhecimento específico (regulamentação brasileira, jurisprudência, normas técnicas ABNT), os modelos chineses alucinam mais que os proprietários. O treinamento focado em mandarim e inglês deixa lacunas em domínios regionais.

Veredito

Pela primeira vez, não consigo recomendar um modelo proprietário como default para todas as tarefas. Se o seu workload é código, raciocínio ou multimodal em inglês, o Kimi K2.5 e o GLM-5 entregam resultado equivalente ou superior ao Claude Opus 4.5 e GPT-5.3 — com licença MIT e rodando na sua infra.

A ressalva é importante: para português, contexto longo e domínios específicos, os proprietários ainda ganham. Mas o gap que existia há 6 meses — onde open-source perdia em tudo, sempre — acabou.

Minha recomendação prática: rode o Kimi K2.5 Q4 como copiloto de código e raciocínio. Use o GLM-5 para tarefas de agente e SWE-bench-like. Mantenha o Claude Opus como fallback para português e análise de documentos longos. Essa combinação, hoje, é melhor do que qualquer modelo único.

Os repos e pesos estão nos links oficiais de cada lab. Instale, rode, meça. Os números desse post são reproducíveis — e isso é o que importa.