MiniMax M2.7: o modelo chinês que se auto-evoluiu por 100 rounds e agora compete com GPT-5.3 Codex

MiniMax M2.7: o modelo chinês que se auto-evoluiu por 100 rounds e agora compete com GPT-5.3 Codex

56,22% no SWE-Pro. 57,0% no Terminal Bench 2. ELO de 1495 — o mais alto entre modelos open-source. A MiniMax acabou de soltar o M2.7, e o número que mais importa não está nos benchmarks: é o mecanismo que gerou esses resultados. O modelo se auto-evoluiu por mais de 100 rounds sem supervisão humana e melhorou 30% de desempenho no processo.

Isso não é ajuste fino tradicional. É outra coisa.

O que é o M2.7

A MiniMax é uma startup chinesa fundada em 2021 em Xangai. Menos conhecida no Ocidente do que Zhipu, Moonshot ou Alibaba, mas com um portfólio de produtos que inclui o Talkie — plataforma de personagens IA com dezenas de milhões de usuários — e o Hailuo, gerador de vídeo que competiu de frente com o Sora. A empresa captou mais de US$600 milhões e tem valuation estimado em US$2,5 bilhões.

O M2.7 é um modelo Mixture of Experts (MoE) esparso com 230 bilhões de parâmetros totais. Como todo MoE bem implementado, o custo de inferência é proporcional apenas aos parâmetros ativos por forward pass — não ao total. Isso é relevante para quem vai rodar localmente ou servir via API própria.

O modelo está disponível no Hugging Face e já tem suporte no Ollama para quem quer experimentar sem configurar infra.

O mecanismo que importa: auto-evolução em 100 rounds

Benchmarks de coding são uma coisa. O que diferencia o M2.7 é como ele chegou lá.

A MiniMax desenvolveu o que chama de self-evolving scaffold: um loop autônomo onde o modelo analisa trajetórias de falha das próprias tentativas, planeja mudanças no scaffold de código que usa para resolver tarefas, implementa essas mudanças, roda avaliações e decide se mantém ou reverte cada alteração.

Mais de 100 rounds desse processo, sem intervenção humana. O resultado foi uma melhoria de 30% de desempenho em relação à versão base.

Para ter clareza sobre o que isso significa: não é o modelo retreinando a si mesmo — os pesos não mudam. O que evolui é a estratégia de scaffolding que o modelo usa para abordar problemas complexos de software engineering. É parecido com o que acontece quando um desenvolvedor aprende que sua abordagem de debugging estava errada e ajusta o processo — exceto que aqui o desenvolvedor é o próprio modelo e o ciclo de aprendizado é autônomo.

É um sinal da direção que os agentes de código estão tomando: menos prompt engineering manual, mais auto-otimização do processo de resolução.

Os benchmarks em contexto

ModeloSWE-ProTerminal Bench 2ELO GDPval-AATipo
MiniMax M2.756,22%57,0%1495Open-source
GPT-5.3 Codex~56%~57%Proprietário
GLM-5.1 (Z.ai)58,4%Open-source
Claude Opus 4.6Proprietário

Dois pontos que precisam de contexto antes de qualquer conclusão.

Primeiro: o GLM-5.1, lançado pela Z.ai (braço de IA da Zhipu) no mesmo período, atingiu 58,4% no SWE-Bench Pro — superando tanto o GPT-5.4 quanto o Claude Opus 4.6. Isso significa que, na semana em que o M2.7 da MiniMax empatou com o Codex, outro lab chinês já tinha avançado além. A corrida está acelerada a um ritmo que torna qualquer SOTA obsoleto em dias.

Segundo: o SWE-Pro mede a capacidade de resolver issues reais de repositórios open-source. É o benchmark mais relevante para coding agents hoje. Atingir 56% não é perfeito — significa que quase metade dos problemas reais ainda não é resolvida. Mas cruzar a linha de 50% com um modelo open-source, disponível para qualquer um rodar, é um marco qualitativo importante.

A questão da licença: é realmente open-source?

Aqui vale a honestidade. Há debate legítimo sobre se o M2.7 é genuinamente open-source.

O modelo é disponibilizado publicamente com pesos acessíveis — o que a maioria das pessoas chama de “open-source” no contexto de IA. Mas a licença inclui restrições para uso comercial, dependendo do volume e do tipo de aplicação. O padrão da indústria é chamar isso de “open-weights” para distinguir de licenças como Apache 2.0 ou MIT.

Para um desenvolvedor brasileiro que quer experimentar, fazer fine-tuning pessoal ou usar em projetos internos: sem problema. Para uma startup que quer construir um produto comercial em cima do M2.7 em escala: leia os termos com atenção antes de comprometer arquitetura.

Não é diferente do que acontece com Llama, Qwen e vários outros modelos “open-source” da China e do Ocidente. Mas o detalhe importa quando você está tomando decisões de infraestrutura.

China está fechando o gap — mais rápido do que parece

O M2.7 não acontece no vácuo. Em menos de um semestre, labs chineses abertos entregaram:

  • Kimi K2.5 (Moonshot AI): 1T parâmetros totais, 32B ativos, MIT, liderança em HumanEval+
  • GLM-5.1 (Z.ai): 58,4% SWE-Bench Pro, supera GPT-5.4
  • MiniMax M2.7: 56,22% SWE-Pro, auto-evolução em 100 rounds, ELO 1495
  • DeepSeek V4: arquitetura MoE trilionária com 37B ativos

O padrão é consistente: labs chineses com menos acesso a hardware de ponta do que OpenAI, Anthropic e Google estão compensando com inovação arquitetural e de treinamento. MoE eficiente, destilação agressiva, mecanismos de auto-melhoria. A pressão das restrições de exportação americanas de chips está, paradoxalmente, acelerando a criatividade de engenharia.

O gap entre modelos proprietários ocidentais e open-source de qualquer origem estava em dois anos em 2023. Hoje está em semanas, e em algumas dimensões já não existe.

O que isso muda para startups e devs brasileiros

A pergunta prática: o que um desenvolvedor ou startup no Brasil faz com essa informação?

Para devs individuais: um coding agent de frontier-level está disponível hoje, de graça, rodando localmente. O M2.7 via Ollama, o GLM-5.1 via HuggingFace, o Kimi K2.5 quantizado numa RTX 4090. Qualquer dev com hardware razoável pode acessar capacidade que custaria centenas de dólares por mês em API proprietária. O custo de entrada para agentes de código sofisticados caiu para zero.

Para startups de produto: a vantagem competitiva de APIs proprietárias está encolhendo. Uma startup que constrói um produto de coding assistance em cima do GPT-5.3 Codex paga margem para a OpenAI em cada token. Uma que constrói em cima do M2.7 ou GLM-5.1 pode rodar na própria infra, controlar os dados e reduzir custo variável drasticamente. A decisão build vs. buy vs. self-host ficou muito mais nuançada.

Para quem trabalha com compliance: o fato de um modelo rodar localmente — sem dados saindo para APIs externas — é um argumento regulatório relevante. LGPD, contratos com cláusula de confidencialidade, projetos em setores regulados (saúde, financeiro, jurídico) — self-hosting de modelo aberto pode ser a única rota viável. E agora essa rota inclui modelos de capacidade comparável à fronteira.

A limitação que ainda importa: modelos chineses foram otimizados para inglês e mandarim. Português é terceira ou quarta língua na melhor das hipóteses. Para tarefas de código em inglês — que é a língua do código — a capacidade é plena. Para raciocínio, redação ou análise de documentos em português brasileiro, o gap com Claude Opus e GPT ainda existe. Não é suficiente para ignorar os modelos abertos, mas é suficiente para planejar com cuidado onde cada um vai.

O momento é agora

O M2.7 da MiniMax representa algo além de mais um SOTA: um modelo open-source que se aprimora autonomamente, disponível publicamente, que empata com o melhor agente de código da OpenAI. Ao mesmo tempo, o GLM-5.1 já foi além.

Para o ecossistema de IA no Brasil — que ainda luta para acessar modelos de frontier via API por conta de custo e latência — a janela que se abre é real e imediata. A questão não é mais “quando open-source vai ser bom o suficiente?”. A questão é “quem vai construir os produtos que aproveitam o que já está disponível hoje?”

A corrida não está no modelo. Está no produto. E nesse campo, a vantagem dos labs americanos não existe.