Colossus 2 sobe para 1.5GW em abril: o que 850 mil GPUs significam para a corrida de frontier models
-
Lucas Ferreira - 01 Apr, 2026
Elon Musk confirmou que o Colossus 2, o supercluster da xAI em Memphis, Tennessee, atingiu 1.5 gigawatts de capacidade em abril de 2026. São 850 mil GPUs dedicadas a uma única tarefa: treinar o Grok 5, um modelo Mixture of Experts com 6 trilhões de parâmetros. Se os números forem reais, é o maior cluster de computação do planeta — e o primeiro a cruzar a barreira de 1 gigawatt. Mas há um “se” importante nessa frase.
Os números que Musk apresenta
A conta que a xAI quer que você faça é simples. Colossus 1 já operava com cerca de 200 mil GPUs desde meados de 2025. O Colossus 2, anunciado como expansão massiva, deveria chegar a 1 milhão de GPUs equivalentes. Agora, a claim oficial é de 850 mil GPUs consumindo 1.5GW — energia suficiente para abastecer uma cidade de 1,2 milhão de habitantes.
O Grok 5 está sendo treinado nesse cluster. Seis trilhões de parâmetros no formato MoE significam que apenas uma fração dos parâmetros é ativada por token — provavelmente algo entre 200 e 400 bilhões ativos por inferência, se seguirem a mesma arquitetura do Grok 3. Mas o custo de treinamento é proporcional ao tamanho total. Treinar 6 trilhões de parâmetros, mesmo com sparsity, exige uma quantidade absurda de compute. E é exatamente por isso que a xAI precisa de um cluster desse porte.
O ceticismo que os satélites revelam
A Tom’s Hardware publicou uma análise que deveria dar pause a qualquer pessoa que aceite os números de Musk sem questionar. Imagens de satélite do site de Memphis mostram infraestrutura de cooling compatível com aproximadamente 350 megawatts — não 1.5 gigawatts. A diferença não é marginal. É de mais de 4x.
Cooling é o gargalo físico de qualquer data center. Você pode instalar quantas GPUs quiser, mas se não consegue dissipar o calor, elas não operam na capacidade total. Trezentos e cinquenta megawatts de cooling suportam algo na faixa de 150 a 200 mil GPUs em operação contínua — não 850 mil.
Existem explicações possíveis. A xAI pode estar usando técnicas de cooling não visíveis em imagens aéreas. Pode haver infraestrutura subterrânea. Pode haver fases de operação alternada, onde nem todas as GPUs rodam ao mesmo tempo. Mas nenhuma dessas explicações foi oferecida pela xAI. O que temos é um número anunciado no X e imagens de satélite que não batem.
Isso não é novidade com Musk. As projeções de capacidade do Colossus 1 também foram questionadas. A diferença é que agora o gap entre claim e evidência verificável é grande demais para ignorar.
O que 850 mil GPUs significam para o mercado — se forem reais
Vamos aceitar os números por um momento, para entender o que está em jogo.
Oitocentas e cinquenta mil GPUs Blackwell Ultra custam algo na faixa de US$25 a US$30 bilhões apenas em hardware. Some a infraestrutura de rede (InfiniBand ou NVLink a essa escala não é trivial), energia, cooling, construção civil, manutenção e pessoal. O custo total de operação do Colossus 2 provavelmente ultrapassa US$40 bilhões.
Esse é o novo custo de entrada para competir em frontier models. E esse é o ponto que importa.
Quando a OpenAI treinou o GPT-4 em 2023, estimativas apontavam para US$100 milhões em compute. Três anos depois, estamos falando de dezenas de bilhões. A cada geração de modelo, o custo de treinamento sobe uma ordem de grandeza. O Grok 5 com 6 trilhões de parâmetros pode custar entre US$2 e US$5 bilhões só em compute de treinamento — sem contar o investimento em infraestrutura.
Quem pode pagar essa conta? xAI (com o bolso de Musk e US$20 bilhões em funding recente), OpenAI (com Microsoft), Google (com orçamento de Alphabet), Meta (com dinheiro de publicidade) e talvez a Anthropic (com Amazon). Acabou a lista. Startups de frontier models com rodadas de US$500 milhões estão fora do jogo de escala pura.
Grok 5: o modelo que precisa justificar a conta
O Grok 5 precisa ser extraordinário. Não bom — extraordinário. Seis trilhões de parâmetros MoE, treinados no maior cluster do mundo, precisam entregar resultados que justifiquem o investimento. Se o Grok 5 sair e empatar com o GPT-5.3 ou o Claude Opus 4.6 nos benchmarks que importam, será um fracasso de ROI monumental.
A xAI tem um problema adicional. O Grok 3 foi competitivo mas não líder. Ficou atrás do Claude e do GPT em tarefas de raciocínio complexo e coding. Se 850 mil GPUs e 6 trilhões de parâmetros não mudarem essa posição, o mercado vai perguntar por que Musk gastou o equivalente ao PIB de um país pequeno em compute.
A minha leitura é que a xAI está jogando um jogo diferente. Não é só sobre o modelo. É sobre a plataforma. O Grok integrado ao X, à Tesla, à SpaceX (após a fusão) e potencialmente a operações governamentais cria um ecossistema onde o modelo é a camada de inteligência — e os dados proprietários são o diferencial. Nesse cenário, o Grok 5 não precisa ser o melhor modelo genérico do mundo. Precisa ser o melhor modelo para os dados que só a xAI tem acesso.
O custo de competir e a concentração inevitável
O Colossus 2 — seja 350MW ou 1.5GW — cristaliza uma tendência que vinha se desenhando desde 2025. Frontier models estão se tornando um jogo de cinco jogadores. A barreira de entrada não é mais algoritmo ou talento. É capital e energia.
Isso tem consequências diretas. Para empresas que usam IA via API, significa dependência de um oligopólio. Para governos que querem soberania em IA, significa que o custo de ter um modelo frontier próprio é proibitivo. Para pesquisadores acadêmicos, significa que a fronteira se move em data centers corporativos, não em universidades.
Os números de Musk podem ser inflados. Provavelmente são. Mas mesmo na versão conservadora — 200 mil GPUs operando a 350MW — o Colossus 2 é o maior cluster de treinamento de IA do mundo. E isso, por si só, já redefine o que significa competir.
A pergunta que resta não é se o Colossus 2 tem 850 mil GPUs. É se daqui a dois anos alguém que não seja um dos cinco gigantes ainda vai conseguir treinar um frontier model. Os satélites sugerem que a resposta já está ficando clara.