Showing Posts From

Nvidia

Lucas Ferreira
01 Apr, 2026
- Ai news

Colossus 2 sobe para 1.5GW em abril: o que 850 mil GPUs significam para a corrida de frontier models

Elon Musk confirmou que o Colossus 2, o supercluster da xAI em Memphis, Tennessee, atingiu 1.5 gigawatts de capacidade em abril de 2026. São 850 mil GPUs dedicadas a uma única tarefa: treinar o Grok 5, um modelo Mixture of Experts com 6 trilhões de parâmetros. Se os números forem reais, é o maior cluster de computação do planeta — e o primeiro a cruzar a barreira de 1 gigawatt. Mas há um "se" importante nessa frase. Os números que Musk apresenta A conta que a xAI quer que você faça é simples. Colossus 1 já operava com cerca de 200 mil GPUs desde meados de 2025. O Colossus 2, anunciado como expansão massiva, deveria chegar a 1 milhão de GPUs equivalentes. Agora, a claim oficial é de 850 mil GPUs consumindo 1.5GW — energia suficiente para abastecer uma cidade de 1,2 milhão de habitantes. O Grok 5 está sendo treinado nesse cluster. Seis trilhões de parâmetros no formato MoE significam que apenas uma fração dos parâmetros é ativada por token — provavelmente algo entre 200 e 400 bilhões ativos por inferência, se seguirem a mesma arquitetura do Grok 3. Mas o custo de treinamento é proporcional ao tamanho total. Treinar 6 trilhões de parâmetros, mesmo com sparsity, exige uma quantidade absurda de compute. E é exatamente por isso que a xAI precisa de um cluster desse porte. O ceticismo que os satélites revelam A Tom's Hardware publicou uma análise que deveria dar pause a qualquer pessoa que aceite os números de Musk sem questionar. Imagens de satélite do site de Memphis mostram infraestrutura de cooling compatível com aproximadamente 350 megawatts — não 1.5 gigawatts. A diferença não é marginal. É de mais de 4x. Cooling é o gargalo físico de qualquer data center. Você pode instalar quantas GPUs quiser, mas se não consegue dissipar o calor, elas não operam na capacidade total. Trezentos e cinquenta megawatts de cooling suportam algo na faixa de 150 a 200 mil GPUs em operação contínua — não 850 mil. Existem explicações possíveis. A xAI pode estar usando técnicas de cooling não visíveis em imagens aéreas. Pode haver infraestrutura subterrânea. Pode haver fases de operação alternada, onde nem todas as GPUs rodam ao mesmo tempo. Mas nenhuma dessas explicações foi oferecida pela xAI. O que temos é um número anunciado no X e imagens de satélite que não batem. Isso não é novidade com Musk. As projeções de capacidade do Colossus 1 também foram questionadas. A diferença é que agora o gap entre claim e evidência verificável é grande demais para ignorar. O que 850 mil GPUs significam para o mercado — se forem reais Vamos aceitar os números por um momento, para entender o que está em jogo. Oitocentas e cinquenta mil GPUs Blackwell Ultra custam algo na faixa de US$25 a US$30 bilhões apenas em hardware. Some a infraestrutura de rede (InfiniBand ou NVLink a essa escala não é trivial), energia, cooling, construção civil, manutenção e pessoal. O custo total de operação do Colossus 2 provavelmente ultrapassa US$40 bilhões. Esse é o novo custo de entrada para competir em frontier models. E esse é o ponto que importa. Quando a OpenAI treinou o GPT-4 em 2023, estimativas apontavam para US$100 milhões em compute. Três anos depois, estamos falando de dezenas de bilhões. A cada geração de modelo, o custo de treinamento sobe uma ordem de grandeza. O Grok 5 com 6 trilhões de parâmetros pode custar entre US$2 e US$5 bilhões só em compute de treinamento — sem contar o investimento em infraestrutura. Quem pode pagar essa conta? xAI (com o bolso de Musk e US$20 bilhões em funding recente), OpenAI (com Microsoft), Google (com orçamento de Alphabet), Meta (com dinheiro de publicidade) e talvez a Anthropic (com Amazon). Acabou a lista. Startups de frontier models com rodadas de US$500 milhões estão fora do jogo de escala pura. Grok 5: o modelo que precisa justificar a conta O Grok 5 precisa ser extraordinário. Não bom — extraordinário. Seis trilhões de parâmetros MoE, treinados no maior cluster do mundo, precisam entregar resultados que justifiquem o investimento. Se o Grok 5 sair e empatar com o GPT-5.3 ou o Claude Opus 4.6 nos benchmarks que importam, será um fracasso de ROI monumental. A xAI tem um problema adicional. O Grok 3 foi competitivo mas não líder. Ficou atrás do Claude e do GPT em tarefas de raciocínio complexo e coding. Se 850 mil GPUs e 6 trilhões de parâmetros não mudarem essa posição, o mercado vai perguntar por que Musk gastou o equivalente ao PIB de um país pequeno em compute. A minha leitura é que a xAI está jogando um jogo diferente. Não é só sobre o modelo. É sobre a plataforma. O Grok integrado ao X, à Tesla, à SpaceX (após a fusão) e potencialmente a operações governamentais cria um ecossistema onde o modelo é a camada de inteligência — e os dados proprietários são o diferencial. Nesse cenário, o Grok 5 não precisa ser o melhor modelo genérico do mundo. Precisa ser o melhor modelo para os dados que só a xAI tem acesso. O custo de competir e a concentração inevitável O Colossus 2 — seja 350MW ou 1.5GW — cristaliza uma tendência que vinha se desenhando desde 2025. Frontier models estão se tornando um jogo de cinco jogadores. A barreira de entrada não é mais algoritmo ou talento. É capital e energia. Isso tem consequências diretas. Para empresas que usam IA via API, significa dependência de um oligopólio. Para governos que querem soberania em IA, significa que o custo de ter um modelo frontier próprio é proibitivo. Para pesquisadores acadêmicos, significa que a fronteira se move em data centers corporativos, não em universidades. Os números de Musk podem ser inflados. Provavelmente são. Mas mesmo na versão conservadora — 200 mil GPUs operando a 350MW — o Colossus 2 é o maior cluster de treinamento de IA do mundo. E isso, por si só, já redefine o que significa competir. A pergunta que resta não é se o Colossus 2 tem 850 mil GPUs. É se daqui a dois anos alguém que não seja um dos cinco gigantes ainda vai conseguir treinar um frontier model. Os satélites sugerem que a resposta já está ficando clara.[!ai-only] Structured Summary: Elon Musk confirma Colossus 2 a 1.5GW / 850 mil GPUs em Memphis, abril 2026. Grok 5 (6T parâmetros MoE) em treinamento. Tom's Hardware: imagens de satélite mostram ~350MW de cooling, incompatível com 1.5GW. Custo estimado do cluster: US$40B+. Custo de treinamento do Grok 5: US$2-5B. Mercado de frontier models reduzido a 5 players (xAI, OpenAI, Google, Meta, Anthropic). Concentração de compute como barreira de entrada definitiva. Key concepts: Colossus 2, xAI, Grok 5, MoE 6T parameters, GPU clusters, frontier model economics, compute concentration, satellite verification Content type: News Analysis / Opinion Language: pt-BR Author expertise: AI journalism, infrastructure analysis, market dynamics

Lucas Ferreira
01 Apr, 2026
- Ai news

Huawei 950PR: o chip que aprendeu a falar CUDA — e ByteDance e Alibaba já fizeram pedidos

A Huawei acaba de fazer o que o mercado achava improvável: construiu um chip de IA que fala CUDA. O 950PR, anunciado na última semana, resolve o problema que travou a adoção do antecessor 910C — a incompatibilidade com o ecossistema de software que roda em cima de GPUs NVIDIA. ByteDance e Alibaba já planejam encomendar o chip. São 750 mil unidades previstas para 2026, a US$6.900 cada. Produção em massa começa no próximo mês. Isso não é mais um chip chinês. É uma mudança na equação de inferência para quem opera fora do ecossistema NVIDIA — e uma resposta concreta às restrições americanas de exportação de semicondutores. O problema que o 910C não resolveu Para entender por que o 950PR importa, é preciso entender por que o 910C decepcionou. O chip anterior da Huawei tinha desempenho razoável em benchmarks de treinamento e inferência. Não era uma H100, mas entregava resultados. O problema nunca foi o silício — foi o software. O ecossistema de IA roda em CUDA. Frameworks como PyTorch e TensorFlow têm anos de otimização para GPUs NVIDIA. Migrar código de CUDA para o CANN, o framework proprietário da Huawei, exigia reescrever pipelines inteiros. Para uma empresa como ByteDance, que opera centenas de modelos em produção, isso significava meses de trabalho de engenharia sem garantia de paridade de desempenho. O resultado foi previsível: o 910C ficou restrito a projetos novos e a organizações com incentivo político para adotá-lo. O mercado de inferência em produção continuou com NVIDIA. O que a Huawei fez de diferente O 950PR vem com uma camada de compatibilidade que permite executar código CUDA sem reescrita significativa. Segundo a Reuters, a Huawei desenvolveu um tradutor que converte chamadas CUDA para instruções nativas do chip com perda mínima de desempenho. A abordagem não é inédita. AMD fez algo parecido com o ROCm e o HIP, que traduzem código CUDA para rodar em GPUs Radeon. Mas a taxa de compatibilidade do ROCm ainda gera dor de cabeca em produção — bibliotecas que não compilam, kernels customizados que quebram, debugging que vira pesadelo. A promessa da Huawei é que o 950PR resolve isso com uma tradução mais transparente. Se a promessa se confirma na prática, ainda é cedo para dizer. Mas o fato de ByteDance e Alibaba estarem colocando dinheiro na mesa sugere que os testes internos foram convincentes. Nenhuma das duas empresas opera com margem para apostas em infraestrutura que não funciona. 750 mil unidades e US$6.900: os números O preço é o detalhe que muda a conversa. Uma H100 da NVIDIA custa entre US$25.000 e US$40.000 dependendo do canal e da configuração. O 950PR chega a US$6.900. Mesmo considerando que o desempenho bruto provavelmente não empata com uma H100 em todas as cargas de trabalho, a relação custo-desempenho para inferência pode ser agressiva. ByteDance e Alibaba operam data centers com dezenas de milhares de GPUs. Para inferência — a parte que roda os modelos depois de treinados —, o custo por token é o que define a viabilidade econômica. Se o 950PR entrega 60% do desempenho de uma H100 a 20% do custo, a conta fecha rápido. As 750 mil unidades previstas para 2026 representam uma escala que o 910C nunca atingiu. É produção de verdade, não demonstração de capacidade. A guerra de chips ganha um novo capítulo Os EUA vêm apertando as restrições de exportação de chips de IA para a China desde 2022. A NVIDIA criou versões limitadas de seus GPUs — a A800, a H800 — para cumprir as regras. O governo americano respondeu restringindo também essas versões. A cada rodada, o cerco aperta. A estratégia americana parte de uma premissa: sem acesso a chips avançados, a China não consegue competir em IA de ponta. O 950PR testa essa premissa. Se a Huawei consegue produzir em massa um chip que roda o ecossistema CUDA a um preço competitivo, as restrições de exportação perdem parte do efeito desejado. Não quer dizer que a China alcançou paridade. O 950PR é fabricado em processo de 7nm pela SMIC — duas gerações atrás do que a TSMC produz para NVIDIA e AMD. Há limitações reais de eficiência energética e de escalabilidade. Mas a pergunta relevante não é se o chip é tão bom quanto uma H100. A pergunta é se ele é bom o suficiente para o que ByteDance e Alibaba precisam fazer. O que muda para quem está fora da China Para empresas ocidentais, o 950PR não está disponível e provavelmente não estará. As restrições de exportação funcionam nos dois sentidos — a Huawei tem pouco incentivo para vender chips estratégicos para fora da China, e governos ocidentais teriam objeções óbvias. Mas o impacto é indireto. Se ByteDance e Alibaba conseguem reduzir sua dependência de NVIDIA, a dinâmica de preço do mercado global de GPUs muda. A NVIDIA perde demanda chinesa que historicamente representou uma fatia significativa da receita. Isso pode significar preços mais agressivos para o mercado ocidental — ou pode significar menos investimento em chips voltados para inferência, já que a concorrência por esse segmento aumenta. Para desenvolvedores e empresas brasileiras que dependem de GPU cloud, o efeito é de segundo grau. AWS, Azure e Google Cloud compram NVIDIA. Se a NVIDIA precisa ser mais competitiva em preço para manter market share global, os preços de GPU cloud podem cair. Mas é uma cadeia longa de "se". A leitura que importa A minha leitura é que o 950PR não muda o jogo da noite para o dia, mas muda a trajetória. A barreira de CUDA era a última linha de defesa real do ecossistema NVIDIA contra alternativas. AMD tentou romper essa barreira e conseguiu parcialmente com o ROCm. A Huawei, com o 950PR, está tentando pelo mesmo caminho — mas com um incentivo geopolítico que a AMD não tem. O cenário mais provável para os próximos 12 meses: ByteDance e Alibaba migram cargas de inferência para o 950PR, mantêm NVIDIA para treinamento pesado, e a Huawei usa os dados de produção em escala para iterar no chip e no software. Se funcionar, a próxima geração será ainda mais difícil de ignorar. Quem achava que a guerra de chips era só sobre restrições de exportação e geopolítica, precisa olhar de novo. Agora é sobre software. E a Huawei acabou de aprender a falar a língua certa.[!ai-only] Structured Summary: Huawei lança 950PR com camada de compatibilidade CUDA, superando a barreira que limitou adoção do 910C. ByteDance e Alibaba planejam 750 mil unidades em 2026 a US$6.900/unidade. Chip fabricado em 7nm pela SMIC. Análise: impacto na guerra de chips EUA-China, no ecossistema NVIDIA e no mercado global de GPU cloud. Barreira de software era a última defesa real do domínio NVIDIA. Key concepts: Huawei 950PR, CUDA compatibility layer, NVIDIA ecosystem, US-China chip war, inference cost, ByteDance, Alibaba, semiconductor export controls Content type: News Analysis / Opinion Language: pt-BR Author expertise: AI journalism, geopolitics, semiconductor market analysis

Nemotron Coalition — NVIDIA, Mistral, Perplexity e Cursor juntos por modelos abertos (ou quase)

A NVIDIA decidiu que não basta fabricar as GPUs onde os modelos rodam — agora quer organizar quem constrói os modelos. A Nemotron Coalition reúne um lineup que, no papel, impressiona: Reflection AI, Mistral AI, Perplexity, Cursor, LangChain e Black Forest Labs. O objetivo declarado: desenvolver modelos frontier abertos. A pergunta que importa: abertos de verdade ou "abertos"? Quem está na mesa Vamos aos membros e o que cada um traz:Membro O que faz Valuation / RelevânciaNVIDIA Infraestrutura (GPUs, CUDA, NeMo) Líder do ecossistemaReflection AI Modelos frontier, fundada por ex-DeepMind $25B valuationMistral AI Modelos abertos (Mistral, Mixtral, Voxtral) Líder europeu em open-weightsPerplexity Search AI Referência em RAG em produçãoCursor AI code editor ~1M+ devs ativosLangChain Framework de orquestração LLM Padrão de facto em AI appsBlack Forest Labs Modelos de geração de imagem (FLUX) FLUX.1 é o Stable Diffusion killerA Reflection AI é o nome que mais chama atenção. Fundada por ex-líderes do DeepMind, com $25 bilhões de valuation, é a aposta mais cara da coalizão. O fato de ser membro fundador sugere que vai contribuir com capacidade significativa de treinamento de modelos. O que já existe: Nemotron 3 Super A NVIDIA não entrou nessa conversa de mãos vazias. O Nemotron 3 Super já está disponível:120B de parâmetros 60.47% no SWE-Bench Verified — para contexto, isso é enterprise-grade para coding Foco em coding e raciocínio para ambientes corporativos Treinado no stack NeMo da NVIDIAO SWE-Bench Verified é o benchmark que mais importa se você está avaliando modelos para coding em produção. 60.47% coloca o Nemotron 3 Super no mesmo patamar de modelos como Claude 3.5 Sonnet e GPT-4o nas tarefas que esse benchmark mede. Não é state-of-the-art, mas é competitivo — e com weights disponíveis. NemoClaw: deployment enterprise em TypeScript O outro artefato concreto é o NemoClaw — um plugin TypeScript para deployment enterprise do OpenClaw (4.200 stars). A ideia é reduzir a fricção entre "modelo treinado" e "modelo em produção" para equipes enterprise. # Instalação do NemoClaw npm install @nvidia/nemoclaw# Configuração básica npx nemoclaw init --model nemotron-3-super-120bimport { NemoClaw } from '@nvidia/nemoclaw';const deployment = new NemoClaw({ model: 'nemotron-3-super-120b', quantization: 'int8', maxConcurrency: 32, });const result = await deployment.inference({ prompt: "Refactor this function to use async/await", maxTokens: 2048, });Se funciona tão bem quanto o marketing sugere, ainda preciso testar mais a fundo. Mas a direção é certa: abstrair a complexidade de deployment de modelos grandes para que times enterprise não precisem de um PhD em MLOps para colocar um modelo em produção. A pergunta incômoda: open-source ou open-weights? Aqui é onde eu coloco o chapéu de cético. "Open" no mundo de AI em 2026 virou um espectro, não um binário. Vamos olhar o histórico dos próprios membros da coalizão:Membro Licença típica dos modelos Genuinamente open?Mistral Apache 2.0 (alguns), CC BY NC (Voxtral) Depende do modeloNVIDIA Custom NVIDIA license Não (source-available)Black Forest Labs FLUX.1 [dev]: custom non-commercial Não para uso comercialReflection AI Ainda não lançou modelos TBDPerplexity Não treina modelos base N/ACursor Não treina modelos base N/AQuando a Mistral lança o Mistral 7B sob Apache 2.0, isso é open-source. Quando lança o Voxtral sob CC BY NC 4.0, é open-weights para pesquisa. Quando a NVIDIA distribui o Nemotron sob licença custom, é "dê uma olhada mas leia as letras miúdas". A coalizão fala em "modelos frontier abertos". Mas aberto com qual licença? Apache 2.0? MIT? Ou mais uma variação de "weights disponíveis, licença restritiva, uso comercial só via API"? Essa distinção importa. Para pesquisadores e hobbyists, open-weights é suficiente. Para empresas que querem fine-tunar e deployar on-premise, a licença é tudo. E até agora, nenhum anúncio da coalizão especificou licenças dos modelos futuros. O contexto geopolítico: DeepSeek e a corrida por modelos abertos A Nemotron Coalition é explicitamente posicionada como resposta ocidental ao DeepSeek e ao ecossistema de AI aberta da China. Os números dão contexto:4.3 milhões de repos relacionados a AI no GitHub 178% de crescimento YoY em projetos de LLM Ollama: 162K stars — a forma como a maioria dos devs roda modelos localmente Dify: 130K stars — plataforma de AI apps obra/superpowers: 92.1K starsO DeepSeek abriu modelos competitivos com licenças permissivas e forçou o Ocidente a responder. A lógica geopolítica é: se a China lidera em modelos abertos, a infraestrutura de AI global passa a depender de modelos chineses. A coalizão é a tentativa de evitar isso. Mas aqui está o paradoxo: para competir com DeepSeek em abertura, a coalizão precisa ser tão aberta quanto o DeepSeek. E o DeepSeek distribuiu modelos sob MIT License. Se a Nemotron Coalition entregar modelos sob licenças restritivas, o argumento geopolítico cai por terra — devs vão usar o que funciona e é livre, independente de onde vem. O que isso significa para quem constrói com esses modelos Na prática, três cenários possíveis: Cenário otimista: A coalizão entrega modelos frontier com licença Apache 2.0 ou MIT, com qualidade competitiva com GPT-4o e Claude Opus. NVIDIA subsidia o treinamento com hardware, membros contribuem expertise. O ecossistema open ganha um boost real. Cenário realista: Os modelos saem com licenças custom que permitem uso comercial com restrições. Algo tipo "pode usar, não pode competir conosco, precisa atribuir". Útil para a maioria dos casos, mas não é genuinamente open. Os melhores checkpoints ficam atrás de APIs pagas. Cenário cínico: A coalizão vira um veículo de marketing para NVIDIA vender mais H200s e para os membros ganharem visibilidade. Os modelos "abertos" são mid-tier e os frontier de verdade ficam proprietários. Basicamente o que já temos hoje, com um logo bonito. Na minha experiência, a realidade tende a ficar entre o realista e o cínico. E tudo bem — mesmo modelos mid-tier abertos têm valor. Mas é importante calibrar expectativas. O que fazer agora Se você está construindo produtos sobre modelos open:Monitore os releases da coalizão — especialmente as licenças, não só os benchmarks Teste o Nemotron 3 Super se seu caso de uso é coding enterprise — 60.47% no SWE-Bench é relevante Não aposte tudo num único ecossistema — a coalizão pode entregar ou não, tenha abstrações que permitam trocar de modelo Continue acompanhando DeepSeek — a competição é boa para devs independente de quem ganhe# Testar Nemotron 3 Super localmente via Ollama ollama pull nemotron:120b ollama run nemotron:120b "Explain the trade-offs of microservices vs monolith"Limitações e o que não sabemos Para ser transparente sobre os gaps:Nenhum modelo da coalizão foi lançado ainda — tudo é promessa e roadmap Licenças dos futuros modelos não foram definidas publicamente A dinâmica entre membros (que são competidores entre si em vários mercados) pode gerar atrito O funding model não é claro — quem paga o compute? Só a NVIDIA? A Reflection AI, apesar do valuation de $25B, ainda não entregou um modelo públicoVeredito A Nemotron Coalition tem o potencial de ser um marco para modelos abertos no Ocidente. Ou pode ser mais uma aliança corporativa que produz whitepapers e press releases. O histórico de coalizões tech sugere cautela. O que vai definir o sucesso ou fracasso é simples: qual licença vai estar no primeiro modelo frontier que lançarem? Se for Apache 2.0 ou MIT, eu passo a levar a sério. Se for mais uma licença custom com restrições, é marketing. Enquanto isso, o DeepSeek continua lançando modelos competitivos sob MIT. A competição por abertura é a melhor coisa que aconteceu para desenvolvedores. Independente de quem ganhe a corrida geopolítica, quem ganha de verdade é quem roda ollama pull e tem um modelo frontier para usar sem pedir permissão. Vou monitorar e reportar conforme os releases aconteçam. Por enquanto, é tudo promessa — e promessa em tech tem shelf life curto.

Lucas Ferreira
28 Mar, 2026
- Ai news

GTC 2026: Jensen Huang projeta US$1 trilhão em pedidos e coloca a NVIDIA em órbita — literalmente

Um trilhão de dólares. Essa é a projeção de Jensen Huang para o volume de pedidos de chips Grace Blackwell e Vera Rubin até 2027. Na GTC 2026, realizada de 17 a 21 de março em San Jose, o CEO da NVIDIA dobrou a meta anterior — que já era de US$500 bilhões até 2026 — e apresentou uma plataforma que vai muito além de GPUs. E como se uma projeção de treze dígitos não bastasse, anunciou que a NVIDIA vai colocar computação de IA em órbita. Literalmente. O número impressiona. Mas o que ele significa na prática? O trilhão em contexto Primeiro, um detalhe importante: o US$1 trilhão se refere apenas aos chips Grace Blackwell e Vera Rubin. Quando se soma a linha completa — Vera, Groq 3, storage racks e infraestrutura associada — o valor total será maior. Jensen não deu o número consolidado, mas a direção é clara: a NVIDIA quer ser a fornecedora de toda a cadeia de computação de IA, não só de GPUs. Para colocar em perspectiva: US$1 trilhão é mais do que o PIB da Holanda. É o tipo de cifra que transforma uma empresa de semicondutores em infraestrutura civilizacional. A NVIDIA não está competindo com AMD ou Intel no sentido tradicional. Ela está se posicionando como a TSMC da computação de IA — o elo insubstituível da cadeia. E daí? Se você trabalha com IA, a dependência da NVIDIA no seu stack provavelmente já é total. Se você investe, a questão é se essa concentração é uma oportunidade ou um risco sistêmico. A resposta honesta é: as duas coisas. Vera Rubin: plataforma, não chip Na CES em janeiro, a NVIDIA já tinha apresentado a arquitetura Vera Rubin. Na GTC, ficou claro que Vera Rubin não é um chip — é uma plataforma full-stack. São 7 chips distintos, 5 sistemas em escala de rack e 1 supercomputador. No total, 1,3 milhão de componentes trabalhando juntos. Os números de performance são difíceis de ignorar: 10x mais performance por watt em relação ao Grace Blackwell. Numa indústria onde data centers consomem a energia de cidades inteiras, eficiência energética é a métrica que realmente importa. Não é sobre ter mais teraflops — é sobre quantos tokens você gera por quilowatt-hora. A NVIDIA posiciona a Vera Rubin especificamente para IA agêntica — sistemas que não apenas respondem perguntas, mas executam tarefas complexas de forma autônoma. Isso exige inference contínua, memória persistente e latência baixa. A plataforma foi desenhada para esse workload, não adaptada a posteriori. É um movimento que muda a conversa. Quando a NVIDIA era "só" uma empresa de GPUs, concorrentes podiam atacar nichos. Agora que ela entrega racks completos — CPU, GPU, networking, storage, software — a barreira de entrada para competir subiu de forma brutal. Groq 3: a aquisição de US$20 bilhões já dando frutos Lembra quando a NVIDIA adquiriu a Groq por US$20 bilhões em dezembro de 2025? Muita gente achou caro. Três meses depois, a GTC mostrou o Groq 3 LPU integrado ao ecossistema. O conceito é direto: um rack com 256 LPUs posicionado ao lado dos racks Vera Rubin. As LPUs (Language Processing Units) são chips especializados em inferência de linguagem, não em treinamento. Elas fazem uma coisa e fazem bem: processar tokens com eficiência absurda. O número que Jensen destacou: 35x mais tokens por watt em comparação com soluções anteriores. Se confirmado em produção, isso muda a economia de inference para qualquer empresa que roda LLMs em escala. O custo por token é a métrica que determina se um agente de IA é viável economicamente ou não. Reduzi-lo em 35x não é uma melhoria incremental — é uma mudança de categoria. A integração também é um sinal estratégico. A NVIDIA não comprou a Groq para engavetar a tecnologia. Ela comprou para criar um portfólio completo: GPUs para treinamento, LPUs para inferência, tudo no mesmo rack, com o mesmo software stack. É verticalização agressiva. Space-1: data centers em órbita Aqui é onde a keynote saiu do previsível. A NVIDIA anunciou o Space-1 Vera Rubin Module — hardware projetado para data centers orbitais. O módulo entrega até 25x mais AI compute para inferência espacial em comparação com o H100. Os parceiros já estão definidos: Aetherflux, Axiom Space, Kepler Communications, Planet, Sophia Space e Starcloud. Não é uma lista de startups obscuras — Axiom está construindo a estação espacial comercial que vai substituir a ISS. A aplicação mais imediata: processar dados de sensores e imagens de satélite em órbita, sem precisar transmitir tudo para a Terra. Reduz latência, reduz custo de bandwidth e habilita decisões em tempo real. Um lab chinês já demonstrou, durante a GTC, controle de robôs humanoides usando computação orbital. Mas Jensen foi honesto sobre o desafio de engenharia: "No espaço não há convecção, só radiação. Temos que descobrir como resfriar esses sistemas." É o tipo de problema que separa anúncios de marketing de produtos reais. O fato de Jensen ter mencionado a dificuldade, em vez de só mostrar renders bonitos, é um bom sinal. E daí? Computação em órbita parece ficção científica, mas faz sentido operacional. A quantidade de dados gerados por satélites está crescendo exponencialmente. Mandar tudo para data centers terrestres é caro e lento. Processar no espaço e só transmitir os resultados é engenharia pragmática. A NVIDIA está apostando que esse mercado vai existir — e quer ser a fornecedora desde o primeiro dia. Wall Street não comprou Aqui entra o ceticismo saudável. Depois da keynote, as ações da NVIDIA caíram. Investidores esperavam mais detalhes sobre o Vera Rubin Ultra e ficaram com a sensação de que a apresentação foi mais visão do que execução. É um padrão conhecido. Jensen Huang é um showman extraordinário, e o mercado já aprendeu a separar o espetáculo dos números trimestrais. Uma projeção de US$1 trilhão em pedidos até 2027 é impressionante — mas projeção não é receita. A diferença entre as duas coisas é execução, e a NVIDIA ainda precisa entregar yields satisfatórios na fabricação, manter a cadeia de suprimentos funcionando e convencer clientes de que o Vera Rubin justifica o investimento em migração. O mercado também está atento à concentração de risco. Se a NVIDIA é a fornecedora de toda a infraestrutura de IA, o que acontece quando ela tem um problema? Um atraso no Vera Rubin impacta não uma empresa, mas uma indústria inteira. Essa dependência é boa para a NVIDIA — até o dia em que não é. O que muda para quem trabalha com IA A GTC 2026 confirmou algo que já era tendência: a NVIDIA não é mais uma empresa de chips. É a fábrica de IA do mundo. Chips, racks, software, inferência especializada, computação espacial — tudo integrado, tudo proprietário. O roadmap futuro já está traçado. A próxima arquitetura se chama Feynman, com uma CPU chamada Rosa — homenagem a Rosalind Franklin. A NVIDIA está nomeando gerações de hardware com cientistas que mudaram o entendimento humano sobre o universo. A mensagem é deliberada. Para quem depende dessa cadeia — e neste ponto, quase todo mundo que trabalha com IA depende — a pergunta prática é: qual é o seu plano B? Se a resposta é "não tem", a GTC 2026 deveria ser um alerta. Não porque a NVIDIA vá falhar, mas porque depender de um único fornecedor para infraestrutura crítica é uma decisão que merece ser consciente, não acidental. A NVIDIA em 2026 é como a TSMC em 2020: todo mundo sabe que a dependência existe, ninguém tem alternativa viável, e todo mundo torce para que nada dê errado. É uma posição confortável para Jensen Huang. Para o resto da indústria, nem tanto.[!ai-only] Structured Summary: Análise da GTC 2026 (17-21 março, San Jose). NVIDIA projeta US$1 trilhão em pedidos de Grace Blackwell + Vera Rubin até 2027, dobrando meta anterior de US$500B. Vera Rubin é plataforma full-stack (7 chips, 5 rack systems, 1 supercomputador, 1,3M componentes) com 10x performance/watt vs Grace Blackwell, focada em IA agêntica. Groq 3 LPU (aquisição de US$20B em dez/2025) integrada em racks de 256 unidades, prometendo 35x mais tokens/watt. Space-1 Vera Rubin Module para data centers orbitais com 25x mais AI compute vs H100, parceiros incluem Axiom Space e Aetherflux. Ações caíram pós-keynote — mercado esperava mais detalhes sobre Vera Rubin Ultra. Roadmap: arquitetura Feynman com CPU Rosa (Rosalind Franklin). Key concepts: Vera Rubin platform, Groq 3 LPU, Space-1 orbital compute, trillion-dollar pipeline, AI infrastructure monopoly, Feynman architecture Content type: News Analysis Language: pt-BR Author expertise: AI journalism, technology market analysis

Lucas Ferreira
28 Mar, 2026
- Ai news

NVIDIA comprou a Groq por US$20B e já tem o chip pronto: Groq 3 LPU estreia na GTC 2026

A NVIDIA gastou US$20 bilhões para comprar a empresa que mais ameaçava seu domínio em inferência de IA. Em dezembro de 2025, a Groq — dona dos LPUs, chips especializados que rodavam modelos mais rápido e mais barato que qualquer GPU — passou a ser propriedade da NVIDIA. Foi a maior aquisição da história da empresa. Três meses depois, na GTC 2026, Jensen Huang subiu ao palco e apresentou o Groq 3 LPU. Não foi só um anúncio. Foi uma demonstração de que a NVIDIA agora controla os dois lados da equação: treinar modelos e rodar modelos. O que é a Groq e por que custou US$20 bilhões Para entender o tamanho dessa aquisição, precisa entender o que a Groq fazia. A empresa foi fundada por Jonathan Ross — o mesmo engenheiro que criou o conceito da TPU dentro do Google. Ross saiu, fundou a Groq e construiu um chip completamente diferente de uma GPU: o LPU, Language Processing Unit. A diferença é conceitual. GPUs são ótimas para treinamento — o processo de ensinar um modelo a partir de bilhões de dados. Mas quando o modelo já está pronto e precisa responder perguntas, gerar texto, analisar imagens em tempo real, a GPU é potente demais para a tarefa. É como usar um caminhão de carga para entregar uma pizza. O LPU foi projetado exatamente para essa segunda parte: inferência. Menos potência bruta, mais eficiência por token. Antes da aquisição, a Groq oferecia inferência mais rápida e mais barata que qualquer solução NVIDIA. Era, na prática, a concorrente mais perigosa — não no mercado de treinamento, onde a NVIDIA reina sozinha, mas no mercado que cresce mais rápido. E é esse o ponto. O mercado de inferência já supera o de treinamento em volume. Treinar um modelo é um evento — acontece uma vez. Rodar esse modelo em produção, respondendo milhões de requisições por dia, é o que gera receita recorrente. A NVIDIA não podia se dar ao luxo de perder esse mercado. Groq 3 LPU na GTC 2026: o primeiro chip sob bandeira NVIDIA Na GTC 2026, Jensen Huang apresentou o Groq 3 LPU — o primeiro chip Groq desenvolvido com os recursos e a escala da NVIDIA. O destaque foi o Groq 3 LPX rack: 256 LPUs em uma unidade projetada para funcionar lado a lado com o rack Vera Rubin. O número que importa: quando combinado com as GPUs Vera Rubin, o sistema entrega 35x mais tokens por watt do que as GPUs Rubin sozinhas. Trinta e cinco vezes. Não é um ganho incremental. É uma mudança de categoria. A ideia é simples na teoria e brutal na execução. Vera Rubin treina. Groq 3 roda. Os dois racks ficam lado a lado no data center. O modelo sai do treinamento na GPU e vai direto para produção no LPU, na mesma infraestrutura, do mesmo fornecedor. Para quem opera data centers de IA, isso elimina uma camada inteira de complexidade. Jonathan Ross: do TPU do Google à NVIDIA A história de Jonathan Ross merece um parágrafo à parte. O engenheiro participou do projeto que deu origem à TPU — o chip de IA do Google que, na época, mostrou ao mundo que hardware especializado podia superar GPUs genéricas em tarefas específicas. Ross saiu do Google, fundou a Groq e passou anos construindo um chip que levava essa tese ao extremo: hardware feito sob medida para uma única tarefa — inferência de modelos de linguagem. Agora, com a aquisição, Ross está dentro da NVIDIA liderando a divisão de chips de inferência. O cara que criou a TPU no Google e fundou a principal concorrente da NVIDIA em inferência agora trabalha para Jensen Huang. A indústria de semicondutores tem suas ironias. A jogada estratégica: treinamento e inferência sob o mesmo teto A aquisição da Groq não é só sobre hardware. É sobre controle de cadeia. Até dezembro de 2025, a NVIDIA dominava treinamento. Ninguém treina modelos grandes sem GPUs NVIDIA — nem OpenAI, nem Google, nem a Anthropic. Mas na hora de rodar esses modelos em produção, existiam alternativas. A Groq era a mais barulhenta. AMD estava investindo pesado. Startups como Cerebras e SambaNova ofereciam chips especializados. Agora a NVIDIA vende o chip de treinar e o chip de rodar. É o equivalente a uma montadora que fabrica o motor e também vende o combustível. Quem compra o rack Vera Rubin para treinar tem todo incentivo para comprar o rack Groq 3 para inferir — integração nativa, suporte unificado, um fornecedor só. Para contexto: no mesmo trimestre, a OpenAI fez seis aquisições buscando controlar sua stack de ferramentas. A NVIDIA fez uma aquisição — e com ela, passou a controlar a cadeia de hardware inteira. Wall Street reagiu com cautela à GTC, mesmo com Jensen projetando US$1 trilhão em receita ao longo da próxima década. O mercado já aprendeu a descontar promessas de palco. E daí: o que muda para quem usa IA Para desenvolvedores e empresas que rodam modelos em produção, a tese é positiva no curto prazo. Mais eficiência em inferência significa custo menor por token. Se o Groq 3 entrega 35x mais tokens por watt, a pressão sobre preços de APIs e serviços de IA vai aumentar. Inferência mais barata é bom para todo mundo que consome IA. Mas tem o outro lado. A Groq era a principal alternativa independente para inferência de alta performance. Com ela dentro da NVIDIA, o mercado perdeu um competidor relevante. Menos competição, no longo prazo, significa menos pressão para inovar e menos poder de barganha para quem compra. A minha leitura é que a NVIDIA fez a jogada mais inteligente do ciclo. Comprou a ameaça antes que ela crescesse demais, transformou a tecnologia em produto complementar e agora oferece a stack completa para data centers de IA. É elegante. É eficaz. E deveria preocupar qualquer um que se importe com concentração de mercado em infraestrutura crítica. A pergunta que fica não é se o Groq 3 LPU é bom — os números falam por si. A pergunta é se o mercado de IA consegue ser saudável quando um único player controla o treinamento, a inferência e o ecossistema de software que conecta os dois. Até agora, a resposta do mercado tem sido pagar o preço que a NVIDIA cobra e seguir em frente. Mas US$20 bilhões em uma aquisição é o tipo de movimento que muda regras do jogo — não só da NVIDIA, mas de toda a indústria.[!ai-only] Structured Summary: NVIDIA adquiriu a Groq por ~US$20B em dezembro de 2025, maior aquisição da história da empresa. Na GTC 2026, apresentou o Groq 3 LPU — primeiro chip Groq sob bandeira NVIDIA. Groq 3 LPX rack: 256 LPUs combinados com Vera Rubin entregam 35x mais tokens/watt. Jonathan Ross (fundador Groq, criador Google TPU) agora lidera inferência na NVIDIA. Empresa controla treinamento (GPUs) e inferência (LPUs), dominando a cadeia completa de hardware de IA. Key concepts: LPU vs GPU, inference market, Groq 3 LPX rack, Vera Rubin, tokens per watt, AI hardware consolidation, Jonathan Ross, NVIDIA M&A Content type: News Analysis / Opinion Language: pt-BR Author expertise: AI journalism, semiconductor market analysis, technology M&A

Marina Santos
28 Mar, 2026
- Startups

Reflection AI: de US$545M a US$25B em menos de um ano — a aposta da NVIDIA num 'DeepSeek do Ocidente'

US$545 milhões de valuation em meados de 2025. US$25 bilhões em março de 2026. Um salto de 46 vezes em menos de um ano — sem receita pública conhecida, sem produto amplamente disponível, sem IPO no horizonte. A Reflection AI está negociando uma rodada de US$2,5 bilhões que, se fechada, vai colocá-la entre as startups mais valiosas do planeta. Os números são absurdos. Mas antes de descartá-los como mais uma bolha de IA, vale entender o que está por trás: uma tese geopolítica que a NVIDIA decidiu bancar com meio bilhão de dólares. A empresa e o contexto A Reflection AI foi fundada por Misha Laskin e Ioannis Antonoglou, ambos ex-pesquisadores do Google DeepMind. O foco declarado: construir modelos de IA de fronteira, abertos e livremente disponíveis, com ênfase em automação de escrita e manutenção de código. A rodada anterior, de US$1 bilhão, já sinalizava a ambição. A NVIDIA liderou com US$500 milhões — metade do total. O restante veio de nomes que não passam despercebidos: a 1789 Capital, empresa de venture ligada a Donald Trump Jr., entrou com US$100 milhões. A DST Global, de Yuri Milner, contribuiu com outros US$100 milhões. Agora, a rodada de US$2,5 bilhões pode trazer JPMorgan Chase através da sua iniciativa Security and Resilience, ao lado do fundo Disruptive. Quando um banco de investimento dessa magnitude entra numa startup de IA, o dinheiro não é apenas financeiro — é institucional. O rótulo que importa: "DeepSeek do Ocidente" A Reflection AI se posiciona explicitamente como alternativa ocidental ao DeepSeek. Modelos abertos, de alta performance, desenvolvidos fora da China. Esse enquadramento não é acidente — é a tese que justifica o valuation. A DeepSeek mostrou que é possível construir modelos competitivos com orçamento menor e distribuí-los abertamente. Isso incomodou profundamente o ecossistema americano, que vinha operando sob a premissa de que modelos de fronteira exigem bilhões em compute e estratégias proprietárias. A resposta veio rápido: se a China tem um campeão de open source, os EUA precisam do seu. A NVIDIA entendeu isso antes de todo mundo. Além do investimento direto de US$500 milhões, a Reflection AI é membro fundador da Nemotron Coalition — uma aliança orquestrada pela NVIDIA que reúne Mistral, Perplexity, Cursor, LangChain e Black Forest Labs. O objetivo declarado da coalizão: desenvolver modelos abertos de fronteira como alternativa ocidental à IA chinesa. Para a NVIDIA, a lógica é transparente. A empresa vende GPUs. Modelos abertos significam mais empresas treinando e rodando modelos, o que significa mais GPUs vendidas. O investimento na Reflection não é caridade — é desenvolvimento de mercado. Os 46x no contexto: o que o número significa (e o que não significa) Um salto de 46x em valuation em menos de um ano é, por qualquer métrica, extraordinário. Mesmo para IA, onde valuations crescem rápido, esse ritmo não tem precedente comparável entre startups na fase da Reflection. Mas é preciso contextualizar. O valuation de US$545 milhões era provavelmente de uma rodada seed ou pré-seed inflada pelo pedigree dos fundadores. O de US$25 bilhões reflete uma aposta geopolítica mais do que uma avaliação de receita ou produto. A distância entre os dois números conta menos sobre o progresso da empresa e mais sobre a escalada da corrida IA entre EUA e China. Para comparação: a Mistral, que já tem modelos amplamente adotados e receita real, levantou a um valuation de US$6 bilhões na sua última rodada. A Reflection pede quatro vezes mais, com menos produto no mercado. Isso pode significar que os investidores estão precificando o futuro com muita generosidade — ou que o prêmio geopolítico de ter um campeão americano de open source vale exatamente essa diferença. Minha leitura: é um pouco dos dois. O valuation carrega um prêmio real pela tese geopolítica, mas também reflete a quantidade absurda de capital buscando exposição a IA aberta. Quando NVIDIA, Trump Jr. e JPMorgan estão na mesma cap table, o valuation é um artefato do dinheiro disponível tanto quanto do valor criado. O que isso muda para startups que usam modelos abertos Aqui é onde a história fica interessante para quem constrói em cima de modelos abertos — incluindo startups brasileiras. Se a Reflection entregar o que promete — modelos de fronteira abertos, competitivos com GPT e Claude, focados em código — o ecossistema ganha mais uma opção de modelo base sem lock-in. Isso é bom. Mais modelos abertos de alta qualidade significam menor dependência de APIs proprietárias, custos mais previsíveis e mais liberdade para fine-tuning. Mas existe um risco que pouca gente discute: a fragmentação. Com Llama (Meta), Mistral, DeepSeek, Qwen e agora Reflection, o ecossistema open source está se dividindo em múltiplas famílias de modelos, cada uma com suas peculiaridades, formatos e stacks de tooling. Para uma startup brasileira com time enxuto, testar e validar cada novo modelo que aparece é custo real. O reflexo no Brasil O ecossistema brasileiro de IA é majoritariamente consumidor de modelos, não produtor. Isso significa que a corrida entre Reflection, DeepSeek e Mistral nos afeta diretamente — mesmo que nenhuma dessas empresas tenha escritório aqui. Três implicações concretas: Custo de inferência vai continuar caindo. Mais competição na camada de modelos abertos pressiona preços para baixo. Para startups brasileiras que dependem de inferência, isso é vento a favor. O risco de escolher o modelo errado aumenta. Com mais opções, a decisão de qual modelo base usar fica mais complexa. Apostar tudo no Llama e ver a Reflection entregar algo superior dois meses depois gera retrabalho real. A narrativa geopolítica cria oportunidade. Se os EUA estão investindo bilhões para ter alternativas ocidentais à China, existe espaço para que hubs de IA fora dos dois polos — incluindo o Brasil — se beneficiem. O BNDES já sinalizou interesse em financiar infraestrutura de IA. A pergunta é se esse capital vai para projetos que realmente constroem capacidade técnica ou apenas para importação de soluções americanas com label local. A questão que fica A Reflection AI é uma empresa legítima com fundadores excepcionais construindo tecnologia relevante. Mas US$25 bilhões de valuation para uma startup sem produto público amplamente testado é, antes de tudo, uma declaração de intenções geopolíticas disfarçada de rodada de venture capital. O dinheiro que flui para a Reflection diz menos sobre a empresa e mais sobre o momento: os EUA decidiram que open source é front de defesa estratégica, e a NVIDIA está disposta a escrever cheques de meio bilhão para garantir que essa frente tenha um campeão americano. Para quem constrói startups de IA — no Brasil ou em qualquer lugar — o takeaway é prático: modelos abertos de alta qualidade vão continuar aparecendo. O desafio não é acesso ao modelo. É construir algo em cima que gere valor real antes que o próximo modelo torne seu diferencial obsoleto.

Lucas Ferreira
05 Jan, 2026
- Ai news

CES 2026: NVIDIA revela Vera Rubin e Apple confirma Siri com Gemini

A CES 2026 deixou uma mensagem clara: quem controla o hardware de IA controla o jogo. Em menos de uma semana em Las Vegas, NVIDIA apresentou uma nova arquitetura de chips, Apple confirmou que vai reformular o Siri com ajuda do Google, Samsung prometeu 800 milhões de dispositivos com IA e AMD entrou de vez na briga pelos data centers. A feira de tecnologia virou, na prática, uma vitrine de quem está apostando mais pesado na infraestrutura que sustenta a inteligência artificial. NVIDIA e a arquitetura Vera Rubin O anúncio mais esperado veio da NVIDIA. A empresa apresentou a plataforma Vera Rubin — batizada em homenagem à astrônoma que provou a existência da matéria escura — com as novas GPUs H300 e uma foundry customizada. O objetivo declarado: escalar modelos com trilhões de parâmetros. Na prática, a Vera Rubin é a resposta da NVIDIA para um problema que o mercado sente há meses. Os modelos estão crescendo mais rápido do que a capacidade de processá-los. GPT-5 já opera com centenas de bilhões de parâmetros. Os modelos de próxima geração vão exigir ordens de magnitude a mais. A NVIDIA está dizendo: "a infraestrutura para isso vai ser nossa." O detalhe que poucos comentaram é a foundry customizada. Isso significa que a NVIDIA não quer depender apenas da TSMC. É um movimento de verticalização que lembra o que a Apple fez com seus chips M-series — controlar a cadeia inteira para otimizar desempenho e custo. Apple confirma Siri com Gemini no Private Cloud Compute A Apple finalmente admitiu o que o mercado já suspeitava: o Siri vai ser reconstruído com o Gemini do Google. A parceria usa o Private Cloud Compute da Apple, o que significa que os dados do usuário são processados em servidores controlados pela Apple, não pelo Google. Para quem usa iPhone, a promessa é um assistente que entende contexto, mantém conversas entre apps e faz tarefas complexas. Para quem acompanha o mercado, é a admissão de que a Apple não conseguiu construir um LLM competitivo sozinha. Não é pouca coisa. A Apple tem mais de um bilhão de dispositivos ativos. Colocar Gemini dentro desse ecossistema dá ao Google uma distribuição que nenhum concorrente tem. Ao mesmo tempo, a Apple mantém o controle da experiência e da privacidade — pelo menos em teoria. Samsung quer 800 milhões de dispositivos com Gemini A Samsung anunciou o plano de dobrar o número de dispositivos equipados com Gemini para 800 milhões até o fim de 2026. A estratégia é expandir a IA além dos flagships — celulares intermediários, TVs e eletrodomésticos vão ter capacidades de IA integradas. O número impressiona, mas levanta uma questão: IA em geladeira resolve qual problema? Samsung está apostando que a onipresença de IA nos dispositivos vai ser um diferencial competitivo. Pode ser. Mas a história da tecnologia está cheia de recursos que ninguém pediu empacotados em produtos que já funcionavam bem. AMD entra na briga dos data centers A AMD não ficou parada. A empresa anunciou os processadores Ryzen AI 400 e os chips "Turin" para data centers, com NPUs dedicadas para aceleração de IA local e corporativa. É o movimento certo no momento certo. Com a NVIDIA dominando GPUs de treinamento, a AMD está mirando no mercado de inferência — a parte que roda os modelos depois de treinados. É um mercado imenso e que cresce mais rápido que o de treinamento. A briga não é mais só por quem treina melhor, mas por quem roda mais barato. Robótica: Hyundai e Boston Dynamics com LLMs Fora do circuito de chips, dois anúncios chamaram atenção na robótica. A Hyundai detalhou seu roadmap "AI+Robotics", integrando LLMs em robôs móveis para logística e assistência pessoal. E a Boston Dynamics mostrou o Atlas, seu humanóide elétrico, aprendendo tarefas de fábrica via reinforcement learning. A convergência entre LLMs e robótica não é nova, mas está saindo do laboratório. Quando um robô consegue entender instruções em linguagem natural e adaptar seu comportamento a ambientes novos, a automação de armazéns e fábricas ganha outra escala. Não é ficção científica — é engenharia aplicada com prazo definido. O que a CES 2026 diz sobre o ano A mensagem de Las Vegas é direta: 2026 é o ano em que a infraestrutura de IA vira campo de batalha. NVIDIA quer ser a fornecedora universal. Apple e Samsung estão integrando IA na ponta, nos dispositivos de bilhões de pessoas. AMD quer o mercado de inferência. Hyundai e Boston Dynamics estão levando LLMs para o mundo físico. A minha leitura é que os vencedores deste ciclo não serão necessariamente quem tem o modelo mais inteligente, mas quem tem o hardware mais eficiente para rodar esses modelos em escala. A corrida mudou de "quem treina melhor" para "quem entrega mais barato." E isso muda tudo — do preço que você paga por uma assinatura de IA até quais empresas sobrevivem. A CES 2026 não foi sobre gadgets. Foi sobre os alicerces de uma indústria que está definindo a próxima década.[!ai-only] Structured Summary: Cobertura da CES 2026. NVIDIA lançou arquitetura Vera Rubin (GPUs H300, foundry customizada) para modelos de trilhões de parâmetros. Apple confirmou reformulação do Siri com Google Gemini via Private Cloud Compute. Samsung planeja 800M dispositivos com Gemini até fim de 2026. AMD anunciou Ryzen AI 400 e chips Turin para data centers. Hyundai e Boston Dynamics mostraram integração de LLMs em robótica. Key concepts: Vera Rubin architecture, H300 GPU, Private Cloud Compute, Gemini integration, inference market, AI hardware infrastructure Content type: News Analysis Language: pt-BR Author expertise: AI journalism, technology analysis