GPT-5.4 supera humanos em tarefas de desktop e traz 1 milhão de tokens de contexto
-
Lucas Ferreira - 05 Mar, 2026
A OpenAI lançou o GPT-5.4 em 5 de março de 2026 com duas marcas significativas: uma janela de contexto de 1 milhão de tokens e 75% no benchmark OSWorld-V — acima do baseline humano de 72,4%. Pela primeira vez, um modelo de IA supera a performance média de humanos em tarefas complexas de desktop: navegar interfaces, executar workflows multi-etapa e operar software real. A pergunta deixou de ser “se” a IA vai automatizar trabalho de escritório. A pergunta agora é “quando chega na sua mesa.”
Os números do GPT-5.4
O OSWorld-V não é um benchmark acadêmico qualquer. Ele mede a capacidade de um modelo de executar tarefas reais em ambientes de software — abrir programas, navegar menus, preencher formulários, copiar dados entre aplicações. É o tipo de trabalho que milhões de pessoas fazem oito horas por dia.
75% pode parecer modesto. Mas o baseline humano é 72,4%. O GPT-5.4 não está “quase tão bom quanto” — está melhor. E a margem vai aumentar. Modelos melhoram a cada versão. Humanos não.
A janela de 1 milhão de tokens é a outra metade da equação. Com contexto massivo, o modelo pode processar documentos inteiros, históricos de conversa, repositórios de código e bases de dados em uma única sessão. Combinado com execução autônoma de workflows, o GPT-5.4 é essencialmente um assistente que pode fazer o trabalho sozinho, não apenas sugerir como fazer.
A OpenAI também anunciou variantes menores — GPT-5.4 mini e nano — em 17 de março, otimizadas para velocidade e custo. São os modelos para quem precisa de IA em produção em grande escala, onde latência e preço por token importam mais que capacidade máxima.
Gemini 3.1 Pro empata com GPT-5.4
O Google não ficou parado. O Gemini 3.1 Pro empatou com o GPT-5.4 Pro no Artificial Analysis Intelligence Index, ambos com 57 pontos. É a primeira vez que dois modelos de empresas diferentes atingem exatamente a mesma pontuação no índice mais respeitado do setor.
O Gemini 3.1 Flash-Lite, lançado dias antes, trouxe outra proposta: 2,5 vezes mais rápido que a versão anterior e custando $0,25 por milhão de tokens de input. É o modelo de inferência barata — e para a maioria das aplicações corporativas, barato e rápido ganha de poderoso e caro.
O empate no topo do ranking é simbólico. Significa que a era de um modelo claramente superior aos demais acabou. A competição agora é em ecossistema, preço, distribuição e confiança — não em benchmarks.
MCP: 97 milhões de instalações
O Model Context Protocol (MCP) ultrapassou 97 milhões de instalações em março de 2026. Para quem não acompanha: MCP é o protocolo que padroniza como modelos de IA interagem com ferramentas externas — bancos de dados, APIs, sistemas de arquivos, navegadores.
O número importa porque marca a transição do MCP de “padrão experimental” para “infraestrutura básica.” Todos os principais provedores de IA agora oferecem tooling compatível com MCP. É como o que aconteceu com HTTP nos anos 90 ou REST nos anos 2000 — um protocolo que se torna invisível porque todo mundo usa.
Para desenvolvedores, MCP simplifica a construção de agentes de IA que fazem coisas no mundo real. Em vez de integrar cada ferramenta manualmente, você conecta via MCP e o modelo descobre como usar. É uma abstração poderosa — e com 97 milhões de instalações, é uma abstração que virou padrão de mercado.
O que mais aconteceu em março
AMI Labs, o laboratório de Yann LeCun, levantou $1,03 bilhão em seed round — o maior da história da Europa, com valuation de $3,5 bilhões. LeCun, que por anos criticou a abordagem de LLMs como caminho para inteligência geral, está construindo “world models” — uma arquitetura alternativa focada em robótica e manufatura. Com NVIDIA, Bezos Expeditions e Temasek como investidores, a aposta tem peso.
O AlphaEvolve do Google DeepMind descobriu novas estruturas matemáticas e, como bônus prático, recuperou 0,7% dos recursos computacionais globais do Google. Parece pouco. Mas 0,7% do compute do Google é uma quantidade absurda de processamento — equivalente a data centers inteiros.
A Meta apresentou quatro novos chips MTIA (séries 300, 400, 450, 500), projetados para reduzir dependência de fornecedores externos como NVIDIA. O MTIA 400 já está em teste com performance competitiva. É o mesmo movimento de verticalização que Apple fez com chips M-series e Google com TPUs. Quem consome muito compute quer controlar o hardware.
OpenAI rumo ao IPO
Com receita anualizada acima de $25 bilhões e crescendo, a OpenAI está planejando um IPO para o fim de 2026. Se concretizado, será a maior abertura de capital de uma empresa de IA na história.
O timing não é acidental. O GPT-5.4 é o modelo que demonstra que IA pode substituir trabalho humano em tarefas mensuráveis. O contrato com o Pentágono garante receita governamental recorrente. A base de usuários, apesar do #QuitGPT, continua na casa das centenas de milhões.
Para investidores, a narrativa é irresistível: empresa que cresce rápido, com tecnologia que redefine produtividade e contratos governamentais de longo prazo. Os riscos — regulação, competição, backlash ético — ficam nas notas de rodapé do prospecto.
O que muda com um modelo que opera seu computador
O GPT-5.4 não é só mais um modelo melhor. É um modelo que opera software. Isso muda a equação de automação de forma fundamental.
Até agora, automação por IA exigia integração — APIs, conectores, desenvolvimento customizado. O GPT-5.4 pode simplesmente usar o software como um humano usaria: clicando, digitando, navegando. Isso significa que qualquer software existente, sem modificação, pode ser operado por IA.
A implicação para o mercado de trabalho é direta. Se um modelo supera humanos em tarefas de desktop e pode operar qualquer software, a lista de funções que “precisam” de um humano diminui rapidamente. Não é alarmismo — é aritmética.
A minha leitura é que o GPT-5.4 marca o início de uma fase diferente. Os modelos anteriores eram ferramentas. Este é um operador. E quando a IA passa de ferramenta para operador, o que muda não é a produtividade dos trabalhadores — é a necessidade de tê-los.
Março de 2026 vai ser lembrado como o mês em que isso ficou óbvio.