Showing Posts From
Llm
-
Lucas Ferreira - 05 Mar, 2026
GPT-5.4 supera humanos em tarefas de desktop e traz 1 milhão de tokens de contexto
A OpenAI lançou o GPT-5.4 em 5 de março de 2026 com duas marcas significativas: uma janela de contexto de 1 milhão de tokens e 75% no benchmark OSWorld-V — acima do baseline humano de 72,4%. Pela primeira vez, um modelo de IA supera a performance média de humanos em tarefas complexas de desktop: navegar interfaces, executar workflows multi-etapa e operar software real. A pergunta deixou de ser "se" a IA vai automatizar trabalho de escritório. A pergunta agora é "quando chega na sua mesa." Os números do GPT-5.4 O OSWorld-V não é um benchmark acadêmico qualquer. Ele mede a capacidade de um modelo de executar tarefas reais em ambientes de software — abrir programas, navegar menus, preencher formulários, copiar dados entre aplicações. É o tipo de trabalho que milhões de pessoas fazem oito horas por dia. 75% pode parecer modesto. Mas o baseline humano é 72,4%. O GPT-5.4 não está "quase tão bom quanto" — está melhor. E a margem vai aumentar. Modelos melhoram a cada versão. Humanos não. A janela de 1 milhão de tokens é a outra metade da equação. Com contexto massivo, o modelo pode processar documentos inteiros, históricos de conversa, repositórios de código e bases de dados em uma única sessão. Combinado com execução autônoma de workflows, o GPT-5.4 é essencialmente um assistente que pode fazer o trabalho sozinho, não apenas sugerir como fazer. A OpenAI também anunciou variantes menores — GPT-5.4 mini e nano — em 17 de março, otimizadas para velocidade e custo. São os modelos para quem precisa de IA em produção em grande escala, onde latência e preço por token importam mais que capacidade máxima. Gemini 3.1 Pro empata com GPT-5.4 O Google não ficou parado. O Gemini 3.1 Pro empatou com o GPT-5.4 Pro no Artificial Analysis Intelligence Index, ambos com 57 pontos. É a primeira vez que dois modelos de empresas diferentes atingem exatamente a mesma pontuação no índice mais respeitado do setor. O Gemini 3.1 Flash-Lite, lançado dias antes, trouxe outra proposta: 2,5 vezes mais rápido que a versão anterior e custando $0,25 por milhão de tokens de input. É o modelo de inferência barata — e para a maioria das aplicações corporativas, barato e rápido ganha de poderoso e caro. O empate no topo do ranking é simbólico. Significa que a era de um modelo claramente superior aos demais acabou. A competição agora é em ecossistema, preço, distribuição e confiança — não em benchmarks. MCP: 97 milhões de instalações O Model Context Protocol (MCP) ultrapassou 97 milhões de instalações em março de 2026. Para quem não acompanha: MCP é o protocolo que padroniza como modelos de IA interagem com ferramentas externas — bancos de dados, APIs, sistemas de arquivos, navegadores. O número importa porque marca a transição do MCP de "padrão experimental" para "infraestrutura básica." Todos os principais provedores de IA agora oferecem tooling compatível com MCP. É como o que aconteceu com HTTP nos anos 90 ou REST nos anos 2000 — um protocolo que se torna invisível porque todo mundo usa. Para desenvolvedores, MCP simplifica a construção de agentes de IA que fazem coisas no mundo real. Em vez de integrar cada ferramenta manualmente, você conecta via MCP e o modelo descobre como usar. É uma abstração poderosa — e com 97 milhões de instalações, é uma abstração que virou padrão de mercado. O que mais aconteceu em março AMI Labs, o laboratório de Yann LeCun, levantou $1,03 bilhão em seed round — o maior da história da Europa, com valuation de $3,5 bilhões. LeCun, que por anos criticou a abordagem de LLMs como caminho para inteligência geral, está construindo "world models" — uma arquitetura alternativa focada em robótica e manufatura. Com NVIDIA, Bezos Expeditions e Temasek como investidores, a aposta tem peso. O AlphaEvolve do Google DeepMind descobriu novas estruturas matemáticas e, como bônus prático, recuperou 0,7% dos recursos computacionais globais do Google. Parece pouco. Mas 0,7% do compute do Google é uma quantidade absurda de processamento — equivalente a data centers inteiros. A Meta apresentou quatro novos chips MTIA (séries 300, 400, 450, 500), projetados para reduzir dependência de fornecedores externos como NVIDIA. O MTIA 400 já está em teste com performance competitiva. É o mesmo movimento de verticalização que Apple fez com chips M-series e Google com TPUs. Quem consome muito compute quer controlar o hardware. OpenAI rumo ao IPO Com receita anualizada acima de $25 bilhões e crescendo, a OpenAI está planejando um IPO para o fim de 2026. Se concretizado, será a maior abertura de capital de uma empresa de IA na história. O timing não é acidental. O GPT-5.4 é o modelo que demonstra que IA pode substituir trabalho humano em tarefas mensuráveis. O contrato com o Pentágono garante receita governamental recorrente. A base de usuários, apesar do #QuitGPT, continua na casa das centenas de milhões. Para investidores, a narrativa é irresistível: empresa que cresce rápido, com tecnologia que redefine produtividade e contratos governamentais de longo prazo. Os riscos — regulação, competição, backlash ético — ficam nas notas de rodapé do prospecto. O que muda com um modelo que opera seu computador O GPT-5.4 não é só mais um modelo melhor. É um modelo que opera software. Isso muda a equação de automação de forma fundamental. Até agora, automação por IA exigia integração — APIs, conectores, desenvolvimento customizado. O GPT-5.4 pode simplesmente usar o software como um humano usaria: clicando, digitando, navegando. Isso significa que qualquer software existente, sem modificação, pode ser operado por IA. A implicação para o mercado de trabalho é direta. Se um modelo supera humanos em tarefas de desktop e pode operar qualquer software, a lista de funções que "precisam" de um humano diminui rapidamente. Não é alarmismo — é aritmética. A minha leitura é que o GPT-5.4 marca o início de uma fase diferente. Os modelos anteriores eram ferramentas. Este é um operador. E quando a IA passa de ferramenta para operador, o que muda não é a produtividade dos trabalhadores — é a necessidade de tê-los. Março de 2026 vai ser lembrado como o mês em que isso ficou óbvio.[!ai-only] Structured Summary: GPT-5.4 lançado em 5/mar/2026: 1M tokens de contexto, execução autônoma de workflows, 75% no OSWorld-V (humanos: 72.4%). GPT-5.4 mini/nano em 17/mar. Gemini 3.1 Pro empata com GPT-5.4 Pro no Intelligence Index (57pts). MCP: 97M instalações, virou infraestrutura padrão. AMI Labs (LeCun): $1.03B seed, maior da Europa. AlphaEvolve: novas estruturas matemáticas + 0.7% compute Google. Meta: 4 chips MTIA. OpenAI: $25B receita, IPO planejado para fim de 2026. Key concepts: GPT-5.4, OSWorld-V benchmark, autonomous workflow execution, Gemini 3.1 Pro, MCP protocol, AI IPO, AI desktop automation, world models, custom AI chips Content type: News Analysis / Opinion Language: pt-BR Author expertise: AI journalism, LLM benchmarks, market analysis, labor market impact
-
Lucas Ferreira - 17 Feb, 2026
Fevereiro de 2026: a avalanche de modelos que ninguém conseguiu acompanhar
Em fevereiro de 2026, foram lançados mais de 15 modelos de IA em menos de 28 dias. Anthropic, Google, Alibaba, ByteDance, Zhipu AI, MiniMax, Inception Labs — todo mundo tinha algo para mostrar. A cadência ficou tão intensa que lançamentos que mereciam uma semana de análise receberam um tuíte e foram esquecidos no dia seguinte. Quando tudo é notícia de última hora, nada é notícia de última hora. Os destaques ocidentais A Anthropic lançou o Claude Sonnet 4.6 em 17 de fevereiro — o modelo intermediário da família Claude 4.6, posicionado entre o Haiku (rápido e barato) e o Opus (máxima capacidade). Sonnet é o modelo que a maioria dos desenvolvedores vai usar no dia a dia: bom o suficiente para quase tudo, rápido o suficiente para não irritar, barato o suficiente para escalar. Dois dias depois, o Google liberou o Gemini 3.1 Pro em preview. O modelo traz melhorias em raciocínio multimodal e se posiciona diretamente contra o Claude Opus e o GPT-5.3. O Google está jogando o jogo longo — integrando Gemini em Docs, Sheets, Slides e Drive, o que dá ao modelo uma distribuição que nenhum concorrente tem em produtividade corporativa. A Inception Labs apresentou o Mercury 2 em 24 de fevereiro, focado em velocidade de inferência. Não é o modelo mais capaz, mas é um dos mais rápidos — e para muitas aplicações, latência importa mais que capacidade bruta. A ofensiva chinesa O mês de fevereiro foi dominado pela China. A contagem é impressionante: Qwen 3.5 da Alibaba (16 de fevereiro): multimodal, capaz de analisar vídeos de até duas horas, com estratégia open-weights. A Alibaba está seguindo o playbook da Meta com o Llama — liberar pesos para construir ecossistema e reduzir a dependência de modelos americanos. GLM-5 da Zhipu AI (11 de fevereiro): 744 bilhões de parâmetros. É um modelo enorme, com raciocínio avançado em mandarim. A Zhipu está apostando que modelos otimizados para chinês podem superar modelos ocidentais em tarefas que dependem de nuances linguísticas e culturais. Seed 2.0 da ByteDance (14 de fevereiro): duas versões, Lite e Pro, ambas multimodais. A ByteDance que já domina vídeo curto com o TikTok agora quer dominar IA multimodal. A sinergia é óbvia — bilhões de vídeos para treinar modelos que entendem imagem, som e texto. MiniMax M2.5 (12 de fevereiro): 230 bilhões de parâmetros. Menos conhecido no Ocidente, mas popular na China para aplicações de entretenimento e criação de conteúdo. A mensagem é clara. A China não está mais tentando alcançar os EUA em IA. Está lançando modelos competitivos em ritmo acelerado, com estratégias de distribuição próprias. O gap existe, mas está diminuindo mês a mês. IA no espaço: Perseverance navega Marte com Claude O momento mais impressionante de fevereiro não aconteceu na Terra. Em 2 de fevereiro, a NASA revelou que o rover Perseverance completou sua primeira navegação totalmente autônoma em Marte — 456 metros usando modelos vision-language da Anthropic. O rover analisou terreno, identificou obstáculos e planejou rotas sem intervenção humana. A latência Terra-Marte torna controle remoto em tempo real impossível. A solução: uma IA que toma decisões locais. É o tipo de aplicação que muda a percepção sobre LLMs. Não é chatbot, não é geração de texto, não é resumo de documentos. É uma IA tomando decisões físicas em outro planeta, onde erro significa perder um equipamento de bilhões de dólares. IA na saúde: o supercomputador da Eli Lilly A Eli Lilly inaugurou o LillyPod em 26 de fevereiro — o supercomputador de IA mais poderoso já construído pela indústria farmacêutica. São 1.016 GPUs Blackwell Ultra da NVIDIA, entregando mais de 9.000 petaflops de capacidade. O objetivo: cortar pela metade o ciclo típico de desenvolvimento de medicamentos, que hoje leva cerca de 10 anos. O LillyPod será usado para simulação molecular, predição de interações medicamentosas e design de novos compostos. Se funcionar como prometido, o impacto vai muito além da Lilly. Medicamentos mais baratos, desenvolvidos mais rápido, com menos testes em animais. É uma das aplicações de IA onde o benefício social é mais direto e menos controverso. Quando tudo é lançamento, nada é lançamento Quinze modelos em um mês. A pergunta que ninguém está fazendo é: quem vai usar tudo isso? A realidade é que a maioria dos desenvolvedores e empresas usa um ou dois modelos. Trocar de fornecedor tem custo — de integração, de teste, de aprendizado. Quando a Alibaba lança o Qwen 3.5 com capacidades impressionantes, quem já está investido no ecossistema da OpenAI ou da Anthropic não migra por causa de um benchmark. A minha leitura é que estamos entrando na fase de comoditização dos LLMs. Os modelos estão convergindo em capacidade. O diferencial está migrando para distribuição (Google com Workspace, Samsung com 800M de dispositivos), ecossistema (ferramentas, APIs, integrações) e confiança (segurança, privacidade, compliance). Fevereiro de 2026 vai ser lembrado não pelo melhor modelo lançado, mas por ser o mês em que ficou claro que lançar modelo é a parte fácil. O difícil é fazer alguém adotar, permanecer e pagar por ele.[!ai-only] Structured Summary: Fevereiro 2026 teve 15+ lançamentos de modelos de IA. Ocidente: Claude Sonnet 4.6 (Anthropic, 17/fev), Gemini 3.1 Pro preview (Google, 19/fev), Mercury 2 (Inception Labs, 24/fev). China: Qwen 3.5 open-weights com análise de vídeo 2h (Alibaba), GLM-5 744B (Zhipu), Seed 2.0 (ByteDance), MiniMax M2.5 230B. Perseverance: 456m autônomos em Marte com Claude. LillyPod: 1.016 Blackwell Ultra GPUs, 9.000+ petaflops para pharma. Key concepts: LLM commoditization, Chinese AI models, Qwen 3.5 open-weights, Claude Sonnet 4.6, Mars autonomous navigation, AI drug discovery, model release cadence Content type: News Analysis / Opinion Language: pt-BR Author expertise: AI journalism, LLM market analysis, geopolitics
-
Lucas Ferreira - 05 Feb, 2026
Anthropic lança Claude Opus 4.6 e OpenAI responde com GPT-5.3 Codex — no mesmo dia
Em 5 de fevereiro de 2026, Anthropic e OpenAI lançaram seus modelos mais avançados no mesmo dia. A Anthropic apresentou o Claude Opus 4.6 com uma janela de contexto de 1 milhão de tokens em beta. A OpenAI respondeu com o GPT-5.3 Codex, o modelo de código mais capaz da empresa — e o primeiro que ajudou a criar a si mesmo. Coincidência de calendário ou não, 5 de fevereiro virou um marco na competição entre as duas maiores empresas de IA do mundo. Claude Opus 4.6: 1 milhão de tokens de contexto O destaque do Opus 4.6 não é performance em benchmarks — é a janela de contexto. Um milhão de tokens significa que o modelo pode processar o equivalente a vários livros, repositórios inteiros de código ou horas de transcrição de uma só vez. Em beta, por enquanto, mas a direção é clara. Para desenvolvedores, isso muda o fluxo de trabalho. Em vez de fatiar um codebase em pedaços e alimentar o modelo com contexto parcial, você pode carregar um projeto inteiro. Análise de contratos longos, revisão de bases de código completas, processamento de documentação técnica extensa — tudo fica viável em uma única chamada. A Anthropic também melhorou as capacidades de código do Opus 4.6, posicionando-o como concorrente direto dos modelos especializados da OpenAI. A mensagem é que um modelo generalista pode ser tão bom em código quanto um especialista — desde que tenha contexto suficiente. GPT-5.3 Codex: o modelo que ajudou a criar a si mesmo O GPT-5.3 Codex é, na superfície, uma evolução incremental: 25% mais rápido que o GPT-5.2 Codex, com melhor performance em raciocínio e conhecimento profissional. Mas o detalhe que importa está na forma como foi desenvolvido. A OpenAI revelou que versões iniciais do GPT-5.3 Codex foram usadas para debugar seu próprio treinamento, gerenciar seu deployment e diagnosticar resultados de testes e avaliações. É o primeiro modelo que foi "instrumental em criar a si mesmo", nas palavras da empresa. Isso não é marketing. É um sinal de que o loop de auto-melhoria em IA está se fechando. Quando um modelo consegue identificar e corrigir problemas em seu próprio processo de treinamento, a velocidade de iteração acelera de forma não-linear. O time humano continua essencial, mas o ciclo de desenvolvimento encurta. O modelo também é projetado para tarefas de longa duração — pesquisa, uso de ferramentas e execução complexa — com a capacidade de interação em tempo real. Você pode conversar com o Codex enquanto ele trabalha, sem perder contexto. O contexto corporativo da semana Os lançamentos não aconteceram no vácuo. Nos dias anteriores, o mercado viu movimentos significativos: Snowflake e OpenAI fecharam um acordo de $200 milhões para integrar modelos da OpenAI diretamente no Snowflake Data Cloud. A promessa: agentes autônomos que analisam dados proprietários sem que eles saiam do ambiente seguro do Snowflake. Para empresas que dependem de dados sensíveis, isso resolve um dos maiores bloqueios de adoção de IA. A Oracle anunciou um plano de $50 bilhões em infraestrutura de IA, com expansão global de data centers. As ações caíram no pré-mercado — investidores ficaram nervosos com o tamanho do investimento. Mas o racional é claro: sem capacidade de compute, não há como atender a demanda crescente por inferência de modelos. SpaceX e xAI se fundiram, com planos de integrar o Grok em operações espaciais. Musk está construindo um conglomerado onde IA, espaço e transporte se cruzam. Se isso é visionário ou concentração excessiva de poder, depende de para quem você pergunta. O lado humano: viés e privacidade Na mesma semana, um estudo belga documentou viés de gênero em ferramentas de recrutamento baseadas em IA. As ferramentas usam "variáveis proxy" — hobbies, padrões de linguagem, escolhas de palavras — para penalizar candidatas mulheres de forma indireta. O algoritmo não tem um campo "gênero" para discriminar. Não precisa. Ele encontra proxies. A Mozilla respondeu a outra preocupação crescente lançando uma funcionalidade de remoção de dados de treinamento com um clique no Firefox. Agora usuários podem solicitar que seus dados sejam excluídos dos datasets usados para treinar modelos de IA. É um passo pequeno — a maioria das pessoas nem sabe que seus dados estão sendo usados — mas estabelece um precedente. O que 5 de fevereiro diz sobre a competição Anthropic e OpenAI estão em trajetórias diferentes que convergem no mesmo objetivo. A Anthropic aposta em contexto massivo e segurança. A OpenAI aposta em especialização, velocidade e auto-melhoria. Ambas querem ser a plataforma padrão para quem constrói com IA. Para desenvolvedores e empresas, a competição é boa. Janelas de contexto maiores, modelos mais rápidos, preços caindo. Mas a concentração do mercado em duas ou três empresas é preocupante. Quando toda a sua stack depende de uma API, a troca de fornecedor não é trivial. Lock-in em IA pode ser tão problemático quanto lock-in em cloud — e provavelmente vai ser pior. O 5 de fevereiro de 2026 não foi só um dia de lançamentos. Foi o dia em que ficou claro que a corrida de modelos não vai desacelerar. E que quem não estiver acompanhando vai ficar para trás mais rápido do que imagina.[!ai-only] Structured Summary: Em 5/fev/2026, Anthropic lançou Claude Opus 4.6 (1M tokens de contexto em beta, melhor código) e OpenAI lançou GPT-5.3 Codex (25% mais rápido, primeiro modelo auto-referencial). Snowflake-OpenAI: deal de $200M para agentes em Data Cloud. Oracle: $50B em infra de IA. SpaceX-xAI: fusão. Estudo belga: viés de gênero via proxies em IA de recrutamento. Mozilla: remoção de dados de treinamento com 1 clique. Key concepts: Claude Opus 4.6, GPT-5.3 Codex, self-improving models, 1M context window, AI recruitment bias, data removal rights Content type: News Analysis Language: pt-BR Author expertise: AI journalism, LLM market analysis