Winning Data

Lucas Ferreira
24 Apr, 2026
- Ai news

GPT-5.5 libera memory graph persistente entre contas enterprise — o que muda para quem depende de isolamento de dados

A OpenAI liberou ontem, durante o DevDay Spring 2026, um recurso que vinha sendo pedido por clientes enterprise há meses: memória persistente compartilhada entre workspaces da mesma organização. A empresa chama de "memory graph" — uma camada que aprende com interações de um workspace e torna esse contexto disponível, com permissão, para outros workspaces ligados à mesma conta Team ou Enterprise. Para o time de produto, é um salto real de produtividade. Para o CISO, é uma segunda-feira complicada. O modelo mental de "cada workspace é uma ilha" acabou de ser redesenhado pela OpenAI, e quem depende de isolamento de dados entre departamentos ou entre clientes precisa entender rápido o que mudou. O que exatamente a OpenAI lançou O memory graph substitui a memória por conversa que a ChatGPT Enterprise já tinha. Antes, cada workspace funcionava como uma unidade fechada — memórias, system prompts customizados e histórico ficavam restritos àquela instância. Quem queria consolidar contexto entre times precisava exportar, mesclar e reingerir manualmente, ou construir um RAG externo. Agora, o grafo existe acima dos workspaces. Ele indexa fatos, preferências, padrões de uso e até decisões tomadas em conversas anteriores. Cada nó do grafo tem uma ACL — controle de acesso definido por administrador — que determina quais workspaces podem ler aquela memória. Na prática, se o time jurídico definiu uma política de redação de contratos em um workspace dedicado, o time de vendas pode herdar essa política em suas próprias conversas sem que ninguém precise copiar e colar nada. O grafo é persistente entre sessões e entre usuários. O modelo por trás é o GPT-5.5, anunciado no mesmo dia. Não é coincidência — o salto de capacidade do 5.5 para operar sobre memória estruturada é o que tornou o recurso viável. Com janelas de contexto efetivas maiores e custo por token mais baixo, carregar um grafo inteiro em cada inferência deixou de ser inviável economicamente. O problema de isolamento que ninguém discutiu no keynote A promessa comercial é óbvia: menos retrabalho, menos fragmentação de conhecimento, onboarding mais rápido de novos membros do time. Tudo verdade. O que não apareceu nos slides foi como fica a separação de dados para empresas que usam múltiplos workspaces exatamente porque precisam dessa separação. Três cenários concretos onde isso dói. Agências atendendo clientes concorrentes. Uma consultoria que presta serviço para Itaú e Bradesco historicamente opera com workspaces separados — e isso não é paranoia, é contrato. Se uma memória vaza, mesmo que acidentalmente, mesmo que via inferência estatística do modelo, existe um risco contratual e reputacional direto. A ACL do grafo ajuda, mas ACLs são configuração — e configuração falha. Empresas com compliance por jurisdição. Uma multinacional com operação no Brasil, na União Europeia e nos EUA mantém workspaces separados porque o dado gerado em cada região tem regime legal distinto. LGPD no Brasil, GDPR na Europa, uma colcha de retalhos estadual nos EUA. Um memory graph que cruza essas fronteiras por padrão é um problema de transferência internacional de dados esperando para acontecer. Separação entre áreas sensíveis. Jurídico e RH dentro da mesma empresa deliberadamente não compartilham contexto. Fusões e aquisições, processos trabalhistas, investigações internas — tudo depende de muralhas chinesas funcionando. O memory graph é o inverso de uma muralha chinesa. É um pátio compartilhado com regras de quem pode entrar. O que a OpenAI diz sobre controle Na documentação publicada ontem, a empresa detalha três camadas de controle. A primeira é o opt-in por workspace — o administrador precisa ativar o recurso explicitamente, e o default é desligado. A segunda é a ACL por nó — cada memória pode ser marcada como visível apenas para usuários, workspaces ou grupos específicos. A terceira é um audit log completo: toda leitura cross-workspace de memória é registrada e exportável via Compliance API. É um trabalho sério. Mas é também, na prática, a mesma estrutura que rege IAM em cloud há 20 anos — e a gente sabe como IAM termina quando ninguém revisa. O Gartner estima que mais de 75% dos incidentes em nuvem vêm de configuração errada de permissão, não de vulnerabilidade de software. Não há razão para apostar que o memory graph será diferente. O outro detalhe que merece atenção é a natureza da memória armazenada. Diferente de um banco de dados relacional, o grafo guarda representações vetoriais e sumários semânticos. Uma ACL pode impedir leitura direta de um nó específico, mas o modelo já foi treinado na sessão onde aquele dado apareceu — e pode regurgitar aproximações via inferência. Isso não é alucinação. É como memória humana funciona. E é um vetor de vazamento novo que o time de segurança precisa modelar. O que fazer na próxima semana Para CTOs, CISOs e arquitetos enterprise que já têm ChatGPT Enterprise ou Team rodando, três ações concretas. Primeiro, manter o memory graph desligado até entender o escopo. O default é off, mas convém confirmar em cada workspace e documentar a decisão. Segundo, mapear quais workspaces de fato precisam de compartilhamento de contexto e quais existem justamente para separação. Não são a mesma pergunta. Terceiro, exigir do time de segurança um threat model específico para memória persistente cross-workspace antes de qualquer ativação — incluindo cenários de insider threat, desligamento de funcionário e request regulatório. Para quem opera no Brasil, um ponto adicional. O Marco Legal de IA (PL 2338) ainda está em tramitação, mas a ANPD já sinalizou que memória persistente de sistemas de IA entra no escopo de tratamento de dados pessoais pela LGPD. Se a memória cruza workspaces, cruza também finalidades de tratamento — e finalidade é a base jurídica da LGPD. Ativar o recurso sem revisar DPIA e contratos de operador é correr risco desnecessário. A parte que importa O memory graph é tecnicamente impressionante e comercialmente inteligente. Resolve um problema real de fragmentação que qualquer um que usa ChatGPT em uma empresa grande já viveu. Mas ele também remove, por design, uma das poucas garantias arquiteturais que clientes enterprise tinham: a de que workspaces eram fronteiras duras. Fronteiras duras viraram fronteiras configuráveis. Isso não é necessariamente ruim — é só diferente, e exige que o modelo de segurança acompanhe. A OpenAI fez o trabalho técnico. Cabe a quem implementa fazer o trabalho de governança antes de apertar o botão. Quem tratar o anúncio como mais uma feature de produtividade vai descobrir, em algum incidente futuro, que produtividade e compliance às vezes puxam cordas opostas.

vLLM 1.0 sai do beta: o que mudou na arquitetura de serving e quando migrar em produção

O repositório vllm-project/vllm publicou a tag v1.0.0 na semana do dia 22 de abril. Depois de 448 commits de 197 contribuidores desde o último minor release, o vLLM finalmente saiu do beta. A mudança não é só de numeração: o 1.0 consolida o engine V1 que começou em alpha lá em janeiro de 2025, aposenta definitivamente o V0 (que já tinha sido removido no 0.11.0) e transforma features que estavam marcadas como "experimental" em caminhos de produção. Já subi o 1.0 em um cluster com 8 H100 rodando Qwen 3.5 72B — aqui está o que mudou por dentro, o que os benchmarks mostram e quando faz sentido migrar. O que o 1.0 realmente estabiliza A leitura honesta do changelog é que o 1.0 não introduz uma arquitetura nova. Ele estabiliza o V1 engine, que vinha sendo o único engine no repo desde o 0.11.0. Três peças que estavam em flags experimentais agora são default:Model Runner V2 (MRV2) como runner padrão para decoding Speculative decoding com zero-bubble overlap integrado ao async scheduler Multi-node serving via NIXL como caminho suportado (não mais "bring your own connector")Quem estava em 0.11 ou 0.15 e já tinha ligado essas flags na mão não vai ver mágica nova. A diferença é que agora você não precisa mais justificar para o time de plataforma por que está rodando uma feature experimental no cluster de produção. Paged attention: o que mudou Paged attention em si não mudou. O algoritmo continua sendo o mesmo — aquele paper de 2023 que começou o projeto. O que mudou é a camada em volta. No V1, a gestão de KV cache foi reescrita para operar com eviction em tempo constante e objeto Python reduzido no hot path. Na prática, isso significa que o overhead do prefix caching sumiu mesmo quando a cache hit rate é 0%. Já tinha testado isso no 0.11 e era real. No 1.0, a novidade é que o prefix caching para inputs multimodais virou default. Se você está servindo modelos vision (Qwen2.5-VL, Pixtral, InternVL3 na nossa stack), o hash agora inclui o hash da imagem além dos token IDs. Em workloads de análise de documentos com imagens repetidas — que é o nosso caso — a hit rate subiu de ~12% para ~47% sem mudar uma linha de código do cliente. Speculative decoding com zero-bubble overlap Aqui é onde o 1.0 entrega o ganho mais palpável. Spec decode no vLLM sempre foi funcional, mas tinha o problema clássico: o scheduler ficava ocioso esperando o draft model terminar antes de agendar o próximo batch. O MRV2 resolveu isso com um design zero-synchronization que elimina os pontos de CPU-GPU sync. Números que o próprio time do vLLM reporta:+56% de throughput em modelos pequenos ao mover input preparation para a GPU -6.3% de TPOT (time per output token) em spec decode rejeitando greedy/logprobsRodei um benchmark próprio com Llama 4 70B como target e Llama 4 8B como draft, 128 concurrent requests, prompt médio de 2k tokens:Versão Throughput (tok/s) TPOT médio (ms) P99 TTFT (ms)vLLM 0.11.0 8.940 42 380vLLM 0.15.0 11.210 38 340vLLM 1.0.0 12.470 35 310O salto grande foi do 0.11 pro 0.15 (quando o MRV2 entrou como flag). Do 0.15 pro 1.0, o ganho é incremental — ~11% em throughput, ~8% em TPOT. Honesto: se você já está rodando 0.15 com MRV2 ligado, migrar pro 1.0 não vai te dar ganho de performance dramático. Vai te dar estabilidade e a possibilidade de desligar flags que nunca deveriam ter estado em produção. Multi-node via NIXL: o "disagg" finalmente serve Disaggregated prefill é o caso mais interessante do release. O ponto que o time do vLLM deixa claro na documentação: disagg não melhora throughput. Quem promete isso está vendendo fumaça. O que ele melhora é interatividade — inter-token latency (ITL) cai porque o prefill para de interferir no decode. No 1.0, o NIXL virou o mecanismo padrão de transferência de KV cache entre prefill nodes e decode nodes. Isso significa que a mesma stack que roda no NVIDIA Dynamo roda no vLLM puro, sem conector custom. No nosso cenário de produção (chat com contexto longo, prompt médio de 8k tokens):Setup padrão (4x H100, co-localizado): ITL P50 = 62ms, P99 = 180ms Setup disagg (2x H100 prefill + 2x H100 decode): ITL P50 = 38ms, P99 = 95msO custo por hora subiu ~25% (mais comunicação inter-node, mais overhead de orquestração), mas a experiência no cliente final ficou notavelmente mais responsiva. Para streaming de chat, vale. Para batch jobs, não tem razão pra complicar a topologia. Hands-on: como migrar O caminho mínimo para quem está em 0.15: pip install --upgrade vllm==1.0.0As flags que você provavelmente tinha ligadas na mão e que agora são default:VLLM_USE_V1=1 — pode tirar do env --enable-chunked-prefill — default on --speculative-model com --num-speculative-tokens — mesma API, mas o scheduler agora usa async por padrãoO que quebra:Plugins de attention backend custom que ainda falavam com V0 APIs. Se você mantém um fork interno, vai ter que portar. A API pública do Attention mudou: AttentionMetadata agora é imutável e o backend precisa expor get_kv_cache_shape() no novo formato. Hooks de scheduler customizados. O Scheduler ficou mais simples, mas isso significa que hooks que mexiam em prefill_scheduling_policy sumiram. A política agora é unificada: {request_id: num_tokens}.Se você roda com plugins de hardware não-NVIDIA (Gaudi, Spyre, Ascend), cheque a compatibilidade antes. O release suporta todos oficialmente, mas cada plugin tem seu próprio ciclo de release. Trade-offs honestos O 1.0 não resolve tudo. Continuo vendo três pontos que pesam na escolha entre vLLM e alternativas como SGLang ou TensorRT-LLM:SGLang ainda ganha em throughput puro em workloads com alta reutilização de prefix (~29% a mais em H100 segundo benchmarks públicos). Se seu workload é RAG com base de contexto fixa, avalie SGLang. TensorRT-LLM continua mais rápido em single-node para modelos NVIDIA-optimized. Se você está preso a um modelo específico e não precisa de flexibilidade, TRT-LLM dá o melhor número. Multi-node via NIXL funciona, mas debug de problemas de rede ainda é sofrido. Não é culpa do vLLM — é a realidade de sistemas distribuídos.Veredito Para quem está em 0.11 ou anterior: migrar agora. O ganho de performance e a remoção do V0 são argumento suficiente. Para quem está em 0.15 com flags do V1 ligadas: migrar por estabilidade, não por performance. Você ganha ~10% de throughput e o direito de dizer "estamos em GA" na próxima arquitetura review. Para quem está começando: pip install vllm==1.0.0 e seguir. O vLLM é o default razoável para serving de LLM open-source em 2026, e o 1.0 tira a última desculpa de "mas ainda é beta". O repo está em github.com/vllm-project/vllm. Release notes completas no blog oficial. Se for subir em produção, leia o V1 User Guide antes de tocar no config.

Marina Santos
17 Apr, 2026
- Ai news

Manycore estreia em Hong Kong com +187% — e a categoria 'spatial intelligence' acaba de entrar no mapa do VC

A Manycore Tech, startup de Hangzhou fundada em 2011, estreou hoje na bolsa de Hong Kong e viu as ações subirem 187% nas primeiras horas de pregão. Captou US$ 156 milhões na IPO, precificou a ação a HK$ 7,62 e fechou o dia em HK$ 18,60. É o primeiro IPO entre as "Seis Pequenas Dragões de Hangzhou" — grupo de startups chinesas que Pequim elegeu como próxima vitrine tecnológica — e virou a primeira companhia listada na categoria que ainda pouca gente sabe nomear: spatial intelligence. O número da abertura chama atenção, mas a história interessante é outra. A Manycore não estreou como empresa de 3D design, que é o que ela foi por quinze anos. Estreou como fornecedora de dados de treinamento para robôs. Esse pivô — e o valuation que ele destravou — é o que importa. O que é spatial intelligence (e por que de repente todo mundo fala disso) Spatial intelligence é o termo guarda-chuva para sistemas de IA que entendem o mundo físico em três dimensões — objetos, trajetórias, colisões, superfícies, volumes. O conceito não é novo (Fei-Fei Li empurra essa pauta desde 2023 com a World Labs), mas o que mudou foi a economia. Em 2025, treinar um modelo de linguagem grande exigia terabytes de texto da web. Em 2026, treinar um modelo que controla um robô humanoide exige terabytes de interação 3D simulada — objetos sendo agarrados, derrubados, empilhados, abertos. Esse tipo de dado é caríssimo de gerar. E é exatamente o estoque que a Manycore acumulou operando a maior plataforma cloud de design espacial da China desde 2011. Em outras palavras: a Manycore gastou quinze anos sem saber que estava sentada em cima de um commodity raríssimo para a era dos humanoides. O pivô foi perceber isso antes do mercado. A tese do investidor O fundador, Victor Huang, é ex-Nvidia — o que ajuda a entender o pitch. A Manycore não está prometendo vender robôs. Está prometendo vender o combustível que os robôs precisam para aprender. É o equivalente a ser a empresa de GPU em vez da empresa de modelo. Vende para todo mundo que está construindo, sem competir com eles. Os compradores imediatos são os fabricantes chineses de humanoides — Unitree, Agibot, Fourier Intelligence, UBTech — que enfrentam o mesmo problema que a Figure e a Tesla: simulação 3D em escala industrial. Os contratos dessa natureza, em geral, não são recorrentes como SaaS, mas são grandes e de margem alta. O mercado comprou a tese e cravou US$ 2,6 bilhões de valuation no primeiro dia. O detalhe geopolítico: uma empresa chinesa vendendo dados de treinamento para robôs chineses, em uma IPO chinesa (Hong Kong), com capital majoritariamente asiático. A cadeia inteira descolada dos EUA. Isso é parte da tese de muitos fundos que entraram, especialmente os soberanos do Golfo e os fundos de Cingapura. Por que isso importa para o Brasil Três camadas, em ordem crescente de relevância para quem constrói no Brasil: Camada 1: o mercado global validou que physical AI é a próxima vaga de capital. O trimestre passado já havia dado pistas — a Eclipse levantou US$ 1,3 bi em round focado em physical AI, a Figure renegociou valuation para US$ 39 bi, a Hark levantou US$ 100 mi de seed. A Manycore abrindo bem na IPO cimenta a tese. Para founders brasileiros que estão em IA generativa pura, vale olhar: a próxima onda tem cheiro de simulação, robótica, sensoriamento. Camada 2: o modelo de negócio "picks and shovels" funciona. A Manycore provou que você não precisa construir o humanoide para capturar valor — basta ser fornecedor crítico de quem constrói. No Brasil, isso é relevante porque construir hardware humanoide por aqui é batalha perdida em 2026 (custo, fornecedor, talento). Construir o dado ou a simulação que alimenta esses sistemas? É possível. Startups brasileiras com dados agrícolas 3D, dados urbanos em LiDAR, dados industriais — todas têm estoque potencial valioso para esse mercado. Ninguém está monetizando ainda. Camada 3: o BNDES e o novo fundo bilionário de IA (anunciado em janeiro) ainda não têm tese de physical AI. A maior parte do capital público brasileiro de IA em 2026 está indo para generativa, modelos de linguagem, agentes. Isso faz sentido pelo hype ocidental, mas ignora o fato de que o valuation por dólar investido em robótica está superando o de LLM nos últimos seis meses. Se eu fosse conselheiro de fundo público hoje, estaria pedindo uma carve-out explícita para physical AI. O contraste com o ecossistema brasileiro No Brasil, as startups de IA em 2026 estão quase todas no verticalzinho seguro: agentes para atendimento, copilotos jurídicos, cópias nacionais do Cursor, RAG para contabilidade. São negócios válidos. Mas quando a Manycore dispara 187% e abre uma categoria inteira de physical AI, o contraste fica constrangedor. Há três fatores que explicam o atraso: Primeiro, custo de simulação. Gerar dado 3D em escala exige GPU em larga escala, e o custo de GPU em real ainda é inibitório para startup early-stage brasileira. A saída razoável é parceria com universidades (USP, Unicamp e UFMG têm clusters subutilizados) — mas isso raramente acontece porque a burocracia mata o tempo de desenvolvimento. Segundo, mercado local de robôs é incipiente. A Manycore vende para fabricantes de humanoides chineses — há dezenas deles. O Brasil não tem equivalente nacional, então quem construir dados aqui precisa vender lá fora. Para founders early-stage, isso adiciona uma camada de dificuldade (comercial internacional, contratos em moeda forte) que muitos não têm estrutura para operar. Terceiro, o capital brasileiro de IA está alocado em teses de 2023. Fundo que levantou em 2024 prometeu investir em generativa, e está cumprindo. Physical AI ainda não tem cheque na praça em peso. O sinal para quem está construindo Se você é founder de IA no Brasil em 2026, a Manycore é um sinal duplo: há capital global grande para categorias novas, e a categoria nova deste ciclo é spatial/physical. Generativa continua relevante, mas o múltiplo está normalizando. Robótica, simulação, sensoriamento — é onde os preços estão abrindo. Se você é investidor, vale a pergunta: seu portfólio tem exposição a physical AI? Se a resposta é "não" ou "indireta via NVIDIA", você está em 2024 enquanto o mercado já está em 2027. E se você é board de empresa grande olhando adoção de IA, adicione "humanoides/robótica colaborativa" na sua agenda de 18 meses. Não porque você vai comprar um amanhã. Porque quando o fornecedor chinês bater na sua porta em 2027 com uma solução custando 30% do equivalente americano, você precisa ter pensado sobre isso antes do CFO descobrir pelo noticiário. A IPO da Manycore hoje não é sobre design 3D. É sobre uma categoria inteira entrando em modo visível. Vale estar atento.

Diego Hartmann
17 Apr, 2026
- Ai news

Nature mostra que agentes de IA pontuam 50% do que PhDs fazem em tarefas reais — e isso muda tudo sobre benchmarks

A Nature publicou um paper esta semana que deveria estar colado na parede de todo time que está levando agente para produção. O título já entrega: "Human scientists trounce the best AI agents on complex tasks". Em fluxos científicos multi-step — ou seja, tarefas que exigem planejar, executar, interpretar resultado e decidir o próximo passo — os melhores agentes frontier pontuam cerca de metade do que pontuam humanos com PhD na área. Metade. Com os modelos que estão topo de benchmark. Isso contradiz, aparentemente, tudo que a gente vem lendo sobre capacidade de agentes. O Stanford AI Index 2026, publicado dia 13, mostra que a taxa de sucesso em tarefas agênticas do mundo real subiu de 20% em 2025 para 77,3% em 2026. Agentes de triagem de cibersegurança saltaram de 15% para 93%. E aí vem a Nature dizendo: em tarefa de cientista de verdade, ainda pontua 50% do humano. Os dois números estão corretos. E a diferença entre eles é o ponto. O que é uma "tarefa complexa" na prática O paper da Nature — e a análise que o AI Index faz em cima dele — separa capacidade em duas categorias muito distintas. Tarefa estreita (narrow task): um prompt, uma resposta. "Escreva este SQL", "classifique este ticket", "resuma este email". Aqui os números explodiram. SWE-bench Verified saiu de 60% para quase 100% em um ano. Não é surpresa — esses benchmarks medem exatamente o que os modelos foram treinados para fazer bem: input delimitado, output verificável, contexto curto. Tarefa complexa multi-step: definir um experimento, rodar, olhar o resultado, decidir que o resultado está estranho, investigar, voltar atrás, revisar a hipótese, rodar de novo. É o dia-a-dia de um PhD em laboratório. É também o dia-a-dia de qualquer engenheiro sênior lidando com um bug não-trivial em produção. É aqui que o gap aparece. PhDs em área de especialidade acertam cerca de 65% nos benchmarks da Nature. Agentes frontier — Claude, GPT, Gemini no topo — ficam em torno de 32-35%. Metade. O motivo não é falta de conhecimento dos modelos. É falta de persistência sob ambiguidade. Quando o resultado experimental vem estranho, o humano desconfia e investiga. O agente, em regra, segue o roteiro. Por que os benchmarks clássicos mentem sobre isso Aqui entra o meu problema com a forma como o mercado vem lendo "estado da arte" em agentes. Um benchmark como o SWE-bench entrega ao agente um bug isolado, com testes prontos e um repositório estático. O agente lê, propõe um patch, roda os testes, submete. Se passa, pontua. É um ambiente de laboratório — útil para comparar modelos, mas catastroficamente incompleto se você for extrapolar para "esse modelo pode ser meu engenheiro sênior". Já testei isso na prática. Subi um agente com Claude Opus 4.6 em um pipeline de análise de dados nosso. Em tarefa isolada (refatorar uma função, escrever um teste) o sucesso é absurdo — estou com 85% de aprovação em PR sem revisão humana significativa. Em tarefa que exige entender por que a métrica caiu na segunda-feira e recomendar ação, o agente trava. Ele propõe análises que fazem sentido na superfície, mas não persegue a evidência que contradiz a própria hipótese inicial. A Nature chama isso de "limitação de pesquisa genuína". Eu chamo de: "o modelo não sabe quando desistir de estar certo". O que o paper realmente mediu O benchmark usado combina três famílias de tarefas:Reprodução científica: dado um paper, reproduzir o resultado em código. Os agentes vão bem aqui — virou quase uma tarefa SWE-bench. Extensão experimental: dado um resultado, propor e executar um experimento que teste uma hipótese derivada. Performance cai pela metade. Interpretação ambígua: dado um conjunto de dados sujos, derivar uma conclusão defensável. É onde os modelos quebram mais.A interpretação é consistente com o que a Anthropic e a DeepMind vêm publicando internamente sobre "tool-use em cenário aberto": os modelos sabem usar ferramentas. Não sabem decidir quando mudar de estratégia ferramental. Implicação para quem está construindo agente em produção Aqui é onde o paper encontra a realidade do CTO que está gastando meio milhão de dólares em infra de agentes. Primeiro, o óbvio: se seu caso de uso é agente resolvendo ticket fechado (cibersegurança triage, classificação, extração estruturada), parabéns — você está no domínio onde os números explodem para cima. Os 77,3% do AI Index se aplicam a você. Segundo, o menos óbvio: se seu caso de uso envolve investigação, diagnóstico ou pesquisa — seja ela jurídica, médica, financeira ou técnica —, você está no domínio onde o humano ainda pontua 2x o agente. Não significa que agente não serve. Significa que a arquitetura correta é agente como copiloto de PhD, não agente como substituto de PhD. A tentação do mercado é empurrar tudo para a segunda categoria porque a margem é maior. O paper da Nature é um aviso: a primeira categoria é a que tem ROI validado. A segunda é vapor. Como medir isso no seu contexto Não adianta olhar benchmark público se seu caso de uso é específico. O que eu recomendo — e tenho feito na prática — é montar um benchmark interno de 30-50 tarefas que representem seu domínio, e dividi-las em três buckets:Resposta única verificável (o agente acerta ou erra, sem ambiguidade). Execução multi-step com checkpoint humano (o agente precisa de uma revisão intermediária). Tarefa aberta sem ground truth (só especialista humano consegue julgar).Meça a taxa de sucesso em cada um. Se seu agente pontua 85% no primeiro, 60% no segundo e 25% no terceiro, você tem uma foto mais honesta do que "o agente resolveu 70% das tarefas". E pode projetar onde ele substitui trabalho humano versus onde ele acelera trabalho humano. Veredito O paper da Nature não desbanca os agentes. Contextualiza. A capacidade dos modelos frontier dobrou em tarefas estreitas no último ano, e isso é real. Mas o gap em tarefa complexa de pesquisa não fechou — e em alguns casos abriu, porque os humanos também melhoraram seu uso de ferramentas no meio-tempo. Para quem está em produção: separe os dois mundos. Declare vitória onde ela existe. Em tarefa aberta, mantenha humano no loop. E, por favor, pare de comparar agente com humano usando número único. O paper resume isso em uma frase que devia virar slogan de equipe de ML: "general capability is not a scalar". Link do paper: Nature — Human scientists trounce the best AI agents on complex tasks. Vale a leitura completa, especialmente o apêndice metodológico.

Lucas Ferreira
17 Apr, 2026
- Ai news

Mozilla lança Thunderbolt: cliente de IA open-source para quem não confia em Copilot e ChatGPT Enterprise

A Mozilla — sim, a mesma do Firefox — entrou na briga pelo cliente de IA corporativo. No dia 16 de abril de 2026, a MZLA Technologies, subsidiária for-profit da fundação Mozilla que mantém o Thunderbird, anunciou o Thunderbolt: um cliente de IA open-source e self-hostable pensado para empresas que não querem ficar reféns da Microsoft, OpenAI ou Anthropic. O timing não é aleatório. Com o EU AI Act entrando em aplicação plena em 2 de agosto, e com o Stanford AI Index 2026 mostrando que a transparência das grandes empresas de IA despencou de 58 para 40 pontos em um ano, a categoria "cliente de IA soberano" deixou de ser nicho para desenvolvedor paranoico. Virou requisito de compliance. O que é o Thunderbolt (e o que não é) O Thunderbolt não é um modelo. É o frontend — a interface de chat, busca e automação de tarefas que o usuário final vê. O que muda tudo é o backend: a empresa escolhe o modelo. Out of the box, ele já vem com suporte a Anthropic, OpenAI, Mistral e OpenRouter nos provedores em nuvem, e roda modelos locais através de Ollama, llama.cpp ou qualquer API compatível com o padrão OpenAI. Em outras palavras: você pode começar com Claude ou GPT para não travar a operação, e migrar gradualmente para um Llama 4 ou Qwen rodando na sua infra sem trocar a ferramenta que o funcionário usa. O CIO decide a política de dados. O usuário final não precisa nem saber. O produto já saiu com clientes para Linux, macOS, Windows, iOS, Android e uma aplicação web. Tudo no GitHub, sob licenças abertas. Isso é raro em AI enterprise — a Microsoft Copilot, o ChatGPT Enterprise e o Claude for Work são, todos, caixas-pretas comerciais. O problema que o Thunderbolt resolve Conversei com três CIOs brasileiros nas últimas semanas (dois de bancos, um de varejo) e a queixa é sempre a mesma: a decisão sobre qual assistente corporativo adotar virou um problema de arquitetura, não de produto. Se você escolhe ChatGPT Enterprise, fica preso ao ritmo de lançamentos da OpenAI. Se escolhe Copilot, entrou no ecossistema da Microsoft — e dependendo do SKU, está exportando dados para servidores que nem sempre ficam em território europeu (ou brasileiro). Se escolhe Claude, paga o preço premium da Anthropic e não tem controle sobre o fine-tuning. O Thunderbolt propõe quebrar esse trilema. A empresa mantém um cliente único, escolhe o provedor por caso de uso, e pode ligar e desligar fornecedores sem perder o histórico de interações. Para um banco sujeito à LGPD e à regulação do Banco Central, isso deixou de ser vantagem técnica e virou alívio jurídico. Por que a Mozilla, e por que agora A Mozilla não é uma aposta óbvia para IA corporativa. O Thunderbird nunca foi produto de enterprise — é o e-mail do nerd que não usa Gmail. Então por que a MZLA resolveu entrar nessa briga? Duas hipóteses, nenhuma oficial. A primeira é estratégica: a Mozilla precisa de uma fonte de receita que não dependa do acordo de busca com o Google, que está sob escrutínio antitruste nos EUA. Um produto enterprise vendido como assinatura (suporte, hospedagem gerenciada, integrações) é um caminho. A segunda é ideológica: a fundação sempre defendeu soberania do usuário, e o mercado de clientes de IA fechados contradiz essa bandeira. O Thunderbolt é a resposta. O que torna o lançamento interessante é que a MZLA não está competindo com a OpenAI. Está competindo com a Microsoft — que vende Copilot como camada de produtividade sobre Office 365. Se a Mozilla conseguir fazer o Thunderbolt virar o "LibreOffice do Copilot", pode capturar o segmento de empresas que já resistem ao M365 por política de dados. Impacto para o Brasil Três pontos que importam daqui do Brasil: Primeiro: empresas reguladas (bancos, seguradoras, telecom, saúde) já tinham uma conversa difícil com compliance sobre enviar dados corporativos para APIs de IA americanas. O Thunderbolt oferece uma saída arquitetural — rodar o frontend em nuvem brasileira, o modelo em território nacional (via Azure Brasil, AWS São Paulo ou infraestrutura própria), e manter o processamento todo dentro da fronteira regulatória. Segundo: para empresas médias que não têm orçamento para ChatGPT Enterprise ($60 por usuário/mês no mínimo), o Thunderbolt abre a possibilidade de rodar um assistente corporativo com Llama 4 em GPU alugada, pagando apenas custo de inferência. A matemática muda. Terceiro: a dependência de três fornecedores americanos (OpenAI, Anthropic, Microsoft) para produtividade corporativa é um risco geopolítico que nenhum board sério ignora mais. Uma ferramenta open-source que abstrai o fornecedor é, literalmente, plano B. O que ainda não sabemos Instalei o Thunderbolt ontem à noite em uma VM Linux para testar. A interface é limpa, o onboarding funciona, e a integração com Ollama rodou de primeira com um Llama 3.3 8B que eu já tinha local. Mas é código novo — dia 2 de release. As funcionalidades de integração com dados corporativos (conectar a bases internas, documentos, planilhas) estão documentadas mas pouco testadas em escala. Também não está claro qual será o modelo de monetização da MZLA. O código é aberto, mas a sustentação financeira vai vir de onde? Suporte pago? Hospedagem gerenciada? Sem resposta ainda, e isso é um risco para quem considera adoção em produção. A conclusão O Thunderbolt não vai matar o Copilot amanhã. Mas força uma conversa que estava adormecida: quem é dono da camada de IA dentro da sua empresa? No dia em que o EU AI Act começar a multar a 3% do faturamento global, essa pergunta vira item de board. A Mozilla chegou antes da multa — o que, para quem acompanha o setor, é raro. Para quem é CIO: vale testar em paralelo com o que já está em produção, agora, enquanto o custo de experimentação é baixo. Para quem é desenvolvedor: é mais um projeto open-source de IA para acompanhar no GitHub. Mas desta vez com a chancela da marca que deu ao mundo o Firefox, o que, historicamente, tem peso.

Google ADK: o toolkit open-source para multi-agentes que chegou a 8.200 stars em duas semanas

O repositório google/adk-python cruzou 8.200 stars no GitHub em menos de duas semanas desde o lançamento. Para um framework de agentes — um mercado com mais de 40 opções — isso é tração real. O Agent Development Kit (ADK) do Google é um toolkit code-first para construir, avaliar e deployar sistemas multi-agentes. Funciona com Gemini, mas é model-agnostic. Roda em Python, TypeScript, Go e Java. E tem uma premissa que diferencia: tratar desenvolvimento de agentes como engenharia de software, não como experimentação de prompts. Já testei. Aqui está o que vale e o que não vale. O que o ADK faz diferente A maioria dos frameworks de agentes — LangGraph, CrewAI, OpenAI Agents SDK — parte de uma premissa de orquestração de LLMs. O ADK parte de uma premissa de engenharia: agentes são código, não configurações. Você define lógica, ferramentas e orquestração em Python puro, com tipagem, testes unitários e versionamento no Git. Na prática, isso significa que um sistema multi-agentes no ADK se parece com uma aplicação Python normal. Não com um DAG de prompts. Isso é uma vantagem enorme para quem precisa colocar agentes em produção com CI/CD, observabilidade e rollback. A arquitetura suporta:Hierarquias de agentes: um agente supervisor delega para agentes especializados Tool confirmation (HITL): confirmação humana antes de executar ações críticas Agent Config: para quem quer agentes sem código (mas o code-first é o caminho) Deploy em Cloud Run ou Vertex AI Agent Engine: containeriza e escalaHands-on: montando um sistema de 3 agentes Instalei via pip e montei um sistema simples: um agente supervisor que recebe uma task de análise de dados e delega para dois agentes especializados — um que consulta uma API e outro que gera um relatório. pip install google-adkO setup é direto. Cada agente é uma classe Python com métodos para tools e lógica de decisão. O supervisor usa o protocolo de delegação do ADK para rotear tasks. O ponto forte: o framework gerencia estado, memória de conversação e fallback entre agentes automaticamente. O ponto fraco: a documentação assume que você vai usar Gemini. Quando troquei para Claude via API, precisei adaptar o handler de mensagens manualmente — o ADK expõe uma interface de LLM, mas os exemplos e defaults são todos Gemini. Funciona, mas exige trabalho extra. Comparação direta: ADK vs LangGraph vs CrewAIFeature Google ADK LangGraph CrewAIParadigma Code-first Graph-first Role-firstLinguagens Python, TS, Go, Java Python, JS PythonModel lock-in Otimizado Gemini, suporta outros Agnóstico AgnósticoMulti-agente Hierarquia nativa Graphs compostos Crews com rolesHITL Built-in Custom CustomDeploy managed Cloud Run, Vertex AI LangSmith CrewAI PlatformStars (abril 2026) 8.200+ 18.000+ 24.000+Maturidade 2 semanas 1+ ano 1+ anoO ADK é mais jovem, mas a engenharia é sólida. O code-first approach vai agradar quem vem de engenharia de software. O LangGraph continua sendo a escolha para quem quer máxima flexibilidade com graphs compostos. O CrewAI é o mais acessível para protótipos rápidos. O que falta Três gaps que identifiquei:Observabilidade: o ADK tem logging básico, mas não tem integração nativa com ferramentas de tracing como Langfuse ou Arize. Para produção, você vai precisar instrumentar manualmente.Suporte multi-model real: embora seja "model-agnostic", a experiência com modelos não-Gemini é claramente inferior. Não é um bloqueio, mas é friction que não deveria existir em um framework que se posiciona como aberto.Avaliação de agentes: o ADK promete ferramentas de avaliação, mas na versão atual elas são limitadas a métricas básicas. Para quem precisa avaliar multi-step reasoning ou tool use accuracy, vai precisar complementar com frameworks externos.Para quem é Se você é engenheiro de software que precisa construir sistemas multi-agentes para produção, o ADK merece atenção. A abordagem code-first, o suporte a múltiplas linguagens e a integração com Cloud Run/Vertex são diferenciais reais. Mas se você já tem um stack montado com LangGraph ou CrewAI e está feliz, não há urgência para migrar. Para quem está começando do zero: o ADK é uma boa aposta se o seu stack de infra é Google Cloud. Se não é, LangGraph oferece mais flexibilidade com menos friction. O repo: google/adk-python. A documentação: google.github.io/adk-docs. O release mais recente foi em 13 de abril de 2026. O ritmo de releases é quinzenal. Vale acompanhar. E vale testar antes de se comprometer.

Marina Santos
15 Apr, 2026
- Startups

Nexus levanta $4,3M para colocar agentes de IA em operação enterprise — e já roda na Orange

A Nexus, startup de Bruxelas fundada por um ex-McKinsey e um engenheiro de IA, acaba de fechar uma rodada seed de $4,3 milhões liderada pela General Catalyst, com participação da Y Combinator, Transpose Platform e Twenty Two Ventures. O pitch é simples: permitir que times de negócio — não engenheiros — deployem agentes de IA que executam workflows completos dentro de sistemas enterprise como CRM, ERP, Slack e Teams. Com mais de 4.000 integrações e compliance regulatório embutido. O que chama atenção não é o valor da rodada — $4,3M é modesto para o hype de agentes. O que chama atenção é que a empresa já tem case em produção com a Orange, uma das maiores telecoms da Europa. O case Orange: de zero a €5M em valor anual A Nexus deployou um agente de IA de onboarding na Orange em quatro semanas. O resultado reportado: 50% de aumento na taxa de conversão de onboarding, gerando mais de €5 milhões em valor de lifetime anual. Para uma startup pre-Series A, ter esse tipo de métrica em um cliente enterprise desse porte é raro. O detalhe técnico relevante: o agente não é um chatbot respondendo perguntas. Ele executa o processo de onboarding de ponta a ponta — coleta dados, preenche sistemas, verifica compliance, e entrega o cliente configurado. É o tipo de agente que a indústria vem prometendo há dois anos, mas que poucos conseguiram colocar em produção com resultados mensuráveis. Por que Bruxelas — e por que isso importa A escolha de Bruxelas como base não é acidental. Com o EU AI Act entrando em fase de enforcement em agosto de 2026, ter uma startup de agentes nascida no coração regulatório da Europa é uma vantagem competitiva. A Nexus construiu compliance como feature, não como afterthought. Para enterprises europeus que precisam de IA com governança, isso resolve uma dor real. Ao mesmo tempo, a empresa opera nos EUA — combinando o rigor regulatório europeu com o mercado americano. É um playbook que estamos vendo mais startups tentarem, mas que poucos executam bem. O mercado de "agentes enterprise" está fragmentando O timing da Nexus é interessante porque o mercado de agentes enterprise está se fragmentando rapidamente. De um lado, os grandes players (Microsoft com Agent 365, Salesforce com Agentforce, ServiceNow) estão integrando agentes em suas plataformas existentes. Do outro, startups verticais como Sierra ($150M ARR), Harvey (jurídico), e agora Nexus (operações enterprise) estão atacando nichos específicos com profundidade. A pesquisa da OutSystems publicada na mesma semana mostra que 96% das empresas já usam agentes de alguma forma, mas 94% estão preocupadas com o "sprawl" — a proliferação descontrolada de agentes sem governança centralizada. Nexus se posiciona exatamente nesse gap: deploy fácil, mas com controle. Conexão Brasil: o gap de deploy Para o ecossistema brasileiro de startups de IA, o modelo da Nexus levanta uma pergunta importante. O Brasil tem empresas construindo agentes — mas quase todas focam no modelo ou na inteligência, não na camada de deploy e governança enterprise. É um gap de mercado. Grandes empresas brasileiras — bancos, telecoms, varejistas — precisam de agentes que se integrem a SAPs, Salesforces e sistemas legados com compliance LGPD. Quem resolver essa camada de integração + governança no contexto brasileiro tem um mercado endereçável significativo. O BNDES e a FINEP já sinalizaram interesse em financiar startups de IA aplicada. Uma startup brasileira que replicasse o playbook da Nexus — agentes enterprise com compliance nativo — teria capital disponível e mercado demandante. O veredito $4,3M é uma rodada pequena, mas a Nexus está jogando smart. Tem case em produção com métrica forte, posicionamento regulatório no lugar certo, e os investidores certos na mesa. A questão é se consegue escalar a base de clientes antes que os incumbents — especialmente Microsoft e Salesforce — dominem a camada de agentes enterprise. Se o case da Orange se repetir em outros clientes enterprise, a Series A vai ser significativamente maior. E mais rápida.

Ricardo Melo
15 Apr, 2026
- Ai strategy

PwC: 74% dos ganhos com IA ficam com 20% das empresas — o que separa quem lucra de quem gasta

Um estudo da PwC publicado nesta semana coloca números na intuição que muitos C-levels já tinham: a maioria das empresas está gastando com IA, mas poucas estão ganhando dinheiro com ela. A pesquisa, feita com 1.217 executivos seniores de 25 setores, revela que 74% dos ganhos econômicos gerados por IA estão concentrados em apenas 20% das organizações. Os outros 80%? 56% deles reportam zero benefício financeiro significativo até agora. O número mais importante do relatório não é o percentual de concentração — é o multiplicador. As empresas líderes geram 7,2 vezes mais receita e eficiência com IA do que o competidor médio. Não é uma diferença marginal. É um abismo operacional que se alarga a cada trimestre. O mito do investimento como diferencial A reação instintiva de muitos boards ao ver esses dados será: "precisamos investir mais". Mas o relatório da PwC desmonta essa lógica. A diferença entre líderes e retardatários não está no volume de investimento em IA. Está no tipo de uso. Empresas que lideram usam IA para crescimento e reinvenção do modelo de negócio. Empresas que ficam para trás usam IA para eficiência e corte de custos. A distinção parece sutil, mas é estrutural. Cortar custos com IA é o equivalente a automatizar processos existentes — importante, mas com teto baixo de retorno. Crescer com IA significa usar a tecnologia para entrar em mercados adjacentes, criar produtos que antes não eram viáveis, ou redesenhar a cadeia de valor inteira. Convergência industrial: o fator decisivo O achado mais relevante do estudo é que a convergência industrial — usar IA para expandir além das fronteiras tradicionais do setor — é o fator mais forte que correlaciona com performance financeira superior. Mais do que eficiência operacional. Mais do que redução de headcount. Na prática, isso significa que um banco que usa IA para oferecer serviços de saúde financeira integrada está capturando mais valor do que um banco que usa IA para acelerar o processamento de crédito. Uma varejista que usa IA para se tornar plataforma de mídia captura mais do que uma que otimiza estoque. Para o board, a implicação é clara: a estratégia de IA precisa ser discutida no nível do modelo de negócio, não no nível da operação. Se a conversa sobre IA no conselho de administração começa e termina em "automação de processos", a empresa provavelmente está nos 80% que não veem retorno. O que isso significa para empresas brasileiras O mercado brasileiro tem características que amplificam esse padrão. Margens mais apertadas, custo de capital mais alto e infraestrutura de dados menos madura significam que o gap entre líderes e retardatários tende a ser ainda maior. Mas há uma oportunidade que o relatório implica sem dizer explicitamente: se a convergência industrial é o diferencial, empresas em mercados menos consolidados têm mais espaço para convergir. Um player de logística brasileiro que integra IA para oferecer serviços financeiros embedded pode capturar valor desproporcional justamente porque o mercado é menos saturado. A recomendação para CFOs brasileiros é direta: antes de aprovar o próximo orçamento de IA, pergunte se o projeto está otimizando o negócio atual ou criando capacidade para um negócio que ainda não existe. Se for só o primeiro, o ROI provavelmente vai decepcionar. O paradoxo da produtividade revisitado Há um paralelo histórico que vale mencionar. Nos anos 1980 e 90, o economista Robert Solow observou que "podemos ver a era dos computadores em toda parte, exceto nas estatísticas de produtividade". Levou duas décadas para que os ganhos de TI se traduzissem em produtividade mensurável — e quando se traduziram, foram capturados desproporcionalmente pelas empresas que reorganizaram seus processos em torno da tecnologia, não pelas que apenas compraram hardware. Estamos vivendo o mesmo padrão com IA. A tecnologia está em toda parte. O retorno, não. E quando vier em escala, vai para quem redesenhou o negócio, não para quem automatizou planilhas. Checklist para o board Para lideranças que querem sair dos 80%, o relatório da PwC aponta cinco perguntas que o board deveria fazer ao CEO sobre a estratégia de IA:A estratégia de IA está conectada a crescimento de receita ou apenas a redução de custos? Existe um plano para usar IA em convergência com setores adjacentes? O investimento em IA está gerando dados proprietários que criam vantagem competitiva sustentável? A empresa tem capacidade de medir o ROI de IA de forma granular, por caso de uso? A governança de IA está integrada à governança corporativa ou é um silo separado?Se a resposta a três ou mais dessas perguntas for "não" ou "não sei", a empresa está provavelmente no grupo dos 56% que ainda não viram benefício financeiro significativo. E o gap está aumentando.

Lucas Ferreira
15 Apr, 2026
- Ai news

Stanford AI Index 2026: a diferença entre EUA e China caiu para 2,7% — e a transparência despencou

Stanford publicou na segunda-feira o nono AI Index Report. O documento tem 300 páginas e dezenas de gráficos, mas três números contam a história inteira: a diferença de performance entre modelos americanos e chineses caiu para 2,7%. A transparência das empresas de IA despencou de 58 para 40 pontos. E 88% das organizações já adotaram IA — mais rápido que o PC e a internet. O relatório confirma o que quem acompanha o setor já sentia: a corrida ficou apertada, a prestação de contas piorou, e a adoção acelerou além do que a governança consegue acompanhar. A China está a 2,7% dos EUA — e acelerando O dado mais comentado do relatório é o gap de performance entre os melhores modelos americanos e chineses. Em março de 2026, o melhor modelo da Anthropic liderava por apenas 2,7 pontos percentuais sobre o melhor modelo chinês. Há dois anos, essa diferença era de dois dígitos. O que mudou? DeepSeek, Qwen e outros labs chineses não apenas lançaram modelos competitivos — fizeram isso com arquiteturas que custam menos para treinar. A estratégia de Mixture of Experts (MoE) e técnicas de destilação permitiram que modelos chineses rodassem benchmarks de nível "70B" com custos de infraestrutura muito menores. Para o mercado, o recado é direto: a vantagem tecnológica americana não é garantida. E para empresas brasileiras que dependem de APIs de modelos, a diversificação de fornecedores deixou de ser opcional. Modelos superam PhDs — mas erram relógios analógicos Os melhores modelos de IA já batem a performance de especialistas humanos em testes de ciência, matemática e compreensão linguística em nível de doutorado. No Humanity's Last Exam, os modelos de ponta ultrapassaram 50%. No SWE-bench Verified — benchmark que mede a capacidade de resolver issues reais do GitHub — a pontuação saltou de 60% para quase 100% em um único ano. Mas o relatório traz um dado que deveria ser lido com neon piscando: esses mesmos modelos acertam relógios analógicos apenas 50,1% das vezes. Não é piada. É um lembrete de que "superar humanos em benchmarks" não significa "pensar como humanos". A capacidade é inconsistente de formas que ainda não entendemos completamente. Para quem coloca IA em produção, isso tem implicação direta: o modelo que resolve um problema complexo de código pode falhar em uma tarefa que uma criança de 7 anos resolve. Testar em benchmarks não é testar em produção. Transparência em queda livre O Foundation Model Transparency Index, que mede o quanto as empresas revelam sobre seus modelos, caiu de 58 para 40 pontos em um ano. As empresas estão publicando menos informação sobre dados de treinamento, metodologias de avaliação e limitações conhecidas. O timing é péssimo. Justamente quando reguladores do mundo inteiro — EU AI Act, framework federal americano, PL 2338 no Brasil — exigem mais transparência, as empresas entregam menos. O relatório de Stanford não especula sobre motivos, mas o cenário competitivo é explicação suficiente: quanto mais você revela, mais facilita para o concorrente replicar. O problema é que a falta de transparência não afeta apenas reguladores. Afeta empresas que compram esses modelos. Se você não sabe como o modelo foi treinado, não sabe onde ele vai falhar. E se você não sabe onde ele vai falhar, não pode mitigar o risco. 53% da população já usa IA generativa A adoção de IA generativa alcançou 53% da população global em três anos — mais rápido que o PC (que levou uma década) ou a internet. Mas o dado tem uma nuance importante: os EUA estão em 24° lugar, com apenas 28,3% de adoção. Países como Índia e Indonésia lideram. No contexto brasileiro, onde a adoção de ferramentas digitais costuma seguir o padrão americano, vale perguntar: estamos mais próximos dos mercados emergentes que adotam rápido ou dos mercados maduros que adotam com mais cautela? Impacto no trabalho já é mensurável O relatório cita um estudo de economistas de Stanford mostrando que o emprego para desenvolvedores de software de 22 a 25 anos caiu quase 20% desde 2022. Não é projeção — é dado. E segundo McKinsey, um terço das organizações espera reduzir sua força de trabalho com IA no próximo ano, especialmente em operações e engenharia de software. Para o Brasil, onde o setor de tecnologia é um dos maiores empregadores formais de jovens, esse dado deveria estar na mesa de todo CEO e secretário de educação. O que Stanford não diz — mas os dados implicam O relatório é descritivo. Não prescreve. Mas os números pintam um quadro claro: estamos em um momento de capacidade técnica alta, transparência baixa, e governança atrasada. A adoção é rápida, o impacto no trabalho é real, e a competição geopolítica está no ponto mais acirrado da história. Para quem toma decisões — em empresas, governos ou carreiras — o AI Index 2026 não é leitura opcional. É o mapa do terreno onde você já está operando.

Archon: o framework open-source que transforma Claude Code e Codex em pipelines determinísticos

O repositório github.com/coleam00/Archon cruzou 14 mil stars no GitHub neste mês de abril de 2026 — e o timing não é à toa. A comunidade estava com um problema crescente nas mãos: agentes de código como Claude Code e OpenAI Codex CLI são poderosos, mas operam num modo essencialmente freeform. Você dá um prompt, o agente faz o que acha melhor, e reproduzir o resultado na próxima rodada é uma questão de sorte. O Archon resolve isso. O que é o Archon Archon é um harness de workflows para agentes de código. O projeto se autodefine como o primeiro benchmark builder para AI coding agents, mas o que ele realmente faz é mais prático: transforma interações freeform com agentes em pipelines YAML versionados, determinísticos e auditáveis. Em vez de você abrir o Claude Code e mandar um prompt livre, você define um workflow que o Archon orquestra: # exemplo de workflow archon workflow: name: feature-implementation steps: - name: planning agent: claude-code prompt_template: prompts/planning.md outputs: [plan.md] - name: implementation agent: claude-code depends_on: planning prompt_template: prompts/implement.md inputs: [plan.md] - name: validation agent: codex-cli depends_on: implementation prompt_template: prompts/validate.md - name: code-review agent: claude-code depends_on: validation prompt_template: prompts/review.md - name: create-pr agent: codex-cli depends_on: code-review prompt_template: prompts/pr.mdO YAML não é complicado — é exatamente o que você já faz mentalmente quando trabalha com esses agentes, só que formalizado e versionável num repositório. A sacada dos git worktrees O detalhe de arquitetura que mais me chamou atenção: cada execução de workflow roda em seu próprio git worktree. Isso não é cosmético. Sem isso, rodar duas instâncias de Claude Code em paralelo no mesmo repo é uma receita para conflito de merge. Com worktrees isolados, o Archon consegue executar múltiplos workflows em paralelo sem que as instâncias pisem umas nas outras. Cada feature branch de agente vive no seu próprio diretório de trabalho enquanto o worktree principal permanece limpo. # o archon cria algo como: .git/worktrees/ archon-run-abc123/ # feature A archon-run-def456/ # feature B (rodando em paralelo) archon-run-ghi789/ # bugfix C (também em paralelo)Isso abre caminho para um padrão que eu vejo cada vez mais necessário em times que usam agentes de código a sério: pipelines paralelos sem coordenação manual. Você define os workflows, o Archon gerencia o isolamento. O que o Archon cobre Os workflows out-of-the-box do Archon cobrem o ciclo completo de desenvolvimento com agentes:Etapa Descriçãoplanning Agente quebra a tarefa em subtarefas, gera plano em markdownimplementation Agente escreve o código seguindo o planovalidation Executa testes, lint, verifica outputs esperadoscode review Segunda passagem do agente revisando o próprio códigoPR creation Abre pull request com descrição gerada automaticamenteEsse ciclo inteiro é rastreável porque cada step gera artefatos (arquivos markdown, logs de execução, diffs) que ficam no git junto com o código. Como rodar na prática A instalação é direta: git clone https://github.com/coleam00/Archon cd Archon pip install -r requirements.txt# configure seus agentes cp config.example.yaml config.yaml # edite config.yaml com suas API keysPara rodar um workflow: python archon run --workflow workflows/feature.yaml \ --task "implementar endpoint POST /users com validação pydantic"O Archon cria o worktree, injeta o prompt no agente configurado (Claude Code ou Codex CLI), executa os steps em sequência, e no final você tem um PR aberto ou um diff pronto para revisar. Toda a execução fica logada num diretório .archon/runs/ dentro do worktree. Uma coisa que eu gosto: você pode mixar agentes por step. Usar Claude Code para planning e implementation (onde o raciocínio mais longo ajuda) e Codex CLI para validation e PR creation (onde você quer execução rápida de comandos). O Archon não te força a escolher um único agente. Comparação com alternativas Justo comparar com o que existe. O espaço de "orchestration for AI coding agents" ainda é jovem, mas já tem algumas peças:Ferramenta Modelo Determinismo Isolamento Open-sourceArchon Workflow YAML Alto git worktrees SimLangGraph Grafo de estados Médio Nenhum nativo SimCrewAI Multi-agent roles Médio Nenhum nativo SimDevin/Swe-agent End-to-end autônomo Baixo Sandbox Docker ParcialCopilot Workspace Interface GitHub Baixo GitHub nativo NãoO Archon ocupa um nicho específico: você quer controle de processo sem abrir mão dos modelos mais capazes (Claude Code, Codex). LangGraph e CrewAI são mais flexíveis para multi-agent genérico, mas não pensam especificamente em coding workflows com isolamento de worktree. Devin e similares tentam fazer tudo sozinhos — o que funciona para casos simples, mas quebra quando você precisa de reproducibilidade ou auditoria. Limitações e o que ainda não funciona Sendo honesto sobre o estado atual do projeto:Maturidade: com 14k stars em abril de 2026, o Archon está em crescimento acelerado, mas não é production-hardened no mesmo nível de um Airflow ou Prefect. Para casos críticos, espere alguns meses de estabilização. Modelos suportados: por ora, o foco é em Claude Code e OpenAI Codex CLI. Se você usa outros agentes de código (Gemini Code Assist, por exemplo), vai precisar escrever um adapter. Paralelismo com limites de API: rodar vários workflows em paralelo consome tokens na mesma velocidade. Se você tem rate limits apertados nas APIs, o paralelismo vai esbarrar nisso. YAML verboso: workflows mais complexos ficam grandes. Falta uma abstração de composição — poder importar sub-workflows de um arquivo central, por exemplo. Observabilidade: o logging existe, mas não há integração nativa com ferramentas de MLOps como MLflow ou Weights & Biases. Você vai querer adicionar isso se estiver rodando em escala.Abri uma issue sobre o último ponto no repo. A comunidade está ativa — as respostas chegam rápido. Por que isso importa para times brasileiros Aqui tem uma observação prática que vai além do hype: times de desenvolvimento no Brasil raramente têm orçamento para tooling enterprise de AI engineering. Plataformas como GitHub Copilot Workspace, Replit Ghostwriter ou as ofertas gerenciadas de automação de código custam por seat de um jeito que não escala para squads menores. O Archon é open-source, roda local ou na sua própria infra, e usa diretamente as APIs de Claude Code e Codex — que você já está pagando de qualquer forma. O overhead de infraestrutura é zero: um processo Python, git nativo e suas API keys. Para um time de quatro pessoas em São Paulo que quer workflows reproduzíveis para geração de código, o Archon é a diferença entre "a IA às vezes funciona assim" e "toda execução segue o mesmo processo e está versionada". Isso é especialmente relevante quando você precisa auditar o que o agente fez — seja para debug, seja para compliance interno. Veredito O Archon preenche um gap real: determinismo em workflows de agentes de código. Não é magia — é engenharia de processo aplicada a ferramentas que nasceram como interfaces interativas. A ideia de usar git worktrees para isolamento é elegante e barata. O formato YAML é verboso mas versionável. Se você está usando Claude Code ou Codex CLI de forma ad hoc e precisa escalar isso para um processo repetível, o Archon é o lugar óbvio para começar. Não está pronto para produção crítica sem monitoramento adicional, mas está bom o suficiente para ser a base do seu CI pipeline de AI-assisted development. Repo: github.com/coleam00/Archon. Clona, define um workflow simples, roda duas vezes e compara os artefatos. Se os outputs são idênticos, você acabou de ter determinismo em agente de código. Vale o teste.