Showing Posts From

Ai agents

Nature mostra que agentes de IA pontuam 50% do que PhDs fazem em tarefas reais — e isso muda tudo sobre benchmarks

Nature mostra que agentes de IA pontuam 50% do que PhDs fazem em tarefas reais — e isso muda tudo sobre benchmarks

A Nature publicou um paper esta semana que deveria estar colado na parede de todo time que está levando agente para produção. O título já entrega: "Human scientists trounce the best AI agents on complex tasks". Em fluxos científicos multi-step — ou seja, tarefas que exigem planejar, executar, interpretar resultado e decidir o próximo passo — os melhores agentes frontier pontuam cerca de metade do que pontuam humanos com PhD na área. Metade. Com os modelos que estão topo de benchmark. Isso contradiz, aparentemente, tudo que a gente vem lendo sobre capacidade de agentes. O Stanford AI Index 2026, publicado dia 13, mostra que a taxa de sucesso em tarefas agênticas do mundo real subiu de 20% em 2025 para 77,3% em 2026. Agentes de triagem de cibersegurança saltaram de 15% para 93%. E aí vem a Nature dizendo: em tarefa de cientista de verdade, ainda pontua 50% do humano. Os dois números estão corretos. E a diferença entre eles é o ponto. O que é uma "tarefa complexa" na prática O paper da Nature — e a análise que o AI Index faz em cima dele — separa capacidade em duas categorias muito distintas. Tarefa estreita (narrow task): um prompt, uma resposta. "Escreva este SQL", "classifique este ticket", "resuma este email". Aqui os números explodiram. SWE-bench Verified saiu de 60% para quase 100% em um ano. Não é surpresa — esses benchmarks medem exatamente o que os modelos foram treinados para fazer bem: input delimitado, output verificável, contexto curto. Tarefa complexa multi-step: definir um experimento, rodar, olhar o resultado, decidir que o resultado está estranho, investigar, voltar atrás, revisar a hipótese, rodar de novo. É o dia-a-dia de um PhD em laboratório. É também o dia-a-dia de qualquer engenheiro sênior lidando com um bug não-trivial em produção. É aqui que o gap aparece. PhDs em área de especialidade acertam cerca de 65% nos benchmarks da Nature. Agentes frontier — Claude, GPT, Gemini no topo — ficam em torno de 32-35%. Metade. O motivo não é falta de conhecimento dos modelos. É falta de persistência sob ambiguidade. Quando o resultado experimental vem estranho, o humano desconfia e investiga. O agente, em regra, segue o roteiro. Por que os benchmarks clássicos mentem sobre isso Aqui entra o meu problema com a forma como o mercado vem lendo "estado da arte" em agentes. Um benchmark como o SWE-bench entrega ao agente um bug isolado, com testes prontos e um repositório estático. O agente lê, propõe um patch, roda os testes, submete. Se passa, pontua. É um ambiente de laboratório — útil para comparar modelos, mas catastroficamente incompleto se você for extrapolar para "esse modelo pode ser meu engenheiro sênior". Já testei isso na prática. Subi um agente com Claude Opus 4.6 em um pipeline de análise de dados nosso. Em tarefa isolada (refatorar uma função, escrever um teste) o sucesso é absurdo — estou com 85% de aprovação em PR sem revisão humana significativa. Em tarefa que exige entender por que a métrica caiu na segunda-feira e recomendar ação, o agente trava. Ele propõe análises que fazem sentido na superfície, mas não persegue a evidência que contradiz a própria hipótese inicial. A Nature chama isso de "limitação de pesquisa genuína". Eu chamo de: "o modelo não sabe quando desistir de estar certo". O que o paper realmente mediu O benchmark usado combina três famílias de tarefas:Reprodução científica: dado um paper, reproduzir o resultado em código. Os agentes vão bem aqui — virou quase uma tarefa SWE-bench. Extensão experimental: dado um resultado, propor e executar um experimento que teste uma hipótese derivada. Performance cai pela metade. Interpretação ambígua: dado um conjunto de dados sujos, derivar uma conclusão defensável. É onde os modelos quebram mais.A interpretação é consistente com o que a Anthropic e a DeepMind vêm publicando internamente sobre "tool-use em cenário aberto": os modelos sabem usar ferramentas. Não sabem decidir quando mudar de estratégia ferramental. Implicação para quem está construindo agente em produção Aqui é onde o paper encontra a realidade do CTO que está gastando meio milhão de dólares em infra de agentes. Primeiro, o óbvio: se seu caso de uso é agente resolvendo ticket fechado (cibersegurança triage, classificação, extração estruturada), parabéns — você está no domínio onde os números explodem para cima. Os 77,3% do AI Index se aplicam a você. Segundo, o menos óbvio: se seu caso de uso envolve investigação, diagnóstico ou pesquisa — seja ela jurídica, médica, financeira ou técnica —, você está no domínio onde o humano ainda pontua 2x o agente. Não significa que agente não serve. Significa que a arquitetura correta é agente como copiloto de PhD, não agente como substituto de PhD. A tentação do mercado é empurrar tudo para a segunda categoria porque a margem é maior. O paper da Nature é um aviso: a primeira categoria é a que tem ROI validado. A segunda é vapor. Como medir isso no seu contexto Não adianta olhar benchmark público se seu caso de uso é específico. O que eu recomendo — e tenho feito na prática — é montar um benchmark interno de 30-50 tarefas que representem seu domínio, e dividi-las em três buckets:Resposta única verificável (o agente acerta ou erra, sem ambiguidade). Execução multi-step com checkpoint humano (o agente precisa de uma revisão intermediária). Tarefa aberta sem ground truth (só especialista humano consegue julgar).Meça a taxa de sucesso em cada um. Se seu agente pontua 85% no primeiro, 60% no segundo e 25% no terceiro, você tem uma foto mais honesta do que "o agente resolveu 70% das tarefas". E pode projetar onde ele substitui trabalho humano versus onde ele acelera trabalho humano. Veredito O paper da Nature não desbanca os agentes. Contextualiza. A capacidade dos modelos frontier dobrou em tarefas estreitas no último ano, e isso é real. Mas o gap em tarefa complexa de pesquisa não fechou — e em alguns casos abriu, porque os humanos também melhoraram seu uso de ferramentas no meio-tempo. Para quem está em produção: separe os dois mundos. Declare vitória onde ela existe. Em tarefa aberta, mantenha humano no loop. E, por favor, pare de comparar agente com humano usando número único. O paper resume isso em uma frase que devia virar slogan de equipe de ML: "general capability is not a scalar". Link do paper: Nature — Human scientists trounce the best AI agents on complex tasks. Vale a leitura completa, especialmente o apêndice metodológico.

Google ADK: o toolkit open-source para multi-agentes que chegou a 8.200 stars em duas semanas

Google ADK: o toolkit open-source para multi-agentes que chegou a 8.200 stars em duas semanas

O repositório google/adk-python cruzou 8.200 stars no GitHub em menos de duas semanas desde o lançamento. Para um framework de agentes — um mercado com mais de 40 opções — isso é tração real. O Agent Development Kit (ADK) do Google é um toolkit code-first para construir, avaliar e deployar sistemas multi-agentes. Funciona com Gemini, mas é model-agnostic. Roda em Python, TypeScript, Go e Java. E tem uma premissa que diferencia: tratar desenvolvimento de agentes como engenharia de software, não como experimentação de prompts. Já testei. Aqui está o que vale e o que não vale. O que o ADK faz diferente A maioria dos frameworks de agentes — LangGraph, CrewAI, OpenAI Agents SDK — parte de uma premissa de orquestração de LLMs. O ADK parte de uma premissa de engenharia: agentes são código, não configurações. Você define lógica, ferramentas e orquestração em Python puro, com tipagem, testes unitários e versionamento no Git. Na prática, isso significa que um sistema multi-agentes no ADK se parece com uma aplicação Python normal. Não com um DAG de prompts. Isso é uma vantagem enorme para quem precisa colocar agentes em produção com CI/CD, observabilidade e rollback. A arquitetura suporta:Hierarquias de agentes: um agente supervisor delega para agentes especializados Tool confirmation (HITL): confirmação humana antes de executar ações críticas Agent Config: para quem quer agentes sem código (mas o code-first é o caminho) Deploy em Cloud Run ou Vertex AI Agent Engine: containeriza e escalaHands-on: montando um sistema de 3 agentes Instalei via pip e montei um sistema simples: um agente supervisor que recebe uma task de análise de dados e delega para dois agentes especializados — um que consulta uma API e outro que gera um relatório. pip install google-adkO setup é direto. Cada agente é uma classe Python com métodos para tools e lógica de decisão. O supervisor usa o protocolo de delegação do ADK para rotear tasks. O ponto forte: o framework gerencia estado, memória de conversação e fallback entre agentes automaticamente. O ponto fraco: a documentação assume que você vai usar Gemini. Quando troquei para Claude via API, precisei adaptar o handler de mensagens manualmente — o ADK expõe uma interface de LLM, mas os exemplos e defaults são todos Gemini. Funciona, mas exige trabalho extra. Comparação direta: ADK vs LangGraph vs CrewAIFeature Google ADK LangGraph CrewAIParadigma Code-first Graph-first Role-firstLinguagens Python, TS, Go, Java Python, JS PythonModel lock-in Otimizado Gemini, suporta outros Agnóstico AgnósticoMulti-agente Hierarquia nativa Graphs compostos Crews com rolesHITL Built-in Custom CustomDeploy managed Cloud Run, Vertex AI LangSmith CrewAI PlatformStars (abril 2026) 8.200+ 18.000+ 24.000+Maturidade 2 semanas 1+ ano 1+ anoO ADK é mais jovem, mas a engenharia é sólida. O code-first approach vai agradar quem vem de engenharia de software. O LangGraph continua sendo a escolha para quem quer máxima flexibilidade com graphs compostos. O CrewAI é o mais acessível para protótipos rápidos. O que falta Três gaps que identifiquei:Observabilidade: o ADK tem logging básico, mas não tem integração nativa com ferramentas de tracing como Langfuse ou Arize. Para produção, você vai precisar instrumentar manualmente.Suporte multi-model real: embora seja "model-agnostic", a experiência com modelos não-Gemini é claramente inferior. Não é um bloqueio, mas é friction que não deveria existir em um framework que se posiciona como aberto.Avaliação de agentes: o ADK promete ferramentas de avaliação, mas na versão atual elas são limitadas a métricas básicas. Para quem precisa avaliar multi-step reasoning ou tool use accuracy, vai precisar complementar com frameworks externos.Para quem é Se você é engenheiro de software que precisa construir sistemas multi-agentes para produção, o ADK merece atenção. A abordagem code-first, o suporte a múltiplas linguagens e a integração com Cloud Run/Vertex são diferenciais reais. Mas se você já tem um stack montado com LangGraph ou CrewAI e está feliz, não há urgência para migrar. Para quem está começando do zero: o ADK é uma boa aposta se o seu stack de infra é Google Cloud. Se não é, LangGraph oferece mais flexibilidade com menos friction. O repo: google/adk-python. A documentação: google.github.io/adk-docs. O release mais recente foi em 13 de abril de 2026. O ritmo de releases é quinzenal. Vale acompanhar. E vale testar antes de se comprometer.

Nexus levanta $4,3M para colocar agentes de IA em operação enterprise — e já roda na Orange

Nexus levanta $4,3M para colocar agentes de IA em operação enterprise — e já roda na Orange

A Nexus, startup de Bruxelas fundada por um ex-McKinsey e um engenheiro de IA, acaba de fechar uma rodada seed de $4,3 milhões liderada pela General Catalyst, com participação da Y Combinator, Transpose Platform e Twenty Two Ventures. O pitch é simples: permitir que times de negócio — não engenheiros — deployem agentes de IA que executam workflows completos dentro de sistemas enterprise como CRM, ERP, Slack e Teams. Com mais de 4.000 integrações e compliance regulatório embutido. O que chama atenção não é o valor da rodada — $4,3M é modesto para o hype de agentes. O que chama atenção é que a empresa já tem case em produção com a Orange, uma das maiores telecoms da Europa. O case Orange: de zero a €5M em valor anual A Nexus deployou um agente de IA de onboarding na Orange em quatro semanas. O resultado reportado: 50% de aumento na taxa de conversão de onboarding, gerando mais de €5 milhões em valor de lifetime anual. Para uma startup pre-Series A, ter esse tipo de métrica em um cliente enterprise desse porte é raro. O detalhe técnico relevante: o agente não é um chatbot respondendo perguntas. Ele executa o processo de onboarding de ponta a ponta — coleta dados, preenche sistemas, verifica compliance, e entrega o cliente configurado. É o tipo de agente que a indústria vem prometendo há dois anos, mas que poucos conseguiram colocar em produção com resultados mensuráveis. Por que Bruxelas — e por que isso importa A escolha de Bruxelas como base não é acidental. Com o EU AI Act entrando em fase de enforcement em agosto de 2026, ter uma startup de agentes nascida no coração regulatório da Europa é uma vantagem competitiva. A Nexus construiu compliance como feature, não como afterthought. Para enterprises europeus que precisam de IA com governança, isso resolve uma dor real. Ao mesmo tempo, a empresa opera nos EUA — combinando o rigor regulatório europeu com o mercado americano. É um playbook que estamos vendo mais startups tentarem, mas que poucos executam bem. O mercado de "agentes enterprise" está fragmentando O timing da Nexus é interessante porque o mercado de agentes enterprise está se fragmentando rapidamente. De um lado, os grandes players (Microsoft com Agent 365, Salesforce com Agentforce, ServiceNow) estão integrando agentes em suas plataformas existentes. Do outro, startups verticais como Sierra ($150M ARR), Harvey (jurídico), e agora Nexus (operações enterprise) estão atacando nichos específicos com profundidade. A pesquisa da OutSystems publicada na mesma semana mostra que 96% das empresas já usam agentes de alguma forma, mas 94% estão preocupadas com o "sprawl" — a proliferação descontrolada de agentes sem governança centralizada. Nexus se posiciona exatamente nesse gap: deploy fácil, mas com controle. Conexão Brasil: o gap de deploy Para o ecossistema brasileiro de startups de IA, o modelo da Nexus levanta uma pergunta importante. O Brasil tem empresas construindo agentes — mas quase todas focam no modelo ou na inteligência, não na camada de deploy e governança enterprise. É um gap de mercado. Grandes empresas brasileiras — bancos, telecoms, varejistas — precisam de agentes que se integrem a SAPs, Salesforces e sistemas legados com compliance LGPD. Quem resolver essa camada de integração + governança no contexto brasileiro tem um mercado endereçável significativo. O BNDES e a FINEP já sinalizaram interesse em financiar startups de IA aplicada. Uma startup brasileira que replicasse o playbook da Nexus — agentes enterprise com compliance nativo — teria capital disponível e mercado demandante. O veredito $4,3M é uma rodada pequena, mas a Nexus está jogando smart. Tem case em produção com métrica forte, posicionamento regulatório no lugar certo, e os investidores certos na mesa. A questão é se consegue escalar a base de clientes antes que os incumbents — especialmente Microsoft e Salesforce — dominem a camada de agentes enterprise. Se o case da Orange se repetir em outros clientes enterprise, a Series A vai ser significativamente maior. E mais rápida.

Archon: o framework open-source que transforma Claude Code e Codex em pipelines determinísticos

Archon: o framework open-source que transforma Claude Code e Codex em pipelines determinísticos

O repositório github.com/coleam00/Archon cruzou 14 mil stars no GitHub neste mês de abril de 2026 — e o timing não é à toa. A comunidade estava com um problema crescente nas mãos: agentes de código como Claude Code e OpenAI Codex CLI são poderosos, mas operam num modo essencialmente freeform. Você dá um prompt, o agente faz o que acha melhor, e reproduzir o resultado na próxima rodada é uma questão de sorte. O Archon resolve isso. O que é o Archon Archon é um harness de workflows para agentes de código. O projeto se autodefine como o primeiro benchmark builder para AI coding agents, mas o que ele realmente faz é mais prático: transforma interações freeform com agentes em pipelines YAML versionados, determinísticos e auditáveis. Em vez de você abrir o Claude Code e mandar um prompt livre, você define um workflow que o Archon orquestra: # exemplo de workflow archon workflow: name: feature-implementation steps: - name: planning agent: claude-code prompt_template: prompts/planning.md outputs: [plan.md] - name: implementation agent: claude-code depends_on: planning prompt_template: prompts/implement.md inputs: [plan.md] - name: validation agent: codex-cli depends_on: implementation prompt_template: prompts/validate.md - name: code-review agent: claude-code depends_on: validation prompt_template: prompts/review.md - name: create-pr agent: codex-cli depends_on: code-review prompt_template: prompts/pr.mdO YAML não é complicado — é exatamente o que você já faz mentalmente quando trabalha com esses agentes, só que formalizado e versionável num repositório. A sacada dos git worktrees O detalhe de arquitetura que mais me chamou atenção: cada execução de workflow roda em seu próprio git worktree. Isso não é cosmético. Sem isso, rodar duas instâncias de Claude Code em paralelo no mesmo repo é uma receita para conflito de merge. Com worktrees isolados, o Archon consegue executar múltiplos workflows em paralelo sem que as instâncias pisem umas nas outras. Cada feature branch de agente vive no seu próprio diretório de trabalho enquanto o worktree principal permanece limpo. # o archon cria algo como: .git/worktrees/ archon-run-abc123/ # feature A archon-run-def456/ # feature B (rodando em paralelo) archon-run-ghi789/ # bugfix C (também em paralelo)Isso abre caminho para um padrão que eu vejo cada vez mais necessário em times que usam agentes de código a sério: pipelines paralelos sem coordenação manual. Você define os workflows, o Archon gerencia o isolamento. O que o Archon cobre Os workflows out-of-the-box do Archon cobrem o ciclo completo de desenvolvimento com agentes:Etapa Descriçãoplanning Agente quebra a tarefa em subtarefas, gera plano em markdownimplementation Agente escreve o código seguindo o planovalidation Executa testes, lint, verifica outputs esperadoscode review Segunda passagem do agente revisando o próprio códigoPR creation Abre pull request com descrição gerada automaticamenteEsse ciclo inteiro é rastreável porque cada step gera artefatos (arquivos markdown, logs de execução, diffs) que ficam no git junto com o código. Como rodar na prática A instalação é direta: git clone https://github.com/coleam00/Archon cd Archon pip install -r requirements.txt# configure seus agentes cp config.example.yaml config.yaml # edite config.yaml com suas API keysPara rodar um workflow: python archon run --workflow workflows/feature.yaml \ --task "implementar endpoint POST /users com validação pydantic"O Archon cria o worktree, injeta o prompt no agente configurado (Claude Code ou Codex CLI), executa os steps em sequência, e no final você tem um PR aberto ou um diff pronto para revisar. Toda a execução fica logada num diretório .archon/runs/ dentro do worktree. Uma coisa que eu gosto: você pode mixar agentes por step. Usar Claude Code para planning e implementation (onde o raciocínio mais longo ajuda) e Codex CLI para validation e PR creation (onde você quer execução rápida de comandos). O Archon não te força a escolher um único agente. Comparação com alternativas Justo comparar com o que existe. O espaço de "orchestration for AI coding agents" ainda é jovem, mas já tem algumas peças:Ferramenta Modelo Determinismo Isolamento Open-sourceArchon Workflow YAML Alto git worktrees SimLangGraph Grafo de estados Médio Nenhum nativo SimCrewAI Multi-agent roles Médio Nenhum nativo SimDevin/Swe-agent End-to-end autônomo Baixo Sandbox Docker ParcialCopilot Workspace Interface GitHub Baixo GitHub nativo NãoO Archon ocupa um nicho específico: você quer controle de processo sem abrir mão dos modelos mais capazes (Claude Code, Codex). LangGraph e CrewAI são mais flexíveis para multi-agent genérico, mas não pensam especificamente em coding workflows com isolamento de worktree. Devin e similares tentam fazer tudo sozinhos — o que funciona para casos simples, mas quebra quando você precisa de reproducibilidade ou auditoria. Limitações e o que ainda não funciona Sendo honesto sobre o estado atual do projeto:Maturidade: com 14k stars em abril de 2026, o Archon está em crescimento acelerado, mas não é production-hardened no mesmo nível de um Airflow ou Prefect. Para casos críticos, espere alguns meses de estabilização. Modelos suportados: por ora, o foco é em Claude Code e OpenAI Codex CLI. Se você usa outros agentes de código (Gemini Code Assist, por exemplo), vai precisar escrever um adapter. Paralelismo com limites de API: rodar vários workflows em paralelo consome tokens na mesma velocidade. Se você tem rate limits apertados nas APIs, o paralelismo vai esbarrar nisso. YAML verboso: workflows mais complexos ficam grandes. Falta uma abstração de composição — poder importar sub-workflows de um arquivo central, por exemplo. Observabilidade: o logging existe, mas não há integração nativa com ferramentas de MLOps como MLflow ou Weights & Biases. Você vai querer adicionar isso se estiver rodando em escala.Abri uma issue sobre o último ponto no repo. A comunidade está ativa — as respostas chegam rápido. Por que isso importa para times brasileiros Aqui tem uma observação prática que vai além do hype: times de desenvolvimento no Brasil raramente têm orçamento para tooling enterprise de AI engineering. Plataformas como GitHub Copilot Workspace, Replit Ghostwriter ou as ofertas gerenciadas de automação de código custam por seat de um jeito que não escala para squads menores. O Archon é open-source, roda local ou na sua própria infra, e usa diretamente as APIs de Claude Code e Codex — que você já está pagando de qualquer forma. O overhead de infraestrutura é zero: um processo Python, git nativo e suas API keys. Para um time de quatro pessoas em São Paulo que quer workflows reproduzíveis para geração de código, o Archon é a diferença entre "a IA às vezes funciona assim" e "toda execução segue o mesmo processo e está versionada". Isso é especialmente relevante quando você precisa auditar o que o agente fez — seja para debug, seja para compliance interno. Veredito O Archon preenche um gap real: determinismo em workflows de agentes de código. Não é magia — é engenharia de processo aplicada a ferramentas que nasceram como interfaces interativas. A ideia de usar git worktrees para isolamento é elegante e barata. O formato YAML é verboso mas versionável. Se você está usando Claude Code ou Codex CLI de forma ad hoc e precisa escalar isso para um processo repetível, o Archon é o lugar óbvio para começar. Não está pronto para produção crítica sem monitoramento adicional, mas está bom o suficiente para ser a base do seu CI pipeline de AI-assisted development. Repo: github.com/coleam00/Archon. Clona, define um workflow simples, roda duas vezes e compara os artefatos. Se os outputs são idênticos, você acabou de ter determinismo em agente de código. Vale o teste.

MiniMax M2.7: o modelo chinês que se auto-evoluiu por 100 rounds e agora compete com GPT-5.3 Codex

MiniMax M2.7: o modelo chinês que se auto-evoluiu por 100 rounds e agora compete com GPT-5.3 Codex

56,22% no SWE-Pro. 57,0% no Terminal Bench 2. ELO de 1495 — o mais alto entre modelos open-source. A MiniMax acabou de soltar o M2.7, e o número que mais importa não está nos benchmarks: é o mecanismo que gerou esses resultados. O modelo se auto-evoluiu por mais de 100 rounds sem supervisão humana e melhorou 30% de desempenho no processo. Isso não é ajuste fino tradicional. É outra coisa. O que é o M2.7 A MiniMax é uma startup chinesa fundada em 2021 em Xangai. Menos conhecida no Ocidente do que Zhipu, Moonshot ou Alibaba, mas com um portfólio de produtos que inclui o Talkie — plataforma de personagens IA com dezenas de milhões de usuários — e o Hailuo, gerador de vídeo que competiu de frente com o Sora. A empresa captou mais de US$600 milhões e tem valuation estimado em US$2,5 bilhões. O M2.7 é um modelo Mixture of Experts (MoE) esparso com 230 bilhões de parâmetros totais. Como todo MoE bem implementado, o custo de inferência é proporcional apenas aos parâmetros ativos por forward pass — não ao total. Isso é relevante para quem vai rodar localmente ou servir via API própria. O modelo está disponível no Hugging Face e já tem suporte no Ollama para quem quer experimentar sem configurar infra. O mecanismo que importa: auto-evolução em 100 rounds Benchmarks de coding são uma coisa. O que diferencia o M2.7 é como ele chegou lá. A MiniMax desenvolveu o que chama de self-evolving scaffold: um loop autônomo onde o modelo analisa trajetórias de falha das próprias tentativas, planeja mudanças no scaffold de código que usa para resolver tarefas, implementa essas mudanças, roda avaliações e decide se mantém ou reverte cada alteração. Mais de 100 rounds desse processo, sem intervenção humana. O resultado foi uma melhoria de 30% de desempenho em relação à versão base. Para ter clareza sobre o que isso significa: não é o modelo retreinando a si mesmo — os pesos não mudam. O que evolui é a estratégia de scaffolding que o modelo usa para abordar problemas complexos de software engineering. É parecido com o que acontece quando um desenvolvedor aprende que sua abordagem de debugging estava errada e ajusta o processo — exceto que aqui o desenvolvedor é o próprio modelo e o ciclo de aprendizado é autônomo. É um sinal da direção que os agentes de código estão tomando: menos prompt engineering manual, mais auto-otimização do processo de resolução. Os benchmarks em contextoModelo SWE-Pro Terminal Bench 2 ELO GDPval-AA TipoMiniMax M2.7 56,22% 57,0% 1495 Open-sourceGPT-5.3 Codex ~56% ~57% — ProprietárioGLM-5.1 (Z.ai) 58,4% — — Open-sourceClaude Opus 4.6 — — — ProprietárioDois pontos que precisam de contexto antes de qualquer conclusão. Primeiro: o GLM-5.1, lançado pela Z.ai (braço de IA da Zhipu) no mesmo período, atingiu 58,4% no SWE-Bench Pro — superando tanto o GPT-5.4 quanto o Claude Opus 4.6. Isso significa que, na semana em que o M2.7 da MiniMax empatou com o Codex, outro lab chinês já tinha avançado além. A corrida está acelerada a um ritmo que torna qualquer SOTA obsoleto em dias. Segundo: o SWE-Pro mede a capacidade de resolver issues reais de repositórios open-source. É o benchmark mais relevante para coding agents hoje. Atingir 56% não é perfeito — significa que quase metade dos problemas reais ainda não é resolvida. Mas cruzar a linha de 50% com um modelo open-source, disponível para qualquer um rodar, é um marco qualitativo importante. A questão da licença: é realmente open-source? Aqui vale a honestidade. Há debate legítimo sobre se o M2.7 é genuinamente open-source. O modelo é disponibilizado publicamente com pesos acessíveis — o que a maioria das pessoas chama de "open-source" no contexto de IA. Mas a licença inclui restrições para uso comercial, dependendo do volume e do tipo de aplicação. O padrão da indústria é chamar isso de "open-weights" para distinguir de licenças como Apache 2.0 ou MIT. Para um desenvolvedor brasileiro que quer experimentar, fazer fine-tuning pessoal ou usar em projetos internos: sem problema. Para uma startup que quer construir um produto comercial em cima do M2.7 em escala: leia os termos com atenção antes de comprometer arquitetura. Não é diferente do que acontece com Llama, Qwen e vários outros modelos "open-source" da China e do Ocidente. Mas o detalhe importa quando você está tomando decisões de infraestrutura. China está fechando o gap — mais rápido do que parece O M2.7 não acontece no vácuo. Em menos de um semestre, labs chineses abertos entregaram:Kimi K2.5 (Moonshot AI): 1T parâmetros totais, 32B ativos, MIT, liderança em HumanEval+ GLM-5.1 (Z.ai): 58,4% SWE-Bench Pro, supera GPT-5.4 MiniMax M2.7: 56,22% SWE-Pro, auto-evolução em 100 rounds, ELO 1495 DeepSeek V4: arquitetura MoE trilionária com 37B ativosO padrão é consistente: labs chineses com menos acesso a hardware de ponta do que OpenAI, Anthropic e Google estão compensando com inovação arquitetural e de treinamento. MoE eficiente, destilação agressiva, mecanismos de auto-melhoria. A pressão das restrições de exportação americanas de chips está, paradoxalmente, acelerando a criatividade de engenharia. O gap entre modelos proprietários ocidentais e open-source de qualquer origem estava em dois anos em 2023. Hoje está em semanas, e em algumas dimensões já não existe. O que isso muda para startups e devs brasileiros A pergunta prática: o que um desenvolvedor ou startup no Brasil faz com essa informação? Para devs individuais: um coding agent de frontier-level está disponível hoje, de graça, rodando localmente. O M2.7 via Ollama, o GLM-5.1 via HuggingFace, o Kimi K2.5 quantizado numa RTX 4090. Qualquer dev com hardware razoável pode acessar capacidade que custaria centenas de dólares por mês em API proprietária. O custo de entrada para agentes de código sofisticados caiu para zero. Para startups de produto: a vantagem competitiva de APIs proprietárias está encolhendo. Uma startup que constrói um produto de coding assistance em cima do GPT-5.3 Codex paga margem para a OpenAI em cada token. Uma que constrói em cima do M2.7 ou GLM-5.1 pode rodar na própria infra, controlar os dados e reduzir custo variável drasticamente. A decisão build vs. buy vs. self-host ficou muito mais nuançada. Para quem trabalha com compliance: o fato de um modelo rodar localmente — sem dados saindo para APIs externas — é um argumento regulatório relevante. LGPD, contratos com cláusula de confidencialidade, projetos em setores regulados (saúde, financeiro, jurídico) — self-hosting de modelo aberto pode ser a única rota viável. E agora essa rota inclui modelos de capacidade comparável à fronteira. A limitação que ainda importa: modelos chineses foram otimizados para inglês e mandarim. Português é terceira ou quarta língua na melhor das hipóteses. Para tarefas de código em inglês — que é a língua do código — a capacidade é plena. Para raciocínio, redação ou análise de documentos em português brasileiro, o gap com Claude Opus e GPT ainda existe. Não é suficiente para ignorar os modelos abertos, mas é suficiente para planejar com cuidado onde cada um vai. O momento é agora O M2.7 da MiniMax representa algo além de mais um SOTA: um modelo open-source que se aprimora autonomamente, disponível publicamente, que empata com o melhor agente de código da OpenAI. Ao mesmo tempo, o GLM-5.1 já foi além. Para o ecossistema de IA no Brasil — que ainda luta para acessar modelos de frontier via API por conta de custo e latência — a janela que se abre é real e imediata. A questão não é mais "quando open-source vai ser bom o suficiente?". A questão é "quem vai construir os produtos que aproveitam o que já está disponível hoje?" A corrida não está no modelo. Está no produto. E nesse campo, a vantagem dos labs americanos não existe.

Shopify lança AI Toolkit oficial — Claude Code, Cursor e Codex agora operam lojas inteiras

Shopify lança AI Toolkit oficial — Claude Code, Cursor e Codex agora operam lojas inteiras

A Shopify entregou na última quarta-feira o que muitos desenvolvedores estavam esperando desde que agentes de IA viraram realidade: um plugin oficial que conecta ferramentas como Claude Code, Cursor e Codex diretamente à plataforma. Não é uma integração de chatbot de atendimento. É acesso real à API, à documentação viva e à capacidade de executar mudanças em lojas — tudo via linguagem natural. O Shopify AI Toolkit chegou open-source e gratuito, e muda a forma como desenvolvedores e lojistas vão trabalhar com a plataforma. O que é o Shopify AI Toolkit O toolkit é um plugin de agente de IA lançado em 9 de abril de 2026. Está disponível no GitHub sob o repositório Shopify/Shopify-AI-Toolkit e suporta Claude Code, Codex (OpenAI), Cursor, Gemini CLI e VS Code. A ideia central é simples: hoje, quando um desenvolvedor quer construir um app para Shopify ou atualizar produtos em massa, ele precisa ler a documentação, entender o schema da API, escrever o código e testar manualmente. Com o toolkit instalado, o agente de IA faz isso por ele — com acesso à documentação oficial em tempo real e validação do schema da API antes de executar qualquer chamada. São 16 arquivos de skill cobrindo partes específicas da plataforma: gestão de produtos, inventário, pedidos, clientes, temas, apps, entre outros. Cada arquivo funciona como um "manual de operações" que o agente consulta antes de agir. O que um agente consegue fazer agora A distinção importante aqui é entre assistência e execução. A maioria das integrações de IA com e-commerce ainda vive na camada de assistência — o modelo sugere, o humano clica. O Shopify AI Toolkit vai além. Com ele configurado, um desenvolvedor pode pedir ao Claude Code: "Atualize o estoque do SKU X para zero e mude a descrição de todos os produtos da coleção Verão para incluir a nova política de troca." O agente consulta o schema da API, valida os campos, e executa. Não é um mock. É a loja de verdade. Lojistas sem perfil técnico também entram na equação. A Shopify posiciona o toolkit para quem quer "construir apps, atualizar produtos, gerenciar inventário e operar a loja em inglês claro" — mas nada impede que isso funcione em português, já que os modelos suportados entendem o idioma. A instalação foi pensada para ter fricção zero. No Claude Code, dois comandos. No Cursor, um clique. Não é trivial que uma empresa do porte da Shopify priorize essa facilidade — é um sinal de que eles querem adoção rápida. Por que a Shopify fez isso agora A Shopify não está fazendo caridade. Existe uma lógica de negócio clara por trás do toolkit. O ecossistema de apps da Shopify depende de desenvolvedores. Quanto mais fácil for construir e manter apps, mais apps existem, mais valor a plataforma entrega, mais lojistas ficam. Ao tornar agentes de IA cidadãos de primeira classe na plataforma — com acesso oficial à API, documentação atualizada e schema validado — a Shopify reduz o custo de desenvolvimento de apps de forma significativa. Há também um aspecto defensivo. Concorrentes como BigCommerce e WooCommerce estão olhando para o mesmo espaço. A Shopify sai na frente com uma solução oficial e open-source, o que torna difícil para um terceiro oferecer uma integração melhor sem o acesso privilegiado que o toolkit tem. E tem o dado de mercado: a adoção de ferramentas como Cursor e Claude Code entre desenvolvedores web cresceu de forma expressiva em 2025 e 2026. Não faz sentido ignorar onde os desenvolvedores estão trabalhando. O que pode dar errado Aqui vale o ceticismo de praxe. Acesso de agentes a operações reais de loja é uma superfície de ataque nova. Um prompt mal construído, uma interpretação errada do agente, ou uma integração feita por um desenvolvedor iniciante pode resultar em mudanças indesejadas em produção — preços zerados, estoques incorretos, descrições substituídas no lugar errado. A Shopify não detalhou publicamente quais camadas de confirmação ou rollback estão disponíveis no toolkit. Também não está claro como o toolkit lida com ambiguidade. "Atualize os produtos da coleção Verão" é uma instrução simples. "Ajuste os preços para a Black Friday conforme nossa estratégia de anos anteriores" não é. A distância entre o que o lojista quer dizer e o que o agente interpreta pode ser grande. Por fim, o fato de o toolkit ser open-source é bom para transparência — mas significa que a qualidade das contribuições vai variar. Os 16 arquivos de skill iniciais foram criados pela Shopify. O que vier depois depende da comunidade. O que isso significa para desenvolvedores brasileiros O Brasil é um dos mercados que a Shopify tem mirado com mais atenção nos últimos anos. Com o crescimento do e-commerce local e a expansão de Shopify Payments no país, a base de lojistas e desenvolvedores brasileiros aumentou. O toolkit chega num momento oportuno. Para agências e freelancers que constroem soluções Shopify no Brasil, o impacto mais imediato é na velocidade de desenvolvimento. Tarefas repetitivas de configuração, migração de dados de produtos e criação de apps básicos podem ser aceleradas de forma significativa com um agente instruído via toolkit. Há também uma oportunidade para desenvolvedores com menos experiência em APIs. O toolkit abstrai boa parte da complexidade do schema da Shopify. Quem domina Claude Code ou Cursor mas ainda está aprendendo a plataforma pode chegar mais rápido a resultados funcionais. O custo de API dos modelos suportados continua sendo um fator real para quem trabalha em real. Uma sessão intensa de Claude Code para automatizar operações de loja tem um custo que não é desprezível no câmbio atual. Mas esse é um problema do ecossistema, não do toolkit em si. O ponto final O Shopify AI Toolkit não é uma feature incremental. É uma mudança de paradigma na forma como desenvolvedores vão interagir com a plataforma. A pergunta não é mais "o agente consegue entender o que eu quero fazer com minha loja?" — agora ele tem as ferramentas para executar. O que vai definir o sucesso do toolkit não é a tecnologia. É a qualidade das guardrails que a Shopify e a comunidade vão construir em torno dela. Agente com acesso a produção sem revisão humana adequada não é produtividade — é risco. Os dois podem coexistir, mas precisam ser equilibrados conscientemente. Para quem desenvolve em Shopify, o repositório Shopify/Shopify-AI-Toolkit no GitHub já está disponível. Vale explorar antes que o toolkit vire padrão de mercado — e você esteja explicando para um cliente por que ainda está fazendo na mão o que o agente do concorrente faz em dois minutos.

Okta lança 'Okta for AI Agents' — agentes como identidades de primeira classe na enterprise

Okta lança 'Okta for AI Agents' — agentes como identidades de primeira classe na enterprise

A Okta anunciou o "Okta for AI Agents", uma plataforma que trata agentes de IA como identidades de primeira classe dentro da infraestrutura corporativa. General availability previsto para 30 de abril de 2026. A proposta vai ao centro de um problema que este blog documentou na semana passada: 88% das empresas reportaram incidentes de segurança com AI agents, e a causa raiz, na maioria dos casos, é a ausência de controle de identidade e acesso. A Okta não está lançando um produto novo por oportunismo de mercado. Está respondendo a uma lacuna que se tornou insustentável. Para o C-level, o lançamento sinaliza algo mais amplo do que um produto de um vendor. Sinaliza que o mercado de IAM (Identity and Access Management) reconheceu oficialmente que agentes de IA são atores autônomos que precisam do mesmo tratamento dado a colaboradores humanos. E quando o maior player de identidade corporativa do mundo faz esse movimento, a expectativa do regulador muda junto. O que o "Okta for AI Agents" entrega A plataforma opera em quatro camadas que espelham o ciclo de vida de identidade que qualquer CISO conhece — aplicado especificamente a agentes de IA. Discovery e inventário. A Okta oferece detecção automática de agentes em operação no ambiente corporativo, incluindo shadow agents que operam sem registro formal. Cada agente identificado recebe uma identidade única no diretório corporativo, com metadados de função, owner de negócio, sistemas acessados e classificação de risco. É o passo zero que a maioria das organizações ainda não deu: saber quantos agentes existem e o que fazem. Autenticação e autorização. Agentes passam pelo mesmo fluxo de autenticação que usuários humanos — OAuth 2.0, tokens com escopo definido, rotação automática de credenciais. O princípio de menor privilégio é aplicado nativamente: o agente recebe acesso apenas ao que sua função exige, com políticas condicionais que restringem escopo por contexto, horário e sistema de destino. Credenciais compartilhadas e tokens genéricos — prática comum em 2025 — passam a ser violação de política, não atalho aceitável. Controle de acesso em tempo real. Políticas de acesso podem ser ajustadas, suspensas ou revogadas em tempo real, sem necessidade de redesenhar o agente. Se um agente apresenta comportamento anômalo ou excede o escopo de permissão, o CISO pode cortar o acesso imediatamente — da mesma forma que faria com um colaborador comprometido. A diferença é que o agente opera em velocidade de máquina, o que significa que o tempo entre detecção e resposta precisa ser igualmente rápido. Trilha de auditoria completa. Toda ação executada pelo agente é registrada com timestamp, cadeia de decisão, sistemas acessados e dados tocados. O formato é padronizado para integração com SIEMs existentes e atende aos requisitos de evidência do EU AI Act, LGPD e ISO 42001. Para organizações que enfrentarão auditoria regulatória nos próximos 12 meses, essa camada é a diferença entre demonstrar supervisão e admitir negligência. Por que agora: o contexto que forçou a mão do mercado O timing não é coincidência. Três forças convergiram para transformar identidade de agentes de IA de nice-to-have em requisito operacional. Primeiro, os incidentes. O dado de 88% de empresas com incidentes confirmados ou suspeitos envolvendo agentes não é projeção — é retrospectiva de 2025 e Q1 de 2026. Acesso não autorizado a dados, ações fora de escopo, vazamento de prompt e execução de comandos indevidos. Cada um desses incidentes seria classificado como violação de segurança se cometido por um humano. Quando cometido por um agente sem identidade, não há sequer como atribuir responsabilidade. Segundo, a regulação. O EU AI Act entra em vigor pleno em agosto de 2026. A exigência de supervisão humana sobre sistemas de IA de alto risco pressupõe que a organização sabe quais sistemas de IA operam, com que autonomia e com que controles. Sem inventário e sem auditoria, a supervisão é ficção. A LGPD, no Brasil, segue lógica similar: agente que trata dados pessoais sem controle adequado de finalidade e base legal gera obrigação de notificação à ANPD. Terceiro, a concorrência. A Microsoft anunciou o Agent 365 para 1º de maio de 2026 — uma plataforma de observabilidade e governança multi-vendor para agentes. A Exabeam lançou behavioral analytics específico para detectar anomalias em agentes de IA. O mercado está se movendo. A Okta, como líder de identidade corporativa, não podia se dar ao luxo de esperar. O que muda para quem já tem agentes em produção A recomendação aqui é direta: organizações que já operam agentes de IA em produção precisam avaliar o "Okta for AI Agents" não como produto opcional, mas como camada de infraestrutura crítica. Três razões sustentam essa posição. Retroatividade. A plataforma permite registrar e governar agentes que já estão em operação — não apenas novos deployments. Para organizações que acumularam dívida técnica de segurança ao escalar agentes sem controle, essa é a oportunidade de regularizar a postura sem desmontar o que já funciona. Interoperabilidade. A Okta já é o provedor de identidade de milhares de organizações enterprise. Integrar identidade de agentes ao mesmo diretório que gerencia identidades humanas elimina a fragmentação que torna a governança inviável. O agente existe no mesmo plano de controle que o colaborador — com as mesmas políticas, os mesmos logs e a mesma cadeia de responsabilidade. Padrão de mercado. Quando o líder de IAM define que agentes são identidades de primeira classe, isso se torna o padrão que auditores e reguladores vão cobrar. Organizações que não adotarem abordagem equivalente — seja com Okta, Microsoft ou solução própria — estarão em desvantagem na próxima auditoria de compliance. Riscos e pontos de atenção Nenhuma análise estratégica seria completa sem apontar o que ainda não está claro. Vendor lock-in. Centralizar identidade de agentes em um único provedor cria dependência. A Okta tem histórico sólido, mas também teve breaches significativos em 2023 e 2024. A decisão de confiar a camada de identidade de agentes ao mesmo provedor que gerencia identidades humanas precisa ser avaliada com o mesmo rigor de qualquer decisão de fornecedor crítico. Maturidade da solução. GA em 30 de abril significa que a plataforma terá semanas de operação em produção até que os primeiros ciclos de auditoria exijam evidências. Early adopters vão testar a robustez em cenários reais. A recomendação para organizações mais conservadoras é iniciar avaliação agora, com deployment escalonado a partir de Q3. Cobertura. A eficácia da plataforma depende da cobertura de discovery. Shadow agents que operam fora da infraestrutura monitorada — em máquinas locais, em ambientes de desenvolvimento, em SaaS não integrado — podem escapar do inventário. Discovery automático tem limites. O complemento é política organizacional que exija registro formal de todo agente antes do deployment. Recomendações práticas para o board O GA do "Okta for AI Agents" em 30 de abril cria uma janela de ação objetiva. Quatro movimentos são prioritários.Inventário imediato. Se a organização ainda não sabe quantos agentes operam e com que permissões, essa é a primeira providência. O produto da Okta oferece discovery automático, mas o exercício pode — e deve — começar antes do GA, com levantamento manual junto às equipes de engenharia e dados. Avaliação comparativa. Microsoft Agent 365 (maio 2026), Exabeam para behavioral analytics, e agora Okta para identidade nativa. O CISO precisa mapear qual solução cobre qual camada e se há sobreposição ou lacuna. A resposta não é necessariamente um único vendor — é a arquitetura que garante cobertura completa. Política de identidade para agentes. Independentemente do fornecedor escolhido, o board deve exigir que toda implantação de agente de IA siga o mesmo processo de aprovação de identidade e acesso aplicado a colaboradores humanos. Sem essa política, qualquer ferramenta é paliativo. Timeline regulatório. EU AI Act em agosto de 2026, LGPD já em vigor, PL 2338 em tramitação no Brasil. Cada mês sem governança formal de agentes é um mês de exposição acumulada. O custo de implementar controle agora é uma fração do custo de um incidente regulatório.O que está em jogo A Okta não inventou o problema. Produtizou a solução para um risco que o mercado criou ao escalar agentes de IA sem os controles que aplicaria a qualquer outro ator corporativo. O lançamento do "Okta for AI Agents" marca o momento em que identidade de agentes deixa de ser debate teórico e se torna categoria de produto enterprise com pricing, SLA e roadmap. Para o C-level, a implicação é clara: o argumento de que "ainda não existem ferramentas maduras para governar agentes" perdeu validade. Okta, Microsoft e Exabeam estão entregando essas ferramentas. A partir de maio de 2026, a ausência de governança formal sobre agentes de IA não será limitação técnica. Será escolha — e uma escolha que terá de ser explicada ao board, ao regulador e, eventualmente, ao mercado.

State of AI Agents 2026: 57% das empresas já rodam workflows multi-step — e o gargalo não é o modelo

State of AI Agents 2026: 57% das empresas já rodam workflows multi-step — e o gargalo não é o modelo

O State of AI Agents 2026, publicado pela Arcade.dev em parceria com o Google Cloud, traz um retrato que confirma o que o mercado já intuía e adiciona números que ninguém tinha: 57% das empresas já operam workflows de agentes multi-step em produção. Não pilotos. Não demos. Produção real, com dados reais, impactando receita e operação. O dado impressiona menos pelo tamanho e mais pelo que revela sobre maturidade. Há seis meses, a conversa sobre agentes de IA era dominada por provas de conceito e decks de PowerPoint. Agora, mais da metade das organizações pesquisadas cruzou a linha entre experimentação e execução. A pergunta mudou de "agentes funcionam?" para "como escalo sem quebrar o que já existe?". O que o relatório realmente diz Os números do State of AI Agents 2026 merecem contexto, porque sem ele viram manchete de press release. 57% operam workflows multi-step. Isso significa agentes que executam sequências de ações — pesquisar, processar, decidir, agir — sem intervenção humana a cada passo. Não é um chatbot respondendo perguntas. É um sistema que recebe um objetivo e percorre múltiplas etapas para atingi-lo. 16% já têm agentes cross-functional. Esses são os casos mais avançados: agentes que cruzam departamentos, acessam múltiplos sistemas e coordenam ações entre equipes. De 57% para 16% é uma queda expressiva, e ela conta uma história importante: a maioria das empresas conseguiu automatizar dentro de um domínio, mas pouquíssimas conectaram agentes entre domínios. 90% usam agentes em desenvolvimento de software. Este é provavelmente o número mais previsível do relatório. Code assistants, agentes de debugging, pipelines de CI/CD com automação inteligente — o desenvolvimento de software foi o primeiro campo de batalha dos agentes porque os engenheiros que constroem agentes são também seus primeiros usuários. 81% planejam expandir nos próximos 12 meses. Quatro em cada cinco empresas vão ampliar o uso de agentes. É um sinal forte de que quem implementou viu valor suficiente para dobrar a aposta. O gargalo que ninguém resolveu E aqui está o dado que importa mais do que todos os outros: 46% apontam integração com sistemas existentes como o principal desafio. Quase metade. Esse número é persistente. No nosso post sobre o vale da morte dos agentes, a integração com sistemas legados já aparecia como bloqueador número um. Na pesquisa da KPMG com 2.110 líderes, a complexidade de integração liderava o ranking de barreiras há dois trimestres consecutivos. Agora o State of AI Agents 2026 confirma pela terceira vez: o problema não é construir o agente. É conectá-lo ao mundo real da empresa. Um ERP de 15 anos, um CRM com APIs proprietárias, bancos de dados sem documentação, processos que vivem na cabeça de três pessoas do financeiro — esse é o terreno onde os agentes precisam operar. E nenhum modelo foundation, por mais capaz que seja, resolve isso sozinho. É por isso que a camada de integração virou a oportunidade mais clara do mercado de agentes. Empresas como Arcade.dev (que publicou o relatório, não por acaso), MuleSoft, Workato e dezenas de startups menores estão disputando esse espaço. Quem resolver a integração de forma confiável e escalável vai capturar uma fatia desproporcional do valor gerado por agentes. O contexto de mercado: dinheiro, produto e escala Os dados do relatório não existem no vácuo. O primeiro trimestre de 2026 consolidou agentes de IA como categoria de produto enterprise: O Salesforce Agentforce atingiu US$800 milhões em ARR — provando que empresas pagam por agentes quando eles se encaixam em workflows existentes. A Microsoft lançou o Agent 365, integrando agentes diretamente no ecossistema Office. A Okta criou um produto de identidade especificamente para AI Agents, reconhecendo que agentes precisam de autenticação e autorização próprias. Esses movimentos das big techs validam a categoria, mas também comprimem o espaço para startups que não encontraram seu nicho. Se Salesforce e Microsoft oferecem agentes como feature, a startup precisa ser infraestrutura, ou ser vertical o suficiente para justificar existência independente. E o Brasil? A conexão entre esses dados globais e o ecossistema brasileiro é mais direta do que parece. O número de 46% com problemas de integração é, se alguma coisa, conservador para o Brasil. Empresas brasileiras carregam mais débito técnico na média, operam com orçamentos de TI proporcionalmente menores e dependem de sistemas locais (TOTVS, Linx, sistemas legados do governo) que não têm o mesmo ecossistema de conectores e APIs das plataformas americanas. Isso cria um paradoxo interessante: a dor de integração é maior aqui, logo a oportunidade para quem resolve essa dor também é maior. Startups brasileiras que construírem conectores nativos para ERPs locais, integrações com sistemas tributários (SPED, NFe, eSocial) e camadas de orquestração que entendem a complexidade regulatória brasileira têm uma vantagem que nenhuma startup do Vale do Silício pode replicar facilmente. Já vemos sinais disso. Startups como a Nuveo e a Oncase estão explorando automação de processos com componentes de agentes. Os hubs de Recife, Florianópolis e Campinas têm times técnicos com experiência em sistemas complexos de empresas brasileiras — exatamente o tipo de conhecimento que falta em San Francisco. O dado de 90% de adoção em desenvolvimento de software também reflete no Brasil. Ferramentas como Cursor, GitHub Copilot e agentes de código já são padrão em equipes de engenharia brasileiras. A barreira de entrada caiu. O próximo passo — levar agentes para operações, financeiro, jurídico — é onde a partida real começa. O que os números não dizem O State of AI Agents 2026 é otimista por construção. É publicado por empresas que vendem infraestrutura para agentes. Isso não invalida os dados, mas exige leitura com calibração. Os 57% que "rodam workflows multi-step" incluem desde automações sofisticadas de múltiplas etapas até scripts com um LLM no meio que mal se qualificam como agentes. A definição de "multi-step" varia enormemente. Os 81% que planejam expandir podem estar planejando mover um piloto para dois pilotos — não necessariamente escalar para produção enterprise. Cruzando com os dados da KPMG (11% escalam de verdade) e o vale da morte (78% pilotam, 14% escalam), o quadro realista é: a adoção é ampla, a intenção é forte, mas a distância entre rodar um workflow e ter agentes operando como parte central do negócio ainda é enorme. A leitura que importa Três conclusões para quem acompanha este mercado: A categoria se consolidou. Agentes de IA não são mais hype de conferência. São produto, com receita, com métricas de adoção e com problemas reais de escala. O debate agora é operacional, não filosófico. Integração é o novo model training. Assim como treinar modelos era o gargalo de 2023-2024, integrar agentes com sistemas reais é o gargalo de 2026. Quem resolve isso — com plataformas, conectores, middleware — captura o valor. Brasil tem janela. A complexidade local é barreira de entrada para competidores globais e vantagem para quem entende o terreno. Startups brasileiras que posicionarem agentes como solução para dores específicas do mercado local — tributário, compliance, operações em real — têm uma tese clara de produto. Os próximos 12 meses vão separar quem realmente escalou agentes de quem apenas expandiu pilotos. Os 81% que planejam crescer vão descobrir, como 46% já sabem, que o desafio não é o modelo. É o encanamento.

88% das empresas sofreram incidentes de segurança com AI agents — e quase ninguém estava preparado

88% das empresas sofreram incidentes de segurança com AI agents — e quase ninguém estava preparado

Um survey enterprise divulgado em abril de 2026 com líderes de tecnologia de grandes organizações trouxe um dado que deveria estar na pauta de todo conselho de administração: 88% das empresas reportaram incidentes confirmados ou suspeitos envolvendo AI agents. Não se trata de falhas hipotéticas ou cenários de risco teórico. São incidentes reais — acesso não autorizado a dados, ações não intencionais executadas por agentes, vazamentos de prompt e execução de comandos indevidos. O número é alarmante não pelo volume, mas pelo que revela: a maioria das organizações escalou agentes sem o mínimo de infraestrutura de segurança que exigiria de qualquer funcionário humano. O cenário: adoção acelerada, controle ausente Os números de adoção são inequívocos. Sessenta e nove por cento das equipes de analytics já incorporaram processos baseados em IA no dia a dia. Quarenta e quatro por cento operam plataformas construídas sobre agentes autônomos. O Gartner projeta que 40% das aplicações enterprise terão AI agents task-specific até o fim de 2026 — um salto brutal considerando que esse número era inferior a 5% em 2025. A velocidade de adoção não é o problema. O problema é que a infraestrutura de segurança não acompanhou. Empresas que levariam meses para aprovar o acesso de um novo colaborador a sistemas críticos estão deployando agentes com credenciais amplas, sem inventário de permissões, sem processo de revogação e sem trilha de auditoria. O agente opera em nome da empresa — mas ninguém definiu formalmente em nome de quem, com que autoridade e até que limite. A analogia mais precisa para o board é esta: imagine contratar centenas de funcionários com acesso irrestrito a todos os sistemas da organização, sem contrato, sem política de acesso, sem registro de o que fazem durante o expediente. Nenhum CISO aprovaria isso para humanos. Mas é exatamente o que está acontecendo com agentes de IA em organizações que se consideram maduras em segurança da informação. A taxonomia dos incidentes: onde o risco se materializa Os incidentes reportados no survey seguem um padrão que qualquer profissional de segurança reconhece — são consequência direta de falhas básicas de controle de identidade e acesso. Quatro categorias concentram a maioria dos casos. Acesso não autorizado a dados. Agentes configurados com permissões excessivas acessaram bases de dados, repositórios e sistemas que estavam fora do escopo de sua função. Em muitos casos, o agente não tinha intenção maliciosa — simplesmente seguiu sua lógica de execução até dados que não deveria alcançar. A ausência de boundaries explícitos transformou um comportamento previsível do agente em um incidente de segurança. Ações não intencionais. Agentes executaram operações que não estavam no escopo pretendido — aprovações, modificações de registros, disparos de processos. Quando um agente tem capacidade de ação e permissões amplas, a margem entre o que ele deveria fazer e o que ele pode fazer é o território do incidente. E diferentemente de um humano, o agente não para para perguntar se tem certeza antes de executar. Vazamentos de prompt. Instruções internas, regras de negócio e parâmetros de decisão embutidos nos prompts dos agentes foram expostos — por manipulação direta, por falhas de isolamento ou por engenharia social aplicada ao agente. O prompt de um agente frequentemente contém lógica de negócio proprietária. Tratá-lo como informação pública é um erro de classificação que gera exposição competitiva e regulatória. Execução de comandos indevidos. Agentes com acesso a APIs e sistemas de execução realizaram operações que violaram políticas internas ou requisitos regulatórios. Desde alterações em configurações de infraestrutura até transações financeiras não autorizadas, a capacidade de execução autônoma sem guardrails adequados produziu resultados que, em contexto humano, seriam classificados como violações de compliance. O que falta: identidade, escopo e auditoria A recomendação aqui é direta: todo AI agent que opera em nome da organização precisa ser tratado com o mesmo rigor aplicado a qualquer identidade corporativa. Três pilares são inegociáveis. Identidade. Cada agente precisa de uma identidade única, registrada e gerenciada. Não é aceitável que agentes operem com credenciais compartilhadas, tokens genéricos ou acessos herdados de desenvolvedores. A identidade do agente é o que permite rastrear, auditar e responsabilizar. Sem ela, o incidente não tem dono. Escopo de permissão. O princípio do menor privilégio, que a indústria aplica a humanos há décadas, precisa ser estendido a agentes com o mesmo rigor. Um agente de atendimento ao cliente não precisa de acesso ao sistema financeiro. Um agente de análise de dados não precisa de permissão de escrita em produção. O escopo precisa ser definido antes do deploy, não depois do incidente. Trilha de auditoria. Toda ação executada por um agente precisa ser registrada, timestamped e auditável. Não apenas o resultado final, mas a cadeia de decisão: que objetivo recebeu, que dados consultou, que ações executou, que sistemas acessou. Sem essa trilha, a organização não consegue investigar incidentes, demonstrar compliance ao regulador ou aprender com falhas. O mercado começa a responder a essa lacuna. A Okta anunciou o "Okta for AI Agents", disponível a partir de 30 de abril de 2026, com um blueprint desenhado para enterprise agentico seguro — gestão de identidade, autenticação, autorização e auditoria aplicadas especificamente a agentes de IA. É um sinal de que o problema de identidade de agentes está sendo reconhecido como categoria de produto, não apenas como boa prática. Outros fornecedores seguirão. Conexão Brasil: LGPD e o risco de notificação à ANPD Para organizações que operam no Brasil, o risco regulatório tem nome e sobrenome: LGPD. Um agente de IA que acessa dados pessoais sem controle adequado de finalidade, necessidade e consentimento não é um problema técnico — é um incidente de proteção de dados que pode exigir notificação à Autoridade Nacional de Proteção de Dados. A LGPD não distingue entre humano e máquina no tratamento de dados pessoais. Se um agente acessa uma base de clientes para otimizar um processo e, no caminho, processa dados sensíveis sem base legal adequada, a organização responde. E a ANPD tem demonstrado disposição crescente para aplicar sanções. A recomendação para empresas brasileiras é tratar o inventário de agentes como extensão do mapeamento de dados pessoais exigido pela LGPD. Cada agente que toca dado pessoal precisa estar documentado no ROPA (Registro das Operações de Tratamento), com finalidade, base legal, medidas de segurança e responsável claramente definidos. Recomendações práticas para o C-level O board que deseja evitar estar entre os 88% no próximo ciclo de pesquisa precisa de ação em três frentes imediatas.Inventário de agentes. Mapear todos os agentes em operação, seus acessos, permissões e owners de negócio. Se a organização não sabe quantos agentes operam e onde, qualquer outra medida é cosmética. Framework de identidade e acesso para agentes. Aplicar o mesmo rigor de IAM (Identity and Access Management) que existe para colaboradores humanos. Identidade única, menor privilégio, revisão periódica de acessos, revogação automatizada. Auditoria contínua e resposta a incidentes. Implementar observabilidade sobre a cadeia de decisão dos agentes e incluir incidentes com agentes no playbook de resposta a incidentes de segurança. O SOC precisa saber que agentes existem e como monitorá-los.O que está em jogo O dado de 88% não é uma estatística sobre tecnologia. É uma estatística sobre governança — ou, mais precisamente, sobre a ausência dela. Organizações trataram AI agents como ferramentas de produtividade quando, na realidade, são atores autônomos que operam sistemas, acessam dados e executam decisões em nome da empresa. A janela para corrigir essa postura está aberta, mas se estreita a cada trimestre de adoção acelerada sem controle proporcional. O custo de implementar identidade, escopo e auditoria para agentes é uma fração do custo de um incidente regulatório, uma violação de dados ou uma ação não autorizada que atinge o P&L. A pergunta que todo líder precisa fazer ao seu CISO esta semana: quantos agentes operam na nossa organização, com que permissões, e quem responde quando um deles age fora do escopo? Se a resposta não vier rápida e precisa, a organização já está exposta.

KPMG ouviu 2.110 líderes: só 11% dos AI agents chegam a escala — o problema não é técnico, é de governança

KPMG ouviu 2.110 líderes: só 11% dos AI agents chegam a escala — o problema não é técnico, é de governança

A KPMG entrevistou 2.110 executivos C-suite e líderes sênior em 20 mercados — incluindo Brasil, Estados Unidos, Europa e Ásia — para o Global AI Pulse Q1 2026. O número que define o relatório é este: 78% das organizações têm pelo menos um piloto de AI agent ativo. Apenas 11% chegaram a escala enterprise-wide com resultados de negócio mensuráveis. A taxa de fracasso entre piloto e produção é de 86%. Não é um gap de tecnologia. É um gap de governança, ownership e processo operacional. O paradoxo dos US$ 186 milhões O dado mais revelador do relatório não é a taxa de fracasso — é o investimento que a acompanha. As organizações pesquisadas projetam um investimento médio de US$ 186 milhões em agentes de IA. E 88% já estão investindo ativamente. Ao mesmo tempo, apenas 24% reportam ROI mensurável em múltiplos casos de uso. A aritmética não fecha. Organizações estão alocando capital significativo em uma tecnologia que, na maioria dos casos, não conseguem escalar. O dado positivo — 74% dizem que IA entrega valor — mascara uma realidade operacional preocupante: valor em um piloto controlado não é valor em produção. E o board que aprova orçamento com base em resultado de piloto está precificando risco incorretamente. O mais relevante para o C-level: 67% dos líderes afirmam que manterão investimento em agentes mesmo em cenário de recessão. Isso demonstra convicção estratégica, mas também eleva a responsabilidade fiduciária. Investimento resiliente exige governança resiliente. Se a organização não consegue explicar por que 86% dos pilotos falham na transição para produção, manter o investimento sem corrigir os gaps operacionais é acumular exposição. Os 5 gaps que explicam 89% dos fracassos O relatório da KPMG identifica cinco gaps operacionais que, combinados, respondem por 89% dos fracassos na escalada de agentes. O dado mais persistente: pela segunda vez consecutiva, 65% dos líderes apontam a complexidade dos sistemas agenticos como a principal barreira. Dois trimestres é tempo suficiente para concluir que o problema é estrutural, não transitório. Complexidade de integração com sistemas legados. Agentes de IA não operam no vácuo. Eles precisam interagir com ERPs, CRMs, sistemas de compliance e infraestrutura que, em muitos casos, têm décadas de débito técnico acumulado. O piloto funciona porque opera em ambiente isolado. A produção exige que o agente navegue a complexidade real dos sistemas da organização — e essa complexidade não foi resolvida em nenhum roadmap de transformação anterior. Qualidade inconsistente de output em volume. Um agente que entrega 95% de precisão processando 200 solicitações por dia pode degradar significativamente quando processa 20.000. A diferença entre piloto e escala não é linear — é exponencial em termos de edge cases, variações de input e cenários que o treinamento não cobriu. Sem mecanismos de detecção de degradação em tempo real, a organização descobre o problema pelo impacto no cliente. Ausência de ferramentas de monitoramento. Monitorar se o agente está online não é monitorar o que o agente está fazendo. A maioria das organizações não possui observabilidade sobre a cadeia de decisões de seus agentes: qual objetivo recebeu, que plano traçou, que ações executou, que dados acessou. Sem esse nível de visibilidade, não há como auditar, corrigir ou demonstrar compliance. Ownership organizacional não definido. Este é o gap que merece atenção desproporcional do board. Se a pergunta "quem é dono desse agente?" não tem resposta clara na organização, nenhum dos outros gaps será resolvido. Ownership não é responsabilidade técnica do time de engenharia. É accountability de negócio — quem responde pelo resultado, pelo risco, pela conformidade regulatória e pelo impacto no P&L. Em muitas organizações, agentes vivem em uma terra de ninguém entre TI, produto e operações. E terra de ninguém não escala. Dados de domínio insuficientes para treinamento. Agentes de IA enterprise precisam de dados contextuais específicos — processos internos, terminologia da indústria, regras de negócio, histórico de decisões. O investimento em curadoria de dados de domínio é sistematicamente subestimado. Organizações que projetam US$ 186 milhões para agentes frequentemente alocam menos de 5% para preparação dos dados que esses agentes precisam para funcionar. A pergunta que o board precisa fazer A recomendação aqui é direta: antes de aprovar o próximo incremento de investimento em agentes de IA, o conselho precisa fazer uma pergunta simples — "quem é dono desse agente?" A pergunta não é retórica. Ownership implica cinco responsabilidades concretas:Resultado de negócio: o owner define e reporta as métricas de valor que o agente deve entregar Risco operacional: o owner é responsável pelo impacto quando o agente erra — inclusive impacto financeiro e reputacional Conformidade regulatória: o owner garante que o agente opera dentro dos limites da LGPD, do Marco Legal de IA (quando aprovado) e de regulações setoriais Ciclo de vida: o owner decide sobre atualização, retraining e descomissionamento — agentes sem owner se tornam ativos-fantasma que consomem recursos e acumulam risco Escalabilidade: o owner coordena a integração com sistemas legados e a preparação de dados de domínio — os dois gaps mais citados no relatórioSem owner, cada um desses pontos vira responsabilidade difusa. Responsabilidade difusa, em governança corporativa, é sinônimo de ninguém responsável. O que muda para o contexto brasileiro Para organizações brasileiras, a pesquisa da KPMG adiciona urgência a um cenário que já era desafiador. A LGPD exige explicabilidade para decisões automatizadas que afetem titulares de dados. Agentes que operam sem observabilidade de decisões criam exposição regulatória direta — a organização simplesmente não consegue explicar o que o agente decidiu ou por quê. O investimento médio projetado de US$ 186 milhões é, evidentemente, uma média global que inclui big techs e empresas Fortune 500. Empresas brasileiras operam com orçamentos proporcionalmente menores, mas a lógica é a mesma: qualquer investimento em agentes que não contemple ownership, monitoramento e preparação de dados está precificado de forma incompleta. O custo dos gaps operacionais aparece depois — em retrabalho, em incidentes, em compliance retroativo. A recomendação para CIOs e CAIOs brasileiros: incluir na próxima apresentação ao conselho um mapa de ownership dos agentes em operação ou em piloto. Se o mapa não pode ser construído em duas semanas, a organização tem um problema de governança anterior ao problema de escala. O investimento que falta não é em tecnologia O relatório da KPMG confirma um padrão que vem se consolidando ao longo de 2026: o gargalo para escalar agentes de IA não é capacidade técnica. É capacidade organizacional. Ownership, monitoramento, integração, dados — são competências de gestão, não de engenharia. As organizações que compõem os 11% que chegaram a escala com resultados mensuráveis não são necessariamente as que investiram mais. São as que investiram na infraestrutura organizacional antes de investir na infraestrutura técnica. Definiram owners. Construíram observabilidade. Prepararam dados. Endereçaram a integração com legados como projeto de negócio, não como tarefa de TI. Para os 89% restantes, a próxima reunião de conselho deveria ter um item de pauta simples: "Quantos agentes temos, quem é dono de cada um e como sabemos se estão funcionando?" Se a diretoria não consegue responder, o investimento de US$ 186 milhões tem um gap que nenhuma tecnologia vai resolver.

Accenture + Databricks: enterprise AI agents escalam 327% em 4 meses — quem está comprando e por quê

Accenture + Databricks: enterprise AI agents escalam 327% em 4 meses — quem está comprando e por quê

A Accenture anunciou em 17 de março a criação de um Business Group dedicado com a Databricks. Não é mais uma parceria de go-to-market com logo bonito no slide. É uma divisão inteira da maior consultoria do mundo alocada exclusivamente para deployar agentes de IA em clientes enterprise usando a plataforma Databricks. No mesmo período, dados de mercado mostram que multi-agent systems cresceram 327% em quatro meses no segmento corporativo. Quando a Accenture cria uma unidade de negócio dedicada a um tema, não é porque o tema é promissor — é porque os clientes já estão pedindo e pagando. E esse é o sinal mais claro de que agentes de IA saíram da fase de experimentação e entraram na fase de industrialização. O que 327% de crescimento realmente significa Vamos colocar o número em contexto. Um crescimento de 327% em multi-agent systems no enterprise em quatro meses não é adoção orgânica — é uma corrida. Empresas que tinham um piloto de agente em outubro de 2025 agora estão rodando sistemas com múltiplos agentes coordenados em produção. A diferença entre um agente e um multi-agent system é a mesma diferença entre um funcionário e uma equipe. Um agente faz uma tarefa. Um sistema multi-agente divide um processo complexo em subtarefas, distribui entre agentes especializados, coordena a execução e consolida o resultado. Supply chain, compliance, onboarding de clientes, procurement — são processos que nenhum agente único resolve bem, mas que uma orquestração de agentes pode automatizar de ponta a ponta. É isso que as empresas estão comprando. Não um chatbot. Uma força de trabalho digital que opera processos inteiros. Accenture + Databricks: consultoria vira fábrica de agentes A criação de um Business Group dedicado é um movimento que merece atenção. A Accenture faturou US$64 bilhões no ano fiscal de 2025. Quando uma empresa desse porte cria uma divisão, não é experimento — é resposta a demanda de clientes que já está no pipeline. O casamento com a Databricks faz sentido por um motivo específico: dados. Agentes de IA enterprise não funcionam sem acesso a dados internos da empresa — e a Databricks é a plataforma que mais penetrou nos data lakes corporativos nos últimos três anos. A combinação é Accenture trazendo capacidade de implementação em escala e Databricks fornecendo a camada de dados e compute que os agentes precisam para operar. Na prática, isso transforma a Accenture de consultoria que vende PoC em fábrica que produz e opera agentes em escala. É uma mudança de modelo de negócio disfarçada de parceria estratégica. Onde o budget enterprise de IA está indo em 2026 Os números contam a história. Três data points que mostram para onde o dinheiro corporativo está migrando: Salesforce: US$800M de ARR com Agentforce. Quando a Salesforce reportou esses números, o mercado prestou atenção. US$800 milhões de receita recorrente anual com uma plataforma de agentes lançada há menos de um ano. É revenue real, não pipeline. Significa que milhares de empresas estão pagando mensalmente para ter agentes operando dentro do ecossistema Salesforce — vendas, atendimento, marketing. Microsoft: 100+ agentes em supply chain. A Microsoft não está vendendo agentes como produto isolado. Está embarcando agentes dentro do Dynamics 365, do Copilot e da Azure. Mais de 100 agentes já operam em cadeias de suprimentos de clientes enterprise. Não em piloto. Em produção, tomando decisões sobre inventário, routing e procurement. Accenture: Business Group dedicado com Databricks. O terceiro ponto do triângulo. A maior consultoria do mundo dedicando uma unidade inteira para implementar agentes. Quando o integrador mais importante do enterprise monta uma fábrica de agentes, é porque a demanda já justifica a estrutura. O padrão é inequívoco. O budget de IA enterprise em 2026 está migrando de "experimentação com LLMs" para "operações com agentes". De modelos para sistemas. De PoCs para produção. O que isso diz sobre maturidade do mercado Tem um momento na adoção de qualquer tecnologia em que a conversa muda de "funciona?" para "quem implementa?". Agentes de IA enterprise acabam de cruzar esse limiar. Quando uma empresa quer colocar agentes em produção, ela precisa de três coisas: a plataforma de IA (OpenAI, Anthropic, Databricks, AWS Bedrock), os dados internos organizados e acessíveis, e alguém que faça a integração com os sistemas que já existem. Esse terceiro pedaço — a integração — é o gargalo. E exatamente o gargalo que a Accenture está montando uma divisão para resolver. E não é só a Accenture. Deloitte, McKinsey, Wipro e TCS estão todas acelerando práticas de IA agêntica. A diferença é que a Accenture foi a primeira a criar uma estrutura dedicada com um parceiro de plataforma. É sinalização de que o mercado de serviços de implementação de agentes vai ser tão grande quanto o mercado das plataformas em si. Para quem acompanha startups, a implicação é direta: o channel partner virou tão importante quanto o produto. Uma startup de agentes que não tem rota para o enterprise via integradores vai ter um teto de crescimento baixo. E integradores estão escolhendo parceiros agora. A pergunta que ninguém está fazendo Todo mundo está discutindo qual plataforma de agentes vai vencer. Databricks, Salesforce, Microsoft, AWS. A pergunta mais interessante é outra: quem captura o valor quando agentes viram commodity? Se a história de cloud computing serve como guia, a resposta é: quem controla o workflow. AWS, Azure e GCP dominam não porque têm a melhor infra, mas porque uma vez que seu workload está lá, migrar é caro e doloroso. O mesmo vai acontecer com agentes. Quem define o processo, orquestra os agentes e integra com os sistemas do cliente cria lock-in operacional. É por isso que a Accenture está fazendo esse movimento. A consultoria não quer vender tecnologia — quer ser dona do workflow do cliente. Se a Accenture implementa e opera seus agentes, trocar de fornecedor de plataforma é possível. Trocar a Accenture, não. O que isso significa para o ecossistema Para startups de agentes: a janela de venda direta para enterprise está fechando. Não porque o mercado não quer agentes — quer mais do que nunca. Mas porque o comprador enterprise prefere comprar de quem já está dentro (Salesforce, Microsoft) ou de quem ele confia para implementar (Accenture, Deloitte). Startups que não construírem parcerias de canal agora vão disputar migalhas. Para o ecossistema brasileiro: a onda de agentes enterprise vai chegar via consultorias e system integrators. Accenture tem operação grande no Brasil. Quando o Business Group com Databricks começar a gerar projetos na América Latina, vai precisar de talento local — engenheiros de dados, desenvolvedores de agentes, especialistas em integração. Startups brasileiras que se posicionarem como parceiras de implementação, e não como concorrentes, têm uma oportunidade concreta. O crescimento de 327% em multi-agent systems não é uma estatística. É o mercado votando com o orçamento. E quando consultorias de US$64 bilhões de faturamento criam divisões dedicadas para capturar essa demanda, a mensagem é clara: agentes de IA enterprise deixaram de ser tendência e viraram linha de negócio. A fase de experimentação acabou. A fase de industrialização começou. E quem não está posicionado agora vai assistir de fora.

Agentic MLOps: como A2A e MCP estão substituindo DAGs do Airflow por equipes de agentes

Agentic MLOps: como A2A e MCP estão substituindo DAGs do Airflow por equipes de agentes

Se você já manteve um pipeline de ML em produção com Airflow, sabe o que é acordar às 3h da manhã porque uma DAG de retraining falhou no step 14 de 23. O log diz Task failed: validation_step_3. Qual validation? De qual modelo? Com quais dados? Boa sorte. O artigo da InfoQ publicado em março de 2026 — "Architecting Agentic MLOps with A2A and MCP" — propõe algo que venho testando nos últimos meses: trocar DAGs rígidos por equipes de agentes que se comunicam via protocolos padronizados. Não é hype. É uma mudança de arquitetura com trade-offs reais que vale a pena entender. O problema com DAGs de MLOps Pipelines tradicionais de ML — Airflow, Prefect, Dagster — tratam MLOps como uma sequência linear: ingestão → feature engineering → treino → validação → deploy → monitoramento. Cada step é um nó no grafo. A lógica de decisão ("o modelo passou no threshold?", "precisa de rollback?") vira um emaranhado de BranchPythonOperator e XComs que ninguém quer debugar. O problema não é o Airflow. É que ML pipelines não são lineares. Validação pode exigir retreino com dados diferentes. Deploy pode precisar de canary progressivo com rollback automático. Monitoramento pode detectar drift e disparar retraining sem esperar o schedule. Tentar expressar isso como um DAG estático é como tentar desenhar um fluxograma para uma conversa — funciona no PowerPoint, quebra na realidade. A2A + MCP: os dois protocolos que habilitam a mudança Antes de entrar na arquitetura, vale alinhar os protocolos. Já cobri MCP em detalhe no post anterior, mas o resumo rápido:MCP (Model Context Protocol, Anthropic): protocolo de conexão entre agentes e ferramentas externas. O agente declara o que precisa, o MCP server expõe as capabilities. Pense nele como a interface entre o agente e o mundo — registries de modelo, buckets S3, APIs de monitoramento, o que for.A2A (Agent-to-Agent, Google): protocolo de comunicação entre agentes. Diferente do MCP que conecta agente→ferramenta, o A2A conecta agente→agente. Cada agente publica um Agent Card declarando suas capabilities, aceita Tasks via JSON-RPC, e pode negociar formatos de resposta. É o que permite que um Validation Agent peça ao Training Agent para retreinar com parâmetros específicos sem hardcodar essa lógica.A convergência dos dois é o que torna Agentic MLOps viável. MCP para acessar infraestrutura, A2A para coordenar decisões entre agentes. A arquitetura em camadas O paper da InfoQ propõe três agentes core: Orchestrator Agent O cérebro do pipeline. Recebe o trigger (schedule, webhook, drift alert) e decide o plano de execução. Diferente de uma DAG, o plano é dinâmico — o orchestrator avalia o contexto (qual modelo, qual dataset, qual o estado do último deploy) e monta a sequência em runtime. Validation Agent Responsável por qualidade do modelo. Roda suítes de teste, verifica drift de dados, compara métricas com baselines. O ponto-chave: via A2A, ele pode rejeitar um modelo e pedir retreino com instruções específicas ("accuracy caiu 3pp no segmento X, retreinar com oversampling desse segmento"). Em uma DAG, isso seria um loop com estado compartilhado que ninguém quer manter. Deployment Agent Gerencia canary, blue-green, rollback. Conecta via MCP ao Kubernetes, ao registry de modelos, ao Prometheus. Se o canary falha, comunica via A2A ao Orchestrator que decide o próximo passo — rollback, retreino, ou escalar para um humano. Hands-on: esqueleto de um pipeline agêntico Para materializar a ideia, montei um esqueleto usando CrewAI (que já suporta A2A e MCP nativamente desde a v0.8) com MCP servers para acessar MLflow e Kubernetes: # agentic_mlops_crew.yaml agents: orchestrator: role: "ML Pipeline Orchestrator" goal: "Coordinate model retraining and deployment" tools: - mcp_server: "mlflow-registry" # MCP: acessa model registry - mcp_server: "s3-datasets" # MCP: acessa datasets a2a_capabilities: - "plan_execution" - "escalation" validator: role: "Model Quality Gate" goal: "Validate model performance against baselines" tools: - mcp_server: "mlflow-registry" - mcp_server: "evidently-monitoring" # MCP: drift detection a2a_capabilities: - "validation_report" - "retrain_request" deployer: role: "Model Deployment Manager" goal: "Safe progressive rollout with automatic rollback" tools: - mcp_server: "k8s-serving" # MCP: KServe/Seldon - mcp_server: "prometheus-metrics" a2a_capabilities: - "canary_status" - "rollback_trigger"O fluxo em pseudo-código: # orchestrator recebe trigger trigger = await orchestrator.receive_task(event)# monta plano dinâmico baseado no contexto plan = orchestrator.plan( model=trigger.model_id, reason=trigger.reason, # "scheduled" | "drift_detected" | "manual" last_deployment=await mlflow.get_latest(trigger.model_id) )# treina e envia para validação via A2A model_artifact = await orchestrator.execute_training(plan) validation = await validator.validate( # A2A call model=model_artifact, baseline=plan.baseline_metrics, required_segments=plan.critical_segments )if validation.status == "REJECTED": # validator pode pedir retreino com instruções específicas plan = orchestrator.replan(validation.feedback) # loop controlado pelo orchestrator, não por uma DAG elif validation.status == "APPROVED": deployment = await deployer.canary_deploy( # A2A call model=model_artifact, traffic_pct=10, monitor_minutes=30 )A diferença fundamental: a lógica de decisão vive nos agentes, não no grafo. Quando o validator rejeita um modelo, ele não apenas retorna False — ele retorna contexto ("accuracy no segmento enterprise caiu 4pp, dataset de treino tem 12% menos amostras desse segmento vs. mês passado"). O orchestrator usa esse contexto para replanejar. Trade-offs reais: quando NÃO migrar Seria desonesto vender isso como solução universal. Aqui estão os trade-offs que encontrei:Aspecto DAG tradicional Agentic MLOpsLatência de decisão Milissegundos (if/else) Segundos (LLM inference por decisão)Custo Compute do step Compute + tokens de LLM por agenteDebuggability Log linear, fácil de rastrear Traces distribuídos, precisa de observabilidade sériaDeterminismo 100% reproduzível Decisões do LLM podem variar entre runsComplexidade inicial Alta (DAG), mas conhecida Alta (agentes), e poucos dominamO custo de LLM inference em cada decisão é real. Em um pipeline que roda 50 vezes por dia, cada chamada ao orchestrator com contexto de 4K tokens custa. Fiz a conta para um cenário com 3 agentes, 8 chamadas LLM por run, usando Claude Sonnet: **$2.40/dia** vs. zero de compute decisório no Airflow. Para pipelines de alta frequência, isso escala. E o determinismo é a objeção mais séria. Se o Validation Agent aprova um modelo na segunda-feira e rejeita o mesmo modelo na terça com os mesmos dados, você tem um problema de auditoria. A mitigação que funciona: usar LLMs com temperature 0 para decisões binárias e logar o chain-of-thought completo como artefato de compliance. Quando faz sentido migrar Na minha experiência, Agentic MLOps compensa quando:Seu pipeline tem lógica de decisão complexa — múltiplos caminhos de retreino, rollback condicional, validação por segmento Você já tem MCP servers para sua infra (MLflow, K8s, monitoramento) — montar isso do zero é um projeto separado A frequência do pipeline é baixa/média — diário ou semanal, não a cada 5 minutos Você precisa de feedback loops que hoje são manuais — o Validation Agent substitui aquele Slack alert que um engenheiro olha (ou não) antes de aprovar o deploySe seu pipeline é treino → valida threshold → deploy sem ramificações, Airflow resolve. Não complique. O que vem pela frente O paper da InfoQ menciona Agent Registries — um catálogo onde agentes de MLOps publicam suas capabilities via A2A e podem ser compostos dinamicamente. Imagine um marketplace interno onde o time de ML publica um "Feature Quality Agent" e o time de infra publica um "Cost Optimization Agent", e o orchestrator compõe os dois no mesmo pipeline sem ninguém escrever glue code. Ainda está cedo. A maioria das empresas não tem nem MCP servers para a infra de ML, muito menos agentes A2A em produção. Mas a direção é clara: MLOps vai de orquestração imperativa para coordenação declarativa. De DAGs para equipes. Se você já tem MCP rodando e está pensando no próximo passo, o repo de referência da InfoQ é um bom ponto de partida. E se você ainda está no Airflow com 47 BranchPythonOperators aninhados — bom, pelo menos agora sabe que existe alternativa.

Microsoft Agent 365 chega em 1º de maio: o control plane que faltava para governar agentes em escala

Microsoft Agent 365 chega em 1º de maio: o control plane que faltava para governar agentes em escala

A Microsoft confirmou o general availability do Agent 365 para 1º de maio de 2026. Pricing: US$ 15 por usuário por mês. A proposta é ser a primeira plataforma enterprise de observabilidade e governança para agentes de IA multi-vendor — não apenas Copilot, mas agentes Salesforce, frameworks open-source e qualquer sistema que opere sob o protocolo de interoperabilidade da plataforma. Para o CIO que está tentando governar agentes de múltiplos vendors simultaneamente, o Agent 365 se posiciona como o missing piece. A pergunta que o board precisa responder no próximo mês é se essa peça resolve o problema de fato — ou se adiciona mais uma camada de complexidade a um stack que já está ingovernável. O problema que o Agent 365 endereça O cenário é conhecido por qualquer organização que avançou na adoção de IA agêntica: agentes de diferentes vendors operam em diferentes sistemas, com diferentes modelos de permissão, diferentes logs e diferentes níveis de observabilidade. O resultado é fragmentação. CIOs recebem dashboards parciais de cada vendor, mas nenhum oferece visão consolidada de todos os agentes em operação. Essa fragmentação gera três riscos concretos: Shadow agents. Equipes deployam agentes sem passar pelo processo formal de aprovação. Sem um registro centralizado multi-vendor, a organização não sabe quantos agentes operam, onde estão e o que fazem. A pesquisa da Cisco de março de 2026 mostrou que 53% das empresas não conseguem detectar IA não autorizada. Quando se trata de agentes que agem — e não apenas respondem —, o risco se multiplica. Audit trail inexistente. Cada vendor tem seu formato de log. Correlacionar ações de um agente Salesforce com ações de um agente Copilot num mesmo processo de negócio exige integração manual. Na prática, ninguém faz. Quando o regulador pede evidência de supervisão, a resposta é silêncio. Permissões inconsistentes. Um agente pode ter acesso restrito no ecossistema Microsoft e acesso amplo no Salesforce. Sem uma camada unificada de access control, o princípio de menor privilégio é aplicado por vendor — não por agente. O resultado é um modelo de segurança com furos estruturais. O que o Agent 365 entrega Segundo o que a Microsoft publicou no Tech Community e o que analistas do NY Report confirmaram, a plataforma oferece quatro capacidades centrais: Registry de agentes. Inventário centralizado de todos os agentes em operação na organização — independente do vendor. Cada agente recebe uma identidade única, com metadados de função, owner de negócio, sistemas acessados e classificação de risco. É o inventário que o Gartner vem pedindo e que a maioria das organizações não conseguiu construir internamente. Access control unificado. Políticas de permissão aplicadas na camada do Agent 365, não na camada de cada vendor individual. Isso permite implementar menor privilégio de forma consistente: o agente tem as mesmas restrições independentemente de qual sistema está acessando. Suporte a RBAC e políticas condicionais baseadas em contexto. Audit trail consolidado. Log unificado da cadeia de decisões e ações de todos os agentes registrados. Formato padronizado, correlação entre agentes de diferentes vendors, retenção configurável e exportação para SIEMs existentes. Para compliance — EU AI Act, LGPD, ISO 42001 — esse é o componente mais relevante. Interoperabilidade. Conectores nativos para agentes Copilot, Salesforce AgentForce, e um SDK aberto para frameworks open-source como LangGraph, CrewAI e Agents SDK da OpenAI. A promessa é que qualquer agente que implemente o protocolo de interoperabilidade pode ser registrado e governado pela plataforma. O que falta avaliar — e onde mora o risco A recomendação aqui é direta: o Agent 365 resolve um problema real, mas a avaliação precisa ir além do marketing deck. Lock-in. Uma plataforma de governança da Microsoft que governa agentes de outros vendors cria uma dependência significativa. Se o Agent 365 se torna o control plane da organização, trocar de plataforma de governança no futuro exige migrar registry, políticas, audit trails e integrações. O custo de saída é alto. CIOs precisam avaliar se estão dispostos a aceitar esse trade-off. Profundidade da interoperabilidade. Conectores nativos para Copilot e Salesforce são esperados. A questão é a qualidade da integração com frameworks open-source e agentes customizados. Um SDK aberto é uma promessa — a prova está na cobertura real de funcionalidades que o conector oferece. Registro e audit trail superficiais para agentes não-Microsoft transformam a plataforma num Copilot governance tool que tolera outros agentes, não num control plane genuinamente multi-vendor. Pricing em escala. US$ 15 por usuário por mês parece acessível. Mas a base de cálculo importa: são os usuários que interagem com agentes, os usuários cujos dados são processados por agentes, ou todos os usuários do tenant? Para uma organização de 10 mil colaboradores, a diferença entre essas interpretações pode ser de US$ 150 mil a US$ 1,8 milhão por ano. O CFO precisa dessa clareza antes do commitment. O contexto para organizações brasileiras Empresas brasileiras que operam com múltiplos vendors de IA enfrentam o mesmo problema de fragmentação — com o agravante de que a LGPD já exige explicabilidade de decisões automatizadas e o PL 2338 vai formalizar obrigações adicionais de supervisão e inventário. O Agent 365 pode ser relevante como acelerador de compliance para organizações que não têm capacidade interna de construir uma camada de governança multi-vendor. Mas o pricing em dólar precisa ser avaliado no contexto de margens brasileiras. A US$ 15 por usuário, uma operação de 5 mil pessoas está olhando para US$ 75 mil por mês — mais de R$ 400 mil ao câmbio atual. É investimento que exige business case robusto. A alternativa — construir internamente com ferramentas open-source — é viável para organizações com maturidade técnica, mas subestimam o custo operacional de manter essa camada atualizada com as mudanças de cada vendor. Não existe opção barata. Existe opção com trade-offs explícitos. O que fazer nos próximos 30 dias O GA é em 1º de maio. Falta um mês. A recomendação para CIOs e CAIOs é usar esse intervalo para três ações concretas:Inventariar agentes em operação. Antes de avaliar uma plataforma de governança, a organização precisa saber o que governa. Quantos agentes, de quais vendors, acessando quais sistemas, com quais permissões. Se esse inventário não existe, o Agent 365 não resolve o problema — organiza o caos.Avaliar o modelo de pricing. Solicitar à Microsoft a definição exata da base de usuários para billing. Rodar cenários de custo para 12 e 36 meses. Comparar com o custo estimado de construir internamente ou de usar alternativas emergentes.Levar a pauta ao board. Governança de agentes multi-vendor não é decisão de TI — é decisão de risco corporativo. O board precisa entender que a organização opera agentes de múltiplos vendors sem visão consolidada e que existe uma janela de oportunidade para corrigir isso antes que o regulador pergunte.O Agent 365 pode ser a resposta certa para muitas organizações. Mas nenhuma plataforma substitui a decisão executiva de tratar governança de agentes como prioridade estratégica. A ferramenta é meio. A decisão é do board.

Salesforce Agentforce bate US$800M de ARR — agentes de IA já são linha de receita, não promessa

Salesforce Agentforce bate US$800M de ARR — agentes de IA já são linha de receita, não promessa

A Salesforce acabou de divulgar o resultado fiscal do Q4 2026 e enterrou, com um número, qualquer dúvida sobre a viabilidade comercial de agentes de IA. O Agentforce — a plataforma de agentes autônomos lançada em outubro de 2024 — atingiu US$800 milhões de receita recorrente anual. Crescimento de 169% year-over-year. São 29.000 deals fechados em apenas 15 meses de operação comercial. US$800 milhões. Não é pipeline. Não é projeção de analista. É ARR reportado em earnings call para investidores. Agentes de IA acabaram de se tornar uma linha de receita de quase um bilhão de dólares por ano dentro de uma única empresa. O poder da base instalada O que explica a velocidade? Distribuição. A Salesforce tem 150.000 clientes enterprise que já rodam CRM, Service Cloud, Marketing Cloud e uma constelação de produtos integrados. Quando o Agentforce chega, não precisa convencer o CIO a comprar um conceito novo. Precisa mostrar que o agente resolve um ticket, qualifica um lead ou automatiza um workflow dentro de um sistema que o cliente já usa, já paga e já depende. É a diferença brutal entre vender agentes para quem nunca usou IA e adicionar agentes ao stack de quem já está dentro do ecossistema. A Salesforce não vendeu 29.000 deals do zero — converteu 29.000 clientes existentes em compradores de uma nova camada de valor. Para startups, esse é o dado mais incômodo do earnings call. Não é que o Agentforce seja tecnicamente superior a qualquer concorrente. É que ele chega com CRM, dados do cliente, integrações e billing já resolvidos. A barreira de entrada para o cliente é mínima. Para a startup que compete pelo mesmo orçamento, a barreira é brutal. O mapa de quem está monetizando de verdade Vale colocar o número da Salesforce em contexto com os outros players que cobri aqui nos últimos meses. Salesforce Agentforce: US$800M de ARR. O incumbente. Crescimento por distribuição e base instalada. Modelo SaaS tradicional — cobra por uso dentro da plataforma existente. Não precisou inventar um mercado; adicionou uma feature monstruosa a um produto que já domina enterprise. Sierra: US$150M de ARR. A startup pura de agentes de atendimento, fundada por Bret Taylor (ex-co-CEO da própria Salesforce, aliás) e Clay Bavor. Cresceu de US$26M para US$150M em pouco mais de um ano. Cobra por resultado — por interação resolvida, não por seat. Provou que agentes verticais geram receita recorrente sem base instalada prévia. Harvey: US$11B de valuation. A referência em agentes jurídicos, com 100 mil advogados usando o produto em 1.300 organizações. Rodada de US$200M em março. Não divulga ARR, mas o valuation e a velocidade de adoção sugerem receita crescente e significativa. Rox: US$1.2B de valuation. Agentes autônomos de vendas B2B que substituem SDRs. Avaliação alcançada em março de 2026. Modelo de precificação por resultado — cobra por lead qualificado e reunião agendada. O padrão é claro: quem monetiza agentes de IA não é quem tem o demo mais impressionante. É quem tem distribuição (Salesforce), vertical defensável (Harvey, Sierra) ou modelo de negócio que alinha incentivos (Sierra, Rox). Demo sem distribuição é roadshow. Distribuição sem produto é vaporware. A interseção dos dois é receita. O que US$800M significa para o mercado de agentes Três implicações que importam. Primeiro, budget enterprise para agentes existe e é grande. Quando o CFO de uma Fortune 500 vê que a Salesforce — a empresa na qual ele já confia — gera resultados mensuráveis com agentes, a conversa de "deveríamos experimentar IA?" vira "quanto a mais vamos gastar com IA?". A Salesforce está normalizando a compra de agentes na mesma velocidade que normalizou a compra de CRM em nuvem duas décadas atrás. Isso abre mercado para todo mundo — inclusive para startups que oferecem algo que a Salesforce não cobre. Segundo, o modelo de precificação vai ser campo de batalha. A Salesforce cobra no modelo SaaS tradicional — add-on ao contrato existente. Sierra e Rox cobram por resultado. Quando os dois modelos competem pelo mesmo orçamento, o cliente vai comparar: "pago X fixo à Salesforce pelo agente dentro do meu CRM, ou pago Y variável à Sierra/Rox pelo mesmo trabalho feito?". Essa tensão vai definir margens e modelos de negócio pelos próximos três anos. Terceiro, a janela para startups de agentes horizontais está fechando. Um agente genérico de atendimento, vendas ou suporte que tenta competir head-to-head com o Agentforce dentro de empresas que já usam Salesforce tem uma probabilidade baixíssima de ganhar. A oportunidade real está nos verticais que a Salesforce não cobre — jurídico (Harvey), saúde, compliance, engenharia — e nos mercados onde a Salesforce não domina. O que startups brasileiras precisam entender Aqui é onde eu conecto com o ecossistema que acompanho de perto. O mercado enterprise brasileiro gasta com Salesforce — mas nem de longe na mesma proporção que os EUA. A penetração de CRM enterprise no Brasil ainda tem gaps significativos, especialmente em mid-market e em setores como agro, saúde e governo. Esses gaps são oportunidade. Uma startup brasileira de agentes que tenta competir com o Agentforce dentro de clientes Salesforce está morta antes de começar. Mas uma startup que constrói agentes para verticais brasileiros — atendimento em português com integração a TOTVS, agentes de cobrança que entendem o ciclo de inadimplência local, agentes de compliance que navegam LGPD e regulação setorial — essa não compete com a Salesforce. Compete por um orçamento diferente, num mercado que a Salesforce não atende bem. O dado de US$800M de ARR tem dois lados para founders brasileiros. O lado ruim: o incumbente está monetizando rápido e vai sugar uma fatia enorme do budget global de agentes enterprise. O lado bom: US$800M prova que o mercado existe. Quando a Salesforce valida a categoria, o cliente brasileiro que não é cliente Salesforce também começa a perguntar "e eu, preciso de agentes?". Quem tiver a resposta certa para o mercado local captura essa demanda. Agentes saíram do slide para o P&L Há seis meses, quando escrevi sobre o vale da morte dos agentes — 78% pilotam, 14% escalam — o cenário era de promessa e frustração. O dado da Salesforce não elimina o vale da morte. Ainda tem muita empresa emperrada em piloto. Mas mostra que quem cruza o vale encontra receita real do outro lado. US$800 milhões de ARR em 15 meses. 29.000 deals. 169% de crescimento. Agentes de IA deixaram de ser uma linha no slide de estratégia e viraram uma linha no P&L. A pergunta para quem constrói no espaço não é mais "agentes funcionam?" — é "como eu capturo minha fatia antes que os incumbentes fechem a porta?". A porta ainda está aberta. Mas está fechando rápido.

Hark: o fundador da Figure AI aposta US$100M do próprio bolso em 'interface para AGI'

Hark: o fundador da Figure AI aposta US$100M do próprio bolso em 'interface para AGI'

Brett Adcock tem um padrão. Funda empresas ambiciosas, levanta capital agressivamente e aposta em teses que soam impossíveis até provarem que não são. Fez isso com a Vettery (recrutamento, vendida à Adecco), fez com a Archer Aviation (eVTOL, abriu capital via SPAC) e faz com a Figure AI, que construiu robôs humanoides e levantou mais de US$1.6 bilhão em dois anos. Agora, a nova aposta: Hark. A startup saiu de oito meses em stealth com uma tese que chama atenção pela ambição. Hark quer construir a "interface dedicada para AGI" — um dispositivo de hardware combinado com IA personalizada que, segundo Adcock, será o paradigma de interação com inteligência artificial que vai substituir chat e browser. E o detalhe que define o tom: os US$100 milhões iniciais saíram do bolso dele. O que "interface para AGI" significa na prática A tese da Hark parte de uma premissa que, isoladamente, faz sentido: se inteligência artificial geral eventualmente existir, interagir com ela via caixa de texto num navegador é subótimo. Um sistema genuinamente inteligente precisaria de uma interface que capture contexto visual, auditivo e ambiental em tempo real — não apenas texto digitado. Até aí, o argumento é racional. O problema começa quando tentamos traduzir isso em produto. Adcock não divulgou especificações do hardware, data de lançamento ou demonstrações funcionais. O que temos são declarações de visão: hardware proprietário, IA personalizada que aprende o comportamento do usuário, interação multimodal que vai além de tela e teclado. É uma pitch deck ambulante — convincente em PowerPoint, indefinida em engenharia. E aqui mora a tensão. A Hark está vendendo o futuro (AGI precisa de interface nova) enquanto o presente (chat funciona surpreendentemente bem) ainda não esgotou suas possibilidades. ChatGPT, Claude, Gemini — todos evoluíram de caixa de texto para interfaces multimodais com voz, visão e execução de código. A pergunta que a Hark precisa responder é: o que um hardware dedicado faz que um smartphone com app de IA não faz? O cemitério de hardware + IA É impossível analisar a Hark sem olhar para os cadáveres recentes. O Humane AI Pin foi lançado em 2024 como o "dispositivo pós-smartphone". Custava US$699 mais assinatura mensal de US$24. Projetava informações na palma da mão com um laser. As reviews foram devastadoras: lento, impreciso, bateria de 2 horas. A Humane tentou se vender, não encontrou comprador no valor que queria e virou case de estudo de como não lançar hardware de IA. O Rabbit R1 custava US$199 e prometia um "assistente universal" que operava apps por você via um modelo proprietário (LAM — Large Action Model). Na prática, fazia menos que os apps que prometia substituir. As vendas iniciais foram altas por curiosidade, mas o dispositivo acabou em gavetas. Ambos compartilham o mesmo erro: assumiram que IA precisa de um novo form factor antes que a IA em si estivesse boa o suficiente para justificar o form factor. Quando o software ainda está evoluindo a cada trimestre, fixar uma interface de hardware é apostar que você sabe como vai ser a interação com IA daqui a 3 anos. Ninguém sabe. O contra-argumento: por que Adcock pode estar certo Existe um cenário onde a Hark faz sentido. E ele depende de timing. Se AGI (ou algo próximo) chegar nos próximos 3-5 anos — como Anthropic, OpenAI e DeepMind parecem acreditar —, a interação com essa inteligência vai demandar mais do que uma janela de chat. Um sistema que vê o que você vê, ouve o que você ouve, entende seu contexto físico e responde em tempo real precisa de sensores, processamento local e uma interface pensada para fluxo contínuo, não para prompts discretos. Adcock pode estar construindo para esse momento. E o fato de usar US$100 milhões do próprio dinheiro — não de VCs — muda o cálculo. Ele não precisa mostrar métricas de tração em 18 meses. Não tem board cobrando pivots trimestrais. Tem runway para errar, iterar e esperar o momento certo. É uma vantagem estrutural que Humane e Rabbit não tinham. A Figure AI, sua outra empresa, também dá pistas. Adcock construiu robôs humanoides que operam em fábricas — hardware complexo que integra IA em tempo real. Ele sabe fazer hardware funcionar com modelos de IA. A questão é se essa competência em robótica se traduz para dispositivos pessoais, que são um mercado completamente diferente. O que falta na tese Três perguntas que a Hark ainda não respondeu: Distribuição. Hardware pessoal de IA compete com o smartphone. Não em funcionalidade — em hábito. Oito bilhões de pessoas já têm um dispositivo no bolso que faz chamadas, tira fotos e roda apps de IA. Convencer alguém a carregar um segundo dispositivo exige que ele faça algo que o smartphone categoricamente não pode fazer. Modelo de negócio. Hardware é margens baixas, supply chain complexa e ciclos de produto longos. A Apple leva 3 anos para desenvolver um iPhone. A Humane levou 4 anos e falhou. US$100 milhões cobrem prototipagem e primeiras iterações, mas se o produto precisar de escala de manufatura, o capital acaba rápido. Timing de AGI. A tese inteira depende de AGI chegar num horizonte onde o hardware da Hark ainda seja relevante. Se AGI demora 10 anos, a primeira geração do produto vai parecer tão datada quanto um Palm Pilot. O ângulo para o ecossistema Independentemente de a Hark ter sucesso, a movimentação de Adcock sinaliza algo relevante: founders com capital e track record estão começando a apostar que a era do "chat como interface de IA" tem prazo de validade. É uma minoria ainda, mas é uma minoria com dinheiro. Para o ecossistema brasileiro, o aprendizado é indireto mas importante. A maioria das startups de IA no Brasil está construindo sobre a camada de software: agentes, automações, integrações via API. Se a interface mudar, o que está por baixo (os agentes, os modelos, os pipelines de dados) continua valendo. Mas quem apostou toda a experiência do usuário em chat pode precisar repensar. A Hark é uma aposta de US$100 milhões numa pergunta que ainda não tem resposta: como vamos interagir com IA quando ela for inteligente de verdade? Brett Adcock acha que sabe. O cemitério de hardware de IA sugere cautela. E o mercado, como sempre, vai decidir com a carteira.

Rox atinge US$1.2B de valuation — agentes autônomos de vendas são o novo SaaS?

Rox atinge US$1.2B de valuation — agentes autônomos de vendas são o novo SaaS?

A Rox AI acaba de ser avaliada em US$1.2 bilhão. A rodada, reportada pelo TechCrunch em 12 de março, coloca mais uma startup de agentes autônomos no clube dos unicórnios. Mas o que diferencia a Rox não é o valuation — é a tese. A empresa não construiu uma ferramenta que ajuda vendedores a vender melhor. Construiu agentes que substituem vendedores. Especificamente, SDRs: os profissionais de sales development que qualificam leads, fazem cold outreach e agendam reuniões. É uma distinção que parece sutil, mas muda tudo. E com US$20.8 bilhões acumulados em funding no setor de AI agents e 1.040 empresas ativas segundo o Tracxn, entender qual modelo de negócio vence não é exercício teórico — é questão de sobrevivência para quem constrói no espaço. Ferramenta vs. substituto: dois modelos, duas apostas O mercado de vendas B2B assistidas por IA tem dois paradigmas competindo pelo mesmo orçamento. O primeiro é o modelo ferramenta. Startups como Gong, Outreach e Apollo.io construíram plataformas que tornam vendedores mais produtivos. Gravam calls, sugerem follow-ups, automatizam sequências de email. O vendedor continua no centro. A IA é o co-piloto. O modelo de negócio é SaaS clássico: cobra por seat, escala com headcount do cliente. O segundo é o modelo substituto. É onde a Rox se posiciona. O agente não assiste o SDR — ele é o SDR. Pesquisa o lead, personaliza a abordagem, envia a mensagem, interpreta a resposta, qualifica e agenda a reunião. O humano entra quando o lead qualificado chega à reunião. O modelo de negócio é diferente: não cobra por seat (porque não tem seat), cobra por resultado — por reunião agendada, por lead qualificado, por pipeline gerado. A diferença econômica é brutal. Um SDR nos Estados Unidos custa entre US$60 mil e US$90 mil por ano em salário, mais benefícios, ramp-up de 3 meses e turnover médio de 18 meses. Um agente da Rox custa uma fração disso por lead qualificado, não precisa de onboarding e melhora com o tempo em vez de pedir demissão. Por que os investidores estão comprando a tese O valuation de US$1.2 bilhão num mercado onde Sierra já está em US$10 bilhões e Harvey em US$11 bilhões segue uma lógica consistente: agentes que substituem trabalho repetitivo e mensurável atraem capital porque o ROI é imediato e calculável. O cliente não precisa acreditar em transformação digital. Precisa comparar duas planilhas: quanto gasta com um time de 10 SDRs versus quanto gasta com agentes fazendo o mesmo trabalho. Se o output é equivalente e o custo é 70% menor, a decisão se toma sozinha. É o mesmo padrão que vimos na Sierra com atendimento ao cliente — a empresa que acabou de bater US$150 milhões de ARR cobrando por interação resolvida, não por seat. O modelo de precificação por resultado está se tornando o padrão para startups de agentes autônomos. O risco que ninguém está precificando Mas existe um risco estrutural que o mercado parece estar ignorando: dependência de modelo base. Agentes de vendas como os da Rox dependem de LLMs para interpretar contexto, gerar mensagens personalizadas e tomar decisões de qualificação. Quando a OpenAI muda preço de API, quando um modelo tem regressão de qualidade depois de um update, quando um provider sai do ar por duas horas — o agente para. E com ele, o pipeline de vendas do cliente. Para ferramentas SaaS tradicionais, um downtime de API de LLM é um inconveniente. Para um agente que substitui um time inteiro de SDRs, é uma parada de produção. Isso cria uma fragilidade que valuations de US$1.2 bilhão ainda não refletem. E o ecossistema brasileiro? O Brasil tem dois players relevantes no espaço de sales tech. A RD Station — hoje parte da TOTVS — domina inbound marketing e automação para PMEs. A Meetime construiu uma plataforma de inside sales com inteligência conversacional. Ambas operam no modelo ferramenta. A chegada de agentes autônomos como os da Rox apresenta um cenário dual. De um lado, é ameaça. Se o custo de um SDR nos EUA justifica substituição por agente, no Brasil a equação é diferente — SDRs custam menos, mas a produtividade média também é menor. A janela até que agentes de vendas em português tenham qualidade suficiente para competir com SDRs brasileiros não é infinita. De outro lado, é oportunidade. O mercado brasileiro de vendas B2B tem especificidades — ciclos de venda mais longos, relações mais pessoais, decisores que preferem WhatsApp a email — que um agente treinado em dados americanos não captura. Quem construir agentes de vendas nativamente brasileiros, que entendem o ritmo e os canais do mercado local, tem um moat defensável que a Rox não consegue replicar de Mountain View. O que falta é capital. Das 975 startups de IA ativas no Brasil, nenhuma está construindo agentes autônomos de vendas com a ambição (e o funding) da Rox. O BNDES e seu fundo bilionário para IA poderiam mudar isso, mas o ecossistema precisa de founders que pensem em substituição, não apenas em assistência. O que isso sinaliza A Rox não é uma anomalia — é um ponto de dados numa tendência clara. O mercado de agentes autônomos está migrando de "IA que ajuda profissionais" para "IA que faz o trabalho do profissional". Atendimento ao cliente já foi (Sierra). Jurídico está indo (Harvey). Vendas B2B é o próximo. Para quem constrói no espaço, a questão estratégica é simples: você está construindo o último upgrade para o vendedor humano ou o primeiro substituto? Ambos podem funcionar. Mas os valuations — e o capital — estão indo cada vez mais para quem responde a segunda opção.

Bank of America deploya agentes para 1.000 advisors — o case que boards vão citar

Bank of America deploya agentes para 1.000 advisors — o case que boards vão citar

O Bank of America deployou uma plataforma de advisory baseada em IA agêntica, construída sobre o Salesforce Agentforce, para aproximadamente 1.000 financial advisors. Não é piloto. Não é prova de conceito. É produção — com clientes reais, decisões reais e impacto mensurável no P&L de uma das maiores instituições financeiras do mundo. Esse é o case que vai mudar a conversa em boardrooms de todos os setores nos próximos trimestres. O contexto executivo: por que esse deploy é diferente O mercado de IA corporativa não tem escassez de anúncios. Tem escassez de deploys em produção com escala relevante. A maioria das organizações opera no ciclo piloto-piloto-piloto — testa em ambiente controlado, apresenta resultados promissores ao board, não consegue escalar, repete. O BofA quebrou esse ciclo. E o fez de uma forma que é difícil de ignorar por três razões: Primeiro: escala. Mil advisors não é um grupo de teste. É uma operação. Financial advisors do BofA gerenciam patrimônios significativos, tomam decisões que afetam diretamente a receita do banco e operam sob supervisão regulatória rigorosa. Deployar agentes de IA nesse contexto exigiu validação jurídica, de compliance, de segurança e de negócio. O fato de que passou por todos esses gates é o dado mais relevante para outros boards. Segundo: contexto regulado. O setor financeiro americano opera sob supervisão da SEC, FINRA, OCC e uma constelação de reguladores estaduais. Cada interação com cliente pode ser auditada. Cada recomendação de investimento tem requisitos de suitability. Deployar IA agêntica nesse ambiente não é instalar um chatbot — é integrar um sistema autônomo numa cadeia de compliance que existe há décadas. Se o BofA conseguiu, a barra de "nosso setor é muito regulado para IA" ficou significativamente mais alta. Terceiro: não é o primeiro movimento. O BofA já opera a Erica, assistente virtual que atende milhões de clientes e executa trabalho equivalente a aproximadamente 11.000 funcionários. Esse número merece atenção do CFO de qualquer organização: 11.000 FTEs equivalentes. Não é projeção — é operação corrente. O deploy para advisors é a extensão dessa capacidade para o segmento de alto valor, onde o impacto por advisor é substancialmente maior. O cenário: IA agêntica sai do piloto O BofA não está sozinho, mas está na frente. O setor financeiro e adjacências concentram os deploys mais maduros de IA agêntica em produção:Harvey AI opera no setor jurídico com avaliação de US$ 11 bilhões e mais de 100.000 advogados usando a plataforma. Agentes que revisam contratos, pesquisam jurisprudência e preparam documentos legais. Sierra atingiu US$ 150 milhões em receita anual recorrente com agentes de atendimento ao cliente que resolvem problemas, não apenas respondem perguntas. Salesforce Agentforce — a plataforma sobre a qual o BofA construiu — se posiciona como a infraestrutura padrão para IA agêntica enterprise.O padrão que emerge é claro: IA agêntica em produção está se concentrando em setores com processos estruturados, compliance nativa e tolerância zero para improvisação. Não é coincidência. Por que serviços financeiros está na frente O Gartner projeta que 40% dos projetos de IA agêntica serão cancelados até 2027 por falha de governança. Essa estatística assusta — e deveria. Mas o setor financeiro tem três vantagens estruturais que reduzem significativamente esse risco: Processos documentados. Bancos não operam com processos informais. Cada fluxo de trabalho — abertura de conta, análise de crédito, recomendação de investimento, compliance KYC — está documentado, mapeado e auditável. Agentes de IA precisam exatamente disso para operar com consistência: processos claros com inputs, outputs e regras de negócio definidos. O que para outros setores é um pré-requisito difícil de construir, para serviços financeiros já existe. Audit trails nativos. Regulação financeira exige registro de decisões há décadas. Essa infraestrutura de logging e auditoria é a mesma que IA agêntica precisa para observabilidade. Quando um agente toma uma decisão, o sistema precisa registrar o quê, por quê e com quais dados. Bancos já fazem isso para decisões humanas. Estender para decisões algorítmicas é incremental, não transformacional. Cultura de compliance. Em setores menos regulados, governança de IA é percebida como burocracia que desacelera inovação. Em serviços financeiros, compliance é condição de operação. Equipes de risco, jurídico e compliance já participam do ciclo de desenvolvimento de produtos. Incluir IA agêntica nesse ciclo é uma extensão natural — não uma revolução cultural. A recomendação aqui é direta: se a organização opera em setor menos regulado e quer escalar IA agêntica, copie a abordagem do setor financeiro. Não a tecnologia — a governança. Documente processos antes de automatizá-los. Construa audit trails antes de deployar agentes. Integre compliance no ciclo de desenvolvimento, não depois. A métrica que o CFO vai usar "Equivalente a 11.000 funcionários." Essa é a métrica que a Erica do BofA produz e que vai aparecer em toda apresentação de business case de IA nos próximos meses. É uma métrica poderosa e perigosa ao mesmo tempo. Poderosa porque traduz capacidade de IA em linguagem de P&L — o CFO entende FTEs, entende custo de headcount, entende o impacto de alocar 11.000 pessoas para outras atividades. Perigosa porque simplifica uma realidade complexa: a Erica não substitui 11.000 funcionários — ela executa volume de trabalho equivalente em tarefas específicas. A distinção importa para dimensionar expectativas corretamente. Para boards avaliando investimento em IA agêntica, o framework de análise deveria incluir:Volume de tarefas automatizáveis: Quantas horas de trabalho estruturado existem na organização que podem ser executadas por agentes? Não todas as horas — apenas as que envolvem processos documentados, regras claras e dados acessíveis. Custo de erro: Qual o impacto financeiro e reputacional quando um agente erra? Em financial advisory, um erro pode gerar processo regulatório. Em atendimento ao cliente, pode gerar churn. O custo de erro define o nível de supervisão humana necessário — e esse custo precisa estar no business case. Tempo para valor: O BofA não chegou aqui em seis meses. A Erica foi lançada em 2018. São oito anos de construção iterativa de capacidade de IA. Boards que esperam ROI de IA agêntica em dois trimestres estão dimensionando errado o investimento necessário.Os riscos que o board precisa discutir Risco de dependência de plataforma. O BofA construiu sobre Salesforce Agentforce. Essa escolha cria dependência de um fornecedor específico para uma capacidade que será cada vez mais crítica. O board deve avaliar: existe estratégia de saída? Existe portabilidade? O lock-in é aceitável dado o valor entregue? Essas perguntas não são técnicas — são estratégicas. Risco de governança em escala. Mil advisors é relevante. Mas quando o deploy chegar a 10.000 — e chegará — a complexidade de governança cresce de forma não linear. Mais agentes, mais interações, mais edge cases, mais decisões autônomas que precisam ser monitoradas. A infraestrutura de observabilidade que funciona para 1.000 pode não escalar para 10.000 sem investimento adicional significativo. Risco de expectativa desalinhada. O case do BofA vai gerar pressão em boards de todos os setores: "se o Bank of America fez, por que nós não fizemos?" Essa pressão pode levar a deploys apressados, sem a governança adequada, sem os processos documentados, sem a cultura de compliance. E é exatamente isso que alimenta a projeção do Gartner de 40% de fracasso. O case do BofA deve inspirar — não apressar. Recomendações para a liderança Para o CEO: Use o case do BofA como referência, não como blueprint. A vantagem do setor financeiro é estrutural — processos regulados, audit trails, cultura de compliance. Se a organização não tem esses fundamentos, o primeiro investimento é construí-los. Deployar agentes antes de ter governança é acumular o risco que o Gartner quantificou. Para o CFO: A métrica de 11.000 FTEs equivalentes é o benchmark. Mas exija do time de IA um business case que inclua custo de governança, custo de erro e timeline realista. O ROI de IA agêntica é real — mas não é instantâneo. O BofA investiu oito anos para chegar aqui. Para o CAIO: Avalie a maturidade de processos antes da maturidade de tecnologia. Agentes de IA escalam onde processos são claros. Mapeie os 20% de processos da organização que concentram 80% do volume de trabalho estruturado — esse é o ponto de partida para IA agêntica em produção. Para o General Counsel: O deploy do BofA em ambiente regulado SEC/FINRA demonstra que compliance e IA agêntica são compatíveis. Mas exige integração de compliance no ciclo de desenvolvimento desde o dia zero. Revise os contratos com fornecedores de plataforma de IA para garantir cláusulas de auditoria, portabilidade de dados e responsabilidade por decisões algorítmicas. O que fica O Bank of America fez o que a maioria das organizações ainda discute em slides: colocou IA agêntica em produção, em escala, em ambiente regulado. Isso muda o patamar da conversa. O argumento de que "IA agêntica não está pronta para produção" perdeu sustentação factual. O argumento de que "nosso setor é muito regulado" também. O que resta é a execução. E execução em IA agêntica exige o que sempre exigiu em qualquer transformação operacional: processos claros, governança robusta, investimento paciente e liderança que entende que escala sem controle é risco, não velocidade. O BofA mostrou o caminho. Os 40% do Gartner mostram o que acontece com quem tenta atalhos.

MCP cruza 97 milhões de installs: o protocolo da Anthropic que virou a infraestrutura invisível dos agentes

MCP cruza 97 milhões de installs: o protocolo da Anthropic que virou a infraestrutura invisível dos agentes

Em 25 de março de 2026, o Model Context Protocol atingiu 97 milhões de downloads mensais do SDK. No lançamento, em novembro de 2024, eram 2 milhões. Isso é um crescimento de 4.750% em dezesseis meses — a curva de adoção mais rápida de qualquer padrão de infraestrutura de IA na história. Se você está construindo agentes e ainda não integrou MCP, este artigo é um alerta. De protocolo obscuro a infraestrutura de facto Quando a Anthropic lançou o MCP no final de 2024, a reação do mercado foi morna. Mais um protocolo? Mais um padrão aberto que uma empresa cria para servir seus próprios interesses? A desconfiança era compreensível — o histórico de "padrões abertos" controlados por big techs não é exatamente inspirador. O ponto de inflexão veio quando a OpenAI anunciou, em 2025, que adotaria o MCP como padrão de integração para seus agentes. Quando o criador do GPT decide usar o protocolo do concorrente em vez de construir o próprio, o mercado percebe que algo diferente está acontecendo. Google seguiu com o Gemini. Frameworks de agentes como LangChain, CrewAI e AutoGen integraram MCP em suas stacks. Em menos de um ano, a pergunta deixou de ser "vamos suportar MCP?" e virou "qual servidor MCP a gente conecta primeiro?" Hoje são mais de 5.800 servidores MCP — entre comunitários e enterprise — cobrindo bancos de dados, CRMs, provedores de nuvem, ferramentas de produtividade, plataformas de desenvolvimento, e-commerce e analytics. Todo grande provedor de IA suporta o protocolo. Claude, GPT-5.4, Gemini, todos falam MCP. O que o MCP resolve (e por que isso importa mais do que parece) A explicação mais simples: MCP é para agentes de IA o que USB-C é para dispositivos. Um conector universal que padroniza como agentes se conectam a ferramentas e fontes de dados externas. Antes do MCP, cada integração era custom. Quer que seu agente acesse o Salesforce? Escreva um conector. PostgreSQL? Outro conector. Google Calendar? Mais um. Cada combinação de modelo + ferramenta exigia implementação específica. Para uma startup construindo um agente que precisa acessar dez ferramentas, isso significava dez integrações distintas, cada uma com sua autenticação, formato de dados e tratamento de erros. O MCP padroniza tudo isso. Um servidor MCP para o Salesforce funciona com qualquer cliente MCP — seja ele rodando Claude, GPT ou um modelo open-source. O agente não precisa saber como cada ferramenta funciona internamente. Ele fala MCP, o servidor traduz. Um paper recente no arxiv (2603.13417) — "Bridging Protocol and Production: Design Patterns for Deploying AI Agents with MCP" — documenta os padrões de design que estão emergindo. Não é mais teoria. Empresas estão deployando agentes em produção usando MCP como camada de integração padrão. As dores de crescimento de um protocolo que cresceu rápido demais Crescer 4.750% em dezesseis meses tem consequências. O roadmap de 2026 do MCP, detalhado pela The New Stack, aborda problemas reais que surgiram com a adoção em escala. Autenticação e autorização. Quando o MCP era usado por desenvolvedores em ambientes locais, auth era um detalhe. Com servidores enterprise conectando agentes a sistemas críticos — ERP, bancos de dados financeiros, plataformas de compliance — a camada de segurança precisa ser robusta. O roadmap promete um framework de autenticação padronizado, mas por enquanto cada implementação resolve isso de forma diferente. Streaming e estado. Agentes em produção precisam manter contexto entre chamadas e lidar com operações de longa duração. O protocolo original foi desenhado para interações request-response simples. Adaptar isso para fluxos complexos — onde um agente monitora um pipeline de dados em tempo real, por exemplo — exige extensões que ainda estão sendo definidas. Governança de servidores. Com 5.800+ servidores, a qualidade varia enormemente. Alguns são mantidos por enterprises com SLA. Outros são projetos de fim de semana de um desenvolvedor que pode abandonar o repo amanhã. Para empresas que dependem de um servidor MCP em produção, a questão de quem mantém e garante a estabilidade é real. São dores legítimas. Mas são dores de crescimento, não de design. O protocolo funciona. O desafio agora é fazê-lo funcionar em escala enterprise com as garantias que produção exige. O elefante na sala: Anthropic controla o protocolo Não dá para analisar o MCP sem discutir quem o controla. A Anthropic criou o protocolo, mantém o repositório principal e define o roadmap. Sim, é open-source. Sim, qualquer um pode contribuir. Mas a governança é da Anthropic. Isso é ao mesmo tempo uma força e um risco. Força porque garante coerência de design e velocidade de evolução — não há comitê de 47 empresas discutindo a cor do bikeshed. Risco porque a Anthropic é uma empresa com interesses comerciais. Se em algum momento o protocolo evoluir de uma forma que favorece o ecossistema Claude em detrimento de outros, a neutralidade desmorona. Até agora, a Anthropic jogou o jogo certo. Manter o protocolo aberto o suficiente para que a OpenAI adotasse foi um movimento estratégico brilhante. Quando seu maior concorrente usa sua infraestrutura, você não precisa vencer a guerra dos modelos para controlar o ecossistema. É a mesma lógica que fez o Android dominar mobile. Google não precisava que todo mundo usasse Pixel. Precisava que todo mundo usasse Android. A Anthropic não precisa que todo mundo use Claude. Precisa que todo mundo use MCP. O que isso significa para startups brasileiras Aqui é onde a análise fica prática. O ecossistema brasileiro de agentes de IA está crescendo rápido. BNDES lançou fundo de R$1 bilhão para IA, aceleradoras estão financiando startups de agentes verticais, empresas como Stone, Nubank e iFood estão construindo capacidade interna de agentes. Se essas startups e times internos estão construindo agentes sem MCP, estão criando silos. Cada integração custom é dívida técnica. Cada conector proprietário é uma barreira para interoperabilidade. Quando um cliente pergunta "seu agente se integra com nosso CRM?" e a resposta é "precisamos de 3 semanas para construir o conector", o concorrente que responde "sim, via MCP" vence. A recomendação é direta: se você está construindo agentes no Brasil, MCP não é opcional. É a camada de integração que o ecossistema global padronizou. Ignorar isso é o equivalente a construir um app mobile que não roda em Android. Tecnicamente possível. Comercialmente suicida. Para quem quer ir além de consumir o protocolo, há oportunidade em contribuir. O ecossistema de servidores MCP ainda tem gaps significativos para ferramentas e plataformas populares no Brasil — Totvs, RD Station, Pipefy, Conta Azul. Construir e manter servidores MCP para o stack brasileiro é uma forma de gerar valor e posicionar-se no ecossistema global. O ponto que importa 97 milhões de installs não é uma métrica de vaidade. É a prova de que o ecossistema de agentes convergiu para um padrão de integração. Não é perfeito — o roadmap de 2026 mostra que há problemas reais a resolver. Não é neutro — a Anthropic controla a direção. Mas é o padrão. E em infraestrutura, o padrão vence o melhor. A Anthropic fez algo que nenhum outro player de IA conseguiu: criou a camada de interoperabilidade que todos usam. Não vendendo modelos. Vendendo o protocolo que conecta modelos ao mundo. E quem controla a conexão, controla o ecossistema.

Março 2026: o mês que reescreveu o playbook de funding em IA

Março 2026: o mês que reescreveu o playbook de funding em IA

Março de 2026 ainda não acabou e já produziu mais rodadas acima de US$100 milhões em inteligência artificial do que qualquer mês ou trimestre comparável na história do venture capital. Não é hipérbole — é dado do TechCrunch. E o mais revelador não é o volume de dinheiro. É para onde ele está indo. Há um ano, as megarrodadas de IA eram para quem prometia o melhor modelo. Hoje, o capital está migrando para quem constrói a infraestrutura que faz modelos funcionarem em produção — redes, segurança, governança, procurement, automação. A tese mudou. Quem vende a pá está vencendo quem cava. Os números de março: um mês que vale por um ano Vamos aos fatos. Nexthop AI levantou US$500 milhões numa Series B para redes otimizadas por IA. Quince, plataforma de e-commerce com IA embarcada, captou outros US$500 milhões a um valuation de US$10,1 bilhões. Axiom fechou US$200 milhões para segurança verificável de código gerado por IA. Kai trouxe US$125 milhões para cybersecurity agêntica. Oro Labs, focada em procurement inteligente, levantou US$100 milhões com Goldman Sachs co-liderando. E Gumloop, que constrói agentes de IA no-code, fechou uma Series B de US$50 milhões liderada pela Benchmark, com participação de YC, First Round e Shopify Ventures. Só essas seis rodadas somam US$1,475 bilhão. Em um mês. E não são exceções — startups do Reino Unido levantaram £149,1 milhões apenas na semana de 23 a 27 de março. Olha a composição dessas empresas. Nenhuma delas está construindo um novo LLM. Nexthop faz networking. Axiom faz verificação de código. Kai faz cybersecurity. Oro faz procurement. São empresas que resolvem problemas que surgem quando modelos de IA saem do laboratório e entram em operações reais. A tese que morreu: "quem tem o melhor modelo vence" Durante 2024 e boa parte de 2025, a corrida de IA era uma corrida de modelos. OpenAI, Anthropic, Google, Meta — cada um investindo bilhões para treinar o próximo modelo que superasse benchmarks. O dinheiro de venture seguia essa lógica: financiar quem pudesse competir na fronteira dos LLMs. Essa tese não desapareceu completamente, mas perdeu o monopólio sobre o capital. O que março de 2026 mostra é que os investidores entenderam algo que operadores de tecnologia já sabiam: ter o melhor modelo não adianta se você não consegue colocá-lo em produção com segurança, governança e infraestrutura adequada. O setor de IA agêntica — agentes autônomos que executam tarefas complexas — ilustra essa virada. Segundo dados da Tracxn, existem 1.041 empresas ativas no espaço de IA agêntica, das quais 530 já têm funding. A Automation Anywhere lidera com US$840 milhões em captação total. São empresas que não treinam modelos. Elas constroem os trilhos sobre os quais os modelos rodam. Por que a "trust layer" virou o novo ouro A rodada da Axiom — US$200 milhões para segurança verificável de código IA — é talvez o sinal mais claro da nova tese. O problema que a Axiom resolve é direto: quando um agente de IA escreve código, como você garante que esse código é seguro? Não "provavelmente seguro" ou "seguro segundo nosso benchmark interno". Verificavelmente seguro, com prova matemática. Esse é o tipo de problema que não existia há dois anos. Ninguém se preocupava com segurança de código gerado por IA quando os modelos mal conseguiam escrever um script funcional. Agora que modelos como Claude, GPT-5 e os open-source de fronteira escrevem código em produção, a camada de confiança se tornou crítica. O mesmo raciocínio vale para cada uma das rodadas de março. Kai resolve cybersecurity para agentes — porque agentes autônomos são superfícies de ataque. Oro Labs resolve procurement com IA — porque decisões de compra automatizadas precisam de audit trail. Nexthop resolve networking — porque infraestrutura de IA exige redes otimizadas para inferência distribuída. Em cada caso, a premissa é a mesma: IA em produção gera problemas novos, e problemas novos geram mercados novos. O efeito Gumloop: no-code encontra agentes Vale um destaque para a Gumloop. US$50 milhões numa Series B para uma plataforma de agentes no-code, liderada pela Benchmark com participação de YC, First Round e Shopify Ventures. Esse cap table não é acidente — são os investidores que definiram categorias como Figma, Uber e Shopify. A aposta da Benchmark na Gumloop sinaliza que a mesma democratização que aconteceu com web (WordPress), mobile (Bubble) e e-commerce (Shopify) está começando para agentes de IA. Se a tese estiver certa, nos próximos dois anos qualquer equipe de operações vai poder montar seus agentes sem escrever código. Isso importa porque muda quem compete. Quando construir um agente exige engenheiros de ML, só empresas com capital e talento participam. Quando é no-code, a barreira cai para o nível do conhecimento de domínio. E conhecimento de domínio é algo que empresas brasileiras têm de sobra em seus verticais. O que março de 2026 significa para o ecossistema brasileiro Toda vez que o venture capital americano redefine uma tese, o efeito cascata chega ao Brasil — com delay, mas chega. A migração de capital de "melhor modelo" para "infraestrutura e trust" tem três implicações concretas para o ecossistema local. O timing melhorou para startups brasileiras de infraestrutura de IA. Se o dinheiro global está indo para trust, governança e operações, startups brasileiras que constroem nessa camada ficam mais investíveis por fundos internacionais. Compliance com LGPD, integração com sistemas brasileiros (Pix, nota fiscal eletrônica, eSocial) — são moats locais que ganham valor quando a conversa muda de "qual modelo usar" para "como rodar IA em produção com segurança". VCs brasileiros vão atualizar a tese — mas devagar. A maioria dos fundos de venture no Brasil ainda opera com a tese de 2024: investir em startups que usam IA para resolver um problema vertical. Não está errado, mas o playbook global já evoluiu para uma camada abaixo — a infraestrutura que habilita todas essas startups verticais. Gestoras como Canary, Kaszek e NXTP vão precisar decidir se alocam capital nessa tese. O gap de capital fica mais evidente. Quando Axiom levanta US$200 milhões para verificação de código, e no Brasil a maior rodada de uma startup de IA em 2026 não chega a US$30 milhões, a diferença de escala é gritante. Isso não significa que startups brasileiras estão fazendo algo errado. Significa que competir globalmente na camada de infraestrutura de IA exige um volume de capital que o ecossistema brasileiro ainda não produz. O playbook reescrito Março de 2026 vai ser lembrado como o mês em que o mercado de venture capital em IA amadureceu. Não porque investiu mais — isso já vinha acontecendo. Mas porque mudou onde investiu. A mensagem é clara: modelos viraram commodity. O valor está em quem constrói a camada de trust, segurança e operações que transforma modelos em produtos confiáveis. Para quem constrói startups de IA, no Brasil ou fora, a pergunta não é mais "qual modelo você usa". É "que problema de infraestrutura, governança ou operações você resolve que ninguém mais resolve". Se a resposta for convincente, o capital aparece. Março provou isso com US$1,5 bilhão em um único mês.

NemoClaw: a NVIDIA construiu a camada enterprise que faltava aos agentes de IA — e o que isso muda para quem lidera

NemoClaw: a NVIDIA construiu a camada enterprise que faltava aos agentes de IA — e o que isso muda para quem lidera

A NVIDIA anunciou o NemoClaw na GTC 2026, em 16 de março. Trata-se de uma stack open-source, instalável com um único comando, construída para levar agentes de IA do piloto à produção enterprise com segurança, isolamento e governança embutidos. O timing não é acidental. Dados que este blog já cobriu mostram que 78% das empresas têm pilotos de agentes autônomos, mas apenas 14% conseguem escalar. O gap entre piloto e produção é, majoritariamente, um gap de infraestrutura de segurança e controle. NemoClaw é a resposta da NVIDIA a esse gap — e a primeira vez que um player desse porte entrega uma camada enterprise-grade especificamente desenhada para operação governada de agentes. O problema que a NVIDIA decidiu resolver Agentes de IA em piloto são demonstrações de capacidade. Agentes em produção são risco operacional. A diferença entre os dois cenários é tudo que envolve o agente além do modelo: isolamento de ambiente, controle de acesso a dados, enforcement de políticas de uso, auditoria de ações e proteção de privacidade. A maioria das organizações que pilota agentes hoje opera sem essas camadas. O agente roda com credenciais amplas, acessa dados sem restrição, executa ações sem sandbox e não tem mecanismo de policy enforcement. Funciona no laboratório porque o escopo é controlado. Quando o escopo é produção — com dados reais, sistemas críticos e reguladores atentos — a ausência dessas camadas é o que trava a escalada. O Gartner projeta que 40% dos projetos de IA agêntica serão cancelados até 2027 por falha de governança. A NVIDIA leu o mercado e construiu a infraestrutura que falta entre "agente funciona" e "agente opera com controle". O que NemoClaw entrega — traduzido para o board NemoClaw é construído sobre o OpenClaw, o framework de agentes open-source mais popular do mundo, com mais de 250 mil stars no GitHub. A NVIDIA adicionou três camadas que transformam o OpenClaw de ferramenta de desenvolvimento em plataforma de operação enterprise. NVIDIA OpenShell — isolamento de agentes. O componente central. OpenShell é um runtime que executa cada agente em um ambiente sandboxed. Na prática, significa que um agente não consegue acessar dados, ferramentas ou sistemas além do que foi explicitamente autorizado pela política da organização. Para o board, a tradução é direta: OpenShell é o equivalente a controle de acesso (IAM) para agentes autônomos. Cada agente opera dentro de um perímetro definido. Se o agente tenta ultrapassar esse perímetro, o runtime bloqueia. Policy-based security e guardrails. NemoClaw permite definir políticas que governam o comportamento do agente: quais APIs pode chamar, quais dados pode acessar, quais ações pode executar e em que condições. As políticas são declarativas — a organização define regras, e o runtime as aplica. Para compliance, isso significa que as restrições operacionais do agente são documentáveis, auditáveis e versionadas. Quando o regulador perguntar "quais são os limites operacionais deste agente?", a resposta está na política — não na memória de quem configurou o prompt. Privacy router. NemoClaw suporta modelos locais (on-device, como a família Nemotron da NVIDIA) e modelos cloud, com um roteador de privacidade que decide qual modelo processa cada requisição com base na sensibilidade dos dados. Dados sensíveis ficam em modelos locais. Dados não sensíveis podem ir para a nuvem. A decisão é automática e baseada em política — não em julgamento ad hoc do desenvolvedor. O privacy router e a questão regulatória O privacy router merece atenção separada porque endereça diretamente obrigações regulatórias que estão se materializando em múltiplas jurisdições. A LGPD exige que dados pessoais sejam tratados com base legal adequada e que o controlador garanta medidas técnicas de proteção. O EU AI Act, que entra em vigor em agosto de 2026, impõe obrigações de transparência e supervisão para sistemas de IA de alto risco. A ISO 42001 define requisitos de gestão para organizações que desenvolvem ou operam IA. O privacy router do NemoClaw não resolve compliance por si só — nenhuma ferramenta faz isso. Mas oferece uma camada técnica que facilita demonstrar ao regulador que a organização implementou controles de roteamento de dados por sensibilidade. É a diferença entre dizer "temos uma política de privacidade" e demonstrar que "dados pessoais não saem do ambiente local porque o roteador bloqueia automaticamente". A primeira frase é documento. A segunda é controle operacional verificável. Para organizações que operam sob LGPD e EU AI Act simultaneamente — caso de qualquer empresa brasileira com clientes europeus — o privacy router reduz a superfície de risco de transferência internacional de dados pessoais via IA. O que muda para CIOs e CTOs Até a GTC 2026, não existia uma stack enterprise-grade, open-source, que integrasse sandbox de agentes, policy enforcement e roteamento de privacidade em um pacote coeso. As organizações que queriam governança técnica de agentes precisavam construir internamente — custoso, lento e difícil de manter. NemoClaw muda essa equação de três formas:Reduz o tempo de readiness. A instalação com um único comando elimina semanas de configuração de infraestrutura de segurança para agentes. Para CIOs que precisam demonstrar progresso em governança de IA ao board, a velocidade de implementação é relevante.Padroniza a camada de controle. Com NemoClaw, a organização adota um padrão aberto de isolamento e policy enforcement para agentes. Isso facilita auditoria, onboarding de novos agentes e comparação com frameworks de mercado como NIST AI RMF.Desacopla governança de vendor de modelo. NemoClaw é hardware-agnostic e suporta múltiplos modelos. A organização não precisa escolher entre governança e flexibilidade de modelo. Isso é estratégico: evita que a decisão de governança crie lock-in com um fornecedor de modelo específico.Riscos que o board precisa ponderar NemoClaw resolve um problema real, mas não é uma decisão livre de riscos. Cinco pontos que devem entrar na avaliação: Status alpha. NemoClaw está em early-access preview. Não é produção-ready. Organizações que adotarem agora estão assumindo risco de instabilidade, breaking changes e suporte limitado. A recomendação é avaliar em ambiente de teste, não em sistemas críticos. Dependência de roadmap NVIDIA. Ser open-source não elimina o fato de que a NVIDIA define o roadmap de desenvolvimento. Se a NVIDIA redirecionar prioridades — como fez com outros projetos — a comunidade herda a manutenção. Para decisões de infraestrutura de longo prazo, esse risco precisa ser mapeado. Integração com stack existente. NemoClaw foi otimizado para hardware NVIDIA (DGX Station, DGX Spark), embora funcione em outros ambientes. Organizações com infraestrutura heterogênea precisam validar compatibilidade e performance antes de comprometer investimento. Governança não é só ferramenta. NemoClaw entrega a camada técnica de controle. Mas governança de agentes exige também processos, políticas, ownership de negócio, inventário, auditoria e accountability no board. A ferramenta habilita — não substitui — o framework organizacional. Maturidade do ecossistema. O OpenClaw tem comunidade robusta (250 mil stars), mas o NemoClaw como camada enterprise é novo. Documentação, cases de uso em produção e integrações com ferramentas corporativas ainda estão se formando. Recomendações práticas para a liderança A recomendação aqui é direta: NemoClaw merece avaliação imediata, não adoção imediata. Quatro ações para os próximos 90 dias: 1. POC com agentes não críticos. Selecionar um caso de uso de baixo risco — automação de relatórios internos, triagem de tickets de suporte, análise de documentos — e testar NemoClaw como camada de isolamento e controle. O objetivo não é produção: é avaliar se a ferramenta atende aos requisitos de segurança e policy enforcement da organização. 2. Mapear NemoClaw contra os 5 pilares de governança. Usando o framework de inventário, identidade, menor privilégio, observabilidade e compliance contínuo: onde NemoClaw contribui e onde há gaps que a organização precisa cobrir com processos e ferramentas adicionais. 3. Avaliar o privacy router contra requisitos de LGPD e EU AI Act. Para organizações sob regulação dupla ou tripla, testar se o roteamento de privacidade atende aos requisitos de localização e proteção de dados pessoais. Envolver jurídico e DPO na avaliação — não apenas engenharia. 4. Acompanhar o roadmap. NemoClaw é alpha. A decisão de investir em integração profunda deve esperar maturidade do produto. Enquanto isso, a organização pode usar o POC para construir competência interna em operação governada de agentes — competência que vale independentemente da ferramenta final escolhida. O que isso significa para quem toma decisão NemoClaw sinaliza uma mudança de fase no mercado de agentes de IA. A NVIDIA — a empresa mais valiosa do ecossistema de IA — está investindo em infraestrutura de governança, não apenas em capacidade computacional. Quando o maior fabricante de GPUs do mundo decide que o próximo problema a resolver é segurança e controle de agentes, a mensagem para o mercado é clara: agentes em produção sem governança é um cenário insustentável. Para boards e comitês de risco, NemoClaw não é a resposta — é uma ferramenta dentro da resposta. A camada técnica de controle é necessária, mas insuficiente sem o framework organizacional: inventário, ownership, auditoria, compliance. A ferramenta habilita; o board governa. A recomendação para quem lidera: colocar NemoClaw na agenda do comitê de tecnologia. Não como decisão de compra — como indicador de onde o mercado está indo. A era dos agentes em sandbox de laboratório está terminando. A era dos agentes em produção governada está começando. A pergunta é se a organização vai estar pronta quando a transição acontecer — ou se vai ser parte dos 40% que o Gartner projeta que vão falhar.

Physical AI na GTC 2026: a NVIDIA quer ser o Android da robótica — e 110 devs de 'robot brains' já embarcaram

Physical AI na GTC 2026: a NVIDIA quer ser o Android da robótica — e 110 devs de 'robot brains' já embarcaram

US$6,4 bilhões. Esse é o volume de capital que fluiu para startups de Physical AI só no primeiro trimestre de 2026. No mesmo período, a NVIDIA subiu ao palco da GTC e fez algo que nenhuma empresa de semicondutores costuma fazer: apresentou uma stack completa de software para robótica, da simulação ao cérebro do robô. Cosmos 3, Isaac GR00T N1.7, Alpamayo 1.5 — nomes que poucos fora do setor conhecem, mas que representam uma aposta de que a próxima grande plataforma de IA não vai rodar em datacenters. Vai andar, pegar objetos e operar no mundo físico. A pergunta que importa: a NVIDIA consegue fazer para robótica o que o Android fez para smartphones? O stack que a NVIDIA montou — e por que cada peça importa Physical AI é um termo que a NVIDIA vem empurrando há dois anos, mas na GTC 2026 ele ganhou substância concreta. A ideia é simples de explicar e difícil de executar: criar IA que entende e age no mundo físico — gravidade, atrito, geometria de objetos, movimentos humanos — e traduz tudo isso em ação motora. O stack tem três camadas. Cosmos 3 são world models — modelos que simulam o mundo físico com fidelidade suficiente para treinar robôs antes de colocá-los num galpão real. É o equivalente a um flight simulator, mas para braços robóticos e humanoides. A lógica econômica é direta: treinamento em simulação custa uma fração do treinamento no mundo real e elimina o risco de quebrar hardware caro durante o aprendizado. Isaac GR00T N1.7 é o cérebro do robô. Disponível em early access com licença comercial, o GR00T N1.7 oferece controle dextro avançado — a capacidade de manipular objetos com precisão usando mãos robóticas. É o tipo de competência que separa um robô de demonstração de um robô que opera numa linha de montagem. A versão N2, prevista para o fim de 2026, promete dobrar a taxa de sucesso em tarefas novas e ambientes desconhecidos, usando uma arquitetura chamada DreamZero World Action Model. Alpamayo 1.5 completa a stack no lado de percepção e planejamento. E no hardware, a NVIDIA já tem os chips Jetson para rodar tudo isso na borda, sem depender de conexão com a nuvem. É uma plataforma vertical: simulação, treinamento, cérebro e hardware. Tudo de uma empresa. "O Android da robótica" — a comparação que faz sentido e onde ela quebra O TechCrunch cunhou a frase: "NVIDIA quer ser o Android da robótica generalista". É uma comparação que funciona em vários níveis. Assim como o Android ofereceu um sistema operacional gratuito que permitiu a dezenas de fabricantes de hardware competirem com o iPhone, a NVIDIA está oferecendo um stack de software que permite a fabricantes de robôs construírem produtos sem precisar desenvolver a inteligência do zero. E o ecossistema já está se formando. São 110 desenvolvedores de "robot brains" trabalhando sobre a plataforma NVIDIA. Parceiros industriais de peso — ABB, FANUC, KUKA, Hexagon Robotics — adotaram as tecnologias. A extensão para robótica médica e cirúrgica já começou. Mas a comparação tem limites importantes. O Android prosperou porque o custo de um smartphone caiu para US$50. Robôs industriais custam dezenas ou centenas de milhares de dólares. A barreira de adoção não é só software — é capital, integração e regulação. E diferente do mercado mobile, onde um app funciona em qualquer Android, cada aplicação robótica tem restrições físicas únicas. Um robô que opera num warehouse não opera num hospital sem reengenharia significativa. A NVIDIA entendeu isso. O GR00T N1.7 foi projetado para robôs "produzidos em massa" — a ênfase é em escala, não em customização artesanal. Se o preço do hardware cair e a taxa de sucesso do N2 se confirmar, a comparação com o Android pode deixar de ser metáfora e virar descrição. O ecossistema de startups que já orbita a plataforma Quando uma plataforma atinge massa crítica, o ecossistema ao redor cresce mais rápido que a plataforma em si. É o que está começando a acontecer. O caso mais interessante é o ROSClaw, que nasceu de um hackathon da comunidade OpenClaw. O projeto cria uma ponte entre o OpenClaw e o ROS 2 — o framework padrão de robótica — permitindo que agentes de IA controlem robôs via chat. É o tipo de integração que parece trivial mas desbloqueia uma classe inteira de aplicações: operadores humanos dando instruções em linguagem natural para robôs em chão de fábrica. Fora do ecossistema direto da NVIDIA, a Skild AI levantou US$1,4 bilhão a um valuation de US$14 bilhões. A tese é construir um foundation model para controle robótico — um GPT para robôs. A OpenAI, por sua vez, fez seis aquisições em 2026, com foco crescente em Physical AI. É capital sério perseguindo a mesma tese de direções diferentes. O padrão é familiar para quem acompanha ciclos de plataforma: a NVIDIA fornece a infraestrutura, startups constroem aplicações verticais em cima, grandes empresas industriais integram. Quem controla a plataforma captura valor desproporcional — mas quem constrói as aplicações certas nos verticais certos também ganha. E o Brasil nessa história? Toda vez que uma plataforma horizontal surge, a pergunta para o ecossistema brasileiro é a mesma: vamos ser consumidores ou construtores? O Brasil tem três verticais onde Physical AI tem aplicação imediata e vantagem competitiva local. Agro robotizado. O agronegócio brasileiro é um dos mais avançados do mundo em escala, mas a automação robótica ainda é incipiente. Colheita seletiva, monitoramento de pragas com drones autônomos, operação de máquinas pesadas com controle por IA — são aplicações que se beneficiam diretamente do stack NVIDIA e onde startups brasileiras entendem o contexto operacional melhor que qualquer competidor do Vale do Silício. Manufatura. O parque industrial brasileiro precisa de modernização, e robótica colaborativa — robôs que trabalham ao lado de humanos — é a porta de entrada. Integrar GR00T com linhas de produção existentes é um problema de engenharia de aplicação, não de pesquisa fundamental. Startups que dominarem essa integração capturam um mercado que importa hoje US$800 milhões em robôs industriais por ano. Healthtech. A expansão de Physical AI para robótica cirúrgica abre espaço para startups que construam ferramentas de planejamento e simulação sobre o Cosmos. O SUS atende 150 milhões de brasileiros — escala não é problema. Falta tecnologia acessível. O BNDES sinalizou um fundo de até R$1 bilhão para IA e data centers. Se uma fração desse capital for direcionada para Physical AI aplicada, o Brasil pode sair da posição de espectador. Physical AI é onde os agentes encontram o mundo real A narrativa dominante dos últimos dois anos foi sobre agentes de software — código que escreve código, assistentes que agendam reuniões, bots que negociam contratos. Physical AI é o próximo capítulo: agentes que não só pensam, mas agem no mundo dos átomos. A NVIDIA está apostando que vai controlar a plataforma desse mundo. Com Cosmos para simulação, GR00T para o cérebro e Jetson para o hardware, ela tem a stack mais completa do mercado. Os 110 desenvolvedores de robot brains e os parceiros industriais de peso dão credibilidade à aposta. Mas plataformas não vencem por completude técnica — vencem por ecossistema. O Android não ganhou por ser melhor que o iOS. Ganhou porque era aberto o suficiente para que milhares de fabricantes e desenvolvedores construíssem em cima. A pergunta de US$6,4 bilhões é se a NVIDIA vai ser aberta o suficiente para que isso aconteça na robótica. Os primeiros sinais — licença comercial no GR00T N1.7, integração com ROS 2 via ROSClaw, early access para desenvolvedores — apontam que sim. Quem chegar primeiro à produção em escala, vence. E agora existe uma plataforma para tentar.

OpenClaw bate 250 mil stars no GitHub em 60 dias — e redesenha o mapa dos agentes de IA

OpenClaw bate 250 mil stars no GitHub em 60 dias — e redesenha o mapa dos agentes de IA

Um número para calibrar a conversa: 250 mil stars no GitHub em 60 dias. O OpenClaw, um agente de IA autônomo e open-source, ultrapassou o React — que levou uma década para chegar ao mesmo patamar. São 47.700 forks. Nove mil stars no primeiro dia de lançamento, em 25 de janeiro de 2026. Esses números não medem apenas popularidade. Medem velocidade de adoção de uma categoria que está se formando em tempo real. De Clawdbot a OpenClaw: a trajetória de um projeto que não parava quieto O criador é Peter Steinberger, um desenvolvedor austríaco que se define como "vibe coder" — a prática de programação onde a IA escreve o código, a IA roda os testes e o humano basicamente clica para confirmar. O projeto nasceu em novembro de 2025 com o nome Clawdbot. Em janeiro de 2026, virou Moltbot após uma reclamação de trademark da Anthropic. Dias depois, renasceu como OpenClaw. Três nomes em três meses. O que não mudou foi a proposta: um agente autônomo, gratuito, que qualquer desenvolvedor pode rodar, modificar e integrar. Enquanto empresas como a Anthropic e a OpenAI constroem agentes proprietários dentro de ecossistemas fechados, o OpenClaw fez o caminho oposto — e o GitHub votou com stars. 250 mil stars: o que o número realmente diz Comparar com o React é útil para dimensionar. O React foi lançado pelo Facebook em 2013 e levou cerca de dez anos para atingir essa marca. Ele definiu como a web moderna é construída. O OpenClaw fez o mesmo trajeto em dois meses. Isso não significa que o OpenClaw é mais importante que o React. Significa que a demanda por ferramentas de agentes autônomos open-source é enorme e estava represada. Desenvolvedores do mundo inteiro estavam esperando uma base aberta sobre a qual construir — e o OpenClaw chegou no momento certo, com a licença certa e a arquitetura certa. O crescimento de 9 mil stars no dia do lançamento para 250 mil em março confirma uma coisa: não foi hype de um dia. É adoção sustentada. O ecossistema que se formou em volta O mais interessante do OpenClaw não é o projeto em si — é o que está sendo construído em cima dele. O ROSClaw venceu o SF OpenClaw Hackathon. É uma ponte entre o OpenClaw e o ROS 2, o framework padrão de robótica. Na prática, isso significa que o OpenClaw já roda em robôs Unitree G1, drones e quadrúpedes. Um laboratório chinês demonstrou controle remoto de robôs humanoides usando OpenClaw com computação orbital. A fronteira entre agentes de software e agentes no mundo físico está encolhendo rápido. Na outra ponta, a NVIDIA lançou o NemoClaw durante a GTC 2026. É uma camada enterprise em cima do OpenClaw, com segurança, privacidade e as garantias que empresas exigem para colocar agentes em produção. A NVIDIA olhou para o OpenClaw e viu o que faltava no mercado: uma plataforma aberta de agentes sobre a qual construir valor enterprise. Em menos de três meses, o OpenClaw gerou um ecossistema com hackathons, extensões de robótica e uma camada corporativa da maior empresa de chips do mundo. Isso não é um projeto de GitHub — é uma plataforma. Por que Steinberger foi para a OpenAI em vez de criar uma startup Aqui está a decisão contraintuitiva. Em 14 de fevereiro de 2026, Steinberger anunciou que estava indo para a OpenAI. O OpenClaw seria transferido para uma fundação open-source independente. A frase dele: "O que eu quero é mudar o mundo, não construir uma grande empresa." Na lógica do Vale do Silício, isso não faz sentido. Você cria o projeto open-source mais popular do momento, com ecossistema formado e a NVIDIA construindo em cima, e em vez de levantar uma Series A de US$100 milhões, vai ser funcionário? Mas a decisão revela algo importante sobre a dinâmica do mercado de agentes. Steinberger entendeu que o valor do OpenClaw como plataforma aberta é maior do que o valor de uma startup fechada construída em volta dele. Uma fundação independente garante neutralidade — e neutralidade é o que atrai contribuidores, extensões como o ROSClaw e investimentos enterprise como o da NVIDIA. Se o OpenClaw fosse propriedade de uma startup, a NVIDIA provavelmente teria construído sua própria solução. Commoditização do agente base: onde está o valor real O padrão que o OpenClaw revela é familiar para quem acompanha a história do open-source. Linux é gratuito. Red Hat construiu um negócio de bilhões em cima. Android é aberto. Google captura valor via Play Store e serviços. O agente base está se commoditizando. O valor migra para as camadas acima. No caso dos agentes de IA, essas camadas são: segurança enterprise (NemoClaw), integrações verticais (ROSClaw para robótica), e ferramentas de monitoramento, billing e compliance para agentes em produção. Exatamente o tipo de infraestrutura que, não por coincidência, 41,5% do batch W26 da Y Combinator está construindo. Para startups, a implicação é direta: construir outro agente genérico de IA provavelmente é uma perda de tempo. O OpenClaw é gratuito e tem 250 mil stars. A oportunidade está na camada acima — ferramentas, integrações e serviços que fazem agentes funcionarem em contextos específicos. E o Brasil nessa história? O OpenClaw é open-source. Não tem barreira geográfica. E isso cria uma oportunidade que o ecossistema brasileiro costuma ignorar: contribuição direta para projetos de infraestrutura global. Desenvolvedores brasileiros tendem a consumir ferramentas open-source, não a construí-las. Mas o momento do OpenClaw — projeto recente, fundação recém-criada, ecossistema ainda se formando — é exatamente quando contribuidores externos têm mais impacto. Uma extensão do OpenClaw para um vertical específico da América Latina, uma integração com infraestrutura local, uma contribuição para o ROSClaw com foco em agricultura de precisão — são caminhos concretos. Hackathons de OpenClaw já estão acontecendo em São Francisco. Não há razão técnica para que não aconteçam em São Paulo, Florianópolis ou Recife. A comunidade está sendo construída agora. Quem entra cedo, define o terreno. O mapa que está se desenhando O OpenClaw não é apenas um projeto popular. É um sinal de mercado. O agente autônomo como commodity aberta, com valor capturado nas camadas de cima — enterprise, robótica, verticais específicas. Um criador que escolhe a fundação aberta em vez da startup fechada. Uma NVIDIA que constrói por cima em vez de competir por baixo. Se agentes de IA são o próximo sistema operacional da economia digital, o OpenClaw está disputando o papel de kernel. E como todo kernel, o que importa não é quem o escreveu — é o que vai rodar em cima dele.

IA agêntica nas empresas: por que 40% dos projetos vão fracassar e como evitar estar nessa lista

IA agêntica nas empresas: por que 40% dos projetos vão fracassar e como evitar estar nessa lista

O Gartner projeta que mais de 40% dos projetos de IA agêntica em empresas serão cancelados até 2027. O motivo não é falha de tecnologia — é falha de governança. Em paralelo, o relatório State of AI 2026 da Deloitte mostra que apenas uma em cada cinco organizações possui um modelo maduro de governança para agentes autônomos. O gap entre velocidade de adoção e capacidade de controle está se ampliando. E é nesse gap que o risco operacional, jurídico e reputacional se acumula. IA agêntica não é chatbot com nome novo A distinção importa para quem toma decisão de investimento. Um chatbot recebe uma pergunta e devolve uma resposta. Um agente de IA recebe um objetivo e executa ações para atingi-lo — navega sistemas, toma decisões intermediárias, acessa APIs, modifica dados, dispara processos. A diferença operacional é fundamental: agentes agem. Não sugerem — executam. Um agente de compras pode negociar com fornecedores, aprovar ordens de compra e atualizar o ERP. Um agente de atendimento pode emitir reembolsos, alterar contratos e escalar casos para humanos. Quando um agente erra, o erro não fica contido numa janela de chat. Ele se propaga pelos sistemas integrados. Em cascata. É essa capacidade de ação autônoma que torna a governança de IA agêntica fundamentalmente diferente da governança de IA generativa. O risco não é o agente gerar um texto incorreto. É o agente executar uma ação incorreta com consequências reais no P&L. Por que 40% vão fracassar Três causas raiz explicam a projeção do Gartner. Nenhuma é técnica. Ausência de inventário. A maioria das organizações não sabe quantos agentes opera, onde estão deployados, quais sistemas acessam e quem é o owner de negócio de cada um. Sem inventário, não há governança — há improvisação. É o equivalente a ter funcionários que ninguém contratou formalmente operando em sistemas críticos sem supervisão. Permissões sem controle. Agentes estão sendo deployados com credenciais amplas porque é mais rápido. A lógica de "dar acesso total e depois restringir" é a mesma que gerou os maiores incidentes de segurança da última década. Quando um agente com permissões excessivas interpreta mal uma instrução ou alucina um objetivo intermediário, o dano é proporcional ao acesso que ele tem. Observabilidade zero. Organizações conseguem monitorar uptime e latência de um agente. Mas não monitoram o que o agente decidiu, por que decidiu e qual foi a cadeia de ações. Quando algo dá errado — e vai dar — não há audit trail para diagnosticar a causa raiz, atribuir responsabilidade ou demonstrar ao regulador que existia supervisão. Esses três gaps são sistêmicos. Resolver um sem os outros cria uma falsa sensação de controle. Os 5 pilares de governança para IA agêntica A recomendação aqui é direta: antes de escalar agentes em produção, a organização precisa ter cinco capacidades operacionais funcionando. Não como política — como processo. 1. Inventário de agentes. Registro centralizado de todo agente em operação: nome, função, sistemas acessados, owner de negócio, classificação de risco, data de deploy, modelo subjacente e versão. Atualizado com a mesma disciplina de um inventário de ativos de TI. Se a organização não consegue listar seus agentes em 24 horas, não está pronta para escalar. 2. Identidade e autenticação. Cada agente precisa de uma identidade única — não compartilhada com outros agentes ou com credenciais de usuários humanos. Autenticação baseada em certificados, tokens de curta duração e registro de cada sessão. Quando um agente executa uma ação, o sistema precisa saber qual agente, com qual identidade, em qual contexto. 3. Menor privilégio. Agentes devem operar com o mínimo de permissões necessário para a tarefa específica. Acesso amplo por conveniência é risco acumulado. A implementação exige revisão periódica de permissões — trimestral no mínimo — com owner de negócio atestando que cada permissão é necessária. O paralelo com IAM (Identity and Access Management) para humanos é direto e intencional. 4. Observabilidade de decisões. Monitorar métricas de infraestrutura não é suficiente. A organização precisa registrar a cadeia completa de decisões do agente: objetivo recebido, plano gerado, ações executadas, dados acessados, resultados obtidos. Esse log é o que permite audit trail, root cause analysis e demonstração de compliance. Sem observabilidade de decisões, a organização não sabe o que seus agentes estão fazendo — e ninguém no board deveria aceitar isso. 5. Compliance contínuo. Governança de agentes não é um projeto com data de entrega. É um processo contínuo que acompanha o ciclo de vida do agente: deploy, operação, atualização, descomissionamento. Cada mudança de modelo, de prompt, de permissão ou de escopo requer reavaliação. O framework deve incluir testes automatizados de compliance — o agente ainda opera dentro dos limites definidos? — executados com frequência programada. O framework de Singapura como referência Em janeiro de 2026, a IMDA (Infocomm Media Development Authority) de Singapura publicou um framework de governança específico para IA agêntica. É o primeiro de um regulador nacional a endereçar agentes autônomos de forma estruturada. O framework é relevante por três razões: aborda explicitamente o risco de ações autônomas em cascata, define responsabilidades entre operadores e desenvolvedores de agentes, e propõe uma estrutura de accountability que pode ser auditada. Para organizações que operam globalmente, o framework de Singapura funciona como benchmark — não como obrigação regulatória, mas como referência de maturidade. Se a governança interna da organização não atende ao que Singapura propõe, há gaps a endereçar. O contexto brasileiro No Brasil, o cenário adiciona camadas de complexidade. A LGPD já exige explicabilidade para decisões automatizadas que afetem titulares de dados (art. 20). Um agente de IA que toma decisões autônomas sobre crédito, contratação ou precificação precisa ter sua lógica explicável. Agentes que operam como caixas-pretas violam esse requisito antes mesmo de entrar em produção. O PL 2338 (Marco Legal de IA) vai formalizar obrigações adicionais: avaliação de impacto, supervisão humana, transparência. Empresas brasileiras que já estruturam governança de IA agêntica hoje estarão posicionadas. As que esperarem pela regulação vão enfrentar o custo de adequação sob pressão — sempre mais caro e mais arriscado. O checklist que o CAIO precisa levar ao conselho Cinco perguntas que o conselho deveria conseguir responder antes de autorizar a escala de agentes em produção:Quantos agentes operam na organização hoje, e existe um inventário centralizado com owner de negócio para cada um? Cada agente tem identidade única, ou agentes compartilham credenciais entre si ou com usuários humanos? As permissões de cada agente seguem o princípio de menor privilégio, com revisão periódica documentada? Existe log completo da cadeia de decisões dos agentes — não apenas métricas de infraestrutura? O framework de governança cobre o ciclo completo do agente, incluindo atualização e descomissionamento?Se a resposta para qualquer uma dessas perguntas for "não" ou "não sabemos", a organização não está pronta para escalar. E escalar sem controle é acumular risco que vai se materializar. O Gartner está dizendo que 40% vão descobrir isso da forma mais cara possível. A recomendação é que esse checklist entre na próxima pauta do conselho. Não como item informativo — como item deliberativo. O momento de governar agentes de IA é antes de eles estarem em produção, não depois do primeiro incidente.

O vale da morte dos agentes de IA: 78% pilotam, 14% escalam — e quem lucra é quem vende a pá

O vale da morte dos agentes de IA: 78% pilotam, 14% escalam — e quem lucra é quem vende a pá

Uma pesquisa de março de 2026 com 650 líderes de tecnologia trouxe dois números que resumem o estado dos agentes de IA nas empresas: 78% têm pelo menos um piloto rodando. Apenas 14% conseguiram escalar para uso organizacional. A distância entre esses dois números é o que o mercado está chamando de "vale da morte dos agentes". E como todo vale da morte, é ao mesmo tempo um cemitério de projetos e uma oportunidade enorme para quem resolve o problema certo. Os 5 bloqueadores que travam a escalada Os dados da pesquisa detalham onde os pilotos morrem. Não é na tecnologia do agente em si — é em tudo que está ao redor dele. Integração com sistemas legados (46%). Quase metade dos líderes apontam isso como o bloqueador principal. Um agente que funciona no sandbox não sobrevive ao encontrar um ERP de 15 anos, APIs SOAP, bancos de dados sem documentação e processos que ninguém mapeou completamente. A complexidade não é construir o agente — é conectá-lo ao mundo real da empresa. Qualidade inconsistente em volume (32%). Um agente que acerta 95% das respostas em um piloto com 500 interações pode cair para 80% quando processa 50 mil. Alucinações que são anedota em piloto viram risco operacional em produção. E a maioria das empresas não tem ferramentas para detectar essa degradação em tempo real. Ausência de ferramentas de monitoramento. Quando um agente toma uma decisão errada às 3h da manhã, quem percebe? Dashboards de observabilidade para agentes autônomos praticamente não existiam até recentemente. As ferramentas de APM tradicionais — Datadog, New Relic — foram construídas para monitorar software determinístico, não sistemas que tomam decisões probabilísticas. Falta de ownership organizacional. De quem é o agente? Do time de IA? De produto? De operações? Em muitas empresas, o piloto é tocado por um squad de inovação que não tem poder para forçar integração com sistemas core. Quando o piloto precisa virar produção, esbarra na política interna. Dados de treinamento insuficientes. Agentes precisam de dados do contexto específico da empresa para funcionar bem. Muitas organizações descobrem, tarde demais, que seus dados internos são desorganizados, incompletos ou inacessíveis. O investimento em curadoria e pipeline de dados é subestimado em 40% a 60%, segundo a pesquisa. Picks and shovels: a tese de infraestrutura Na corrida do ouro da Califórnia, quem mais lucrou foram os vendedores de pás e picaretas. Na corrida dos agentes de IA, a lógica é a mesma. Se 78% das empresas estão pilotando agentes e apenas 14% escalam, existe um mercado massivo de organizações dispostas a pagar por ferramentas que resolvam o gap. Não é mais uma questão de "se" agentes vão para produção — é uma questão de "com qual infraestrutura". O batch W26 da YC confirmou essa tese de forma inequívoca: 41,5% das startups selecionadas constroem infraestrutura para agentes autônomos. Autenticação, testes, billing, monitoramento, segurança. A YC não está apostando em mais agentes — está apostando nas ferramentas que fazem agentes funcionarem em escala. Quem está resolvendo o problema O ecossistema de startups de infraestrutura para agentes está se formando rápido. Algumas categorias que estão ganhando tração: Observabilidade para agentes. Startups construindo dashboards que monitoram não só latência e uptime, mas qualidade de decisão, taxa de alucinação, drift de comportamento e custo por tarefa. É o Datadog dos agentes — e quem chegar primeiro com um produto que funciona em produção vai capturar um mercado que não existia dois anos atrás. Avaliação e testing. Frameworks que permitem testar agentes antes do deploy, medir performance em cenários adversos e detectar regressões. O equivalente a CI/CD para sistemas não-determinísticos. Se um agente vai aprovar empréstimos ou fazer triagem médica, alguém precisa garantir que ele funciona antes de ir ao ar. Integração e orquestração. Plataformas que conectam agentes a sistemas legados sem exigir que a empresa reescreva tudo. Middlewares que traduzem entre o mundo de APIs modernas e os ERPs, CRMs e bancos de dados que existem há décadas. É o problema mais chato e talvez o mais lucrativo — porque toda empresa que quer escalar agentes esbarra nele. Governança e compliance. Ferramentas que definem o que um agente pode e não pode fazer, auditam decisões e mantêm logs para reguladores. À medida que agentes tomam decisões com impacto financeiro e legal, essa camada deixa de ser nice-to-have e vira requisito. A oportunidade brasileira no meio do gap Aqui é onde eu conecto os pontos. O ecossistema brasileiro de IA tem 975 startups ativas e um gap de capital que dificulta competir em modelos foundation ou em agentes verticais que exigem escala global. Mas infraestrutura de agentes é diferente. Primeiro, a competição é mais fragmentada. Nenhuma startup domina observabilidade ou testing de agentes da mesma forma que a OpenAI domina modelos. A janela está aberta. Segundo, o mercado latino-americano tem necessidades específicas. Integrações com sistemas locais — TOTVS, SAP adaptado para Brasil, sistemas do governo — exigem conhecimento que startups americanas não têm. Uma startup brasileira que constrói a camada de integração entre agentes e sistemas corporativos da América Latina tem um moat geográfico real. Terceiro, custo de operação. Construir ferramentas de infraestrutura exige engenharia, não datasets bilionários ou clusters de GPUs. Uma equipe de engenharia forte no Brasil pode competir em qualidade a uma fração do custo de uma equipe no Vale do Silício. O BNDES planeja um fundo de até R$1 bilhão para IA. Se parte desse capital for direcionada para startups de infraestrutura de agentes — e não apenas para aplicações de IA genéricas — o ecossistema pode capturar uma fatia relevante de um mercado global que está nascendo agora. O dinheiro está na camada de baixo A narrativa dominante de IA é sobre agentes cada vez mais inteligentes. Modelos maiores, benchmarks quebrados, demos impressionantes. Mas o dado de 78% vs 14% conta outra história: inteligência não é o gargalo. Infraestrutura é. Empresas não estão falhando porque seus agentes são burros. Estão falhando porque não têm como conectá-los, monitorá-los, testá-los e governá-los em escala. Quem resolver esses problemas vai construir as empresas mais duráveis desta era — porque infraestrutura é a camada que sobrevive às mudanças de modelo, de framework e de hype. Na corrida do ouro dos agentes, a maioria está comprando ouro. Eu estou de olho em quem está vendendo a pá.

YC W26: 60% do batch é IA — e a infraestrutura de agentes domina

YC W26: 60% do batch é IA — e a infraestrutura de agentes domina

A Y Combinator acabou de encerrar o Demo Day do batch W26. Os números: 196 startups apresentadas entre 24 e 26 de março. Dessas, 60% são de IA — contra 40% em 2024. Mas o dado que importa de verdade é outro: 41,5% do batch inteiro está construindo infraestrutura para agentes autônomos. Não são chatbots. São ferramentas de autenticação, testes, segurança, monitoramento e billing para agentes que operam sozinhos em produção. A YC está dizendo, com dinheiro e seleção, que a era dos agentes já começou — e que falta o encanamento para ela funcionar. O batch mais forte da história da YC Não é exagero. 14 startups chegaram ao Demo Day com US$1 milhão de receita recorrente anual. Isso nunca aconteceu. O Rebel Fund, que acompanha cada batch com métricas proprietárias, classificou 35% das empresas no top 20% de todas as startups que já passaram pela YC. Analistas projetam algo em torno de 20 unicórnios saindo deste batch — uma taxa de 10%, mais que o dobro da média histórica de 4,5%. É cedo para confirmar, mas a combinação de receita real + tese forte + timing de mercado sustenta o otimismo. Infraestrutura de agentes: a nova categoria Se em 2024 a YC selecionou startups que usavam IA, em 2026 ela está selecionando startups que fazem a IA funcionar em escala. A diferença é sutil mas fundamental. Pense assim: quando agentes autônomos começam a fechar contratos, operar supply chains e tomar decisões financeiras, alguém precisa garantir que eles tenham permissão para agir, que seus outputs sejam testáveis, que o billing funcione por tarefa executada e que um humano consiga monitorar o que está acontecendo. Essa é a camada que 41,5% do batch está construindo. É a lógica de "picks and shovels" aplicada à corrida do ouro dos agentes. Quem vende a infraestrutura lucra independentemente de qual agente vence. O giro para o mundo físico Outra mudança silenciosa: o batch W26 tem uma presença forte de startups atacando problemas do mundo físico. Robótica, energia, agricultura, construção civil. A onda de consumer AI de 2023-2024 — apps de geração de imagem, wrappers de ChatGPT — praticamente desapareceu. A ARC Prize Foundation, uma das startups selecionadas, cria benchmarks de AGI usados por OpenAI, Anthropic e Google. A Asimov coleta dados de movimento humano para treinar robôs humanoides. A Pocket já despachou mais de 30 mil unidades de hardware em cinco meses. Saúde também aparece com força — cerca de 10% do batch. Legal tech está acelerando. O padrão é claro: investidores querem IA que resolve problemas concretos, com moat defensável e ciclo de vendas corporativo. E o Brasil? A YC não divulga a lista completa de países, mas o ecossistema brasileiro de IA está num momento interessante. O número de startups ativas de IA no Brasil cresceu 40% nos últimos anos — de 352 para 975. O BNDES planeja um fundo de R$500 milhões a R$1 bilhão para IA e data centers. O programa Rio.IA 2026 vai selecionar 8 startups com R$80 mil cada para proof of concept. São sinais positivos. Mas a distância ainda é enorme. Enquanto o batch W26 tem startups com US$1M de ARR antes de Demo Day, a maioria das startups brasileiras de IA não passou da barreira de US$10 milhões em captação total. São apenas 23 que conseguiram. A oportunidade existe — especialmente para startups brasileiras que constroem infraestrutura de agentes (onde a competição global é mais fragmentada) ou que aplicam IA a problemas específicos da América Latina. Mas para capturar essa oportunidade, o ecossistema precisa de mais capital de risco, mais exits e mais founders que já operaram em escala. O que isso sinaliza para o mercado O batch W26 é um termômetro confiável do que os investidores mais sofisticados do mundo acreditam que vai funcionar. E a mensagem é tripla:Agentes autônomos são a tese dominante. Não como promessa — como produto com receita. A camada de infraestrutura para agentes é o novo SaaS. Auth, billing, testes, observabilidade — tudo precisa ser reinventado para um mundo onde software age sozinho. O mundo físico voltou. Robótica, hardware e problemas tangíveis estão atraindo capital sério.Se você está construindo algo em IA, o W26 é um mapa. Leia a lista de startups. Veja onde o dinheiro está indo. E preste atenção no que não apareceu — porque o que a YC deixou de fora também conta uma história.

Harvey levanta US$200M a US$11B de valuation: agentes jurídicos saíram do piloto

Harvey levanta US$200M a US$11B de valuation: agentes jurídicos saíram do piloto

A Harvey acaba de fechar uma rodada de US$200 milhões a um valuation de US$11 bilhões. Há três meses, o número era US$8 bilhões. Um salto de 37,5% em um trimestre — para uma empresa que vende software para advogados. Os investidores são GIC (fundo soberano de Cingapura) e Sequoia na liderança, com a16z, Coatue e Kleiner Perkins na mesa. Quando esse tipo de capital se alinha numa mesma rodada, a mensagem é clara: agentes de IA verticais não são aposta — são tese consolidada. O que a Harvey faz (de verdade) A Harvey constrói agentes de IA que completam tarefas jurídicas de forma autônoma. Não é um chatbot que responde perguntas sobre contratos. São sistemas que fazem due diligence, revisam documentos regulatórios, preparam memorandos e analisam jurisprudência — trabalho que, até ontem, exigia associados juniores cobrando centenas de dólares por hora. Mais de 100 mil advogados em 1.300 organizações usam a plataforma. Isso inclui escritórios de advocacia do Magic Circle e corporações do Fortune 500. Quando a adoção chega nesse nível, não estamos mais falando de piloto. Por que US$11B faz sentido O mercado jurídico global movimenta mais de US$1 trilhão por ano. A maior parte desse valor é mão de obra — advogados fazendo trabalho repetitivo que segue padrões documentáveis. É exatamente o tipo de tarefa onde agentes de IA performam melhor que humanos: alta precisão, grande volume, tolerância zero a erro. A Harvey não está competindo com software jurídico tradicional. Está capturando horas de trabalho humano. Cada hora substituída por um agente é receita que sai do headcount do escritório e vai para a assinatura da plataforma. Isso explica a velocidade do crescimento de valuation: o TAM não é o mercado de legal tech — é o mercado de trabalho jurídico. O modelo que está funcionando A Harvey é o exemplo mais nítido de um padrão que está se repetindo no ecossistema:Escolhe um vertical com custo de mão de obra alto. Direito, saúde, contabilidade, compliance. Constrói agentes que fazem o trabalho, não ferramentas que ajudam a fazer. A diferença é crucial — um copiloto sugere, um agente executa. Vende por valor entregue, não por seat. Quando o agente substitui horas de associado, o ROI é imediato e mensurável. Acumula dados proprietários de cada vertical. Cada contrato revisado, cada memorando gerado, cada due diligence completada treina o sistema para o próximo caso.Sierra (atendimento ao cliente, US$150M de ARR em janeiro) segue a mesma lógica. Cursor (desenvolvimento de software, US$2B de ARR) também. O padrão é vertical + agente autônomo + captura de labor spend. O gap entre piloto e produção Os números da Harvey contrastam com uma realidade mais ampla do mercado. Uma pesquisa recente com 650 líderes de tecnologia mostrou que 78% das empresas têm pelo menos um piloto de agente de IA rodando, mas menos de 15% chegaram à produção. O gargalo não é tecnológico — é organizacional. Falta infraestrutura de avaliação, monitoramento e ownership. Quem define se o agente pode tomar uma decisão? Quem audita o resultado? Quem é responsável quando dá errado? A Harvey resolveu isso porque o setor jurídico tem algo que poucos verticais têm: processos extremamente bem documentados, padrões de qualidade claros e uma cultura de revisão. O agente da Harvey não opera no escuro — opera dentro de um framework onde cada output pode ser verificado. Para outros setores, a lição é: antes de deployar agentes em produção, resolva o problema de governança. A tecnologia está pronta. A organização, na maioria dos casos, não. O que isso significa para startups Se você está construindo agentes verticais, a Harvey é o benchmark. Três pontos para prestar atenção: O valuation é função de labor displacement, não de ARR. Investidores estão precificando o tamanho da mão de obra que pode ser substituída, não a receita atual. Por isso os múltiplos parecem absurdos comparados com SaaS tradicional. O moat é o dado vertical. Modelos foundation são commodity. O diferencial está nos dados específicos do setor que você acumula com cada cliente. Harvey tem milhões de documentos jurídicos processados. Esse dataset não se replica. Timing importa. Harvey entrou cedo no jurídico e agora tem 100K advogados. Cada mês de atraso em um vertical significa menos dados, menos clientes e um concorrente mais difícil de alcançar. A corrida pelos verticais está aberta. Mas as melhores cadeiras já estão sendo ocupadas.

OpenAI compra 6 empresas em 2026 e Physical AI atrai US$6,4B: a corrida pela stack completa

OpenAI compra 6 empresas em 2026 e Physical AI atrai US$6,4B: a corrida pela stack completa

A OpenAI fez seis aquisições nos primeiros três meses de 2026. Em todo o ano de 2025, foram oito. A empresa está comprando startups no ritmo mais agressivo da sua história — e o padrão das aquisições conta uma história clara sobre onde a IA está indo. No mesmo trimestre, 27 startups de Physical AI — robótica, automação industrial, semicondutores — levantaram mais de US$6,4 bilhões. Duas tendências que parecem desconectadas, mas apontam para o mesmo lugar: a corrida deixou de ser sobre quem tem o melhor modelo e virou sobre quem controla a stack completa. OpenAI: comprando a cadeia de ferramentas Das seis aquisições, duas se destacam. Astral (19 de março): a startup por trás do uv, Ruff e ty — ferramentas open-source de Python que milhões de desenvolvedores usam diariamente. O uv é o gerenciador de pacotes mais rápido do ecossistema Python. O Ruff é o linter que virou padrão. A OpenAI integrou o time inteiro ao projeto Codex. A lógica é direta: se o Codex é um agente que escreve código, ele precisa entender e operar as ferramentas que desenvolvedores reais usam. Comprar a Astral dá ao Codex acesso nativo ao toolchain Python mais popular do mercado. É o equivalente a comprar o martelo que todo carpinteiro usa — e então construir um robô carpinteiro que já sabe usar esse martelo. Promptfoo (março): plataforma open-source de testes e segurança para aplicações de IA. A OpenAI vai integrar a tecnologia ao OpenAI Frontier, sua plataforma enterprise para construir "AI coworkers". Quando uma empresa deploya agentes de IA em produção, precisa testar se eles fazem o que devem e não fazem o que não devem. Promptfoo resolvia exatamente isso — agora como parte do produto da OpenAI. O padrão é lock-in via developer tooling. Se você usa Codex para escrever código, Astral para gerenciar pacotes e Promptfoo para testar segurança, trocar de plataforma fica cada vez mais caro. São 17 aquisições desde 2023. Mais da metade é sobre capturar pontos de contato com desenvolvedores. Physical AI: o hardware encontra o foundation model Enquanto a OpenAI compra software, o capital está fluindo para quem constrói IA que move coisas no mundo real. Skild AI levantou US$1,4 bilhão a US$14 bilhões de valuation. A empresa constrói modelos foundation para controle robótico — o equivalente a um GPT, mas para robôs. Liderada por SoftBank, com NVIDIA e Jeff Bezos na mesa. A tese: assim como um LLM entende linguagem, um foundation model para robótica vai entender o mundo físico — gravidade, atrito, geometria de objetos — e traduzir isso em ação motora. Mind Robotics, spin-out da Rivian, fechou US$500 milhões em Series A para robótica industrial. Rhoda AI saiu do stealth com US$450 milhões para automação. Em fevereiro, seis startups de robótica entraram no Unicorn Board — mais do que qualquer outro setor. O total do trimestre: US$6,4 bilhões em 27 empresas de Physical AI. Desses, cerca de US$4 bilhões foram para robótica e US$2 bilhões para semicondutores e hardware de IA. A convergência que importa Physical AI e aquisições de software tools parecem tendências separadas. Não são. O ponto de convergência é autonomia. A OpenAI está construindo agentes de software que operam sozinhos: escrevem código, testam, deployam. As startups de Physical AI estão construindo agentes que operam no mundo real: movem caixas em warehouses, soldam peças em fábricas, dirigem caminhões. Os dois precisam da mesma coisa: modelos foundation potentes, infraestrutura de monitoramento, frameworks de teste e mecanismos de segurança. A diferença é que um opera em bytes e o outro em átomos. Para o ecossistema de startups, a implicação é que a camada de infraestrutura para agentes — o que 41,5% do batch W26 da YC está construindo — precisa funcionar para ambos os mundos. Auth, billing, observabilidade e testes para agentes que operam software E hardware. O mapa de oportunidades Para quem constrói ferramentas de desenvolvedor: a OpenAI está comprando. Se sua ferramenta é boa o suficiente para ter milhões de usuários, você é um target de aquisição. Isso é bom (exit) e ruim (concentração de mercado). A comunidade open-source já está debatendo se as aquisições da Astral e Promptfoo são boas para o ecossistema. Para quem constrói em robótica: US$6,4 bilhões em um trimestre é capital sério, mas concentrado em poucos players. A competição é por talento — engenheiros que entendem tanto ML quanto controle robótico são raríssimos. Se você tem esse time, o capital existe. Para quem constrói infra de agentes: a oportunidade é construir a camada que conecta agentes de software e hardware ao mundo real. Monitoramento, compliance, billing por tarefa executada — tudo precisa ser reinventado. O Q1 de 2026 mostrou que a IA está se expandindo em duas direções simultâneas: mais profunda na stack de software (OpenAI comprando tooling) e mais ampla no mundo físico (robótica e automação). Quem está construindo nessas intersecções tem a melhor posição do mercado.

Cursor bate US$2B de ARR e Lovable chega a US$400M: a era do vibe coding

Cursor bate US$2B de ARR e Lovable chega a US$400M: a era do vibe coding

Dois números para começar: US$2 bilhões e US$400 milhões. O primeiro é a receita anualizada do Cursor em março de 2026 — dobrou em três meses. O segundo é a da Lovable, que estava em US$100 milhões em julho de 2025. Oito meses depois, quadruplicou. Esses números não são normais. Nenhuma categoria de software na história cresceu nessa velocidade. E estamos falando de ferramentas que fazem algo que parecia ficção há dois anos: permitir que qualquer pessoa construa software descrevendo o que quer em linguagem natural. Cursor: de IDE para plataforma O Cursor começou como um editor de código com IA embutida. Virou algo maior. Com US$2B de ARR, a empresa está em conversas para levantar capital a um valuation de US$50 bilhões — quase o dobro dos US$29,3B de novembro de 2025. O crescimento não vem só de desenvolvedores. O Cursor está capturando uma fatia de profissionais que antes não programavam: designers, PMs, analistas de dados. A proposta é direta — você descreve a lógica, a IA escreve o código, você itera em cima. O resultado é funcional, testável e deployável. Para startups, o efeito colateral é brutal: o custo de construir um MVP caiu de meses e dezenas de milhares de dólares para dias e algumas centenas. Isso muda a equação de quem pode empreender e com que velocidade. Lovable: a startup que compra startups A Lovable tem uma trajetória ainda mais agressiva. De US$100M para US$400M de ARR em oito meses, avaliada em US$6,6 bilhões. Mais de 200 mil novos projetos criados na plataforma por dia. Mas o que chama atenção é o próximo passo: a Lovable está fazendo aquisições. Já comprou a Molnett, uma provedora de cloud, e está abertamente procurando mais alvos. Uma startup de dois anos comprando outras empresas. Isso normalmente é território de Big Tech. A lógica faz sentido. A Lovable quer controlar a stack inteira — da criação à hospedagem. Se você constrói o app na Lovable e ela também roda o app, o lock-in é quase total. É a mesma estratégia que a Vercel executou com o Next.js, mas acelerada por receita de IA. Replit completa o trio Com menos alarde, o Replit atingiu US$100M de ARR. A plataforma, que começou como IDE online para educação, se reinventou como ambiente de desenvolvimento com IA. O foco é diferente do Cursor (mais técnico) e da Lovable (mais no-code): o Replit está no meio, capturando desenvolvedores juniores e hobbyistas que querem ir além de um protótipo. Juntas, as três empresas representam mais de US$2,5 bilhões de receita anualizada. Há um ano, a categoria nem tinha nome. O que está por trás do crescimento Três fatores: Modelos melhores e mais baratos. Os custos por token caíram pela metade no último ano enquanto a qualidade de geração de código subiu drasticamente. Claude Opus 4.6, GPT-5.3, Gemini 2.5 Pro — todos geram código production-ready com consistência suficiente para sustentar ferramentas como Cursor e Lovable. Distribuição viral. Quando alguém constrói um app funcional em 20 minutos e posta o vídeo, isso gera mais conversões do que qualquer campanha de marketing. O vibe coding é inerentemente demonstrável — o antes/depois é visual e imediato. Demanda reprimida. Milhões de pessoas têm ideias de software que nunca executaram porque não sabiam programar ou não tinham orçamento. Essa demanda existia silenciosamente. Agora tem como ser atendida. E o Brasil nisso? O vibe coding é uma das poucas tendências de IA onde a barreira geográfica praticamente não existe. As ferramentas são globais, os preços são em dólar mas acessíveis, e o resultado é o mesmo independentemente de onde você está. Para o ecossistema brasileiro, isso significa duas coisas. Primeiro: mais gente vai conseguir construir e testar produtos de software sem equipe técnica, o que pode acelerar o número de startups em estágio inicial. Segundo: startups brasileiras de dev tools precisam decidir rápido se competem, complementam ou são adquiridas. A janela está fechando. O que vem pela frente O vibe coding já saiu do hype e entrou no P&L. Com US$2,5B+ de receita combinada e crescimento de 3-4x ao ano, a categoria vai atrair mais capital, mais competição e — inevitavelmente — consolidação. A pergunta não é mais se vibe coding funciona. É quem captura o mercado. E neste momento, Cursor, Lovable e Replit estão definindo as regras.

LangGraph vs CrewAI vs OpenAI Agents SDK: o guia técnico para escolher seu framework de agentes em 2026

LangGraph vs CrewAI vs OpenAI Agents SDK: o guia técnico para escolher seu framework de agentes em 2026

Três frameworks, um problema: você precisa colocar um agente de IA em produção e não sabe qual stack escolher. Eu construí o mesmo agente — pesquisa web, análise de resultados, geração de relatório — em LangGraph, CrewAI e OpenAI Agents SDK. Esse post é o resultado. Não é review de documentação. É código rodando, com números. O cenário do teste O agente é simples de propósito. Três etapas:Pesquisa web — recebe um tema, busca fontes relevantes Análise — filtra e ranqueia os resultados por relevância Relatório — gera um resumo estruturado com citaçõesSe um framework não consegue fazer isso bem, não merece estar na conversa. Se consegue, a pergunta passa a ser: com quantas linhas de código, quanto tempo de setup e quão fácil é debugar quando algo quebra às 2h da manhã. LangGraph: controle total, complexidade proporcional Repo: github.com/langchain-ai/langgraph — 27.100 buscas mensais no Google, o que mostra que muita gente está pelo menos curiosa. LangGraph modela o agente como um grafo direcionado com estado. Cada nó é uma função, cada aresta é uma transição condicional. Você define explicitamente o fluxo: qual nó executa depois de qual, sob quais condições, com qual estado compartilhado. Para o nosso agente de três etapas, o código ficou assim (simplificado): from langgraph.graph import StateGraph, ENDgraph = StateGraph(AgentState) graph.add_node("search", search_web) graph.add_node("analyze", analyze_results) graph.add_node("report", generate_report) graph.add_edge("search", "analyze") graph.add_edge("analyze", "report") graph.add_edge("report", END)app = graph.compile(checkpointer=MemorySaver())O resultado: ~120 linhas para o agente completo com estado, checkpointing e retry. O StateGraph te dá controle absoluto sobre o fluxo — você sabe exatamente o que vai executar e quando. O checkpointer salva estado entre etapas, o que significa que se a etapa de análise falhar, você retoma dali sem reprocessar a pesquisa. Onde brilha: workflows complexos com branching condicional, loops de feedback e estado persistente. Se o seu agente precisa decidir entre cinco caminhos possíveis baseado no output da etapa anterior, LangGraph é onde você quer estar. Onde dói: a curva de aprendizado. Modelar tudo como grafo é poderoso, mas verboso. Para um agente linear de três etapas, parece overengineering. E o ecossistema LangChain como dependência transitiva ainda carrega bagagem — eu gastei mais tempo resolvendo imports do que escrevendo lógica de negócio. CrewAI: multi-agente role-based, prototipagem rápida Repo: github.com/crewAIInc/crewAI — 44.600 stars no GitHub, v1.10.1 em março de 2026. CrewAI pensa diferente. Em vez de nós num grafo, você define agentes com papéis e tarefas. O framework cuida da orquestração. Para o nosso caso: from crewai import Agent, Task, Crewresearcher = Agent( role="Pesquisador Web", goal="Encontrar fontes relevantes sobre o tema", tools=[SerperTool()], llm="gpt-4o" )analyst = Agent( role="Analista de Conteúdo", goal="Filtrar e ranquear resultados por relevância", llm="gpt-4o" )writer = Agent( role="Redator de Relatórios", goal="Gerar relatório estruturado com citações", llm="gpt-4o" )crew = Crew( agents=[researcher, analyst, writer], tasks=[search_task, analyze_task, report_task], process=Process.sequential )result = crew.kickoff(inputs={"topic": "AI agents 2026"})~75 linhas para o agente completo. Cerca de 40% menos código que o LangGraph para o mesmo resultado. E o tempo de prototipagem caiu proporcionalmente — do pip install ao primeiro output funcional, foram 22 minutos contra 38 no LangGraph. O grande diferencial em 2026: suporte nativo a MCP (Model Context Protocol) e A2A (Agent-to-Agent). O CrewAI v1.10 trata MCP como cidadão de primeira classe. Conectar um servidor MCP é uma linha de config, não um wrapper custom. E o protocolo A2A permite que crews diferentes se comuniquem entre si — o que abre a porta para arquiteturas multi-equipe que eram impraticáveis há seis meses. Onde brilha: prototipagem. Se você precisa validar uma ideia de agente multi-step com stakeholders na terça, CrewAI é a resposta. A abstração role-based é intuitiva para times que pensam em termos de "quem faz o quê" em vez de "qual nó conecta com qual". Onde dói: controle fino. Quando o agente precisa tomar decisões complexas de roteamento, a abstração role-based começa a vazar. Eu precisei de um hack para implementar retry condicional na etapa de análise — algo que no LangGraph seria uma aresta no grafo. E o debugging de interações entre agentes ainda é opaco: quando o analista recebe lixo do pesquisador, o stack trace não ajuda muito. OpenAI Agents SDK: o novo na área Repo: github.com/openai/openai-agents-python — lançado em 2026, lightweight e opinionated. O Agents SDK da OpenAI é o mais recente dos três e não tenta esconder sua proposta: se você já usa modelos OpenAI, esse é o caminho de menor fricção. from openai_agents import Agent, Runnersearch_agent = Agent( name="researcher", instructions="Pesquise fontes relevantes sobre o tema dado.", tools=[web_search_tool], model="gpt-4o" )analysis_agent = Agent( name="analyst", instructions="Analise e ranqueie os resultados por relevância.", model="gpt-4o" )report_agent = Agent( name="writer", instructions="Gere relatório estruturado com citações.", model="gpt-4o" )result = Runner.run( search_agent, handoffs=[analysis_agent, report_agent], input="AI agents 2026" )~60 linhas. O mais enxuto dos três. O conceito de handoffs entre agentes é elegante — cada agente decide quando passar a bola para o próximo, e o Runner gerencia o ciclo de vida. Onde brilha: simplicidade e integração nativa com a API da OpenAI. Tracing vem embutido. O guardrail system é nativo. Se sua stack já é OpenAI de ponta a ponta, a integração é quase zero-config. Onde dói: lock-in. O SDK assume modelos OpenAI. Usar Claude ou Gemini exige adaptadores que não são oficiais. E para workflows complexos com estado persistente, o modelo de handoffs é limitado — não tem checkpointing nativo, não tem branching condicional explícito. É opinado no bom sentido quando seu caso é simples, e no mau sentido quando não é. A tabela que importaCritério LangGraph CrewAI OpenAI Agents SDKLinhas de código (agente de 3 etapas) ~120 ~75 ~60Tempo até primeiro output 38 min 22 min 18 minControle de fluxo Granular (grafo explícito) Médio (process types) Básico (handoffs)Estado persistente Nativo (checkpointer) Via memória de crew Não nativoSuporte a MCP Via integração manual Nativo (v1.10+) ParcialSuporte a A2A Não nativo Nativo Não nativoDebugging Bom (LangSmith) Médio (logs verbosos) Bom (tracing embutido)Observabilidade LangSmith/LangFuse Integrações terceiras Dashboard OpenAIVendor lock-in Baixo Baixo Alto (OpenAI models)GitHub Stars ~18K ~44.6K ~8KCurva de aprendizado Alta Média BaixaPydantic AI e AgentOps: o que mais importa Menção rápida a dois pontos que vão influenciar sua decisão. Pydantic AI (github.com/pydantic/pydantic-ai) não é um framework de agentes — é uma camada type-safe e async-first para interações com LLMs. Eu uso como building block dentro de agentes LangGraph: o grafo cuida do fluxo, Pydantic AI cuida do contrato de dados. Se você quer controle total do schema, vale o combo. AgentOps é a disciplina que ninguém pensa no protótipo e todo mundo precisa em produção. Como monitoro decisões de agentes? Como debugo fluxos multi-step? Ferramentas como LangFuse, AgentOps.ai e Arize Phoenix estão preenchendo o gap. Minha recomendação: escolha a ferramenta de observabilidade antes de escolher o framework. MCP e A2A estão acelerando isso. MCP padroniza como agentes acessam contexto externo. A2A padroniza como agentes conversam entre si. Ambos são agnósticos de framework — e quem adota primeiro (CrewAI, no momento) ganha vantagem prática. Minha recomendação por caso de uso "Preciso de controle total sobre um workflow complexo com estado." LangGraph. Sem hesitar. Se o seu agente tem branching, loops, retry condicional e precisa de checkpointing, é a ferramenta certa. Paga-se o custo da complexidade com previsibilidade. "Preciso prototipar rápido e validar com stakeholders." CrewAI. O tempo de prototipagem 40% menor é real. A abstração role-based comunica bem para não-técnicos. E com MCP/A2A nativos, o protótipo tem mais chance de sobreviver à produção. "Minha stack é 100% OpenAI e o caso é relativamente simples." OpenAI Agents SDK. Menor fricção, menor boilerplate, tracing embutido. Mas saiba que está comprando lock-in junto. "Quero type-safety e controle total do schema." Pydantic AI, possivelmente combinado com LangGraph para orquestração. Limitações desse comparativo O agente do teste é simples de propósito — três etapas lineares. Em workflows com 10+ nós e branching dinâmico, as diferenças se amplificam a favor do LangGraph. O OpenAI Agents SDK é novo demais para ter battle-testing em produção pesada. E "linhas de código" é uma métrica imperfeita, mas para engenheiros avaliando tempo de implementação, é um proxy útil. Veredito Não existe framework perfeito — existe framework certo para o problema. Em março de 2026, o ecossistema de agentes está fragmentado da melhor forma possível: frameworks especializados para casos especializados. A pior decisão é ficar parado avaliando. A segunda pior é escolher por hype. Clone o repo. Rode o agente. Meça. Decida.

Brasil planeja fundo de R$1B para IA enquanto 975 startups lutam por escala

Brasil planeja fundo de R$1B para IA enquanto 975 startups lutam por escala

O BNDES anunciou que planeja um fundo de R$500 milhões a R$1 bilhão para projetos de inteligência artificial e data centers no Brasil. É o maior comprometimento de capital público para IA na história do país. Ao mesmo tempo, o número de startups de IA ativas chegou a 975 — um crescimento de 40% nos últimos anos. Os números são bons. Mas colocados lado a lado com o que está acontecendo lá fora, contam uma história mais complicada. O ecossistema em números O Brasil tem 975 startups de IA ativas, com 71% das operações concentradas no Sudeste — São Paulo lidera com folga. O crescimento é real: eram 352 há poucos anos. Mas a escala ainda é modesta. O dado mais revelador: apenas 23 empresas brasileiras de IA superaram a barreira de US$10 milhões em captação total. Nos Estados Unidos, US$10 milhões é uma rodada seed generosa. Aqui, é um marco que menos de 2,5% das startups de IA conseguiram atingir. Dez startups estão posicionadas para levantar até US$100 milhões em 2026. A mais avançada é a Blip — plataforma de IA conversacional com US$230 milhões captados e mais de 1.500 funcionários. Nagro (agritech com IA) e Idwall (prevenção a fraude com ML) completam o trio de destaque. O fundo do BNDES: o que muda Um fundo de até R$1 bilhão para IA é significativo para o ecossistema brasileiro. Na prática, pode financiar infraestrutura de data centers (que o Brasil precisa desesperadamente para não depender de cloud internacional) e dar fôlego para startups em estágio de crescimento. Mas há coisas que capital público não resolve. O BNDES opera com velocidade, critérios e burocracia diferentes do venture capital. Startups de IA vivem em ciclos de meses — modelos ficam obsoletos, janelas de mercado fecham rápido. Um fundo que leva seis meses para liberar recursos pode chegar tarde demais. O programa Rio.IA 2026 ilustra o descompasso de escala. A iniciativa, parceria entre ABDI, PUC-Rio e Prefeitura do Rio, vai selecionar 8 startups e dar R$80 mil para cada uma desenvolver proof of concept. São R$640 mil no total. Para referência: o Cursor levantou capital a um valuation de US$50 bilhões na mesma semana. Não é para desvalorizar a iniciativa — qualquer capital ajuda em estágio inicial. Mas é importante ter clareza sobre a ordem de grandeza do que estamos falando. O que falta para escalar O gap do ecossistema brasileiro de IA não é de talento. O Brasil forma engenheiros competentes, tem universidades de pesquisa relevantes em ML e NLP, e os custos de operação são menores que nos EUA. O problema é estrutural: Capital de risco insuficiente. O venture capital brasileiro dedicado a IA é uma fração do americano. Sem rodadas Series A e B robustas, startups que validam produto não conseguem escalar. Muitas acabam migrando para os EUA — levando o valor junto. Poucos exits. O ecossistema de IA no Brasil ainda não teve um IPO ou aquisição de referência que sinalize retorno para investidores. Sem exits, o ciclo de capital não se retroalimenta. Concentração geográfica. 71% no Sudeste significa que talentos e oportunidades em outras regiões ficam desconectados do ecossistema. O modelo de trabalho remoto ajuda, mas aceleradoras, eventos e capital ainda estão fortemente concentrados em São Paulo. Infraestrutura de compute. Treinar e rodar modelos exige GPUs. Data centers no Brasil são caros e escassos comparados com os EUA. O fundo do BNDES pode ajudar aqui, mas a defasagem é de anos. Onde está a oportunidade real O Brasil não vai competir com OpenAI ou Anthropic na construção de modelos foundation. Isso é óbvio. Mas existem oportunidades onde o ecossistema local tem vantagem: IA aplicada a problemas brasileiros. Agritech (o Brasil é potência agrícola), fintech (sistema financeiro digital avançado), healthtech (SUS é um dos maiores sistemas de saúde do mundo) e legaltech (sistema jurídico complexo e litigioso). Nesses verticais, dados locais e conhecimento regulatório são moats reais. Infraestrutura de agentes para LATAM. O batch W26 da YC mostrou que 41,5% das startups estão construindo infraestrutura para agentes autônomos. Startups brasileiras podem construir essa camada adaptada para o mercado latino-americano — com suporte a português e espanhol, integração com sistemas locais e compliance regional. Custo de operação como vantagem. Uma equipe de IA no Brasil custa uma fração do equivalente americano. Para startups que precisam de operação humana-no-loop (etiquetagem de dados, fine-tuning supervisionado, QA de outputs), o Brasil é competitivo. A realidade é dual O ecossistema brasileiro de IA está crescendo — isso é inegável. O BNDES entrando com capital, programas como Rio.IA surgindo, quase mil startups ativas. A direção é positiva. Mas a velocidade global é outra. Enquanto o Brasil planeja um fundo de R$1 bilhão, a Anthropic levantou US$30 bilhões em uma única rodada. Enquanto 23 startups brasileiras passaram de US$10 milhões, 14 startups do YC W26 já tinham US$1 milhão de ARR antes de Demo Day. O Brasil não precisa igualar esses números. Precisa encontrar os nichos onde pode competir com vantagem — e investir neles com a velocidade que o mercado exige. O capital está chegando. A questão é se chega rápido o suficiente.

Sierra bate US$150M de ARR: agentes de IA em produção não são mais promessa

Sierra bate US$150M de ARR: agentes de IA em produção não são mais promessa

A Sierra acaba de ultrapassar US$150 milhões de receita recorrente anual. Para uma empresa de dois anos, fundada por Bret Taylor (ex-co-CEO da Salesforce) e Clay Bavor (ex-Google), o número é impressionante. Mas o detalhe que importa é outro: este foi o primeiro trimestre de US$50 milhões na história da empresa. De US$26 milhões no fim de 2024 para US$100 milhões em novembro de 2025 e agora US$150 milhões. A curva não é linear — é exponencial. E isso muda a conversa sobre agentes de IA de "funciona?" para "como escalar?". O que a Sierra faz diferente A Sierra constrói agentes de IA para atendimento ao cliente. Não chatbots que respondem perguntas frequentes — agentes que resolvem problemas, processam transações, cancelam serviços e escalam para humanos apenas quando necessário. Os clientes incluem ADT, SiriusXM, Rivian e SoFi. São empresas com milhões de interações de suporte por mês. Quando um agente da Sierra atende uma chamada de um cliente da Rivian com problema na recarga do veículo, ele acessa os sistemas internos, diagnostica o problema, agenda o serviço e confirma — sem transferir para um humano. O dado mais revelador: desde setembro de 2025, agentes de voz superaram texto como canal principal na Sierra. Centenas de milhões de chamadas processadas por IA. Isso é significativo porque voz é o canal mais difícil — requer compreensão em tempo real, manejo de interrupções, detecção de emoção e resposta natural. Se funciona em voz, funciona em qualquer canal. O modelo de negócio que sustenta o crescimento A Sierra não cobra por seat. Cobra por resultado. Quando um agente resolve uma interação sem escalar para humano, a Sierra captura uma fração do custo que o cliente pagaria por um atendente. É um modelo onde o incentivo está alinhado: a Sierra só ganha quando entrega valor. Para o cliente, a matemática é direta. Um atendente humano custa entre US$15 e US$40 por hora, dependendo do mercado. Um agente da Sierra custa uma fração disso por interação resolvida. Quando você multiplica por milhões de chamadas mensais, a economia é brutal. E tem o efeito composto: cada interação gera dados que melhoram o modelo para o próximo atendimento. Quanto mais a Sierra opera, melhor fica. Quanto melhor fica, mais volume o cliente direciona para os agentes. É um flywheel que explica por que o trimestre saltou de US$33M para US$50M. O que isso significa para o ecossistema A Sierra é a prova de conceito mais convincente de que agentes de IA em produção geram receita real e recorrente. Três lições para quem está construindo no espaço: Vertical vence horizontal. A Sierra não construiu um framework genérico de agentes. Construiu agentes de atendimento ao cliente. Essa especificidade permite integração profunda com sistemas de cada vertical, dados de treinamento mais relevantes e um ciclo de vendas que o cliente entende — "substitui X horas de call center por Y interações automatizadas". Voz é o multiplicador. A maioria das startups de agentes começou por texto (chat, email, tickets). A Sierra apostou em voz desde cedo. Quando agentes de voz funcionam, o TAM explica: chamadas telefônicas de suporte movimentam centenas de bilhões de dólares por ano globalmente. É o maior mercado de trabalho repetitivo que existe. Precificação por resultado é o padrão emergente. Cobrar por seat é SaaS tradicional. Quando um agente substitui trabalho humano, o modelo natural é cobrar pelo trabalho feito. Isso alinha incentivos e facilita o business case do cliente — mas exige confiança extrema na qualidade do agente. Se o agente falha, a Sierra não ganha. Isso força a empresa a manter qualidade alta. A competição está esquentando A Sierra não está sozinha. Salesforce empurra o Agentforce com toda a força da sua base instalada. A Intercom integrou agentes de IA no seu produto. Startups como Ada, Forethought e Decagon competem em nichos específicos. Mas US$150M de ARR com crescimento acelerando cria um fosso difícil de cruzar. A Sierra tem dados de centenas de milhões de interações reais, integrações profundas com sistemas enterprise e uma marca que está virando sinônimo de "agentes de atendimento que funcionam". Para fundadores pensando em entrar nesse espaço: atendimento ao cliente genérico provavelmente já tem dono. A oportunidade está nos verticais adjacentes — suporte técnico especializado, vendas internas, onboarding de clientes, cobrança — onde a lógica de agente se aplica mas ninguém domina ainda. A Sierra provou o modelo. Agora a pergunta é quem replica o sucesso em outros verticais antes que a própria Sierra chegue lá.

xAI levanta US$20B e Humans& fecha seed de US$480M: janeiro começou pesado

xAI levanta US$20B e Humans& fecha seed de US$480M: janeiro começou pesado

Primeira semana de janeiro e o ano já tem cara. A xAI de Elon Musk fechou uma Series E de US$20 bilhões — acima da meta de US$15 bilhões. Duas semanas depois, a Humans&, uma startup com três meses de existência, levantou US$480 milhões em seed a um valuation de US$4,48 bilhões. Para contextualizar: US$480 milhões de seed é a segunda maior da história do venture capital. A primeira foi a de Mira Murati com a Thinking Machines Lab — US$2 bilhões a US$12 bilhões em julho de 2025. Estamos num mercado onde rodadas seed superam o que era Series C há três anos. xAI: US$20B e fundos soberanos na mesa A rodada da xAI trouxe um mix revelador de investidores. NVIDIA e Cisco entraram como estratégicos — querem garantir que o Grok continue comprando suas GPUs e infraestrutura de rede. Fidelity e Baron Capital representam o capital institucional americano. Mas o detalhe que importa é outro: Qatar Investment Authority e MGX (Abu Dhabi) estão na mesa. Fundos soberanos do Golfo investindo diretamente em IA não é novidade — mas a escala é. Não estão mais investindo via fundos de VC. Estão sentando na cap table ao lado da NVIDIA. Isso sinaliza que IA virou infraestrutura geopolítica, não apenas categoria de investimento. O valuation estimado é de US$230 bilhões, colocando a xAI no mesmo patamar de OpenAI e Anthropic. O capital vai para expandir os supercomputadores Colossus I e II — mais de um milhão de GPUs equivalentes. É uma aposta de que escala de compute ainda é o jogo. Humans&: o seed que não faz sentido (até fazer) A Humans& é o tipo de empresa que só existe neste mercado. Fundada em setembro de 2025 por Andi Peng (ex-Anthropic, trabalhou no treinamento do Claude 3.5 até 4.5), Georges Harik (sétimo funcionário do Google), Eric Zelikman e Yuchen He (ex-xAI, ajudaram a construir o Grok) e Noah Goodman (professor de Stanford em psicologia e ciência da computação). A tese é "IA centrada no humano" — ferramentas onde colaboração e insight humano permanecem centrais. Soa vago? Soa. Mas os investidores não parecem se importar. NVIDIA, Jeff Bezos, SV Angel, GV (Google Ventures) e Emerson Collective (Laurene Powell Jobs) colocaram US$480 milhões numa empresa sem produto público. O que está sendo precificado aqui não é produto — é time. Ex-pesquisadores dos três maiores labs de IA do mundo, reunidos com um dos primeiros engenheiros do Google. O mercado está dizendo que esse grupo vai construir algo relevante, e o custo de não estar na cap table é maior do que o risco de entrar cedo. A maior parte do capital vai para compute de treinamento de modelos. Isso confirma que a Humans& não está construindo um wrapper — está competindo na camada foundation. Skild AI e Baseten completam o mês Dois outros deals merecem atenção. A Skild AI, que constrói "cérebros para robôs" — modelos foundation para controle robótico — levantou US$1,4 bilhão a US$14 bilhões de valuation, liderado por SoftBank com NVIDIA e Jeff Bezos na mesa de novo. A Baseten, infraestrutura para deploy de modelos de IA, fechou US$300 milhões em Series E a US$5 bilhões, liderada por IVP e CapitalG. Para quem constrói startups de IA e precisa servir modelos em produção, Baseten é a camada de infraestrutura que faz o deploy funcionar sem dor de cabeça. O que janeiro diz sobre 2026 Mais de US$22 bilhões em mega-rodadas de IA em um único mês. O padrão é claro: Capital soberano está entrando direto. Qatar, Abu Dhabi, Cingapura — não via intermediários, mas como investidores diretos em rodadas de bilhões. IA é geopolítica. Time importa mais que produto. Humans& levantou quase meio bilhão sem produto público. O mercado está precificando talento e potencial, não tração. Isso é bolha? Talvez. Mas enquanto os modelos foundation continuarem melhorando a cada trimestre, a aposta em times de elite faz sentido — mesmo a valuations absurdos. Infraestrutura e compute ainda dominam. xAI comprando GPUs, Skild AI treinando modelos para robôs, Baseten servindo modelos em produção. O dinheiro está indo para quem constrói a base, não para quem constrói em cima dela. Para startups menores, a mensagem é ambígua. De um lado, há mais capital no mercado do que nunca. De outro, a concentração é extrema — meia dúzia de empresas captura a maior parte. Se você não está construindo na camada foundation ou em infraestrutura crítica, a competição por capital continua acirrada. Janeiro de 2026 deu o tom. Resta ver se o resto do ano sustenta o ritmo — ou se essa festa tem data de validade.