Nature mostra que agentes de IA pontuam 50% do que PhDs fazem em tarefas reais — e isso muda tudo sobre benchmarks
-
Diego Hartmann - 17 Apr, 2026
A Nature publicou um paper esta semana que deveria estar colado na parede de todo time que está levando agente para produção. O título já entrega: “Human scientists trounce the best AI agents on complex tasks”. Em fluxos científicos multi-step — ou seja, tarefas que exigem planejar, executar, interpretar resultado e decidir o próximo passo — os melhores agentes frontier pontuam cerca de metade do que pontuam humanos com PhD na área.
Metade. Com os modelos que estão topo de benchmark.
Isso contradiz, aparentemente, tudo que a gente vem lendo sobre capacidade de agentes. O Stanford AI Index 2026, publicado dia 13, mostra que a taxa de sucesso em tarefas agênticas do mundo real subiu de 20% em 2025 para 77,3% em 2026. Agentes de triagem de cibersegurança saltaram de 15% para 93%. E aí vem a Nature dizendo: em tarefa de cientista de verdade, ainda pontua 50% do humano.
Os dois números estão corretos. E a diferença entre eles é o ponto.
O que é uma “tarefa complexa” na prática
O paper da Nature — e a análise que o AI Index faz em cima dele — separa capacidade em duas categorias muito distintas.
Tarefa estreita (narrow task): um prompt, uma resposta. “Escreva este SQL”, “classifique este ticket”, “resuma este email”. Aqui os números explodiram. SWE-bench Verified saiu de 60% para quase 100% em um ano. Não é surpresa — esses benchmarks medem exatamente o que os modelos foram treinados para fazer bem: input delimitado, output verificável, contexto curto.
Tarefa complexa multi-step: definir um experimento, rodar, olhar o resultado, decidir que o resultado está estranho, investigar, voltar atrás, revisar a hipótese, rodar de novo. É o dia-a-dia de um PhD em laboratório. É também o dia-a-dia de qualquer engenheiro sênior lidando com um bug não-trivial em produção.
É aqui que o gap aparece. PhDs em área de especialidade acertam cerca de 65% nos benchmarks da Nature. Agentes frontier — Claude, GPT, Gemini no topo — ficam em torno de 32-35%. Metade.
O motivo não é falta de conhecimento dos modelos. É falta de persistência sob ambiguidade. Quando o resultado experimental vem estranho, o humano desconfia e investiga. O agente, em regra, segue o roteiro.
Por que os benchmarks clássicos mentem sobre isso
Aqui entra o meu problema com a forma como o mercado vem lendo “estado da arte” em agentes.
Um benchmark como o SWE-bench entrega ao agente um bug isolado, com testes prontos e um repositório estático. O agente lê, propõe um patch, roda os testes, submete. Se passa, pontua. É um ambiente de laboratório — útil para comparar modelos, mas catastroficamente incompleto se você for extrapolar para “esse modelo pode ser meu engenheiro sênior”.
Já testei isso na prática. Subi um agente com Claude Opus 4.6 em um pipeline de análise de dados nosso. Em tarefa isolada (refatorar uma função, escrever um teste) o sucesso é absurdo — estou com 85% de aprovação em PR sem revisão humana significativa. Em tarefa que exige entender por que a métrica caiu na segunda-feira e recomendar ação, o agente trava. Ele propõe análises que fazem sentido na superfície, mas não persegue a evidência que contradiz a própria hipótese inicial.
A Nature chama isso de “limitação de pesquisa genuína”. Eu chamo de: “o modelo não sabe quando desistir de estar certo”.
O que o paper realmente mediu
O benchmark usado combina três famílias de tarefas:
- Reprodução científica: dado um paper, reproduzir o resultado em código. Os agentes vão bem aqui — virou quase uma tarefa SWE-bench.
- Extensão experimental: dado um resultado, propor e executar um experimento que teste uma hipótese derivada. Performance cai pela metade.
- Interpretação ambígua: dado um conjunto de dados sujos, derivar uma conclusão defensável. É onde os modelos quebram mais.
A interpretação é consistente com o que a Anthropic e a DeepMind vêm publicando internamente sobre “tool-use em cenário aberto”: os modelos sabem usar ferramentas. Não sabem decidir quando mudar de estratégia ferramental.
Implicação para quem está construindo agente em produção
Aqui é onde o paper encontra a realidade do CTO que está gastando meio milhão de dólares em infra de agentes.
Primeiro, o óbvio: se seu caso de uso é agente resolvendo ticket fechado (cibersegurança triage, classificação, extração estruturada), parabéns — você está no domínio onde os números explodem para cima. Os 77,3% do AI Index se aplicam a você.
Segundo, o menos óbvio: se seu caso de uso envolve investigação, diagnóstico ou pesquisa — seja ela jurídica, médica, financeira ou técnica —, você está no domínio onde o humano ainda pontua 2x o agente. Não significa que agente não serve. Significa que a arquitetura correta é agente como copiloto de PhD, não agente como substituto de PhD.
A tentação do mercado é empurrar tudo para a segunda categoria porque a margem é maior. O paper da Nature é um aviso: a primeira categoria é a que tem ROI validado. A segunda é vapor.
Como medir isso no seu contexto
Não adianta olhar benchmark público se seu caso de uso é específico. O que eu recomendo — e tenho feito na prática — é montar um benchmark interno de 30-50 tarefas que representem seu domínio, e dividi-las em três buckets:
- Resposta única verificável (o agente acerta ou erra, sem ambiguidade).
- Execução multi-step com checkpoint humano (o agente precisa de uma revisão intermediária).
- Tarefa aberta sem ground truth (só especialista humano consegue julgar).
Meça a taxa de sucesso em cada um. Se seu agente pontua 85% no primeiro, 60% no segundo e 25% no terceiro, você tem uma foto mais honesta do que “o agente resolveu 70% das tarefas”. E pode projetar onde ele substitui trabalho humano versus onde ele acelera trabalho humano.
Veredito
O paper da Nature não desbanca os agentes. Contextualiza. A capacidade dos modelos frontier dobrou em tarefas estreitas no último ano, e isso é real. Mas o gap em tarefa complexa de pesquisa não fechou — e em alguns casos abriu, porque os humanos também melhoraram seu uso de ferramentas no meio-tempo.
Para quem está em produção: separe os dois mundos. Declare vitória onde ela existe. Em tarefa aberta, mantenha humano no loop.
E, por favor, pare de comparar agente com humano usando número único. O paper resume isso em uma frase que devia virar slogan de equipe de ML: “general capability is not a scalar”.
Link do paper: Nature — Human scientists trounce the best AI agents on complex tasks. Vale a leitura completa, especialmente o apêndice metodológico.