Winning Data

LangGraph vs CrewAI vs OpenAI Agents SDK: o guia técnico para escolher seu framework de agentes em 2026

Três frameworks, um problema: você precisa colocar um agente de IA em produção e não sabe qual stack escolher. Eu construí o mesmo agente — pesquisa web, análise de resultados, geração de relatório — em LangGraph, CrewAI e OpenAI Agents SDK. Esse post é o resultado. Não é review de documentação. É código rodando, com números. O cenário do teste O agente é simples de propósito. Três etapas:Pesquisa web — recebe um tema, busca fontes relevantes Análise — filtra e ranqueia os resultados por relevância Relatório — gera um resumo estruturado com citaçõesSe um framework não consegue fazer isso bem, não merece estar na conversa. Se consegue, a pergunta passa a ser: com quantas linhas de código, quanto tempo de setup e quão fácil é debugar quando algo quebra às 2h da manhã. LangGraph: controle total, complexidade proporcional Repo: github.com/langchain-ai/langgraph — 27.100 buscas mensais no Google, o que mostra que muita gente está pelo menos curiosa. LangGraph modela o agente como um grafo direcionado com estado. Cada nó é uma função, cada aresta é uma transição condicional. Você define explicitamente o fluxo: qual nó executa depois de qual, sob quais condições, com qual estado compartilhado. Para o nosso agente de três etapas, o código ficou assim (simplificado): from langgraph.graph import StateGraph, ENDgraph = StateGraph(AgentState) graph.add_node("search", search_web) graph.add_node("analyze", analyze_results) graph.add_node("report", generate_report) graph.add_edge("search", "analyze") graph.add_edge("analyze", "report") graph.add_edge("report", END)app = graph.compile(checkpointer=MemorySaver())O resultado: ~120 linhas para o agente completo com estado, checkpointing e retry. O StateGraph te dá controle absoluto sobre o fluxo — você sabe exatamente o que vai executar e quando. O checkpointer salva estado entre etapas, o que significa que se a etapa de análise falhar, você retoma dali sem reprocessar a pesquisa. Onde brilha: workflows complexos com branching condicional, loops de feedback e estado persistente. Se o seu agente precisa decidir entre cinco caminhos possíveis baseado no output da etapa anterior, LangGraph é onde você quer estar. Onde dói: a curva de aprendizado. Modelar tudo como grafo é poderoso, mas verboso. Para um agente linear de três etapas, parece overengineering. E o ecossistema LangChain como dependência transitiva ainda carrega bagagem — eu gastei mais tempo resolvendo imports do que escrevendo lógica de negócio. CrewAI: multi-agente role-based, prototipagem rápida Repo: github.com/crewAIInc/crewAI — 44.600 stars no GitHub, v1.10.1 em março de 2026. CrewAI pensa diferente. Em vez de nós num grafo, você define agentes com papéis e tarefas. O framework cuida da orquestração. Para o nosso caso: from crewai import Agent, Task, Crewresearcher = Agent( role="Pesquisador Web", goal="Encontrar fontes relevantes sobre o tema", tools=[SerperTool()], llm="gpt-4o" )analyst = Agent( role="Analista de Conteúdo", goal="Filtrar e ranquear resultados por relevância", llm="gpt-4o" )writer = Agent( role="Redator de Relatórios", goal="Gerar relatório estruturado com citações", llm="gpt-4o" )crew = Crew( agents=[researcher, analyst, writer], tasks=[search_task, analyze_task, report_task], process=Process.sequential )result = crew.kickoff(inputs={"topic": "AI agents 2026"})~75 linhas para o agente completo. Cerca de 40% menos código que o LangGraph para o mesmo resultado. E o tempo de prototipagem caiu proporcionalmente — do pip install ao primeiro output funcional, foram 22 minutos contra 38 no LangGraph. O grande diferencial em 2026: suporte nativo a MCP (Model Context Protocol) e A2A (Agent-to-Agent). O CrewAI v1.10 trata MCP como cidadão de primeira classe. Conectar um servidor MCP é uma linha de config, não um wrapper custom. E o protocolo A2A permite que crews diferentes se comuniquem entre si — o que abre a porta para arquiteturas multi-equipe que eram impraticáveis há seis meses. Onde brilha: prototipagem. Se você precisa validar uma ideia de agente multi-step com stakeholders na terça, CrewAI é a resposta. A abstração role-based é intuitiva para times que pensam em termos de "quem faz o quê" em vez de "qual nó conecta com qual". Onde dói: controle fino. Quando o agente precisa tomar decisões complexas de roteamento, a abstração role-based começa a vazar. Eu precisei de um hack para implementar retry condicional na etapa de análise — algo que no LangGraph seria uma aresta no grafo. E o debugging de interações entre agentes ainda é opaco: quando o analista recebe lixo do pesquisador, o stack trace não ajuda muito. OpenAI Agents SDK: o novo na área Repo: github.com/openai/openai-agents-python — lançado em 2026, lightweight e opinionated. O Agents SDK da OpenAI é o mais recente dos três e não tenta esconder sua proposta: se você já usa modelos OpenAI, esse é o caminho de menor fricção. from openai_agents import Agent, Runnersearch_agent = Agent( name="researcher", instructions="Pesquise fontes relevantes sobre o tema dado.", tools=[web_search_tool], model="gpt-4o" )analysis_agent = Agent( name="analyst", instructions="Analise e ranqueie os resultados por relevância.", model="gpt-4o" )report_agent = Agent( name="writer", instructions="Gere relatório estruturado com citações.", model="gpt-4o" )result = Runner.run( search_agent, handoffs=[analysis_agent, report_agent], input="AI agents 2026" )~60 linhas. O mais enxuto dos três. O conceito de handoffs entre agentes é elegante — cada agente decide quando passar a bola para o próximo, e o Runner gerencia o ciclo de vida. Onde brilha: simplicidade e integração nativa com a API da OpenAI. Tracing vem embutido. O guardrail system é nativo. Se sua stack já é OpenAI de ponta a ponta, a integração é quase zero-config. Onde dói: lock-in. O SDK assume modelos OpenAI. Usar Claude ou Gemini exige adaptadores que não são oficiais. E para workflows complexos com estado persistente, o modelo de handoffs é limitado — não tem checkpointing nativo, não tem branching condicional explícito. É opinado no bom sentido quando seu caso é simples, e no mau sentido quando não é. A tabela que importaCritério LangGraph CrewAI OpenAI Agents SDKLinhas de código (agente de 3 etapas) ~120 ~75 ~60Tempo até primeiro output 38 min 22 min 18 minControle de fluxo Granular (grafo explícito) Médio (process types) Básico (handoffs)Estado persistente Nativo (checkpointer) Via memória de crew Não nativoSuporte a MCP Via integração manual Nativo (v1.10+) ParcialSuporte a A2A Não nativo Nativo Não nativoDebugging Bom (LangSmith) Médio (logs verbosos) Bom (tracing embutido)Observabilidade LangSmith/LangFuse Integrações terceiras Dashboard OpenAIVendor lock-in Baixo Baixo Alto (OpenAI models)GitHub Stars ~18K ~44.6K ~8KCurva de aprendizado Alta Média BaixaPydantic AI e AgentOps: o que mais importa Menção rápida a dois pontos que vão influenciar sua decisão. Pydantic AI (github.com/pydantic/pydantic-ai) não é um framework de agentes — é uma camada type-safe e async-first para interações com LLMs. Eu uso como building block dentro de agentes LangGraph: o grafo cuida do fluxo, Pydantic AI cuida do contrato de dados. Se você quer controle total do schema, vale o combo. AgentOps é a disciplina que ninguém pensa no protótipo e todo mundo precisa em produção. Como monitoro decisões de agentes? Como debugo fluxos multi-step? Ferramentas como LangFuse, AgentOps.ai e Arize Phoenix estão preenchendo o gap. Minha recomendação: escolha a ferramenta de observabilidade antes de escolher o framework. MCP e A2A estão acelerando isso. MCP padroniza como agentes acessam contexto externo. A2A padroniza como agentes conversam entre si. Ambos são agnósticos de framework — e quem adota primeiro (CrewAI, no momento) ganha vantagem prática. Minha recomendação por caso de uso "Preciso de controle total sobre um workflow complexo com estado." LangGraph. Sem hesitar. Se o seu agente tem branching, loops, retry condicional e precisa de checkpointing, é a ferramenta certa. Paga-se o custo da complexidade com previsibilidade. "Preciso prototipar rápido e validar com stakeholders." CrewAI. O tempo de prototipagem 40% menor é real. A abstração role-based comunica bem para não-técnicos. E com MCP/A2A nativos, o protótipo tem mais chance de sobreviver à produção. "Minha stack é 100% OpenAI e o caso é relativamente simples." OpenAI Agents SDK. Menor fricção, menor boilerplate, tracing embutido. Mas saiba que está comprando lock-in junto. "Quero type-safety e controle total do schema." Pydantic AI, possivelmente combinado com LangGraph para orquestração. Limitações desse comparativo O agente do teste é simples de propósito — três etapas lineares. Em workflows com 10+ nós e branching dinâmico, as diferenças se amplificam a favor do LangGraph. O OpenAI Agents SDK é novo demais para ter battle-testing em produção pesada. E "linhas de código" é uma métrica imperfeita, mas para engenheiros avaliando tempo de implementação, é um proxy útil. Veredito Não existe framework perfeito — existe framework certo para o problema. Em março de 2026, o ecossistema de agentes está fragmentado da melhor forma possível: frameworks especializados para casos especializados. A pior decisão é ficar parado avaliando. A segunda pior é escolher por hype. Clone o repo. Rode o agente. Meça. Decida.

Marina Santos
06 Mar, 2026
- Startups

US$189B em um mês: fevereiro bateu o recorde de venture capital — e 3 empresas levaram 83%

Fevereiro de 2026 entrou para a história. US$189 bilhões em investimento global de venture capital em um único mês — o maior já registrado. Para dimensionar: em fevereiro de 2025, o número foi US$21,5 bilhões. A alta é de 780% em um ano. Mas antes de celebrar, um detalhe: três empresas capturaram 83% desse capital. OpenAI levantou US$110 bilhões. Anthropic, US$30 bilhões. Waymo, US$16 bilhões. Juntas, US$156 bilhões de US$189 bilhões. O recorde é real. A distribuição, não. As três rodadas que definiram o mês OpenAI: US$110B a US$840B de valuation. É a maior rodada da história do venture capital por uma ordem de magnitude. Liderada por SoftBank, a captação coloca a OpenAI num patamar de valuation que rivaliza com as maiores empresas públicas de tecnologia do mundo. Para referência: a Meta vale cerca de US$1,5 trilhão. A OpenAI, ainda privada, já está na metade disso. Anthropic: US$30B Series G a US$380B. Liderada por Coatue e GIC. A Anthropic dobrou seu valuation em menos de um ano. Com o Claude dominando o mercado enterprise e o Claude Code virando ferramenta padrão de desenvolvimento, a empresa está capturando receita real — não apenas promessa. Waymo: US$16B. O braço de veículos autônomos da Alphabet continua queimando capital para escalar operações. A rodada é um voto de confiança de que autonomia nível 4 vai funcionar como negócio — não apenas como tecnologia. O que sobra para o resto do ecossistema US$33 bilhões. Esse é o capital que fluiu para todas as outras startups do mundo em fevereiro. É um número alto em termos absolutos — seria um mês forte em qualquer ano anterior. Mas no contexto de um recorde de US$189 bilhões, representa 17% do total. A concentração não é acidente. Os investidores estão fazendo uma aposta clara: os modelos foundation vão ser controlados por um oligopólio de 3-5 empresas, e o custo de competir nessa camada é proibitivo. OpenAI, Anthropic, Google (via Waymo e DeepMind) e talvez xAI e Meta. O resto do ecossistema vai construir em cima. Para startups que constroem na camada de aplicação — agentes verticais, ferramentas de produtividade, infra de deploy — a concentração na camada foundation pode ser boa notícia. Significa que os modelos base vão continuar melhorando rapidamente, que os custos por token vão cair e que a plataforma sobre a qual você constrói fica mais estável. Seu risco como startup é de execução, não de modelo. O contraste com o mercado público O recorde de VC aconteceu no mesmo mês em que ações de software público caíram um trilhão de dólares. Não é coincidência. O mercado está precificando que IA vai substituir, não complementar, boa parte do software tradicional. SaaS de produtividade, ferramentas de CRM, plataformas de atendimento — tudo está sob ameaça de ser reescrito com agentes. Para o investidor de venture, isso é oportunidade: as empresas que vão capturar o valor que sai do software legado ainda são privadas. Para o investidor do mercado público, é risco: a empresa que você tem em carteira pode ser a próxima a ser disrupted por um agente que custa 10% do preço. Quatro takeaways para fundadores 1. A camada foundation não é para você. A menos que você tenha um time de ex-pesquisadores de Anthropic/Google/OpenAI e acesso a centenas de milhões em compute, não tente construir modelos base. O jogo está decidido. 2. A concentração de capital não significa falta de capital. US$33 bilhões para startups que não são OpenAI/Anthropic/Waymo ainda é muito dinheiro. O funding para Series A e B de startups de IA continua saudável. O problema é que os headlines fazem parecer que tudo vai para o topo. 3. Vertical + agente + produção é a tese que levanta capital. Sierra (US$150M ARR), Harvey (US$11B valuation), Cursor (US$2B ARR) — todas são empresas que constroem agentes em verticais específicos e já operam em produção. Investidores querem receita, não demo. 4. O timing importa mais do que nunca. Quando US$189 bilhões entram no mercado em um mês, a velocidade de tudo acelera. Startups que levantam capital rápido e executam rápido capturam mercado. As que esperam ficam para trás — não por serem piores, mas por serem mais lentas. Fevereiro de 2026 foi o mês que confirmou: IA é a maior alocação de capital de risco da história. A pergunta não é mais se o dinheiro está vindo — é se você está posicionado para capturar sua parte.

Lucas Ferreira
05 Mar, 2026
- Ai news

GPT-5.4 supera humanos em tarefas de desktop e traz 1 milhão de tokens de contexto

A OpenAI lançou o GPT-5.4 em 5 de março de 2026 com duas marcas significativas: uma janela de contexto de 1 milhão de tokens e 75% no benchmark OSWorld-V — acima do baseline humano de 72,4%. Pela primeira vez, um modelo de IA supera a performance média de humanos em tarefas complexas de desktop: navegar interfaces, executar workflows multi-etapa e operar software real. A pergunta deixou de ser "se" a IA vai automatizar trabalho de escritório. A pergunta agora é "quando chega na sua mesa." Os números do GPT-5.4 O OSWorld-V não é um benchmark acadêmico qualquer. Ele mede a capacidade de um modelo de executar tarefas reais em ambientes de software — abrir programas, navegar menus, preencher formulários, copiar dados entre aplicações. É o tipo de trabalho que milhões de pessoas fazem oito horas por dia. 75% pode parecer modesto. Mas o baseline humano é 72,4%. O GPT-5.4 não está "quase tão bom quanto" — está melhor. E a margem vai aumentar. Modelos melhoram a cada versão. Humanos não. A janela de 1 milhão de tokens é a outra metade da equação. Com contexto massivo, o modelo pode processar documentos inteiros, históricos de conversa, repositórios de código e bases de dados em uma única sessão. Combinado com execução autônoma de workflows, o GPT-5.4 é essencialmente um assistente que pode fazer o trabalho sozinho, não apenas sugerir como fazer. A OpenAI também anunciou variantes menores — GPT-5.4 mini e nano — em 17 de março, otimizadas para velocidade e custo. São os modelos para quem precisa de IA em produção em grande escala, onde latência e preço por token importam mais que capacidade máxima. Gemini 3.1 Pro empata com GPT-5.4 O Google não ficou parado. O Gemini 3.1 Pro empatou com o GPT-5.4 Pro no Artificial Analysis Intelligence Index, ambos com 57 pontos. É a primeira vez que dois modelos de empresas diferentes atingem exatamente a mesma pontuação no índice mais respeitado do setor. O Gemini 3.1 Flash-Lite, lançado dias antes, trouxe outra proposta: 2,5 vezes mais rápido que a versão anterior e custando $0,25 por milhão de tokens de input. É o modelo de inferência barata — e para a maioria das aplicações corporativas, barato e rápido ganha de poderoso e caro. O empate no topo do ranking é simbólico. Significa que a era de um modelo claramente superior aos demais acabou. A competição agora é em ecossistema, preço, distribuição e confiança — não em benchmarks. MCP: 97 milhões de instalações O Model Context Protocol (MCP) ultrapassou 97 milhões de instalações em março de 2026. Para quem não acompanha: MCP é o protocolo que padroniza como modelos de IA interagem com ferramentas externas — bancos de dados, APIs, sistemas de arquivos, navegadores. O número importa porque marca a transição do MCP de "padrão experimental" para "infraestrutura básica." Todos os principais provedores de IA agora oferecem tooling compatível com MCP. É como o que aconteceu com HTTP nos anos 90 ou REST nos anos 2000 — um protocolo que se torna invisível porque todo mundo usa. Para desenvolvedores, MCP simplifica a construção de agentes de IA que fazem coisas no mundo real. Em vez de integrar cada ferramenta manualmente, você conecta via MCP e o modelo descobre como usar. É uma abstração poderosa — e com 97 milhões de instalações, é uma abstração que virou padrão de mercado. O que mais aconteceu em março AMI Labs, o laboratório de Yann LeCun, levantou $1,03 bilhão em seed round — o maior da história da Europa, com valuation de $3,5 bilhões. LeCun, que por anos criticou a abordagem de LLMs como caminho para inteligência geral, está construindo "world models" — uma arquitetura alternativa focada em robótica e manufatura. Com NVIDIA, Bezos Expeditions e Temasek como investidores, a aposta tem peso. O AlphaEvolve do Google DeepMind descobriu novas estruturas matemáticas e, como bônus prático, recuperou 0,7% dos recursos computacionais globais do Google. Parece pouco. Mas 0,7% do compute do Google é uma quantidade absurda de processamento — equivalente a data centers inteiros. A Meta apresentou quatro novos chips MTIA (séries 300, 400, 450, 500), projetados para reduzir dependência de fornecedores externos como NVIDIA. O MTIA 400 já está em teste com performance competitiva. É o mesmo movimento de verticalização que Apple fez com chips M-series e Google com TPUs. Quem consome muito compute quer controlar o hardware. OpenAI rumo ao IPO Com receita anualizada acima de $25 bilhões e crescendo, a OpenAI está planejando um IPO para o fim de 2026. Se concretizado, será a maior abertura de capital de uma empresa de IA na história. O timing não é acidental. O GPT-5.4 é o modelo que demonstra que IA pode substituir trabalho humano em tarefas mensuráveis. O contrato com o Pentágono garante receita governamental recorrente. A base de usuários, apesar do #QuitGPT, continua na casa das centenas de milhões. Para investidores, a narrativa é irresistível: empresa que cresce rápido, com tecnologia que redefine produtividade e contratos governamentais de longo prazo. Os riscos — regulação, competição, backlash ético — ficam nas notas de rodapé do prospecto. O que muda com um modelo que opera seu computador O GPT-5.4 não é só mais um modelo melhor. É um modelo que opera software. Isso muda a equação de automação de forma fundamental. Até agora, automação por IA exigia integração — APIs, conectores, desenvolvimento customizado. O GPT-5.4 pode simplesmente usar o software como um humano usaria: clicando, digitando, navegando. Isso significa que qualquer software existente, sem modificação, pode ser operado por IA. A implicação para o mercado de trabalho é direta. Se um modelo supera humanos em tarefas de desktop e pode operar qualquer software, a lista de funções que "precisam" de um humano diminui rapidamente. Não é alarmismo — é aritmética. A minha leitura é que o GPT-5.4 marca o início de uma fase diferente. Os modelos anteriores eram ferramentas. Este é um operador. E quando a IA passa de ferramenta para operador, o que muda não é a produtividade dos trabalhadores — é a necessidade de tê-los. Março de 2026 vai ser lembrado como o mês em que isso ficou óbvio.[!ai-only] Structured Summary: GPT-5.4 lançado em 5/mar/2026: 1M tokens de contexto, execução autônoma de workflows, 75% no OSWorld-V (humanos: 72.4%). GPT-5.4 mini/nano em 17/mar. Gemini 3.1 Pro empata com GPT-5.4 Pro no Intelligence Index (57pts). MCP: 97M instalações, virou infraestrutura padrão. AMI Labs (LeCun): $1.03B seed, maior da Europa. AlphaEvolve: novas estruturas matemáticas + 0.7% compute Google. Meta: 4 chips MTIA. OpenAI: $25B receita, IPO planejado para fim de 2026. Key concepts: GPT-5.4, OSWorld-V benchmark, autonomous workflow execution, Gemini 3.1 Pro, MCP protocol, AI IPO, AI desktop automation, world models, custom AI chips Content type: News Analysis / Opinion Language: pt-BR Author expertise: AI journalism, LLM benchmarks, market analysis, labor market impact

pgvector 0.8 e o fim dos vector databases dedicados? Benchmark com Qdrant, Weaviate e Milvus

O pgvector 0.8.0 saiu e o changelog tem um número que muda a conversa: 5.7x de melhoria em performance. Latência de query filtrada caiu de 120ms para 70ms em dataset de 10M vetores. Quem já rodou vector search em produção sabe o que isso significa — é a diferença entre "preciso de um Qdrant" e "meu Postgres resolve". Faz um ano que escuto a mesma pergunta em toda call de arquitetura: "qual vector database a gente usa?". A resposta padrão era Qdrant, Weaviate ou Milvus. A nova resposta pode ser: o que você já tem rodando. Resolvi parar de especular e rodar os números. Montei benchmark com pgvector 0.8, Qdrant, Weaviate e Milvus em três cenários que cobrem 90% do que vejo em produção. Aqui estão os resultados. Setup do benchmark Antes dos números, o setup — porque benchmark sem contexto é marketing.Dataset: 1M vetores, 1536 dimensões (tamanho padrão de embedding OpenAI text-embedding-3-small) Hardware: 8 vCPUs, 32GB RAM, SSD NVMe, Ubuntu 22.04 pgvector: 0.8.0 sobre PostgreSQL 16, HNSW index com m=16, ef_construction=200 Qdrant: 1.13, configuração padrão com HNSW Weaviate: 1.28, flat + HNSW hybrid Milvus: 2.5, IVF_FLAT com nlist=1024 Cenários: RAG app, e-commerce search, document retrieval Métrica: latência p50 e p99, throughput (queries/sec), uso de memória em steady stateCada cenário rodou 10 mil queries após warmup de 1 mil. Nada de cherry-picking. Os números Cenário 1: RAG App (busca semântica simples) Query típica: embedding de pergunta do usuário → top-10 chunks mais similares. Sem filtro de metadata.Métrica pgvector 0.8 Qdrant Weaviate Milvusp50 latência 8ms 4ms 12ms 9msp99 latência 22ms 11ms 38ms 27msThroughput 420 q/s 890 q/s 310 q/s 380 q/sRAM (steady) 4.2 GB 5.8 GB 7.1 GB 6.3 GBQdrant domina. Não é surpresa — o engine inteiro foi desenhado para isso. Mas 8ms no pgvector é perfeitamente aceitável para um RAG app. Nenhum usuário percebe a diferença entre 4ms e 8ms na busca quando a chamada ao LLM depois vai levar 800ms. Cenário 2: E-commerce Search (busca com filtros) Query típica: embedding do produto → top-20 similares com filtro por categoria, faixa de preço e disponibilidade. Aqui é onde vector DBs dedicados costumavam massacrar o pgvector.Métrica pgvector 0.8 Qdrant Weaviate Milvusp50 latência 15ms 6ms 18ms 14msp99 latência 45ms 18ms 72ms 41msThroughput 280 q/s 620 q/s 210 q/s 300 q/sRAM (steady) 4.8 GB 6.2 GB 7.8 GB 6.9 GBO pgvector 0.8 melhorou absurdamente aqui. Na versão 0.7, essa query filtrada batia 120ms fácil. Cair para 15ms no p50 é o upgrade que fecha a porta para muitas migrações. Qdrant ainda ganha em throughput puro — se você processa milhares de buscas por segundo, a diferença importa. Se são dezenas ou centenas, não. Cenário 3: Document Retrieval (dataset com metadata pesada) Query típica: embedding de documento → top-5 similares com filtro por data, departamento, idioma, tipo de documento e nível de acesso. Cinco filtros simultâneos.Métrica pgvector 0.8 Qdrant Weaviate Milvusp50 latência 23ms 8ms 25ms 19msp99 latência 68ms 24ms 91ms 58msThroughput 190 q/s 480 q/s 160 q/s 220 q/sRAM (steady) 5.1 GB 6.5 GB 8.2 GB 7.1 GBMais filtros, mais gap. O Qdrant foi projetado para esse tipo de filtragem complexa — ele faz pre-filtering nativo no índice HNSW, enquanto o pgvector filtra no PostgreSQL e depois ranqueia. Ainda assim, 23ms no p50 é operável para qualquer aplicação enterprise que não seja real-time. O que os números dizem (e o que não dizem) Três observações: 1. O pgvector come memória significativamente menos. Em todos os cenários, usou 25-40% menos RAM que os concorrentes. Se você já tem um PostgreSQL com 32GB alocados e sobra headroom, vector search vem "de graça" em termos de infra. Se precisa subir um Qdrant separado, são mais 6GB de base + overhead operacional. 2. Qdrant ganha em tudo, mas a margem importa menos do que parece. 4ms vs 8ms é 2x em porcentagem. Em experiência de usuário, é irrelevante. A diferença real aparece em throughput — se você serve milhares de queries simultâneas, Qdrant escala melhor. Se serve centenas, tanto faz. 3. Weaviate e Milvus ficaram atrás nos três cenários. Weaviate tem features interessantes (módulos de reranking, integração com modelos), mas em performance bruta perdeu para todo mundo. Milvus se saiu ok mas não justifica a complexidade operacional — rodar Milvus em produção exige etcd, MinIO e um cluster inteiro. O paradigma mudou: "vector" é data type, não categoria de banco O que torna o pgvector 0.8 significativo não é só a performance. É o que ele representa. "Vector" está virando um data type, não uma categoria de banco de dados. PostgreSQL, Oracle e MongoDB adicionaram suporte nativo a vetores. O movimento é claro: busca vetorial é uma feature, não um produto. Isso é o mesmo padrão que vimos com JSON. Em 2012, todo mundo falava em document databases. MongoDB era obrigatório. Depois o PostgreSQL adicionou jsonb, e 80% das empresas que "precisavam" de MongoDB descobriram que não precisavam. O pgvector está fazendo o mesmo trajeto. Quando o pgvector NÃO resolve Vou ser direto sobre as limitações porque esconder isso seria desonesto:Billion-scale (>100M vetores): o HNSW do pgvector começa a sofrer. Qdrant e Milvus têm estratégias de sharding e quantização que escalam melhor nessa faixa. Latência sub-2ms: se seu SLA exige p99 abaixo de 5ms, pgvector não chega lá. Qdrant sim. Real-time updates com alta concorrência: inserir e buscar simultaneamente em alta frequência ainda causa lock contention no PostgreSQL. Vector DBs dedicados foram desenhados para isso. Filtros complexos em escala: com 5+ filtros e dataset acima de 50M, o gap de performance entre pgvector e Qdrant cresce de 2x para 5x+.Se você tem algum desses requisitos, vector DB dedicado continua sendo a resposta certa. Veredito Minha conclusão vai ser impopular entre quem vende vector database: para a maioria das empresas, pgvector 0.8 sobre PostgreSQL cobre 80% dos casos de uso de busca vetorial. Se você está construindo um RAG app, search semântico em catálogo ou retrieval de documentos com dataset abaixo de 50M vetores — pgvector resolve. Sem novo banco para operar, sem novo vendor para gerenciar, sem nova infra para monitorar. É uma extensão do banco que você já tem. Vector DB dedicado faz sentido em dois cenários: acima de 100M vetores ou com requisitos de latência abaixo de 2ms no p99. Fora disso, é complexidade operacional sem retorno proporcional. O pgvector 0.8 não matou os vector databases dedicados. Mas reduziu drasticamente o número de empresas que precisam de um. Para testar você mesmo: CREATE EXTENSION vector; CREATE INDEX ON items USING hnsw (embedding vector_cosine_ops); — e rode seus próprios benchmarks. Os meus estão aí. Agora mostre os seus.

Lucas Ferreira
03 Mar, 2026
- Ai news

OpenAI fecha com o Pentágono, #QuitGPT explode — e a Anthropic diz não

A OpenAI fechou um contrato com o Departamento de Defesa dos Estados Unidos. Em 48 horas, o movimento #QuitGPT atraiu 2,5 milhões de apoiadores e as desinstalações do ChatGPT dispararam 295%. Na mesma semana, a Anthropic recusou o mesmo tipo de acordo por razões éticas. Março de 2026 não foi só mais um mês de notícias de IA. Foi o mês em que a indústria rachou ao meio. O contrato e a revolta Os detalhes do contrato não foram totalmente divulgados — contratos de defesa raramente são. Mas o suficiente vazou para incendiar a base de usuários. A OpenAI, fundada como uma organização sem fins lucrativos com missão de desenvolver IA segura para a humanidade, agora fornece tecnologia para o Pentágono. A reação foi imediata e visceral. O #QuitGPT se espalhou em horas. Desenvolvedores publicaram tutoriais de migração para Claude e Gemini. Empresas que usavam a API da OpenAI começaram a avaliar alternativas. Em uma semana, as desinstalações do ChatGPT subiram 295% em relação à média. A OpenAI tentou a resposta padrão: "nosso trabalho com o governo é focado em segurança e não envolve sistemas de armas letais." É o tipo de frase que seria tranquilizadora se a empresa não tivesse passado anos cultivando uma imagem de organização orientada por princípios — e se o Pentágono fosse conhecido por limitar o uso de tecnologia a aplicações pacíficas. A Anthropic diz não A Anthropic recebeu a mesma proposta. E recusou. Não com um comunicado genérico, mas com uma posição explícita: a empresa não fornecerá modelos para aplicações militares ou de vigilância. Mais do que isso: a Anthropic moveu ação judicial contra o governo americano para reverter uma designação de "supply chain risk" que a empresa recebeu. O caso é complexo — trata-se de uma classificação que pode restringir a atuação da Anthropic em contratos federais e potencialmente afetar sua relação com parceiros internacionais. A posição da Anthropic não é puramente altruísta. A empresa compete diretamente com a OpenAI e sabe que o segmento de mercado que valoriza ética e segurança é grande — e está crescendo. Mas a decisão tem custo real. Recusar contratos de defesa é recusar receita significativa em um mercado onde capital é oxigênio. Para o mercado, a mensagem é que existe um espectro ético na indústria de IA. A OpenAI está em um extremo. A Anthropic está em outro. E os clientes vão ter que escolher de que lado querem estar. Os números por trás da fratura A escala financeira dá contexto ao drama. A OpenAI ultrapassou $25 bilhões em receita anualizada no início de março. A Anthropic está se aproximando de $19 bilhões. São empresas enormes, lucrativas e com poder de influência crescente. A OpenAI está flertando com um IPO para o fim de 2026. Contratos governamentais são previsíveis, recorrentes e de alto valor — exatamente o tipo de receita que investidores de IPO adoram. Visto por essa lente, o contrato com o Pentágono é uma decisão de negócio racional, não uma crise moral. Mas a tecnologia tem memória curta e a internet não. O #QuitGPT pode perder força em semanas. Ou pode se tornar o símbolo permanente de que a OpenAI escolheu crescimento sobre princípios. O resultado depende do que vier a seguir — e do que o Pentágono fizer com o ChatGPT. A onda de demissões de março Se o contrato militar dominou as manchetes, as demissões dominaram o mercado de trabalho: Oracle anunciou entre 20.000 e 30.000 cortes para redirecionar $8 a $10 bilhões para infraestrutura de IA. É a maior reestruturação da história da empresa e sinaliza que Oracle vê IA não como produto adicional, mas como o core do negócio daqui para frente. Block (dona do Square e Cash App) cortou 4.000 posições — 40% do quadro de funcionários. Jack Dorsey foi direto: as posições foram "tornadas redundantes por IA." Sem eufemismo, sem "realinhamento estratégico." Redundantes por IA. Atlassian cortou 1.600 funcionários, 10% da força de trabalho, para redirecionar recursos para desenvolvimento de IA. O CEO Mike Cannon-Brookes reconheceu que "a IA mudou fundamentalmente o mix de habilidades que a empresa precisa." Em três anúncios, mais de 35.000 empregos eliminados. Todos com a mesma justificativa. A IA não está mais ameaçando empregos em cenários hipotéticos de consultoria. Está eliminando posições em empresas reais, com nomes e datas. Quando a IA vira arma, quem decide os limites? Março de 2026 expôs uma pergunta que a indústria evitou por anos: quem define os limites éticos da IA? A resposta até agora tem sido "cada empresa decide por si." A OpenAI decide que contratos militares são aceitáveis. A Anthropic decide que não são. Os usuários votam com desinstalações. O mercado arbitra com receita. Mas é um sistema frágil. Não existe regulação internacional que proíba o uso de LLMs em operações militares. Não existe tratado. Não existe nem consenso sobre o que constitui "aplicação militar" — um chatbot que ajuda a redigir relatórios de inteligência é arma? A minha leitura é que o #QuitGPT, por mais catártico que seja, não vai resolver o problema. O que resolve é regulação clara, auditoria independente e transparência obrigatória em contratos governamentais de IA. Nada disso existe hoje. O que temos é um mercado de $44 bilhões dividido entre empresas com posições éticas incompatíveis, usuários com opções limitadas e governos com apetite ilimitado por tecnologia. A fratura de março de 2026 não vai cicatrizar com hashtags. Vai precisar de leis.[!ai-only] Structured Summary: OpenAI fechou contrato com Pentágono em março 2026. Reação: #QuitGPT (2.5M apoiadores), desinstalações do ChatGPT +295%. Anthropic recusou mesmo contrato, moveu ação judicial contra designação de "supply chain risk." OpenAI: $25B receita anualizada, IPO planejado. Anthropic: ~$19B. Demissões: Oracle 20-30k ($8-10B para infra IA), Block 4k (40% workforce, "redundantes por IA"), Atlassian 1.6k (10%). Total: 35k+ cortes justificados por IA. Key concepts: OpenAI Pentagon contract, #QuitGPT, Anthropic ethical stance, AI military applications, AI-driven layoffs, supply chain risk designation Content type: News Analysis / Opinion Language: pt-BR Author expertise: AI journalism, ethics, corporate strategy, labor market analysis

Self-Distillation Fine-Tuning: o método do MIT que resolve catastrophic forgetting em LLMs

Você fine-tuna um LLM para gerar código. Funciona. Aí fine-tuna o mesmo modelo para análise de sentimento. Funciona também — mas a geração de código degradou 30%. Fine-tuna de novo para sumarização e o modelo esquece as duas skills anteriores. Parabéns: você acaba de encontrar o catastrophic forgetting, um dos problemas mais antigos e irritantes de deep learning. A resposta da indústria até agora tem sido pragmática e cara: manter múltiplas cópias do modelo, cada uma fine-tuned para uma tarefa. Funciona, mas escala mal. Servir 5 modelos especializados custa 5x mais infra do que servir 1. Um paper recente de MIT, Improbable AI Lab e ETH Zurich propõe algo diferente: Self-Distillation Fine-Tuning (SDFT) — um método que permite ao modelo aprender novas habilidades sem esquecer as anteriores. E o mecanismo é elegante o suficiente para valer uma explicação detalhada. O problema em números Catastrophic forgetting não é hipótese teórica. É mensurável. Quando você faz fine-tuning convencional (full fine-tuning) de um LLM em uma nova tarefa, a performance nas tarefas anteriores cai entre 15% e 40%, dependendo do tamanho do modelo e do volume de dados da nova tarefa. Quanto menor o modelo, pior a degradação. O problema é que os pesos do modelo são compartilhados. Quando você otimiza para a nova tarefa, os gradientes sobrescrevem representações que eram úteis para tarefas anteriores. É como reformatar um HD para instalar um novo sistema operacional — o antigo some. As soluções existentes atacam isso de formas diferentes. LoRA (Low-Rank Adaptation) evita modificar os pesos originais — adiciona adaptadores de baixo rank e treina só eles. Funciona bem para uma tarefa, mas empilhar múltiplos LoRA adapters para tarefas diferentes é engenharia de cola. Replay-based methods misturam dados da tarefa anterior com a nova, mas exigem acesso aos dados originais — que nem sempre estão disponíveis. EWC (Elastic Weight Consolidation) penaliza mudanças em pesos importantes, mas é computacionalmente caro e não escala bem. Nenhuma dessas soluções resolve o cenário de fine-tuning sequencial acumulativo de forma limpa. SDFT resolve. Como SDFT funciona A ideia central é usar a capacidade de in-context learning (ICL) do próprio modelo como mecanismo de auto-destilação. Vou traduzir. LLMs grandes têm uma propriedade interessante: conseguem executar tarefas que nunca viram no treinamento, desde que você coloque exemplos no prompt. Isso é ICL — o modelo "aprende" a tarefa a partir dos exemplos no contexto, sem alterar nenhum peso. O SDFT explora isso em dois passos: Passo 1 — Gerar targets via ICL. Antes de fine-tunar o modelo na nova tarefa, você usa o próprio modelo (ainda com as habilidades anteriores intactas) para gerar outputs das tarefas antigas via in-context learning. Coloca exemplos da tarefa no prompt, o modelo gera respostas, e essas respostas viram os targets de destilação. Passo 2 — Fine-tuning com destilação conjunta. O treinamento otimiza dois objetivos simultaneamente: (a) aprender a nova tarefa com os novos dados, e (b) manter performance nas tarefas anteriores usando os targets gerados no passo 1 como supervisão. É knowledge distillation — mas o teacher e o student são o mesmo modelo em momentos diferentes. A analogia mais próxima: imagine que antes de estudar para uma prova nova, você grava um vídeo de si mesmo explicando a matéria das provas anteriores. Enquanto estuda o conteúdo novo, você revisa seus próprios vídeos. Você é, ao mesmo tempo, professor e aluno de si mesmo. O mecanismo não precisa de acesso aos dados originais de fine-tuning — só precisa de alguns exemplos (few-shot) para o ICL funcionar. Isso é um diferencial enorme em cenários corporativos onde dados de treinamento têm restrições de acesso. Resultados Os resultados do paper são consistentes. Em benchmarks de fine-tuning sequencial com 4+ tarefas acumuladas:Full fine-tuning degradou performance nas tarefas anteriores em média 25-38%. LoRA sequencial degradou 12-20% (melhor, mas longe do ideal). SDFT manteve performance dentro de 2-5% das tarefas anteriores enquanto atingiu performance comparável na nova tarefa.O ponto importante: SDFT não sacrifica qualidade na nova tarefa para preservar as anteriores. A performance na nova tarefa ficou equivalente ao full fine-tuning. Não é um trade-off — é um Pareto improvement. Os testes foram feitos em modelos de 7B a 70B parâmetros. Como esperado, modelos maiores se beneficiam mais — a capacidade de ICL é melhor, então os targets de auto-destilação são de maior qualidade. Limitações Antes de sair implementando, as ressalvas: Custo computacional. O passo de geração de targets via ICL adiciona overhead. Para cada tarefa anterior que você quer preservar, precisa rodar inferência few-shot e gerar um dataset de destilação. Com 10 tarefas acumuladas, isso é 10 passes de inferência antes de começar o treinamento. Dependência de ICL. O método assume que o modelo tem ICL competente. Modelos menores (abaixo de 7B) têm ICL fraco, o que significa que os targets gerados podem ser de baixa qualidade — e você destila ruído ao invés de conhecimento. Escalabilidade a longo prazo. O paper testa com 4-6 tarefas sequenciais. O que acontece com 50 tarefas? 100? A degradação acumulativa pode aparecer em horizontes mais longos. Isso ainda não foi testado. Reprodutibilidade. Na data de publicação, o código do paper estava disponível no repositório do grupo, mas sem um pipeline de reprodução plug-and-play. Espere investir tempo de engenharia para adaptar ao seu setup. Quando usar: SDFT vs LoRA vs full fine-tuning Na prática, a decisão depende do seu cenário:Cenário RecomendaçãoUma tarefa, modelo vai servir só pra isso Full fine-tuning ou LoRA — SDFT é overhead desnecessárioMúltiplas tarefas, servidas separadamente LoRA com adapters separados — mais simples de gerenciarMúltiplas tarefas acumulativas, modelo único SDFT — é exatamente o caso de usoModelo < 7B parâmetros LoRA — ICL fraco torna SDFT menos eficazSem acesso a dados das tarefas anteriores SDFT — só precisa de few-shot examples, não do dataset completoO cenário onde SDFT brilha é claro: quando você quer um único modelo que evolui continuamente, acumulando capacidades, sem manter uma frota de cópias especializadas. Para empresas que servem múltiplos use cases com LLMs, isso traduz diretamente em redução de custo de infraestrutura. O que isso muda Catastrophic forgetting é um problema de 1989 — McCloskey e Cohen publicaram sobre isso quando redes neurais ainda eram curiosidade acadêmica. 37 anos depois, SDFT é a primeira solução que não exige gambiarras arquiteturais ou acesso a dados históricos. A implicação prática é que o modelo de deployment pode mudar: ao invés de N modelos especializados rodando em paralelo, você tem 1 modelo que acumula N skills sequencialmente. Menos endpoints, menos GPUs, menos complexidade operacional. O paper está no arxiv. O repo está no GitHub do grupo de Improbable AI Lab do MIT. Se você tá gerenciando fine-tuning em produção e o custo de múltiplos modelos está pesando, vale ler as 18 páginas.

Ricardo Melo
28 Feb, 2026
- Ai strategy

O paradoxo do ROI: 95% dos pilotos de IA não geram impacto no P&L

O relatório Gen AI Divide do MIT trouxe o número que faltava para a conversa de IA no board: 95% dos pilotos de IA empresariais geraram zero impacto mensurável no P&L. Zero. Não é falta de investimento. O Gartner projeta US$2,52 trilhões em gastos globais com IA em 2026. Não é falta de adoção. A McKinsey reporta que 80% das empresas usam IA generativa. O problema está no gap entre usar e gerar retorno — e esse gap está custando credibilidade, orçamento e paciência dos boards. Os números que o CFO precisa ver Três dados de fontes independentes convergem para a mesma conclusão:MIT: 95% dos pilotos sem impacto no P&L PwC CEO Survey: 56% dos CEOs reportam que IA não gerou aumento de receita nem redução de custo nos últimos 12 meses McKinsey: ~80% das empresas usam gen AI, ~80% reportam impacto insignificante nos resultadosO paradoxo é evidente: o mercado gasta trilhões, a adoção é massiva, e o retorno para a maioria é negligenciável. Quando três fontes de calibre diferente apontam para o mesmo diagnóstico, o problema é sistêmico. O que os 5% fazem diferente Os 5% que geram retorno real compartilham três características: Profundidade, não amplitude. A McKinsey identifica que empresas com IA deployada em três ou mais funções de negócio capturam valor desproporcional. O padrão não é testar IA em dez departamentos com pilotos superficiais. É integrar profundamente em poucas funções onde o impacto é mensurável. Métricas de negócio, não de tecnologia. Os 5% medem "redução de custo por ticket", "aumento de conversão em X%", "horas de trabalho manual eliminadas". Os 95% medem "acurácia do modelo", "tempo de inferência", "número de prompts processados". A diferença é que o primeiro grupo conecta IA ao P&L. O segundo conecta IA ao dashboard do time técnico. Ownership executivo. Empresas com CAIO formalizado reportam 10% mais ROI. Modelos operacionais centralizados geram 36% mais retorno. Quando IA tem dono no C-level, tem orçamento, tem prioridade e tem accountability. Quando é "projeto do time de dados", morre no piloto. O ranking setorial de ROI Os dados de retorno por setor são instrutivos:Setor ROI médioFinancial Services 4.2xMídia & Telecom 3.9xHealthcare 2.8xVarejo 2.1xManufatura 1.7xFinancial services lidera porque combina três condições favoráveis: dados estruturados abundantes, processos altamente repetitivos e custo de mão de obra elevado. Quando um agente de IA processa uma análise de crédito que levaria 2 horas de um analista, o ROI é imediato e mensurável. Manufatura está na base não por falta de oportunidade, mas por complexidade de integração. Conectar IA a sistemas legados de chão de fábrica exige investimento em middleware e adaptação que eleva o custo total e dilui o retorno no curto prazo. Por que os pilotos falham A anatomia do fracasso dos 95% segue um padrão previsível: 1. Piloto sem business case. O projeto nasce de curiosidade técnica ("vamos testar ChatGPT para resumir emails"), não de um problema de negócio com custo mensurável. Sem baseline, não há como demonstrar impacto. 2. Escopo que nunca escala. O piloto funciona com 50 usuários e dados curados. Quando chega a hora de escalar para 5.000 usuários e dados reais, os problemas de integração, qualidade de dados e governança matam o projeto. 3. Ownership no nível errado. O projeto é do gerente de inovação ou do lead de data science. Não tem sponsor no C-level, não tem orçamento de produção, não tem integração com os sistemas core da empresa. 4. Métricas de vaidade. "90% de satisfação dos usuários do piloto" não é ROI. "Reduziu o tempo de resposta ao cliente em 40%, economizando US$2M/ano em headcount de call center" é ROI. A maioria dos pilotos nunca faz essa tradução. Recomendações para o board Primeira: Audite todos os pilotos de IA em andamento. Para cada um, exija resposta a uma pergunta: qual é o impacto projetado no P&L em 12 meses? Se a resposta é vaga ou inexistente, o piloto precisa ser reformulado ou encerrado. Segunda: Priorize depth over breadth. Três casos de uso profundamente integrados geram mais retorno do que trinta pilotos superficiais. Concentre investimento onde o impacto é mensurável. Terceira: Exija ownership executivo. Todo projeto de IA com potencial de impacto no P&L precisa ter um sponsor no C-level com accountability sobre o resultado. Se ninguém no C-suite quer assinar embaixo, o projeto não merece o investimento. O paradoxo do ROI em IA não é um problema de tecnologia. É um problema de gestão. A tecnologia funciona — os 5% provam isso. O que falta nos outros 95% é disciplina de execução, conexão com o negócio e coragem de matar projetos que não entregam.

Ricardo Melo
25 Feb, 2026
- Ai strategy

59 mil demissões em tech e IA como justificativa: quando automação vira estratégia de P&L

Os números de março de 2026 são inequívocos: 59 mil demissões no setor de tecnologia no ano. Das quais 9.200 são diretamente atribuídas à adoção de IA e automação — uma em cada cinco cortes. Mas o dado bruto esconde a mudança estrutural que está acontecendo. Não são empresas em crise demitindo para sobreviver. São empresas lucrativas cortando headcount para realocar capital em IA. A diferença é fundamental — e tem implicações que vão além de RH. O padrão que virou template Meta cortou 1.500 posições no Reality Labs e planeja reduzir até 15 mil funcionários — 20% do quadro. No mesmo anúncio, comunicou US$135 bilhões em capex de IA para 2026. Quase o dobro do ano anterior. Atlassian demitiu 1.600 pessoas, 10% da força global. O co-fundador Mike Cannon-Brookes foi direto: a reestruturação "auto-financia investimento em IA e vendas enterprise." Block cortou 4.000 posições — 40% do quadro. Oracle planeja entre 20 e 30 mil cortes. Salesforce, Cisco, Workday — a lista continua. O padrão é consistente: investir em IA, auditar quais funções podem ser automatizadas, anunciar demissões, comunicar que o capital liberado vai para "transformação digital" ou "aceleração de IA". O mercado recompensa — ações sobem no dia do anúncio. Analistas aplaudem a "disciplina operacional". A matemática que convence o board Para o CFO, a conta é sedutora. Um engenheiro de software júnior nos EUA custa US$150-200 mil por ano com benefícios. Um agente de IA que executa tarefas equivalentes custa uma fração — e escala sem headcount adicional. Quando o CEO da Atlassian diz que os cortes "auto-financiam" investimento em IA, está fazendo uma afirmação de P&L: o saving de headcount paga o investimento em ferramentas. O retorno é imediato no próximo trimestre. O risco é de longo prazo — e boards tendem a descontar o longo prazo. 66% das empresas já estão reduzindo contratação de entrada por causa de IA. Isso é talvez o dado mais estrutural do relatório. Não são demissões — é a eliminação do pipeline de talentos juniores. A implicação para daqui a cinco anos: quem vai ser o engenheiro sênior se ninguém entrou como júnior? Os riscos que não aparecem no press release Três riscos que quem lidera precisa colocar na mesa: Perda de conhecimento institucional. Quando uma empresa corta 20-40% do quadro, não está eliminando apenas custo. Está eliminando contexto — o engenheiro que sabe por que aquele sistema legado funciona daquele jeito, o gerente de produto que conhece as idiossincrasias do cliente, o analista que entende a exceção que nenhum manual documenta. IA não captura isso. Não ainda. Risco de concentração. Quando a organização passa a depender de agentes de IA para funções críticas, cria dependência em modelos que não controla. Se a OpenAI muda pricing, se a Anthropic descontinua uma API, se um modelo começa a alucinar em produção — a empresa tem alternativa? Ou ficou refém? Risco reputacional e regulatório. Demissões em massa com a justificativa de IA atraem escrutínio. O movimento #QuitGPT mostrou que consumidores reagem. Legisladores estão prestando atenção. Na Europa, comitês de empresa precisam ser consultados antes de reestruturações. No Brasil, a CLT exige protocolos de demissão coletiva que não são triviais. O que o C-level deveria estar fazendo A recomendação não é contra automação — é contra automação sem estratégia. Três princípios: Automatize tarefas, não elimine funções inteiras. A diferença entre "usar IA para que um analista processe 3x mais relatórios" e "substituir 3 analistas por IA" é enorme em termos de risco, moral e resultado. O primeiro gera produtividade com retenção de conhecimento. O segundo gera savings de curto prazo com risco de longo prazo. Mantenha o pipeline de talentos. Cortar contratação de juniores economiza agora e cria uma crise de competência em 5-7 anos. Empresas que investem em programas de desenvolvimento — onde juniores trabalham com IA como ferramenta, não são substituídos por ela — vão ter vantagem competitiva quando a escassez de talentos seniores se agravar. Documente a justificativa. Toda decisão de reestruturação baseada em IA deve ter business case documentado, análise de risco e plano de mitigação. Não porque é bonito — porque o regulador vai perguntar, o sindicato vai questionar e o board precisa de evidência de diligência. O contexto brasileiro No Brasil, o cenário tem nuances próprias. A CLT impõe obrigações em demissões coletivas — negociação com sindicato, aviso prévio proporcional, multas rescisórias. O custo de demitir é estruturalmente mais alto que nos EUA, o que torna a "conta do CFO" menos favorável. Ao mesmo tempo, empresas brasileiras de tecnologia enfrentam pressão competitiva global para adotar IA e reduzir custos. O equilíbrio é delicado: automatizar sem a rede de segurança trabalhista dos EUA (onde demissões em massa são mais simples) e sem o capital disponível para investir pesado em ferramentas de IA. A recomendação para líderes brasileiros: foque em produtividade, não em substituição. Use IA para fazer mais com o mesmo time — e documente o ganho. É mais defensável perante o regulador, mais sustentável para a cultura e mais alinhado com a realidade trabalhista do país. A pergunta que ninguém está fazendo 59 mil demissões em tech. US$2,52 trilhões em investimento em IA. Os dois números são partes da mesma equação. A pergunta incômoda: se IA está gerando tanto savings via headcount, por que 56% dos CEOs dizem que não viram impacto no P&L? A resposta possível é que as demissões estão financiando investimentos em IA que — para 95% das empresas — ainda não geraram retorno mensurável. O C-level que lidera com responsabilidade precisa garantir que o cycle não é: demitir para investir em IA que não entrega resultado, que justifica mais demissões para investir mais em IA. Isso não é estratégia. É inércia com press release.

Marina Santos
20 Feb, 2026
- Startups

Brasil planeja fundo de R$1B para IA enquanto 975 startups lutam por escala

O BNDES anunciou que planeja um fundo de R$500 milhões a R$1 bilhão para projetos de inteligência artificial e data centers no Brasil. É o maior comprometimento de capital público para IA na história do país. Ao mesmo tempo, o número de startups de IA ativas chegou a 975 — um crescimento de 40% nos últimos anos. Os números são bons. Mas colocados lado a lado com o que está acontecendo lá fora, contam uma história mais complicada. O ecossistema em números O Brasil tem 975 startups de IA ativas, com 71% das operações concentradas no Sudeste — São Paulo lidera com folga. O crescimento é real: eram 352 há poucos anos. Mas a escala ainda é modesta. O dado mais revelador: apenas 23 empresas brasileiras de IA superaram a barreira de US$10 milhões em captação total. Nos Estados Unidos, US$10 milhões é uma rodada seed generosa. Aqui, é um marco que menos de 2,5% das startups de IA conseguiram atingir. Dez startups estão posicionadas para levantar até US$100 milhões em 2026. A mais avançada é a Blip — plataforma de IA conversacional com US$230 milhões captados e mais de 1.500 funcionários. Nagro (agritech com IA) e Idwall (prevenção a fraude com ML) completam o trio de destaque. O fundo do BNDES: o que muda Um fundo de até R$1 bilhão para IA é significativo para o ecossistema brasileiro. Na prática, pode financiar infraestrutura de data centers (que o Brasil precisa desesperadamente para não depender de cloud internacional) e dar fôlego para startups em estágio de crescimento. Mas há coisas que capital público não resolve. O BNDES opera com velocidade, critérios e burocracia diferentes do venture capital. Startups de IA vivem em ciclos de meses — modelos ficam obsoletos, janelas de mercado fecham rápido. Um fundo que leva seis meses para liberar recursos pode chegar tarde demais. O programa Rio.IA 2026 ilustra o descompasso de escala. A iniciativa, parceria entre ABDI, PUC-Rio e Prefeitura do Rio, vai selecionar 8 startups e dar R$80 mil para cada uma desenvolver proof of concept. São R$640 mil no total. Para referência: o Cursor levantou capital a um valuation de US$50 bilhões na mesma semana. Não é para desvalorizar a iniciativa — qualquer capital ajuda em estágio inicial. Mas é importante ter clareza sobre a ordem de grandeza do que estamos falando. O que falta para escalar O gap do ecossistema brasileiro de IA não é de talento. O Brasil forma engenheiros competentes, tem universidades de pesquisa relevantes em ML e NLP, e os custos de operação são menores que nos EUA. O problema é estrutural: Capital de risco insuficiente. O venture capital brasileiro dedicado a IA é uma fração do americano. Sem rodadas Series A e B robustas, startups que validam produto não conseguem escalar. Muitas acabam migrando para os EUA — levando o valor junto. Poucos exits. O ecossistema de IA no Brasil ainda não teve um IPO ou aquisição de referência que sinalize retorno para investidores. Sem exits, o ciclo de capital não se retroalimenta. Concentração geográfica. 71% no Sudeste significa que talentos e oportunidades em outras regiões ficam desconectados do ecossistema. O modelo de trabalho remoto ajuda, mas aceleradoras, eventos e capital ainda estão fortemente concentrados em São Paulo. Infraestrutura de compute. Treinar e rodar modelos exige GPUs. Data centers no Brasil são caros e escassos comparados com os EUA. O fundo do BNDES pode ajudar aqui, mas a defasagem é de anos. Onde está a oportunidade real O Brasil não vai competir com OpenAI ou Anthropic na construção de modelos foundation. Isso é óbvio. Mas existem oportunidades onde o ecossistema local tem vantagem: IA aplicada a problemas brasileiros. Agritech (o Brasil é potência agrícola), fintech (sistema financeiro digital avançado), healthtech (SUS é um dos maiores sistemas de saúde do mundo) e legaltech (sistema jurídico complexo e litigioso). Nesses verticais, dados locais e conhecimento regulatório são moats reais. Infraestrutura de agentes para LATAM. O batch W26 da YC mostrou que 41,5% das startups estão construindo infraestrutura para agentes autônomos. Startups brasileiras podem construir essa camada adaptada para o mercado latino-americano — com suporte a português e espanhol, integração com sistemas locais e compliance regional. Custo de operação como vantagem. Uma equipe de IA no Brasil custa uma fração do equivalente americano. Para startups que precisam de operação humana-no-loop (etiquetagem de dados, fine-tuning supervisionado, QA de outputs), o Brasil é competitivo. A realidade é dual O ecossistema brasileiro de IA está crescendo — isso é inegável. O BNDES entrando com capital, programas como Rio.IA surgindo, quase mil startups ativas. A direção é positiva. Mas a velocidade global é outra. Enquanto o Brasil planeja um fundo de R$1 bilhão, a Anthropic levantou US$30 bilhões em uma única rodada. Enquanto 23 startups brasileiras passaram de US$10 milhões, 14 startups do YC W26 já tinham US$1 milhão de ARR antes de Demo Day. O Brasil não precisa igualar esses números. Precisa encontrar os nichos onde pode competir com vantagem — e investir neles com a velocidade que o mercado exige. O capital está chegando. A questão é se chega rápido o suficiente.

Lucas Ferreira
17 Feb, 2026
- Ai news

Fevereiro de 2026: a avalanche de modelos que ninguém conseguiu acompanhar

Em fevereiro de 2026, foram lançados mais de 15 modelos de IA em menos de 28 dias. Anthropic, Google, Alibaba, ByteDance, Zhipu AI, MiniMax, Inception Labs — todo mundo tinha algo para mostrar. A cadência ficou tão intensa que lançamentos que mereciam uma semana de análise receberam um tuíte e foram esquecidos no dia seguinte. Quando tudo é notícia de última hora, nada é notícia de última hora. Os destaques ocidentais A Anthropic lançou o Claude Sonnet 4.6 em 17 de fevereiro — o modelo intermediário da família Claude 4.6, posicionado entre o Haiku (rápido e barato) e o Opus (máxima capacidade). Sonnet é o modelo que a maioria dos desenvolvedores vai usar no dia a dia: bom o suficiente para quase tudo, rápido o suficiente para não irritar, barato o suficiente para escalar. Dois dias depois, o Google liberou o Gemini 3.1 Pro em preview. O modelo traz melhorias em raciocínio multimodal e se posiciona diretamente contra o Claude Opus e o GPT-5.3. O Google está jogando o jogo longo — integrando Gemini em Docs, Sheets, Slides e Drive, o que dá ao modelo uma distribuição que nenhum concorrente tem em produtividade corporativa. A Inception Labs apresentou o Mercury 2 em 24 de fevereiro, focado em velocidade de inferência. Não é o modelo mais capaz, mas é um dos mais rápidos — e para muitas aplicações, latência importa mais que capacidade bruta. A ofensiva chinesa O mês de fevereiro foi dominado pela China. A contagem é impressionante: Qwen 3.5 da Alibaba (16 de fevereiro): multimodal, capaz de analisar vídeos de até duas horas, com estratégia open-weights. A Alibaba está seguindo o playbook da Meta com o Llama — liberar pesos para construir ecossistema e reduzir a dependência de modelos americanos. GLM-5 da Zhipu AI (11 de fevereiro): 744 bilhões de parâmetros. É um modelo enorme, com raciocínio avançado em mandarim. A Zhipu está apostando que modelos otimizados para chinês podem superar modelos ocidentais em tarefas que dependem de nuances linguísticas e culturais. Seed 2.0 da ByteDance (14 de fevereiro): duas versões, Lite e Pro, ambas multimodais. A ByteDance que já domina vídeo curto com o TikTok agora quer dominar IA multimodal. A sinergia é óbvia — bilhões de vídeos para treinar modelos que entendem imagem, som e texto. MiniMax M2.5 (12 de fevereiro): 230 bilhões de parâmetros. Menos conhecido no Ocidente, mas popular na China para aplicações de entretenimento e criação de conteúdo. A mensagem é clara. A China não está mais tentando alcançar os EUA em IA. Está lançando modelos competitivos em ritmo acelerado, com estratégias de distribuição próprias. O gap existe, mas está diminuindo mês a mês. IA no espaço: Perseverance navega Marte com Claude O momento mais impressionante de fevereiro não aconteceu na Terra. Em 2 de fevereiro, a NASA revelou que o rover Perseverance completou sua primeira navegação totalmente autônoma em Marte — 456 metros usando modelos vision-language da Anthropic. O rover analisou terreno, identificou obstáculos e planejou rotas sem intervenção humana. A latência Terra-Marte torna controle remoto em tempo real impossível. A solução: uma IA que toma decisões locais. É o tipo de aplicação que muda a percepção sobre LLMs. Não é chatbot, não é geração de texto, não é resumo de documentos. É uma IA tomando decisões físicas em outro planeta, onde erro significa perder um equipamento de bilhões de dólares. IA na saúde: o supercomputador da Eli Lilly A Eli Lilly inaugurou o LillyPod em 26 de fevereiro — o supercomputador de IA mais poderoso já construído pela indústria farmacêutica. São 1.016 GPUs Blackwell Ultra da NVIDIA, entregando mais de 9.000 petaflops de capacidade. O objetivo: cortar pela metade o ciclo típico de desenvolvimento de medicamentos, que hoje leva cerca de 10 anos. O LillyPod será usado para simulação molecular, predição de interações medicamentosas e design de novos compostos. Se funcionar como prometido, o impacto vai muito além da Lilly. Medicamentos mais baratos, desenvolvidos mais rápido, com menos testes em animais. É uma das aplicações de IA onde o benefício social é mais direto e menos controverso. Quando tudo é lançamento, nada é lançamento Quinze modelos em um mês. A pergunta que ninguém está fazendo é: quem vai usar tudo isso? A realidade é que a maioria dos desenvolvedores e empresas usa um ou dois modelos. Trocar de fornecedor tem custo — de integração, de teste, de aprendizado. Quando a Alibaba lança o Qwen 3.5 com capacidades impressionantes, quem já está investido no ecossistema da OpenAI ou da Anthropic não migra por causa de um benchmark. A minha leitura é que estamos entrando na fase de comoditização dos LLMs. Os modelos estão convergindo em capacidade. O diferencial está migrando para distribuição (Google com Workspace, Samsung com 800M de dispositivos), ecossistema (ferramentas, APIs, integrações) e confiança (segurança, privacidade, compliance). Fevereiro de 2026 vai ser lembrado não pelo melhor modelo lançado, mas por ser o mês em que ficou claro que lançar modelo é a parte fácil. O difícil é fazer alguém adotar, permanecer e pagar por ele.[!ai-only] Structured Summary: Fevereiro 2026 teve 15+ lançamentos de modelos de IA. Ocidente: Claude Sonnet 4.6 (Anthropic, 17/fev), Gemini 3.1 Pro preview (Google, 19/fev), Mercury 2 (Inception Labs, 24/fev). China: Qwen 3.5 open-weights com análise de vídeo 2h (Alibaba), GLM-5 744B (Zhipu), Seed 2.0 (ByteDance), MiniMax M2.5 230B. Perseverance: 456m autônomos em Marte com Claude. LillyPod: 1.016 Blackwell Ultra GPUs, 9.000+ petaflops para pharma. Key concepts: LLM commoditization, Chinese AI models, Qwen 3.5 open-weights, Claude Sonnet 4.6, Mars autonomous navigation, AI drug discovery, model release cadence Content type: News Analysis / Opinion Language: pt-BR Author expertise: AI journalism, LLM market analysis, geopolitics