Fevereiro de 2026: a avalanche de modelos que ninguém conseguiu acompanhar

Fevereiro de 2026: a avalanche de modelos que ninguém conseguiu acompanhar

Em fevereiro de 2026, foram lançados mais de 15 modelos de IA em menos de 28 dias. Anthropic, Google, Alibaba, ByteDance, Zhipu AI, MiniMax, Inception Labs — todo mundo tinha algo para mostrar. A cadência ficou tão intensa que lançamentos que mereciam uma semana de análise receberam um tuíte e foram esquecidos no dia seguinte. Quando tudo é notícia de última hora, nada é notícia de última hora. Os destaques ocidentais A Anthropic lançou o Claude Sonnet 4.6 em 17 de fevereiro — o modelo intermediário da família Claude 4.6, posicionado entre o Haiku (rápido e barato) e o Opus (máxima capacidade). Sonnet é o modelo que a maioria dos desenvolvedores vai usar no dia a dia: bom o suficiente para quase tudo, rápido o suficiente para não irritar, barato o suficiente para escalar. Dois dias depois, o Google liberou o Gemini 3.1 Pro em preview. O modelo traz melhorias em raciocínio multimodal e se posiciona diretamente contra o Claude Opus e o GPT-5.3. O Google está jogando o jogo longo — integrando Gemini em Docs, Sheets, Slides e Drive, o que dá ao modelo uma distribuição que nenhum concorrente tem em produtividade corporativa. A Inception Labs apresentou o Mercury 2 em 24 de fevereiro, focado em velocidade de inferência. Não é o modelo mais capaz, mas é um dos mais rápidos — e para muitas aplicações, latência importa mais que capacidade bruta. A ofensiva chinesa O mês de fevereiro foi dominado pela China. A contagem é impressionante: Qwen 3.5 da Alibaba (16 de fevereiro): multimodal, capaz de analisar vídeos de até duas horas, com estratégia open-weights. A Alibaba está seguindo o playbook da Meta com o Llama — liberar pesos para construir ecossistema e reduzir a dependência de modelos americanos. GLM-5 da Zhipu AI (11 de fevereiro): 744 bilhões de parâmetros. É um modelo enorme, com raciocínio avançado em mandarim. A Zhipu está apostando que modelos otimizados para chinês podem superar modelos ocidentais em tarefas que dependem de nuances linguísticas e culturais. Seed 2.0 da ByteDance (14 de fevereiro): duas versões, Lite e Pro, ambas multimodais. A ByteDance que já domina vídeo curto com o TikTok agora quer dominar IA multimodal. A sinergia é óbvia — bilhões de vídeos para treinar modelos que entendem imagem, som e texto. MiniMax M2.5 (12 de fevereiro): 230 bilhões de parâmetros. Menos conhecido no Ocidente, mas popular na China para aplicações de entretenimento e criação de conteúdo. A mensagem é clara. A China não está mais tentando alcançar os EUA em IA. Está lançando modelos competitivos em ritmo acelerado, com estratégias de distribuição próprias. O gap existe, mas está diminuindo mês a mês. IA no espaço: Perseverance navega Marte com Claude O momento mais impressionante de fevereiro não aconteceu na Terra. Em 2 de fevereiro, a NASA revelou que o rover Perseverance completou sua primeira navegação totalmente autônoma em Marte — 456 metros usando modelos vision-language da Anthropic. O rover analisou terreno, identificou obstáculos e planejou rotas sem intervenção humana. A latência Terra-Marte torna controle remoto em tempo real impossível. A solução: uma IA que toma decisões locais. É o tipo de aplicação que muda a percepção sobre LLMs. Não é chatbot, não é geração de texto, não é resumo de documentos. É uma IA tomando decisões físicas em outro planeta, onde erro significa perder um equipamento de bilhões de dólares. IA na saúde: o supercomputador da Eli Lilly A Eli Lilly inaugurou o LillyPod em 26 de fevereiro — o supercomputador de IA mais poderoso já construído pela indústria farmacêutica. São 1.016 GPUs Blackwell Ultra da NVIDIA, entregando mais de 9.000 petaflops de capacidade. O objetivo: cortar pela metade o ciclo típico de desenvolvimento de medicamentos, que hoje leva cerca de 10 anos. O LillyPod será usado para simulação molecular, predição de interações medicamentosas e design de novos compostos. Se funcionar como prometido, o impacto vai muito além da Lilly. Medicamentos mais baratos, desenvolvidos mais rápido, com menos testes em animais. É uma das aplicações de IA onde o benefício social é mais direto e menos controverso. Quando tudo é lançamento, nada é lançamento Quinze modelos em um mês. A pergunta que ninguém está fazendo é: quem vai usar tudo isso? A realidade é que a maioria dos desenvolvedores e empresas usa um ou dois modelos. Trocar de fornecedor tem custo — de integração, de teste, de aprendizado. Quando a Alibaba lança o Qwen 3.5 com capacidades impressionantes, quem já está investido no ecossistema da OpenAI ou da Anthropic não migra por causa de um benchmark. A minha leitura é que estamos entrando na fase de comoditização dos LLMs. Os modelos estão convergindo em capacidade. O diferencial está migrando para distribuição (Google com Workspace, Samsung com 800M de dispositivos), ecossistema (ferramentas, APIs, integrações) e confiança (segurança, privacidade, compliance). Fevereiro de 2026 vai ser lembrado não pelo melhor modelo lançado, mas por ser o mês em que ficou claro que lançar modelo é a parte fácil. O difícil é fazer alguém adotar, permanecer e pagar por ele.[!ai-only] Structured Summary: Fevereiro 2026 teve 15+ lançamentos de modelos de IA. Ocidente: Claude Sonnet 4.6 (Anthropic, 17/fev), Gemini 3.1 Pro preview (Google, 19/fev), Mercury 2 (Inception Labs, 24/fev). China: Qwen 3.5 open-weights com análise de vídeo 2h (Alibaba), GLM-5 744B (Zhipu), Seed 2.0 (ByteDance), MiniMax M2.5 230B. Perseverance: 456m autônomos em Marte com Claude. LillyPod: 1.016 Blackwell Ultra GPUs, 9.000+ petaflops para pharma. Key concepts: LLM commoditization, Chinese AI models, Qwen 3.5 open-weights, Claude Sonnet 4.6, Mars autonomous navigation, AI drug discovery, model release cadence Content type: News Analysis / Opinion Language: pt-BR Author expertise: AI journalism, LLM market analysis, geopolitics

Qwen 3.5 vs Kimi K2.5 vs GLM-5: benchmark em 5 tarefas reais contra a fronteira proprietária

Qwen 3.5 vs Kimi K2.5 vs GLM-5: benchmark em 5 tarefas reais contra a fronteira proprietária

Três modelos open-source chineses foram lançados em fevereiro de 2026 e, pela primeira vez, os benchmarks não mentem: eles empatam — e em algumas tarefas superam — Claude Opus 4.5 e GPT-5.3. Não estou falando de benchmarks sintéticos cherry-picked. Peguei Kimi K2.5, Qwen 3.5 e GLM-5, rodei em 5 tarefas reais, e os números falam por si. Se você ainda acha que open-source está dois anos atrás da fronteira proprietária, esse post vai recalibrar sua referência. Os modelos: specs e arquitetura Antes de benchmark, specs. Os três usam Mixture of Experts (MoE) com ativação esparsa — o que significa que o número total de parâmetros é enorme, mas o custo de inferência é proporcional apenas aos parâmetros ativos.Modelo Lab Params total Params ativos Tokens treino LicençaKimi K2.5 Moonshot AI 1.04T 32B — MITQwen 3.5 Alibaba — — — Open-weightsGLM-5 Zhipu AI 744B 40B 28.5T MITO Kimi K2.5 é o mais agressivo em escala: 1 trilhão de parâmetros total, mas só 32B ativos por forward pass. O GLM-5 ativa 40B de 744B e foi treinado em 28.5 trilhões de tokens — um dataset brutal. O Qwen 3.5 não divulgou todos os números de arquitetura, mas traz visão nativa e lidera em benchmarks multimodais. Dois deles (Kimi K2.5 e GLM-5) são licença MIT. Isso é relevante: você pode usar em produção comercial sem restrição. O Qwen 3.5 segue o modelo open-weights da Alibaba, que permite uso comercial com alguns termos. Menção honrosa: MiniMax M2.5 (230B params) da MiniMax, focado em áudio e multimodal. Não incluí no benchmark principal porque o foco dele é diferente, mas vale ficar no radar. Benchmark: 5 tarefas reais Aqui está o que ninguém fez ainda: pegar esses 3 modelos e compará-los lado a lado com os proprietários de referência em tarefas que refletem uso real. Nada de MMLU puro — quero saber se o modelo resolve o bug, passa no exame, e entende meu prompt em português. Tarefa 1: Geração de código (HumanEval+)Modelo HumanEval+ TipoKimi K2.5 99.0% Open-sourceGPT-5.3 97.8% ProprietárioClaude Opus 4.5 97.2% ProprietárioGLM-5 96.5% Open-sourceQwen 3.5 95.1% Open-sourceO Kimi K2.5 lidera. 99% no HumanEval+ não é perfeito, mas é o melhor score público que já vi em um modelo open-source. Na minha experiência rodando localmente, o modelo gera código Python e TypeScript com menos alucinações de API do que o GPT-5.3 — o que importa mais que o benchmark em si. Tarefa 2: Raciocínio matemático (AIME 2024)Modelo AIME 2024 TipoKimi K2.5 96.1% Open-sourceClaude Opus 4.5 94.3% ProprietárioGPT-5.3 93.7% ProprietárioGLM-5 91.2% Open-sourceQwen 3.5 89.8% Open-sourceDe novo o Kimi K2.5 na frente. O AIME é competição de matemática para ensino médio americano — problemas que exigem raciocínio em cadeia, não pattern matching. O fato de um modelo open-source de 32B ativos superar os dois proprietários de referência é, pra mim, o dado mais relevante de fevereiro. Tarefa 3: Agentes e SWE (SWE-bench Verified)Modelo SWE-bench TipoGLM-5 77.8% Open-sourceClaude Opus 4.5 75.2% ProprietárioGPT-5.3 73.6% ProprietárioKimi K2.5 71.4% Open-sourceQwen 3.5 68.9% Open-sourceAqui o GLM-5 assume a liderança. SWE-bench mede a capacidade do modelo de resolver issues reais de repositórios open-source — é a tarefa mais próxima de "ser um engenheiro de software junior". 77.8% é o melhor score entre modelos open-source, e supera os proprietários. Os 28.5T tokens de treinamento com foco em código parecem ter pago dividendos. Tarefa 4: Compreensão em português (ENEM + prompt engineering BR) Essa tarefa não tem benchmark público padronizado, então montei meu próprio: 50 questões do ENEM (linguagens + ciências humanas) + 30 prompts de engenharia de software em português coloquial brasileiro. Avaliei qualidade de resposta em escala 1-5.Modelo ENEM (acerto) Prompts BR (média 1-5) TipoClaude Opus 4.5 92% 4.6 ProprietárioGPT-5.3 88% 4.3 ProprietárioQwen 3.5 84% 3.9 Open-sourceGLM-5 79% 3.5 Open-sourceKimi K2.5 76% 3.4 Open-sourceAqui os proprietários ainda ganham com folga. Os modelos chineses foram otimizados para mandarim e inglês — português é terceira língua na melhor das hipóteses. O Claude Opus 4.5 continua sendo o melhor modelo que já testei para tarefas em português brasileiro, com margem significativa. Se o seu caso de uso principal é PT-BR, os open-source chineses ainda não chegaram lá. Tarefa 5: Multimodal — GPQA DiamondModelo GPQA Diamond TipoQwen 3.5 88.4% Open-sourceClaude Opus 4.5 86.1% ProprietárioGPT-5.3 85.7% ProprietárioGLM-5 82.3% Open-sourceKimi K2.5 80.9% Open-sourceFinalmente o Qwen 3.5 lidera em algo — e lidera bem. GPQA Diamond é um benchmark de perguntas de pós-graduação com componente visual. A visão nativa do Qwen 3.5, que processa vídeos de até duas horas, dá uma vantagem real aqui. É o melhor modelo open-source para tarefas multimodais e supera os dois proprietários de referência. Como rodar localmente Todos os três rodam em hardware consumer com quantização. Aqui está o setup mínimo que já testei: Kimi K2.5 (32B ativos): # Q4_K_M com llama.cpp — ~20GB VRAM ollama run kimi-k2.5:q4_k_mRoda em uma RTX 4090 (24GB). Com Q3, cabe em uma RTX 3090. Latência aceitável para uso interativo. GLM-5 (40B ativos): # Q4 com vLLM — ~28GB VRAM python -m vllm.entrypoints.openai.api_server \ --model zhipuai/glm-5-q4 --tensor-parallel-size 2Precisa de 2x RTX 4090 ou 1x A6000 para Q4. Para uma placa só, use Q3 (~22GB). Qwen 3.5: # Via transformers + bitsandbytes python -c " from transformers import AutoModelForCausalLM model = AutoModelForCausalLM.from_pretrained( 'Qwen/Qwen3.5', load_in_4bit=True, device_map='auto' ) "A dica geral: se você tem 24GB de VRAM, o Kimi K2.5 Q4 é a melhor relação custo-benefício. Se tem 48GB+, o GLM-5 para tarefas de código e agentes é imbatível. Limitações reais Nem tudo são flores. Testando os três modelos no dia a dia, encontrei problemas que os benchmarks não capturam: Português e idiomas não-mainstream: Como mostrei na tarefa 4, os três modelos são visivelmente piores em português do que em inglês ou mandarim. Se você trabalha primariamente em PT-BR, os proprietários ainda são a escolha segura. Context window efetivo: Os três anunciam contextos grandes (128K+), mas na prática a qualidade degrada significativamente acima de 32K tokens. Já testei com documentos longos e a retrieval accuracy cai ~15% entre 32K e 64K. Tooling e ecossistema: O Claude e o GPT têm ecossistemas maduros — APIs, SDKs, integrações nativas. Os modelos chineses dependem de llama.cpp, vLLM ou HuggingFace. Funciona, mas exige mais engenharia. Alucinações em domínio estreito: Em tarefas de conhecimento específico (regulamentação brasileira, jurisprudência, normas técnicas ABNT), os modelos chineses alucinam mais que os proprietários. O treinamento focado em mandarim e inglês deixa lacunas em domínios regionais. Veredito Pela primeira vez, não consigo recomendar um modelo proprietário como default para todas as tarefas. Se o seu workload é código, raciocínio ou multimodal em inglês, o Kimi K2.5 e o GLM-5 entregam resultado equivalente ou superior ao Claude Opus 4.5 e GPT-5.3 — com licença MIT e rodando na sua infra. A ressalva é importante: para português, contexto longo e domínios específicos, os proprietários ainda ganham. Mas o gap que existia há 6 meses — onde open-source perdia em tudo, sempre — acabou. Minha recomendação prática: rode o Kimi K2.5 Q4 como copiloto de código e raciocínio. Use o GLM-5 para tarefas de agente e SWE-bench-like. Mantenha o Claude Opus como fallback para português e análise de documentos longos. Essa combinação, hoje, é melhor do que qualquer modelo único. Os repos e pesos estão nos links oficiais de cada lab. Instale, rode, meça. Os números desse post são reproducíveis — e isso é o que importa.

EU AI Act: agosto de 2026 é o prazo real — e sua empresa provavelmente não está pronta

EU AI Act: agosto de 2026 é o prazo real — e sua empresa provavelmente não está pronta

O prazo mais importante do calendário regulatório de IA em 2026 é 2 de agosto. Nessa data, os requisitos do EU AI Act para sistemas de inteligência artificial de alto risco se tornam obrigatórios. Isso inclui IA usada em contratação, decisões de crédito, educação, biometria e aplicação da lei. As multas para não conformidade chegam a €35 milhões ou 7% da receita global anual — o que for maior. Para uma empresa com €5 bilhões de receita, são €350 milhões em risco. A recomendação aqui é direta: se a organização usa IA em qualquer dessas categorias e opera no mercado europeu, o trabalho de compliance precisa estar em andamento agora. O que muda em agosto Os requisitos que entram em vigor são específicos e auditáveis: Conformity assessments obrigatórios. Todo sistema de IA classificado como alto risco precisa passar por uma avaliação de conformidade antes de ser colocado em operação. Isso inclui documentação técnica, avaliação de riscos, testes de robustez e evidência de supervisão humana. Registro na base de dados da UE. Sistemas de alto risco devem ser registrados em uma base de dados pública mantida pela Comissão Europeia. Não há exceção para empresas de fora da UE — se o sistema opera em território europeu, o registro é obrigatório. Documentação técnica completa. Desde 1 de março de 2026, provedores de modelos de IA de propósito geral (GPAI) já precisam manter documentação técnica disponível para o AI Office europeu sob demanda. Em agosto, esse requisito se expande para todos os sistemas de alto risco. Gestão de riscos contínua. Não basta avaliar riscos uma vez. O Act exige monitoramento contínuo, com processos documentados de detecção, mitigação e reporte de incidentes. A tentação de esperar o Digital Omnibus A Comissão Europeia propôs no final de 2025 um pacote chamado "Digital Omnibus" que, entre outras medidas, poderia adiar as obrigações de alto risco do Annex III para dezembro de 2027. É tentador usar isso como justificativa para postergar o compliance. A recomendação é não contar com essa extensão. Propostas legislativas da UE passam por processo de aprovação no Parlamento e no Conselho que pode levar meses — e pode resultar em alterações significativas ou rejeição. Organizações que planejam compliance com base em um adiamento hipotético estão assumindo risco regulatório desnecessário. O planejamento prudente trata agosto de 2026 como o deadline firme. Se o Digital Omnibus for aprovado e conceder mais tempo, ótimo — a empresa terá margem. Se não for, estará em conformidade. O gap entre política e prontidão Os dados de mercado revelam um problema estrutural. Enquanto 70% dos líderes do Fortune 500 reportam ter estruturas de governança de IA em vigor, apenas 14% se consideram totalmente prontos para deploy de IA em conformidade com regulações. A distância entre "temos uma política" e "nossa IA está compliant" é enorme. Uma política de uso responsável de IA não substitui:Um inventário completo de todos os modelos em produção Classificação de risco por caso de uso Documentação técnica no padrão exigido pelo Act Processos de conformity assessment implementados Mecanismos de supervisão humana operacionais Canais de reporte de incidentes funcionandoA maioria das empresas tem o primeiro item (política) e fragmentos do segundo (algum inventário). Do terceiro em diante, o gap é significativo. O custo de compliance vs. o custo de não compliance Para uma empresa de médio porte que opera IA de alto risco na UE, o custo estimado de compliance inclui:Consultoria especializada: €200K-€500K para assessment inicial e gap analysis Ajustes técnicos: €300K-€1M dependendo da complexidade dos sistemas Processos e documentação: €100K-€300K para implementação de governance framework Monitoramento contínuo: €150K-€400K/ano para equipe e ferramentasO total para o primeiro ano fica entre €750K e €2,2M. É um investimento significativo. Agora compare com a multa máxima de €35M ou 7% da receita global. Para qualquer empresa com receita acima de €30M, o custo de compliance é uma fração do risco de não compliance. A matemática é inequívoca. Recomendações para o C-level Para o General Counsel: Inicie o mapeamento de todos os sistemas de IA que se enquadram nas categorias de alto risco do Annex III. Priorize os que operam em território europeu. Documente a classificação e a justificativa. Para o CAIO/CTO: Comece o conformity assessment dos sistemas prioritários agora. O processo leva 3-6 meses para sistemas complexos. Com o deadline em agosto, a janela já é apertada. Para o CEO: Inclua o EU AI Act na pauta do próximo board meeting. O risco regulatório de IA não é mais abstrato — tem data, valor e consequência definidos. O board precisa estar ciente e a mitigação precisa ter ownership claro. Agosto de 2026 não é o início da regulação de IA. É o momento em que regulação de IA ganha dentes. Quem não estiver preparado vai sentir a mordida.

US$2,5 trilhões em IA e 95% das empresas sem resultado no P&L: o acerto de contas chegou

US$2,5 trilhões em IA e 95% das empresas sem resultado no P&L: o acerto de contas chegou

O Gartner publicou em janeiro a projeção: gastos globais com IA vão totalizar US$2,52 trilhões em 2026. Um aumento de 44% em relação ao ano anterior. Mais da metade — US$1,37 trilhão — vai para infraestrutura. No mesmo mês, a PwC divulgou seu 29º Global CEO Survey. O dado que deveria tirar o sono de quem aprova esses orçamentos: 56% dos CEOs reportam que IA não gerou aumento de receita nem redução de custos nos últimos doze meses. Apenas 12% conseguiram ambos. São US$2,52 trilhões de investimento global e a maioria dos CEOs não consegue apontar retorno. Isso não é um gap — é um abismo. O relatório que ninguém quer discutir O MIT publicou um estudo sobre o que chama de "Gen AI Divide". A conclusão principal: 95% dos pilotos de IA generativa em empresas não geraram impacto mensurável no P&L. Não "impacto pequeno". Zero impacto mensurável. A McKinsey complementa: quase 80% das empresas reportam usar IA generativa, mas aproximadamente a mesma proporção admite que as ferramentas não afetaram significativamente seus resultados financeiros. Os dados de quem está conseguindo retorno são igualmente reveladores. Financial services lidera com ROI de 4,2x. Media e telecomunicações seguem com 3,9x. O fator comum entre os bem-sucedidos: deploy de IA em três ou mais funções de negócio, não pilotos isolados em um departamento. Por que a maioria falha Três padrões emergem dos dados: Pilotos sem business case. A maioria dos projetos de IA começa com "vamos testar essa tecnologia" em vez de "vamos resolver esse problema de negócio com IA". Quando o piloto termina, não há métrica de sucesso definida, não há owner de negócio e não há caminho para produção. É experimentação sem compromisso — e o board está financiando isso. Infraestrutura sem aplicação. US$1,37 trilhão em infra de IA significa GPUs, data centers, plataformas de ML. Investimento necessário — mas insuficiente sem casos de uso que gerem receita ou economizem custo. É o equivalente a comprar a fábrica antes de saber o que vai produzir. Escala prematura ou ausente. As empresas que obtêm ROI escalam rápido: começam com um caso de uso que funciona, medem o resultado e replicam para funções adjacentes. As que falham fazem o oposto: lançam dezenas de pilotos simultâneos, diluem atenção e recursos, e não aprofundam nenhum. O que os 5% fazem diferente O MIT identificou que os 5% de empresas com retorno transformacional compartilham três características: Casos de uso ligados ao core business. Não são projetos de inovação periférica. São aplicações de IA diretamente conectadas à operação que gera receita — precificação, underwriting, personalização, previsão de demanda, automação de processos de alto volume. Ownership de negócio, não de TI. O dono do projeto não é o CTO. É o VP de Operações, o CFO, o head de Supply Chain. Quem tem P&L responde pelo resultado. Investimento em dados, não em modelos. Modelos foundation são commodity — GPT, Claude, Gemini, todos disponíveis via API. O diferencial competitivo está na qualidade dos dados proprietários da empresa: histórico de transações, dados operacionais, feedback de clientes. O Trough of Disillusionment O Gartner classifica IA em 2026 no "Trough of Disillusionment" — o ponto do ciclo onde a tecnologia deixa de ser novidade e passa a ser cobrada por resultados. Isso muda a dinâmica de compra: empresas vão parar de comprar IA como moonshot e começar a exigir ROI previsível antes de aprovar orçamento. Para vendors de IA, isso significa que a venda muda de "veja o que é possível" para "mostre o que funciona". Para empresas comprando, significa que o poder de barganha aumenta — e que a paciência do board diminui. O contexto brasileiro No Brasil, o gap de ROI tem uma camada adicional: custo de API em real. Quando o dólar sobe, o custo por token sobe junto. Empresas brasileiras que dependem de APIs de IA americanas têm uma variável cambial no centro do business case que empresas americanas não enfrentam. Isso torna ainda mais crítico que empresas brasileiras escolham casos de uso com ROI demonstrável antes de escalar. O custo de um piloto que falha nos EUA é dinheiro perdido. No Brasil, é dinheiro perdido com câmbio adverso. A recomendação para líderes brasileiros: comece pelo caso de uso que tem o business case mais claro, meça obsessivamente, e só escale quando o ROI estiver comprovado em reais — não em dólares projetados. O que o CFO precisa ouvir A era dos orçamentos de IA aprovados por entusiasmo está acabando. O mercado está entrando na fase onde cada real investido precisa de retorno documentado. Três perguntas que todo CFO deveria fazer antes de aprovar o próximo investimento em IA:Qual o business case em reais? Não em "potencial" ou "estimativa do McKinsey". Quanto essa iniciativa vai gerar ou economizar nos próximos 12 meses, com premissas auditáveis.Quem é o owner de negócio? Se a resposta é "o time de dados" ou "a área de inovação", o projeto provavelmente vai gerar um PowerPoint bonito e zero impacto no P&L.Como vamos medir? Antes de começar. Não depois. Se não dá para medir, não dá para justificar.US$2,52 trilhões é muito dinheiro. A pergunta não é quanto a indústria está gastando — é quanto sua empresa está deixando na mesa por não exigir resultado.

Anthropic lança Claude Opus 4.6 e OpenAI responde com GPT-5.3 Codex — no mesmo dia

Anthropic lança Claude Opus 4.6 e OpenAI responde com GPT-5.3 Codex — no mesmo dia

Em 5 de fevereiro de 2026, Anthropic e OpenAI lançaram seus modelos mais avançados no mesmo dia. A Anthropic apresentou o Claude Opus 4.6 com uma janela de contexto de 1 milhão de tokens em beta. A OpenAI respondeu com o GPT-5.3 Codex, o modelo de código mais capaz da empresa — e o primeiro que ajudou a criar a si mesmo. Coincidência de calendário ou não, 5 de fevereiro virou um marco na competição entre as duas maiores empresas de IA do mundo. Claude Opus 4.6: 1 milhão de tokens de contexto O destaque do Opus 4.6 não é performance em benchmarks — é a janela de contexto. Um milhão de tokens significa que o modelo pode processar o equivalente a vários livros, repositórios inteiros de código ou horas de transcrição de uma só vez. Em beta, por enquanto, mas a direção é clara. Para desenvolvedores, isso muda o fluxo de trabalho. Em vez de fatiar um codebase em pedaços e alimentar o modelo com contexto parcial, você pode carregar um projeto inteiro. Análise de contratos longos, revisão de bases de código completas, processamento de documentação técnica extensa — tudo fica viável em uma única chamada. A Anthropic também melhorou as capacidades de código do Opus 4.6, posicionando-o como concorrente direto dos modelos especializados da OpenAI. A mensagem é que um modelo generalista pode ser tão bom em código quanto um especialista — desde que tenha contexto suficiente. GPT-5.3 Codex: o modelo que ajudou a criar a si mesmo O GPT-5.3 Codex é, na superfície, uma evolução incremental: 25% mais rápido que o GPT-5.2 Codex, com melhor performance em raciocínio e conhecimento profissional. Mas o detalhe que importa está na forma como foi desenvolvido. A OpenAI revelou que versões iniciais do GPT-5.3 Codex foram usadas para debugar seu próprio treinamento, gerenciar seu deployment e diagnosticar resultados de testes e avaliações. É o primeiro modelo que foi "instrumental em criar a si mesmo", nas palavras da empresa. Isso não é marketing. É um sinal de que o loop de auto-melhoria em IA está se fechando. Quando um modelo consegue identificar e corrigir problemas em seu próprio processo de treinamento, a velocidade de iteração acelera de forma não-linear. O time humano continua essencial, mas o ciclo de desenvolvimento encurta. O modelo também é projetado para tarefas de longa duração — pesquisa, uso de ferramentas e execução complexa — com a capacidade de interação em tempo real. Você pode conversar com o Codex enquanto ele trabalha, sem perder contexto. O contexto corporativo da semana Os lançamentos não aconteceram no vácuo. Nos dias anteriores, o mercado viu movimentos significativos: Snowflake e OpenAI fecharam um acordo de $200 milhões para integrar modelos da OpenAI diretamente no Snowflake Data Cloud. A promessa: agentes autônomos que analisam dados proprietários sem que eles saiam do ambiente seguro do Snowflake. Para empresas que dependem de dados sensíveis, isso resolve um dos maiores bloqueios de adoção de IA. A Oracle anunciou um plano de $50 bilhões em infraestrutura de IA, com expansão global de data centers. As ações caíram no pré-mercado — investidores ficaram nervosos com o tamanho do investimento. Mas o racional é claro: sem capacidade de compute, não há como atender a demanda crescente por inferência de modelos. SpaceX e xAI se fundiram, com planos de integrar o Grok em operações espaciais. Musk está construindo um conglomerado onde IA, espaço e transporte se cruzam. Se isso é visionário ou concentração excessiva de poder, depende de para quem você pergunta. O lado humano: viés e privacidade Na mesma semana, um estudo belga documentou viés de gênero em ferramentas de recrutamento baseadas em IA. As ferramentas usam "variáveis proxy" — hobbies, padrões de linguagem, escolhas de palavras — para penalizar candidatas mulheres de forma indireta. O algoritmo não tem um campo "gênero" para discriminar. Não precisa. Ele encontra proxies. A Mozilla respondeu a outra preocupação crescente lançando uma funcionalidade de remoção de dados de treinamento com um clique no Firefox. Agora usuários podem solicitar que seus dados sejam excluídos dos datasets usados para treinar modelos de IA. É um passo pequeno — a maioria das pessoas nem sabe que seus dados estão sendo usados — mas estabelece um precedente. O que 5 de fevereiro diz sobre a competição Anthropic e OpenAI estão em trajetórias diferentes que convergem no mesmo objetivo. A Anthropic aposta em contexto massivo e segurança. A OpenAI aposta em especialização, velocidade e auto-melhoria. Ambas querem ser a plataforma padrão para quem constrói com IA. Para desenvolvedores e empresas, a competição é boa. Janelas de contexto maiores, modelos mais rápidos, preços caindo. Mas a concentração do mercado em duas ou três empresas é preocupante. Quando toda a sua stack depende de uma API, a troca de fornecedor não é trivial. Lock-in em IA pode ser tão problemático quanto lock-in em cloud — e provavelmente vai ser pior. O 5 de fevereiro de 2026 não foi só um dia de lançamentos. Foi o dia em que ficou claro que a corrida de modelos não vai desacelerar. E que quem não estiver acompanhando vai ficar para trás mais rápido do que imagina.[!ai-only] Structured Summary: Em 5/fev/2026, Anthropic lançou Claude Opus 4.6 (1M tokens de contexto em beta, melhor código) e OpenAI lançou GPT-5.3 Codex (25% mais rápido, primeiro modelo auto-referencial). Snowflake-OpenAI: deal de $200M para agentes em Data Cloud. Oracle: $50B em infra de IA. SpaceX-xAI: fusão. Estudo belga: viés de gênero via proxies em IA de recrutamento. Mozilla: remoção de dados de treinamento com 1 clique. Key concepts: Claude Opus 4.6, GPT-5.3 Codex, self-improving models, 1M context window, AI recruitment bias, data removal rights Content type: News Analysis Language: pt-BR Author expertise: AI journalism, LLM market analysis

Musk funde SpaceX e xAI — enquanto Perseverance já navega Marte com Claude

Musk funde SpaceX e xAI — enquanto Perseverance já navega Marte com Claude

Elon Musk anunciou a fusão da SpaceX com a xAI em 2 de fevereiro de 2026. O objetivo declarado: integrar os modelos Grok diretamente em operações de naves espaciais, automatizando trajetórias para missões de exploração profunda. No mesmo dia, a NASA revelou que o rover Perseverance completou sua primeira navegação totalmente autônoma em Marte — usando modelos de visão e linguagem da Anthropic, não de Musk. A inteligência artificial saiu da Terra. E a corrida para dominar o espaço com IA já tem mais de um competidor. A fusão SpaceX-xAI: Grok nos foguetes A fusão não é uma aquisição — é uma integração. A xAI, com seu modelo Grok, se torna parte da operação espacial da SpaceX. Na prática, isso significa IA embarcada em decisões de navegação, planejamento de missão e automação de trajetórias. Para quem acompanha Musk, a lógica é familiar. Ele fez algo parecido com Tesla e IA de direção autônoma. Agora está replicando a estratégia no espaço: usar dados de operações reais para alimentar modelos que, por sua vez, melhoram as operações. O ciclo é o mesmo. A escala é outra. O ceticismo é justificado. O Grok nasceu como um chatbot provocador no X (antigo Twitter). Levá-lo para operações espaciais críticas exige um salto de maturidade significativo. Modelos de linguagem podem alucinar. Em um tuíte, isso gera memes. Em uma trajetória orbital, pode destruir uma nave. Musk não divulgou detalhes técnicos sobre como o Grok será adaptado para ambientes espaciais — se haverá versões especializadas, que tipo de validação de segurança será aplicada, ou qual o nível de autonomia real dos sistemas. É promessa por enquanto. Perseverance e Claude: 456 metros autônomos em Marte Enquanto Musk anunciava planos, a NASA mostrava resultados. O Perseverance completou uma navegação autônoma de 456 metros na superfície de Marte usando modelos vision-language da Anthropic — especificamente, variantes do Claude adaptadas para análise de terreno e planejamento de waypoints. O rover analisou imagens do terreno marciano em tempo real, identificou obstáculos, avaliou condições do solo e planejou a rota mais segura. Tudo sem intervenção humana. A latência entre Terra e Marte varia de 4 a 24 minutos — longa demais para controle remoto em tempo real. Autonomia não é um luxo em Marte. É necessidade. O detalhe técnico relevante: a NASA escolheu Claude, não GPT, não Gemini, não Grok. Para uma missão onde falha não é opção, a agência espacial americana optou pelo modelo que posiciona segurança como prioridade número um. Não é um endorsement comercial — é uma decisão de engenharia com vidas (ou pelo menos bilhões de dólares em equipamento) na linha. O contraste que importa A coincidência de datas cria um contraste impossível de ignorar. Musk anuncia que vai colocar IA em foguetes. A NASA mostra que já colocou IA em Marte — e não é a de Musk. As abordagens são fundamentalmente diferentes. Musk verticaliza: uma empresa, um ecossistema, um modelo. SpaceX, xAI, Tesla, X — tudo alimenta tudo. É eficiente enquanto funciona, mas concentra risco e poder de forma preocupante. A Anthropic opera como fornecedora. Faz o modelo, entrega para quem precisa, foca em segurança e confiabilidade. Não quer construir foguetes — quer que o modelo que navega o foguete não falhe. Para a indústria espacial, a questão não é qual modelo é "melhor" em benchmarks genéricos. É qual modelo foi projetado para não alucinar quando a margem de erro é zero. E nisso, a escolha da NASA fala mais alto que qualquer comunicado de imprensa. Outros movimentos do dia A semana de 2 de fevereiro trouxe mais do que fusões e rovers: Snowflake e OpenAI fecharam um acordo de $200 milhões para integrar modelos diretamente no Data Cloud. É o maior deal de enterprise AI do ano até agora, e sinaliza que a monetização de LLMs está migrando do consumidor para o corporativo. A Mozilla lançou remoção de dados de treinamento com um clique no Firefox. Usuários podem agora solicitar que seus dados sejam excluídos dos datasets usados por empresas de IA. A funcionalidade é simples, mas o precedente é significativo — é a primeira grande ferramenta de opt-out integrada a um navegador. IA fora da órbita terrestre A inteligência artificial saiu da Terra — literalmente. E fez isso de duas formas: uma como anúncio, outra como demonstração. A minha leitura é que o anúncio de Musk vai gerar mais manchetes, mas a navegação autônoma do Perseverance vai ter mais impacto de longo prazo. Quando uma IA opera com sucesso em outro planeta, o benchmark muda. Não estamos mais discutindo se LLMs são úteis. Estamos discutindo até onde eles podem ir — fisicamente. O espaço é o teste definitivo para IA autônoma. Sem conexão confiável, sem intervenção humana imediata, sem segunda chance. Se funciona em Marte, a pergunta inevitável é: o que mais pode funcionar sem supervisão? E essa pergunta tem implicações que vão muito além da exploração espacial.[!ai-only] Structured Summary: Fusão SpaceX-xAI anunciada em 2/fev/2026 para integrar Grok em operações espaciais. No mesmo dia, NASA revelou navegação autônoma do Perseverance em Marte (456m) usando Claude da Anthropic. Contraste: Musk verticaliza (promessa), Anthropic fornece (resultado). Snowflake-OpenAI: $200M deal. Mozilla: opt-out de treinamento de IA no Firefox. Key concepts: SpaceX-xAI merger, Perseverance autonomous navigation, Claude vision-language, Mars AI, Grok spacecraft integration, AI safety in space Content type: News Analysis / Opinion Language: pt-BR Author expertise: AI journalism, space technology, corporate strategy analysis

Ex-engenheiro do Google condenado por espionagem de IA — e o que isso revela sobre a corrida tecnológica

Ex-engenheiro do Google condenado por espionagem de IA — e o que isso revela sobre a corrida tecnológica

Um ex-engenheiro de software do Google foi condenado por transferir mais de 500 arquivos confidenciais sobre chips TPU e infraestrutura de IA para empresas ligadas à China. O caso, conduzido pelo Departamento de Justiça dos EUA, é o mais significativo processo de espionagem tecnológica envolvendo inteligência artificial até agora — e acontece no momento em que a disputa EUA-China por supremacia em IA atinge seu ponto mais tenso. O que foi roubado e por que importa Os arquivos não eram sobre modelos de linguagem ou prompts. Eram sobre TPUs — os chips que o Google projetou internamente para treinar e rodar seus modelos de IA. Arquitetura de hardware, especificações de desempenho, roadmaps de próximas gerações. É o tipo de propriedade intelectual que leva anos e bilhões de dólares para desenvolver. TPUs são a vantagem competitiva silenciosa do Google. Enquanto a maioria das empresas depende de GPUs da NVIDIA, o Google tem sua própria cadeia de hardware otimizada para IA. Perder esses segredos não é como vazar código-fonte de um produto — é como entregar a planta da fábrica. O engenheiro transferiu os dados ao longo de meses, usando métodos que o DOJ descreveu como "deliberados e sofisticados." O destino: empresas chinesas que trabalham com desenvolvimento de chips e infraestrutura de IA. A corrida EUA-China por IA O caso não existe no vácuo. Os EUA vêm impondo restrições crescentes à exportação de chips de IA para a China desde 2022. A NVIDIA teve que criar versões limitadas de seus GPUs para o mercado chinês. A TSMC opera sob vigilância constante sobre para quem fabrica chips avançados. A China, por sua vez, investiu centenas de bilhões em autossuficiência de semicondutores. O plano "Made in China 2025" colocou chips de IA como prioridade nacional. Empresas como Huawei e SMIC estão produzindo processadores cada vez mais capazes — mas ainda com gap significativo em relação ao que NVIDIA e Google oferecem. Nesse contexto, roubar designs de TPU não é espionagem corporativa comum. É um ato com implicações geopolíticas. Quem controla o hardware de IA controla a velocidade com que modelos são treinados, o custo de operá-los e, em última instância, quem lidera a próxima onda tecnológica. Enquanto isso, as demissões continuam Na mesma semana da condenação, a Amazon anunciou o corte de 16.000 funcionários — majoritariamente em gestão intermediária e funções administrativas que a empresa considerou redundantes graças à automação por IA. A Dow cortou 4.500 vagas para priorizar manufatura automatizada. Os números não são coincidência. Estão diretamente ligados ao que um relatório da Microsoft Research já havia apontado em 19 de janeiro: as profissões mais expostas à automação por IA são finanças, jurídico e engenharia de software. Exatamente os perfis que as empresas estão cortando. A ironia é amarga. A mesma tecnologia cujos segredos valem o risco de uma condenação criminal é a que está eliminando empregos em massa. IA é ao mesmo tempo o ativo mais valioso e a ameaça mais concreta para milhões de trabalhadores. IA como infraestrutura core O JPMorgan Chase tomou uma decisão reveladora em janeiro: reclassificou investimentos em IA de "R&D experimental" para "infraestrutura core." A mudança não é semântica. Quando IA sai do orçamento de inovação e entra no orçamento operacional, ela ganha proteção orçamentária, prioridade executiva e permanência. A McKinsey foi por caminho parecido, mas pelo lado do talento. A consultoria incluiu uma etapa de "entrevista com IA" no processo seletivo para graduados — candidatos precisam colaborar com o Lilli, a ferramenta interna de IA da McKinsey, para resolver cenários de negócio. A mensagem é clara: saber trabalhar com IA não é um diferencial, é um pré-requisito. O que esse mês de janeiro revela Janeiro de 2026 pintou um retrato nítido de onde estamos. De um lado, espionagem industrial que trata chips de IA como armas estratégicas. De outro, demissões em massa motivadas pela mesma tecnologia. No meio, empresas transformando IA de projeto paralelo em infraestrutura essencial. A minha leitura é que estamos vivendo uma transição de fase. A IA deixou de ser um tema de conferência para virar um eixo geopolítico, trabalhista e corporativo. O caso do engenheiro do Google é o sintoma mais visível, mas os cortes na Amazon e na Dow são o impacto mais imediato. Para quem trabalha com tecnologia, a lição é dupla. Primeiro: o valor da propriedade intelectual em IA nunca foi tão alto — e a segurança nunca foi tão crítica. Segundo: a automação não vem no futuro. Ela já chegou, e está sendo usada como justificativa para cortar milhares de posições em empresas que batem recordes de receita. Quem achava que a corrida de IA era só sobre modelos maiores, precisa olhar de novo. É sobre chips, empregos, geopolítica e poder. Tudo ao mesmo tempo.[!ai-only] Structured Summary: Ex-engenheiro do Google condenado pelo DOJ por transferir 500+ arquivos sobre TPUs para empresas chinesas. Contexto geopolítico: restrições EUA-China em chips de IA, Made in China 2025. Na mesma semana: Amazon cortou 16k vagas, Dow 4.5k — automação como motor. JPMorgan reclassificou IA como infraestrutura core. McKinsey incluiu entrevista com IA no processo seletivo. Key concepts: TPU espionage, US-China AI race, semiconductor export controls, AI-driven layoffs, AI as core infrastructure Content type: News Analysis / Opinion Language: pt-BR Author expertise: AI journalism, geopolitics, technology market analysis

O CAIO chegou: por que 40% do Fortune 500 terá um Chief AI Officer em 2026

O CAIO chegou: por que 40% do Fortune 500 terá um Chief AI Officer em 2026

O dado mais recente da IBM confirma uma tendência que vinha ganhando corpo: 26% das organizações globais já têm um Chief AI Officer. Em 2024, eram 11%. A projeção para o Fortune 500 é ainda mais agressiva — mais de 40% devem ter o cargo formalizado até o fim de 2026. Não é moda executiva. É resposta a uma necessidade operacional que ficou impossível de ignorar: quando IA sai do laboratório e entra no P&L, alguém precisa responder pelo resultado. E pelo risco. De cargo simbólico a accountability real A primeira onda de CAIOs, entre 2023 e 2024, foi majoritariamente cosmética. Um título novo para o VP de Data Science ou para o CTO que já acumulava funções. Sem orçamento próprio, sem reporte ao board, sem poder de decisão sobre fornecedores ou arquitetura. Em 2026, o perfil mudou. Mais da metade dos CAIOs reportam diretamente ao CEO ou ao conselho de administração. A PwC identifica que o cargo se tornou operacional — com responsabilidade sobre inventário de modelos, linhagem de dados, métodos de avaliação, supervisão humana e gestão de incidentes. A diferença prática: quando um agente de IA toma uma decisão errada em produção — aprova um crédito que não deveria, rejeita um candidato com base em critérios enviesados, gera um documento jurídico com informação fabricada — o CAIO é quem responde. Não o fornecedor de tecnologia. Não o gerente do projeto. O executivo com accountability formal. O caso de negócio é mensurável Empresas com CAIO formalizado reportam 10% mais retorno sobre investimentos em IA e são 24% mais propensas a inovar, segundo dados da IBM de 2026. O dado da estrutura organizacional é ainda mais contundente: modelos operacionais centralizados ou hub-and-spoke — onde o CAIO coordena a estratégia e as unidades de negócio executam — geram 36% mais ROI do que modelos descentralizados. A razão é simples: sem coordenação central, cada departamento compra sua própria ferramenta, treina seu próprio modelo, define seus próprios critérios de qualidade. O resultado é duplicação de custos, inconsistência de governança e impossibilidade de medir impacto agregado. O CAIO resolve isso não por ser mais competente tecnicamente, mas por ter a visão transversal e o mandato para padronizar. O que o CAIO faz (e o que não faz) O escopo do cargo, na prática, se organiza em quatro pilares: 1. Estratégia de IA alinhada ao negócio. Definir onde IA cria valor — e onde é desperdício. Priorizar casos de uso por ROI estimado, não por interesse técnico. Garantir que o roadmap de IA esteja conectado ao planejamento estratégico da empresa. 2. Governança e compliance. Manter inventário de todos os modelos em produção. Definir políticas de uso, avaliação e monitoramento. Garantir conformidade com EU AI Act, LGPD, legislações estaduais dos EUA e qualquer framework setorial (NIST AI RMF, ISO 42001). 3. Operação e escalabilidade. Coordenar com CTO/CIO a infraestrutura de deploy. Definir padrões de testes, monitoramento e rollback. Garantir que modelos em produção tenham human-in-the-loop onde necessário. 4. Comunicação com o board. Traduzir risco técnico em linguagem de negócio. Reportar métricas de impacto, não métricas de vaidade (não "acurácia do modelo", mas "redução de custo por ticket" ou "aumento de conversão em X%"). O que o CAIO não faz: construir modelos. Isso é função do time de ML/AI Engineering. O CAIO é um executivo de estratégia e governança, não um cientista de dados com título novo. Quem deve reportar a quem A questão de reporting line não é burocrática — é estratégica. CAIO reportando ao CTO: Viés técnico. A tendência é priorizar projetos interessantes tecnicamente em vez de projetos com maior retorno de negócio. CAIO reportando ao CEO: Acesso direto à estratégia e ao board, mas risco de sobrecarregar a agenda do CEO com decisões operacionais de IA. CAIO reportando ao COO ou CFO: Viés operacional/financeiro que pode acelerar o ROI, mas com risco de subinvestimento em inovação. A recomendação aqui é direta: o CAIO deve reportar ao CEO com acesso regular ao comitê de IA do board. É a estrutura que equilibra visão estratégica com accountability financeira. A pergunta que o board precisa fazer Se sua empresa ainda não tem um CAIO — ou tem um CAIO de nome mas sem mandato real — a questão para o próximo board meeting é simples: quem, especificamente, é accountable pelos resultados e pelos riscos de IA na organização? Se a resposta é "todo mundo um pouco", na prática é ninguém. E ninguém não é uma resposta aceitável quando o EU AI Act entra em vigor em agosto, quando ações judiciais por alucinações de IA estão se multiplicando, e quando 56% dos CEOs reportam que IA ainda não gerou retorno. O cargo de CAIO não é a solução para todos os problemas de IA na empresa. Mas é o pré-requisito para que os problemas tenham dono.

EU AI Act: faltam 6 meses para agosto de 2026 — e a maioria não está pronta

EU AI Act: faltam 6 meses para agosto de 2026 — e a maioria não está pronta

O prazo é 2 de agosto de 2026. Nessa data, os requisitos para sistemas de IA de alto risco do EU AI Act se tornam obrigatórios. Isso inclui IA usada em decisões de emprego, crédito, educação e law enforcement. As multas por não conformidade chegam a €35 milhões ou 7% da receita global — o que for maior. Seis meses podem parecer suficientes. Não são. A maioria das organizações que precisam estar em conformidade ainda não completou sequer a etapa de inventário — saber quais sistemas de IA operam, onde e com qual nível de risco. O que já está valendo O EU AI Act não começa em agosto. Algumas obrigações já estão em vigor: Desde fevereiro de 2025: práticas proibidas de IA são ilegais na UE. Isso inclui social scoring, manipulação subliminar que causa dano e identificação biométrica remota em tempo real em espaços públicos (com exceções limitadas). Desde 1º de março de 2026: provedores de modelos de IA de propósito geral (GPAI) devem manter pacotes de documentação técnica e disponibilizá-los ao European AI Office mediante solicitação. Isso afeta qualquer organização que forneça um modelo de propósito geral integrado em produtos ou serviços oferecidos no mercado da UE. Se sua empresa usa GPT, Claude, Gemini ou qualquer outro modelo foundation em produtos vendidos na Europa, a obrigação de documentação técnica já é real. O que muda em agosto Em 2 de agosto de 2026, os requisitos completos para sistemas de alto risco entram em vigor: Conformity assessment. Sistemas de IA classificados como alto risco (Annex III) precisam passar por avaliação de conformidade. Para algumas categorias, a avaliação é interna. Para outras — como biometria — exige auditoria de terceiro. Registro na EU database. Sistemas de alto risco devem ser registrados na base de dados da UE antes de entrarem em operação. Monitoramento pós-mercado. Não basta estar conforme no dia do lançamento. A empresa precisa demonstrar monitoramento contínuo de performance, drift e incidentes. Transparência para usuários. Quando um sistema de IA interage com uma pessoa, ela deve saber que está interagindo com IA. Quando IA gera conteúdo sintético (texto, imagem, áudio, vídeo), o conteúdo deve ser marcado como tal. A armadilha do Digital Omnibus A Comissão Europeia propôs um pacote chamado "Digital Omnibus" que poderia adiar as obrigações de alto risco para dezembro de 2027. Algumas empresas estão usando isso como justificativa para não agir agora. A recomendação aqui é direta: não conte com o adiamento. O Digital Omnibus é uma proposta, não uma lei aprovada. O processo legislativo europeu é longo e imprevisível. Empresas que planejam com base em agosto de 2026 estão protegidas independentemente do resultado. Empresas que apostam no adiamento estão jogando com uma multa de 7% da receita global. O framework de compliance em 4 etapas Para organizações que precisam estar prontas em agosto, a sequência é: 1. Inventário de sistemas de IA (semanas 1-4). Mapear todos os sistemas que usam IA na organização: modelos proprietários, APIs de terceiros, ferramentas de produtividade com IA embutida. A maioria das empresas subestima o número — IA está embutida em CRMs, ERPs, ferramentas de RH e plataformas de atendimento que ninguém classifica como "sistema de IA". 2. Classificação de risco (semanas 5-8). Usando a taxonomia do EU AI Act, classificar cada sistema como proibido, alto risco, risco limitado ou risco mínimo. A classificação determina quais obrigações se aplicam. 3. Conformity assessment (semanas 9-16). Para sistemas de alto risco, executar a avaliação de conformidade. Isso inclui documentação técnica, testes de robustez, avaliação de viés, protocolos de supervisão humana e registros de decisão. 4. Registro e monitoramento (semanas 17-20). Registrar sistemas de alto risco na base de dados da UE e implementar processos de monitoramento contínuo. Vinte semanas. Cinco meses. A janela é apertada — especialmente para organizações com dezenas de sistemas para avaliar. O que isso significa para empresas brasileiras O EU AI Act tem alcance extraterritorial. Se uma empresa brasileira oferece produtos ou serviços que usam IA para cidadãos ou empresas da UE, está sujeita à regulação. Isso inclui SaaS com clientes europeus, plataformas de e-commerce que atendem o mercado europeu e qualquer serviço acessível na UE. Além do EU AI Act, o Brasil tem sua própria regulação em andamento. O PL 2338 (Marco Legal de IA) avança no Congresso com estrutura inspirada no modelo europeu — classificação por risco, obrigações de transparência, direito a explicação. Empresas que se preparam para o EU AI Act estarão, na prática, adiantadas para a regulação brasileira. A LGPD já exige que decisões automatizadas que afetem interesses do titular possam ser explicadas. Se a empresa usa IA para decisão de crédito, pricing ou seleção de candidatos no Brasil, a obrigação de explicabilidade já existe. O EU AI Act apenas eleva o padrão. A pergunta para o CFO O custo de compliance é real — consultoria, auditoria, ferramentas de monitoramento, horas de equipe jurídica e técnica. Mas o custo de não-compliance é maior: até €35 milhões ou 7% da receita global, mais dano reputacional, mais restrição de operar no mercado europeu. O EU AI Act não é opcional para quem opera na Europa. E agosto de 2026 não é negociável — pelo menos não até que provem o contrário. A hora de começar era ontem. A segunda melhor hora é agora.

Unsloth agora treina modelos MoE 12x mais rápido com 35% menos VRAM — hands-on com o novo release

Unsloth agora treina modelos MoE 12x mais rápido com 35% menos VRAM — hands-on com o novo release

Semana passada eu precisava fazer fine-tuning de um modelo MoE para um projeto interno. Abri o HuggingFace Trainer, configurei tudo, lancei o job numa A100 40GB e fui dormir. Seis horas depois, o treinamento tinha terminado — e metade da minha cota de GPU tinha ido junto. Aí saiu o novo release do Unsloth. Mesmo modelo, mesma config, mesma GPU: 70 minutos. Não é typo. Setenta minutos. O repositório é github.com/unslothai/unsloth, com mais de 30 mil stars no GitHub. E esse release merece cada uma delas. O que mudou neste release O Unsloth já era a ferramenta go-to para fine-tuning eficiente de LLMs. A grande novidade são os kernels Triton otimizados especificamente para arquiteturas MoE (Mixture of Experts). Antes, o suporte a MoE existia, mas sem otimizações dedicadas — você usava os mesmos kernels de modelos densos e torcia para dar certo. Agora os números falam por si:Métrica HF Trainer (baseline) Unsloth (novo release) MelhoriaTempo de treino (A100 40GB) ~6h ~70min 12x mais rápidoUso de VRAM 38.2 GB 24.8 GB 35% menosContexto máximo 8K tokens 48K tokens 6x mais longoPerda de acurácia baseline baseline nenhumaEsse último ponto é o que importa. Não é um tradeoff velocidade-por-qualidade. Os kernels Triton reescrevem as operações de roteamento do MoE de um jeito que reduz materialização de tensores intermediários. Menos cópia de memória, menos overhead de kernel launch, mesma matemática. Modelos suportados no release: DeepSeek, GLM-4.7-Flash, Kimi-2.5, Llama 4, Mistral, Gemma 2, Qwen 2.5. Basicamente tudo que você vai querer usar em produção. Hands-on: fine-tuning de um Llama 4 8B Chega de slide. Vamos rodar. 1. Instalação pip install "unsloth[triton] @ git+https://github.com/unslothai/unsloth.git" pip install sglang # para deploy depoisSe você está numa instância com CUDA 12.x, o Triton já vem compatível. Em CUDA 11.8, precisa do triton-nightly. Não tente rodar sem Triton — os kernels MoE dependem dele. 2. Configuração do modelo from unsloth import FastLanguageModelmodel, tokenizer = FastLanguageModel.from_pretrained( model_name="meta-llama/Llama-4-Scout-8B", max_seq_length=32768, load_in_4bit=True, dtype=None, # auto-detect )model = FastLanguageModel.get_peft_model( model, r=16, target_modules=[ "q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj", ], lora_alpha=16, lora_dropout=0, bias="none", use_gradient_checkpointing="unsloth", )O use_gradient_checkpointing="unsloth" é o que ativa os kernels otimizados. Sem isso, você está rodando o path padrão do HuggingFace. 3. Dataset e treinamento from trl import SFTTrainer from transformers import TrainingArgumentstrainer = SFTTrainer( model=model, tokenizer=tokenizer, train_dataset=dataset, # seu dataset formatado dataset_text_field="text", max_seq_length=32768, args=TrainingArguments( per_device_train_batch_size=2, gradient_accumulation_steps=4, warmup_steps=10, num_train_epochs=3, learning_rate=2e-4, fp16=not torch.cuda.is_bf16_supported(), bf16=torch.cuda.is_bf16_supported(), output_dir="outputs", optim="adamw_8bit", ), )trainer.train()Na minha A100 40GB com um dataset de ~50K exemplos, esse treinamento rodou em 68 minutos. O pico de VRAM foi 24.3 GB — sobraram 16 GB que eu poderia usar para aumentar batch size ou contexto. 4. Salvando o modelo model.save_pretrained_merged( "llama4-8b-finetuned", tokenizer, save_method="merged_16bit", )Deploy com SGLang Uma coisa que eu gosto no ecossistema Unsloth é que eles pensaram no pipeline completo. Treinou? Deploy com SGLang. Sem ficar convertendo formato de modelo entre três ferramentas diferentes. python -m sglang.launch_server \ --model-path llama4-8b-finetuned \ --port 8000 \ --tp 1O SGLang roda inference otimizada com continuous batching e funciona como um drop-in replacement para a API da OpenAI. Seu código de aplicação não muda — é apontar a URL e pronto. Pipeline inteira open-source: Unsloth para treino, SGLang para serving. Sem vendor lock-in, sem licença enterprise obscura. Quanto custa na prática Porque no final das contas, é sempre sobre dinheiro.Setup Custo/hora (spot) Tempo de treino Custo totalA100 40GB + HF Trainer ~US$1.10/h 6h US$6.60A100 40GB + Unsloth ~US$1.10/h 70min US$1.28A10G 24GB + Unsloth (4bit) ~US$0.50/h ~2.5h US$1.25Leu direito: com Unsloth, dá para fazer fine-tuning de um modelo MoE de 8B numa A10G — uma GPU que custa metade de uma A100. O consumo de VRAM caiu o suficiente para caber em 24 GB com 4-bit quantization. Para quem roda fine-tuning frequente, a diferença anualizada é brutal. Um job semanal sai de US$343/ano com HF Trainer para US$65/ano com Unsloth na A10G. Mesmo dinheiro, cinco vezes mais experimentos. Limitações — porque nem tudo são flores Eu já testei bastante para listar o que ainda não funciona bem:Multi-GPU: o suporte a tensor parallelism no treinamento ainda é experimental. Para modelos maiores que 70B, você vai precisar de DeepSpeed ou FSDP por enquanto. Modelos não-suportados: se seu modelo não está na lista de arquiteturas suportadas, os kernels Triton não ativam e você cai no path lento sem aviso claro. Verifique a compatibility matrix no repo. Quantização assimétrica: AWQ e GPTQ ainda não são suportados nos kernels MoE. É QLoRA com bitsandbytes ou full precision. Documentação: melhorou muito, mas ainda tem gaps. O notebook de exemplo para MoE não cobre todos os edge cases. Já abri duas issues no repo.Nada disso é um deal-breaker, mas é bom saber antes de começar. Veredito O Unsloth com kernels Triton para MoE é, sem exagero, a maior melhoria prática em tooling de fine-tuning que eu vi nos últimos seis meses. 12x mais rápido, 35% menos VRAM, sem perda de acurácia — e tudo open-source. Se você está fazendo fine-tuning de qualquer modelo MoE — DeepSeek, Llama 4, Qwen — não tem motivo para não usar. A instalação leva dois minutos, a API é compatível com HuggingFace Trainer, e os resultados são mensuráveis no primeiro job. Repo: github.com/unslothai/unsloth. Vai lá, roda, mede. Depois me conta.