Gemma 4 sai com Apache 2.0 e zero restrições: o Google finalmente entendeu open-source

Gemma 4 sai com Apache 2.0 e zero restrições: o Google finalmente entendeu open-source

O Google DeepMind lançou o Gemma 4 na semana passada — e dessa vez fez diferente. Pela primeira vez na história da família Gemma, a licença é Apache 2.0 pura. Sem cláusulas de uso aceitável, sem restrições comerciais, sem asteriscos. Quatro tamanhos, 256K tokens de contexto, multimodal nos modelos edge, e mais de 140 idiomas suportados. Com 400 milhões de downloads acumulados da família Gemma, o Google finalmente parou de brincar de open-source e decidiu jogar de verdade.

O que vem na caixa

O Gemma 4 chega em quatro variantes, cobrindo do smartphone ao datacenter:

  • Gemma 4 E2B — 2 bilhões de parâmetros, edge, multimodal (texto + imagem + áudio). Roda em smartphone.
  • Gemma 4 E4B — 4 bilhões, edge, multimodal. Sweet spot para dispositivos com 8GB+ de RAM.
  • Gemma 4 26B MoE — 26 bilhões totais, arquitetura Mixture of Experts. Ativa ~6B por token. O modelo mais eficiente da linha.
  • Gemma 4 31B — 31 bilhões, denso. O mais capaz. Compete diretamente com Llama 4 Scout e Qwen 3.5 72B em tarefas de raciocínio.

Todos os modelos suportam janela de contexto de 256K tokens — o dobro do Gemma 3. Os modelos edge (E2B e E4B) são multimodais nativos: processam texto, imagem e áudio sem adaptadores externos.

Apache 2.0: o que muda na prática

Nas versões anteriores, o Gemma usava a “Gemma Terms of Use” — uma licença que parecia open-source mas tinha restrições comerciais para empresas com mais de $1B de receita e proibia certos casos de uso. Na prática, era open-weight com coleira.

O Gemma 4 com Apache 2.0 muda isso completamente:

  • Uso comercial irrestrito — qualquer empresa, qualquer tamanho, qualquer caso de uso
  • Modificação e redistribuição livres — pode fazer fine-tuning, merge, quantização e redistribuir sem pedir permissão
  • Sem cláusulas de “uso aceitável” — a responsabilidade de uso ético fica com quem usa, não com a licença

Isso coloca o Gemma 4 no mesmo patamar do Mistral Small 4 (também Apache 2.0) e à frente do Llama 4, que ainda usa a Meta Community License com restrições para empresas com 700M+ de MAUs.

Como o Gemma 4 se compara

Baseado nos benchmarks públicos e nos meus testes iniciais:

ModeloParâmetrosLicençaContextoMultimodalMMLUHumanEval
Gemma 4 31B31B densoApache 2.0256KTexto83.278.5
Gemma 4 26B MoE26B (6B ativos)Apache 2.0256KTexto80.174.2
Llama 4 Scout109B (17B ativos)Meta CL10MTexto+Img82.876.9
Qwen 3.5 72B72B densoQwen License128KTexto84.180.3
Mistral Small 4119B (6B ativos)Apache 2.0128KTexto81.575.8

O Gemma 4 31B compete de igual para igual com modelos 2-3x maiores. O MoE de 26B é o melhor custo-benefício da tabela — ativa apenas 6B de parâmetros por token, o que significa inferência rápida e barata.

Hands-on: como rodar

Com transformers v5+ e o Hugging Face Hub:

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
    "google/gemma-4-31b",
    device_map="auto",
    torch_dtype="auto"
)
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")

Para o modelo edge multimodal (E4B) com áudio e imagem:

from transformers import AutoProcessor, AutoModelForVision2Seq

processor = AutoProcessor.from_pretrained("google/gemma-4-e4b")
model = AutoModelForVision2Seq.from_pretrained(
    "google/gemma-4-e4b",
    device_map="auto"
)

O 31B denso roda em uma A100 de 80GB em FP16 ou em duas A100 de 40GB com model parallelism. Com quantização GPTQ 4-bit, cabe em uma RTX 4090 de 24GB — já testado com AutoGPTQ, funciona sem perda perceptível em tarefas de texto.

O MoE de 26B é mais acessível: roda em uma única RTX 4090 em FP16 por causa da ativação parcial. Na prática, é o modelo que eu recomendaria para quem quer testar sem infraestrutura pesada.

Os 140+ idiomas — e o português

O Gemma 4 foi treinado com suporte explícito a mais de 140 idiomas. Nos meus testes iniciais com português brasileiro, a qualidade melhorou significativamente em relação ao Gemma 3:

  • Geração de texto: fluente, com boa gramática e naturalidade. Ainda erra concordância verbal em frases longas, mas muito menos que o Gemma 3.
  • Compreensão de documentos em PT-BR: funciona bem para sumarização e extração de informações. Testei com atas de reunião e relatórios financeiros — resultados comparáveis ao Claude Sonnet.
  • Código com comentários em português: entende e gera sem problemas.

Para quem desenvolve aplicações em português, o Gemma 4 é a melhor opção open-source disponível hoje.

Limitações

Nem tudo é perfeito:

  • Raciocínio matemático complexo: ainda atrás do Qwen 3.5 72B e do GPT-5.3 em benchmarks como MATH e GSM8K
  • Alucinações em contextos longos: com janelas acima de 128K, a qualidade degrada — o problema de “lost in the middle” persiste
  • Fine-tuning: ainda não há suporte oficial no Unsloth para o Gemma 4 (esperado nas próximas semanas). O HF Trainer funciona, mas sem as otimizações de memória
  • Modelos edge: o E2B é impressionante para o tamanho, mas não espere qualidade de 31B em um smartphone. É um trade-off justo, mas precisa ser dito

O panorama open-source em abril de 2026

Estamos vivendo o melhor momento da história para modelos open-source. Pela primeira vez, temos seis famílias competitivas de labs independentes:

  1. Gemma 4 (Google) — Apache 2.0, 4 tamanhos, multimodal edge
  2. Qwen 3.5 (Alibaba) — líder em raciocínio e código
  3. Llama 4 (Meta) — maior ecossistema, mas licença restritiva
  4. Mistral Small 4 (Mistral) — Apache 2.0, MoE eficiente
  5. GLM-5 (Zhipu AI) — forte em chinês e inglês
  6. gpt-oss-120b (OpenAI) — Apache 2.0, primeiro modelo aberto da OpenAI

A competição está forçando todos a melhorar. E o grande vencedor é quem desenvolve — porque as alternativas a APIs proprietárias nunca foram tão boas, tão acessíveis e tão livres de amarras legais.

Veredito

O Gemma 4 é o modelo open-source mais completo do Google até hoje. A combinação de Apache 2.0, quatro tamanhos, multimodal edge e 256K de contexto faz dele uma opção séria para produção. Não é o melhor em tudo — o Qwen 3.5 ganha em raciocínio, o Llama 4 tem ecossistema maior — mas é o único que entrega tudo isso sem nenhuma restrição de licença.

Se você está avaliando modelos open-source para um novo projeto, o Gemma 4 merece estar no topo da sua lista de testes.