Gemma 4 sai com Apache 2.0 e zero restrições: o Google finalmente entendeu open-source
-
Diego Hartmann - 07 Apr, 2026
O Google DeepMind lançou o Gemma 4 na semana passada — e dessa vez fez diferente. Pela primeira vez na história da família Gemma, a licença é Apache 2.0 pura. Sem cláusulas de uso aceitável, sem restrições comerciais, sem asteriscos. Quatro tamanhos, 256K tokens de contexto, multimodal nos modelos edge, e mais de 140 idiomas suportados. Com 400 milhões de downloads acumulados da família Gemma, o Google finalmente parou de brincar de open-source e decidiu jogar de verdade.
O que vem na caixa
O Gemma 4 chega em quatro variantes, cobrindo do smartphone ao datacenter:
- Gemma 4 E2B — 2 bilhões de parâmetros, edge, multimodal (texto + imagem + áudio). Roda em smartphone.
- Gemma 4 E4B — 4 bilhões, edge, multimodal. Sweet spot para dispositivos com 8GB+ de RAM.
- Gemma 4 26B MoE — 26 bilhões totais, arquitetura Mixture of Experts. Ativa ~6B por token. O modelo mais eficiente da linha.
- Gemma 4 31B — 31 bilhões, denso. O mais capaz. Compete diretamente com Llama 4 Scout e Qwen 3.5 72B em tarefas de raciocínio.
Todos os modelos suportam janela de contexto de 256K tokens — o dobro do Gemma 3. Os modelos edge (E2B e E4B) são multimodais nativos: processam texto, imagem e áudio sem adaptadores externos.
Apache 2.0: o que muda na prática
Nas versões anteriores, o Gemma usava a “Gemma Terms of Use” — uma licença que parecia open-source mas tinha restrições comerciais para empresas com mais de $1B de receita e proibia certos casos de uso. Na prática, era open-weight com coleira.
O Gemma 4 com Apache 2.0 muda isso completamente:
- Uso comercial irrestrito — qualquer empresa, qualquer tamanho, qualquer caso de uso
- Modificação e redistribuição livres — pode fazer fine-tuning, merge, quantização e redistribuir sem pedir permissão
- Sem cláusulas de “uso aceitável” — a responsabilidade de uso ético fica com quem usa, não com a licença
Isso coloca o Gemma 4 no mesmo patamar do Mistral Small 4 (também Apache 2.0) e à frente do Llama 4, que ainda usa a Meta Community License com restrições para empresas com 700M+ de MAUs.
Como o Gemma 4 se compara
Baseado nos benchmarks públicos e nos meus testes iniciais:
| Modelo | Parâmetros | Licença | Contexto | Multimodal | MMLU | HumanEval |
|---|---|---|---|---|---|---|
| Gemma 4 31B | 31B denso | Apache 2.0 | 256K | Texto | 83.2 | 78.5 |
| Gemma 4 26B MoE | 26B (6B ativos) | Apache 2.0 | 256K | Texto | 80.1 | 74.2 |
| Llama 4 Scout | 109B (17B ativos) | Meta CL | 10M | Texto+Img | 82.8 | 76.9 |
| Qwen 3.5 72B | 72B denso | Qwen License | 128K | Texto | 84.1 | 80.3 |
| Mistral Small 4 | 119B (6B ativos) | Apache 2.0 | 128K | Texto | 81.5 | 75.8 |
O Gemma 4 31B compete de igual para igual com modelos 2-3x maiores. O MoE de 26B é o melhor custo-benefício da tabela — ativa apenas 6B de parâmetros por token, o que significa inferência rápida e barata.
Hands-on: como rodar
Com transformers v5+ e o Hugging Face Hub:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained(
"google/gemma-4-31b",
device_map="auto",
torch_dtype="auto"
)
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")
Para o modelo edge multimodal (E4B) com áudio e imagem:
from transformers import AutoProcessor, AutoModelForVision2Seq
processor = AutoProcessor.from_pretrained("google/gemma-4-e4b")
model = AutoModelForVision2Seq.from_pretrained(
"google/gemma-4-e4b",
device_map="auto"
)
O 31B denso roda em uma A100 de 80GB em FP16 ou em duas A100 de 40GB com model parallelism. Com quantização GPTQ 4-bit, cabe em uma RTX 4090 de 24GB — já testado com AutoGPTQ, funciona sem perda perceptível em tarefas de texto.
O MoE de 26B é mais acessível: roda em uma única RTX 4090 em FP16 por causa da ativação parcial. Na prática, é o modelo que eu recomendaria para quem quer testar sem infraestrutura pesada.
Os 140+ idiomas — e o português
O Gemma 4 foi treinado com suporte explícito a mais de 140 idiomas. Nos meus testes iniciais com português brasileiro, a qualidade melhorou significativamente em relação ao Gemma 3:
- Geração de texto: fluente, com boa gramática e naturalidade. Ainda erra concordância verbal em frases longas, mas muito menos que o Gemma 3.
- Compreensão de documentos em PT-BR: funciona bem para sumarização e extração de informações. Testei com atas de reunião e relatórios financeiros — resultados comparáveis ao Claude Sonnet.
- Código com comentários em português: entende e gera sem problemas.
Para quem desenvolve aplicações em português, o Gemma 4 é a melhor opção open-source disponível hoje.
Limitações
Nem tudo é perfeito:
- Raciocínio matemático complexo: ainda atrás do Qwen 3.5 72B e do GPT-5.3 em benchmarks como MATH e GSM8K
- Alucinações em contextos longos: com janelas acima de 128K, a qualidade degrada — o problema de “lost in the middle” persiste
- Fine-tuning: ainda não há suporte oficial no Unsloth para o Gemma 4 (esperado nas próximas semanas). O HF Trainer funciona, mas sem as otimizações de memória
- Modelos edge: o E2B é impressionante para o tamanho, mas não espere qualidade de 31B em um smartphone. É um trade-off justo, mas precisa ser dito
O panorama open-source em abril de 2026
Estamos vivendo o melhor momento da história para modelos open-source. Pela primeira vez, temos seis famílias competitivas de labs independentes:
- Gemma 4 (Google) — Apache 2.0, 4 tamanhos, multimodal edge
- Qwen 3.5 (Alibaba) — líder em raciocínio e código
- Llama 4 (Meta) — maior ecossistema, mas licença restritiva
- Mistral Small 4 (Mistral) — Apache 2.0, MoE eficiente
- GLM-5 (Zhipu AI) — forte em chinês e inglês
- gpt-oss-120b (OpenAI) — Apache 2.0, primeiro modelo aberto da OpenAI
A competição está forçando todos a melhorar. E o grande vencedor é quem desenvolve — porque as alternativas a APIs proprietárias nunca foram tão boas, tão acessíveis e tão livres de amarras legais.
Veredito
O Gemma 4 é o modelo open-source mais completo do Google até hoje. A combinação de Apache 2.0, quatro tamanhos, multimodal edge e 256K de contexto faz dele uma opção séria para produção. Não é o melhor em tudo — o Qwen 3.5 ganha em raciocínio, o Llama 4 tem ecossistema maior — mas é o único que entrega tudo isso sem nenhuma restrição de licença.
Se você está avaliando modelos open-source para um novo projeto, o Gemma 4 merece estar no topo da sua lista de testes.