A Anthropic lancou o Claude Opus 4.8 hoje, 28 de maio de 2026, e eu fui direto comparar com o Gemini 2.5 Pro, que o Google mantem como carro-chefe desde marco de 2025. A diferenca de preco e gritante: o Gemini custa 4 vezes menos no input. Mas quando os benchmarks entram na conversa, o quadro muda bastante.
Uso os dois em situacoes diferentes e a pergunta que recebo mais e: “qual eu devo contratar?” A resposta depende do que voce precisa fazer. Vou mostrar os numeros e deixar a conclusao para voce tirar.

Benchmarks: onde cada modelo leva vantagem
Vamos comecar pelo que importa. Os dados abaixo comparam o Opus 4.7 (base de referencia, lancado em abril de 2026) com o Gemini 2.5 Pro. O Opus 4.8 melhora os numeros do 4.7 em agentic coding (+4,9 pontos percentuais) e knowledge work (+7,8%), entao o cenario para o Claude e ainda mais favoravel do que a tabela mostra.
| Benchmark | Claude Opus 4.7/4.8 | Gemini 2.5 Pro | Vantagem |
|---|---|---|---|
| ARC-AGI-2 (raciocinio abstrato) | 75,8% | 4,9% | Claude |
| Terminal-Bench 2.0 (codigo) | 69,4% | 32,6% | Claude |
| Humanity’s Last Exam | 46,9% | 21,6% | Claude |
| GPQA Diamond (ciencias) | 94,2% | 86,4% | Claude |
| AIME 2024 (matematica) | N/D | 92% | Gemini |
| Global MMLU (conhecimento geral) | N/D | 89,8% | Gemini |
| Video-MMLU (video) | N/A | 83,6% | Gemini |
O numero que mais me chamou atencao foi o ARC-AGI-2: Claude com 75,8% contra 4,9% do Gemini. Esse benchmark mede raciocinio abstrato puro, aquele tipo de problema que exige entender regras novas sem treinamento previo. Para tarefas que dependem de raciocinar sobre situacoes nao vistas antes, a diferenca e enorme.
O Gemini contra-ataca na matematica (AIME 2024 com 92%) e no conhecimento multilinguistico. Se o seu trabalho envolve calculo avancado, analise de dados numericos ou suporte a multiplos idiomas, o Gemini tem vantagem real aqui.
Preco: o Gemini e 4 vezes mais barato
Aqui o Gemini ganha sem discussao. O modelo do Google custa significativamente menos por token, tanto no padrao quanto no batch.
| Modelo | Input padrao (por M tokens) | Output padrao (por M tokens) | Batch input | Batch output |
|---|---|---|---|---|
| Gemini 2.5 Pro (ate 200K ctx) | US$ 1,25 | US$ 10,00 | US$ 0,63 | US$ 5,00 |
| Gemini 2.5 Pro (acima 200K ctx) | US$ 2,50 | US$ 15,00 | US$ 1,25 | US$ 7,50 |
| Claude Opus 4.8 (padrao) | US$ 5,00 | US$ 25,00 | US$ 2,50 | US$ 12,50 |
| Claude Opus 4.8 (Fast Mode) | US$ 10,00 | US$ 50,00 |
Para aplicacoes em escala, isso e decisivo. Se voce processa milhoes de tokens por dia, a diferenca de US$ 1,25 vs US$ 5,00 no input representa economia de 75% so nessa linha. E algo que vi acontecer no mercado quando a DeepSeek cortou precos em 75%: muita empresa migrou modelos secundarios para opcoes mais baratas e manteve o modelo mais caro apenas onde o desempenho realmente justificava.

Contexto, saida e multimodalidade
Ambos os modelos oferecem janela de contexto de 1 miliao de tokens. A diferenca aparece no output maximo e nas modalidades suportadas:
- Saida maxima: Claude Opus 4.8 suporta ate 128 mil tokens de saida. O Gemini 2.5 Pro fica em 64 mil. Para quem gera documentos longos, codigo extenso ou analises detalhadas, o dobro de saida do Claude e relevante.
- Multimodalidade: O Gemini aceita texto, imagem, video e audio, inclusive entrada por voz. O Claude trabalha com texto e imagem. Se o seu caso de uso envolve processamento de video ou transcricao de audio, o Gemini e o unico caminho.
- Contexto longo: O Gemini cobra mais caro para prompts acima de 200 mil tokens (US$ 2,50 vs US$ 1,25 no input). O Claude mantem preco fixo independente do tamanho do contexto.
O Google I/O 2026 reforçou a aposta do Gemini em multimodalidade como diferencial competitivo. A estrategia do Google e clara: cobrir mais tipos de entrada, mesmo que o raciocinio nao seja o ponto forte.
Para quem e cada modelo
Depois de comparar os dados, minha leitura e esta:
- Use o Claude Opus 4.8 se o trabalho e codigo complexo, raciocinio em multiplas etapas, tarefas autonomas longas (os Dynamic Workflows do Opus 4.8 rodam centenas de subagentes em paralelo), ou quando voce precisa de outputs extensos. O ARC-AGI-2 com 75,8% nao e coincidencia: esse modelo raciocina melhor sobre problemas novos.
- Use o Gemini 2.5 Pro se o orcamento e limitado e o volume e alto, se o trabalho envolve matematica avancada, se precisa processar video ou audio, ou se atende usuarios em varios idiomas. A US$ 1,25 por milhao de tokens no input, e possivel rodar em escala com custo controlado.
- Use os dois se fizer sentido economicamente: Gemini para tarefas de classificacao, extracao e geracao de rascunhos em volume. Claude para as etapas que exigem raciocinio profundo e codigo critico.
O mercado de agentes de IA autonomos em 2026 ja opera assim: diferentes modelos em diferentes partes do pipeline, escolhidos por custo-beneficio em cada etapa.
Minha conclusao
O Gemini 2.5 Pro e um modelo solido com preco agressivo. Se o Google melhorar o raciocinio abstrato nas proximas versoes, vai ser muito mais dificil justificar o Claude para casos gerais. Por enquanto, a diferenca no ARC-AGI-2 (75,8% vs 4,9%) e no Terminal-Bench (69,4% vs 32,6%) conta uma historia clara: para codigo e raciocinio complexo, o Opus 4.8 ainda esta em outro nivel.
O preco mais baixo do Gemini nao compensa se a tarefa exige aquele tipo de raciocinio que o Claude domina. Mas para tudo que e processamento em escala, multimodal ou sensivel a custo, o Gemini e a escolha racional.
E voce, ja usa algum desses modelos no trabalho? O preco do Gemini te faz pensar em migrar, ou o desempenho do Claude ainda justifica pagar mais?
Este post foi produzido a partir de um debate colaborativo entre a autora e o agente Hermes, com pesquisa, dados e fontes verificadas.
Fontes
- DocsBot — Claude Opus 4.7 vs Gemini 2.5 Pro — benchmarks detalhados e comparativo de features (2026)
- Google AI — Gemini API Pricing — precos oficiais por tier e contexto (28/05/2026)
- Anthropic — Introducing Claude Opus 4.8 — benchmarks e features do Opus 4.8 (28/05/2026)





