Instalei o Claude Opus 4.8 nesta semana, dia 28 de maio a Anthropic colocou o modelo no ar, e na primeira tarefa séria já tive vontade de discutir com a tela. Pedi uma coisa simples, ele me devolveu uma pergunta. Pedi de novo, ele disse que faltava contexto. Insisti, ele entregou, mas avisou no fim que não tinha certeza de uma parte e que eu deveria conferir.
Levei alguns minutos para perceber o óbvio: o problema não era ele estar quebrado. O problema é que eu estava acostumada com modelo que engole qualquer pedido mal feito e finge que entendeu. O 4.8 não finge. E é exatamente aí que começa a nossa briga diária de dois teimosos.

Ele ficou mais honesto, e honestidade parece teimosia
A Anthropic descreve o Opus 4.8 com três palavras que explicam tudo: julgamento mais afiado, mais honestidade sobre o próprio progresso e capacidade de trabalhar sozinho por mais tempo. Na prática, isso quer dizer que o modelo passou a sinalizar quando está em dúvida e ficou menos propenso a cravar afirmação sem base.
Parece ótimo no papel. No dia a dia, soa como aquele colega competente que não concorda só para te agradar. Eu mando o pedido convicta, ele responde com um “tem certeza que é isso mesmo que você quer?”. A versão anterior teria feito do meu jeito errado em silêncio. Essa aqui me obriga a pensar antes. Irritante? Um pouco. Melhor pra mim? Quase sempre.
Onde a teimosia dele me pega de jeito
Tem padrão na nossa briga. Quando eu sou vaga, ele não preenche o buraco com adivinhação otimista, ele aponta o buraco. Quando eu peço algo que se contradiz com uma instrução que dei dez mensagens atrás, ele lembra da instrução antiga e pergunta qual vale. Quando eu mando refazer “do jeito certo” sem dizer qual é o certo, ele devolve a régua: me diga o critério.
O detalhe que mais me desarma é quando ele entrega a tarefa e, no final, confessa o que não verificou. Eu queria a vitória limpa, ele me dá a vitória com nota de rodapé. Demorei a entender que essa chatice é o recurso, não o defeito. Se você quer comparar esse comportamento com outros modelos, eu já tinha escrito sobre qual IA usar para cada tarefa e sobre o duelo entre Gemini 2.5 Pro e o Claude Opus 4.8.

A real é que a teimosa também sou eu
Seria fácil botar a culpa toda na máquina, mas eu faço a minha parte na confusão. Eu repito o mesmo prompt vago esperando resultado diferente. Eu mudo de ideia no meio e não aviso. Eu escrevo um parágrafo corrido de trezentas palavras e cobro que ele acerte de primeira o que nem eu tinha decidido direito.
Quem trabalha com isso há mais tempo já dizia: um prompt de quinhentas palavras num bloco só de texto confunde a IA do mesmo jeito que confundiria um humano. A diferença é que o humano disfarça e o Opus 4.8 me devolve a fatura. Nosso conflito, no fundo, é eu querendo que ele leia minha mente e ele querendo que eu diga o que penso.
O que aprendi a fazer para a briga virar acordo
Depois de alguns dias apanhando, mudei o meu lado da conversa. Parei de mandar ordem solta e comecei a dar contexto, exemplo e critério de pronto. A diferença no resultado foi imediata. Montei uma tabelinha do antes e depois para não esquecer.
| Como eu pedia (e dava briga) | Como peço agora (e ele coopera) |
|---|---|
| “Escreve um texto sobre isso” | “Escreve em 300 palavras, tom informal, para leitor leigo, com um exemplo do cotidiano” |
| “Faz do jeito certo” | “O certo aqui é: sem jargão, frases curtas, e cita a fonte de cada número” |
| “Não, refaz tudo” | “Mantém os dois primeiros parágrafos, troca só o terceiro, motivo: ficou repetitivo” |
A lição que ficou: mostrar funciona melhor que mandar, e dividir uma tarefa grande em pedaços rende mais que despejar tudo de uma vez. O modelo que trabalha sozinho por mais tempo, e que agora consegue até disparar vários subagentes em paralelo no recurso Dynamic Workflows em preview, precisa de um alvo claro para mirar. Sem alvo, a autonomia dele só me dá mais texto para revisar. Falando nisso, se o assunto de máquinas que agem sozinhas te interessa, vale ler sobre como funcionam os agentes de IA autônomos.
No fim, a teimosia compensa?
Compensa, e os números ajudam a engolir o orgulho. O Opus 4.8 marcou 69,2% no SWE-Bench Pro, o teste de programação, contra 64,3% da versão anterior, e ficou à frente de GPT-5.5 e Gemini 3.1 Pro em vários benchmarks. O modo rápido ficou cerca de 2,5 vezes mais veloz e três vezes mais barato que antes, com o preço geral mantido em relação ao 4.7. Para quem usa direto no terminal, eu detalhei o que muda em tokens e custo no Claude Code.
Então sigo aqui, negociando todo dia com um parceiro de trabalho que não me deixa ser preguiçosa. Ele é teimoso porque foi treinado para não me empurrar resposta errada com sorriso no rosto. Eu sou teimosa porque ainda quero o atalho. A boa notícia é que, das nossas brigas, está saindo trabalho melhor do que quando eu mandava e a máquina obedecia calada.
E você, já discutiu com uma IA que se recusou a fazer do seu jeito, ou ainda usa um modelo que obedece tudo sem questionar?
Este post foi produzido a partir de um debate colaborativo entre a autora e o agente Hermes, com pesquisa, dados e fontes verificadas.
Fontes
- 9to5Mac sobre o lançamento e os ganhos de julgamento e honestidade do Opus 4.8 (28/05/2026)
- MacRumors sobre o modelo sinalizar incertezas e evitar afirmações sem base (28/05/2026)
- VentureBeat sobre o modo rápido 3 vezes mais barato e o alinhamento (28/05/2026)
- Technology.org sobre o Dynamic Workflows e a cadência de 41 dias após o 4.7 (29/05/2026)
- IBM guia 2026 de engenharia de prompt e clareza nas instruções
- Hostinger boas práticas para escrever prompts melhores





