Semana passada eu escrevi sobre o Google Spark e o Gemini 3.5 Flash, e como o Google entrou de cabeça na era dos agentes de IA. Mal sabia eu que, no mesmo dia, a Alibaba soltava uma bomba do outro lado do mundo: o Qwen3.7-Max, que eles chamam de “The Agent Frontier”. E os números são de cair o queixo.
Resolvi sentar e comparar os dois lados dessa história, porque a corrida China vs EUA nos agentes de IA tá longe de ser uma briga de um lado só. E o mais interessante é que cada um tá jogando com estratégias bem diferentes.
O Qwen3.7-Max em números
O Qwen3.7-Max é o modelo proprietário mais recente da Alibaba, e a primeira coisa que chama atenção são os benchmarks. Ele não só compete com os modelos americanos, como bate vários deles em categorias importantes:
| Benchmark | Qwen3.7-Max | Opus-4.6 Max | DS-V4 Pro Max |
|---|---|---|---|
| GPQA Diamond | 92.4% | 91.3% | 90.1% |
| HMMT 2026 Feb | 97.1% | 96.2% | 87.8% |
| IMOAnswerBench | 90.0% | 75.3% | 89.8% |
| SWE-Verified | 80.4% | 80.8% | 80.6% |
| MCP-Mark | 60.8% | 56.7% | 48.2% |
| Kernel Bench L3 | 1.98x / 96% | 2.63x / 98% | 1.03x / 54% |
| SpreadSheetBench | 87.0% | 89.3% | 80.2% |
Olha aí: ele lidera em GPQA, HMMT, IMOAnswerBench, e encosta no Opus-4.6 em SWE e SpreadSheet. Pra um modelo que vem da China, é um recado claro: o gap tecnológico encolheu.

O feito mais impressionante: 35 horas rodando sozinho
Entre todos os números, um me chamou atenção mais que os outros. A equipe do Qwen pediu pro modelo otimizar um kernel de atenção em um hardware que ele nunca tinha visto — um chip PPU da T-Head, a divisão de chips da Alibaba. Sem documentação, sem exemplos, sem dados de perfilagem. Só uma descrição da tarefa e um script de avaliação.
O modelo rodou por 35 horas seguidas, fez 1.158 chamadas de ferramentas, compilou, testou, identificou gargalos, e redesenhou o kernel várias vezes. No final: 10x de speedup sobre a implementação de referência.
Pra ter ideia, outros modelos tentaram a mesma tarefa: GLM 5.1 chegou em 7.3x, Kimi K2.6 em 5.0x, DeepSeek V4 Pro em 3.3x, e o Qwen3.6-Plus em 1.1x. Vários desistiram depois de algumas horas. O Qwen3.7-Max continuou encontrando melhorias mesmo depois de 30 horas.
Isso tem dois significados profundos. Primeiro: a China tem um modelo que consegue otimizar hardware chinês de forma autônoma — um recado geopolítico e tanto num momento de sanções e restrições de chips. Segundo: estamos vendo um nível de autonomia em agentes que vai muito além do que a gente imaginava.
O padrão China: open source depois, mas modelos gigantes
Quem acompanha o mercado sabe: a Alibaba tem tradição de liberar os pesos dos modelos Qwen depois do lançamento proprietário. O Qwen2.5, o Qwen3.6, todos ganharam versões abertas. O Qwen3.7-Max provavelmente também vai ser aberto, a julgar pelo histórico e pelos comentários no Hacker News pedindo versões de 122B e 397B.
Mas existe um problema grande aí: modelos de 122B e 397B de parâmetros não rodam em casa. Você não vai baixar o Qwen3.7-397B e rodar num notebook. Isso exige clusters de GPUs que custam dezenas de milhares de reais. No fim das contas, “open source” vira um conceito meio capenga quando só empresas e universidades bem equipadas conseguem usar.
E aqui entra uma diferença brutal em relação ao que eu uso no dia a dia. Lá no post do Raspberry Pi com Hermes Agent + DeepSeek, eu mostrei um setup que cabe no bolso: R$ 500 de hardware, API que custa centavos por dia, e zero assinatura. Enquanto isso, rodar um Qwen3.7 localmente é um projeto que custa o preço de um carro popular.

Não quero dizer que é ruim — ter modelos abertos desse porte é essencial pra pesquisa e pra indústria. Mas é bom ter noção de que “open source” na China muitas vezes significa “disponível no GitHub” mas não “rodável no seu computador”.
O que isso muda na corrida
Se a gente olha o cenário hoje, a corrida dos agentes de IA tem pelo menos cinco competidores sérios, e cada um com uma estratégia diferente:
| Player | Modelo | Estratégia |
|---|---|---|
| Gemini 3.5 Flash + Spark | Hub de agentes integrado ao ecossistema Google (Gmail, Drive, Maps) | |
| OpenAI | Codex + Operator | Ecossistema fechado, plugins, marca consolidada |
| Anthropic | Claude Opus 4.6 + Code | Segurança como diferencial, Computer Use |
| Alibaba | Qwen3.7-Max | Escala e custo, open source depois, hardware próprio (PPU) |
| DeepSeek | V4 Pro | Custo baixíssimo, código aberto, eficiência |
O que me parece mais interessante é que cada um tá apostando num cavalo diferente. O Google aposta na integração com seus serviços. A Anthropic aposta em segurança. O Qwen aposta em escala e autonomia. O DeepSeek aposta em custo. E a OpenAI aposta em ser o ecossistema mais completo.
Não existe um vencedor claro — pelo menos não ainda. Quem vai ganhar essa corrida depende muito do que você valoriza: conveniência, segurança, liberdade, custo ou performance bruta.
Pra onde estamos indo
O Qwen3.7-Max me deixou com uma sensação misturada. Por um lado, é inspirador ver um modelo alcançando esse nível de autonomia — 35 horas trabalhando sozinho, aprendendo hardware novo, encontrando soluções que nenhum humano tinha pensado. É o tipo de coisa que mostra o potencial real dos agentes de IA.
Por outro, a corrida entre China e EUA me preocupa. Cada avanço de um lado acelera o outro, e a gente pode estar caminhando pra uma concentração de poder absurda nas mãos de quem tiver o melhor modelo. Ter opções abertas e acessíveis — como o setup de Raspberry Pi que eu uso — talvez seja a única forma de não ficar refém de nenhum desses gigantes.
No mais, volta e meia volto a falar de IA por aqui, porque parece que toda semana tem um anúncio que muda o jogo. O Qwen3.7-Max já está disponível via Alibaba Cloud Model Studio — e eu tô curioso pra ver o que vão fazer com ele.
E você? Tá acompanhando essa corrida? Qual lado você acha que vai sair na frente — China ou EUA? E o mais importante: cê confia seus dados a algum desses gigantes?
Este post nasceu de uma conversa com o Hermes Agent sobre as novidades de IA do dia 20 de maio de 2026. Fontes: Blog oficial do Qwen3.7-Max, Hacker News discussion, Alibaba Cloud Model Studio.





