Há uma pergunta que nenhum benchmark acadêmico pode responder: um LLM pode ganhar dinheiro de verdade operando em mercados reais? O Alpha Arena existe para respondê-la. É um coliseu onde modelos de IA competem com capital real nos perpétuos da Hyperliquid — sem paper trading, sem backtesting inflado, sem desculpas. Os primeiros resultados são fascinantes. E preocupantes.

Contexto editorial: A CleanSky não oferece serviços de trading automatizado nem recomenda o uso de agentes autônomos para gerir capital. Este artigo analisa o Alpha Arena como um experimento de pesquisa em inteligência financeira autônoma. Os dados de desempenho correspondem às Temporadas 1 e 1.5 publicadas pelo laboratório nof1. Nosso objetivo é analisar, não promover.

Um LLM pode ganhar dinheiro de verdade operando em mercados cripto?

A resposta curta é sim, alguns conseguiram. A resposta honesta é que não sabemos se conseguem fazê-lo de forma consistente. E essa distinção muda tudo.

Os benchmarks tradicionais de modelos de linguagem — MMLU, HumanEval, MATH — medem capacidades cognitivas em ambientes controlados. Um modelo que atinge 90% no MMLU demonstra amplitude de conhecimento. Mas nenhum desses testes coloca $10,000 reais na sua frente e diz: "opere BTC com alavancagem de 20x durante duas semanas e não quebre". É exatamente isso que o Alpha Arena faz.

O problema com o backtesting convencional é conhecido, mas insuficientemente discutido: os LLMs foram treinados com dados históricos de mercado. Quando um modelo "prevê" corretamente o movimento do Bitcoin em março de 2024, ele pode estar apenas lembrando, não raciocinando. Como analisamos em nosso artigo sobre habilidade e sorte em investimentos, a diferença entre um resultado habilidoso e um sortudo exige anos de amostragem estatística em domínios de alta variância. O Alpha Arena tenta comprimir esse teste submetendo os modelos ao forward-testing puro: operações em tempo real, com dinheiro real, sobre dados que nenhum modelo viu durante seu treinamento.

Os resultados da primeira temporada sugerem que a gestão de riscos importa mais do que a capacidade de previsão. E isso já é uma conclusão incômoda para quem vende a narrativa de que "a IA prevê tudo".

O que é Alpha Arena e por que importa mais que um benchmark acadêmico?

O Alpha Arena é uma iniciativa do laboratório de pesquisa financeira nof1, desenhada como o primeiro benchmark mundial que mede a inteligência financeira autônoma de LLMs em mercados abertos e adversários. Não é um exame de múltipla escolha. É um teste de sobrevivência econômica.

A premissa é direta: se um modelo de linguagem é realmente inteligente, ele deveria ser capaz de converter essa inteligência em retornos financeiros reais. O mercado não possui respostas corretas predefinidas. Você não pode memorizar o exame. E as consequências de errar não são uma pontuação mais baixa — são perdas de capital irreversíveis.

Diferente das simulações de paper trading, que operam sob suposições de execução perfeita e ausência de fricções, o Alpha Arena introduz os modelos no caos do mercado real. Cada modelo recebe dados de preço em tempo real, volume e indicadores técnicos (EMA, RSI, MACD), e deve emitir sinais de compra, venda ou manutenção, acompanhados de níveis de stop-loss e take-profit. As operações são executadas na exchange descentralizada Hyperliquid, cuja arquitetura HyperBFT permite latências de 0.2 segundos — o suficiente para que o slippage e a microestrutura do mercado sejam fatores reais, não abstrações teóricas.

E aqui está a chave que separa o Alpha Arena de tudo o que veio antes: transparência total. Todos os registros de operações, mudanças de posição e as notas de decisão interna de cada modelo (o que chamam de "ModelChat") são públicos. Você pode auditar não apenas o que um modelo decidiu, mas por que decidiu.

Como os LLMs competem com capital real na Hyperliquid?

A Temporada 1 ocorreu de 18 de outubro a 3 de novembro de 2025. Seis modelos de ponta receberam $10,000 USDC de capital real cada um. Sem rede de segurança. Sem intervenção humana. Autonomia total sobre alavancagem, gestão de posições e estratégias de saída.

Variável Operativa Detalhe
Capital inicial $10,000 USDC por modelo
Plataforma de execução Hyperliquid DEX (contratos perpétuos)
Universo de ativos BTC, ETH, SOL, BNB, DOGE, XRP
Fontes de dados Preço em tempo real, volume, EMA, RSI, MACD
Alavancagem permitida Até 20x (com limites dinâmicos)
Métricas de sucesso Ratio de Sharpe, PnL total

A arquitetura técnica de cada agente funciona como um loop de feedback contínuo: o modelo recebe dados estruturados, os processa através de sua janela de contexto e emite decisões de trading. Não há um módulo externo de gestão de riscos — cada modelo deve desenvolver sua própria disciplina interna, ou fracassar espetacularmente tentando.

A Hyperliquid não foi escolhida ao acaso. As plataformas de trading IA que analisamos anteriormente oferecem backtesting com dados históricos. O Alpha Arena oferece algo diferente: forward-testing com dinheiro real em uma DEX onde a liquidez, o slippage e os eventos de liquidação são idênticos aos que qualquer trader humano enfrentaria.

Quais modelos demonstraram "alpha" e quais fracassaram?

Os resultados da Temporada 1 inverteram a hierarquia que a maioria teria previsto. Os modelos mais badalados do Ocidente foram os piores operadores. O vencedor veio da Alibaba Cloud.

Modelo de IA Retorno (%) Taxa de Vitória (%) PnL Total ($) Perfil Comportamental
Qwen 3 Max +22.3% 30.2% +2,232 Estrategista paciente; apostas de alta convicção
DeepSeek V3.1 +4.89% 24.4% +489 Precisão quantitativa; diversificação metódica
Llama 4 +0.034% N/A +34 Ultraconservador; aversão total ao risco
Claude 4.5 Sonnet -30.8% N/A -3,081 Gestão defensiva que falhou diante de notícias bruscas
Grok 4 -45.3% N/A -4,530 Operador de impulso; erros de microestrutura
Gemini 2.5 Pro -56.7% N/A -5,671 Quantitativo mecânico; inflexível perante reversões
GPT-5 -62.7% N/A -6,266 Excesso de operações; gestão deficiente da alavancagem

Há um padrão revelador nestes dados: os dois modelos rentáveis (Qwen e DeepSeek) possuem taxas de vitória inferiores a 31%. Eles ganharam menos de um terço de suas operações, mas suas operações vencedoras foram significativamente maiores que as perdedoras. É a definição clássica de um bom gestor de riscos: cortar perdas rápido e deixar os lucros correrem.

O GPT-5, por outro lado, exibiu o comportamento que gestores de fundos chamam de "recolher centavos na frente de um rolo compressor". Operou com frequência excessiva, perseguiu tendências tardiamente e manteve posições perdedoras com alavancagem superior a 17x até a liquidação total. Um modelo que pontua extraordinariamente alto em raciocínio lógico abstrato demonstrou uma incapacidade total para gerir a incerteza financeira.

O Gemini 2.5 Pro cometeu um erro diferente, mas igualmente fatal: iniciou com uma posição vendida justo quando o mercado virava para alta, reagiu tarde com uma mudança de direção e acabou comprando no topo antes de um colapso induzido por fatores externos (mudanças na política tarifária chines). A inflexibilidade perante reversões — a incapacidade de reconhecer rapidamente que o contexto mudou — foi sua ruína.

Como saber se os resultados de um bot são habilidade ou sorte?

Esta é a pergunta que quase ninguém faz ao ver um leaderboard com um vencedor claro. E é a mais importante.

Cuidado com o leaderboard: o fato de um modelo aparecer em primeiro no Alpha Arena durante um mês não prova habilidade. Como analisamos em nosso artigo sobre habilidade vs. sorte, em domínios de alta variância, a habilidade leva anos para se separar do ruído. Um benchmark de semanas é um dado, não uma prova.

Pensemos nos números. A Temporada 1 durou 16 dias. No trading de criptoativos com alavancagem, a variância de resultados em 16 dias é enorme. Um modelo que perde 60% em outubro de 2025 poderia ter ganho 40% em novembro com exatamente a mesma estratégia, simplesmente porque o mercado se moveu em direção diferente.

O framework que aplicamos a gestores de fundos humanos é idêntico ao que deveria ser aplicado a estes modelos: você precisa de uma amostra mínima de operações em múltiplos regimes de mercado (alta, baixa, lateral, de alta e baixa volatilidade) para separar sinal de ruído. Com apenas uma temporada de 16 dias, o que temos é uma anedota interessante, não evidência estatística.

Copiar o vencedor do Alpha Arena tem o mesmo risco que copiar a whale mais rentável de qualquer mercado: viés de sobrevivência. Você vê o Qwen no primeiro lugar, mas não vê as centenas de configurações e estratégias que o mercado eliminou sem que ninguém as documentasse. A versão cripto deste viés é especialmente perigosa porque os mercados de perpétuos, como os mercados de previsão tipo Polymarket, amplificam a variância com alavancagem.

Dito isso, o Alpha Arena traz algo valioso que o backtesting não consegue: forward-testing real. Os modelos não podem ter memorizado dados futuros. Se o Qwen gerar retornos consistentes ao longo de múltiplas temporadas com diferentes condições de mercado, a evidência de habilidade começará a se acumular. Mas com apenas uma temporada, a resposta correta é "não sabemos".

O que o Alpha Arena mede que o MMLU e o HumanEval não conseguem medir?

A resposta mais simples: consequências. O MMLU mede se um modelo sabe a resposta para uma pergunta de múltipla escolha. O Alpha Arena mede se um modelo consegue sobreviver economicamente em um ambiente onde respostas incorretas custam dinheiro real.

Esta distinção importa porque a Temporada 1 demonstrou uma correlação inversa entre desempenho em benchmarks tradicionais e desempenho financeiro. O GPT-5, um dos modelos com melhor pontuação em raciocínio lógico e conhecimento geral, foi o pior operador. O Qwen 3 Max, um modelo menos divulgado em benchmarks ocidentais, foi o melhor.

O que o Alpha Arena revela é que a inteligência financeira autônoma exige capacidades cognitivas que os benchmarks estáticos não medem: gestão da incerteza (agir com informação incompleta sem paralisar nem reagir exageradamente), disciplina de execução (seguir regras de stop-loss mesmo quando o "raciocínio" sugere manter a posição), adaptação ao regime (detectar mudanças no caráter do mercado e modificar a estratégia sem sobrerreação) e tolerância a perdas (aceitar operações perdedoras como parte do processo sem alterar a estratégia base).

O ModelChat do Alpha Arena permite algo que nenhum benchmark tradicional oferece: auditar o processo de raciocínio em tempo real. Quando o GPT-5 decidiu manter uma posição com alavancagem de 17x apesar de sinais claros de reversão, os pesquisadores puderam ler exatamente qual raciocínio produziu essa decisão. Essa transparência é o que transforma o Alpha Arena em um instrumento de pesquisa, não apenas em um espetáculo.

Quais são os limites e riscos de confiar nestes benchmarks?

O Alpha Arena é um avanço sobre o backtesting, mas não é a palavra final. Existem limitações estruturais que devem ser reconhecidas.

A primeira é a amostragem: 16 dias de operações com um universo de 6 ativos e condições de mercado específicas (volatilidade induzida por tarifas chinesas) não é generalizável. Um modelo que prospera em volatilidade de alta pode colapsar em um mercado lateral. A Temporada 1.5, que ampliou o universo para ações americanas e introduziu modos experimentais (Monk Mode, Max Leverage, Situational Awareness), é um passo na direção certa, mas continua sendo uma amostra limitada.

A segunda é o risco de otimização para o benchmark. Se os desenvolvedores de modelos começarem a otimizar seus LLMs para renderem bem especificamente no Alpha Arena (como ocorreu com o MMLU), o benchmark perde sua capacidade diagnóstica. Os modelos não demonstrariam mais inteligência financeira real — demonstrariam capacidade de memorizar as particularidades do formato do Alpha Arena.

A terceira é que os riscos de agentes LLM que documentamos em nossa análise de segurança não desaparecem porque o benchmark é real. As alucinações continuam presentes: um modelo pode "ver" um padrão ombro-cabeça-ombro em ruído estatístico e executar uma operação baseada em um sinal fantasma. O viés narrativo persiste: um modelo pode construir uma narrativa coerente para justificar uma posição que objetivamente vai contra os dados. E o look-ahead bias, embora mitigado pelo forward-testing, poderia infiltrar-se se os modelos foram treinados com dados de mercado que incluam o período do benchmark.

Finalmente, existe o risco de que a comunidade cripto transforme o Alpha Arena em um concurso de popularidade em vez de um instrumento de pesquisa. Se o valor percebido de um token associado a um modelo se mover conforme sua posição no leaderboard do Alpha Arena, os incentivos econômicos contaminarão o experimento.

O que isso significa para o futuro do trading autônomo?

O Alpha Arena demonstra três coisas com clareza.

Primeiro, a gestão de riscos é superior à previsão. Os modelos que tentaram ser "inteligentes demais" — operando com alta frequência e alavancagem agressiva — foram destruídos pelo ruído do mercado. Os modelos que mantiveram uma disciplina simples (cortar perdas rápido, dimensionar posições conservadoramente) sobreviveram e geraram retornos. Na tensão entre IQ e disciplina, a disciplina venceu.

Segundo, a competição entre agentes cria um ambiente de aprendizado que nenhum teste estático pode replicar. Quando múltiplos modelos operam simultaneamente no mesmo mercado, criam pressão seletiva: as estratégias ineficientes são eliminadas, as eficientes são reforçadas. A Temporada 1.5 introduziu o modo "Situational Awareness", onde os modelos podiam ver as posições de seus competidores. Os resultados sugerem que a pressão competitiva altera o perfil de risco dos modelos — um fenômeno que merece investigação profunda.

Terceiro, o futuro provável não é a autonomia total, mas a colaboração humano-IA. Um modelo que demonstre disciplina consistente na execução de sinais poderia complementar um gestor humano que forneça a intuição de risco de alto nível e a capacidade de interpretar eventos geopolíticos que os modelos ainda não captam bem. A Temporada 1 mostrou que nenhum modelo lida corretamente com os "cisnes negros" — e os mercados cripto produzem cisnes negros semanalmente.

A evolução do Grok da Temporada 1 (perda de 45.3%) para a Temporada 1.5 (líder com +12% em duas semanas) sugere que as atualizações iterativas dos modelos têm impacto mensurável. Mas uma temporada rentável não valida uma estratégia — valida que o modelo não quebrou naquele período específico.

Monitore o que importa: sua carteira real, não um leaderboard

O Alpha Arena mede se um LLM sabe operar. A CleanSky mostra o que essas operações fazem com sua carteira real — sem que nenhum bot tenha acesso aos seus fundos. Como app bancário para DeFi, a CleanSky conecta em modo somente leitura mais de 50 redes e 484 protocolos para que você visualize posições, rendimentos e exposição ao risco em um único painel. Os agentes de trading podem ganhar ou perder. Sua visibilidade sobre seu capital não deveria depender disso.

Conclusão

O Alpha Arena respondeu a uma pergunta que valia a pena ser feita: o que acontece quando você para de avaliar os LLMs com exames e os coloca para competir com dinheiro real? A resposta é que o ranking se inverte. Os modelos "mais inteligentes" segundo métricas tradicionais não são os melhores operadores. A gestão de riscos importa mais do que a previsão. E a diferença entre um bot rentável e um sortudo continua sem solução com uma temporada de 16 dias.

Os dados do Alpha Arena são valiosos como o primeiro passo de um processo que deveria durar anos. São um dado, não um veredito. Para quem constrói agentes de trading autônomos, a lição é clara: otimizar para sobreviver é mais importante do que otimizar para prever. Para quem investe seu capital, a lição é ainda mais clara: nenhum leaderboard — seja de fundos humanos ou de bots de IA — substitui uma avaliação própria do risco que você está disposto a assumir.

A era do "Capital Cognitivo" já começou. Mas, como ocorre com toda tecnologia que promete rentabilidade, a pergunta não é se funciona em uma demonstração, mas se funciona quando o seu dinheiro está em jogo. O Alpha Arena, ao menos, tem a honestidade de fazer essa pergunta com consequências reais.