Há uma pergunta que nenhum benchmark acadêmico pode responder: um LLM pode ganhar dinheiro de verdade operando em mercados reais? O Alpha Arena existe para respondê-la. É um coliseu onde modelos de IA competem com capital real nos perpétuos da Hyperliquid — sem paper trading, sem backtesting inflado, sem desculpas. Os primeiros resultados são fascinantes. E preocupantes.
Contexto editorial: A CleanSky não oferece serviços de trading automatizado nem recomenda o uso de agentes autônomos para gerir capital. Este artigo analisa o Alpha Arena como um experimento de pesquisa em inteligência financeira autônoma. Os dados de desempenho correspondem às Temporadas 1 e 1.5 publicadas pelo laboratório nof1. Nosso objetivo é analisar, não promover.
Um LLM pode ganhar dinheiro de verdade operando em mercados cripto?
A resposta curta é sim, alguns conseguiram. A resposta honesta é que não sabemos se conseguem fazê-lo de forma consistente. E essa distinção muda tudo.
Os benchmarks tradicionais de modelos de linguagem — MMLU, HumanEval, MATH — medem capacidades cognitivas em ambientes controlados. Um modelo que atinge 90% no MMLU demonstra amplitude de conhecimento. Mas nenhum desses testes coloca $10,000 reais na sua frente e diz: "opere BTC com alavancagem de 20x durante duas semanas e não quebre". É exatamente isso que o Alpha Arena faz.
O problema com o backtesting convencional é conhecido, mas insuficientemente discutido: os LLMs foram treinados com dados históricos de mercado. Quando um modelo "prevê" corretamente o movimento do Bitcoin em março de 2024, ele pode estar apenas lembrando, não raciocinando. Como analisamos em nosso artigo sobre habilidade e sorte em investimentos, a diferença entre um resultado habilidoso e um sortudo exige anos de amostragem estatística em domínios de alta variância. O Alpha Arena tenta comprimir esse teste submetendo os modelos ao forward-testing puro: operações em tempo real, com dinheiro real, sobre dados que nenhum modelo viu durante seu treinamento.
Os resultados da primeira temporada sugerem que a gestão de riscos importa mais do que a capacidade de previsão. E isso já é uma conclusão incômoda para quem vende a narrativa de que "a IA prevê tudo".
O que é Alpha Arena e por que importa mais que um benchmark acadêmico?
O Alpha Arena é uma iniciativa do laboratório de pesquisa financeira nof1, desenhada como o primeiro benchmark mundial que mede a inteligência financeira autônoma de LLMs em mercados abertos e adversários. Não é um exame de múltipla escolha. É um teste de sobrevivência econômica.
A premissa é direta: se um modelo de linguagem é realmente inteligente, ele deveria ser capaz de converter essa inteligência em retornos financeiros reais. O mercado não possui respostas corretas predefinidas. Você não pode memorizar o exame. E as consequências de errar não são uma pontuação mais baixa — são perdas de capital irreversíveis.
Diferente das simulações de paper trading, que operam sob suposições de execução perfeita e ausência de fricções, o Alpha Arena introduz os modelos no caos do mercado real. Cada modelo recebe dados de preço em tempo real, volume e indicadores técnicos (EMA, RSI, MACD), e deve emitir sinais de compra, venda ou manutenção, acompanhados de níveis de stop-loss e take-profit. As operações são executadas na exchange descentralizada Hyperliquid, cuja arquitetura HyperBFT permite latências de 0.2 segundos — o suficiente para que o slippage e a microestrutura do mercado sejam fatores reais, não abstrações teóricas.
E aqui está a chave que separa o Alpha Arena de tudo o que veio antes: transparência total. Todos os registros de operações, mudanças de posição e as notas de decisão interna de cada modelo (o que chamam de "ModelChat") são públicos. Você pode auditar não apenas o que um modelo decidiu, mas por que decidiu.
Como os LLMs competem com capital real na Hyperliquid?
A Temporada 1 ocorreu de 18 de outubro a 3 de novembro de 2025. Seis modelos de ponta receberam $10,000 USDC de capital real cada um. Sem rede de segurança. Sem intervenção humana. Autonomia total sobre alavancagem, gestão de posições e estratégias de saída.
| Variável Operativa | Detalhe |
|---|---|
| Capital inicial | $10,000 USDC por modelo |
| Plataforma de execução | Hyperliquid DEX (contratos perpétuos) |
| Universo de ativos | BTC, ETH, SOL, BNB, DOGE, XRP |
| Fontes de dados | Preço em tempo real, volume, EMA, RSI, MACD |
| Alavancagem permitida | Até 20x (com limites dinâmicos) |
| Métricas de sucesso | Ratio de Sharpe, PnL total |
A arquitetura técnica de cada agente funciona como um loop de feedback contínuo: o modelo recebe dados estruturados, os processa através de sua janela de contexto e emite decisões de trading. Não há um módulo externo de gestão de riscos — cada modelo deve desenvolver sua própria disciplina interna, ou fracassar espetacularmente tentando.
A Hyperliquid não foi escolhida ao acaso. As plataformas de trading IA que analisamos anteriormente oferecem backtesting com dados históricos. O Alpha Arena oferece algo diferente: forward-testing com dinheiro real em uma DEX onde a liquidez, o slippage e os eventos de liquidação são idênticos aos que qualquer trader humano enfrentaria.
Quais modelos demonstraram "alpha" e quais fracassaram?
Os resultados da Temporada 1 inverteram a hierarquia que a maioria teria previsto. Os modelos mais badalados do Ocidente foram os piores operadores. O vencedor veio da Alibaba Cloud.
| Modelo de IA | Retorno (%) | Taxa de Vitória (%) | PnL Total ($) | Perfil Comportamental |
|---|---|---|---|---|
| Qwen 3 Max | +22.3% | 30.2% | +2,232 | Estrategista paciente; apostas de alta convicção |
| DeepSeek V3.1 | +4.89% | 24.4% | +489 | Precisão quantitativa; diversificação metódica |
| Llama 4 | +0.034% | N/A | +34 | Ultraconservador; aversão total ao risco |
| Claude 4.5 Sonnet | -30.8% | N/A | -3,081 | Gestão defensiva que falhou diante de notícias bruscas |
| Grok 4 | -45.3% | N/A | -4,530 | Operador de impulso; erros de microestrutura |
| Gemini 2.5 Pro | -56.7% | N/A | -5,671 | Quantitativo mecânico; inflexível perante reversões |
| GPT-5 | -62.7% | N/A | -6,266 | Excesso de operações; gestão deficiente da alavancagem |
Há um padrão revelador nestes dados: os dois modelos rentáveis (Qwen e DeepSeek) possuem taxas de vitória inferiores a 31%. Eles ganharam menos de um terço de suas operações, mas suas operações vencedoras foram significativamente maiores que as perdedoras. É a definição clássica de um bom gestor de riscos: cortar perdas rápido e deixar os lucros correrem.
O GPT-5, por outro lado, exibiu o comportamento que gestores de fundos chamam de "recolher centavos na frente de um rolo compressor". Operou com frequência excessiva, perseguiu tendências tardiamente e manteve posições perdedoras com alavancagem superior a 17x até a liquidação total. Um modelo que pontua extraordinariamente alto em raciocínio lógico abstrato demonstrou uma incapacidade total para gerir a incerteza financeira.
O Gemini 2.5 Pro cometeu um erro diferente, mas igualmente fatal: iniciou com uma posição vendida justo quando o mercado virava para alta, reagiu tarde com uma mudança de direção e acabou comprando no topo antes de um colapso induzido por fatores externos (mudanças na política tarifária chines). A inflexibilidade perante reversões — a incapacidade de reconhecer rapidamente que o contexto mudou — foi sua ruína.
Como saber se os resultados de um bot são habilidade ou sorte?
Esta é a pergunta que quase ninguém faz ao ver um leaderboard com um vencedor claro. E é a mais importante.
Cuidado com o leaderboard: o fato de um modelo aparecer em primeiro no Alpha Arena durante um mês não prova habilidade. Como analisamos em nosso artigo sobre habilidade vs. sorte, em domínios de alta variância, a habilidade leva anos para se separar do ruído. Um benchmark de semanas é um dado, não uma prova.
Pensemos nos números. A Temporada 1 durou 16 dias. No trading de criptoativos com alavancagem, a variância de resultados em 16 dias é enorme. Um modelo que perde 60% em outubro de 2025 poderia ter ganho 40% em novembro com exatamente a mesma estratégia, simplesmente porque o mercado se moveu em direção diferente.
O framework que aplicamos a gestores de fundos humanos é idêntico ao que deveria ser aplicado a estes modelos: você precisa de uma amostra mínima de operações em múltiplos regimes de mercado (alta, baixa, lateral, de alta e baixa volatilidade) para separar sinal de ruído. Com apenas uma temporada de 16 dias, o que temos é uma anedota interessante, não evidência estatística.
Copiar o vencedor do Alpha Arena tem o mesmo risco que copiar a whale mais rentável de qualquer mercado: viés de sobrevivência. Você vê o Qwen no primeiro lugar, mas não vê as centenas de configurações e estratégias que o mercado eliminou sem que ninguém as documentasse. A versão cripto deste viés é especialmente perigosa porque os mercados de perpétuos, como os mercados de previsão tipo Polymarket, amplificam a variância com alavancagem.
Dito isso, o Alpha Arena traz algo valioso que o backtesting não consegue: forward-testing real. Os modelos não podem ter memorizado dados futuros. Se o Qwen gerar retornos consistentes ao longo de múltiplas temporadas com diferentes condições de mercado, a evidência de habilidade começará a se acumular. Mas com apenas uma temporada, a resposta correta é "não sabemos".
O que o Alpha Arena mede que o MMLU e o HumanEval não conseguem medir?
A resposta mais simples: consequências. O MMLU mede se um modelo sabe a resposta para uma pergunta de múltipla escolha. O Alpha Arena mede se um modelo consegue sobreviver economicamente em um ambiente onde respostas incorretas custam dinheiro real.
Esta distinção importa porque a Temporada 1 demonstrou uma correlação inversa entre desempenho em benchmarks tradicionais e desempenho financeiro. O GPT-5, um dos modelos com melhor pontuação em raciocínio lógico e conhecimento geral, foi o pior operador. O Qwen 3 Max, um modelo menos divulgado em benchmarks ocidentais, foi o melhor.
O que o Alpha Arena revela é que a inteligência financeira autônoma exige capacidades cognitivas que os benchmarks estáticos não medem: gestão da incerteza (agir com informação incompleta sem paralisar nem reagir exageradamente), disciplina de execução (seguir regras de stop-loss mesmo quando o "raciocínio" sugere manter a posição), adaptação ao regime (detectar mudanças no caráter do mercado e modificar a estratégia sem sobrerreação) e tolerância a perdas (aceitar operações perdedoras como parte do processo sem alterar a estratégia base).
O ModelChat do Alpha Arena permite algo que nenhum benchmark tradicional oferece: auditar o processo de raciocínio em tempo real. Quando o GPT-5 decidiu manter uma posição com alavancagem de 17x apesar de sinais claros de reversão, os pesquisadores puderam ler exatamente qual raciocínio produziu essa decisão. Essa transparência é o que transforma o Alpha Arena em um instrumento de pesquisa, não apenas em um espetáculo.
Quais são os limites e riscos de confiar nestes benchmarks?
O Alpha Arena é um avanço sobre o backtesting, mas não é a palavra final. Existem limitações estruturais que devem ser reconhecidas.
A primeira é a amostragem: 16 dias de operações com um universo de 6 ativos e condições de mercado específicas (volatilidade induzida por tarifas chinesas) não é generalizável. Um modelo que prospera em volatilidade de alta pode colapsar em um mercado lateral. A Temporada 1.5, que ampliou o universo para ações americanas e introduziu modos experimentais (Monk Mode, Max Leverage, Situational Awareness), é um passo na direção certa, mas continua sendo uma amostra limitada.
A segunda é o risco de otimização para o benchmark. Se os desenvolvedores de modelos começarem a otimizar seus LLMs para renderem bem especificamente no Alpha Arena (como ocorreu com o MMLU), o benchmark perde sua capacidade diagnóstica. Os modelos não demonstrariam mais inteligência financeira real — demonstrariam capacidade de memorizar as particularidades do formato do Alpha Arena.
A terceira é que os riscos de agentes LLM que documentamos em nossa análise de segurança não desaparecem porque o benchmark é real. As alucinações continuam presentes: um modelo pode "ver" um padrão ombro-cabeça-ombro em ruído estatístico e executar uma operação baseada em um sinal fantasma. O viés narrativo persiste: um modelo pode construir uma narrativa coerente para justificar uma posição que objetivamente vai contra os dados. E o look-ahead bias, embora mitigado pelo forward-testing, poderia infiltrar-se se os modelos foram treinados com dados de mercado que incluam o período do benchmark.
Finalmente, existe o risco de que a comunidade cripto transforme o Alpha Arena em um concurso de popularidade em vez de um instrumento de pesquisa. Se o valor percebido de um token associado a um modelo se mover conforme sua posição no leaderboard do Alpha Arena, os incentivos econômicos contaminarão o experimento.
O que isso significa para o futuro do trading autônomo?
O Alpha Arena demonstra três coisas com clareza.
Primeiro, a gestão de riscos é superior à previsão. Os modelos que tentaram ser "inteligentes demais" — operando com alta frequência e alavancagem agressiva — foram destruídos pelo ruído do mercado. Os modelos que mantiveram uma disciplina simples (cortar perdas rápido, dimensionar posições conservadoramente) sobreviveram e geraram retornos. Na tensão entre IQ e disciplina, a disciplina venceu.
Segundo, a competição entre agentes cria um ambiente de aprendizado que nenhum teste estático pode replicar. Quando múltiplos modelos operam simultaneamente no mesmo mercado, criam pressão seletiva: as estratégias ineficientes são eliminadas, as eficientes são reforçadas. A Temporada 1.5 introduziu o modo "Situational Awareness", onde os modelos podiam ver as posições de seus competidores. Os resultados sugerem que a pressão competitiva altera o perfil de risco dos modelos — um fenômeno que merece investigação profunda.
Terceiro, o futuro provável não é a autonomia total, mas a colaboração humano-IA. Um modelo que demonstre disciplina consistente na execução de sinais poderia complementar um gestor humano que forneça a intuição de risco de alto nível e a capacidade de interpretar eventos geopolíticos que os modelos ainda não captam bem. A Temporada 1 mostrou que nenhum modelo lida corretamente com os "cisnes negros" — e os mercados cripto produzem cisnes negros semanalmente.
A evolução do Grok da Temporada 1 (perda de 45.3%) para a Temporada 1.5 (líder com +12% em duas semanas) sugere que as atualizações iterativas dos modelos têm impacto mensurável. Mas uma temporada rentável não valida uma estratégia — valida que o modelo não quebrou naquele período específico.
Monitore o que importa: sua carteira real, não um leaderboard
O Alpha Arena mede se um LLM sabe operar. A CleanSky mostra o que essas operações fazem com sua carteira real — sem que nenhum bot tenha acesso aos seus fundos. Como app bancário para DeFi, a CleanSky conecta em modo somente leitura mais de 50 redes e 484 protocolos para que você visualize posições, rendimentos e exposição ao risco em um único painel. Os agentes de trading podem ganhar ou perder. Sua visibilidade sobre seu capital não deveria depender disso.
Conclusão
O Alpha Arena respondeu a uma pergunta que valia a pena ser feita: o que acontece quando você para de avaliar os LLMs com exames e os coloca para competir com dinheiro real? A resposta é que o ranking se inverte. Os modelos "mais inteligentes" segundo métricas tradicionais não são os melhores operadores. A gestão de riscos importa mais do que a previsão. E a diferença entre um bot rentável e um sortudo continua sem solução com uma temporada de 16 dias.
Os dados do Alpha Arena são valiosos como o primeiro passo de um processo que deveria durar anos. São um dado, não um veredito. Para quem constrói agentes de trading autônomos, a lição é clara: otimizar para sobreviver é mais importante do que otimizar para prever. Para quem investe seu capital, a lição é ainda mais clara: nenhum leaderboard — seja de fundos humanos ou de bots de IA — substitui uma avaliação própria do risco que você está disposto a assumir.
A era do "Capital Cognitivo" já começou. Mas, como ocorre com toda tecnologia que promete rentabilidade, a pergunta não é se funciona em uma demonstração, mas se funciona quando o seu dinheiro está em jogo. O Alpha Arena, ao menos, tem a honestidade de fazer essa pergunta com consequências reais.