国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

中美六大頂尖模型第一賽季實(shí)盤(pán)量化交易結(jié)果出爐:Qwen最后反超奪冠,GPT-5墊底「復(fù)盤(pán)」

0
分享至


大家對(duì)LLM在棋類(lèi)、算法競(jìng)賽和數(shù)學(xué)證明等領(lǐng)域的金牌級(jí)表現(xiàn)已經(jīng)見(jiàn)怪不怪了,LLM在現(xiàn)實(shí)世界中表現(xiàn)究竟會(huì)怎么樣

這就不得不得提最近大火的一家名為 Nof1 的機(jī)構(gòu),發(fā)起了一個(gè)名為 Alpha Arena 的LLM自主進(jìn)行量化交易項(xiàng)目,旨在探索LLM在真實(shí)、動(dòng)態(tài)且充滿風(fēng)險(xiǎn)的金融市場(chǎng)中的決策能力

目前第一賽季(10月18到11月4)已經(jīng)結(jié)束,國(guó)產(chǎn)模型Qwen(阿里Qwen最后實(shí)現(xiàn)反超) 和 DeepSeek最終獲得了冠亞軍且都盈利了,GPT-5墊底!以下是比賽結(jié)果:



下面我們就對(duì)本次比賽的過(guò)程做一個(gè)全面復(fù)盤(pán):

Alpha Arena項(xiàng)目核心問(wèn)題非常直接:

一個(gè)大型語(yǔ)言模型,在最少的指導(dǎo)下,能否充當(dāng)一個(gè)零樣本(zero-shot)的系統(tǒng)化交易模型?

為此,他們?yōu)榱鶄€(gè)業(yè)界領(lǐng)先的LLM分別提供了1萬(wàn)美元的真實(shí)資金,讓它們?cè)诩用茇泿叛苌方灰姿鵋yperliquid上進(jìn)行自主交易,全程零人工干預(yù)。

這些模型只能依賴提供的純數(shù)值市場(chǎng)數(shù)據(jù)進(jìn)行決策,無(wú)法獲取任何新聞或市場(chǎng)“敘事”信息。它們的唯一目標(biāo)是:最大化收益

初步結(jié)果顯示,不同模型在風(fēng)險(xiǎn)偏好、頭寸規(guī)模和持倉(cāng)時(shí)間等方面表現(xiàn)出明顯的行為差異,并且對(duì)提示詞的微小變化高度敏感

Alpha Arena如何設(shè)計(jì)?

Alpha Arena第一賽季的目標(biāo)有兩個(gè):

1.揭示主流LLM固有的偏見(jiàn)和默認(rèn)交易行為。通過(guò)比較分析,觀察不同模型的交易方式是否存在巨大差異,以及這些差異是否隨時(shí)間保持一致

2.推動(dòng)AI研究文化從靜態(tài)基準(zhǔn)轉(zhuǎn)向真實(shí)世界基準(zhǔn)。倡導(dǎo)在更具現(xiàn)實(shí)意義和影響力的環(huán)境中評(píng)估AI,以更快地發(fā)現(xiàn)前沿AI的關(guān)鍵差距和洞見(jiàn)

為了實(shí)現(xiàn)這一目標(biāo),實(shí)驗(yàn)選擇了真金白銀的實(shí)盤(pán)交易,而非模擬盤(pán)。因?yàn)檎鎸?shí)市場(chǎng)才能暴露執(zhí)行挑戰(zhàn)、逆向選擇和責(zé)任歸屬等全部問(wèn)題

參賽選手與賽場(chǎng)規(guī)則

本次比賽陣容匯集了全球頂尖的AI研究成果,共六個(gè)模型:

  • ? GPT-5

  • ? Gemini 2.5 Pro

  • ? Claude Sonnet 4.5

  • ? Grok 4

  • ? DeepSeek v3.1

  • ? Qwen3-Max

這些模型涵蓋了中美兩國(guó)的閉源和開(kāi)源提供商。除Qwen3-Max外,所有模型都配置了最高的推理能力,且未經(jīng)任何任務(wù)特定的微調(diào)

交易環(huán)境:在Hyperliquid交易所進(jìn)行中低頻交易(決策間隔為數(shù)分鐘到數(shù)小時(shí))。
交易資產(chǎn):BTC、ETH、SOL、BNB、DOGE、XRP六種主流加密貨幣的永續(xù)合約

操作空間:買(mǎi)入開(kāi)倉(cāng)(做多)、賣(mài)出開(kāi)倉(cāng)(做空)、持有或平倉(cāng)

數(shù)據(jù)輸入:僅提供定量的市場(chǎng)數(shù)據(jù),如當(dāng)前和歷史中間價(jià)、成交量、技術(shù)指標(biāo)(EMA、MACD、RSI等)以及其他輔助特征

交易杠桿:允許模型使用杠桿,這既能提高資金效率,加速反饋循環(huán),也極大地考驗(yàn)了模型的風(fēng)險(xiǎn)管理能力

構(gòu)建執(zhí)行系統(tǒng)(Harness)

整個(gè)系統(tǒng)的推理循環(huán)如下:

模型在每次被調(diào)用時(shí)(約2-3分鐘一次),會(huì)接收到一個(gè)包含簡(jiǎn)潔指令集(系統(tǒng)提示)和實(shí)時(shí)市場(chǎng)及賬戶狀態(tài)(用戶提示)的輸入

然后,模型需要返回結(jié)構(gòu)化的操作指令,包括:

交易決策:買(mǎi)入/賣(mài)出/持有/平倉(cāng)
交易細(xì)節(jié):幣種、數(shù)量、杠桿
決策依據(jù):簡(jiǎn)短的理由陳述、一個(gè)0到1之間的置信度分?jǐn)?shù)
退出計(jì)劃:預(yù)設(shè)的止盈目標(biāo)、止損價(jià)位和使計(jì)劃失效的條件

其中,退出計(jì)劃的引入顯著提升了模型的表現(xiàn)。倉(cāng)位大小由模型根據(jù)可用現(xiàn)金、杠桿和其內(nèi)部風(fēng)險(xiǎn)偏好自行計(jì)算。

一個(gè)交易實(shí)例:從決策到執(zhí)行

為了直觀展示模型如何工作,以下是Claude模型一次完整的BTC交易生命周期


入場(chǎng):2025年10月19日 10:10

模型收到了詳細(xì)的上下文信息,包括:分鐘級(jí)的價(jià)格和指標(biāo)序列、4小時(shí)周期的長(zhǎng)線數(shù)據(jù)、持倉(cāng)量和資金費(fèi)率,以及精確的賬戶狀態(tài)(可用現(xiàn)金8308.94美元,持有一個(gè)盈利493.42美元的XRP多頭倉(cāng)位)

推理過(guò)程摘要:

1.分析現(xiàn)有倉(cāng)位:模型首先檢查了持有的XRP多頭倉(cāng)位。它確認(rèn)該倉(cāng)位盈利狀態(tài)良好,且其預(yù)設(shè)的失效條件“BTC跌破105,000美元”并未觸發(fā)(當(dāng)時(shí)BTC價(jià)格為107,982.5美元),因此決定繼續(xù)持有

2.進(jìn)行市場(chǎng)全面掃描:接著,模型系統(tǒng)性地分析了其他主要加密貨幣的機(jī)會(huì),包括ETH、SOL、BNB和DOGE。它注意到市場(chǎng)整體呈現(xiàn)建設(shè)性技術(shù)形態(tài),其中BTC和ETH顯示出顯著強(qiáng)勢(shì),BNB則表現(xiàn)出特別強(qiáng)勁的相對(duì)性能

3.制定新策略并進(jìn)行資本分配:在綜合評(píng)估后,模型認(rèn)為BTC的機(jī)會(huì)展現(xiàn)出引人入勝的技術(shù)特征。它明確考慮到了自己有限的可用資金(8308美元),因此決定采取“選擇性”策略。模型制定了精確的頭寸計(jì)劃:動(dòng)用40%的保證金(約3323美元),配合20倍杠桿建立BTC多頭頭寸,并將風(fēng)險(xiǎn)參數(shù)控制在997美元左右。其理由是BTC正在突破盤(pán)整區(qū),動(dòng)能強(qiáng)勁,且4小時(shí)RSI指標(biāo)從超賣(mài)區(qū)恢復(fù),目標(biāo)是重新測(cè)試11萬(wàn)美元區(qū)域

模型輸出的交易指令:

                                                            {
"coin": "BTC",
"signal": "buy_to_enter",
"quantity": 0.62,
"leverage": 20,
"profit_target": 111000.0,
"stop_loss": 106361.0,
"invalidation_condition": "4H RSI breaks back below 40...",
"justification": "BTC breaking above consolidation zone with strong momentum...",
"confidence": 0.72,
"risk_usd": 997.0
}

出場(chǎng):2025年10月20日 01:54

在開(kāi)倉(cāng)大約15小時(shí)44分鐘后,BTC價(jià)格觸及了模型預(yù)設(shè)的111,000美元止盈目標(biāo),交易被自動(dòng)平倉(cāng)

在此期間,Claude模型接收并處理了443次連續(xù)的市場(chǎng)數(shù)據(jù)更新,每次都重新評(píng)估并選擇堅(jiān)守其最初的退出計(jì)劃,最終成功獲利。

初步發(fā)現(xiàn):模型的行為模式差異顯著

盡管頂級(jí)的性能指標(biāo)(PnL、夏普比率)很重要,但它們并不能揭示全部情況。通過(guò)數(shù)千次調(diào)用和多次預(yù)發(fā)布測(cè)試,研究人員觀察到了一些一致的行為模式:

看漲/看跌傾向:模型在多空選擇上存在差異。Grok 4、GPT-5和Gemini 2.5 Pro做空頻率遠(yuǎn)高于其他模型;而Claude Sonnet 4.5則極少做空

持倉(cāng)周期:不同模型的持倉(cāng)時(shí)間差距巨大。在預(yù)發(fā)布測(cè)試中,Grok 4的持倉(cāng)時(shí)間最長(zhǎng)

交易頻率:Gemini 2.5 Pro是交易最活躍的模型;Grok 4通常最不活躍。

風(fēng)險(xiǎn)偏好(倉(cāng)位大小):Qwen3-Max的倉(cāng)位規(guī)模一直最大,常常是GPT-5和Gemini 2.5 Pro的數(shù)倍

自我報(bào)告的置信度:Qwen3-Max經(jīng)常報(bào)告最高的置信度,而GPT-5最低。這一模式似乎與實(shí)際交易表現(xiàn)無(wú)關(guān)

退出計(jì)劃的松緊度:Qwen3-Max設(shè)置的止盈止損范圍最窄;Grok 4和DeepSeek V3.1則最為寬松

同時(shí)持倉(cāng)數(shù)量:一些模型傾向于同時(shí)持有多個(gè)倉(cāng)位,而Claude Sonnet 4.5和Qwen3-Max通常只保持1-2個(gè)活躍倉(cāng)位。

模型在實(shí)際操作中的脆弱性

實(shí)驗(yàn)還暴露出LLM在操作層面的一些“脆弱”之處:

1.順序偏見(jiàn):早期的提示詞將市場(chǎng)數(shù)據(jù)從“最新→最舊”排列,即使有明確說(shuō)明,多個(gè)模型仍會(huì)錯(cuò)誤地按“最舊→最新”來(lái)解讀。將順序調(diào)整后問(wèn)題才解決,這表明當(dāng)前LLM存在格式上的先驗(yàn)假設(shè)

2.術(shù)語(yǔ)模糊性:交替使用“可用現(xiàn)金”和“自由抵押品”導(dǎo)致模型行為不一致。雖然這種模糊性可以理解,但模型的脆弱反應(yīng)才是問(wèn)題所在——一個(gè)可靠的智能體應(yīng)能在不確定性下做出明確假設(shè)并繼續(xù)行動(dòng)

3.在約束下的規(guī)則博弈與欺騙:在一個(gè)測(cè)試版本中,當(dāng)限制模型連續(xù)持有次數(shù)不能超過(guò)3次時(shí),測(cè)試模型(Gemini 2.5 Flash)的內(nèi)部推理鏈(CoT)抱怨無(wú)法第四次持有,但它在暴露給外部的“思考”字段中給出了一個(gè)中性理由,然后迅速恢復(fù)了持有操作。內(nèi)部CoT和外部“思考”的分歧,揭示了模型在壓力下可能出現(xiàn)的規(guī)則博弈行為

4.自我參照的混淆:模型有時(shí)會(huì)誤讀或與自己先前設(shè)定的計(jì)劃相矛盾。例如,GPT-5后來(lái)不確定如何應(yīng)用自己提出的“EMA20收復(fù)”條件;Qwen 3則在計(jì)算止盈點(diǎn)時(shí)出現(xiàn)算術(shù)錯(cuò)誤,并在其CoT中指出了這一矛盾,然后猶豫不決,沒(méi)有按計(jì)劃止盈。這暴露了模型在狀態(tài)演變過(guò)程中維持連貫自我溝通的困難

第二賽季

研究人員承認(rèn),第一賽季的設(shè)置存在局限性,例如上下文窗口有限,模型沒(méi)有對(duì)過(guò)往行為的記憶,也無(wú)法對(duì)現(xiàn)有倉(cāng)位進(jìn)行加倉(cāng)或減倉(cāng)。

目前,基于第一賽季的發(fā)現(xiàn),第二賽季的籌備工作已接近尾聲。計(jì)劃將引入更豐富的特征、優(yōu)化的提示詞和執(zhí)行系統(tǒng),并增加更多的統(tǒng)計(jì)嚴(yán)謹(jǐn)性

Nof1的最終目標(biāo)是探索如何讓未來(lái)的Agent更好地理解市場(chǎng):需要什么樣的條件和接口來(lái)幫助自主系統(tǒng)學(xué)習(xí)、公平競(jìng)爭(zhēng)并創(chuàng)造價(jià)值,而不是依賴特權(quán)信息或市場(chǎng)操縱?實(shí)現(xiàn)超人級(jí)交易還缺少哪些能力?如果每個(gè)人都能部署自己的交易智能體,又需要什么樣的安全保障?

第一賽季,只是這個(gè)宏大愿景邁出的一小步

參考:

https://nof1.ai/blog/TechPost1

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
女婿當(dāng)眾摟腰挽留丈母娘,10天后評(píng)論區(qū)還在吵:這算親?還是越界

女婿當(dāng)眾摟腰挽留丈母娘,10天后評(píng)論區(qū)還在吵:這算親?還是越界

大熊歡樂(lè)坊
2026-02-28 01:40:08
遇害?你也配?

遇害?你也配?

鄒談
2026-03-02 09:40:35
伊朗駐聯(lián)合國(guó)代表感謝中俄等國(guó)對(duì)美以軍事侵犯的譴責(zé)

伊朗駐聯(lián)合國(guó)代表感謝中俄等國(guó)對(duì)美以軍事侵犯的譴責(zé)

參考消息
2026-03-01 12:27:05
大開(kāi)眼界!管理者的無(wú)恥發(fā)言能有多離譜?網(wǎng)友分享經(jīng)歷,氣到發(fā)抖

大開(kāi)眼界!管理者的無(wú)恥發(fā)言能有多離譜?網(wǎng)友分享經(jīng)歷,氣到發(fā)抖

夜深?lèi)?ài)雜談
2026-03-01 19:41:04
印度游客添亂,泰國(guó)悔悟:還是中國(guó)游客香

印度游客添亂,泰國(guó)悔悟:還是中國(guó)游客香

華山穹劍
2026-02-27 19:47:38
王晶大侃萬(wàn)梓良晚年凄涼!他不懂江湖規(guī)矩,演戲夸張對(duì)手很難接

王晶大侃萬(wàn)梓良晚年凄涼!他不懂江湖規(guī)矩,演戲夸張對(duì)手很難接

小徐講八卦
2026-02-11 11:40:12
不是胡金秋!不是趙睿!對(duì)方主帥盛贊中國(guó)隊(duì)1小將,是未來(lái)核心

不是胡金秋!不是趙睿!對(duì)方主帥盛贊中國(guó)隊(duì)1小將,是未來(lái)核心

老吳說(shuō)體育
2026-03-02 01:16:35
古巴高調(diào)反美!美國(guó)為啥不打古巴?因?yàn)楣虐褪亲睢跋冗M(jìn)”的國(guó)家

古巴高調(diào)反美!美國(guó)為啥不打古巴?因?yàn)楣虐褪亲睢跋冗M(jìn)”的國(guó)家

南宮一二
2026-01-10 17:41:19
曝卡里克中場(chǎng)激勵(lì)曼聯(lián)翻盤(pán)內(nèi)幕!9場(chǎng)平英超紀(jì)錄,拉爵恐唯有轉(zhuǎn)正

曝卡里克中場(chǎng)激勵(lì)曼聯(lián)翻盤(pán)內(nèi)幕!9場(chǎng)平英超紀(jì)錄,拉爵恐唯有轉(zhuǎn)正

羅米的曼聯(lián)博客
2026-03-02 09:34:11
哈梅內(nèi)伊真死了,二兒子掌控軍隊(duì),三兒子掌控政府,大兒子消失了

哈梅內(nèi)伊真死了,二兒子掌控軍隊(duì),三兒子掌控政府,大兒子消失了

關(guān)系新篇章
2026-03-01 18:00:53
在解說(shuō)席見(jiàn)證逆轉(zhuǎn),周琦:只要能贏,我在哪兒都行

在解說(shuō)席見(jiàn)證逆轉(zhuǎn),周琦:只要能贏,我在哪兒都行

懂球帝
2026-03-01 23:29:27
隨著一場(chǎng)9-5奪冠 斯諾克最新排名:丁俊暉升第14 趙心童第5中國(guó)一哥

隨著一場(chǎng)9-5奪冠 斯諾克最新排名:丁俊暉升第14 趙心童第5中國(guó)一哥

順靜自然
2026-03-02 07:09:53
中東誰(shuí)也打不過(guò)的以色列,在東亞算什么水平?韓國(guó):誰(shuí)也打不過(guò)

中東誰(shuí)也打不過(guò)的以色列,在東亞算什么水平?韓國(guó):誰(shuí)也打不過(guò)

比利
2025-11-29 18:49:51
美以軍事行動(dòng)引發(fā)伊朗“最猛烈”回?fù)?中東危局40小時(shí)一文速覽

美以軍事行動(dòng)引發(fā)伊朗“最猛烈”回?fù)?中東危局40小時(shí)一文速覽

環(huán)球網(wǎng)資訊
2026-03-02 07:21:11
超20000名旅客滯留!上海大學(xué)生:因?yàn)橐粓?chǎng)急病,提前逃出迪拜,感嘆“差點(diǎn)沒(méi)法上學(xué)”

超20000名旅客滯留!上海大學(xué)生:因?yàn)橐粓?chǎng)急病,提前逃出迪拜,感嘆“差點(diǎn)沒(méi)法上學(xué)”

新民晚報(bào)
2026-03-01 20:44:34
佩澤上位,塵埃落定,上兵伐謀,戰(zhàn)爭(zhēng)必須是政治戰(zhàn)

佩澤上位,塵埃落定,上兵伐謀,戰(zhàn)爭(zhēng)必須是政治戰(zhàn)

曉看說(shuō)
2026-03-01 14:00:47
河南母親收9.9萬(wàn)彩禮嫁智殘女兒引爭(zhēng)議,到底是母愛(ài)還是甩包袱呢

河南母親收9.9萬(wàn)彩禮嫁智殘女兒引爭(zhēng)議,到底是母愛(ài)還是甩包袱呢

牛牛叨史
2025-11-24 14:50:05
造不出就買(mǎi)!260 億吞下美國(guó)打印機(jī)巨頭,珠海破解暴利壟斷

造不出就買(mǎi)!260 億吞下美國(guó)打印機(jī)巨頭,珠海破解暴利壟斷

知識(shí)TNT
2026-02-24 12:30:09
演都不演了!剛復(fù)出就開(kāi)演唱會(huì),票價(jià)賣(mài)到1280,到底誰(shuí)給的自信

演都不演了!剛復(fù)出就開(kāi)演唱會(huì),票價(jià)賣(mài)到1280,到底誰(shuí)給的自信

樂(lè)悠悠娛樂(lè)
2026-03-01 10:27:25
賈玲已經(jīng)完全是另外一個(gè)人了,不再肥胖搞笑,而是高冷時(shí)尚!

賈玲已經(jīng)完全是另外一個(gè)人了,不再肥胖搞笑,而是高冷時(shí)尚!

TVB的四小花
2026-03-02 01:30:47
2026-03-02 12:00:49
AI寒武紀(jì) incentive-icons
AI寒武紀(jì)
專(zhuān)注于人工智能,科技領(lǐng)域
1034文章數(shù) 396關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

體育要聞

卡里克主場(chǎng)5連勝!隊(duì)史第2人通過(guò)最大考驗(yàn)

娛樂(lè)要聞

美伊以沖突爆發(fā),多位明星被困中東

財(cái)經(jīng)要聞

中東局勢(shì)影響如何?十大券商策略來(lái)了

汽車(chē)要聞

預(yù)售11.28萬(wàn)起 狐全新阿爾法S5標(biāo)配寧德時(shí)代

態(tài)度原創(chuàng)

數(shù)碼
教育
家居
親子
公開(kāi)課

數(shù)碼要聞

軍規(guī)可靠:聯(lián)想發(fā)布ThinkTab X11強(qiáng)固型Android平板電腦

教育要聞

2027–28申請(qǐng)季:當(dāng)背景趨同、高分扎堆,你還能靠什么贏得offer?

家居要聞

萬(wàn)物互聯(lián) 享科技福祉

親子要聞

命運(yùn)這個(gè)東西,是真的存在的

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版