国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

華為推出軟工代碼智能體SWE-Lego,解鎖SFT訓(xùn)練極致性能

0
分享至



“軟工任務(wù)要改多文件、多輪工具調(diào)用,模型怎么學(xué)透?高質(zhì)量訓(xùn)練數(shù)據(jù)稀缺,又怕軌跡含噪聲作弊?復(fù)雜 RL 訓(xùn)練成本高,中小團(tuán)隊(duì)望而卻步?”

華為研究團(tuán)隊(duì)推出SWE-Lego, 僅基于監(jiān)督微調(diào)(SFT)的軟件工程代碼智能體,無需復(fù)雜 RL 流程,在 SWE-bench Verified 基準(zhǔn)中斬獲同等規(guī)模開源模型 SOTA,甚至超越部分更大規(guī)模閉源模型!項(xiàng)目已開源,代碼、模型和全部數(shù)據(jù)一鍵獲!

  • arXiv 地址:https://arxiv.org/abs/2601.01426
  • GitHub 地址:https://github.com/SWE-Lego
  • HuggingFace 地址:https://huggingface.co/SWE-Lego

SWE-Lego 具有三大創(chuàng)新,包括數(shù)據(jù)、訓(xùn)練和測試時(shí)擴(kuò)展。

1. 混合數(shù)據(jù)集構(gòu)建:

  • 雙數(shù)據(jù)管道互補(bǔ):GitHub 真實(shí) PR 數(shù)據(jù) + 注入真實(shí)場景 Bug 的合成數(shù)據(jù),產(chǎn)出 32k 高質(zhì)量任務(wù)實(shí)例 + 18k 專家軌跡;
  • 嚴(yán)格軌跡篩選:過濾 Git 歷史泄露、工具錯(cuò)誤等噪聲,重用部分解決的優(yōu)質(zhì)軌跡,提升 SFT 訓(xùn)練有效性。

2. 改進(jìn)的監(jiān)督微調(diào):

  • 兩大亮點(diǎn):① 步驟級錯(cuò)誤掩碼,讓模型從長軌跡中學(xué)習(xí)有效子軌跡;② 課程學(xué)習(xí),按交互輪次分級提升任務(wù)難度;
  • 性能提升:比傳統(tǒng) SFT 在不同模型上提升 2~4%,筑牢 SOTA 基礎(chǔ)。

3. 測試時(shí)擴(kuò)展策略(TTS):

  • 擴(kuò)展優(yōu)先級:先串行擴(kuò)展(增大軌跡最大交互輪數(shù))至飽和,再分配資源給并行擴(kuò)展(多備選答案選最優(yōu));
  • 打分器優(yōu)選:生成式打分器在并行擴(kuò)展中,全程優(yōu)于回歸式打分器,適配不同模型規(guī)模與測試預(yù)算。

引言

在軟件工程領(lǐng)域,Code Agent 需要處理復(fù)雜的任務(wù):修復(fù) bug、重構(gòu)代碼、理解大型代碼庫。這些任務(wù)要求 Code Agent 具備長序列推理、多文件操作和工具使用等能力,F(xiàn)有的訓(xùn)練方法通常需要復(fù)雜的訓(xùn)練范式,比如強(qiáng)化學(xué)習(xí)(RL)或者 RL 和 SFT 的迭代組合。

這些方法雖然有效,但計(jì)算成本高,訓(xùn)練過程復(fù)雜。能否用更簡單的方法達(dá)到同樣的效果?

華為的研究團(tuán)隊(duì)提出了SWE-Lego,一個(gè)僅基于監(jiān)督微調(diào)(SFT)的軟工代碼模型的解決方案。在 SWE-bench Verified 基準(zhǔn)測試上基于 Qwen3 系列模型作為起始模型,經(jīng)過 SFT 之后得到 SWE-Lego-Qwen3-8B 和 32B 分別達(dá)到 42.2% 和 52.6%,達(dá)到了開源模型的 SOTA 水平,并超越了一些更大規(guī)模的閉源模型;跍y試時(shí)擴(kuò)展策略(TTS)可以進(jìn)一步把性能提高 6~7%。



圖 1:SWE-Lego 系列模型在 SWE-bench Verified 上的性能對比,在同等規(guī)模模型中表現(xiàn)達(dá)到 SOTA

一、挑戰(zhàn)與動(dòng)機(jī)

軟件工程任務(wù)與傳統(tǒng)的單文件編程任務(wù)有著明顯區(qū)別:一個(gè) bug 修復(fù)可能涉及代碼項(xiàng)目里多個(gè)文件的修改,需要多輪工具調(diào)用(讀取文件、執(zhí)行測試、編輯代碼等),必須在真實(shí)的代碼庫環(huán)境中驗(yàn)證修復(fù)效果,還需要理解代碼邏輯、定位問題、設(shè)計(jì)修復(fù)方案等復(fù)雜推理能力。

為了訓(xùn)練具備軟件工程項(xiàng)目級代碼編寫能力的代碼模型,研究者們嘗試了多種方法。強(qiáng)化學(xué)習(xí)(RL)雖然不需要預(yù)定義的軌跡,但訓(xùn)練成本極高。復(fù)雜組合方法將多種訓(xùn)練范式結(jié)合,比如 SFT 和 RL 的迭代訓(xùn)練,進(jìn)一步增加了訓(xùn)練復(fù)雜度。更重要的是,高質(zhì)量的訓(xùn)練數(shù)據(jù)稀缺,F(xiàn)有的數(shù)據(jù)集要么規(guī)模有限,要么缺乏可執(zhí)行環(huán)境,要么難以擴(kuò)展到足夠大的規(guī)模。

二、SWE-Lego 的三大核心組件

SWE-Lego 包含三個(gè)核心組件:



圖 2:SWE-Lego-Qwen3-32B 的性能提升分解,混合數(shù)據(jù)集貢獻(xiàn)最大(+25.6%),改進(jìn)的 SFT 貢獻(xiàn) + 3.8%,TTS 貢獻(xiàn) + 6.2%

從圖 2 可以看到每個(gè)組件的貢獻(xiàn):混合數(shù)據(jù)集貢獻(xiàn) + 25.6%(最大貢獻(xiàn)),改進(jìn)的 SFT 貢獻(xiàn) + 3.8%,測試時(shí)擴(kuò)展貢獻(xiàn) + 6.2%?傆(jì)從基線 23.2% 提升到 58.8%,提升了 35.6 個(gè)百分點(diǎn)。這些結(jié)果清楚地表明,好的數(shù)據(jù)集是性能提升的最大驅(qū)動(dòng)力,而改進(jìn)的 SFT 和測試時(shí)擴(kuò)展提供了不錯(cuò)的增量收益。

核心組件一:混合數(shù)據(jù)集構(gòu)建

SWE-Lego 數(shù)據(jù)集包含 32,119 個(gè)高質(zhì)量任務(wù)實(shí)例,18,110 個(gè)驗(yàn)證軌跡(其中 14,110 個(gè)完全解決,4,000 個(gè)半解決),覆蓋 3,251 個(gè)代碼倉庫。

SWE-Lego 采用混合數(shù)據(jù)構(gòu)建策略,結(jié)合真實(shí)世界數(shù)據(jù)和合成數(shù)據(jù)。真實(shí)世界數(shù)據(jù)來自嚴(yán)格篩選的 GitHub Pull Requests (PRs),這里的 PRs 中非測試文件作為 Golden Patch, 也就是這個(gè)任務(wù)的解決方案。真實(shí) PR 數(shù)據(jù)具有貼近生產(chǎn)環(huán)境的優(yōu)勢,能夠提供真實(shí)的 bug 的復(fù)雜性,真實(shí)的任務(wù)參考 SWE-rebench [1]。但是真實(shí)數(shù)據(jù)數(shù)量有限,且每個(gè)任務(wù)需要獨(dú)立的沙箱環(huán)境,成本較高。

參考 SWE-smith [2] 的通過故意引入 Bug 來合成軟工任務(wù)的方式,SWE-Lego 通過 AST 轉(zhuǎn)換和 LLM 重寫,基于真實(shí)代碼倉得到相應(yīng)的合成軟工數(shù)據(jù),對可以通過測試的代碼庫故意引入一些 Bug。具體地,AST 轉(zhuǎn)換提取抽象語法樹(AST)并應(yīng)用隨機(jī)變換,如移除條件 / 循環(huán)、修改運(yùn)算符或依賴關(guān)系,而 LLM 重寫則提示模型使用函數(shù)頭和文檔字符串等信息重寫代碼。引入 Bug 的補(bǔ)丁進(jìn)行反轉(zhuǎn)就可以得到解決這個(gè)任務(wù)的 Golden Patch。合成數(shù)據(jù)具有可擴(kuò)展、成本低、多個(gè)任務(wù)可共享沙箱的優(yōu)勢,但復(fù)雜度相對較低。

在下一步,團(tuán)隊(duì)對真實(shí)和合成數(shù)據(jù)采用測試驅(qū)動(dòng)的方式去得到驗(yàn)證后的軟工數(shù)據(jù)實(shí)例,篩選出合格的軟工任務(wù)。具體地,在應(yīng)用 Golden Patch 前可以通過的測試在應(yīng)用 Golden Patch 之后仍然可以通過, 而應(yīng)用 Golden Patch 前不通過的測試在應(yīng)用 Golden Patch 之后也需要通過。



圖 3:SWE-Lego 數(shù)據(jù)管道,結(jié)合真實(shí) PR 和合成的軟工任務(wù)實(shí)例,基于專家模型去生成可執(zhí)行的軌跡用于 SFT 訓(xùn)練

真實(shí)數(shù)據(jù)提供深度(復(fù)雜性和真實(shí)性),合成數(shù)據(jù)提供廣度(數(shù)量和覆蓋范圍)。兩者互補(bǔ):真實(shí)數(shù)據(jù)提供主要收益但難以擴(kuò)展,合成數(shù)據(jù)通過進(jìn)一步擴(kuò)展提供額外收益。實(shí)驗(yàn)證明,增加合成數(shù)據(jù)可以顯著提升有效軌跡數(shù)量和下游性能。



圖 4:隨著合成實(shí)例的增加,有效軌跡數(shù)量顯著增長



圖 5:隨著混合數(shù)據(jù)的增加,模型的性能逐步提升

  • 軌跡質(zhì)量優(yōu)化

為了確保訓(xùn)練數(shù)據(jù)的質(zhì)量,SWE-Lego 實(shí)施了嚴(yán)格的軌跡生成和驗(yàn)證流程。

防止解決方案泄露:最近 SWE-Bench 社區(qū) [3] 發(fā)現(xiàn),LLM 可能通過查看 Git 歷史來 "作弊",直接找到正確答案。為了防止這種解決方案泄露,對于真實(shí)實(shí)例,SWE-Lego 移除問題創(chuàng)建日期之后的所有提交和日志消息,使未來的修復(fù)不可見;對于合成實(shí)例,由于有 bug 的版本在無 bug 的版本之前(由于故意的 bug 注入),完全移除整個(gè) Git 歷史和所有日志,只暴露 buggy 代碼庫的單個(gè)快照。這迫使模型真正推理代碼和測試,而不是從版本控制中讀取答案。

處理工具調(diào)用錯(cuò)誤:在使用 Qwen3-Coder-480B-A35B-Instruct 作為教師模型時(shí),觀察到對 str_replace_editor 工具的頻繁格式錯(cuò)誤調(diào)用,例如將字符串傳遞給 view_range 或指定超出范圍的行范圍,導(dǎo)致工具失敗并浪費(fèi)交互預(yù)算。為了緩解這些錯(cuò)誤,SWE-Lego 應(yīng)用輕量級后處理:如果 view_range 是字符串,則在執(zhí)行工具之前將其轉(zhuǎn)換為整數(shù);如果請求的行范圍超過文件長度,則返回有效行的子集而不是引發(fā)錯(cuò)誤,使得模型能夠更可靠地檢查代碼。

精簡工具集:雖然任務(wù)管理工具(如 task_tracker)已被一些最近的專有模型采用,但發(fā)現(xiàn) Qwen3-Coder-480B-A35B-Instruct 無法有效使用它們,經(jīng)常導(dǎo)致執(zhí)行錯(cuò)誤。因此,SWE-Lego 丟棄此工具,將工具集限制為四個(gè)基本操作:execute_bash、str_replace_editor、think 和 finish,以保持軌跡精簡。

軌跡過濾策略:SWE-Lego 通過應(yīng)用預(yù)測補(bǔ)丁并運(yùn)行測試集來驗(yàn)證軌跡。如果軌跡通過所有測試,則分類為已解決,否則為未解決。然后,過濾低質(zhì)量的已解決軌跡(例如,通過修改測試文件來 "作弊" 的軌跡),并重用部分解決軌跡(那些正確識(shí)別了所有相關(guān)文件但未能修復(fù)的軌跡)。這些部分解決軌跡提供了有價(jià)值的故障定位監(jiān)督,我們發(fā)現(xiàn)加入此類數(shù)據(jù)會(huì)適當(dāng)提升模型的性能。



圖 6:軌跡生成中的關(guān)鍵實(shí)踐,包括防止 Git 泄露、處理工具錯(cuò)誤、精簡工具集



表 1:SWE-Lego 的可驗(yàn)證的任務(wù)實(shí)例和有效訓(xùn)練軌跡的統(tǒng)計(jì)以及和其他 SWE 相關(guān)工作的數(shù)據(jù)對比

具體的數(shù)據(jù)統(tǒng)計(jì)和對比見表 1,可以看出 SWE-Lego 的混合數(shù)據(jù)管道提供了數(shù)量充足的、代碼倉多樣的、環(huán)境可驗(yàn)證的 SWE 任務(wù)實(shí)例和軌跡。

總結(jié):混合數(shù)據(jù)集是性能提升的最大驅(qū)動(dòng)力。真實(shí)數(shù)據(jù)與合成數(shù)據(jù)互補(bǔ)確保了數(shù)據(jù)數(shù)量,嚴(yán)格的軌跡驗(yàn)證確保了軌跡的質(zhì)量。

核心組件二:改進(jìn)的監(jiān)督微調(diào)

通常的監(jiān)督微調(diào)將通過測試驗(yàn)證的整條軌跡拿去訓(xùn)練,但實(shí)際上在軟工的場景,專家軌跡需要多輪在沙箱中交互得到最后的預(yù)測補(bǔ)丁,即使最終成功解決的軌跡也可能包含中間錯(cuò)誤步驟,盲目學(xué)習(xí)這些錯(cuò)誤可能強(qiáng)化不良行為。另外,不同數(shù)據(jù)的難度不同,在訓(xùn)練初期讓模型學(xué)習(xí)難題可能比較吃力。針對這些情況,SWE-Lego 提出了兩個(gè)改進(jìn):

  • 改進(jìn) 1:步驟級錯(cuò)誤掩碼

核心思想:保持完整軌跡上下文,但只對正確的步驟計(jì)算損失。



圖 7:步驟級錯(cuò)誤掩碼示例,錯(cuò)誤步驟被掩碼,模型只學(xué)習(xí)正確的操作

實(shí)現(xiàn)方法:使用正則表達(dá)式識(shí)別終端環(huán)境提供的錯(cuò)誤消息,對相應(yīng)的模型響應(yīng)應(yīng)用錯(cuò)誤掩碼。關(guān)鍵是要排除因復(fù)現(xiàn) bug 或執(zhí)行測試文件而產(chǎn)生的錯(cuò)誤。這種方法保持完整的軌跡上下文,但只對正確的步驟計(jì)算損失,使模型能夠?qū)W習(xí)正確的操作和恢復(fù)策略,而不會(huì)強(qiáng)化錯(cuò)誤。通過強(qiáng)調(diào)學(xué)習(xí)正確操作,直接減少了核心推理失敗,如 "錯(cuò)誤實(shí)現(xiàn)" 和 "定位錯(cuò)誤"。

  • 改進(jìn) 2:基于難度的課程學(xué)習(xí)

核心思想:從簡單任務(wù)開始,逐步增加難度。

SWE-Lego 探索了兩種難度分類方法:基于模型的評分和基于軌跡輪數(shù)的啟發(fā)式。研究發(fā)現(xiàn),軌跡輪數(shù)與解決率之間存在強(qiáng)負(fù)相關(guān)(相關(guān)系數(shù) - 0.95);谶@一發(fā)現(xiàn),SWE-Lego 采用可以直接獲取的指標(biāo),軌跡輪數(shù),作為軌跡的難度指標(biāo),將數(shù)據(jù)分為三個(gè)難度等級:簡單(0-50 輪)、中等(50-70 輪)、困難(70-100 輪)。訓(xùn)練策略采用三階段課程:先訓(xùn)練簡單任務(wù),再逐步加入中等和困難任務(wù)。這種課程學(xué)習(xí)與訓(xùn)練動(dòng)態(tài)一致:首先讓模型在 "簡單" 任務(wù)上克服基本的 "無法復(fù)現(xiàn)" 錯(cuò)誤,然后引入 "困難" 任務(wù)以發(fā)展避免 "超出最大輪次" 失敗所需的戰(zhàn)略規(guī)劃。



圖 8:軌跡輪次與平均解決率之間的強(qiáng)負(fù)相關(guān)關(guān)系

  • 訓(xùn)練過程分析

通過分析訓(xùn)練過程中的錯(cuò)誤類型演變,可以清楚地看到模型的學(xué)習(xí)軌跡:



圖 9:訓(xùn)練過程中解決率的提升趨勢



圖 10:訓(xùn)練過程中錯(cuò)誤類型的演變,從早期的 "無法復(fù)現(xiàn)" 到后期的 "錯(cuò)誤實(shí)現(xiàn)"

錯(cuò)誤類型的變化:訓(xùn)練初期時(shí) "無法復(fù)現(xiàn)" 錯(cuò)誤占主導(dǎo),表明模型此時(shí)缺乏對軟工任務(wù)基本的理解能力;訓(xùn)練中期時(shí) "無法復(fù)現(xiàn)" 比例大幅減少,但 "定位錯(cuò)誤" 比例仍有較多,表明缺乏戰(zhàn)略規(guī)劃;訓(xùn)練后期 "錯(cuò)誤實(shí)現(xiàn)" 成為瓶頸,表明從過程失敗轉(zhuǎn)向推理失敗。

改進(jìn)的 SFT(錯(cuò)誤掩碼 + 課程學(xué)習(xí))帶來 3.8% 的性能提升。在 SWE-bench Verified 上,SWE-Lego-Qwen3-8B 達(dá)到 42.2%,SWE-Lego-Qwen3-32B 達(dá)到 52.6%。通過漸進(jìn)式訓(xùn)練和選擇性學(xué)習(xí),模型能夠更有效地掌握復(fù)雜任務(wù)。

核心組件三:測試時(shí)擴(kuò)展

測試時(shí)擴(kuò)展(TTS)可以在不重新訓(xùn)練的情況下,通過在測試階段分配額外的計(jì)算資源來提升性能。SWE-Lego 系統(tǒng)研究了兩個(gè)正交維度:

  • 維度 1:串行擴(kuò)展 vs 并行擴(kuò)展

SWE-Lego 研究了串行擴(kuò)展和并行擴(kuò)展之間的資源分配。串行擴(kuò)展通過增加最大交互輪次實(shí)現(xiàn),在低測試預(yù)算的區(qū)域非常高效。額外輪次都能獲得環(huán)境反饋,使模型能夠糾正錯(cuò)誤并迭代改進(jìn)解決方案。這使得串行擴(kuò)展在預(yù)算有限時(shí)成為首選策略。然而,模型性能在約 100-140 輪后開始飽和,此時(shí)相比于串行擴(kuò)展,更加需要并行擴(kuò)展來提升性能。

并行擴(kuò)展生成多個(gè)候選軌跡,用打分器選擇最佳的軌跡。在串行擴(kuò)展飽和后,并行擴(kuò)展變得更加有效,因?yàn)槊總(gè)獨(dú)立軌跡探索解決方案空間的不同路徑。



圖 11:串行擴(kuò)展和并行擴(kuò)展的權(quán)衡,等延遲曲線顯示了最優(yōu)資源分配策略

在有限的測試階段計(jì)算預(yù)算下,應(yīng)優(yōu)先進(jìn)行串行擴(kuò)展;在串行擴(kuò)展飽和后,將剩余計(jì)算資源分配給并行擴(kuò)展。圖 11 中的等延遲等高線說明了這種權(quán)衡:在等效延遲下,最優(yōu)分配隨著總延遲預(yù)算的增加從順序主導(dǎo)轉(zhuǎn)向并行主導(dǎo)。

  • 維度 2:生成式 vs 回歸式打分器

打分器用于從多個(gè)候選軌跡中選擇最佳方案。SWE-Lego 比較了兩種范式:回歸式打分器和生成式打分器。

回歸式打分器在模型上添加一個(gè)頭輸出,使用二元交叉熵?fù)p失訓(xùn)練,對整個(gè)軌跡轉(zhuǎn)化為單個(gè)標(biāo)量去打分。生成式打分器將驗(yàn)證表述為文本生成任務(wù),預(yù)測 "是" 或 "否",從輸出 "是" 或 "否的"token 概率計(jì)算分?jǐn)?shù)。生成式打分器的訓(xùn)練目標(biāo)與預(yù)訓(xùn)練的下一個(gè) token 預(yù)測目標(biāo)對齊,可能更好地利用模型的固有知識(shí)。



圖 12:生成式打分器與回歸式打分器的對比,生成式打分器在 K 值較大時(shí)持續(xù)改進(jìn)

在 rollout 的個(gè)數(shù)(K 值)比較小時(shí),生成式打分器與回歸式打分器兩者的性能相近;隨著 rollout 的次數(shù)(K)的增加,回歸式打分器趨于飽和,而生成式打分器持續(xù)改進(jìn)。對于 SWE-Lego-Qwen3-8B,在 K=16 時(shí)差距達(dá)到 2.8%(49.6% vs 46.8%)。



圖 13:SWE-Lego 打分器與現(xiàn)有公開打分器的對比

SWE-Lego-Verifier-8B 在 TTS@16 上達(dá)到 49.6%,超越了 OpenHands-Critic-32B(44.0%)和 R2E-Gym-Verifier-14B(47.0%)。除了絕對性能外,還觀察到不同打分器范式的定性不同縮放行為。OpenHands-Critic-32B 采用回歸式范式,在更高的 K 值下表現(xiàn)出性能下降,這是一個(gè)反直覺的結(jié)果,表明更大的候選池壓倒了其判別能力。相比之下,生成式打分器(SWE-Lego 和 R2E-Gym)保持單調(diào)改進(jìn),趨向于 Pass@K 上限,進(jìn)一步確認(rèn)生成式表述提供了更穩(wěn)健的縮放屬性。

總結(jié):測試時(shí)擴(kuò)展可以在測試階段帶來額外提升。在測試的計(jì)算預(yù)算比較低的時(shí)候,串行擴(kuò)展優(yōu)先于并行擴(kuò)展。生成式打分器在并行擴(kuò)展中表現(xiàn)更優(yōu)。

三、結(jié)語與展望

SWE-Lego 證明了輕量級方法也能達(dá)到 SOTA,不一定需要復(fù)雜的 RL 或 SFT 和 RL 的迭代訓(xùn)練,SFT 也可以取得軟工任務(wù)的 SOTA 性能。數(shù)據(jù)質(zhì)量至關(guān)重要,混合數(shù)據(jù)集和嚴(yán)格驗(yàn)證是性能提升的關(guān)鍵。訓(xùn)練技巧的價(jià)值也不容忽視,錯(cuò)誤掩碼和課程學(xué)習(xí)等看似簡單的改進(jìn)也帶來了性能提升。

未來將探索更大模型和更多數(shù)據(jù)的組合,擴(kuò)展到 Python 之外的其他編程語言和其他類型的代碼任務(wù),處理企業(yè)級的長序列、多文件任務(wù),并將 SWE-Lego 應(yīng)用到真實(shí)的軟件開發(fā)流程中。

參考文獻(xiàn)

[1] Badertdinov, I., Golubev, A., Nekrashevich, M., Shevtsov, A., Karasik, S., Andriushchenko, A., ... & Yangel, B. (2025). SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents. arXiv preprint arXiv:2505.20411.

[2] Yang, J., Lieret, K., Jimenez, C. E., Wettig, A., Khandpur, K., Zhang, Y., ... & Yang, D. (2025). Swe-smith: Scaling data for software engineering agents. arXiv preprint arXiv:2504.21798.

[3] https://github.com/SWE-bench/SWE-bench/issues/465

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
石破茂改口:高市涉臺(tái)言論沒必要撤回了,中日關(guān)系難以回到從前

石破茂改口:高市涉臺(tái)言論沒必要撤回了,中日關(guān)系難以回到從前

馬浵在解說
2026-01-13 15:19:07
拿下特斯拉大單,手握2家上市公司!“中國最大忽悠”要翻身了?

拿下特斯拉大單,手握2家上市公司!“中國最大忽悠”要翻身了?

品牌觀察官
2025-12-07 20:49:20
稀土合同泡湯,高市下4字戰(zhàn)書,英偉達(dá)已經(jīng)下場,逼中國全額買單

稀土合同泡湯,高市下4字戰(zhàn)書,英偉達(dá)已經(jīng)下場,逼中國全額買單

書紀(jì)文譚
2026-01-13 16:18:33
快船117-109黃蜂3喜1憂!棄用祖巴茨效果拉滿,2配角打出價(jià)值!

快船117-109黃蜂3喜1憂!棄用祖巴茨效果拉滿,2配角打出價(jià)值!

籃球資訊達(dá)人
2026-01-13 14:18:07
法國超熟齡性工作者,88歲還在接客?自稱“越老越搶手”,入行原因太心酸!

法國超熟齡性工作者,88歲還在接客?自稱“越老越搶手”,入行原因太心酸!

新歐洲
2026-01-10 19:38:22
特大新聞!中國4艘艦艇抵達(dá)美國家門口!俄:只有中國能讓美沉默

特大新聞!中國4艘艦艇抵達(dá)美國家門口!俄:只有中國能讓美沉默

愛吃醋的貓咪
2026-01-12 21:58:17
我媽鐵了心要嫁廣場舞搭子,我沒反對,領(lǐng)證前我說:你老了指望誰

我媽鐵了心要嫁廣場舞搭子,我沒反對,領(lǐng)證前我說:你老了指望誰

朝暮書屋
2026-01-09 18:49:12
哈國突然斷氣,中國稀土受挫,美國 9 億拿下七成礦權(quán),地緣棋局再變

哈國突然斷氣,中國稀土受挫,美國 9 億拿下七成礦權(quán),地緣棋局再變

花小貓的美食日常
2026-01-12 05:45:02
《尋秦記》片酬:林峯200萬,宣萱180萬,白百何高到嚇人

《尋秦記》片酬:林峯200萬,宣萱180萬,白百何高到嚇人

糊咖娛樂
2026-01-12 15:14:21
道歉不到24小時(shí),閆學(xué)晶再迎三大噩耗,她兒子可能30萬都賺不到了

道歉不到24小時(shí),閆學(xué)晶再迎三大噩耗,她兒子可能30萬都賺不到了

夜深愛雜談
2026-01-12 13:54:48
退休金1萬,裝窮到兒子家,兒媳下泡面,兒子回房間,我明白了

退休金1萬,裝窮到兒子家,兒媳下泡面,兒子回房間,我明白了

熱心柚子姐姐
2026-01-12 14:45:05
和訊投顧陸潤凱:大盤分歧,明天的應(yīng)對來了

和訊投顧陸潤凱:大盤分歧,明天的應(yīng)對來了

和訊網(wǎng)
2026-01-13 15:49:04
詹姆斯22+4+3,盧卡42+7+8湖人三連敗,威少恩怨局22+5+7

詹姆斯22+4+3,盧卡42+7+8湖人三連敗,威少恩怨局22+5+7

薇說體育
2026-01-13 16:29:35
南博“借畫不還”羅生門:誰在鯨吞公共文物的大領(lǐng)導(dǎo)是誰?

南博“借畫不還”羅生門:誰在鯨吞公共文物的大領(lǐng)導(dǎo)是誰?

老馬拉車莫少裝
2025-12-23 13:53:49
身上有這5個(gè)特征,說明你氣場極強(qiáng),沒人敢隨意拿捏

身上有這5個(gè)特征,說明你氣場極強(qiáng),沒人敢隨意拿捏

另子維愛讀史
2026-01-07 21:44:10
閆學(xué)晶事件升級!中戲否認(rèn)12年招收新疆班,網(wǎng)傳其兒子讀的是11級

閆學(xué)晶事件升級!中戲否認(rèn)12年招收新疆班,網(wǎng)傳其兒子讀的是11級

火山詩話
2026-01-12 06:12:18
醫(yī)生調(diào)查發(fā)現(xiàn):高血壓患者過了70歲,基本都有8現(xiàn)狀,要坦然接受

醫(yī)生調(diào)查發(fā)現(xiàn):高血壓患者過了70歲,基本都有8現(xiàn)狀,要坦然接受

健康之光
2026-01-13 10:44:55
劉浩存 內(nèi)娛165最強(qiáng)比例王

劉浩存 內(nèi)娛165最強(qiáng)比例王

草莓解說體育
2026-01-13 11:26:17
女演員與他同居5年,將美好的年華都給了他,他卻選擇與閨蜜結(jié)婚

女演員與他同居5年,將美好的年華都給了他,他卻選擇與閨蜜結(jié)婚

探長影視解說
2026-01-13 15:32:12
戰(zhàn)爭已經(jīng)無法避免?特朗普突然通告全球,美軍只等一聲令下

戰(zhàn)爭已經(jīng)無法避免?特朗普突然通告全球,美軍只等一聲令下

青途歷史
2026-01-13 14:41:08
2026-01-13 16:56:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12108文章數(shù) 142535關(guān)注度
往期回顧 全部

科技要聞

每年10億美元!谷歌大模型注入Siri

頭條要聞

白宮稱正考慮針對伊朗的軍事選項(xiàng) 外交部回應(yīng)

頭條要聞

白宮稱正考慮針對伊朗的軍事選項(xiàng) 外交部回應(yīng)

體育要聞

CBA還能眾籌換帥?

娛樂要聞

周杰倫以球員身份參加澳網(wǎng),C位海報(bào)公開

財(cái)經(jīng)要聞

"天量存款"將到期 資金會(huì)否搬入股市?

汽車要聞

限時(shí)9.99萬元起 2026款啟辰大V DD-i虎鯨上市

態(tài)度原創(chuàng)

房產(chǎn)
健康
游戲
親子
軍事航空

房產(chǎn)要聞

重磅調(diào)規(guī)!417畝商改住+教育地塊!?谖骱0队忠l(fā)!

血常規(guī)3項(xiàng)異常,是身體警報(bào)!

女友買游戲送男友讓人酸爆!戀愛酸臭味引外網(wǎng)熱議

親子要聞

fsh高怎么調(diào)理?打促排期間怎么提高卵泡質(zhì)量?

軍事要聞

特朗普拿中俄當(dāng)幌子被北歐官員拆穿:完全不屬實(shí)

無障礙瀏覽 進(jìn)入關(guān)懷版