国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

228小時狂飆100篇論文、燒光114億Token:FARS殺瘋了

0
分享至



編輯|Sia

這個春節(jié),AI 圈最硬核的一場「真人秀」,悄然完成了階段性收官。

主角不是動漫人物,也不是舞槍弄棒的機器人,而是一位 7×24 小時從不疲倦的 AI 科學家 FARS( Fully Automated Research System )。

這套由 Analemma(日行跡)打造的全自動研究系統(tǒng),在長達 228 小時 28 分 33 秒的連續(xù)公開運行中,自己提假設、做實驗、寫論文,共生成 244 個研究假設,「肝」出 100 篇短論文( short paper )。

算下來,在這座流水線式的「科研工廠」中,每隔約 2 小時就有一篇論文產(chǎn)出。



讓 AI 自己寫 100 篇論文目標達成,花了 228 個小時。目前,計劃持續(xù)一個月的直播仍在進行中。直播地址:https://analemma.ai/fars

這種跳出傳統(tǒng)科研范式的工業(yè)級吞吐量,很快讓圍觀網(wǎng)友坐不住了。













首批深度「驗貨」的專業(yè)網(wǎng)友給出了一個頗為一致的判斷:結果超過預期、相當出色。

如果把它當作人類頂會論文,還不夠驚艷;但如果考慮到這是一個全自動系統(tǒng)的階段性產(chǎn)出,其完成度已經(jīng)明顯超出很多人的事前預期。

「考慮到這只是一個 AI 的自主起步,能 7×24 小時穩(wěn)定產(chǎn)出到這個質量,還要啥自行車?」



而且,真 work 沒有通篇幻覺。



至少在當前階段,F(xiàn)ARS 已經(jīng)完成了一次關鍵跨越。它首次證明,一條無人值守的科研「流水線」不僅能跑,而且能在相對穩(wěn)定條件下,持續(xù)產(chǎn)出具備一定學術競爭力的 short paper 級工作。



「發(fā)論文這件事本身的稀缺性」被摧毀了。

恐怖的「工業(yè)節(jié)拍」,算力正在轉化為知識

FARS 并不是一個單體模型,而是一套多智能體系統(tǒng),包括四個功能模塊:

  • Ideation(構思):負責文獻調研與假設生成
  • Planning(規(guī)劃):負責實驗方案設計
  • Experiment(實驗):負責代碼編寫與執(zhí)行
  • Writing(寫作):負責論文撰寫

從實時運行界面可以直觀看到,F(xiàn)ARS 以項目隊列的方式并行推進多個研究任務。每個課題依次穿過 Ideation → Planning → Experiment → Writing 四個階段,流程高度模塊化,呈現(xiàn)出明顯的「科研裝配線」特征。



FARS 實時運行界面:從假設生成到論文寫作,自動化科研流水線首次以可觀測形態(tài)完整展開。

為了讓它心無旁騖的做研究,Analemma(日行跡)還給它搭建了一個 160 張顯卡的計算集群,并允許它調用幾乎任何開源和閉源大模型,實驗條件遠超大部分高校實驗室。

而這條「流水線」的產(chǎn)能,已經(jīng)到了讓人很難忽視的程度。在約228 小時(≈9.5 天)的連續(xù)運行周期內:

  • 系統(tǒng)生成244 個研究假設
  • 完成100 篇 short paper
  • 累計消耗114 億 Token
  • 總成本約10.4 萬美元(≈75 萬元人民幣)

全程無人干預。

進一步歸一化后,這套系統(tǒng)的「工業(yè)節(jié)拍」變得更加直觀:平均每隔約 2 小時 17 分就有一篇研究論文完成,平均每篇論文成本大約 1000 美元,花費 1 億多Token。

對比人類科研常見的 3–6 個月 / 篇的周期,這種吞吐差距幾乎是數(shù)量級級別的,成本也極為低廉。



不過,如果把目光從吞吐轉向效率,約 1.14 億 Token / 篇的消耗,已經(jīng)明顯高于普通寫作生成(通常百萬級 Token )以及常見復雜 Agent 任務(通常百萬、千萬級 Token )的開銷。

這表明,F(xiàn)ARS 仍處于「算力換智能」的階段,其表現(xiàn)更多來自計算密度,而非算法效率的極限壓縮。

綜合來看, 一方面,F(xiàn)ARS 已經(jīng)用實測結果證明,端到端自動化科研流水線在吞吐層面是切實可行的。另一方面,其當前的 Token 與成本結構,距離「足夠便宜地大規(guī)模跑」還有工程空間。

質量:它寫得快,那寫得好嗎?

量大,從來不自動等于質優(yōu)。FARS 寫出來的東西,到底處在什么水平?

為此,研究團隊使用斯坦福大學開發(fā)的 AI 審稿系統(tǒng)Agentic Reviewer( paperreview.ai ),按照 ICLR 的評審標準,對這 100 篇論文進行了統(tǒng)一打分。

根據(jù)開發(fā)者公開評估,Agentic Reviewer 在審稿一致性上,已達到人類審稿人的判斷水平。



開發(fā)者在 ICLR 2025 審稿數(shù)據(jù) 上做了對比評測,使用的是 Spearman 相關系數(shù)。人類 vs 人類:0.41;AI vs 人類:0.42。開發(fā)者認為 agentic reviewing 正在逼近人類水平。

從整體評分結果來看,F(xiàn)ARS 產(chǎn)出的 100 篇論文中,平均得分為5.05(區(qū)間 3.0–6.3)。

少量論文處于 3.0–4.5 的低分段,也有極少數(shù)突破 6.0 分。



FARS 論文分數(shù)主要堆在 5 分附近,說明產(chǎn)出質量并不是隨機波動,而是已經(jīng)形成相對穩(wěn)定的「質量帶」。少量樣本進入 6 分以上區(qū)間,意味著系統(tǒng)偶爾能產(chǎn)出超強作品。

這個成績,與人類戰(zhàn)績相比,又如何呢?

作為參照,ICLR 2026 人類投稿的平均分為 4.21,而最終被接收論文的平均分為 5.39。

對照來看,F(xiàn)ARS 的平均分 5.05,已經(jīng)明顯高于人類投稿的整體平均水平,但距離「平均中稿線」仍存在差距。

可謂比下有余,比上未滿。



FARS 生成的學術論文平均分超過人類投稿者的平均水平,但與平均中稿分數(shù)仍有差距。

需要再次強調的是,本次自動化生產(chǎn)以短論文為主,并未以當前學術會議的評審標準作為優(yōu)化目標。因此,無論是斯坦福大學 Agentic Reviewer 還是其他基于現(xiàn)有特定審稿標準的 AI 審稿結果,都只能作為一種參照,而非蓋棺定論。

據(jù)團隊透露,除 AI 審稿外,目前也在同步開展人工質量評審,并將在評估完成后形成綜合質量報告。

即便在這一審慎前提下,將前后兩部分數(shù)據(jù)合并觀察,整體信號仍然較為清晰:在接近人類評審尺度的評價體系中,F(xiàn)ARS 已然一臺穩(wěn)定的中分段輸出機器

論文深讀:

從「極速跟進」到「直面失敗」

如果說前面的數(shù)據(jù)與評分只能給出一條宏觀刻度,那么具體論文樣本,才真正暴露出 FARS 的研究成色。

已有網(wǎng)友拆解其中一篇 LLM-as-a-Judge 工作后評價,這類論文在摘要組織與問題切入上已經(jīng)相當工整。

考慮這是 AI 自動產(chǎn)出,完成度已經(jīng)「超出預期」??蚣軋D、結果圖、分析基本都齊全,「像那么回事」

也有人覺得編號為 FA0008 的項目「 make sense 」。



接下來,我們選擇一成一敗兩篇代表作,一探究竟。

先看「做成」的一篇 FA0042。它瞄準的是文本embedding 里一個老矛盾:

雙向注意力質量高,但會破壞 KV-cache;因果注意力能流式推理,但表示能力吃虧。



FA0042 的解法非常工程導向——訓練階段用雙向拿質量,推理階段用因果保效率。具體路徑是先訓一個雙向 teacher,再把能力蒸餾進 causal student。為了避免直接切雙向帶來的分布漂移,論文還引入了剛發(fā)布不久的 GG-SM 做漸進過渡。



結果也確實「能打」, 這條工程折中路線被驗證是 work 的。



MTEB-slice 主要結果



流式推理延遲對比



LoCoV1 長文檔檢索結果。student 模型以 0.284 的 NDCG@10 大幅領先所有 baseline(包括 teacher 的 0.212 ),出人意料。

當然,short paper 氣質也很足:細粒度成對任務提升有限,長文檔檢索反超 teacher 的機制還沒完全講透。

但更值得注意的是,螞蟻集團的 GG-SM 發(fā)布 3 天就被接入實驗流程,這種緊跟前沿的速度,本身就是 FARS 系統(tǒng)敏捷性的一個信號。

再看一篇「沒做成」的 FA0121。

它的文獻調研很給力,盯上了 DeepSeek 新提出的 Engram 稀疏架構,并抓到了一個很研究味的問題——

hot-to-cold advantage flip , 即 Engram 中的門控( gate )在訓練過程中難以準確根據(jù) n-gram embedding 的實際效用進行調整,存在高頻( hot )和低頻( cold )偏置。



為了打破這種「馬太效應」,F(xiàn)ARS 嘗試了一個直覺上非常硬核的方案:試圖通過「反事實門控監(jiān)督( CGS )」修復 DeepSeek Engram 架構中的「冷熱偏置」問題。

在特定訓練步驟中分別強制 gate 全開和全關,計算兩種情況下的 loss 差值來估計當前 n-gram embedding 的實際效用,以此作為輔助監(jiān)督信號來訓練 gate。



FA0121 方法示意圖



主實驗結果

思路很直覺。但結果很誠實——基本沒救回來。

CGS 帶來的那點提升,甚至不如讓模型多訓練幾步來得實在。這說明,要解決 AI 的偏見,光靠「教練現(xiàn)場打分」是不夠的,得從更深層的制度(架構)上下功夫。

論文給出的復盤也很到位:Gate 和 n-gram embedding 的訓練是一個相互耦合的系統(tǒng)動力學問題,不是簡單加監(jiān)督就能補的。

這篇工作的價值正在于:它沒有試圖掩蓋負面結果,沒有為了追求正面結果而篡改數(shù)據(jù)或強行解釋,而是通過一套嚴密的診斷性實驗(Diagnostic Experiments ),反思 CGS 的失敗。

這種「算法誠實」是當前學術界稀缺的品質。



輿論場:

從「又一個 Demo」到「科研流水線雛形」

隨著 FARS 「直播真人秀」數(shù)據(jù)披露,社區(qū)討論也迅速升溫,高頻指向一個關鍵詞——生產(chǎn)線。

不少圍觀者很快抓住了真正的沖擊點:這次引發(fā)不安的,并不是某一篇論文寫得多驚艷,而是系統(tǒng)所展現(xiàn)出的連續(xù)科研運轉能力。

當一個系統(tǒng)能夠穩(wěn)定提出假設、自動完成實驗、并持續(xù)吐出成稿時,評價坐標其實已經(jīng)悄然移動。問題不再是「 AI 會不會寫論文」,而是更具結構性的那一句—— AI 是否開始具備科研工業(yè)產(chǎn)能的雛形。

這種敘事重心的變化,本身就意味著社區(qū)對 AI 科研系統(tǒng)的預期正在抬升。一些技術討論甚至認為,LLM 在 AI 方向論文寫作上的能力已「基本夠用」,剩余差距更多體現(xiàn)在工程細節(jié)層面。

「 3 個月內就可能出現(xiàn)非常成熟可用的自動 paper pipeline?!?/p>



換言之,大多數(shù)人幾乎已經(jīng)默認:科研流水線時代,遲早會來。真正懸而未決的問題反而是,當科研開始規(guī)模化自動生產(chǎn),人類的不可替代性究竟還剩下什么?

對此,也有人給出答案:決定上限的,或許仍是研究者個人品味。



當然,社區(qū)并非只有單一聲音。

有人認為,與其關注單純 scale 出大量「普通 conference paper 」,不如將算力與模型能力投入到真正困難的開放問題上,這或許才是更具長期價值的方向。



無限心智的起點

FARS 的這 100 篇論文,并不是終點,更像是一枚被釘下的坐標點。

它證明了一件很重要的事:端到端自動科研流水線,已經(jīng)能夠在相對穩(wěn)定的運行條件下,持續(xù)產(chǎn)出具備一定學術競爭力的 short paper,并且開始展現(xiàn)出基礎的自我糾錯與負結果報告能力。

這意味著,自動化科研第一次以一種可連續(xù)運轉的系統(tǒng)形態(tài),正式進入現(xiàn)實。

但如果把放大鏡再壓近一層,當前階段的天花板同樣清晰可見。

FARS 很會把一條合理路徑走通,卻還不夠擅長在復雜假設空間中做出真正具有突破性的研究取舍;能完成結構完整的論證,但在思想壓強和機制洞察上仍有提升空間;而在算力利用率上,系統(tǒng)也還停留在明顯的「算力換智能」階段。

此刻的 FARS,更像一位極度勤奮、訓練有素且從不疲倦的初級研究員,距離那種能夠穩(wěn)定打出頂會級工作的成熟研究者,仍有一段需要跨越的進化距離。

不過,真正重要的或許并不是它此刻已經(jīng)多強,而是那條「無限心智生產(chǎn)線」,已經(jīng)可以穩(wěn)定地跑起來。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗要死!

伊朗要死!

求實處
2026-02-22 17:53:28
回顧:四川一男子陰莖撕裂入院,9天后復查結果如何了

回顧:四川一男子陰莖撕裂入院,9天后復查結果如何了

新時代的兩性情感
2026-02-23 18:01:52
美國賭定中國不敢登船檢查運往臺灣的軍火船,最多只是抗議而已

美國賭定中國不敢登船檢查運往臺灣的軍火船,最多只是抗議而已

我心縱橫天地間
2026-02-21 18:42:41
春節(jié)檔較去年下滑40%

春節(jié)檔較去年下滑40%

犀牛娛樂
2026-02-24 15:26:50
澳大利亞驚現(xiàn)封閉亂倫家族:4代人近親繁衍38名成員全是亂倫產(chǎn)物

澳大利亞驚現(xiàn)封閉亂倫家族:4代人近親繁衍38名成員全是亂倫產(chǎn)物

第7情感
2026-02-23 20:45:16
Melody道歉了!遭指「服務業(yè)殺手」負評如雪崩:我會悔改調整反省

Melody道歉了!遭指「服務業(yè)殺手」負評如雪崩:我會悔改調整反省

ETtoday星光云
2026-02-24 13:10:04
別嫌遠、別嫌偏!十年后深圳這5個地方,你高攀不起!

別嫌遠、別嫌偏!十年后深圳這5個地方,你高攀不起!

據(jù)說說娛樂
2026-02-24 12:23:29
不能令人信服的通報,媒體就別轉發(fā)了吧!

不能令人信服的通報,媒體就別轉發(fā)了吧!

林中木白
2026-02-23 12:40:41
別再喊四大文明古國了,把中國放進去,本身就是個認知誤區(qū)

別再喊四大文明古國了,把中國放進去,本身就是個認知誤區(qū)

談史論天地
2026-02-24 13:23:29
臺海問題還要等多久?

臺海問題還要等多久?

百態(tài)人間
2026-02-24 15:36:32
長和:反對巴拿馬政府強行接管巴拿馬港口公司之資產(chǎn)、員工與營運

長和:反對巴拿馬政府強行接管巴拿馬港口公司之資產(chǎn)、員工與營運

財聯(lián)社
2026-02-24 11:55:06
調整!中央5臺直播斯諾克中國德比有變,趙心童沖擊三連冠

調整!中央5臺直播斯諾克中國德比有變,趙心童沖擊三連冠

皮皮觀天下
2026-02-24 03:28:36
被吹上天的越南,是如何迎來至暗時刻的?東南亞新格局逐漸形成

被吹上天的越南,是如何迎來至暗時刻的?東南亞新格局逐漸形成

混沌錄
2026-02-24 19:37:06
2月24日晚間重要公告一覽

2月24日晚間重要公告一覽

GPLP
2026-02-24 18:25:51
剛剛!廣東定調未來10年!錢往哪流?哪些行業(yè)要爆發(fā)?大白話解讀

剛剛!廣東定調未來10年!錢往哪流?哪些行業(yè)要爆發(fā)?大白話解讀

愛看劇的阿峰
2026-02-24 16:22:35
中國正在大量囤油,一度吞掉世界9成囤量,有什么大事要發(fā)生?

中國正在大量囤油,一度吞掉世界9成囤量,有什么大事要發(fā)生?

森羅萬象視頻
2026-02-23 21:13:07
吳艷妮小露性感腹肌迷人:普通的日子也會有說不清的快樂

吳艷妮小露性感腹肌迷人:普通的日子也會有說不清的快樂

懂球帝
2026-02-24 11:01:05
《鏢人》謝霆鋒帶2人進組,別人上綜藝說場面話,他還真言出必行

《鏢人》謝霆鋒帶2人進組,別人上綜藝說場面話,他還真言出必行

大鐵貓娛樂
2026-02-23 22:55:03
被國家隊開除,加拿大送國籍千萬合同,王濛一句話震撼冰壇

被國家隊開除,加拿大送國籍千萬合同,王濛一句話震撼冰壇

觀察者海風
2026-02-24 13:45:09
伊朗最強外援缺席,哈梅內伊開始交待后事,最危險的局面要來了

伊朗最強外援缺席,哈梅內伊開始交待后事,最危險的局面要來了

一簌月光
2026-02-22 23:22:57
2026-02-24 20:11:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12344文章數(shù) 142569關注度
往期回顧 全部

科技要聞

AI顛覆發(fā)展最新犧牲品!IBM跳水重挫超13%

頭條要聞

20家日本實體被列入管制名單 中方:完全正當 合理合法

頭條要聞

20家日本實體被列入管制名單 中方:完全正當 合理合法

體育要聞

蘇翊鳴總結米蘭征程:我仍是那個熱愛單板滑雪的少年

娛樂要聞

汪小菲官宣三胎出生:承諾會照顧好3個孩子

財經(jīng)要聞

縣城消費「限時繁榮」了十天

汽車要聞

入門即滿配 威蘭達AIR版上市 13.78萬元起

態(tài)度原創(chuàng)

手機
教育
游戲
健康
公開課

手機要聞

iQOO 15R發(fā)布,這配置能打嗎?

教育要聞

收藏!2026四川高中學業(yè)水平考試報名指南

天國拯救影視化官宣!主創(chuàng)卸任創(chuàng)意總監(jiān)全力投身

轉頭就暈的耳石癥,能開車上班嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版