国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenAI前CTO首個(gè)創(chuàng)業(yè)產(chǎn)品Tinker,全量升級(jí)開放了,還有羊毛可薅

0
分享至



機(jī)器之心發(fā)布

當(dāng) OpenAI 前 CTO Mira Murati 創(chuàng)立的 Thinking Machines Lab (TML) 用 Tinker 創(chuàng)新性的將大模型訓(xùn)練抽象成 forward backward,optimizer step 等?系列基本原語,分離了算法設(shè)計(jì)等部分與分布式訓(xùn)練基礎(chǔ)設(shè)施關(guān)聯(lián),把 “訓(xùn)練” 大模型變成了簡(jiǎn)單的 “函數(shù)調(diào)用” 時(shí),行業(yè)進(jìn)入一場(chǎng)從 “作坊式煉丹” 到 “工業(yè)化微調(diào)” 的升級(jí)。

潞晨云微調(diào) SDK 正式開放上線:基于 Thinking Machine Lab 開源的 Tinker SDK 構(gòu)建,作為國(guó)內(nèi)首個(gè)兼容 Tinker 范式且全面開放的 Serverless 微調(diào)平臺(tái),為復(fù)雜昂貴的強(qiáng)化學(xué)習(xí)提供更具成本優(yōu)勢(shì)的工業(yè)級(jí)解法 —— 開發(fā)者無需囤卡,rollout→reward→update 全鏈路按 Token 計(jì)價(jià),讓每一分錢都花在產(chǎn)生梯度的 “刀刃” 上。

擁抱后訓(xùn)練與 RL

算法層與底層算力架構(gòu)的解耦

隨著 OpenAI o1 在推理能力上的突破,業(yè)界逐漸形成共識(shí):大模型的能力突破已不再單純依賴預(yù)訓(xùn)練(Pre-training)階段的參數(shù)堆砌,后訓(xùn)練(Post-Training) 特別是強(qiáng)化學(xué)習(xí)正成為決定模型實(shí)用價(jià)值的核心戰(zhàn)場(chǎng)。以 DeepSeek?R1 為例,僅靠強(qiáng)化學(xué)習(xí)訓(xùn)練,模型在 AIME 數(shù)學(xué)推理基準(zhǔn)上的 pass@1 從 15.6% 提升至 77.9%,充分展示了 RL 在低數(shù)據(jù)量條件下即可實(shí)現(xiàn)大幅能力躍升,迅速成為后訓(xùn)練賽道的新范式。

然而,擺在算法工程師面前的問題依舊嚴(yán)峻。強(qiáng)化學(xué)習(xí)涉及到更為復(fù)雜的系統(tǒng)設(shè)計(jì),訓(xùn)練過程中存在一系列的問題,如多個(gè)模型的優(yōu)化,數(shù)據(jù)的傳遞,以及模型權(quán)重的傳遞;一系列工程化的工作,給算法的設(shè)計(jì)帶來了更多的困難,同時(shí)也對(duì)基礎(chǔ)設(shè)施提出了更高的要求。

Tinker 的出現(xiàn),就是為了解決這個(gè)問題:把繁雜訓(xùn)練變成標(biāo)準(zhǔn)易用的 API。

潞晨云把這一范式寫進(jìn)底層假設(shè),算法設(shè)計(jì)與基礎(chǔ)設(shè)施解耦—— 開發(fā)者只負(fù)責(zé)定義數(shù)據(jù)與 Loss 函數(shù),底層的異構(gòu)集群調(diào)度、并行策略優(yōu)化、容錯(cuò)運(yùn)維等應(yīng)被封裝為基礎(chǔ)設(shè)施服務(wù),對(duì)開發(fā)者實(shí)現(xiàn)全托管與無感支持

致敬創(chuàng)新,更致力于落地。潞晨云微調(diào) SDK 兼容 Tinker 接口, 消除了從 “算法靈感” 到 “模型落地” 之間的工程化壁壘,在零代碼微調(diào)與裸機(jī)全手寫之間落在最佳平衡點(diǎn),將研究精力和算力成本從集群運(yùn)維還原至算法本身,帶給開發(fā)者 “本地寫碼,云端計(jì)算的 “訓(xùn)練即服務(wù)(Training as a Service)” 流暢體驗(yàn) 。



潞晨云微調(diào) SDK 今日起全量開放,前 150 名用戶通過專屬鏈接注冊(cè),可獲得 30 元 Token 使用額度:

https://cloud.luchentech.com/account/signup?invitation_code=JQZX

顛覆性人力效能比

1 名算法工程師頂替原龐大 Infra 團(tuán)隊(duì)

潞晨云微調(diào) SDK 的核心思路可以概括為:算法工程師定義算法邏輯,潞晨云搞定 Infra 。

在傳統(tǒng)的開發(fā)中,用戶往往要花大量精力去租賃合適的算力集群、管理環(huán)境配置、調(diào)訓(xùn)練框架和集群運(yùn)維。但潞晨云將大模型訓(xùn)練拆解成了一組標(biāo)準(zhǔn)的函數(shù)原語,打通了從 SFT 到 RL 的全鏈路

  • Forward & Backward: 處理前向傳播與梯度計(jì)算
  • Optimizer Step: 執(zhí)行權(quán)重更新策略
  • Sample (Rollout): 做推理生成和評(píng)估,使用戶不僅可以完成 SFT,更能輕松構(gòu)建 PPO、GRPO、DPO 等復(fù)雜的強(qiáng)化學(xué)習(xí)(RLHF/RLAIF)訓(xùn)練流
  • Save State: 管理模型檢查點(diǎn)與狀態(tài)保存



這意味著,用戶可以在本地熟悉的 Jupyter Notebook 或 IDE 里,用最標(biāo)準(zhǔn)的 Python 語法像搭積木一樣自由組合,掌控訓(xùn)練邏輯的細(xì)節(jié)。

這種模式帶來了顛覆性的‘人力效能比’提升:它將原本需要運(yùn)維工程師、Infra 工程師、平臺(tái)工程師和算法工程師緊密配合的龐大團(tuán)隊(duì),簡(jiǎn)化為了‘一個(gè)算法工程師’的獨(dú)立閉環(huán)。

用戶不再被底層繁雜的基建拖累,不再背負(fù)多職能的枷鎖,也不再是黑盒填參的被動(dòng)執(zhí)行者,而是能夠獨(dú)立駕馭大規(guī)模訓(xùn)練流的主動(dòng)設(shè)計(jì)師。無論是監(jiān)督微調(diào)(SFT)還是更復(fù)雜的強(qiáng)化學(xué)習(xí)(RL)Pipeline,都能通過組合這些原子函數(shù)來靈活構(gòu)建。



為什么這種體驗(yàn)如此絲滑?

為了實(shí)現(xiàn)極致的流暢度,潞晨云基于現(xiàn)有的 GPU 云服務(wù)架構(gòu)實(shí)現(xiàn)了一套完整的后端系統(tǒng)。在具體實(shí)現(xiàn)中,潞晨云采用控制面與計(jì)算面分離設(shè)計(jì),通過統(tǒng)? API Server 管理跨地域的多個(gè) GPU 計(jì)算集群,實(shí)現(xiàn)多云部署能力。核心采用基于 Future 模式的異步 API,所有訓(xùn)練操作?持非阻塞調(diào)用,用戶無需等待 GPU 計(jì)算完成即可繼續(xù)執(zhí)行后續(xù)邏輯。



潞晨云微調(diào) SDK 還具備智能隊(duì)列系統(tǒng),即使在資源洪峰期,任務(wù)也會(huì)自動(dòng)進(jìn)入持久化隊(duì)列(Persistence Queue),一旦底層資源可用,毫秒級(jí)啟動(dòng),隊(duì)列等待期間 0 計(jì)費(fèi),僅對(duì)實(shí)際 prefill + sample + train 的 Token 量收費(fèi),無資源閑置,將用戶每一分錢都用在產(chǎn)生梯度的刀刃上。

模型微調(diào)的算力零售革命

從 “包機(jī)租賃” 到 “按 Token 計(jì)費(fèi)”

如果說 “易用性” 是后訓(xùn)練平臺(tái)的入場(chǎng)券,那么 “成本結(jié)構(gòu)” 則是決定誰能走得更遠(yuǎn)的護(hù)城河。

在傳統(tǒng)云主機(jī)的 “包機(jī) / 時(shí)租” 模式中,用戶一直在為 “過程” 買單 —— 無論是在加載數(shù)據(jù)、調(diào)試代碼,還是僅僅在思考 Loss 函數(shù),只要占用了顯卡,計(jì)費(fèi)表就在跳動(dòng)。這種模式下,開發(fā)過程中有一半以上的預(yù)算都浪費(fèi)在了這些沒有實(shí)際產(chǎn)出的 “垃圾時(shí)間” 里。

潞晨云為微調(diào)大模型場(chǎng)景引入了 Serverless 架構(gòu),推行 “按 Token 計(jì)費(fèi)” 的商業(yè)模式,將微調(diào)場(chǎng)景的算力服務(wù)切分到了最細(xì)的顆粒度:

  • 為價(jià)值付費(fèi): 就像使用推理 API 一樣,用戶只需為 Prefill (輸入)、Sample (推理輸出) 和 Train (訓(xùn)練) 產(chǎn)生的有效計(jì)算 Tokens 量付費(fèi)。
  • 其他環(huán)節(jié)全免費(fèi): 本地代碼調(diào)試、環(huán)境配置、數(shù)據(jù)預(yù)處理、模型 Checkpoint 保存…… 這些在傳統(tǒng)租卡模式下分秒必爭(zhēng)的環(huán)節(jié),在潞晨云全部免費(fèi)
  • 極致性價(jià)比:通常,RL 需要同時(shí)維護(hù)高吞吐的推理集群(vLLM)和訓(xùn)練集群,算力成本極高。但在潞晨云上,實(shí)測(cè)基于官方 Cookbook 的 math_rl recipe 跑通包含 Rollout 采樣、Reward 評(píng)分和 PPO 更新的完整 RL 流程(~300 steps),總算力成本僅8.61 元。這意味著,個(gè)體開發(fā)者也能低成本復(fù)現(xiàn) RLHF/RLAIF 探索。



技術(shù)落地的三個(gè)場(chǎng)景

SFT 與 RL 同時(shí) “開箱即用”

這種新模式,也將徹底改變不同領(lǐng)域開發(fā)者的工作流:

  • 科研場(chǎng)景:告別資源焦慮

學(xué)術(shù)界,時(shí)間與算力往往是最緊缺的資源。研究人員不僅要面對(duì)繁瑣的集群運(yùn)維(Slurm/Docker 配置),還要應(yīng)對(duì)昂貴的實(shí)驗(yàn)復(fù)現(xiàn)成本。潞晨云微調(diào) SDK 支持 “白盒級(jí)” 的科研探索,全面兼容 Tinker API。研究人員可以自定義 Evaluation 邏輯、通過 Forward/Backward,Sample 等原語精確控制后訓(xùn)練和強(qiáng)化學(xué)習(xí) Pipeline,而無需關(guān)心底層的分布式實(shí)現(xiàn),讓實(shí)驗(yàn)復(fù)現(xiàn)成本大幅降低。

  • 創(chuàng)業(yè)與獨(dú)立開發(fā):極速驗(yàn)證 MVP

對(duì)于初創(chuàng)團(tuán)隊(duì),“快” 是生存根本。利用潞晨云微調(diào) SDK 的 Serverless 特性,開發(fā)者無需等待資源排期。配合極低的 Token 成本,實(shí)測(cè)從 pip install 到跑通一個(gè)包含 1000 條樣本的 SFT 或 RL 微調(diào)實(shí)驗(yàn),僅需數(shù)分鐘。這種極致的邊際成本,讓創(chuàng)業(yè)者敢于在有限預(yù)算下快速迭代 Reward 模型,實(shí)現(xiàn)真正的 “低成本試錯(cuò)”。

  • 工業(yè)級(jí)落地:復(fù)雜架構(gòu)突圍

在金融、醫(yī)療等垂直領(lǐng)域的工業(yè)應(yīng)用中,已有微調(diào) API 往往難以應(yīng)對(duì)復(fù)雜的異構(gòu)架構(gòu)與 RLHF/RLAIF 需求。潞晨云微調(diào) SDK 允許工程師通過 train_step 自由定義 Loss 邏輯與強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)。開發(fā)者擁有對(duì)模型權(quán)重與訓(xùn)練細(xì)節(jié)的完整控制權(quán),實(shí)現(xiàn)端到端定制。

極簡(jiǎn)實(shí)戰(zhàn):三步上手

沒有復(fù)雜的集群配置,沒有冗長(zhǎng)的 Docker 構(gòu)建。使用潞晨云微調(diào) SDK,訓(xùn)練一個(gè)大模型就像寫普通 Python 腳本一樣簡(jiǎn)單:

1.Install & Import:

Bashpip install hpcai

2.Initialize Client: 目前已支持 Qwen3 系列 (4B-32B) ,更多模型即將上線

Pythonimport hpcai# 初始化 LoRA 訓(xùn)練客戶端,無需配置復(fù)雜的分布式參數(shù)training_client = service_client.create_lora_training_client ( base_model="Qwen/Qwen3-4B", rank=32)

3.Define Training Loop & Run: 像在本地寫 PyTorch 一樣,擁有對(duì)訓(xùn)練循環(huán)的完整控制權(quán):

Python# 訓(xùn)練循環(huán):完全可控forstepinrange(target_steps): # 前向與反向傳播 fwd_bwd = training_client.forward_backward (batch,"cross_entropy") # 優(yōu)化器步進(jìn) optim = training_client.optim_step (adam_params) # 實(shí)時(shí)獲取 Loss 進(jìn)行監(jiān)控 loss = fwd_bwd.result ().metrics.get("loss:mean")

目前,微調(diào) SDK 已覆蓋 Qwen3 系列模型(4B、8B、14B、32B),支持監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)訓(xùn)練方式,并將持續(xù)擴(kuò)展更多模型能力與細(xì)分落地場(chǎng)景,大家也可以向官?提交需求 push 更新。

平臺(tái)還準(zhǔn)備了開箱即用的 HPC-AI Cookbook,提供包括DeepSeek-R1 GRPO 算法、基于 Verifier 的數(shù)學(xué)推理、自定義 Reward 函數(shù)等復(fù)雜 RL 場(chǎng)景的完整代碼實(shí)現(xiàn)。開發(fā)者無需從零構(gòu)建復(fù)雜的 PPO/GRPO 流水線,只需復(fù)制 Cookbook 中的 “配方”,運(yùn)行輕量級(jí)本地 train.py 腳本,即可驅(qū)動(dòng)云端復(fù)雜的分布式 RL 訓(xùn)練流,在潞晨云上復(fù)現(xiàn)具備復(fù)雜邏輯推理能力的 SOTA 模型。

現(xiàn)在體驗(yàn)

后訓(xùn)練正從學(xué)術(shù)支線升級(jí)為工程主線,AI 基礎(chǔ)設(shè)施的終極形態(tài)應(yīng)該是 “零認(rèn)知負(fù)荷”—— 開發(fā)者只需描述數(shù)據(jù)與算法,其余(租卡、配環(huán)境、并行策略、運(yùn)維調(diào)度、故障自愈,乃至 RL 涉及的一系列工程化的工作)全部下沉到用戶無感。當(dāng) GPU 閑置成本趨近于 0,環(huán)境配置時(shí)間趨近于 0,長(zhǎng)序列 RLHF 也能按 Token 即時(shí)計(jì)費(fèi),應(yīng)用創(chuàng)新效率直接逼近算力上限。

潞晨云微調(diào) SDK 今日起全量開放:

  • 無需白名單,無需預(yù)約
  • 前 150 名注冊(cè)即得 30 元體驗(yàn)金(填寫專屬福利碼 JQZX)

把資源彈性交給平臺(tái),把算法自由度留給自己,每一分錢都用在產(chǎn)生梯度的刀刃上!

  • 立即體驗(yàn):https://cloud.luchentech.com/fine-tuning
  • 使用文檔:https://cloud.luchentech.com/doc/docs/finetune-sdk/

Reference

[1] Tinker SDK: https://github.com/thinking-machines-lab/tinker

[2] DeepSeek-R1: https://arxiv.org/pdf/2501.12948

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
35歲鄭爽近況曝光!相貌大變,臉部又僵又腫,住豪宅生活很安逸

35歲鄭爽近況曝光!相貌大變,臉部又僵又腫,住豪宅生活很安逸

代軍哥哥談娛樂
2026-01-09 10:29:05
李宗仁歸國(guó)之后,希望能出任人大副委員長(zhǎng)一職,毛主席卻給出了三條關(guān)鍵理由,直言此事并不合適

李宗仁歸國(guó)之后,希望能出任人大副委員長(zhǎng)一職,毛主席卻給出了三條關(guān)鍵理由,直言此事并不合適

史海孤雁
2025-12-25 16:48:16
狠!他要同時(shí)對(duì)戰(zhàn)寧德時(shí)代與比亞迪

狠!他要同時(shí)對(duì)戰(zhàn)寧德時(shí)代與比亞迪

華商韜略
2026-01-11 12:21:38
多哈冠軍賽開賽僅三天,惡心一幕發(fā)生,王勵(lì)勤一個(gè)字都沒說錯(cuò)

多哈冠軍賽開賽僅三天,惡心一幕發(fā)生,王勵(lì)勤一個(gè)字都沒說錯(cuò)

青史樓蘭
2026-01-11 09:24:59
央視又押對(duì)寶了!《小城大事》收視破3破紀(jì)錄,趙麗穎表現(xiàn)成遺憾

央視又押對(duì)寶了!《小城大事》收視破3破紀(jì)錄,趙麗穎表現(xiàn)成遺憾

古希臘掌管月桂的神
2026-01-10 23:00:01
白人女性與黑人女性的體味差異,網(wǎng)友真實(shí)分享引發(fā)熱議

白人女性與黑人女性的體味差異,網(wǎng)友真實(shí)分享引發(fā)熱議

特約前排觀眾
2025-12-22 00:20:06
泄密被小米辭退僅4個(gè)月,王騰高調(diào)官宣喜訊,沒給雷軍留一絲體面

泄密被小米辭退僅4個(gè)月,王騰高調(diào)官宣喜訊,沒給雷軍留一絲體面

格斗一點(diǎn)通
2026-01-11 05:36:15
11歲女孩竟要穿這種衣服,網(wǎng)友炸鍋了!

11歲女孩竟要穿這種衣服,網(wǎng)友炸鍋了!

特約前排觀眾
2026-01-11 00:15:04
美記:如果森林狼得到莫蘭特,愛德華茲兩年后很可能轉(zhuǎn)投火箭

美記:如果森林狼得到莫蘭特,愛德華茲兩年后很可能轉(zhuǎn)投火箭

移動(dòng)擋拆
2026-01-11 19:31:29
羅晉攜任素汐去祈福后,唐嫣連發(fā)三文表態(tài),婚變傳聞終于真相大白

羅晉攜任素汐去祈福后,唐嫣連發(fā)三文表態(tài),婚變傳聞終于真相大白

瓜汁橘長(zhǎng)Dr
2025-12-29 11:29:56
特朗普稱將不會(huì)再有石油或資金流入古巴

特朗普稱將不會(huì)再有石油或資金流入古巴

新華社
2026-01-11 21:07:06
中東國(guó)家都意識(shí)到了:就算中國(guó)高端武器再多,也沒辦法保護(hù)他們

中東國(guó)家都意識(shí)到了:就算中國(guó)高端武器再多,也沒辦法保護(hù)他們

肖茲探秘說
2026-01-01 20:16:34
瘋狂一夜!廣東30分大勝遼籃,北京爆冷慘遭兩連敗,山西潰敗上海

瘋狂一夜!廣東30分大勝遼籃,北京爆冷慘遭兩連敗,山西潰敗上海

多特體育說
2026-01-11 22:00:07
諸葛亮:我死后速拆輪椅!姜維拆開后發(fā)現(xiàn)密信,看后頓時(shí)冷汗直流

諸葛亮:我死后速拆輪椅!姜維拆開后發(fā)現(xiàn)密信,看后頓時(shí)冷汗直流

蕭竹輕語
2025-11-10 19:21:28
新恒大誕生?中國(guó)足壇新貴崛起,連買2大強(qiáng)力球星!身價(jià)暴漲5千萬

新恒大誕生?中國(guó)足壇新貴崛起,連買2大強(qiáng)力球星!身價(jià)暴漲5千萬

國(guó)足風(fēng)云
2026-01-11 11:55:21
他被判死刑,行刑前一天晚上,借口肚子疼,要上廁所,看守叫住了他:早去早回

他被判死刑,行刑前一天晚上,借口肚子疼,要上廁所,看守叫住了他:早去早回

年代回憶
2025-12-29 20:52:10
官方通報(bào)“亞運(yùn)冠軍遭索要獎(jiǎng)金”調(diào)查結(jié)果

官方通報(bào)“亞運(yùn)冠軍遭索要獎(jiǎng)金”調(diào)查結(jié)果

南方都市報(bào)
2026-01-11 10:14:28
2026年央視春晚彩排曝光后,評(píng)論區(qū)炸鍋,趙本山的擔(dān)心恐要成真了

2026年央視春晚彩排曝光后,評(píng)論區(qū)炸鍋,趙本山的擔(dān)心恐要成真了

小小李?yuàn)?/span>
2026-01-07 17:41:55
當(dāng)年在新東方任教時(shí)的董宇輝

當(dāng)年在新東方任教時(shí)的董宇輝

太急張三瘋
2026-01-10 04:10:39
蘋果iPhone 18 Pro值得你等嗎?傳聞中的10項(xiàng)升級(jí)點(diǎn)匯總!

蘋果iPhone 18 Pro值得你等嗎?傳聞中的10項(xiàng)升級(jí)點(diǎn)匯總!

科技獸
2026-01-11 22:12:39
2026-01-11 23:03:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12088文章數(shù) 142535關(guān)注度
往期回顧 全部

科技要聞

“我們與美國(guó)的差距也許還在拉大”

頭條要聞

4.5萬株草莓苗停止生長(zhǎng) 果農(nóng)急求助1小時(shí)后獲專家回應(yīng)

頭條要聞

4.5萬株草莓苗停止生長(zhǎng) 果農(nóng)急求助1小時(shí)后獲專家回應(yīng)

體育要聞

U23國(guó)足形勢(shì):末輪不負(fù)泰國(guó)即確保晉級(jí)

娛樂要聞

留幾手為閆學(xué)晶叫屈?稱網(wǎng)友自卑敏感

財(cái)經(jīng)要聞

外賣平臺(tái)"燒錢搶存量市場(chǎng)"迎來終局?

汽車要聞

2026款宋Pro DM-i長(zhǎng)續(xù)航補(bǔ)貼后9.98萬起

態(tài)度原創(chuàng)

旅游
家居
親子
房產(chǎn)
軍事航空

旅游要聞

被央視點(diǎn)贊!356 萬人打卡的冰雪童話,才是文旅界的 “天花板”

家居要聞

木色留白 演繹現(xiàn)代自由

親子要聞

晨時(shí)評(píng) | 新生兒疑被助產(chǎn)士剪斷手指,別用孩子亂動(dòng)推卸責(zé)任

房產(chǎn)要聞

66萬方!4755套!三亞巨量房源正瘋狂砸出!

軍事要聞

俄大使:馬杜羅夫婦被控制時(shí)身邊沒人

無障礙瀏覽 進(jìn)入關(guān)懷版