国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

當AI吞噬軟件,數(shù)據(jù)正在成為企業(yè)唯一的護城河

0
分享至


作者 | 關(guān)濤、蘇郡城

審校 | 李文朋

編者按:近日編者獲悉,國內(nèi)領(lǐng)先的數(shù)據(jù)平臺公司“云器科技”完成 B 輪融資,其聚焦在亞洲市場,產(chǎn)品戰(zhàn)略對標 Databricks。隨 AI 持續(xù)火熱,全球數(shù)據(jù)基礎(chǔ)設(shè)施市場也正經(jīng)歷一場范式轉(zhuǎn)移。本文將對比國內(nèi)外數(shù)據(jù)領(lǐng)域技術(shù)發(fā)展,深度拆解 AI 時代數(shù)據(jù)平臺必須要完成的進化之路。

當大模型成為通用商品,資金正瘋狂涌向唯一的非標資產(chǎn)——數(shù)據(jù)

2026 年初,全球科技界正經(jīng)歷一場前所未有的范式轉(zhuǎn)移。AI 三要素(算法、算力、數(shù)據(jù))中,算法與算力正在快速商品化。算法層面,大模型加速標準化,逐步成為通用的“超級大腦”;算力層面,AI 數(shù)據(jù)中心的規(guī)?;ㄔO(shè)使算力供給日益充足。二者獲取門檻大幅降低,但也日趨同質(zhì)。

全球具備基礎(chǔ)模型研發(fā)能力的企業(yè)不超過 10 家,AI 芯片廠商更是屈指可數(shù)。對絕大多數(shù)企業(yè)而言,其私有高質(zhì)量數(shù)據(jù)正在成為企業(yè)競爭力唯一的護城河。

資本市場已率先捕捉到這一趨勢,AI 數(shù)據(jù)基礎(chǔ)設(shè)施成為投資熱點。一個標志性事件是,在一級市場中,Databricks 估值約增長 2.7 倍;ClickHouse 估值約增長 3 倍。

資本市場對 Databricks 和類似技術(shù)棧的追捧,本質(zhì)上是對 “Data + AI” 這一輪新增長飛輪的押注,數(shù)據(jù)作為核心生產(chǎn)要素的地位已無可撼動。但現(xiàn)實是,大多數(shù)企業(yè)的數(shù)據(jù)體系沒準備好迎接 AI,沒有做到基礎(chǔ)設(shè)施的 AI 就緒(AI-Ready)。

過去二十年,企業(yè)建設(shè)了數(shù)據(jù)中臺、數(shù)倉和治理體系,但在 AI 真正落地時發(fā)現(xiàn),許多數(shù)據(jù)資產(chǎn) “用不上”。根本原因在于,傳統(tǒng)數(shù)據(jù)平臺是為 SQL 設(shè)計的,擅長處理 Filter(過濾)、Aggregation(聚合)、Join(連接)等確定性計算,數(shù)據(jù)必須結(jié)構(gòu)化。

但企業(yè) 80% 以上的數(shù)據(jù)是文檔、音視頻、聊天記錄、會議紀要等 “非結(jié)構(gòu)化數(shù)據(jù)”。這些數(shù)據(jù)長期躺在各個系統(tǒng)中,被稱為 “暗數(shù)據(jù)”(Dark Data)。

更關(guān)鍵的是訪問模式的改變。人類分析師習(xí)慣于看日報、周報,容忍 T+1 的數(shù)據(jù)延遲,且查詢模式多為 “全量掃描” 后的聚合指標。

而 Agent 的訪問模式完全不同:它們可能在秒級發(fā)起成千上萬次查詢,要求毫秒級的響應(yīng),且查詢方式多為基于語義的 “精準檢索”(Vector Search)。

這種高頻、低延遲、基于語義的機器交互需求,徹底擊穿了傳統(tǒng) Lambda 架構(gòu)的性能與成本底線。如果沿用老架構(gòu),每一次 Agent 的思考都可能觸發(fā)昂貴的全表掃描,導(dǎo)致算力成本指數(shù)級上升。

1 當前數(shù)據(jù)基建支持 AI 就緒的兩個結(jié)構(gòu)性障礙

企業(yè)這些年在數(shù)據(jù)建設(shè)上投入不少,數(shù)據(jù)中臺、數(shù)倉、治理體系都搭了,但許多數(shù)據(jù)資產(chǎn)“缺失”“用不上”“用不好”的問題,主要出在兩個地方。

架構(gòu)的熵增: Lambda 架構(gòu)的“一致性難題”是通向 AI 實時決策的巨額債務(wù),且注定無法解決。

過去十年,為了同時支持實時和離線,行業(yè)普遍采用 Lambda 架構(gòu):批處理一套,流處理一套。這一選擇由彼時的業(yè)務(wù)需求與技術(shù)條件共同決定。

Lambda 架構(gòu)的數(shù)據(jù)平臺受到“數(shù)據(jù)不可能三角”限制——你無法同時獲得數(shù)據(jù)的實時性、低成本和高查詢性能;只能三者取其二。通常,批處理面向成本和復(fù)雜查詢優(yōu)化,流處理面向解決實時性優(yōu)化,兩套系統(tǒng)各司其職。


(圖:典型的 Lambda 架構(gòu))

痼疾也很明顯,如兩套系統(tǒng)的數(shù)據(jù)很難對齊。同一個指標,批處理通過復(fù)雜的 ETL 處理和計算形成的指標,與流計算不一定對得上。

所以說 Lambda 架構(gòu)下的“數(shù)據(jù)一致性”基本是美好愿望,需要巨大的運維成本,潛在制約了數(shù)據(jù)業(yè)務(wù)整合和發(fā)展。另外還有維護成本高,運維復(fù)雜等問題。

BI 時代這個問題勉強能忍,但 AI 時代忍不了了。

傳統(tǒng)數(shù)據(jù)庫掃描一張結(jié)構(gòu)化數(shù)據(jù)表,成本可能幾分錢;同樣的數(shù)據(jù)如果送給大模型做推理,成本可能幾百塊,差距在 10 萬倍量級。

且 Agent 要求新數(shù)據(jù)盡快就緒可召回,因此 AI 時代要求引擎同時滿足數(shù)據(jù)不可能三角的三個頂點(新鮮度、低成本、Readiness)。這意味著“有問題就全量重跑”的兜底方案徹底失效——你必須精確知道哪些數(shù)據(jù)變了,只處理增量。

但 Lambda 架構(gòu)的數(shù)據(jù)平臺,天然做不到這一點。因為基于多套系統(tǒng)、多套邏輯、多套數(shù)據(jù)血緣。

范式不適配:AI 的原料與計算模式均與傳統(tǒng)數(shù)據(jù)平臺迥異

AI 需要的原料是文檔、音視頻等“非結(jié)構(gòu)化數(shù)據(jù)”,這些占了企業(yè)數(shù)據(jù)的 80% 以上,且包含大量有價值 Context 信息,我們稱他們?yōu)椤鞍禂?shù)據(jù)”。

真正的業(yè)務(wù) know-how——客戶是怎么想的、項目是怎么推進的、決策是怎么做出的——大部分都藏在一個模糊的非結(jié)構(gòu)化數(shù)據(jù)為核心編織的數(shù)據(jù)網(wǎng)絡(luò)里。

過去,這些數(shù)據(jù)的價值只能靠數(shù)據(jù)科學(xué)家人工去挖掘?,F(xiàn)在,AI 第一次提供了規(guī)?;幚磉@些數(shù)據(jù)的可能性。

但現(xiàn)在的數(shù)據(jù)庫 / 數(shù)倉 / 數(shù)據(jù)平臺是為結(jié)構(gòu)化數(shù)據(jù)和關(guān)系模型設(shè)計的。卻不擅長處理文檔、音視頻。這是處理非結(jié)構(gòu)化數(shù)據(jù)(AI 的主要原料)時的范式缺失。

這些缺失是結(jié)構(gòu)性和根本性的,是從底層的處理硬件開始(GPU vs CPU)、到存儲系統(tǒng)、存儲格式、數(shù)據(jù)管理、元數(shù)據(jù)系統(tǒng)到引擎算子的全技術(shù)棧缺失。

2 AI 引入的三大范式變化

要打造 AI 時代的數(shù)據(jù)護城河,必須對底層架構(gòu)進行徹底的范式重構(gòu),這集中體現(xiàn)在計算能力、數(shù)據(jù)形態(tài)與訪問模式的三個維度。

高階計算能力:從 關(guān)系代數(shù) 到 AI 模型

過去,數(shù)據(jù)庫和數(shù)據(jù)平臺只有一種引擎:結(jié)構(gòu)化分析引擎,基于關(guān)系代數(shù),符號化、確定性、低語境依賴。你給它一條 SQL,它返回一個確定的結(jié)果,分毫不差。

但 AI 引擎的特性完全不同:基于概率模型,模糊匹配、概率推斷、高語境依賴。同一個問題問兩遍可能得到不同答案。

但正因如此,它能做傳統(tǒng)引擎做不到的事——理解、抽取、總結(jié)、推理、生成。


例如,在經(jīng)典的 DIKW(數(shù)據(jù) - 信息 - 知識 - 智慧)金字塔中,傳統(tǒng)結(jié)構(gòu)化引擎的能力邊界在 Information 層——它能把數(shù)據(jù)加工成報表和指標,但無法告訴你這些指標“意味著什么”。AI 引擎能深入到 Knowledge 層級,實現(xiàn)真正的語義理解和推理。

換個角度:如果把傳統(tǒng)引擎類比為大腦頂葉(負責(zé)數(shù)學(xué)計算),AI 引擎則對應(yīng)前額葉皮層(負責(zé)高階認知、規(guī)劃、決策)。兩者的關(guān)系是互補而非替代——二維關(guān)系計算交給傳統(tǒng)引擎,總結(jié)、歸納及推等認知計算交給 AI 引擎。


暗數(shù)據(jù)的解鎖:Lakehouse 下的多模態(tài)表達

?期以來,企業(yè)數(shù)據(jù)資產(chǎn)中超過 80% 都是?結(jié)構(gòu)化或半結(jié)構(gòu)化的 “暗數(shù)據(jù)?(Dark Data),如客?服務(wù)的錄?、合同 PDF ?檔、監(jiān)控視頻等。在傳統(tǒng)數(shù)倉架構(gòu)下,這些數(shù)據(jù)往往被丟棄或僅作為冷備份存儲,?法參與核?業(yè)務(wù)計算。


Lakehouse(湖倉一體)架構(gòu)的普及為這些數(shù)據(jù)的存儲提供了低成本方案,但通過 AI 對其進行深度解析才是關(guān)鍵。

通過 AI 的多模態(tài)處理能力,能夠自動解析、向量化并索引這些非結(jié)構(gòu)化數(shù)據(jù),將其轉(zhuǎn)化為機器可理解的格式。這意味著企業(yè)可以首次全景式地利用其擁有的所有信息資源,而非僅僅通過那 20% 的結(jié)構(gòu)化表格來決策。

訪問模式轉(zhuǎn)變:從 Scan 到 Search

AI 引擎有一個獨特特性:上下文窗口極?。?00 萬 Token 約等于 4MB),但處理成本極高。1TB 數(shù)據(jù),AI 引擎推理需要 25 萬個窗口,總成本高達百萬美元,同樣的數(shù)據(jù)量大數(shù)據(jù)引擎處理成本在 5 美元以下。

這帶來訪問模式的根本轉(zhuǎn)變:從“全量掃描”轉(zhuǎn)向“精準檢索”。例如計算 “過去一年的總銷售額”。這需要掃描大量行數(shù)據(jù)。然而,AI Agent 的典型訪問模式完全不同:它們更多地進行 “精準檢索”(Point Lookup)或 “語義搜索”(Vector Search),例如 “找到與該投訴最相似的歷史案例”。

這種從 Scan 到 Search 的轉(zhuǎn)變,對底層存儲引擎的索引結(jié)構(gòu)、緩存策略和并發(fā)能力提出了全新的要求。RAG(檢索增強生成)技術(shù)的興起,本質(zhì)上就是為了解決這一問題。

但 RAG 僅僅是檢索環(huán)節(jié),更重要的是如何構(gòu)建一個高效、實時、低成本的 AI 處理平臺,將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為 AI 就緒(AI-Ready)的知識并存儲在 RAG 中。

3 未來架構(gòu)藍圖:AI 原生數(shù)據(jù)平臺的五個設(shè)計原則

基于上述變革,構(gòu)建新一代數(shù)據(jù)護城河需要遵循五個核心原則,這些原則構(gòu)成了 AI 原生數(shù)據(jù)平臺的藍圖。Databricks、Snowflake 以及國內(nèi)云器科技等廠商,都在沿著這個方向演進。

核心設(shè)計原則概覽

  • 原則一Lakehouse 統(tǒng)一存儲。 一份數(shù)據(jù),多種視圖(Table/Vector/Graph),打破結(jié)構(gòu)化與非結(jié)構(gòu)化的邊界。

  • 原則二AI 作為原生計算引擎。 AI 能力內(nèi)嵌至 SQL,支持 AI ETL 與 GPU 統(tǒng)一調(diào)度。

  • 原則三增量計算結(jié)合的獎牌架構(gòu)。 拋棄 Lambda 架構(gòu),采用全鏈路增量(GIC)構(gòu)建獎牌架構(gòu)。

  • 原則四Agent 友好 的開發(fā)范式。 API First,自然語言交互,建立 “執(zhí)行 - 反饋” 閉環(huán)。

  • 原則五企業(yè)級能力。 細粒度權(quán)限治理,Serverless 彈性伸縮,滿足審計與合規(guī)需求。

原則一:Lakehouse 統(tǒng)一存儲

Lakehouse 的核心是用一套系統(tǒng)同時支持低成本存儲和高效查詢。但對 AI 原生平臺來說,更關(guān)鍵的是它原生支持多種數(shù)據(jù)表達形態(tài)。同一份數(shù)據(jù)可以有多種表達,不同表達帶來不同的能力邊界。


以一段客戶反饋為例,同樣的信息可以有不同的存儲方式,假如:

  • 存成原始文本:信息最完整,但檢索效率低

  • 抽取成結(jié)構(gòu)化字段(情感傾向、產(chǎn)品類別、問題類型):查詢快、可聚合,但丟失了細節(jié)

  • 轉(zhuǎn)成向量:支持語義檢索,能找到“意思相近”的內(nèi)容

  • 構(gòu)建圖關(guān)系:能表達客戶、產(chǎn)品、問題之間的關(guān)聯(lián)網(wǎng)絡(luò)

不同形態(tài)有不同權(quán)衡。越靠近結(jié)構(gòu)化,準確率越高、可解釋性越強、處理成本越低;越靠近原始態(tài),信息越豐富、靈活性越高,但成本也越高。

一個洞察是,AI 的數(shù)據(jù)不應(yīng)該獨立建一套平臺。它應(yīng)該和結(jié)構(gòu)化數(shù)據(jù)融合在一起,因為 AI 處理流程中有大量結(jié)構(gòu)化計算的需求。把兩者割裂開,反而會制造新的數(shù)據(jù)孤島。

舉個例子:你問 AI “Meta 2021 年的營收是多少”,如果只有原始文本,AI 可能猜錯單位(是百萬還是十億?美元還是其他貨幣?)。但如果結(jié)構(gòu)化數(shù)據(jù)和語義層(Semantic Layer)結(jié)合,標注清楚 revenue 列的單位和口徑,回答就會精確得多。

這就是為什么 Lakehouse 架構(gòu)強調(diào)統(tǒng)一——不是簡單地把數(shù)據(jù)堆在一起,而是讓不同形態(tài)的數(shù)據(jù)能夠協(xié)同工作。

原則二:內(nèi)生 AI 計算

AI 能力必須內(nèi)嵌到數(shù)據(jù)平臺,成為 SQL 的一部分,而非通過 API 外掛。

海外頭部廠商已經(jīng)在這樣做。Snowflake 和 Databricks 都在 SQL 里加入了一系列 AI 算子,形成了相對完整的能力圖譜:

  • AI_COMPLETE:文本補全和生成,比如根據(jù)上下文自動填充缺失字段

  • AI_EXTRACT:從非結(jié)構(gòu)化文本中抽取結(jié)構(gòu)化信息,比如從合同里提取關(guān)鍵條款

  • AI_FILTER:語義級別的過濾,比如篩選"與某主題相關(guān)"的內(nèi)容

  • AI_AGGREGATE:對文本內(nèi)容做聚合摘要,比如把 100 條客戶反饋總結(jié)成 3 個要點

  • AI_CLASSIFY:分類打標,比如判斷一段文本的情感傾向或主題類別

這些算子對應(yīng)的底層能力,其實就是大模型的理解、抽取、生成、總結(jié)、推理。但封裝成 SQL 算子之后,AI 模型與數(shù)據(jù)結(jié)果的結(jié)合表達能力獲得大幅提升,不需要搭 LangChain,不需要懂 Prompt Engineering,一條 SQL 搞定。


(圖:AI 能力與 SQL 算子的融合,Snowflake Cortex AI)

舉個具體場景:金融分析師每天面對上萬條新聞,傳統(tǒng)做法要么人工篩選,要么寫復(fù)雜的關(guān)鍵詞規(guī)則(然后漏掉大量相關(guān)信息)?,F(xiàn)在可以直接寫:

WHERE AI_FILTER(content, '與我關(guān)注的公司直接相關(guān)的新聞')

如果需要更精細的處理,還可以組合多個算子:

WHERE AI_FILTER(content, '與科技行業(yè)相關(guān)的重大事件')

這才是真正的多模態(tài)計算——AI 和 SQL 在同一個執(zhí)行引擎里協(xié)同工作,而非簡單的多模態(tài)召回。是在統(tǒng)一的數(shù)據(jù) governance 的環(huán)境中做權(quán)限管理的 AI 數(shù)據(jù)處理,符合隱私合規(guī);而且算子可組合,復(fù)雜邏輯也能表達。

原則三:大獎牌架構(gòu)與增量計算 - “只計算變化的部分”

傳統(tǒng) Lambda 架構(gòu)維護實時和離線兩套代碼,導(dǎo)致邏輯冗余且指標經(jīng)常無法對齊。Databricks 和微軟 2024 年提出的 Medallion Architecture(大獎牌架構(gòu))已成為 AI+Data 數(shù)據(jù)處理的標準模型。(Reference:Databricks:What is a medallion architecture? Medallion Architecture 101: Building Data Pipelines That Don't Fall Apart)

這個架構(gòu)的核心思想是把數(shù)據(jù)處理分成三層,像煉礦一樣逐級提純:

Bronze 層(銅):存原始數(shù)據(jù),越原始越好,不做任何加工。就像礦石——今天你煉鐵,明天可能發(fā)現(xiàn)里面還有金子。原始數(shù)據(jù)不能丟,因為你不知道未來會需要什么。

Silver 層(銀):做清洗、抽取、結(jié)構(gòu)化。把非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)成可查詢的格式,把臟數(shù)據(jù)清理掉,統(tǒng)一 schema。這一層是數(shù)據(jù)質(zhì)量的關(guān)鍵戰(zhàn)場。

Gold 層(金):生成最終產(chǎn)出——報表、特征、指標,直接供業(yè)務(wù)和模型使用。

并且,這個架構(gòu)同時適用于結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。


圖:獎牌架構(gòu)數(shù)據(jù)處理流程:結(jié)構(gòu)化數(shù)據(jù)(上圖);非結(jié)構(gòu)化數(shù)據(jù)(下圖)

獎牌架構(gòu)是一套建模方法,它最終能跑起來,有一個前提:增量計算能力。

獎牌架構(gòu)有四個核心原則:靈活性(Flexibility)、數(shù)據(jù)質(zhì)量管理(Data Quality Management)、成本效率(Cost Efficiency)、以及最關(guān)鍵的——增量 ETL(Incremental ETL)。

前三個相對直觀,第四個是難點和核心。為什么?因為 AI 推理成本極高,“全量重跑”模式根本不可行。每次數(shù)據(jù)更新都從頭算一遍,成本和延遲都無法接受。

獎牌架構(gòu)本質(zhì)上是一個 Kappa 架構(gòu)——端到端的統(tǒng)一增量數(shù)據(jù)處理流程,不再區(qū)分流 / 批等傳統(tǒng)計算模型。但這個架構(gòu)能跑起來的前提是:必須有真正的增量計算能力。

AI 推理成本決定了“全量重跑”不可行。通用增量計算(GIC)的核心思想是:


(圖:增量計算原理)

只處理變化的部分,不重復(fù)計算已經(jīng)算過的東西。這個方式并不像說的那樣容易,需要從底層重新設(shè)計計算引擎:精確追蹤數(shù)據(jù)的每一個變化,理解變化對下游計算的影響,只對需要更新的部分做增量處理。這涉及到存儲格式、索引結(jié)構(gòu)、執(zhí)行計劃、狀態(tài)管理的全面重構(gòu)。

理想的增量計算引擎能用一套系統(tǒng) Single-Engine 同時支持實時和離線,同一套代碼、同一份數(shù)據(jù)、同一個執(zhí)行引擎。(增量計算白皮書 -- 請參看附錄)

原則四:Agent 友好的開發(fā)范式

當軟件使用者從人變成 Agent,開發(fā)平臺的設(shè)計范式也必須改變。

過去的數(shù)據(jù)開發(fā)平臺,核心交互是 GUI:拖拉拽建模、點選配置、根據(jù)監(jiān)控調(diào)整。這對人很友好,但 Agent 并不需要點按鈕。

面向 Agent 的設(shè)計需要幾個根本轉(zhuǎn)變:

  • API First 而非 UI First。 Agent 通過接口與系統(tǒng)交互,所有能力都必須 API 化。GUI 變成可選的觀測層,而非核心交互層。

  • 自然語言作為主要接口。 Agent 用“交流”的方式檢索和操作數(shù)據(jù)。NL2SQL 不再是錦上添花的功能,而是核心能力。Agent 可以在一次查詢里融合文本、向量、圖關(guān)系的檢索結(jié)果,實現(xiàn)真正的多模態(tài)查詢。

  • 反饋鏈路不可或缺。 AI 是概率模型,有時對有時錯。傳統(tǒng)軟件是確定性的——代碼寫對了就永遠對。但 AI 系統(tǒng)需要持續(xù)校正,需要建立“執(zhí)行→反饋→調(diào)整”的閉環(huán)機制,像機器學(xué)習(xí)訓(xùn)練一樣不斷迭代。

  • 自解釋的語義層。 Agent 需要理解數(shù)據(jù)的業(yè)務(wù)含義,而非只知道表名和字段名。這要求數(shù)據(jù)平臺具備豐富的元數(shù)據(jù)和語義描述,讓 Agent 能夠自主理解"revenue 列的單位是什么""這兩個表之間是什么業(yè)務(wù)關(guān)系"。

但有一點需要清醒認識:短期內(nèi)人不會完全退出,而且人與 Agent 的交互也同樣關(guān)鍵。

AI 寫的代碼、做的決策仍需人來檢查與審批。不管 AI 多強,"因為是 AI 寫的所以 bug 不算數(shù)"這種邏輯并不成立。人的角色從"開發(fā)者"變成"Reviewer+Observer"——審批關(guān)鍵決策,監(jiān)控系統(tǒng)運行。

未來的數(shù)據(jù)平臺會是混合模式:Agent 負責(zé)主要的開發(fā)和執(zhí)行,人作為審批者和監(jiān)控者。平臺需要同時支持兩種交互范式。

原則五:企業(yè)級治理能力

AI 原生時代,開源自建的 ROI 邏輯在改變。

Agent 大規(guī)模調(diào)用企業(yè)數(shù)據(jù)時,細粒度訪問控制變得極其重要——財務(wù)報表、員工工資、客戶隱私管理、嚴格的權(quán)限隔離、數(shù)據(jù)防泄露等企業(yè)級數(shù)據(jù)管理與治理能力。此外,AI 的決策需要可追溯、可審計,在金融、醫(yī)療等強監(jiān)管行業(yè)尤其關(guān)鍵。

這些能力開源軟件天然缺失,商業(yè)級托管平臺天然具備。這也是為什么 Databricks/Snowflake 這一類商業(yè)平臺受到包括 OpenAI 在內(nèi)的新一代企業(yè)青睞的原因。

路徑選擇:全球共識與中國式解法

上述五個原則由云器科技總結(jié)提出,事實上全球頭部廠商都在沿著這個方向演進,只是路徑選擇各有不同。

Databricks是這套范式的最佳踐行者。從 Spark 起家,到推出 Delta Lake 實現(xiàn)湖倉一體,再到 2024 年系統(tǒng)性提出 Medallion Architecture,它一直在引領(lǐng) Data+AI 融合的技術(shù)方向。商業(yè)上,Databricks 堅持云中立 + 托管化,不綁定任何一家云廠商,這讓它能夠服務(wù)于多云和混合云場景的企業(yè)客戶。

Snowflake也是數(shù)據(jù)領(lǐng)域的先行者之一。它的底子是云原生數(shù)倉,強項在結(jié)構(gòu)化數(shù)據(jù)的極致性能。面對 AI 浪潮,Snowflake 選擇通過收購和集成來補齊能力——Document AI 處理非結(jié)構(gòu)化數(shù)據(jù),Cortex 提供 AI 服務(wù),Snowpark 支持 Python 生態(tài)。路徑不同,但方向一致。

值得注意的是,這兩家公司都沒有選擇自研基礎(chǔ)模型,而是專注于數(shù)據(jù)的價值挖掘。

中國市場有其特殊性。

一方面,國內(nèi)云廠商的技術(shù)棧與海外存在較大差異;另一方面,企業(yè)對數(shù)據(jù)主權(quán)和合規(guī)性有更高要求。直接照搬海外方案并不現(xiàn)實,這給了本土廠商機會。云器科技 是目前國內(nèi)最接近 Databricks 定位的公司。技術(shù)上,它基于 Lakehouse + GIC 實現(xiàn)了批流一體的架構(gòu)重構(gòu);商業(yè)上,同樣堅持云中立與全托管路線。

目前,云器科技的這一架構(gòu)已在螞蟻集團、小紅書、快手等頭部互聯(lián)網(wǎng)公司的生產(chǎn)環(huán)境中得到了驗證。這些場景往往具有極高的數(shù)據(jù)吞吐量和復(fù)雜的業(yè)務(wù)邏輯,能在這些苛刻環(huán)境中穩(wěn)定運行,證明了該技術(shù)路徑的成熟度與可替代性。


(表:Databricks 與云器科技產(chǎn)品對比)

編者按: 據(jù)悉,近期云器科技已完成 B 輪融資。資金將主要用于新一代 AI 數(shù)據(jù)基礎(chǔ)平臺的持續(xù)研發(fā),進一步推動 AI 原生數(shù)據(jù)架構(gòu)在本土市場的落地與普及。當前形勢下,作為國內(nèi)最接近 Databricks 定位的公司,云器的融資進展也反映出資本對亞太 Data+AI 基礎(chǔ)設(shè)施賽道的持續(xù)看好。

4 終局:構(gòu)建智能時代的數(shù)據(jù)壁壘

從最宏觀的視角看,數(shù)據(jù)平臺的定位在 AI 時代正在發(fā)生根本變化。

關(guān)鍵事實:

  • 用戶主體變遷: 軟件的主要使用者正在從人類(Human)加速轉(zhuǎn)向智能體(Agent),要求數(shù)據(jù)接口具備更高頻、低延遲的機器交互能力。

  • 架構(gòu)痛點解決: 傳統(tǒng) Lambda 架構(gòu)在即時性與準確性上難以兼得,且維護成本高昂;云器科技通過統(tǒng)一的流批一體與增量計算技術(shù),徹底解決了數(shù)據(jù)一致性難題。

  • 暗數(shù)據(jù)價值釋放: 針對企業(yè)內(nèi)部大量存在的非結(jié)構(gòu)化 “暗數(shù)據(jù)”(文檔、日志、多媒體),平臺提供了原生的存儲與計算支持,使其成為可被 AI 利用的高價值資產(chǎn)。

  • 計算模式革新: 從傳統(tǒng)的全量掃描(Scanning)模式轉(zhuǎn)向更高效的搜索(Searching)模式,大幅提升了 RAG(檢索增強生成)場景下的響應(yīng)速度。

  • 技術(shù)路徑融合: 采用 Lakehouse 架構(gòu)作為數(shù)據(jù)底座,結(jié)合獨創(chuàng)的 GIC(增量計算)技術(shù),實現(xiàn)了存儲成本與計算效率的最優(yōu)平衡。

  • 中國生態(tài)定位: 針對中國企業(yè)復(fù)雜的 IT 環(huán)境,云器科技提供云中立且具備完全托管能力的解決方案,填補了國內(nèi)市場在高端 AI 數(shù)據(jù)基礎(chǔ)設(shè)施上的空白

過去它是“被動響應(yīng)的資產(chǎn)庫”——業(yè)務(wù)系統(tǒng)產(chǎn)生數(shù)據(jù),數(shù)據(jù)平臺存起來,有人查就返回結(jié)果。未來它將成為“主動參與決策的智能實體”的底座,是企業(yè) AI 的“記憶與知識庫”。

可以想象這樣的場景:Agent 群在上面運行、學(xué)習(xí)、協(xié)作,數(shù)據(jù)平臺在下面收集、計算、優(yōu)化數(shù)據(jù)。與上層 Agent 形成互動。AI 消費數(shù)據(jù)、理解數(shù)據(jù)、改寫數(shù)據(jù),數(shù)據(jù)再反過來塑造 AI 的行為與能力。

這個循環(huán)迭代越快,系統(tǒng)的智能水平就越高。

更宏觀地看,AI+Data 正在形成新的技術(shù)范式。未來的超級智能不會是孤立的模型,而是持續(xù)運轉(zhuǎn)的系統(tǒng)——是數(shù)據(jù) + 算力 + 模型的融合;它既使用知識,也創(chuàng)造知識。數(shù)據(jù)不再是被動存放的資源,而是不斷加工、更新、進化的運行態(tài)。

承載這個循環(huán)的核心基礎(chǔ)設(shè)施,必然是 AI 原生的數(shù)據(jù)平臺。誰能更快完成從傳統(tǒng)架構(gòu)到 AI 原生的遷移,誰就更有機會在下一輪基礎(chǔ)設(shè)施競爭中占據(jù)位置。

Reference

AI SQL Query Language:https://www.snowflake.com/en/blog/ai-sql-query-language/

獎牌模型 Medallion Architecture: https://www.databricks.com/glossary/medallion-architecture

Medallion Architecture 101: Building Data Pipelines That Don't Fall Apart: https://dev.to/aawiegel/medallion-architecture-101-building-data-pipelines-that-dont-fall-apart-1gil

增量計算白皮書:https://www.yunqi.tech/resource/incremental-computation/reservation

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
伊朗強援已到!以色列集結(jié)十萬大軍,關(guān)鍵時刻,普京對中國做承諾

伊朗強援已到!以色列集結(jié)十萬大軍,關(guān)鍵時刻,普京對中國做承諾

凡知
2026-03-02 15:18:28
一家4口爬山祈福,33歲妻子墜亡,死者父親稱已完成尸檢,丈夫最新回應(yīng)質(zhì)疑:帶兒女山頂屋內(nèi)休息,20分鐘后人就不見了

一家4口爬山祈福,33歲妻子墜亡,死者父親稱已完成尸檢,丈夫最新回應(yīng)質(zhì)疑:帶兒女山頂屋內(nèi)休息,20分鐘后人就不見了

都市快報橙柿互動
2026-03-02 11:43:55
父親之謎!谷愛凌出生證明生父一欄空白 最新傳聞曝光:長得真像

父親之謎!谷愛凌出生證明生父一欄空白 最新傳聞曝光:長得真像

念洲
2026-03-01 21:29:29
CCTV5播中國女籃VS巴西,比賽時間確定,韓旭回歸,宮魯鳴做減法

CCTV5播中國女籃VS巴西,比賽時間確定,韓旭回歸,宮魯鳴做減法

體育大學(xué)僧
2026-03-03 10:03:09
張家界“愛國賊事件”:傻X式愛國,是個巨大禍害

張家界“愛國賊事件”:傻X式愛國,是個巨大禍害

麥大人
2025-10-13 15:29:56
電影院抓小三后續(xù)!為求刺激上演燈下黑?孩子也不是丈夫親生的

電影院抓小三后續(xù)!為求刺激上演燈下黑?孩子也不是丈夫親生的

社會醬
2026-03-01 20:43:29
若中美開戰(zhàn),美摧毀北斗衛(wèi)星,中國將如何應(yīng)對?4大殺手锏已就位

若中美開戰(zhàn),美摧毀北斗衛(wèi)星,中國將如何應(yīng)對?4大殺手锏已就位

春風(fēng)秋雨
2025-10-29 19:55:04
48小時送走哈梅內(nèi)伊:令人恐怖的技術(shù)代差,現(xiàn)代戰(zhàn)爭的形態(tài)變了

48小時送走哈梅內(nèi)伊:令人恐怖的技術(shù)代差,現(xiàn)代戰(zhàn)爭的形態(tài)變了

黑企鵝觀察
2026-03-01 14:40:34
伊朗4枚彈道導(dǎo)彈“突襲”美軍航母,卻變成一場“昂貴的煙花秀”

伊朗4枚彈道導(dǎo)彈“突襲”美軍航母,卻變成一場“昂貴的煙花秀”

矚望云霄
2026-03-02 10:49:12
歸化誰最適合男籃?布朗要價高+時間緊 郭士強召回此人才有大用

歸化誰最適合男籃?布朗要價高+時間緊 郭士強召回此人才有大用

大嘴爵爺侃球
2026-03-03 09:46:52
華國鋒擔任中央主席時,中央先后任命了15位開國將帥輔佐他

華國鋒擔任中央主席時,中央先后任命了15位開國將帥輔佐他

雍親王府
2026-03-02 15:55:03
美官員:對伊朗的最新打擊規(guī)模將遠超去年6月

美官員:對伊朗的最新打擊規(guī)模將遠超去年6月

參考消息
2026-02-28 17:39:04
不可錯過!3月3日中午12:00比賽!中央5套CCTV5、CCTV5+直播表

不可錯過!3月3日中午12:00比賽!中央5套CCTV5、CCTV5+直播表

皮皮觀天下
2026-03-03 10:48:02
美官員稱未來24小時內(nèi)對伊打擊將“顯著升級”,特朗普:大的行動很快就會到來,目前進度比計劃提前

美官員稱未來24小時內(nèi)對伊打擊將“顯著升級”,特朗普:大的行動很快就會到來,目前進度比計劃提前

臺州交通廣播
2026-03-03 10:42:40
伊朗拒絕全部條件

伊朗拒絕全部條件

鋒火故事會
2026-02-27 18:25:26
打人夫妻“社會性死亡”!村民曝更多黑幕,不止群毆女孩這么簡單

打人夫妻“社會性死亡”!村民曝更多黑幕,不止群毆女孩這么簡單

夢錄的西方史話
2026-03-02 16:27:56
美軍再度動用B-2轟炸伊朗,加固導(dǎo)彈基地是首批目標

美軍再度動用B-2轟炸伊朗,加固導(dǎo)彈基地是首批目標

中國青年報
2026-03-02 11:33:08
沙特王儲突然站隊,中國三年前留下的后手,關(guān)鍵時刻拉了伊朗一把

沙特王儲突然站隊,中國三年前留下的后手,關(guān)鍵時刻拉了伊朗一把

肖茲探秘說
2026-01-28 18:29:02
豆瓣9.4分!三月這部直擊女性痛點的佳作最不該錯過

豆瓣9.4分!三月這部直擊女性痛點的佳作最不該錯過

桃桃淘電影
2026-03-02 10:00:15
在小縣城名聲很臭是啥體驗?網(wǎng)友:臉皮夠厚,一切不成問題

在小縣城名聲很臭是啥體驗?網(wǎng)友:臉皮夠厚,一切不成問題

解讀熱點事件
2026-02-04 00:05:07
2026-03-03 11:55:00
InfoQ incentive-icons
InfoQ
有內(nèi)容的技術(shù)社區(qū)媒體
12096文章數(shù) 51783關(guān)注度
往期回顧 全部

科技要聞

手機AI在MWC上卷出了新高度

頭條要聞

牛彈琴:多國對轟炸保持沉默 西班牙首相確實是條漢子

頭條要聞

牛彈琴:多國對轟炸保持沉默 西班牙首相確實是條漢子

體育要聞

35輪后積分-7,他們遭遇史上最早的降級

娛樂要聞

謝娜霸氣護夫:喊話薛之謙給張杰道歉

財經(jīng)要聞

霍爾木茲海峽近乎停擺 布油直逼80美元

汽車要聞

長安汽車2月銷量151922輛 環(huán)比逆勢增長12.8%

態(tài)度原創(chuàng)

教育
房產(chǎn)
時尚
游戲
旅游

教育要聞

高中物理全反射實驗課件

房產(chǎn)要聞

方案突然曝光!海口北師大附校,又有書包大盤殺出!

普通人穿衣真的很簡單!單品選對、搭配合理,大方舒適又得體

任天堂壓抑了!官號盛贊《生化危機9》里昂:好性感

旅游要聞

青海海西州:文旅市場“業(yè)態(tài)更新”現(xiàn)活力

無障礙瀏覽 進入關(guān)懷版