国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

獨(dú)立研究員打造"神經(jīng)壓縮機(jī)":135M參數(shù)模型讓文件壓縮率突破極限

0
分享至


當(dāng)我們?cè)陔娔X上壓縮文件時(shí),通常會(huì)用到WinRAR、7-Zip這樣的軟件。這些工具已經(jīng)非常成熟,但壓縮效果似乎遇到了瓶頸?,F(xiàn)在,一位獨(dú)立研究員Roberto Tacconelli開發(fā)出了一種全新的壓縮技術(shù)——Nacrith,它就像給傳統(tǒng)壓縮軟件裝上了"人工智能大腦",能夠?qū)崿F(xiàn)前所未有的壓縮效果。這項(xiàng)研究于2026年2月發(fā)表在arXiv預(yù)印本服務(wù)器上,論文編號(hào)為arXiv:2602.19626v1。

要理解Nacrith的革命性意義,我們不妨把文件壓縮想象成"猜詞游戲"。傳統(tǒng)壓縮軟件就像一個(gè)只會(huì)記憶簡(jiǎn)單規(guī)律的機(jī)械助手,它能發(fā)現(xiàn)文件中重復(fù)出現(xiàn)的字節(jié)序列,然后用更短的代碼來代替這些重復(fù)內(nèi)容。這種方法雖然有效,但面對(duì)復(fù)雜的文本內(nèi)容時(shí)就顯得力不從心了。

而Nacrith則完全不同,它更像一位博學(xué)的語言學(xué)家。這個(gè)系統(tǒng)使用了一個(gè)名為SmolLM2-135M的語言模型作為核心"大腦",這個(gè)模型雖然只有1.35億個(gè)參數(shù),體積約500MB,但它具備了對(duì)語言的深層理解能力。當(dāng)Nacrith看到一段文本時(shí),它不僅能識(shí)別表面的重復(fù)模式,更能理解語法結(jié)構(gòu)、語義關(guān)系,甚至預(yù)測(cè)接下來可能出現(xiàn)的詞匯。

Nacrith的工作原理可以比作一個(gè)經(jīng)驗(yàn)豐富的小說家在續(xù)寫故事。當(dāng)這位小說家讀到"昨天晚上月亮很"這幾個(gè)字時(shí),他很可能會(huì)預(yù)測(cè)下一個(gè)詞是"圓"、"亮"或"美"。如果下一個(gè)詞確實(shí)是"圓",那么這個(gè)信息就變得"不太驚訝",因此可以用更少的比特來編碼。相反,如果下一個(gè)詞是"方",那就很意外,需要更多比特來編碼。這種基于預(yù)測(cè)的壓縮方法是Nacrith的核心理念。

但僅僅依靠語言模型還不夠,Nacrith還引入了多項(xiàng)技術(shù)創(chuàng)新來進(jìn)一步提升壓縮效果。首先是"高精度CDF編碼"技術(shù)。在傳統(tǒng)的算術(shù)編碼中,由于精度限制,大量的編碼空間被浪費(fèi)在了"最小概率保障"上。就好比一個(gè)只有16個(gè)格子的抽屜,為了確保每件物品都有地方放,先得給每件物品預(yù)留一個(gè)格子,結(jié)果真正用來存放物品的空間所剩無幾。Nacrith將這個(gè)"抽屜"擴(kuò)大到1600萬個(gè)格子,幾乎消除了空間浪費(fèi),直接提升了壓縮效率。

除了主要的語言模型,Nacrith還配備了一個(gè)輕量級(jí)的"助手"——N-gram模型。這個(gè)助手就像一個(gè)專門記憶局部模式的小幫手,它能快速識(shí)別文檔中經(jīng)常出現(xiàn)的詞語組合。當(dāng)遇到非常容易預(yù)測(cè)的內(nèi)容時(shí),系統(tǒng)會(huì)跳過復(fù)雜的語言模型計(jì)算,直接使用這個(gè)小助手的預(yù)測(cè)結(jié)果,既提高了速度又保持了準(zhǔn)確性。

為了讓不同的預(yù)測(cè)器協(xié)同工作,Nacrith采用了"自適應(yīng)上下文混合"技術(shù)。這就像一個(gè)智能的投票系統(tǒng),會(huì)根據(jù)每個(gè)預(yù)測(cè)器在當(dāng)前文檔上的表現(xiàn)動(dòng)態(tài)調(diào)整它們的發(fā)言權(quán)重。如果語言模型在某個(gè)文檔上表現(xiàn)出色,系統(tǒng)就會(huì)更多地采納它的意見;如果N-gram模型在某些局部區(qū)域更準(zhǔn)確,系統(tǒng)就會(huì)臨時(shí)提高它的權(quán)重。

Nacrith還具備"學(xué)習(xí)能力"。通過一個(gè)名為"自適應(yīng)對(duì)數(shù)空間偏置頭"的組件,系統(tǒng)能夠在壓縮過程中不斷學(xué)習(xí)和糾正自己的預(yù)測(cè)偏差。比如,如果系統(tǒng)發(fā)現(xiàn)在某個(gè)特定文檔中總是低估某些詞的出現(xiàn)概率,它就會(huì)逐步調(diào)整自己的判斷,變得越來越準(zhǔn)確。

在實(shí)際測(cè)試中,Nacrith的表現(xiàn)確實(shí)令人矚目。在經(jīng)典的alice29.txt測(cè)試文件上(這是一個(gè)152KB的《愛麗絲漫游仙境》文本片段),Nacrith將文件壓縮到了17,458字節(jié),壓縮率達(dá)到88.5%,即0.918比特每字節(jié)。相比之下,傳統(tǒng)的gzip工具只能達(dá)到35.6%的壓縮率,連業(yè)界知名的CMIX壓縮器也只能達(dá)到79.6%的壓縮率。更令人印象深刻的是,在100MB的Wikipedia數(shù)據(jù)集上,Nacrith同樣表現(xiàn)優(yōu)異,壓縮率達(dá)到88.26%。

值得注意的是,Nacrith的壓縮效果甚至超越了基于字節(jié)級(jí)統(tǒng)計(jì)的理論極限。傳統(tǒng)信息論認(rèn)為,基于二元、三元字節(jié)統(tǒng)計(jì)的壓縮極限分別是4.57、3.42和2.49比特每字節(jié),而Nacrith的0.918比特每字節(jié)遠(yuǎn)低于這些數(shù)值。這并不違反信息論原理,而是說明了神經(jīng)語言模型能夠捕捉到遠(yuǎn)比簡(jiǎn)單字節(jié)統(tǒng)計(jì)更復(fù)雜的語言結(jié)構(gòu)和規(guī)律。

為了驗(yàn)證這種優(yōu)勢(shì)不僅僅來自于"記憶"訓(xùn)練數(shù)據(jù),研究者還在語言模型訓(xùn)練截止日期之后發(fā)布的政府報(bào)告上進(jìn)行了測(cè)試。結(jié)果顯示,Nacrith在這個(gè)"完全未見過"的文檔上仍然取得了0.723比特每字節(jié)的出色表現(xiàn),證明了其真正的泛化能力。

Nacrith的另一個(gè)突破是實(shí)現(xiàn)了對(duì)任意二進(jìn)制文件的處理。以往的神經(jīng)壓縮系統(tǒng)只能處理純文本,而Nacrith通過NC06混合格式,能夠智能地將二進(jìn)制文件分割成文本區(qū)域和非文本區(qū)域,對(duì)文本部分使用神經(jīng)壓縮,對(duì)二進(jìn)制部分使用傳統(tǒng)壓縮算法,從而擴(kuò)大了應(yīng)用范圍。

在工程實(shí)現(xiàn)上,Nacrith也做出了多項(xiàng)優(yōu)化。通過使用llama.cpp作為推理引擎替代PyTorch,單個(gè)詞元的解碼速度提升了約7倍。通過原生KV緩存滑動(dòng)窗口技術(shù),上下文窗口更新的成本降低了37倍。系統(tǒng)還支持多GPU并行壓縮,能夠自動(dòng)根據(jù)可用顯存調(diào)整工作線程數(shù)量,在消費(fèi)級(jí)GPU上也能獲得良好的性能。

整個(gè)系統(tǒng)的硬件要求相當(dāng)親民。在一塊GTX 1050 Ti顯卡上(這款顯卡發(fā)布于2016年,現(xiàn)在已經(jīng)算是入門級(jí)別),Nacrith每個(gè)工作實(shí)例僅需約1.2GB顯存,4GB顯存的顯卡可以運(yùn)行3個(gè)并行實(shí)例,達(dá)到60-90詞元每秒的處理速度。雖然這個(gè)速度比傳統(tǒng)壓縮軟件慢很多,但考慮到壓縮效果的巨大提升,這個(gè)權(quán)衡是值得的。

通過詳細(xì)的消融實(shí)驗(yàn),研究者發(fā)現(xiàn)各個(gè)組件的貢獻(xiàn)程度不盡相同。高精度CDF編碼貢獻(xiàn)了最大的性能提升(約28%),其次是基于置信度的LLM跳過機(jī)制配合N-gram模型(約30%),而自適應(yīng)偏置頭則提供了小但穩(wěn)定的改進(jìn)(約1.1%)。

有趣的是,實(shí)驗(yàn)還揭示了系統(tǒng)內(nèi)部的工作機(jī)制與最初設(shè)計(jì)有所不同。上下文混合器在經(jīng)過短暫的預(yù)熱期后,幾乎完全依賴主要的語言模型,因?yàn)?.35億參數(shù)的模型在復(fù)雜內(nèi)容上始終優(yōu)于簡(jiǎn)單的統(tǒng)計(jì)模型。而N-gram模型主要通過"跳過"機(jī)制發(fā)揮作用——在高度可預(yù)測(cè)的內(nèi)容上完全繞過語言模型計(jì)算,實(shí)現(xiàn)了"簡(jiǎn)單問題簡(jiǎn)單處理,復(fù)雜問題精細(xì)處理"的智能分工。

從更廣闊的視角來看,Nacrith代表了數(shù)據(jù)壓縮領(lǐng)域的一個(gè)重要發(fā)展方向。它證明了神經(jīng)網(wǎng)絡(luò)的語言理解能力可以轉(zhuǎn)化為實(shí)際的壓縮優(yōu)勢(shì),而且這種優(yōu)勢(shì)在相對(duì)較小的模型上就能體現(xiàn)出來。這為未來的壓縮技術(shù)發(fā)展指明了方向:不是簡(jiǎn)單地追求更大的模型,而是要巧妙地結(jié)合不同技術(shù)的優(yōu)勢(shì),在效果和效率之間找到最佳平衡點(diǎn)。

當(dāng)然,Nacrith也有其局限性。壓縮速度相比傳統(tǒng)方法仍然較慢,主要適用于對(duì)壓縮率要求極高的歸檔場(chǎng)景。模型文件需要在壓縮和解壓縮端都存在,增加了部署復(fù)雜度。而且由于使用了預(yù)訓(xùn)練的英語模型,對(duì)其他語言的壓縮效果可能不如英語理想。

盡管如此,Nacrith的出現(xiàn)標(biāo)志著數(shù)據(jù)壓縮技術(shù)邁入了一個(gè)新的階段。它不僅在技術(shù)上取得了突破,更重要的是為這個(gè)看似已經(jīng)成熟的領(lǐng)域注入了新的活力。正如Shannon在1948年建立的信息論基礎(chǔ)一樣,神經(jīng)網(wǎng)絡(luò)與數(shù)據(jù)壓縮的結(jié)合可能會(huì)開啟下一個(gè)數(shù)據(jù)處理技術(shù)的黃金時(shí)代。

Q&A

Q1:Nacrith壓縮軟件的壓縮效果到底有多好?

A:在經(jīng)典測(cè)試文件alice29.txt上,Nacrith能將152KB文件壓縮到17KB,壓縮率達(dá)到88.5%,遠(yuǎn)超傳統(tǒng)gzip的35.6%和知名CMIX的79.6%。在100MB維基百科數(shù)據(jù)上也達(dá)到了88.26%的壓縮率,表現(xiàn)非常出色。

Q2:普通用戶能使用Nacrith壓縮軟件嗎?

A:可以,但有一定門檻。Nacrith已開源,普通用戶可以免費(fèi)使用,但需要具備獨(dú)立顯卡(如GTX 1050 Ti以上)和一定的技術(shù)基礎(chǔ)。壓縮速度較慢,主要適合對(duì)壓縮率要求很高的歸檔場(chǎng)景。

Q3:Nacrith為什么比傳統(tǒng)壓縮軟件效果好這么多?

A:傳統(tǒng)壓縮軟件只能識(shí)別簡(jiǎn)單的重復(fù)模式,而Nacrith使用了1.35億參數(shù)的語言模型,能理解語法、語義,準(zhǔn)確預(yù)測(cè)下一個(gè)詞匯的概率。還采用了高精度編碼技術(shù)和多模型協(xié)作機(jī)制,大幅提升了壓縮效率。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
4名少女網(wǎng)上結(jié)伴開“旅游盲盒”,機(jī)票抽到泰國(guó),在路上被民警緊急勸返,網(wǎng)友:出去了你就是盲盒

4名少女網(wǎng)上結(jié)伴開“旅游盲盒”,機(jī)票抽到泰國(guó),在路上被民警緊急勸返,網(wǎng)友:出去了你就是盲盒

臺(tái)州交通廣播
2026-03-02 14:54:16
韓媒:無法代替伊朗進(jìn)世界杯,中國(guó)隊(duì)陷入絕望 配了王鈺棟哭泣圖

韓媒:無法代替伊朗進(jìn)世界杯,中國(guó)隊(duì)陷入絕望 配了王鈺棟哭泣圖

風(fēng)過鄉(xiāng)
2026-03-01 22:15:54
女員工“胸大奶多”惹爭(zhēng)議,椰樹大尺度自爆炸裂全網(wǎng)

女員工“胸大奶多”惹爭(zhēng)議,椰樹大尺度自爆炸裂全網(wǎng)

首席品牌觀察
2026-03-02 11:09:54
奧美拉唑被列為重點(diǎn)監(jiān)控藥物!醫(yī)生提醒:長(zhǎng)期服用,注意5大細(xì)節(jié)

奧美拉唑被列為重點(diǎn)監(jiān)控藥物!醫(yī)生提醒:長(zhǎng)期服用,注意5大細(xì)節(jié)

醫(yī)學(xué)原創(chuàng)故事會(huì)
2026-03-01 00:07:02
“91女神”琪琪堪稱該系列知名度最高的女生,男方只給自己打碼

“91女神”琪琪堪稱該系列知名度最高的女生,男方只給自己打碼

挪威森林
2026-03-02 14:18:46
雷軍直播再提新一代SU7門把手:極端情況下,大小電池同時(shí)斷電,門把手依然保留純機(jī)械解鎖能力

雷軍直播再提新一代SU7門把手:極端情況下,大小電池同時(shí)斷電,門把手依然保留純機(jī)械解鎖能力

時(shí)代財(cái)經(jīng)
2026-02-28 10:46:20
美伊大戰(zhàn),日本右翼慌了:中國(guó)若對(duì)日動(dòng)手,理由或?qū)⒑兔来蛞烈粯?>
    </a>
        <h3>
      <a href=霽寒飄雪
2026-03-02 19:23:27
俄羅斯沒想到,美國(guó)更沒想到,中國(guó)幾乎所有“關(guān)鍵”技術(shù)遙遙領(lǐng)先

俄羅斯沒想到,美國(guó)更沒想到,中國(guó)幾乎所有“關(guān)鍵”技術(shù)遙遙領(lǐng)先

流史歲月
2026-01-18 17:20:06
法國(guó)美女嫁到中國(guó)后,直言:錢可以借中國(guó)婆婆卻不會(huì)給父母,為何

法國(guó)美女嫁到中國(guó)后,直言:錢可以借中國(guó)婆婆卻不會(huì)給父母,為何

哄動(dòng)一時(shí)啊
2026-02-15 11:28:54
中國(guó)核工業(yè)集團(tuán),總工程師羅琦,突然從一個(gè)極重要位置上被撤下來

中國(guó)核工業(yè)集團(tuán),總工程師羅琦,突然從一個(gè)極重要位置上被撤下來

百態(tài)人間
2026-02-25 15:36:52
沖前四!卡里克給曼聯(lián)的致命一課:錯(cuò)了10年,根本不是主帥的鍋

沖前四!卡里克給曼聯(lián)的致命一課:錯(cuò)了10年,根本不是主帥的鍋

佳佳說奇事故事
2026-02-19 20:49:33
冰火兩重天!孫穎莎4-2奪冠,與頒獎(jiǎng)嘉賓熱聊,王曼昱神情落寞

冰火兩重天!孫穎莎4-2奪冠,與頒獎(jiǎng)嘉賓熱聊,王曼昱神情落寞

TVB的四小花
2026-03-02 12:39:30
“吸血”親爹、寵妾滅妻,侄女再曝大瓜,楊議徹底活成了全網(wǎng)笑話

“吸血”親爹、寵妾滅妻,侄女再曝大瓜,楊議徹底活成了全網(wǎng)笑話

秋楓凋零
2026-03-02 06:07:06
科爾功勛籃球成笑柄!庫(kù)明加三戰(zhàn)31中21登場(chǎng)全勝 老鷹解說諷勇士

科爾功勛籃球成笑柄!庫(kù)明加三戰(zhàn)31中21登場(chǎng)全勝 老鷹解說諷勇士

顏小白的籃球夢(mèng)
2026-03-02 17:44:42
56歲大媽心梗離世,醫(yī)生:吃他汀時(shí)除了牛奶,這6種食物盡量少碰

56歲大媽心梗離世,醫(yī)生:吃他汀時(shí)除了牛奶,這6種食物盡量少碰

岐黃傳人孫大夫
2026-02-28 22:15:03
美國(guó)發(fā)出警告:中國(guó)不還100年前的舊債,美國(guó)絕不承認(rèn)欠中國(guó)的錢

美國(guó)發(fā)出警告:中國(guó)不還100年前的舊債,美國(guó)絕不承認(rèn)欠中國(guó)的錢

霽寒飄雪
2026-01-26 16:18:59
賀希寧曬合影慶祝男籃勝利,胡明軒評(píng)論:樂邦詹士先生

賀希寧曬合影慶祝男籃勝利,胡明軒評(píng)論:樂邦詹士先生

懂球帝
2026-03-02 10:09:20
2026鐵飯碗排名出爐!教師竟然跌到第9,第1名讓所有人都沉默了!

2026鐵飯碗排名出爐!教師竟然跌到第9,第1名讓所有人都沉默了!

金哥說新能源車
2026-02-27 05:18:50
印度游客添亂,泰國(guó)悔悟:還是中國(guó)游客香

印度游客添亂,泰國(guó)悔悟:還是中國(guó)游客香

華山穹劍
2026-02-27 19:47:38
“太恐怖,iPhone半夜自己給陌生人打47分鐘電話!”

“太恐怖,iPhone半夜自己給陌生人打47分鐘電話!”

都市快報(bào)橙柿互動(dòng)
2026-02-25 11:28:41
2026-03-02 20:12:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7408文章數(shù) 553關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

美記者詢問就伊朗局勢(shì)中方會(huì)采取什么行動(dòng) 外交部回應(yīng)

頭條要聞

美記者詢問就伊朗局勢(shì)中方會(huì)采取什么行動(dòng) 外交部回應(yīng)

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財(cái)經(jīng)要聞

金銀大漲 市場(chǎng)仍在評(píng)估沖突會(huì)否長(zhǎng)期化

汽車要聞

國(guó)民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

游戲
數(shù)碼
旅游
房產(chǎn)
本地

《王者榮耀世界》終于定檔!你會(huì)第一時(shí)間玩嗎?

數(shù)碼要聞

Anker安克MWC 2026推Soundcore多彩中端新品!

旅游要聞

重慶市榮昌區(qū)清升鎮(zhèn)第二屆清升李花文化旅游節(jié)將于3月3日啟幕

房產(chǎn)要聞

方案突然曝光!??诒睅煷蟾叫?,又有書包大盤殺出!

本地新聞

津南好·四時(shí)總相宜

無障礙瀏覽 進(jìn)入關(guān)懷版