国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

科研寫作神器,超越Mathpix的科學(xué)公式提取工具已開源

0
分享至



LaTeX公式的光學(xué)字符識別(OCR)是科學(xué)文獻數(shù)字化與智能處理的基礎(chǔ)環(huán)節(jié),盡管該領(lǐng)域取得了一定進展,現(xiàn)有方法在真實科學(xué)文獻處理時仍面臨諸多挑戰(zhàn):

其一,主流方法及公開數(shù)據(jù)集多聚焦于結(jié)構(gòu)簡單、符號單一的公式,難以覆蓋多學(xué)科、高難度的復(fù)雜公式;其二,實際文檔中廣泛存在的多行公式、長公式、分段公式及頁面級復(fù)雜排版等情況尚未得到充分關(guān)注與處理;其三,大多數(shù)方法依賴專用模型,通常需要針對特定任務(wù)進行專門設(shè)計,難以實現(xiàn)通用性和擴展性。

針對上述挑戰(zhàn),DocTron 團隊提出了系統(tǒng)性解決方案。

首先,針對現(xiàn)有數(shù)據(jù)集覆蓋面有限、結(jié)構(gòu)單一的問題,構(gòu)建了涵蓋多學(xué)科、多結(jié)構(gòu)的大規(guī)模高難度數(shù)據(jù)集CSFormula,包含行級、段落級和頁面級的復(fù)雜排版。

其次,團隊提出的DocTron-Formula 模型突破了對特定結(jié)構(gòu)建模的依賴,采用通用大模型驅(qū)動的復(fù)雜公式識別方法,僅需簡單微調(diào)即可適配多樣化應(yīng)用場景。

最后,相比于最優(yōu)的定制化公式識別模型,該方法不僅在主流的開源評測中取得了優(yōu)秀的性能表現(xiàn),在實際應(yīng)用中常見的頁面級、段落級復(fù)雜排版場景中也取得了顯著優(yōu)勢,推動了公式識別的應(yīng)用邊界。



DocTron 是一個在通用視覺語言模型架構(gòu)上實現(xiàn)結(jié)構(gòu)化內(nèi)容解析和理解的開源項目,而無需定制化的模塊開發(fā),覆蓋通用文檔、學(xué)科公式、圖表代碼等場景。

  • 論文標題:DocTron-Formula: Generalized Formula Recognition in Complex and Structured Scenarios
  • 論文鏈接:https://arxiv.org/abs/2508.00311
  • Github 鏈接:https://github.com/DocTron-hub/DocTron-Formula
  • 項目開源地址:https://huggingface.co/DocTron

創(chuàng)新點與技術(shù)突破



(1)高難度多結(jié)構(gòu)數(shù)據(jù)集構(gòu)建。研究團隊自主設(shè)計高效的數(shù)據(jù)采集與處理流程,系統(tǒng)性地從高質(zhì)量學(xué)術(shù)資源中收集、清洗并整理了大量多學(xué)科的復(fù)雜公式樣本,構(gòu)建了 CSFormula 數(shù)據(jù)集。

該數(shù)據(jù)集涵蓋數(shù)學(xué)、物理、化學(xué)等領(lǐng)域,包含行級、段落級和頁面級的復(fù)雜排版,更真實地反映了文獻中公式的多樣性與挑戰(zhàn)性,為模型訓(xùn)練與評測提供了堅實基礎(chǔ)。

(2)通用大模型驅(qū)動的復(fù)雜公式識別。研究團隊突破了對結(jié)構(gòu)定制和專用架構(gòu)的依賴,直接利用 Qwen2.5-VL 等通用大規(guī)模多模態(tài)預(yù)訓(xùn)練模型,并通過在高難度數(shù)據(jù)集上的有監(jiān)督微調(diào)實現(xiàn)領(lǐng)域適配。

實驗結(jié)果表明,大模型憑借強大的知識遷移和結(jié)構(gòu)泛化能力,僅需簡單微調(diào)即可在復(fù)雜場景下取得 SOTA 性能,無需繁瑣的工程設(shè)計或人工規(guī)則,顯著提升了復(fù)雜公式識別的通用性和實用性。

實驗結(jié)果與性能表現(xiàn)



實驗結(jié)果顯示,DocTron-Formula 在各類公開基準測試及自建 LaTeX 公式識別數(shù)據(jù)集上均表現(xiàn)出色。在編輯距離和 CDM 兩個指標下,不僅超越了現(xiàn)有專業(yè)工具 Mathpix,在多個任務(wù)上也優(yōu)于 GPT-4o 和 Gemini-2.5-flash 等主流閉源大模型。

研究意義與應(yīng)用前景

本研究不僅推動了復(fù)雜公式識別技術(shù)的發(fā)展,也為相關(guān)領(lǐng)域開辟了新的研究思路:

  • 首次系統(tǒng)構(gòu)建了覆蓋多學(xué)科、多結(jié)構(gòu)的大規(guī)模高難度數(shù)據(jù)集 CSFormula,為復(fù)雜公式識別的模型訓(xùn)練和評測提供了堅實的數(shù)據(jù)支撐;
  • 驗證了通用大模型(如 Qwen2.5-VL)在復(fù)雜公式識別任務(wù)中的強大適應(yīng)性和泛化能力,顯著簡化了模型開發(fā)流程,減少了對專用設(shè)計和人工規(guī)則的依賴;

在應(yīng)用層面,DocTron-Formula 有望服務(wù)于科學(xué)文獻解析、學(xué)術(shù)知識檢索和教育資源智能化等多元場景,為科研、教育和信息服務(wù)等領(lǐng)域的自動化與智能化提供有力支撐。

結(jié)論

DocTron-Formula推動了學(xué)科公式理解在行級、段落級、頁面級復(fù)雜排版場景的應(yīng)用,強調(diào)無需定制化的算法模塊,通過高質(zhì)量數(shù)據(jù)的構(gòu)建和通用模型訓(xùn)練,實現(xiàn)開源評測和現(xiàn)實應(yīng)用評測的全面提升。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
“恨國女”許可馨:移民美國,已結(jié)婚,丈夫大量照片曝光遭質(zhì)疑

“恨國女”許可馨:移民美國,已結(jié)婚,丈夫大量照片曝光遭質(zhì)疑

小熊侃史
2025-12-20 10:53:55
2億人在喊:自己交100%的錢,只能拿40%?靈活就業(yè)社保該動真格了

2億人在喊:自己交100%的錢,只能拿40%?靈活就業(yè)社保該動真格了

老特有話說
2025-12-19 21:22:11
外交部長和國防部長如果通報被免職,意味著什么?

外交部長和國防部長如果通報被免職,意味著什么?

李昕言溫度空間
2025-12-20 19:00:33
一涉腐干部被查扣各類人民幣479捆,法院掛拍萬余張舊版2元面值人民幣,起拍價20余萬元

一涉腐干部被查扣各類人民幣479捆,法院掛拍萬余張舊版2元面值人民幣,起拍價20余萬元

極目新聞
2025-12-19 20:58:00
成都私人影院被曝涉“有償陪侍” 記者探訪:涉事門店已暫停經(jīng)營,警方介入調(diào)查

成都私人影院被曝涉“有償陪侍” 記者探訪:涉事門店已暫停經(jīng)營,警方介入調(diào)查

封面新聞
2025-12-20 19:21:27
南博驚天丑聞被扒!90年代的保管員監(jiān)守自盜19件藏品,被依法處決

南博驚天丑聞被扒!90年代的保管員監(jiān)守自盜19件藏品,被依法處決

火山詩話
2025-12-20 16:02:06
要解開南京博物院捐贈之謎,建議先查清這神秘的兩個人

要解開南京博物院捐贈之謎,建議先查清這神秘的兩個人

李老逵亂擺龍門陣
2025-12-20 10:54:00
必勝客被查!

必勝客被查!

魯中晨報
2025-12-20 17:49:04
北京阿姨20年守茅臺股票:90萬本金,分紅326萬,成本歸零!

北京阿姨20年守茅臺股票:90萬本金,分紅326萬,成本歸零!

趣文說娛
2025-12-20 18:29:20
泰方點名調(diào)查柬“生命研究中心”,湘雅醫(yī)院火速撇清:從未合作

泰方點名調(diào)查柬“生命研究中心”,湘雅醫(yī)院火速撇清:從未合作

胡嚴亂語
2025-12-20 16:13:32
突發(fā)!左膝半月板撕裂+缺陣4-5周,完犢子了,這還咋交易?

突發(fā)!左膝半月板撕裂+缺陣4-5周,完犢子了,這還咋交易?

球童無忌
2025-12-20 13:27:27
克林頓罕見強硬發(fā)聲:這不是烏克蘭的戰(zhàn)爭,而是美國的戰(zhàn)爭!

克林頓罕見強硬發(fā)聲:這不是烏克蘭的戰(zhàn)爭,而是美國的戰(zhàn)爭!

老馬拉車莫少裝
2025-12-20 14:50:21
【獨家】小米給全國汽車經(jīng)銷商發(fā)超一億元“紅包”

【獨家】小米給全國汽車經(jīng)銷商發(fā)超一億元“紅包”

界面新聞
2025-12-20 12:27:14
重慶交通大學(xué)原副校長張尚毅被“雙開”:違規(guī)占用學(xué)校公房歸個人使用

重慶交通大學(xué)原副校長張尚毅被“雙開”:違規(guī)占用學(xué)校公房歸個人使用

界面新聞
2025-12-20 20:08:38
電信董事長估計要失眠了,惹誰不好,偏偏惹了最叛逆的羅永浩!

電信董事長估計要失眠了,惹誰不好,偏偏惹了最叛逆的羅永浩!

荊楚寰宇文樞
2025-12-19 23:04:03
終于官宣!老年證將全面作廢,以后坐公交逛公園就用它

終于官宣!老年證將全面作廢,以后坐公交逛公園就用它

陳博世財經(jīng)
2025-12-20 14:27:24
抖音每年三千萬中標,咪咕5年16億報價被拒絕,CBA這波操作太魔幻

抖音每年三千萬中標,咪咕5年16億報價被拒絕,CBA這波操作太魔幻

姜大叔侃球
2025-12-20 12:18:17
73歲普京罕見回應(yīng)感情生活,承認正在戀愛中!信息量很大......

73歲普京罕見回應(yīng)感情生活,承認正在戀愛中!信息量很大......

新民周刊
2025-12-20 17:10:52
濟南一對母女黃河岸邊失聯(lián)超40天,搜索范圍擴大至黃河入???,丈夫:妻子性格大大咧咧,失聯(lián)前無異常

濟南一對母女黃河岸邊失聯(lián)超40天,搜索范圍擴大至黃河入海口,丈夫:妻子性格大大咧咧,失聯(lián)前無異常

極目新聞
2025-12-20 11:55:28
實探廣州玩具城:李嘉誠15億投資,如今荒涼像“鬼城”

實探廣州玩具城:李嘉誠15億投資,如今荒涼像“鬼城”

樓市滅霸
2025-12-19 19:11:22
2025-12-20 20:48:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142514關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時刻"還未到來

頭條要聞

司機稱轎車剎車失靈狂奔490公里 網(wǎng)友質(zhì)疑"自導(dǎo)自演"

頭條要聞

司機稱轎車剎車失靈狂奔490公里 網(wǎng)友質(zhì)疑"自導(dǎo)自演"

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會陣容曝光,豪華陣仗

財經(jīng)要聞

求解“地方財政困難”

汽車要聞

嵐圖推進L3量產(chǎn)測試 已完成11萬公里實際道路驗證

態(tài)度原創(chuàng)

親子
房產(chǎn)
家居
健康
教育

親子要聞

帶媽媽和三寶來吃中餐自助,艾莉拿起包子就是造,香到心坎里了!

房產(chǎn)要聞

廣州有態(tài)度,一座國際化社區(qū)給出的城市答案

家居要聞

高端私宅 理想隱居圣地

這些新療法,讓化療不再那么痛苦

教育要聞

今年難度小于去年!不過剛走出考場,這件事千萬不要做!

無障礙瀏覽 進入關(guān)懷版