国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型 OCR 的黃金時代,騰訊開源混元OCR,文檔解析、視覺問答和翻譯方面達(dá)到 SOTA

0
分享至



大家好,我是 Ai 學(xué)習(xí)的老章

大模型 OCR 的黃金時代來了,小紅書 dots.ocr-3b、deepseek-ocr-3b、阿里 qwen3-vl-2b、百度 paddleocr-vl-0.9B......

模型越做越小,精度越來越高

剛剛,OCR 領(lǐng)域迎來新選手,騰訊的文檔理解模型——混元 OCR 開源了


端到端訓(xùn)推一體:不同于其他開源的 OCR 專家模型或系統(tǒng),HunyuanOCR 模型的訓(xùn)練和推理均采用全端到端范式。通過規(guī);母哔|(zhì)量應(yīng)用導(dǎo)向數(shù)據(jù),結(jié)合在線強(qiáng)化學(xué)習(xí),模型表現(xiàn)出了非常穩(wěn)健的端到端推理能力,有效規(guī)避了級聯(lián)方案常見的相關(guān)誤差累積問題


  • 在文檔解析、視覺問答和翻譯方面達(dá)到 SOTA

  • 1B 參數(shù),端到端運(yùn)行,大幅降低了部署成本

在 OCR Bench 數(shù)據(jù)集上實現(xiàn)了 3B 參數(shù)以下模型的 SOTA 分?jǐn)?shù)(860),并在復(fù)雜文檔解析的 OmniDocBench 數(shù)據(jù)集上取得了領(lǐng)先的 94.1 分

一個很離譜的成績是 HunyuanOCR 僅使用 1B 參數(shù)量,在拍照翻譯任務(wù)上取得了與 Qwen3-VL-235B 相當(dāng)?shù)男Ч?/p>

它可以處理街道視圖、手寫體、藝術(shù)文本的文字識別,復(fù)雜文檔處理(HTML/LaTeX 中的表格/公式),視頻字幕提取,以及端到端的照片翻譯(支持 14 種語言)


放幾個高清的案例







最后這個案例,后面做論文翻譯,又有新玩法了

官方提供了不同任務(wù)下的提示詞模板


任務(wù)提示詞

檢測與識別

檢測并識別圖片中的文字,將文本坐標(biāo)格式化輸出

解析

? 識別圖片中的公式,用 LaTeX 格式表示
? 把圖中的表格解析為 HTML
? 解析圖中的圖表,對于流程圖使用 Mermaid 格式表示,其他圖表使用 Markdown 格式表示。
? 提取文檔圖片中正文的所有信息用 markdown 格式表示,其中頁眉、頁腳部分忽略,表格用 html 格式表達(dá),文檔中公式用 latex 格式表示,按照閱讀順序組織進(jìn)行解析

信息抽取

? 輸出 Key 的值
? 提取圖片中的:['key1','key2', ...] 的字段內(nèi)容,并按照 JSON 格式返回
? 提取圖片中的字幕

翻譯

先提取文字,再將文字內(nèi)容翻譯為英文。若是文檔,則其中頁眉、頁腳忽略。公式用 latex 格式表示,表格用 html 格式表示


在線體驗

https://huggingface.co/spaces/tencent/HunyuanOCR


我試了一下,拍照圖片 + 雙排顯示 + 公式、圖表情況下,識別的蠻精準(zhǔn)的


看前端樣式是用 Gradio 實現(xiàn)的,如果模型本地化部署了的話,可以直接把代碼 copy 下來,python 運(yùn)行就能在本機(jī)實現(xiàn)這個應(yīng)用了

代碼:https://huggingface.co/spaces/tencent/HunyuanOCR/blob/main/app.py

功能上挺齊全的:多場景文字檢測與識別、多粒度文檔解析、卡證票據(jù)識別和結(jié)構(gòu)化輸出、視覺問答、跨語言翻譯


本地部署

模型文件只有 2GB,比 DeepSeek-OCR 的 6.7GB 小太多了

不過我看 HunyuanOCR@GitHub 的 README 中寫需要 GPU 顯存是 80GB,有點(diǎn)離譜啊

它會不會把顯存和硬盤容量搞反了?


國內(nèi)鏡像:https://modelscope.cn/models/deepseek-ai/DeepSeek-OCR


https://huggingface.co/tencent/HunyuanOCR

官方建議 vLLM 部署模型以獲取更好的推理性能和精度,因為 Transformers 相比 vLLM 框架存在一定的性能下滑

但是目前只能安裝 vLLM nightly 了,穩(wěn)定版的 vLLM 要支持 HunyuanOCR 估計需要 v0.11.3 了

pip install vllm --extra-index-url https://wheels.vllm.ai/nightly

在線推理

vllm serve tencent/HunyuanOCR \
--no-enable-prefix-caching \
--mm-processor-cache-gb 0

OpenAI API 接口調(diào)用

from openai import OpenAI

client = OpenAI(
api_key="EMPTY",
base_url="http://localhost:8000/v1",
timeout=3600
)

messages = [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {
"url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/chat-ui/tools-dark.png"
}
},
{
"type": "text",
"text": (
"Extract all information from the main body of the document image "
"and represent it in markdown format, ignoring headers and footers."
"Tables should be expressed in HTML format, formulas in the document "
"should be represented using LaTeX format, and the parsing should be "
"organized according to the reading order."
)
}
]
}
]

response = client.chat.completions.create(
model="tencent/HunyuanOCR",
messages=messages,
temperature=0.0,
)
print(f"Generated text: {response.choices[0].message.content}")

我實測的話,模型已下載,準(zhǔn)備等 vLLM:v0.11.3 出來之后了


參考:
官方簡介:https://hunyuan.tencent.com/vision/zh?tabIndex=0
HunyuanOCR 項目 README:https://huggingface.co/tencent/HunyuanOCR
vLLM 官方文檔:https://docs.vllm.ai/projects/recipes/en/latest/Tencent-Hunyuan/HunyuanOCR.html

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
太稀罕了!深圳一家公司通知供應(yīng)商趕緊對賬,12月底結(jié)清所有貨款

太稀罕了!深圳一家公司通知供應(yīng)商趕緊對賬,12月底結(jié)清所有貨款

火山詩話
2025-12-27 09:04:18
知名熟食品牌致歉,10倍現(xiàn)金補(bǔ)償消費(fèi)者!很多人吃過

知名熟食品牌致歉,10倍現(xiàn)金補(bǔ)償消費(fèi)者!很多人吃過

中國經(jīng)濟(jì)網(wǎng)
2025-12-26 16:28:03
中方:納瓦羅言論極為卑劣,堅決反對!

中方:納瓦羅言論極為卑劣,堅決反對!

第一財經(jīng)資訊
2025-12-27 08:40:40
地方臺美女主播下海拍片?車燈教科書級,30歲人妻被逼“交作業(yè)”

地方臺美女主播下海拍片?車燈教科書級,30歲人妻被逼“交作業(yè)”

素然追光
2025-12-27 02:55:03
東莞20年:親眼目睹工廠女工的性生活,她們的孤獨(dú)壓抑和肆意歡歌

東莞20年:親眼目睹工廠女工的性生活,她們的孤獨(dú)壓抑和肆意歡歌

農(nóng)村情感故事
2025-04-06 20:07:35
75歲港星小36歲未婚妻被曝已婚,冬至與丈夫在老家吃飯,兒子16歲

75歲港星小36歲未婚妻被曝已婚,冬至與丈夫在老家吃飯,兒子16歲

觀察鑒娛
2025-12-27 10:00:22
從普通人到惡魔,只有一步之遙

從普通人到惡魔,只有一步之遙

近距離
2025-12-24 11:07:14
“AI教母”李飛飛最新采訪:K12教育是浪費(fèi)學(xué)生時間,靠AI都可以做到

“AI教母”李飛飛最新采訪:K12教育是浪費(fèi)學(xué)生時間,靠AI都可以做到

智車星球
2025-12-24 22:53:38
布克30+9+5+末節(jié)12分,湖人退貨中鋒肆虐內(nèi)線,太陽力克鵜鶘

布克30+9+5+末節(jié)12分,湖人退貨中鋒肆虐內(nèi)線,太陽力克鵜鶘

釘釘陌上花開
2025-12-27 11:43:14
大量博物館的閉館通知,元旦假期馬上來了為什么要閉館?

大量博物館的閉館通知,元旦假期馬上來了為什么要閉館?

歷史總在押韻
2025-12-26 21:34:35
借走南京博物院字畫不還的“老同志”,不宜深究

借走南京博物院字畫不還的“老同志”,不宜深究

吃瓜體
2025-12-26 22:55:50
換了車我才悟了:寧可多花點(diǎn)錢,汽車也要堅持4不買!建議收藏!

換了車我才悟了:寧可多花點(diǎn)錢,汽車也要堅持4不買!建議收藏!

藍(lán)色海邊
2025-12-27 07:14:15
80輛油罐車駛?cè)肜蠐耄伤葡蚣砥艺斔,柬工業(yè)體系究竟有多爛?

80輛油罐車駛?cè)肜蠐,疑似向柬埔寨輸送,柬工業(yè)體系究竟有多爛?

百科密碼
2025-12-26 14:21:30
精準(zhǔn)斬首!泰國無人機(jī)斬首行動震驚東南亞!洪森指揮鏈遭團(tuán)滅!

精準(zhǔn)斬首!泰國無人機(jī)斬首行動震驚東南亞!洪森指揮鏈遭團(tuán)滅!

深度報
2025-12-24 22:47:16
2026身份證換證潮來了?官方提醒:3類人不用動,7種情況必須換

2026身份證換證潮來了?官方提醒:3類人不用動,7種情況必須換

復(fù)轉(zhuǎn)這些年
2025-12-26 19:38:24
多地黨委主要領(lǐng)導(dǎo)調(diào)整!其中有一人是中央委員

多地黨委主要領(lǐng)導(dǎo)調(diào)整!其中有一人是中央委員

上觀新聞
2025-12-26 13:52:06
中新網(wǎng)報道:中國赴柬埔寨游客增長43.5%,你會去俄、柬旅游嗎?

中新網(wǎng)報道:中國赴柬埔寨游客增長43.5%,你會去俄、柬旅游嗎?

名人茍或
2025-12-27 06:04:21
即將與澤連斯基會晤,特朗普放話:未經(jīng)我批準(zhǔn),他無法敲定任何事

即將與澤連斯基會晤,特朗普放話:未經(jīng)我批準(zhǔn),他無法敲定任何事

環(huán)球網(wǎng)資訊
2025-12-27 09:02:08
中方對美連發(fā)“三個停止”警告

中方對美連發(fā)“三個停止”警告

第一財經(jīng)資訊
2025-12-26 18:13:53
姜昆唱歌視頻拍攝者發(fā)聲,是在洛杉磯拍攝,時間是2025年12月19日

姜昆唱歌視頻拍攝者發(fā)聲,是在洛杉磯拍攝,時間是2025年12月19日

阿纂看事
2025-12-27 09:55:58
2025-12-27 12:03:00
機(jī)器學(xué)習(xí)與Python社區(qū) incentive-icons
機(jī)器學(xué)習(xí)與Python社區(qū)
機(jī)器學(xué)習(xí)算法與Python
3235文章數(shù) 11081關(guān)注度
往期回顧 全部

科技要聞

小米也漲價了!業(yè)界稱終端再不漲明年必虧

頭條要聞

賈國龍首次回應(yīng)西貝風(fēng)波 稱自己連續(xù)40天靠安眠藥入睡

頭條要聞

賈國龍首次回應(yīng)西貝風(fēng)波 稱自己連續(xù)40天靠安眠藥入睡

體育要聞

NBA教練圈的布朗尼,花了22年證明自己

娛樂要聞

劉宇寧:我的價值不需要靠番位來證明

財經(jīng)要聞

注意,開始拉物價了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

房產(chǎn)
藝術(shù)
健康
親子
軍事航空

房產(chǎn)要聞

炸裂,三亞360億超級清單發(fā)布,又一批重大配套要來了!

藝術(shù)要聞

毛主席致徐悲鴻信件曝光,書法風(fēng)格引關(guān)注。

這些新療法,讓化療不再那么痛苦

親子要聞

低齡兒童也要有意識地保護(hù)眼睛

軍事要聞

英法德三國領(lǐng)導(dǎo)人通話 重申對烏支持

無障礙瀏覽 進(jìn)入關(guān)懷版