11月25日,騰訊混元於11月25日推出開源OCR模型HunyuanOCR,該模型參數(shù)量為1B,基於混元原生多模態(tài)架構(gòu)構(gòu)建,在多項OCR應(yīng)用評測中取得當(dāng)前最優(yōu)效果。
該模型採用端到端訓(xùn)練推理範(fàn)式,通過單次前向推理即可完成多項任務(wù),相比傳統(tǒng)級聯(lián)方案更具效率優(yōu)勢。其架構(gòu)由原生分辨率視頻編碼器、自適應(yīng)視覺適配器與輕量化語言模型三部分組成。

在性能方面,HunyuanOCR在複雜文檔解析評測OmniDocBench中獲得94.1分,超過谷歌Gemini3-pro等模型;在涵蓋文檔、街景、手寫等九大場景的測試集上,其文字檢測與識別能力領(lǐng)先同類開源及商業(yè)模型。同時,該模型支持14種小語種翻譯,並在ICDAR2025文檔翻譯比賽中獲得小模型賽道冠軍。

目前該模型已應(yīng)用於票據(jù)字段抽取、視頻字幕識別及拍照翻譯等場景,並正式對外開放源代碼。

在文字檢測和識別能力上,模型對文檔、藝術(shù)字、街景、手寫、廣告、票據(jù)、截屏、遊戲、視頻等場景上表現(xiàn)卓越。

對多語種文檔掃描件或拍攝圖像進(jìn)行電子化。

對常見卡證和票據(jù)的感興趣字段(如姓名/地址/單位等),採用標(biāo)準(zhǔn)的json格式解析。

對視頻的字幕實現(xiàn)自動化抽取,包括雙語字幕。

拍照翻譯功能,支持14種高頻應(yīng)用小語種。