
凤凰网科技讯 1月27日云开体育,DeepSeek团队发布《DeepSeek-OCR 2: Visual Causal Flow》论文,并开源DeepSeek-OCR 2模子。 该模子承袭立异的DeepEncoder V2新式编码器结构,它约略字据图像语义动态调遣视觉信息的贬责规定,使模子在进行翰墨识别前先对视觉实践进行智能排序。这项时期繁芜源于对传统视觉谈话模子贬责相貌的再行想考,旨在让机器更面对东谈主类的视觉阅读逻辑。 在传统的视觉谈话模子中,图像常常会被切分为几许视觉token,并按照从

凤凰网科技讯 1月27日云开体育,DeepSeek团队发布《DeepSeek-OCR 2: Visual Causal Flow》论文,并开源DeepSeek-OCR 2模子。
该模子承袭立异的DeepEncoder V2新式编码器结构,它约略字据图像语义动态调遣视觉信息的贬责规定,使模子在进行翰墨识别前先对视觉实践进行智能排序。这项时期繁芜源于对传统视觉谈话模子贬责相貌的再行想考,旨在让机器更面对东谈主类的视觉阅读逻辑。

在传统的视觉谈话模子中,图像常常会被切分为几许视觉token,并按照从左上到右下的固定栅格规定送入模子贬责。这种相貌天然罢了省略,但与东谈主类在阅读文档、表格或公式时基于语义和逻辑关联进行最初式浏览的相貌并不一致。
DeepSeek论文指出,尤其在版式复杂的文档场景中,视觉元素之间常常存在明确的逻辑先后关联,仅依赖空间规定可能截至模子对实践结构的长入材干。
为考据模子性能,商榷团队在OmniDocBench v1.5基准上进行了全面评估。该基准涵盖多种类型的中英文文档,包括学术论文、杂志、讲演等,要点考试文本识别、公式通晓、表格结构复原以及阅读规定等想法。
测试成果露出,在视觉token上限更低的情况下云开体育,DeepSeek-OCR 2的全体得分达到91.09%,相较DeepSeek-OCR进步了3.73%。至极是在阅读规定准确度方面,剪辑距离从0.085降至0.057,标明新模子约略更合理地长入文档实践结构。