Gitee AI 开发实践:另辟蹊径打造高精度的VL文字提取工具

首页 编程分享 EXPERIENCE 正文

铂金小猪应用开发 转载 编程分享 2025-01-05 20:12:23

简介 一、应用场景:设备铭牌识别环境 在工业和医疗等领域的设备管理中,设备铭牌的信息提取是一项常见但极具挑战性的任务。这些铭牌通常包含关键信息如型号、序列号、制造日期等,对于资产管理、维护记录和故障排除至关重要。然而,实际拍摄的照片往往存在以下难题: 角度与透视问题:由于拍摄角度各异,上传的照片中设备铭牌可能出现严重的透视变形,导致文字倾斜或扭曲。 光线与反射干扰:现场光线条件复杂,强光反射或阴影遮挡使... 展开更多


一、应用场景:设备铭牌识别环境

在工业和医疗等领域的设备管理中,设备铭牌的信息提取是一项常见但极具挑战性的任务。这些铭牌通常包含关键信息如型号、序列号、制造日期等,对于资产管理、维护记录和故障排除至关重要。然而,实际拍摄的照片往往存在以下难题:

  • 角度与透视问题:由于拍摄角度各异,上传的照片中设备铭牌可能出现严重的透视变形,导致文字倾斜或扭曲。
  • 光线与反射干扰:现场光线条件复杂,强光反射或阴影遮挡使得铭牌上的文字难以清晰辨认。
  • 背景杂乱:周围环境复杂,背景中的其他物体可能干扰文本区域的识别。

这些问题直接使用视觉语言(VL)模型进行识别时,会导致极低的准确率和可靠性。为了解决这些问题,最近和Gitee AI团队进行了深度友好的沟通,最终得到了一套完整的解决方案,通过UVDoc图像校正工具预处理图片,再利用QwenVL进行信息识别,并最终使用大型语言模型(LLM)实现结构化数据提取,显著提升了铭牌文字的提取效果。

  

 

 

二、技术方法

1. UVDoc图像校正工具:提升输入质量

针对上述难题,我们首先采用GiteeAI团队最新发布的UVDoc图像校正工具对原始照片进行预处理。该工具利用先进的计算机视觉算法,自动检测并纠正图像中的透视变形,恢复铭牌的真实形状。同时,它还可以调整图像的亮度和对比度,减少光线和反射带来的干扰。经过UVDoc校正后的图像不仅提高了文本的可读性,还为后续的文字识别提供了更佳的基础。
地址:https://ai.gitee.com/serverless-api?model=UVDoc

2. QwenVL:强大的信息识别引擎

完成图像预处理后,接下来是关键的信息识别阶段。我们选择了QwenVL作为核心识别引擎,其融合了最新的视觉语言模型技术,能够在复杂背景条件下精准定位并识别出文本内容。QwenVL不仅可以处理常规印刷体文字,还能应对手写体以及多种语言混合的情况,极大地拓宽了应用范围。此外,QwenVL还支持多模态输入,可以同时解析图像中的其他非文本元素,如图标、表格等,为用户提供更加全面的信息提取服务。
地址:https://ai.gitee.com/serverless-api?model=Qwen2-VL-72B

3. LLM结构化数据提取:智能化处理结果

最后一步是将QwenVL输出的结果进一步转化为结构化的数据格式。这一步骤依赖于Qwen2.5-72B-Instruct,它具备强大的自然语言理解能力,可以从非结构化的文本中抽取出有价值的结构化信息。例如,在设备铭牌识别场景中,Qwen2.5-72B-Instruct可以自动识别并分类不同的字段,如型号、序列号、制造日期等;同时生成易于检索和分析的结构化数据,极大地方便了后续的数据管理和应用。
地址:https://ai.gitee.com/serverless-api?model=Qwen2.5-72B-Instruct

三、结果展示

为了验证我们的方案的有效性,我们进行了实验,共同处理了30张具有不同角度和光线条件的设备铭牌照片。实验分为两组:一组直接使用QwenVL进行识别(直接VL组),另一组先使用UVDoc工具预处理后再使用QwenVL识别(联合处理组)。以下是两组的数据对比及更深入的统计分析:

(一)数据对比表

识别情况 直接VL组 (张) 联合处理组 (张)
正确识别 8 28
部分识别 12 2
完全不能识别 10 0
总计 30 30

(二)进一步统计分析

最近我在做科研项目,所以简单按照科研项目的分析逻辑做了一下进一步的数据分析,相关内容就截图了。

1. 准确率提升

  • 正确识别率

    • 直接VL组:8/30 = 26.7%
    • 联合处理组:28/30 = 93.3%
  • 部分识别率

    • 直接VL组:12/30 = 40%
    • 联合处理组:2/30 = 6.7%
  • 完全不能识别率

    • 直接VL组:10/30 = 33.3%
    • 联合处理组:0/30= 0%

2. 平均准确度

平均准确度定义为每个样本被正确识别的比例。计算方法如下:

  • 直接VL组平均准确度:8/30 = 26.7%
  • 联合处理组平均准确度:28/30 = 93.3%

3. Kappa系数(Cohen's Kappa)

Kappa系数用于衡量分类系统的可靠性,考虑了偶然一致性。其公式为:

Kappa系数表明联合处理组的一致性远高于直接VL组,说明前者在实际应用中更为可靠。

四、结论

从以上数据分析可以看出,联合处理组的表现显著优于直接VL组:

  • 准确性大幅提升:联合处理组的正确识别率从26.7%提高到了93.3%,几乎达到了完全正确识别。
  • 部分识别减少:联合处理组部分识别的比例从40%降低到6.7%,表明大多数情况下都能实现完全正确的识别。
  • 无法识别消除:联合处理组实现了零失败,所有照片均能至少部分识别,而直接VL组有10张照片完全不能识别。
  • 可靠性更高:Kappa系数显示联合处理组的一致性远高于直接VL组,证明了其在实际应用中的优越性能。
     

综上所述,在高精度的图文识别场景中,通过UVDoc图像校正工具预处理图片、QwenVL进行信息识别以及LLM进行结构化数据提取,成功解决了设备铭牌识别中的难题,构建了一个高效且精确的文字提取系统。

转载链接:https://my.oschina.net/bojinzhu/blog/17003148


Tags:


本篇评论 —— 揽流光,涤眉霜,清露烈酒一口话苍茫。


    声明:参照站内规则,不文明言论将会删除,谢谢合作。


      最新评论




ABOUT ME

Blogger:袅袅牧童 | Arkin

Ido:PHP攻城狮

WeChat:nnmutong

Email:nnmutong@icloud.com

标签云