一、应用场景:设备铭牌识别环境
在工业和医疗等领域的设备管理中,设备铭牌的信息提取是一项常见但极具挑战性的任务。这些铭牌通常包含关键信息如型号、序列号、制造日期等,对于资产管理、维护记录和故障排除至关重要。然而,实际拍摄的照片往往存在以下难题:
- 角度与透视问题:由于拍摄角度各异,上传的照片中设备铭牌可能出现严重的透视变形,导致文字倾斜或扭曲。
- 光线与反射干扰:现场光线条件复杂,强光反射或阴影遮挡使得铭牌上的文字难以清晰辨认。
- 背景杂乱:周围环境复杂,背景中的其他物体可能干扰文本区域的识别。
这些问题直接使用视觉语言(VL)模型进行识别时,会导致极低的准确率和可靠性。为了解决这些问题,最近和Gitee AI团队进行了深度友好的沟通,最终得到了一套完整的解决方案,通过UVDoc图像校正工具预处理图片,再利用QwenVL进行信息识别,并最终使用大型语言模型(LLM)实现结构化数据提取,显著提升了铭牌文字的提取效果。
二、技术方法
1. UVDoc图像校正工具:提升输入质量
针对上述难题,我们首先采用GiteeAI团队最新发布的UVDoc图像校正工具对原始照片进行预处理。该工具利用先进的计算机视觉算法,自动检测并纠正图像中的透视变形,恢复铭牌的真实形状。同时,它还可以调整图像的亮度和对比度,减少光线和反射带来的干扰。经过UVDoc校正后的图像不仅提高了文本的可读性,还为后续的文字识别提供了更佳的基础。
地址:https://ai.gitee.com/serverless-api?model=UVDoc
2. QwenVL:强大的信息识别引擎
完成图像预处理后,接下来是关键的信息识别阶段。我们选择了QwenVL作为核心识别引擎,其融合了最新的视觉语言模型技术,能够在复杂背景条件下精准定位并识别出文本内容。QwenVL不仅可以处理常规印刷体文字,还能应对手写体以及多种语言混合的情况,极大地拓宽了应用范围。此外,QwenVL还支持多模态输入,可以同时解析图像中的其他非文本元素,如图标、表格等,为用户提供更加全面的信息提取服务。
地址:https://ai.gitee.com/serverless-api?model=Qwen2-VL-72B
3. LLM结构化数据提取:智能化处理结果
最后一步是将QwenVL输出的结果进一步转化为结构化的数据格式。这一步骤依赖于Qwen2.5-72B-Instruct,它具备强大的自然语言理解能力,可以从非结构化的文本中抽取出有价值的结构化信息。例如,在设备铭牌识别场景中,Qwen2.5-72B-Instruct可以自动识别并分类不同的字段,如型号、序列号、制造日期等;同时生成易于检索和分析的结构化数据,极大地方便了后续的数据管理和应用。
地址:https://ai.gitee.com/serverless-api?model=Qwen2.5-72B-Instruct
三、结果展示
为了验证我们的方案的有效性,我们进行了实验,共同处理了30张具有不同角度和光线条件的设备铭牌照片。实验分为两组:一组直接使用QwenVL进行识别(直接VL组),另一组先使用UVDoc工具预处理后再使用QwenVL识别(联合处理组)。以下是两组的数据对比及更深入的统计分析:
(一)数据对比表
识别情况 | 直接VL组 (张) | 联合处理组 (张) |
---|---|---|
正确识别 | 8 | 28 |
部分识别 | 12 | 2 |
完全不能识别 | 10 | 0 |
总计 | 30 | 30 |
(二)进一步统计分析
最近我在做科研项目,所以简单按照科研项目的分析逻辑做了一下进一步的数据分析,相关内容就截图了。
1. 准确率提升
-
正确识别率:
- 直接VL组:8/30 = 26.7%
- 联合处理组:28/30 = 93.3%
-
部分识别率:
- 直接VL组:12/30 = 40%
- 联合处理组:2/30 = 6.7%
-
完全不能识别率:
- 直接VL组:10/30 = 33.3%
- 联合处理组:0/30= 0%
2. 平均准确度
平均准确度定义为每个样本被正确识别的比例。计算方法如下:
- 直接VL组平均准确度:8/30 = 26.7%
- 联合处理组平均准确度:28/30 = 93.3%
3. Kappa系数(Cohen's Kappa)
Kappa系数用于衡量分类系统的可靠性,考虑了偶然一致性。其公式为:
Kappa系数表明联合处理组的一致性远高于直接VL组,说明前者在实际应用中更为可靠。
四、结论
从以上数据分析可以看出,联合处理组的表现显著优于直接VL组:
- 准确性大幅提升:联合处理组的正确识别率从26.7%提高到了93.3%,几乎达到了完全正确识别。
- 部分识别减少:联合处理组部分识别的比例从40%降低到6.7%,表明大多数情况下都能实现完全正确的识别。
- 无法识别消除:联合处理组实现了零失败,所有照片均能至少部分识别,而直接VL组有10张照片完全不能识别。
-
可靠性更高:Kappa系数显示联合处理组的一致性远高于直接VL组,证明了其在实际应用中的优越性能。
综上所述,在高精度的图文识别场景中,通过UVDoc图像校正工具预处理图片、QwenVL进行信息识别以及LLM进行结构化数据提取,成功解决了设备铭牌识别中的难题,构建了一个高效且精确的文字提取系统。