博格方略

Gitee AI 开发实践：另辟蹊径打造高精度的VL文字提取工具

铂金小猪应用开发转载编程分享 2025-01-05 20:12:23

简介一、应用场景：设备铭牌识别环境在工业和医疗等领域的设备管理中，设备铭牌的信息提取是一项常见但极具挑战性的任务。这些铭牌通常包含关键信息如型号、序列号、制造日期等，对于资产管理、维护记录和故障排除至关重要。然而，实际拍摄的照片往往存在以下难题：角度与透视问题：由于拍摄角度各异，上传的照片中设备铭牌可能出现严重的透视变形，导致文字倾斜或扭曲。光线与反射干扰：现场光线条件复杂，强光反射或阴影遮挡使... 展开更多

开源中国新版APP公测，限时邀请万名老用户有奖体验

一、应用场景：设备铭牌识别环境

在工业和医疗等领域的设备管理中，设备铭牌的信息提取是一项常见但极具挑战性的任务。这些铭牌通常包含关键信息如型号、序列号、制造日期等，对于资产管理、维护记录和故障排除至关重要。然而，实际拍摄的照片往往存在以下难题：

角度与透视问题：由于拍摄角度各异，上传的照片中设备铭牌可能出现严重的透视变形，导致文字倾斜或扭曲。
光线与反射干扰：现场光线条件复杂，强光反射或阴影遮挡使得铭牌上的文字难以清晰辨认。
背景杂乱：周围环境复杂，背景中的其他物体可能干扰文本区域的识别。

这些问题直接使用视觉语言（VL）模型进行识别时，会导致极低的准确率和可靠性。为了解决这些问题，最近和Gitee AI团队进行了深度友好的沟通，最终得到了一套完整的解决方案，通过UVDoc图像校正工具预处理图片，再利用QwenVL进行信息识别，并最终使用大型语言模型（LLM）实现结构化数据提取，显著提升了铭牌文字的提取效果。

二、技术方法

1. UVDoc图像校正工具：提升输入质量

针对上述难题，我们首先采用GiteeAI团队最新发布的UVDoc图像校正工具对原始照片进行预处理。该工具利用先进的计算机视觉算法，自动检测并纠正图像中的透视变形，恢复铭牌的真实形状。同时，它还可以调整图像的亮度和对比度，减少光线和反射带来的干扰。经过UVDoc校正后的图像不仅提高了文本的可读性，还为后续的文字识别提供了更佳的基础。
地址：https://ai.gitee.com/serverless-api?model=UVDoc

2. QwenVL：强大的信息识别引擎

完成图像预处理后，接下来是关键的信息识别阶段。我们选择了QwenVL作为核心识别引擎，其融合了最新的视觉语言模型技术，能够在复杂背景条件下精准定位并识别出文本内容。QwenVL不仅可以处理常规印刷体文字，还能应对手写体以及多种语言混合的情况，极大地拓宽了应用范围。此外，QwenVL还支持多模态输入，可以同时解析图像中的其他非文本元素，如图标、表格等，为用户提供更加全面的信息提取服务。
地址：https://ai.gitee.com/serverless-api?model=Qwen2-VL-72B

3. LLM结构化数据提取：智能化处理结果

最后一步是将QwenVL输出的结果进一步转化为结构化的数据格式。这一步骤依赖于Qwen2.5-72B-Instruct，它具备强大的自然语言理解能力，可以从非结构化的文本中抽取出有价值的结构化信息。例如，在设备铭牌识别场景中，Qwen2.5-72B-Instruct可以自动识别并分类不同的字段，如型号、序列号、制造日期等；同时生成易于检索和分析的结构化数据，极大地方便了后续的数据管理和应用。
地址：https://ai.gitee.com/serverless-api?model=Qwen2.5-72B-Instruct

三、结果展示

为了验证我们的方案的有效性，我们进行了实验，共同处理了30张具有不同角度和光线条件的设备铭牌照片。实验分为两组：一组直接使用QwenVL进行识别（直接VL组），另一组先使用UVDoc工具预处理后再使用QwenVL识别（联合处理组）。以下是两组的数据对比及更深入的统计分析：

（一）数据对比表

识别情况	直接VL组 (张)	联合处理组 (张)
正确识别	8	28
部分识别	12	2
完全不能识别	10	0
总计	30	30

（二）进一步统计分析

最近我在做科研项目，所以简单按照科研项目的分析逻辑做了一下进一步的数据分析，相关内容就截图了。

1. 准确率提升

正确识别率：
- 直接VL组：8/30 = 26.7%
- 联合处理组：28/30 = 93.3%
部分识别率：
- 直接VL组：12/30 = 40%
- 联合处理组：2/30 = 6.7%
完全不能识别率：
- 直接VL组：10/30 = 33.3%
- 联合处理组：0/30= 0%

2. 平均准确度

平均准确度定义为每个样本被正确识别的比例。计算方法如下：

直接VL组平均准确度：8/30 = 26.7%
联合处理组平均准确度：28/30 = 93.3%

3. Kappa系数（Cohen's Kappa）

Kappa系数用于衡量分类系统的可靠性，考虑了偶然一致性。其公式为：

Kappa系数表明联合处理组的一致性远高于直接VL组，说明前者在实际应用中更为可靠。

四、结论

从以上数据分析可以看出，联合处理组的表现显著优于直接VL组：

准确性大幅提升：联合处理组的正确识别率从26.7%提高到了93.3%，几乎达到了完全正确识别。
部分识别减少：联合处理组部分识别的比例从40%降低到6.7%，表明大多数情况下都能实现完全正确的识别。
无法识别消除：联合处理组实现了零失败，所有照片均能至少部分识别，而直接VL组有10张照片完全不能识别。
可靠性更高：Kappa系数显示联合处理组的一致性远高于直接VL组，证明了其在实际应用中的优越性能。

综上所述，在高精度的图文识别场景中，通过UVDoc图像校正工具预处理图片、QwenVL进行信息识别以及LLM进行结构化数据提取，成功解决了设备铭牌识别中的难题，构建了一个高效且精确的文字提取系统。

转载链接：https://my.oschina.net/bojinzhu/blog/17003148

Tags：

18 0 0 0

本篇评论 —— 揽流光，涤眉霜，清露烈酒一口话苍茫。

提交

声明：参照站内规则，不文明言论将会删除，谢谢合作。

ABOUT ME

Blogger：袅袅牧童 | Arkin

Ido：PHP攻城狮

WeChat：nnmutong

Email：nnmutong@icloud.com

Gitee AI 开发实践：另辟蹊径打造高精度的VL文字提取工具

一、应用场景：设备铭牌识别环境

二、技术方法

1. UVDoc图像校正工具：提升输入质量

2. QwenVL：强大的信息识别引擎

3. LLM结构化数据提取：智能化处理结果

三、结果展示

（一）数据对比表

（二）进一步统计分析

1. 准确率提升

2. 平均准确度

3. Kappa系数（Cohen's Kappa）

四、结论

相关文章

本篇评论 —— 揽流光，涤眉霜，清露烈酒一口话苍茫。

ABOUT ME

点击排行

最新评论

—— 揽流光，涤眉霜，清露烈酒一口话苍茫。

猜您喜欢

博格推荐

标签云

友情链接