第四届挑战赛A2-基于 MSER-CNN 的商品信息图片字符检测与识别

发布时间:2016-10-18 作者:BdRaces 浏览量:1072

 摘要: 

在互联网+时代,越来越多的人们选择在电商网站购物,商家提供的商品信息是用户做出购买决定的重要依据。图片这种生动、形象的视觉表达方式在给消费者带来便利的同时,也给电子商务网站的管理者带来了技术上的挑战:图片中的文本以光学字符的形式表达,不能使用计算机直接检索和处理。在大数据背景下,自动地从商品信息图片上提取其中的文本信息,这将有助于电子商务企业更好地做出商品推荐、售后服务和信息监管。本文将基于字符的检测与识别技术对商品信息图片进行文本信息提取与挖掘。

在本次数据挖掘过程中,我们首先对获取得到的图片和标注数据进行预处理,过滤掉少量错误的标注信息,以提高标注信息的正确性。

接着,对图片文本信息进行检测,主要分为离线和在线两个处理过程。在离线阶段,我们根据标注样本提取字符区域和非字符区域,正则化处理后得到字符样本集和非字符样本集,采用三种分类方法:基于 HOG 和 SVM 的分类方法、基于 LeNet 的分类方法和基于 Fast-RCNN 的分类方法。在线处理阶段,我们首先采用 MSER 算法对图片的 8 个通道进行字符检测,接着根据先验知识,对候选区域的面积、长、宽进行粗筛选,然后根据候选区域的行间距把左右相邻的字符区域进行联通,再对这些行区域进行形态学处理和垂直投影,得到单个字符区域。再把这些字符区域输入三种分类器进行背景区域的去除,得到最终的检测结果。

然后,对检测出的字符区域进行基于 CNN 网络的识别。识别之前统一对字符图像进行灰度化、“字亮底暗”的预处理,以缩小样本空间,提高网络识别率。识别分为离线过程和在线过程。在离线阶段,自主设计了 CNN 模型,训练后,这种单网 CNN 在测试集中得到了 93.07%的正确率。然而,由于给定的训练样本在种类上分布极不均匀,训练得到的 CNN 网络可能存在过拟合。我们尝试四种不同方法改进原网络:CNN+HOG、集成 CNN、双网、迁移 CNN。实验表明,在没有从根本上改变训练样本种类分布的情况下,提高识别率比较困难;此外,虽然本文的迁移 CNN 没有得到理想效果,但仍然是解决少样本,零样本问题,最有潜力的方法;最后,本文选择单网 CNN 作为识别模型。在在线阶段,我们把提取出的字符区域输入识别模型,得到预测的字符标签。

在实验过程中,我们分别对比了 Fast-RCNN、Faster-RCNN 等检测算法,同时对比分析了基于卷积神经网络和 SVM 分类器的优劣,以及不同的卷积神经网络模型,并对我们的检测识别方法的适用性以及参数设置进行了详细的分析,在给出的测试集中,检测率 F-scroe 为 0.524,识别正确率为70.5%,最终平均 F2score 为 0.2676。验证了本文方法的有效性。同时本论文也提供了方便交互使用的软件界面,可以为网络信息监管工作提供有力的技术支持。

关键词:字符检测识别;MSER;SVM;CNN;迁移学习;