大概的几种文本检测算法了解

时间:2024-03-27 11:57:31

1、(2016)CTPN,基础网络框架:VGG16,BLSTM利用图像上下文的信息特征,FC,支持水平和倾斜文本的检测

  1. 《Detecting text in natural image with connectionist text proposal network》
  2. 具体的步骤

  3. 首先,用VGG16的前5个Conv stage得到feature map,大小为W*H*C

  4. 用3*3的滑动窗口在前一步得到的feature map上提取特征,利用这些特征来对多个anchor进行预测,这里anchor定义与之前faster-rcnn中的定义相同,也就是帮我们去界定出目标待选区域。

  5. 将上一步得到的特征输入到一个双向的LSTM中,输出W*256的结果,再将这个结果输入到一个512维的全连接层(FC)

  6. 最后通过分类或回归得到的输出主要分为三部分,根据上图从上到下依次为2k vertical coordinates:表示选择框的高度和中心的y轴的坐标;2k scores:表示的是k个anchor的类别信息,说明其是否为字符;k side-refinement表示的是选择框的水平偏移量。本文实验中anchor的水平宽度都是16个像素不变,也就是说我们微分的最小选择框的单位是“16像素”。

  7. 用文本构造的算法,将我们得到的细长的矩形,然后将其合并成文本的序列框。

  8. 大概的几种文本检测算法了解

2、(2017)EAST,基础框架:基于PVANet的FCN、多尺度融合之后,直接进行像素级的文本块检测,没有RPN,单词分割,子块合并等,故速度很快。

  1. 《East: An efficient and accurate scene text detection》
  2. 有旋转矩形框标注的输出信息:1个score+4个回归的框+1个角度信息
  3. 任意四边形标注的输出信息:1个score+8个坐标信息

3、(2017)SegLink,6种尺度上的文本块检测,SSD的改进,多方向、速度块、精度高、易训练、任意长度的文本

  1. 《Detecting oriented text in natural images by link segments》

4、pixelLink,基础网络:基于VGG16的FCN,使用文本二分类和链接二分类

  1. 《pixelLink:detecting scene text via instance segmentation》

5、RRPN,加入了旋转因素,旋转感兴趣区域池化层(RROI),标注格式为(xyhw大概的几种文本检测算法了解),可旋转的候选框

  1. 《Arbitrary-oriented scene text detection via ratation proposals》
  2. 不仅仅只考虑文本框的3个长宽比:1:2、1:5、1:8,还考虑6个方向:-30\0\30\60\90\120,3种大小:8\16\32
  3. 多任务回归

6、FTSN,fused text segmentation networks,基础网络框架:Resnet-101,使用了分割网络,支持倾斜的文本,有多尺度融合

7、DMPnet,Deep matching prior network,四边形候选框非矩形,先计算四边形和标记框的面积重合度,四个顶点到中心点的距离,计算出目标loss,建议采用Ln替代L1,L2

8、Textboxes,给予SSD,细长型文本

9、Textboxes++,在textboxes基础上增加了对倾斜文本的检测

10、TextSnake,第一个弯曲文本加成呢,基于语义分割的,但是后处理复杂

11、(2019)SPCNet,基础网络:MASK RCNN,增加了Text Context(TCM)和Re_Score(Rs)可以抑制错误样本

参考链接:

https://blog.csdn.net/SIGAI_CSDN/article/details/80858565