大概的几种文本检测算法了解

1、（2016）CTPN，基础网络框架：VGG16，BLSTM利用图像上下文的信息特征，FC，支持水平和倾斜文本的检测

《Detecting text in natural image with connectionist text proposal network》
具体的步骤
首先，用VGG16的前5个Conv stage得到feature map，大小为W*H*C
用3*3的滑动窗口在前一步得到的feature map上提取特征，利用这些特征来对多个anchor进行预测,这里anchor定义与之前faster-rcnn中的定义相同，也就是帮我们去界定出目标待选区域。
将上一步得到的特征输入到一个双向的LSTM中，输出W*256的结果，再将这个结果输入到一个512维的全连接层（FC）
最后通过分类或回归得到的输出主要分为三部分，根据上图从上到下依次为2k vertical coordinates:表示选择框的高度和中心的y轴的坐标；2k scores:表示的是k个anchor的类别信息，说明其是否为字符；k side-refinement表示的是选择框的水平偏移量。本文实验中anchor的水平宽度都是16个像素不变，也就是说我们微分的最小选择框的单位是“16像素”。
用文本构造的算法，将我们得到的细长的矩形，然后将其合并成文本的序列框。

2、（2017）EAST，基础框架：基于PVANet的FCN、多尺度融合之后，直接进行像素级的文本块检测，没有RPN，单词分割，子块合并等，故速度很快。

3、（2017）SegLink，6种尺度上的文本块检测,SSD的改进，多方向、速度块、精度高、易训练、任意长度的文本

4、pixelLink，基础网络：基于VGG16的FCN，使用文本二分类和链接二分类

5、RRPN，加入了旋转因素，旋转感兴趣区域池化层（RROI），标注格式为（xyhw 大概的几种文本检测算法了解），可旋转的候选框

6、FTSN，fused text segmentation networks，基础网络框架：Resnet-101，使用了分割网络，支持倾斜的文本，有多尺度融合

7、DMPnet，Deep matching prior network，四边形候选框非矩形，先计算四边形和标记框的面积重合度，四个顶点到中心点的距离，计算出目标loss，建议采用Ln替代L1，L2

8、Textboxes，给予SSD，细长型文本

9、Textboxes++，在textboxes基础上增加了对倾斜文本的检测

10、TextSnake，第一个弯曲文本加成呢，基于语义分割的，但是后处理复杂

11、（2019）SPCNet，基础网络：MASK RCNN，增加了Text Context（TCM）和Re_Score（Rs）可以抑制错误样本

参考链接：

秒客网