论文简述 XiangBai——【CVPR2018】Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation

发表于 2021-12-24 更新于 2022-02-23 阅读次数：评论：本文字数： 1.3k 阅读时长 ≈ 2 分钟

Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation
基于角点定位和区域分割的多向场景文本检测

Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation

目前场景文字检测（scene text detection ）基本分为两类：

将其作为目标检测来进行训练学习（文字扭曲、旋转的问题无法很好的解决）
将其直接作为文本分割的任务来进行（需要复杂的后处理）

该论文提出结合两个方法

从框的4个边角（左上，右上，左下，右下）出发

大致思路：

找出边角点，同时找出可能的边角区域（positionsensitive segmentation maps），两者进行结合对比，生成候选框，再由NMS进行细化处理

由此可以解决文本倾斜的问题，文本旋转问题得到解决，

不管是单个文字还是单词还是句子，都可以分割的很好。

贡献：提出了一种全新的端到端方法，结合了目标检测和分割的理念。

提出了一种可以应对任意朝向的ROI池化方式

可以处理多种朝向的场景文本

SOTA

结合多方面，Related Work，

基于回归的文本检测：关注的是点

基于分割的文本检测：用提出的Rotated Position-Sensitive Average ROI Pooling层处理

基于边角点的通用目标检测，敏感区域划分

网络设计：

全卷积网络进行特征提取、边角点检测、敏感区域划分

backbone采用VGG-16

考虑到以下几个方面：

检测目标尺寸差异大（例如一个字和一大行文本）
文字背景复杂

FPN和DSSD在这两个方面做的挺不错，因此也采用了FPN/DSSD的结构来做处理

实现细节：

将vgg的全连接层（fc6、fc7）换为卷积层（conv6、conv7），然后在后面加了几层卷积层(conv8, conv9, conv10, conv11)以便扩大特征抽取的感受野

之后加了6个DSSD中的反卷积块，然后为了让模型适应多尺度数据，对一些模块的数据进行了级联处理

最后将产生的F3, F4, F7, F8, F9, F10 和 F11进行卷积和反卷积处理，为之后的corner detect进行准备

边角检测方面，每个角点都可能有4种情况，左上左下右上右下，而且一个点的位置可能是同时具有多个属性，比如一个点为A框的左上点，同时也是B框的右下点。角点检测输出两个分支，score分支和offset分支，其中score分支是用于检测区域内有无角点存在。score和offset分支输出分别为k × q × 2和k × q × 4，q为角点的类型数，一般都为矩形，所以为4.

标签生成：

旋转矩形的坐标如何确定？

给定4个顶点

左上左下的坐标，x坐标必须要小于右上右下的坐标
左上右上的坐标，y坐标必须要小于左下右下的坐标

这样4个点就能被确定好自己的分类位置

参考资料

Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation