高级搜索:
行业动态
您当前的位置:首页 » 新闻动态 » 行业动态  » 深度学习的物体检测
深度学习的物体检测

来源: 时间:2020-01-13 11:27:34 次数:

深度学习早期的物体检测,大都使用滑动窗口的方式进行窗口提取,这种方式本质是穷举法R-CNN。后来提出SelectiveSearch等Proposal窗口提取算法,对于给定的图像,不需要再使用一个滑动窗口进行图像扫描,而是采用某种方式“提取”出一些候选窗口,在获得对待检测目标可接受的召回率的前提下,候选窗口的数量可以控制在几千个或者几百个。之后又出现了SPP,其主要思想是去掉了原始图像上的crop/warp等操作,换成了在卷积特征上的空间金字塔池化层。那么为什么要引入SPP层呢?其实主要原因是CNN的全连接层要求输入图片是大小一致的,而实际中的输入图片往往大小不一,如果直接缩放到同一尺寸,很可能有的物体会充满整个图片,而有的物体可能只能占到图片的一角。SPP对整图提取固定维度的特征,首先把图片均分成4份,每份提取相同维度的特征,再把图片均分为16份,以此类推。可以看出,无论图片大小如何,提取出来的维度数据都是一致的,这样就可以统一送至全连接层。
深度学习的物体检测

深度学习早期的物体检测,大都使用滑动窗口的方式进行窗口提取,这种方式本质是穷举法R-CNN。后来提出SelectiveSearch等Proposal窗口提取算法,对于给定的图像,不需要再使用一个滑动窗口进行图像扫描,而是采用某种方式“提取”出一些候选窗口,在获得对待检测目标可接受的召回率的前提下,候选窗口的数量可以控制在几千个或者几百个。之后又出现了SPP,其主要思想是去掉了原始图像上的crop/warp等操作,换成了在卷积特征上的空间金字塔池化层。那么为什么要引入SPP层呢?其实主要原因是CNN的全连接层要求输入图片是大小一致的,而实际中的输入图片往往大小不一,如果直接缩放到同一尺寸,很可能有的物体会充满整个图片,而有的物体可能只能占到图片的一角。SPP对整图提取固定维度的特征,首先把图片均分成4份,每份提取相同维度的特征,再把图片均分为16份,以此类推。可以看出,无论图片大小如何,提取出来的维度数据都是一致的,这样就可以统一送至全连接层。

实际上,尽管R-CNN和SPP在检测方面有了较大的进步,但是其带来的重复计算问题让人头疼,而FastR-CNN的出现正是为了解决这些问题。FastR-CNN使用一个简化的SPP层——RoI(RegionofInteresting)Pooling层,其操作与SPP类似,同时它的训练和测试是不再分多步,不再需要额外的硬盘来存储中间层的特征,梯度也能够通过RoIPooling层直接传播。FastR-CNN还使用SVD分解全连接层的参数矩阵,压缩为两个规模小很多的全连接层。FastR-CNN使用SelectiveSearch来进行区域提取,速度依然不够快。FasterR-CNN则直接利用RPN(RegionProposalNetworks)网络来计算候选框。RPN以一张任意大小的图片为输入,输出一批矩形区域,每个区域对应一个目标分数和位置信息。从R-CNN到FasterR-CNN,这是一个化零为整的过程,其之所以能够成功,一方面得益于CNN强大的非线性建模能力,能够学习出契合各种不同子任务的特征,另一方面也是因为人们认识和思考检测问题的角度在不断发生改变,打破旧有滑动窗口的框架,将检测看成一个回归问题,不同任务之间的耦合。

R-CNN到FasterR-CNN都是一些通用的检测器。深度学习中还有许多特定物体检测的方法,如CascadeCNN等,随着技术的发展,深度学习的检测越来越成熟。
关键字: 
版权所有©2020 宁波慧声智创科技有限公司 All Rights Reserved