MX Mask R-CNN
一个 MXNet 实现的 Mask R-CNN.
项目地址:https://github.com/TuSimple/mx-maskrcnn
论文地址:https://arxiv.org/abs/1703.06870
Mask-RCNN 的结果在不加任何 trick 的情况下能够超过各种数据增强加持下的 COCO 2016 分割挑战的冠军 FCIS 了,一个特点就是 Mask-RCNN 的检测和分割是并行出结果的,而不像以前是分割完了之后再做分类,结果是很 amazing 的。Mask-RCNN 大体框架还是 Faster-RCNN 的框架,可以说在基础特征网络之后又加入了全连接的分割子网,由原来的两个任务(分类+回归)变为了三个任务(分类+回归+分割)主要改进点在:1. 基础网络的增强,ResNeXt-101+FPN的组合可以说是现在特征学习的王牌了2. 分割 loss 的改进,由原来的 FCIS 的 基于单像素softmax的多项式交叉熵变为了基于单像素sigmod二值交叉熵,经 @Oh233同学指正 ,softmax会产生FCIS的 ROI inside map与ROI outside map的竞争。但文章作者确实写到了类间的竞争, 二值交叉熵会使得每一类的 mask 不相互竞争,而不是和其他类别的 mask 比较 。3. RoIAlign 层的加入,说白了就是对 feature map 的插值,直接的ROIPooling的那种量化操作会使得得到的mask与实际物体位置有一个微小偏移,个人感觉这个没什么 insight,就是工程上更好的实现方式文章还指出在物体检测中,Mask-RCNN 比一般的 state-of-the-art 方法(用Fatser-RCNN+ResNet-101+FPN实现)在 bounding-box 的 AP 上高3.6个点,1.1来自ROIAlign,0.9来自多任务训练,1.6来自更好的基础网络(ResNeXt-101)说一点个人愚见,这么好的效果是由多个阶段的优化实现的,大头的提升还是由数据和基础网络的提升:多任务训练带来的好处其实可以看作是更多的数据带来的好处;FPN 的特征金字塔,ResNeXt更强大的特征表达能力都是基础网络
作者:cfzd
链接:https://www.zhihu.com/question/57403701/answer/153012764
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
这个项目很多事基于 mx-rcnn 实现的 Faster RCNN 项目地址:
https://github.com/precedenceguo/mx-rcnn