- 在解决的是什么问题?分类问题
- 为何成功,标志/准是什么?速度快,可以检测视频流。
- 在前人基础上的关键创新是什么?把检测问题当作分割的bouding boxes 空间里的回归问题和关联的类别概率
- 关键结果有哪些?在不同领域泛化性更好(R-CNN, DPM),检测速度快
- 有哪些局限性?如何优化?定位方面错误较多,但背景漏报(false positive)较少准确率不如 R-CNN。而且在小目标的定位上,出错较多
- 这个工作可能有什么深远的影响?
使用一个 CNN 来同时预测多个 Bounding Box 和这些 box 的类别。YOLO 在全图片上训练,直接优化检测的性能。这种统一模型相比检测领域的传统模型有几个优势:
- 非常快
- YOLO 全局推理,而非 R-CNN 之类局部推理,所以它隐含编码了背景信息,包含类别和出现的地方。Fast R-CNN,有可能会把图片里背景片段给误报,原因是它看不到更大的背景。YOLO 相比 Fast R-CNN 而言背景误报数量降低一半。因为网络根据整个图片的特征来预测 Bounding box。
- 学习到了目标泛化的表征。比如在自然界目标上训练,在人工制造的目标上检测,YOLO 表现更好
YOLO 在 bb 预测上有很强的局部性限制,因为每个网格单元只预测两个 box 和一个类。这个空间限制限制了模型能预测的临近的目标数量。比如一群鸟
相比 R CNN里每个图2k 个 BB,YOLO 里来只有98个。
- CNN 里也能出 loc ? 为何能出?bb 和 类别咋同时出来的
- R CNN 是40s 才处理完一张图?