- 在解决的是什么问题?
- 为何成功,标志/准是什么?
- 在前人基础上的关键创新是什么?
- 关键结果有哪些?
- 有哪些局限性?如何优化?
- 这个工作可能有什么深远的影响?
SAM(Segment Anything Model) 是一个新的 AI 模型,可以从任意图片里,剪切出任意的对象,只需要点击一下。它是 promptable segmentation 系统,有着 zero-shot 的泛化能力,可以到不熟悉的 对象和图片上,而不需要额外的训练; 挺神奇的,box 是怎么产出的呢?训练集里是11M图片和1.1B mask
支持很多种 prompt 类型,prompt 用来指定图里的分割任务类型,而不需要额外的重新训练。
- 前景、背景的点
- Bounding box
- Mask : 是什么?
- Text prompts 要支持,但是能力却没有完全评估
- 每个图片上只需要运行一次的 ViT-H image encoder,输出的是图片的 embedding
- 一个 prompt encoder,把输入的 prompts 比如点击或者矩形转换为 embeddings
- 轻量的基于 transformer 的 mask decoder,它根据图片的 embedding 和 prompt embeddings 来预测对象的mask
- image encoder :632M 参数,即6.32亿
- prompt encoder 和 mask decoder 有4M参数,即4百万参数
- image encoder 需要 A100 上花费 ~0.15 秒
- prompt encoder 和 mask encoder 花费大约 50ms 的 CPU 在浏览器里 SIMD 执行的时间
模型不支持,只能预测出 mask(轮廓),无法产生标签(类别信息)
256 A100 上,需要3-5天