align_rois argument added

NVIDIA-AI-IOT · cuevas1208 · Mar 24, 2024 · Mar 25, 2024 · Mar 26, 2024 · Jul 29, 2024
commit 91baacd619bcf8c15bff1a0e985fc074bd7a202b
diff --git a/nanoowl/build_image_encoder_engine.py b/nanoowl/build_image_encoder_engine.py
@@ -25,10 +25,12 @@
     parser.add_argument("--model_name", type=str, default="google/owlvit-base-patch32")
     parser.add_argument("--fp16_mode", type=bool, default=True)
     parser.add_argument("--onnx_opset", type=int, default=16)
+    parser.add_argument("--align_rois", type=bool, default=True)
     args = parser.parse_args()
 
     predictor = OwlPredictor(
-        model_name=args.model_name
+        model_name=args.model_name,
+        align_rois =args.align_rois,
     )
 
     predictor.build_image_encoder_engine(

diff --git a/nanoowl/owl_predictor.py b/nanoowl/owl_predictor.py
@@ -65,7 +65,6 @@ def _owl_get_image_size(hf_name: str):
 
 
 def _owl_get_patch_size(hf_name: str):
-
     patch_sizes = {
         "google/owlvit-base-patch32": 32,
         "google/owlvit-base-patch16": 16,
@@ -153,11 +152,13 @@ def __init__(self,
                  device: str = "cuda",
                  image_encoder_engine: Optional[str] = None,
                  image_encoder_engine_max_batch_size: int = 1,
-                 image_preprocessor: Optional[ImagePreprocessor] = None
+                 image_preprocessor: Optional[ImagePreprocessor] = None,
+                 align_rois=True,
                  ):
 
         super().__init__()
 
+        self.align_rois = align_rois
         self.image_size = _owl_get_image_size(model_name)
         self.device = device
 
@@ -275,7 +276,15 @@ def extract_rois(self, image: torch.Tensor, rois: torch.Tensor, pad_square: bool
             mask = (mask_x & mask_y)
 
         # extract rois
-        roi_images = roi_align(image, [rois], output_size=self.get_image_size())
+        if self.align_rois:
+            roi_images = roi_align(image, [rois], output_size=self.get_image_size())
+        else:
+            # Crop the image for each object detected
+            roi_images = []
+            for i in range(len(rois)):
+                bbox = tuple(rois[i])
+                object_image = image.crop(bbox)
+                roi_images.append(object_image)
 
         # mask rois
         if pad_square:

diff --git a/setup.py b/setup.py
@@ -3,6 +3,6 @@
 
 setup(
     name="nanoowl",
-    version="0.0.0",
+    version="0.0.1",
     packages=find_packages()
 )