! fixes for pytorch 0.2.0 release

jingweiz · jingweiz · commit bcfe712a3e84 · 2017-08-08T17:18:45.000+02:00
diff --git a/core/heads/dynamic_write_head.py b/core/heads/dynamic_write_head.py
@@ -72,7 +72,8 @@ def _allocation(self, usage_vb, epsilon=1e-6):
         # TODO: seems we have to wait for this PR: https://github.com/pytorch/pytorch/pull/1439
         prod_sorted_usage_vb = fake_cumprod(cat_sorted_usage_vb)
         # prod_sorted_usage_vb = torch.cumprod(cat_sorted_usage_vb, dim=1) # TODO: use this once the PR is ready
-        alloc_weight_vb = (1 - sorted_usage_vb) * prod_sorted_usage_vb  # equ. (1)
+        # alloc_weight_vb = (1 - sorted_usage_vb) * prod_sorted_usage_vb  # equ. (1)            # 0.1.12
+        alloc_weight_vb = (1 - sorted_usage_vb) * prod_sorted_usage_vb.squeeze()  # equ. (1)    # 0.2.0
         _, indices_vb = torch.topk(indices_vb, k=self.mem_hei, dim=1, largest=False)
         alloc_weight_vb = alloc_weight_vb.gather(1, indices_vb)
         return alloc_weight_vb
@@ -187,7 +188,8 @@ def _update_precedence_weights(self, prev_preced_vb):
         returns:
             preced_vb:      [batch_size x num_write_heads x mem_hei]
         """
-        write_sum_vb = torch.sum(self.wl_curr_vb, 2)
+        # write_sum_vb = torch.sum(self.wl_curr_vb, 2)              # 0.1.12
+        write_sum_vb = torch.sum(self.wl_curr_vb, 2, keepdim=True)  # 0.2.0
         return (1 - write_sum_vb).expand_as(prev_preced_vb) * prev_preced_vb + self.wl_curr_vb
 
     def _temporal_link(self, prev_link_vb, prev_preced_vb):
diff --git a/core/heads/static_head.py b/core/heads/static_head.py
@@ -87,7 +87,8 @@ def _location_focus(self):
         wg_vb = self.wc_vb * self.gate_vb + self.wl_prev_vb * (1. - self.gate_vb)
         ws_vb = self._shift(wg_vb, self.shift_vb)
         wp_vb = ws_vb.pow(self.gamma_vb.expand_as(ws_vb))
-        self.wl_curr_vb = wp_vb / wp_vb.sum(2).expand_as(wp_vb)
+        # self.wl_curr_vb = wp_vb / wp_vb.sum(2).expand_as(wp_vb)               # 0.1.12
+        self.wl_curr_vb = wp_vb / wp_vb.sum(2, keepdim=True).expand_as(wp_vb)   # 0.2.0
 
     def forward(self, hidden_vb, memory_vb):
         # outputs for computing addressing for heads
diff --git a/utils/fake_ops.py b/utils/fake_ops.py
@@ -22,6 +22,7 @@ def fake_cumprod(vb):
        mul_mask_vb[i, :, :i+1] = 1
     add_mask_vb = 1 - mul_mask_vb
     vb = vb.expand_as(mul_mask_vb) * mul_mask_vb + add_mask_vb
-    vb = torch.prod(vb, 2).transpose(0, 2)
+    # vb = torch.prod(vb, 2).transpose(0, 2)                # 0.1.12
+    vb = torch.prod(vb, 2, keepdim=True).transpose(0, 2)    # 0.2.0
     # print(real_cumprod - vb.data) # NOTE: checked, ==0
     return vb
diff --git a/utils/helpers.py b/utils/helpers.py
@@ -3,7 +3,6 @@
 from __future__ import print_function
 import logging
 import numpy as np
-import cv2
 from collections import namedtuple
 
 def loggerConfig(log_file, verbose=2):
diff --git a/utils/options.py b/utils/options.py
@@ -22,10 +22,10 @@ def __init__(self):
 
         # training signature
         self.machine     = "daim"       # "machine_id"
-        self.timestamp   = "17080200"   # "yymmdd##"
+        self.timestamp   = "17080800"   # "yymmdd##"
         # training configuration
         self.mode        = 1            # 1(train) | 2(test model_file)
-        self.config      = 1
+        self.config      = 1 
 
         self.seed        = 1
         self.render      = False        # whether render the window from the original envs or not
diff --git a/utils/similarities.py b/utils/similarities.py
@@ -12,7 +12,8 @@ def batch_cosine_sim(u, v, epsilon=1e-6):
     """
     assert u.dim() == 3 and v.dim() == 3
     numerator = torch.bmm(u, v.transpose(1, 2))
-    denominator = torch.sqrt(torch.bmm(u.norm(2, 2).pow(2) + epsilon, v.norm(2, 2).pow(2).transpose(1, 2) + epsilon))
+    # denominator = torch.sqrt(torch.bmm(u.norm(2, 2).pow(2) + epsilon, v.norm(2, 2).pow(2).transpose(1, 2) + epsilon))                             # 0.1.12
+    denominator = torch.sqrt(torch.bmm(u.norm(2, 2, keepdim=True).pow(2) + epsilon, v.norm(2, 2, keepdim=True).pow(2).transpose(1, 2) + epsilon))   # 0.2.0
     k = numerator / (denominator + epsilon)
     return k