Fix suggest_move() in randompolicymixin & greedypolicymixin

yhyu13 · yhyu13 · commit 8f3f032a58a7 · 2018-04-30T11:35:45.000-05:00
diff --git a/config.py b/config.py
@@ -21,7 +21,7 @@
 parser.add_argument('--model_type', dest='model', default='full',
                     help='choose residual block architecture {original,elu,full}')
 parser.add_argument('--optimizer', dest='opt', default='adam')
-parser.add_argument('--gtp_policy', dest='gpt_policy', default='mctspolicy',
+parser.add_argument('--gtp_policy', dest='gpt_policy', default='greedypolicy',
                     help='choose gtp bot player')  # random,mctspolicy
 parser.add_argument('--num_playouts', type=int, dest='num_playouts', default=1600,
                     help='The number of MC search per move, the more the better.')
diff --git a/utils/gtp_wrapper.py b/utils/gtp_wrapper.py
@@ -116,7 +116,7 @@ def make_gtp_instance(flags, hps):
     elif strategy_name == 'randompolicy':
         instance = RandomPolicyPlayer(n)
     elif strategy_name == 'mctspolicy':
-        instance = MCTSPlayer(net=n, num_playouts=1600)
+        instance = MCTSPlayer(net=n, num_playouts=flags.num_playouts)
     else:
         return None
     gtp_engine = gtp.Engine(instance)
diff --git a/utils/strategies.py b/utils/strategies.py
@@ -250,8 +250,9 @@ def __init__(self, policy_network):
         super().__init__()
 
     def suggest_move(self, position):
-        move_probabilities = self.policy_network.run(position)
-        return select_most_likely(position, move_probabilities)
+        move_probabilities = self.policy_network.run_many(bulk_extract_features([position]))[0][0]
+        on_board_move_prob = np.reshape(move_probabilities[:-1], (go.N, go.N))
+        return select_most_likely(position, on_board_move_prob)
 
 
 class RandomPolicyPlayerMixin:
@@ -260,5 +261,6 @@ def __init__(self, policy_network):
         super().__init__()
 
     def suggest_move(self, position):
-        move_probabilities = self.policy_network.run(position)
-        return select_weighted_random(position, move_probabilities)
+        move_probabilities = self.policy_network.run_many(bulk_extract_features([position]))[0][0]
+        on_board_move_prob = np.reshape(move_probabilities[:-1], (go.N, go.N))
+        return select_weighted_random(position, on_board_move_prob)