WSQsGithub
diff --git a/‎A2C_CartPole.py
+76 b/‎A2C_CartPole.py
+76
diff --git a/‎A3C_CartPole.py
+79 b/‎A3C_CartPole.py
+79
diff --git a/‎DDPG_Pendulum.py
+126 b/‎DDPG_Pendulum.py
+126
@@ -0,0 +1,76 @@
+# %%
+import numpy as np
+import gym
+import torch
+import torch.nn  as nn
+import torch.optim as optim
+
+# %% 定义网络结构
+
+class ActorCritic(nn.Module):
+    def __init__(self, input_dim, output_dim):
+        super(ActorCritic, self).__init__()
+        self.actor = nn.Sequential(
+            nn.Linear(input_dim, 128),
+            nn.ReLU(),
+            nn.Linear(128, output_dim),
+            nn.Softmax(dim=-1)
+        )
+        self.critic = nn.Sequential(
+            nn.Linear(input_dim, 128),
+            nn.ReLU(),
+            nn.Linear(128, 1)
+        )
+
+    def forward(self, state):
+        probs = self.actor(state)
+        value = self.critic(state)
+        return probs, value
+
+
+# A2C更新函数
+def train(model, optimizer, state, action, reward, next_state, done, gamma=0.99):
+    state = torch.FloatTensor(state)
+    next_state = torch.FloatTensor(next_state)
+    reward = torch.FloatTensor([reward])
+    action = torch.LongTensor([action])
+
+    probs, value = model(state)
+    _, next_value = model(next_state)
+
+    # 计算advantage
+    td_target = reward + gamma * next_value * (1 - done)
+    delta = td_target - value
+
+    # 计算actor和critic的损失
+    actor_loss = -torch.log(probs[action]) * delta.detach()
+    critic_loss = delta ** 2
+
+    # 合并损失并进行反向传播
+    loss = actor_loss + critic_loss
+    optimizer.zero_grad()
+    loss.backward()
+    optimizer.step()
+    
+# %% 训练
+# 主程序: 离散动作，连续状态
+if __name__ == "__main__":
+    env = gym.make("CartPole-v1")
+    model = ActorCritic(env.observation_space.shape[0], env.action_space.n)
+    optimizer = optim.Adam(model.parameters(), lr=0.001)
+
+    for episode in range(1000):
+        state, info = env.reset()
+        episode_reward = 0
+
+        while True:
+            probs, _ = model(torch.FloatTensor(state))
+            action = np.random.choice(env.action_space.n, p=probs.detach().numpy())
+            next_state, reward, done, _, info = env.step(action)
+            train(model, optimizer, state, action, reward, next_state, done)
+            state = next_state
+            episode_reward += reward
+
+            if done:
+                print(f"Episode {episode}, Reward: {episode_reward}")
+                break
@@ -0,0 +1,79 @@
+# %%
+import numpy as np
+import gym
+import torch
+import torch.nn as nn
+import torch.optim as optim
+import multiprocessing
+
+# %%
+# 定义网络结构
+class ActorCritic(nn.Module):
+    def __init__(self, input_dim, output_dim):
+        super(ActorCritic, self).__init__()
+        self.actor = nn.Sequential(
+            nn.Linear(input_dim, 128),
+            nn.ReLU(),
+            nn.Linear(128, output_dim),
+            nn.Softmax(dim=-1)
+        )
+        self.critic = nn.Sequential(
+            nn.Linear(input_dim, 128),
+            nn.ReLU(),
+            nn.Linear(128, 1)
+        )
+
+    def forward(self, state):
+        probs = self.actor(state)
+        value = self.critic(state)
+        return probs, value
+
+# %%
+# A3C更新函数
+def train(global_model, optimizer, state, action, reward, next_state, done, gamma=0.99):
+    state = torch.FloatTensor(state)
+    next_state = torch.FloatTensor(next_state)
+    reward = torch.FloatTensor([reward])
+    action = torch.LongTensor([action])
+
+    probs, value = global_model(state)
+    _, next_value = global_model(next_state)
+
+    td_target = reward + gamma * next_value * (1 - done)
+    delta = td_target - value
+
+    actor_loss = -torch.log(probs[action]) * delta.detach()
+    critic_loss = delta ** 2
+
+    loss = actor_loss + critic_loss
+    optimizer.zero_grad()
+    loss.backward()
+    optimizer.step()
+
+# 工作线程
+def worker(global_model, optimizer, worker_id):
+    env = gym.make("CartPole-v1")
+    state, info = env.reset()
+    while True:
+        action_probs, _ = global_model(torch.FloatTensor(state))
+        action = np.random.choice(env.action_space.n, p=action_probs.detach().numpy())
+        next_state, reward, done, _, info = env.step(action)
+        train(global_model, optimizer, state, action, reward, next_state, done)
+        state = next_state
+        if done:
+            state, _ = env.reset()
+
+# %%
+if __name__ == "__main__":
+    global_model = ActorCritic(4, 2)
+    global_model.share_memory()  # 允许多进程共享模型参数
+    optimizer = optim.Adam(global_model.parameters(), lr=0.001)
+
+    processes = []
+    for i in range(multiprocessing.cpu_count()):  # 使用所有可用的CPU核心
+        p = multiprocessing.Process(target=worker, args=(global_model, optimizer, i))
+        p.start()
+        processes.append(p)
+
+    for p in processes:
+        p.join()
@@ -0,0 +1,126 @@
+# %%
+import numpy as np
+import gym
+import torch
+import torch.nn as nn
+import torch.optim as optim
+import random
+
+# 定义Actor网络，适用于连续状态空间
+class Actor(nn.Module):
+    def __init__(self, input_dim, output_dim):
+        super(Actor, self).__init__()
+        self.net = nn.Sequential(
+            nn.Linear(input_dim, 128),
+            nn.ReLU(),
+            nn.Linear(128, output_dim),
+            nn.Tanh()  # 使输出在-1到1之间
+        )
+
+    def forward(self, state):
+        return self.net(state)
+
+# 定义Critic网络，输出Q值
+class Critic(nn.Module):
+    def __init__(self, input_dim, action_dim):
+        super(Critic, self).__init__()
+        self.net = nn.Sequential(
+            nn.Linear(input_dim + action_dim, 128),
+            nn.ReLU(),
+            nn.Linear(128, 1)
+        )
+
+    def forward(self, state, action):
+        return self.net(torch.cat([state, action], dim=1))
+
+# 经验回放
+class ReplayBuffer:
+    def __init__(self, capacity):
+        self.capacity = capacity
+        self.buffer = []
+        self.position = 0
+
+    def push(self, state, action, reward, next_state, done):
+        if len(self.buffer) < self.capacity:
+            self.buffer.append(None)
+        self.buffer[self.position] = (state, action, reward, next_state, done)
+        self.position = (self.position + 1) % self.capacity
+
+    def sample(self, batch_size):
+        batch = random.sample(self.buffer, batch_size)
+        state, action, reward, next_state, done = map(np.stack, zip(*batch))
+        return state, action, reward, next_state, done
+
+    def __len__(self):
+        return len(self.buffer)
+
+# %%
+# DDPG更新函数
+def train(actor, critic, actor_target, critic_target, actor_optimizer, critic_optimizer, replay_buffer, gamma=0.99, tau=0.005):
+    state, action, reward, next_state, done = replay_buffer.sample(64)
+
+    state = torch.FloatTensor(state)
+    action = torch.FloatTensor(action)
+    reward = torch.FloatTensor(reward).unsqueeze(1)
+    next_state = torch.FloatTensor(next_state)
+    done = torch.FloatTensor(done).unsqueeze(1)
+
+    # Critic update
+    with torch.no_grad():
+        next_action = actor_target(next_state)
+        target_q = reward + (1 - done) * gamma * critic_target(next_state, next_action)
+    current_q = critic(state, action)
+    critic_loss = nn.MSELoss()(current_q, target_q)
+    critic_optimizer.zero_grad()
+    critic_loss.backward()
+    critic_optimizer.step()
+
+    # Actor update
+    actor_loss = -critic(state, actor(state)).mean()
+    actor_optimizer.zero_grad()
+    actor_loss.backward()
+    actor_optimizer.step()
+
+    # Soft update target networks
+    for target_param, param in zip(actor_target.parameters(), actor.parameters()):
+        target_param.data.copy_(tau * param.data + (1 - tau) * target_param.data)
+    for target_param, param in zip(critic_target.parameters(), critic.parameters()):
+        target_param.data.copy_(tau * param.data + (1 - tau) * target_param.data)
+
+# %%
+# 主程序
+if __name__ == "__main__":
+    env = gym.make("Pendulum-v1")
+
+    actor = Actor(env.observation_space.shape[0], env.action_space.shape[0])
+    critic = Critic(env.observation_space.shape[0], env.action_space.shape[0])
+    
+    actor_target = Actor(env.observation_space.shape[0], env.action_space.shape[0])
+    critic_target = Critic(env.observation_space.shape[0], env.action_space.shape[0])
+    
+    actor_target.load_state_dict(actor.state_dict()) # 软更新
+    critic_target.load_state_dict(critic.state_dict())
+
+    actor_optimizer = optim.Adam(actor.parameters(), lr=0.001)
+    critic_optimizer = optim.Adam(critic.parameters(), lr=0.001)
+
+    replay_buffer = ReplayBuffer(1000000)
+
+    for episode in range(1000):
+        state,_ = env.reset()
+        episode_reward = 0
+
+        for step in range(200):  # Pendulum-v1默认的最大步数是200
+            action = actor(torch.FloatTensor(state)).detach().numpy()
+            next_state, reward, done, _, _ = env.step(action)
+            replay_buffer.push(state, action, reward, next_state, done)
+            state = next_state
+            episode_reward += reward
+
+            if len(replay_buffer) > 1000:
+                train(actor, critic, actor_target, critic_target, actor_optimizer, critic_optimizer, replay_buffer)
+
+            if done:
+                break
+
+        print(f"Episode {episode}, Reward: {episode_reward}")