PaddlePaddle · pkhk-1 · Mar 26, 2025 · Mar 26, 2025 · Mar 26, 2025 · Mar 26, 2025
diff --git a/paddlemix/examples/llava/pretrain.py b/paddlemix/examples/llava/pretrain.py
@@ -163,29 +163,10 @@ def main():
             checkpoint = last_checkpoint
         train_result = trainer.train(resume_from_checkpoint=checkpoint)
         if training_args.benchmark:
-
-            def get_paddle_memory_info():
-                """get_memory_info"""
-                divisor = 2**30
-                return (
-                    paddle.device.cuda.memory_allocated() / divisor,
-                    paddle.device.cuda.max_memory_allocated() / divisor,
-                    paddle.device.cuda.memory_reserved() / divisor,
-                    paddle.device.cuda.max_memory_reserved() / divisor,
-                )
-
-            memory_allocated, max_memory_allocated, memory_reserved, max_memory_reserved = get_paddle_memory_info()
-
-            logger.info(
-                f"memory_allocated:{memory_allocated}GB, max_memory_allocated: {max_memory_allocated}GB, memory_reserved:{memory_reserved}GB, max_memory_reserved: {max_memory_reserved}GB \n"
-            )
             total_effective_samples = total_samples * training_args.num_train_epochs
             effective_samples_per_second = total_effective_samples / train_result.metrics["train_runtime"]
-            mem_gpu = (
-                train_result.metrics["train_mem_gpu_peaked_delta"] + train_result.metrics["train_mem_gpu_alloc_delta"]
-            )
-            logger.info(f"ips: {effective_samples_per_second} ")
-            logger.info(f"train_mem_gpu_peaked: {int(mem_gpu/ (2**20))} MB")
+            logger.info(f"Effective_samples_per_second: {effective_samples_per_second} ")
+            logger.info(f"Train_runtime: {train_result.metrics['train_runtime']}")
             logger.info("Benchmark done.")
         else:
             trainer.save_model(merge_tensor_parallel=training_args.tensor_parallel_degree > 1)

diff --git a/paddlemix/examples/llava/supervised_finetune.py b/paddlemix/examples/llava/supervised_finetune.py
@@ -188,30 +188,11 @@ def main():
             checkpoint = last_checkpoint
         train_result = trainer.train(resume_from_checkpoint=checkpoint)
         if training_args.benchmark:
-
-            def get_paddle_memory_info():
-                """get_memory_info"""
-                divisor = 2**30
-                return (
-                    paddle.device.cuda.memory_allocated() / divisor,
-                    paddle.device.cuda.max_memory_allocated() / divisor,
-                    paddle.device.cuda.memory_reserved() / divisor,
-                    paddle.device.cuda.max_memory_reserved() / divisor,
-                )
-
-            memory_allocated, max_memory_allocated, memory_reserved, max_memory_reserved = get_paddle_memory_info()
-
-            logger.info(
-                f"memory_allocated:{memory_allocated}GB, max_memory_allocated: {max_memory_allocated}GB, memory_reserved:{memory_reserved}GB, max_memory_reserved: {max_memory_reserved}GB \n"
-            )
-
             total_effective_samples = total_samples * training_args.num_train_epochs
             effective_samples_per_second = total_effective_samples / train_result.metrics["train_runtime"]
-            mem_gpu = (
-                train_result.metrics["train_mem_gpu_peaked_delta"] + train_result.metrics["train_mem_gpu_alloc_delta"]
-            )
-            logger.info(f"ips: {effective_samples_per_second} ")
-            logger.info(f"train_mem_gpu_peaked: {int(mem_gpu/ (2**20))} MB")
+
+            logger.info(f"Effective_samples_per_second: {effective_samples_per_second} ")
+            logger.info(f"Train_runtime: {train_result.metrics['train_runtime']}")
             logger.info("Benchmark done.")
         else:
             trainer.save_model(merge_tensor_parallel=training_args.tensor_parallel_degree > 1)

diff --git a/paddlemix/models/llava/language_model/llava_llama.py b/paddlemix/models/llava/language_model/llava_llama.py
@@ -100,6 +100,16 @@ def forward(
                 input_ids, position_ids, attention_mask, past_key_values, labels, images, image_size
             )
 
+        # 通过attention_mask计算有效token数量
+        if attention_mask is not None:
+            # 统计当前batch的有效token数（排除padding）
+            current_batch_tokens = attention_mask.sum().item()  # shape: (batch_size, seq_len)
+        else:
+            # 如果没有padding，直接取inputs_embeds的batch_size*seq_length
+            current_batch_tokens = inputs_embeds.size(0) * inputs_embeds.size(1)
+        self.efficient_token_count = current_batch_tokens
+        self.input_shape = inputs_embeds.shape
+
         return super().forward(
             input_ids=input_ids,
             attention_mask=attention_mask,