Fix latency time measurement

astroC86 · astroC86 · commit 1509fd5149f2 · 2025-09-06T21:02:28.000+02:00
diff --git a/benchmarks/bench_load_latency.py b/benchmarks/bench_load_latency.py
@@ -11,19 +11,7 @@
 import triton.language as tl
 import iris
 from iris._mpi_helpers import mpi_allgather
-# from examples.common.utils import read_realtime
-
-@triton.jit
-def read_realtime():
-    tmp = tl.inline_asm_elementwise(
-        asm="mov.u64 $0, %globaltimer;",
-        constraints=("=l"),
-        args=[],
-        dtype=tl.int64,
-        is_pure=False,
-        pack=1,
-    )
-    return tmp
+from examples.common.utils import read_realtime
 
 
 @triton.jit()
@@ -270,11 +258,10 @@ def print_run_settings(
     mm_begin_cpu = mm_begin_timestamp.cpu().numpy()
     mm_end_cpu = mm_end_timestamp.cpu().numpy()
 
-    gpu_freq  = iris.hip.get_wall_clock_rate(cur_rank) * 1e-3
     for destination_rank in range(num_ranks):
         delta = mm_end_cpu[destination_rank, :] - mm_begin_cpu[destination_rank, :]
         avg_cc = float(delta.sum() / max(1, delta.size) / max(1, niter))
-        local_latency[destination_rank] = avg_cc / gpu_freq
+        local_latency[destination_rank] = avg_cc * 10 # since the value is updated every 10ns (cc freq is 100MHZ in MI300)
 
     latency_matrix = mpi_allgather(local_latency.cpu())