Add a nvfp4 gemv example #69

vickiw973 · 2025-10-10T14:45:56Z

No description provided.

vickiw973 · 2025-10-21T08:56:26Z

problems/nvidia/nvfp4_group_gemm/submission.py

+
+    # Create torch tensor to store problem sizes
+    # layout (num_groups, 4):(4, 1)
+    tensor_of_problem_sizes = torch.tensor(


the host contains many torch tensor creation thus the benchmark costs will be longer as the cuda event will count costs of the entire custom_kernel.

vickiw973 · 2025-10-23T06:29:00Z

The tests can pass with the latest CuTe DSL release

pip3 install --upgrade nvidia-cutlass-dsl --pre

For NVFP4 GEMV (using FFMA to simulate the computation logic)

reference-kernels/problems/nvidia/nvfp4_gemv> python3 eval.py test task.yml 
compile: start
compile: pass
test-count: 10
test.0.spec: m: 128; k: 256; l: 1; seed: 1111
test.0.status: pass
test.1.spec: m: 128; k: 1536; l: 1; seed: 1111
test.1.status: pass
test.2.spec: m: 128; k: 3072; l: 1; seed: 1111
test.2.status: pass
test.3.spec: m: 256; k: 7168; l: 1; seed: 1111
test.3.status: pass
test.4.spec: m: 256; k: 7168; l: 1; seed: 1111
test.4.status: pass
test.5.spec: m: 2432; k: 4608; l: 2; seed: 1111
test.5.status: pass
test.6.spec: m: 384; k: 7168; l: 2; seed: 1111
test.6.status: pass
test.7.spec: m: 512; k: 512; l: 2; seed: 1111
test.7.status: pass
test.8.spec: m: 512; k: 4096; l: 2; seed: 1111
test.8.status: pass
test.9.spec: m: 512; k: 1536; l: 2; seed: 1111
test.9.status: pass
check: pass

For NVFP4 GEMM (using tensor-core)

reference-kernels/problems/nvidia/nvfp4_gemm> python3 eval.py test task.yml
compile: start
compile: pass
test-count: 10
test.0.status: pass
test.1.spec: m: 128; n: 1536; k: 7168; l: 1; seed: 1111
test.1.status: pass
test.2.spec: m: 128; n: 3072; k: 1536; l: 1; seed: 1111
test.2.status: pass
test.3.spec: m: 256; n: 7168; k: 256; l: 1; seed: 1111
test.3.status: pass
test.4.spec: m: 256; n: 7168; k: 2048; l: 1; seed: 1111
test.4.status: pass
test.5.spec: m: 2304; n: 4608; k: 7168; l: 1; seed: 1111
test.5.status: pass
test.6.spec: m: 384; n: 7168; k: 2304; l: 1; seed: 1111
test.6.status: pass
test.7.spec: m: 512; n: 512; k: 7168; l: 1; seed: 1111
test.7.status: pass
test.8.spec: m: 512; n: 4096; k: 512; l: 1; seed: 1111
test.8.status: pass
test.9.spec: m: 512; n: 1536; k: 7168; l: 1; seed: 1111
test.9.status: pass
check: pass

For NVFP4 dual_gemm(using tensor-core)

reference-kernels/problems/nvidia/nvfp4_dual_gemm>  python3 eval.py test task.yml
compile: start
compile: pass
test-count: 10
test.0.spec: m: 128; n: 256; k: 256; l: 1; seed: 1111
test.0.status: pass
test.1.spec: m: 128; n: 1536; k: 7168; l: 1; seed: 1111
test.1.status: pass
test.2.spec: m: 128; n: 3072; k: 1536; l: 1; seed: 1111
test.2.status: pass
test.3.spec: m: 256; n: 7168; k: 256; l: 1; seed: 1111
test.3.status: pass
test.4.spec: m: 256; n: 7168; k: 2048; l: 1; seed: 1111
test.4.status: pass
test.5.spec: m: 2304; n: 4608; k: 7168; l: 1; seed: 1111
test.5.status: pass
test.6.spec: m: 384; n: 7168; k: 2304; l: 1; seed: 1111
test.6.status: pass
test.7.spec: m: 512; n: 512; k: 7168; l: 1; seed: 1111
test.7.status: pass
test.8.spec: m: 512; n: 4096; k: 512; l: 1; seed: 1111
test.8.status: pass
test.9.spec: m: 512; n: 1536; k: 7168; l: 1; seed: 1111
test.9.status: pass
check: pass

For NVFP4 group gemm(using tensor-core)

reference-kernels/problems/nvidia/nvfp4_group_gemm>
compile: start
compile: pass
test-count: 10
test.0.spec: m: 128; n: 256; k: 512; g: 8; seed: 1111
test.0.status: pass
test.1.spec: m: 128; n: 256; k: 512; g: 2; seed: 1111
test.1.status: pass
test.2.spec: m: 128; n: 384; k: 640; g: 3; seed: 1111
test.2.status: pass
test.3.spec: m: 256; n: 384; k: 640; g: 4; seed: 1111
test.3.status: pass
test.4.spec: m: 256; n: 512; k: 384; g: 2; seed: 1111
test.4.status: pass
test.5.spec: m: 384; n: 512; k: 384; g: 2; seed: 1111
test.5.status: pass
test.6.spec: m: 384; n: 640; k: 512; g: 2; seed: 1111
test.6.status: pass
test.7.spec: m: 256; n: 640; k: 128; g: 8; seed: 1111
test.7.status: pass
test.8.spec: m: 512; n: 768; k: 256; g: 5; seed: 1111
test.8.status: pass
test.9.spec: m: 512; n: 768; k: 768; g: 3; seed: 1111
test.9.status: pass
check: pass

vickiw973 added 17 commits October 8, 2025 22:05

add simulated nvfp4 gemv example.

3dc5c96

modify the code

9b5aae3

fix function failure for fp4 simulated gemv

5726cbc

rename the folder

232ab54

remove useless files

eb7cf9e

improve testing time.

9a1d6c9

remove useless file.

2eaef11

simplify nvfp4 gemv code

174ffdf

add nvfp4 gemm code.

4d3bd27

fix typo in comments.

8410579

add dual gemm example

82e0912

add group nvfp4 example

3492972

move scale factor reorder operation to host.

cf64255

move scale factor initialization function to reference.

d229c90

simplify code

a9e20d4

remove useless files.

20c0bb0

move some costs to host.

634a0b3

vickiw973 commented Oct 21, 2025

View reviewed changes

improve speed of light analysis.

3ad7680

improve comments.

0d7d037

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Add a nvfp4 gemv example #69

Add a nvfp4 gemv example #69

Uh oh!

vickiw973 commented Oct 10, 2025

Uh oh!

vickiw973 Oct 21, 2025

Uh oh!

vickiw973 commented Oct 23, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Add a nvfp4 gemv example #69

Are you sure you want to change the base?

Add a nvfp4 gemv example #69

Uh oh!

Conversation

vickiw973 commented Oct 10, 2025

Uh oh!

vickiw973 Oct 21, 2025

Choose a reason for hiding this comment

Uh oh!

vickiw973 commented Oct 23, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant