[Kernel] add heuristic gmm block sizes choosing logic #9289

yaochengji · 2025-06-03T23:42:23Z

No description provided.

yaochengji · 2025-06-03T23:57:17Z

The e2e vLLM inference throughput increased from 8.23 req/s to 11.99 req/s in my local benchmark.

torch_xla/experimental/custom_kernel.py

vanbasten23

Thanks Chengji!

[Kernel] add heuristic gmm block sizes choosing logic

41a5002

yaochengji requested review from vanbasten23 and lsy323 June 3, 2025 23:42

vanbasten23 reviewed Jun 4, 2025

View reviewed changes

torch_xla/experimental/custom_kernel.py Show resolved Hide resolved

vanbasten23 reviewed Jun 4, 2025

View reviewed changes

torch_xla/experimental/custom_kernel.py Show resolved Hide resolved

vanbasten23 reviewed Jun 4, 2025

View reviewed changes

torch_xla/experimental/custom_kernel.py Show resolved Hide resolved

fix

90202cf

vanbasten23 approved these changes Jun 4, 2025

View reviewed changes

yaochengji added 2 commits June 4, 2025 18:24

add commnets

227fc0b

add comments

3a100d9

yaochengji enabled auto-merge (squash) June 4, 2025 18:25

yaochengji merged commit e51af25 into master Jun 4, 2025
22 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[Kernel] add heuristic gmm block sizes choosing logic #9289

[Kernel] add heuristic gmm block sizes choosing logic #9289

Uh oh!

yaochengji commented Jun 3, 2025

Uh oh!

yaochengji commented Jun 3, 2025

Uh oh!

Uh oh!

Uh oh!

Uh oh!

vanbasten23 left a comment

Uh oh!

Uh oh!

Uh oh!

[Kernel] add heuristic gmm block sizes choosing logic #9289

[Kernel] add heuristic gmm block sizes choosing logic #9289

Uh oh!

Conversation

yaochengji commented Jun 3, 2025

Uh oh!

yaochengji commented Jun 3, 2025

Uh oh!

Uh oh!

Uh oh!

Uh oh!

vanbasten23 left a comment

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Uh oh!