Added vllm generation; Improved one error message #53

ytzi · 2025-05-20T05:21:54Z

Adding a vllm generation backend that should be compatible with the original generation backend using Transformers pipeline.

Important difference compared to original backend:

Supports multi-gpu;
no batch_size parameter: vllm dynamically chooses the most optimal batch size.

Added vllm generation; improved one error message

c0ba140

Provide feedback