### Motivation cache_max_entry_count参数可以配置剩余GPU显存用于kv cache的比例,如果有多个模型在同一个GPU上启动,剩余GPU占用是动态变化的,容易导致有的模型启动失败,同时在推理阶段可能因为分配的kv cache显存不够导致推理失败 ### Related resources _No response_ ### Additional context _No response_