ai-dynamo · kthui · Apr 9, 2025 · Apr 8, 2025 · Apr 8, 2025 · Apr 8, 2025
@@ -43,13 +43,13 @@ def parse_vllm_args(service_name, prefix) -> AsyncEngineArgs:
         "--max-local-prefill-length",
         type=int,
         default=1000,
-        help="Maximum length of local prefill",
+        help="Maximum length for local prefill. If remote prefill is enabled and the prefill length is greater than this value the request will be sent for remote prefill, otherwise prefill phase will run locally.",
     )
     parser.add_argument(
         "--max-prefill-queue-size",
         type=int,
         default=3,
-        help="Do not send remote prefill requests (prefill locally) if the queue size is greater than this value",
+        help="Maximum queue size for remote prefill. If the queue size is greater than this value a local prefill request will be sent (assumes disaggregation)",
     )
     parser = AsyncEngineArgs.add_cli_args(parser)
     args = parser.parse_args(vllm_args)