[Benchmark] Adding "facebook/opt-125m" model in the benchmarking tests for both vLLM and SGLang (#76)

namanlalitnyu · web-flow · commit 774075f86602 · 2025-09-11T23:24:05.000-07:00
* Added facebook model in the benchmark tests

* fixing model length issue

* update the name of the parameter for sglang

* remove not needed tests for sglang

* updated serving tests for sglang

* install nvcc

* fix bug

* fix bug

* fix bug

* fix bug

* fix

* fix

* fix
diff --git a/.github/workflows/sglang-benchmark.yml b/.github/workflows/sglang-benchmark.yml
@@ -186,6 +186,21 @@ jobs:
           # Verify installations
           echo "$(pwd)/sgl_server_env/bin" >> $GITHUB_PATH
 
+      - name: Install NVCC
+        if: env.DEVICE_NAME == 'cuda'
+        shell: bash
+        run: |
+          set -eux
+          sudo apt-get update
+          sudo apt-get install -y wget gnupg
+          wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
+          sudo dpkg -i cuda-keyring_1.1-1_all.deb
+          sudo apt-get update
+          sudo apt-get install -y --no-install-recommends cuda-toolkit-12-8
+          sudo ln -s /usr/local/cuda-12.8 /usr/local/cuda || true
+          echo "CUDA_HOME=/usr/local/cuda-12.8" >> $GITHUB_ENV
+          echo "/usr/local/cuda-12.8/bin" >> $GITHUB_PATH
+
       - name: Setup benchmark tests
         env:
           MODELS: ${{ matrix.models }}
diff --git a/sglang-benchmarks/benchmarks/cuda/serving-tests.json b/sglang-benchmarks/benchmarks/cuda/serving-tests.json
@@ -19,19 +19,19 @@
         }
     },
     {
-        "test_name": "serving_qwen3_30b_a3b_tp8_random_in1k_out2k",
+        "test_name": "serving_gemma_3_27b_it_tp8_random_in1k_out2k",
         "qps_list": [10],
         "server_parameters": {
-            "model": "Qwen/Qwen3-30B-A3B",
+            "model": "google/gemma-3-27b-it",
             "tensor_parallel_size": 8,
             "swap_space": 16,
             "disable_log_stats": "",
             "disable_log_requests": "",
             "load_format": "dummy",
-            "max_model_len": 8192
+            "context_length": 8192
         },
         "client_parameters": {
-            "model": "Qwen/Qwen3-30B-A3B",
+            "model": "google/gemma-3-27b-it",
             "backend": "vllm",
             "dataset_name": "random",
             "num_prompts": 200,
@@ -40,19 +40,19 @@
         }
     },
     {
-        "test_name": "serving_gemma_3_27b_it_tp8_random_in1k_out2k",
+        "test_name": "serving_gemma_3_4b_it_tp1_random_in1k_out2k",
         "qps_list": [10],
         "server_parameters": {
-            "model": "google/gemma-3-27b-it",
-            "tensor_parallel_size": 8,
+            "model": "google/gemma-3-4b-it",
+            "tensor_parallel_size": 1,
             "swap_space": 16,
             "disable_log_stats": "",
             "disable_log_requests": "",
             "load_format": "dummy",
-            "max_model_len": 8192
+            "context_length": 8192
         },
         "client_parameters": {
-            "model": "google/gemma-3-27b-it",
+            "model": "google/gemma-3-4b-it",
             "backend": "vllm",
             "dataset_name": "random",
             "num_prompts": 200,
@@ -61,45 +61,44 @@
         }
     },
     {
-        "test_name": "serving_gemma_3_4b_it_tp1_random_in1k_out2k",
-        "qps_list": [10],
+        "test_name": "serving_opt125m_tp1_sharegpt",
+        "qps_list": [1, 4, 16, "inf"],
         "server_parameters": {
-            "model": "google/gemma-3-4b-it",
+            "model": "facebook/opt-125m",
             "tensor_parallel_size": 1,
             "swap_space": 16,
             "disable_log_stats": "",
             "disable_log_requests": "",
             "load_format": "dummy",
-            "max_model_len": 8192
+            "context_length": 2048
         },
         "client_parameters": {
-            "model": "google/gemma-3-4b-it",
+            "model": "facebook/opt-125m",
             "backend": "vllm",
-            "dataset_name": "random",
-            "num_prompts": 200,
-            "random_input_len": 1024,
-            "random_output_len": 2048
+            "dataset_name": "sharegpt",
+            "dataset_path": "./ShareGPT_V3_unfiltered_cleaned_split.json",
+            "num_prompts": 200
         }
     },
     {
-        "test_name": "serving_qwen3_8b_tp1_random_in1k_out2k",
-        "qps_list": [10],
+        "test_name": "serving_opt125m_tp1_random_in750_out75",
+        "qps_list": [1, 4, 16, "inf"],
         "server_parameters": {
-            "model": "Qwen/Qwen3-8B",
+            "model": "facebook/opt-125m",
             "tensor_parallel_size": 1,
             "swap_space": 16,
             "disable_log_stats": "",
             "disable_log_requests": "",
             "load_format": "dummy",
-            "max_model_len": 8192
+            "context_length": 2048
         },
         "client_parameters": {
-            "model": "Qwen/Qwen3-8B",
+            "model": "facebook/opt-125m",
             "backend": "vllm",
             "dataset_name": "random",
             "num_prompts": 200,
-            "random_input_len": 1024,
-            "random_output_len": 2048
+            "random_input_len": 750,
+            "random_output_len": 75
         }
     }
 ]
diff --git a/vllm-benchmarks/benchmarks/cuda/latency-tests.json b/vllm-benchmarks/benchmarks/cuda/latency-tests.json
@@ -73,6 +73,17 @@
             "max_model_len": 8192
         }
     },
+    {
+        "test_name": "latency_opt125m_tp1",
+        "parameters": {
+            "model": "facebook/opt-125m",
+            "tensor_parallel_size": 1,
+            "load_format": "dummy",
+            "num_iters_warmup": 5,
+            "num_iters": 15,
+            "max_model_len": 2048
+        }
+    },
     {
         "test_name": "latency_deepseek_v3_tp8",
         "parameters": {
diff --git a/vllm-benchmarks/benchmarks/cuda/serving-tests.json b/vllm-benchmarks/benchmarks/cuda/serving-tests.json
@@ -453,6 +453,47 @@
         }
     },
     {
+        "test_name": "serving_opt125m_tp1_sharegpt",
+        "qps_list": [1, 4, 16, "inf"],
+        "server_parameters": {
+            "model": "facebook/opt-125m",
+            "tensor_parallel_size": 1,
+            "swap_space": 16,
+            "disable_log_stats": "",
+            "disable_log_requests": "",
+            "load_format": "dummy",
+            "max_model_len": 2048
+        },
+        "client_parameters": {
+            "model": "facebook/opt-125m",
+            "backend": "vllm",
+            "dataset_name": "sharegpt",
+            "dataset_path": "./ShareGPT_V3_unfiltered_cleaned_split.json",
+            "num_prompts": 200
+        }
+    },
+    {
+        "test_name": "serving_opt125m_tp1_random_in750_out75",
+        "qps_list": [1, 4, 16, "inf"],
+        "server_parameters": {
+            "model": "facebook/opt-125m",
+            "tensor_parallel_size": 1,
+            "swap_space": 16,
+            "disable_log_stats": "",
+            "disable_log_requests": "",
+            "load_format": "dummy",
+            "max_model_len": 2048
+        },
+        "client_parameters": {
+            "model": "facebook/opt-125m",
+            "backend": "vllm",
+            "dataset_name": "random",
+            "num_prompts": 200,
+            "random_input_len": 750,
+            "random_output_len": 75
+        }
+     },
+     {
         "test_name": "serving_deepseek_v3_tp8_random_in5k_out8k",
         "qps_list": [1, 4, 16, "inf"],
         "server_parameters": {
diff --git a/vllm-benchmarks/benchmarks/cuda/throughput-tests.json b/vllm-benchmarks/benchmarks/cuda/throughput-tests.json
@@ -80,6 +80,18 @@
             "max_model_len": 8192
         }
     },
+    {
+        "test_name": "throughput_opt125m_tp1",
+        "parameters": {
+            "model": "facebook/opt-125m",
+            "tensor_parallel_size": 1,
+            "load_format": "dummy",
+            "dataset": "./ShareGPT_V3_unfiltered_cleaned_split.json",
+            "num_prompts": 200,
+            "backend": "vllm",
+            "max_model_len": 2048
+        }
+    },
     {
         "test_name": "throughput_deepseek_v3_tp8",
         "parameters": {
diff --git a/vllm-benchmarks/benchmarks/rocm/latency-tests.json b/vllm-benchmarks/benchmarks/rocm/latency-tests.json
@@ -50,5 +50,16 @@
             "num_iters": 15,
             "max_model_len": 8192
         }
+    },
+    {
+        "test_name": "latency_opt125m_tp1",
+        "parameters": {
+            "model": "facebook/opt-125m",
+            "tensor_parallel_size": 1,
+            "load_format": "dummy",
+            "num_iters_warmup": 5,
+            "num_iters": 15,
+            "max_model_len": 2048
+        }
     }
 ]
diff --git a/vllm-benchmarks/benchmarks/rocm/serving-tests.json b/vllm-benchmarks/benchmarks/rocm/serving-tests.json
@@ -410,5 +410,46 @@
             "random_input_len": 1024,
             "random_output_len": 2048
         }
+    },
+    {
+        "test_name": "serving_opt125m_tp1_sharegpt",
+        "qps_list": [1, 4, 16, "inf"],
+        "server_parameters": {
+            "model": "facebook/opt-125m",
+            "tensor_parallel_size": 1,
+            "swap_space": 16,
+            "disable_log_stats": "",
+            "disable_log_requests": "",
+            "load_format": "dummy",
+            "max_model_len": 2048
+        },
+        "client_parameters": {
+            "model": "facebook/opt-125m",
+            "backend": "vllm",
+            "dataset_name": "sharegpt",
+            "dataset_path": "./ShareGPT_V3_unfiltered_cleaned_split.json",
+            "num_prompts": 200
+        }
+    },
+    {
+        "test_name": "serving_opt125m_tp1_random_in750_out75",
+        "qps_list": [1, 4, 16, "inf"],
+        "server_parameters": {
+            "model": "facebook/opt-125m",
+            "tensor_parallel_size": 1,
+            "swap_space": 16,
+            "disable_log_stats": "",
+            "disable_log_requests": "",
+            "load_format": "dummy",
+            "max_model_len": 2048
+        },
+        "client_parameters": {
+            "model": "facebook/opt-125m",
+            "backend": "vllm",
+            "dataset_name": "random",
+            "num_prompts": 200,
+            "random_input_len": 750,
+            "random_output_len": 75
+        }
     }
 ]
diff --git a/vllm-benchmarks/benchmarks/rocm/throughput-tests.json b/vllm-benchmarks/benchmarks/rocm/throughput-tests.json
@@ -55,5 +55,17 @@
             "backend": "vllm",
             "max_model_len": 8192
         }
+    },
+    {
+        "test_name": "throughput_opt125m_tp1",
+        "parameters": {
+            "model": "facebook/opt-125m",
+            "tensor_parallel_size": 1,
+            "load_format": "dummy",
+            "dataset": "./ShareGPT_V3_unfiltered_cleaned_split.json",
+            "num_prompts": 200,
+            "backend": "vllm",
+            "max_model_len": 2048
+        }
     }
 ]

Original file line number	Diff line number	Diff line change
`@@ -50,5 +50,16 @@`
`50`	`50`	`"num_iters": 15,`
`51`	`51`	`"max_model_len": 8192`
`52`	`52`	`}`
	`53`	`+ },`
	`54`	`+ {`
	`55`	`+ "test_name": "latency_opt125m_tp1",`
	`56`	`+ "parameters": {`
	`57`	`+ "model": "facebook/opt-125m",`
	`58`	`+ "tensor_parallel_size": 1,`
	`59`	`+ "load_format": "dummy",`
	`60`	`+ "num_iters_warmup": 5,`
	`61`	`+ "num_iters": 15,`
	`62`	`+ "max_model_len": 2048`
	`63`	`+ }`
`53`	`64`	`}`
`54`	`65`	`]`
Original file line number	Diff line number	Diff line change
`@@ -55,5 +55,17 @@`
`55`	`55`	`"backend": "vllm",`
`56`	`56`	`"max_model_len": 8192`
`57`	`57`	`}`
	`58`	`+ },`
	`59`	`+ {`
	`60`	`+ "test_name": "throughput_opt125m_tp1",`
	`61`	`+ "parameters": {`
	`62`	`+ "model": "facebook/opt-125m",`
	`63`	`+ "tensor_parallel_size": 1,`
	`64`	`+ "load_format": "dummy",`
	`65`	`+ "dataset": "./ShareGPT_V3_unfiltered_cleaned_split.json",`
	`66`	`+ "num_prompts": 200,`
	`67`	`+ "backend": "vllm",`
	`68`	`+ "max_model_len": 2048`
	`69`	`+ }`
`58`	`70`	`}`
`59`	`71`	`]`