[CI] Add complete CI testing for all supported models & quant types

mikepapadim · mikepapadim · commit cfe367eb01c6 · 2025-11-27T11:44:24.000+02:00
diff --git a/.github/workflows/build-and-run.yml b/.github/workflows/build-and-run.yml
@@ -7,7 +7,6 @@ on:
     branches: [ main ]  
     types: [opened, synchronize,  reopened]
 
-
 jobs:
   build-and-run:
     runs-on: self-hosted
@@ -26,11 +25,11 @@ jobs:
       - name: Check code formatting (Spotless)
         run: |
           cd ${{ github.workspace }}
-          #./mvnw -T12C -Pspotless spotless:check
+          # ./mvnw -T12C -Pspotless spotless:check
           
-      - name: Clone TornadoVM explicitly
+      - name: Clone Latest TornadoVM
         run: |
-          git clone --depth 1 --branch develop \
+          git clone --depth 1 --branch master \
             https://github.com/beehive-lab/TornadoVM.git \
             GPULlama3.java/external/tornadovm
       - name: Set up Python venv for TornadoVM
@@ -40,7 +39,6 @@ jobs:
           python --version
       - name: Build TornadoVM
         run: |
-          set -x
           cd GPULlama3.java/external/tornadovm
           source venv/bin/activate
           echo "=== Building TornadoVM ==="
@@ -66,59 +64,91 @@ jobs:
           echo "=== Checking tornado CLI ==="
           which tornado || { echo "::error::tornado not in PATH"; exit 1; }
           tornado --devices
-      - name: Build GPULlama3
+      - name: Build GPULlama3.java
         run: |
-          set -x
           cd ${{ github.workspace }}
           echo "Using TORNADO_SDK=$TORNADO_SDK"
           export PATH="$TORNADO_SDK/bin:$JAVA_HOME/bin:$PATH"
           which tornado || { echo "::error::tornado unavailable during GPULlama3 build"; exit 1; }
           tornado --version
-          make
-  
-  test-models:
-    runs-on: self-hosted
-    needs: build-and-run
-
-    strategy:
-      fail-fast: false
-      matrix:
-        model:
-          - /opt/models/DeepSeek-R1-Distill-Qwen-1.5B-F16.gguf
-          - /opt/models/DeepSeek-R1-Distill-Qwen-1.5B-Q8_0.gguf
-          - /opt/models/Llama-3.2-1B-Instruct-F16.gguf
-          - /opt/models/Llama-3.2-1B-Instruct-Q8_0.gguf
-          - /opt/models/Llama-3.2-3B-Instruct-F16.gguf
-          - /opt/models/Llama-3.2-3B-Instruct-Q8_0.gguf
-          - /opt/models/Mistral-7B-Instruct-v0.3.fp16.gguf
-          - /opt/models/Mistral-7B-Instruct-v0.3.Q8_0.gguf
-          - /opt/models/Phi-3-mini-4k-instruct-fp16.gguf
-          - /opt/models/Phi-3-mini-4k-instruct-Q8_0.gguf
-          - /opt/models/Qwen2.5-0.5B-Instruct-f16.gguf
-          - /opt/models/Qwen2.5-0.5B-Instruct-Q8_0.gguf
-          - /opt/models/qwen2.5-1.5b-instruct-fp16.gguf
-          - /opt/models/qwen2.5-1.5b-instruct-q8_0.gguf
-          - /opt/models/Qwen3-0.6B-f16.gguf
-          - /opt/models/Qwen3-0.6B-Q8_0.gguf
-          - /opt/models/Qwen3-4B-f16.gguf
-          - /opt/models/Qwen3-4B-Q8_0.gguf
-
-    env:
-      JAVA_HOME: /opt/jenkins/jdks/graal-23.1.0/jdk-21.0.3
-      TORNADO_SDK: ${{ needs.build-and-run.outputs.tornado_sdk }}
-
-    steps:
-      - name: Checkout GPULlama3
-        uses: actions/checkout@v4
-
-      - name: Run inference for ${{ matrix.model }}
+          ./mvnw clean package -DskipTests
+      - name: FP16 - Run Llama-3.2-1B-Instruct-F16.gguf
         run: |
-          set -x
           cd ${{ github.workspace }}
-
           export PATH="$TORNADO_SDK/bin:$JAVA_HOME/bin:$PATH"
-          echo "Using Tornado SDK: $TORNADO_SDK"
-
+          which tornado || { echo "::error::tornado not found at runtime"; exit 1; }
+          ./llama-tornado --gpu --opencl \
+            --model /home/michalis/models/Llama-3.2-1B-Instruct-F16.gguf \
+            --prompt "Say hello"
+      - name: FP16 - Run Qwen3-4B-f16.gguf
+        run: |
+          cd ${{ github.workspace }}
+          export PATH="$TORNADO_SDK/bin:$JAVA_HOME/bin:$PATH"
+          which tornado || { echo "::error::tornado not found at runtime"; exit 1; }
+          ./llama-tornado --gpu --opencl \
+            --model /opt/models/Qwen3-4B-f16.gguf \
+            --prompt "Say hello"
+      - name: FP16 - Run Mistral-7B-Instruct-v0.3.fp16.gguf
+        run: |
+          cd ${{ github.workspace }}
+          export PATH="$TORNADO_SDK/bin:$JAVA_HOME/bin:$PATH"
+          which tornado || { echo "::error::tornado not found at runtime"; exit 1; }
+          ./llama-tornado --gpu --opencl \
+            --model /opt/models/Mistral-7B-Instruct-v0.3.fp16.gguf \
+            --prompt "Say hello"
+      - name: FP16 - Run Qwen2.5-1.5b-instruct-fp16.gguf
+        run: |
+          cd ${{ github.workspace }}
+          export PATH="$TORNADO_SDK/bin:$JAVA_HOME/bin:$PATH"
+          which tornado || { echo "::error::tornado not found at runtime"; exit 1; }
+          ./llama-tornado --gpu --opencl \
+            --model /opt/models/qwen2.5-1.5b-instruct-fp16.gguf \
+            --prompt "Say hello"
+      - name: FP16 - Run Phi-3-mini-4k-instruct-fp16.gguf
+        run: |
+          cd ${{ github.workspace }}
+          export PATH="$TORNADO_SDK/bin:$JAVA_HOME/bin:$PATH"
+          which tornado || { echo "::error::tornado not found at runtime"; exit 1; }
+          ./llama-tornado --gpu --opencl \
+            --model /opt/models/Phi-3-mini-4k-instruct-fp16.gguf \
+            --prompt "Say hello"
+      - name: Q8 - Run Llama-3.2-1B-Instruct-Q8_0.gguf
+        run: |
+          cd ${{ github.workspace }}
+          export PATH="$TORNADO_SDK/bin:$JAVA_HOME/bin:$PATH"
+          which tornado || { echo "::error::tornado not found at runtime"; exit 1; }
+          ./llama-tornado --gpu --opencl \
+            --model /opt/models/Llama-3.2-1B-Instruct-Q8_0.gguf \
+            --prompt "Say hello"
+      - name: Q8 - Run Qwen3-0.6B-Q8_0.gguf
+        run: |
+          cd ${{ github.workspace }}
+          export PATH="$TORNADO_SDK/bin:$JAVA_HOME/bin:$PATH"
+          which tornado || { echo "::error::tornado not found at runtime"; exit 1; }
+          ./llama-tornado --gpu --opencl \
+            --model /opt/models/Qwen3-0.6B-Q8_0.gguf \
+            --prompt "Say hello"
+      - name: Q8 - Run Phi-3-mini-4k-instruct-Q8_0.gguf
+        run: |
+          cd ${{ github.workspace }}
+          export PATH="$TORNADO_SDK/bin:$JAVA_HOME/bin:$PATH"
+          which tornado || { echo "::error::tornado not found at runtime"; exit 1; }
+          ./llama-tornado --gpu --opencl \
+            --model /opt/models/Phi-3-mini-4k-instruct-Q8_0.gguf \
+            --prompt "Say hello"
+      - name: Q8 - Run Qwen2.5-1.5b-instruct-q8_0.gguf
+        run: |
+          cd ${{ github.workspace }}
+          export PATH="$TORNADO_SDK/bin:$JAVA_HOME/bin:$PATH"
+          which tornado || { echo "::error::tornado not found at runtime"; exit 1; }
+          ./llama-tornado --gpu --opencl \
+            --model /opt/models/qwen2.5-1.5b-instruct-q8_0.gguf \
+            --prompt "Say hello"
+      - name: Q8 - Mistral-7B-Instruct-v0.3.Q8_0.gguf
+        run: |
+          cd ${{ github.workspace }}
+          export PATH="$TORNADO_SDK/bin:$JAVA_HOME/bin:$PATH"
+          which tornado || { echo "::error::tornado not found at runtime"; exit 1; }
           ./llama-tornado --gpu --opencl \
-            --model "${{ matrix.model }}" \
+            --model /opt/models/Mistral-7B-Instruct-v0.3.Q8_0.gguf \
             --prompt "Say hello"
diff --git a/README.md b/README.md
@@ -1,4 +1,4 @@
-# GPULlama3.java powered by TornadoVM
+# GPULlama3.java powered by TornadoVM [![GPULlama3 Build & Run Inference](https://github.com/beehive-lab/GPULlama3.java/actions/workflows/build-and-run.yml/badge.svg)](https://github.com/beehive-lab/GPULlama3.java/actions/workflows/build-and-run.yml)
 ![Java Version](https://img.shields.io/badge/java-21+-blue?style=for-the-badge&logo=openjdk)
 ![OpenCL](https://img.shields.io/badge/OpenCL-supported-blue?style=for-the-badge&logo=khronos)
 ![CUDA](https://img.shields.io/badge/CUDA/PTX-supported-76B900?style=for-the-badge&logo=nvidia)
diff --git a/llama-tornado b/llama-tornado
@@ -410,7 +410,7 @@ def create_parser() -> argparse.ArgumentParser:
         const=Backend.PTX,
         help="Use PTX/CUDA backend",
     )
-    hw_group.add_argument("--gpu-memory", default="7GB", help="GPU memory allocation")
+    hw_group.add_argument("--gpu-memory", default="14GB", help="GPU memory allocation")
     hw_group.add_argument("--heap-min", default="20g", help="Minimum JVM heap size")
     hw_group.add_argument("--heap-max", default="20g", help="Maximum JVM heap size")
 
diff --git a/src/main/java/org/beehive/gpullama3/tornadovm/layers/type/fp16/Phi3FP16FFNLayers.java b/src/main/java/org/beehive/gpullama3/tornadovm/layers/type/fp16/Phi3FP16FFNLayers.java
@@ -156,12 +156,12 @@ TaskGraph setupSinglePhi3FFNLayer(Phi3TornadoWeights weights, int layerIndex) {
         unifiedLayer.consumeFromDevice(phi3State.wrapX);
         unifiedLayer.transferToDevice(DataTransferMode.FIRST_EXECUTION,
                 // Copy-in weights per layer for batched-layered layout
-                weights.rms_att_weightLayered[layerIndex],
-                weights.wqkvLayered[layerIndex],
-                weights.woLayered[layerIndex],
-                weights.rms_ffn_weightLayered[layerIndex],
-                weights.wUpLayered[layerIndex],
-                weights.wDownLayered[layerIndex]
+                weights.rms_att_weightLayered[layerIndex].asFloatArray(),
+                weights.wqkvLayered[layerIndex].asHalfFloatArray(),
+                weights.woLayered[layerIndex].asHalfFloatArray(),
+                weights.rms_ffn_weightLayered[layerIndex].asFloatArray(),
+                weights.wUpLayered[layerIndex].asHalfFloatArray(),
+                weights.wDownLayered[layerIndex].asHalfFloatArray()
         );
         unifiedLayer = configureLayerDataTransfers(unifiedLayer, layerIndex);
 

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-# GPULlama3.java powered by TornadoVM`
	`1`	`+# GPULlama3.java powered by TornadoVM [![GPULlama3 Build & Run Inference](https://github.com/beehive-lab/GPULlama3.java/actions/workflows/build-and-run.yml/badge.svg)](https://github.com/beehive-lab/GPULlama3.java/actions/workflows/build-and-run.yml)`
`2`	`2`	`![Java Version](https://img.shields.io/badge/java-21+-blue?style=for-the-badge&logo=openjdk)`
`3`	`3`	`![OpenCL](https://img.shields.io/badge/OpenCL-supported-blue?style=for-the-badge&logo=khronos)`
`4`	`4`	`![CUDA](https://img.shields.io/badge/CUDA/PTX-supported-76B900?style=for-the-badge&logo=nvidia)`
Original file line number	Diff line number	Diff line change
`@@ -410,7 +410,7 @@ def create_parser() -> argparse.ArgumentParser:`
`410`	`410`	`const=Backend.PTX,`
`411`	`411`	`help="Use PTX/CUDA backend",`
`412`	`412`	`)`
`413`		`- hw_group.add_argument("--gpu-memory", default="7GB", help="GPU memory allocation")`
	`413`	`+ hw_group.add_argument("--gpu-memory", default="14GB", help="GPU memory allocation")`
`414`	`414`	`hw_group.add_argument("--heap-min", default="20g", help="Minimum JVM heap size")`
`415`	`415`	`hw_group.add_argument("--heap-max", default="20g", help="Maximum JVM heap size")`
`416`	`416`