Replace getHalf with getHalfFloat for Q8_0 block scale loading in compute kernels

orionpapadakis · orionpapadakis · commit 68729ee6d57e · 2025-12-05T13:38:10.000+02:00
diff --git a/src/main/java/org/beehive/gpullama3/tornadovm/kernels/TransformerComputeKernels.java b/src/main/java/org/beehive/gpullama3/tornadovm/kernels/TransformerComputeKernels.java
@@ -47,7 +47,7 @@ public static void convertQ8_0toFP32(KernelContext context, ByteArray x, FloatAr
         int blockByteOffset = blockIdx * Q8_0_BLOCK_BYTES;
 
         // Load scale (first 2 bytes of block as HalfFloat)
-        HalfFloat scale = x.getHalf(blockByteOffset);
+        HalfFloat scale = x.getHalfFloat(blockByteOffset);
         float scaleFloat = scale.getFloat32();
 
         // Load quantized value (skip 2-byte scale, then index within block)
diff --git a/src/main/java/org/beehive/gpullama3/tornadovm/kernels/TransformerComputeKernelsLayered.java b/src/main/java/org/beehive/gpullama3/tornadovm/kernels/TransformerComputeKernelsLayered.java
@@ -1056,7 +1056,7 @@ public static float matrixVectorRowMajorOptimizedQ8_0Byte(KernelContext context,
             int blockByteOffset = (rowBlockOffset + blockIdx) * Q8_0_BLOCK_BYTES;
 
             // Load scale (first 2 bytes of block as HalfFloat)
-            HalfFloat scale = q.getHalf(blockByteOffset);
+            HalfFloat scale = q.getHalfFloat(blockByteOffset);
             float scaleFloat = scale.getFloat32();
 
             // Load 4 consecutive quantized values
@@ -1084,7 +1084,7 @@ public static float matrixVectorRowMajorOptimizedQ8_0Byte(KernelContext context,
             int blockByteOffset = (rowBlockOffset + blockIdx) * Q8_0_BLOCK_BYTES;
 
             // Load scale
-            HalfFloat scale = q.getHalf(blockByteOffset);
+            HalfFloat scale = q.getHalfFloat(blockByteOffset);
             float scaleFloat = scale.getFloat32();
 
             // Load quantized value