Merge branch 'main' of github.com:beehive-lab/GPULlama3.java

mikepapadim · mikepapadim · commit 288e2f12d014 · 2025-12-02T16:28:19.000+02:00
diff --git a/src/main/java/org/beehive/gpullama3/model/loader/ModelLoader.java b/src/main/java/org/beehive/gpullama3/model/loader/ModelLoader.java
@@ -127,7 +127,7 @@ public static TornadoTensor loadTornadoTensor(GGMLTensorEntry entry) {
         return switch (ggmlType) {
             case F32 -> FP32TornadoTensor.fromTornadoMemorySegment(entry.memorySegment());
             case F16 -> FP16TornadoTensor.fromTornadoMemorySegment(entry.memorySegment());
-            case Q8_0 -> Q8_0TornadoTensor.create(entry);
+            case Q8_0 -> Q8_0TornadoTensor.createAsQ8_0(entry);
             case Q4_0 -> throw new UnsupportedOperationException("Q4 format not supported yet");
             default -> throw new UnsupportedOperationException("Quantization format " + ggmlType);
         };
@@ -163,16 +163,7 @@ public static TornadoTensor loadTornadoTensorAsFP32(GGMLTensorEntry entry) {
                 }
                 yield new FP32TornadoTensor(tensorFA);
             }
-            case Q8_0 -> {
-                Q8_0TornadoTensor tensorQ8_0 = Q8_0TornadoTensor.create(entry);
-                int numOfElements = tensorQ8_0.getSize();
-                FloatArray tensorFA = new FloatArray(numOfElements);
-                for (int i = 0; i < numOfElements; i++) {
-                    tensorFA.set(i, tensorQ8_0.getFloat(i));
-                }
-                yield new FP32TornadoTensor(tensorFA);
-
-            }
+            case Q8_0 -> Q8_0TornadoTensor.createAsFP32(entry);
             default -> {
                 throw new UnsupportedOperationException("Unsupported tensor type: " + tensor.type());
             }
@@ -200,7 +191,7 @@ public static HalfFloatArray[] loadArrayAsHalfFloatArray(int size, IntFunction<G
     public static Q8_0TornadoTensor[] loadArrayAsQ8_0TornadoTensor(int size, IntFunction<GGMLTensorEntry> getTensorEntry) {
         Q8_0TornadoTensor[] array = new Q8_0TornadoTensor[size];
         for (int i = 0; i < size; i++) {
-            array[i] = Q8_0TornadoTensor.create(getTensorEntry.apply(i));
+            array[i] = Q8_0TornadoTensor.createAsQ8_0(getTensorEntry.apply(i));
         }
         return array;
     }
diff --git a/src/main/java/org/beehive/gpullama3/tensor/tornado/Q8_0TornadoTensor.java b/src/main/java/org/beehive/gpullama3/tensor/tornado/Q8_0TornadoTensor.java
@@ -4,13 +4,13 @@
 import org.beehive.gpullama3.tensor.GGMLType;
 import org.beehive.gpullama3.tensor.standard.FloatTensor;
 import uk.ac.manchester.tornado.api.types.HalfFloat;
-import uk.ac.manchester.tornado.api.types.arrays.HalfFloatArray;
-import uk.ac.manchester.tornado.api.types.arrays.Int8Array;
-import uk.ac.manchester.tornado.api.types.arrays.TornadoNativeArray;
+import uk.ac.manchester.tornado.api.types.arrays.*;
 
 import java.lang.foreign.MemorySegment;
 import java.lang.foreign.ValueLayout;
 import java.nio.ByteOrder;
+import java.util.concurrent.*;
+import java.util.stream.IntStream;
 
 public class Q8_0TornadoTensor extends TornadoTensor {
 
@@ -71,7 +71,10 @@ public float getFloat(int index) {
         return quant * scale;
     }
 
-    public static Q8_0TornadoTensor create(GGMLTensorEntry entry) {
+    /**
+     * Creates a Q8_0TornadoTensor from a GGMLTensorEntry (original implementation).
+     */
+    public static Q8_0TornadoTensor createAsQ8_0(GGMLTensorEntry entry) {
         if (entry.ggmlType() != GGMLType.Q8_0) {
             throw new IllegalArgumentException("Expected Q8_0 tensor, got: " + entry.ggmlType() + " for tensor: " + entry.name());
         }
@@ -97,22 +100,96 @@ public static Q8_0TornadoTensor create(GGMLTensorEntry entry) {
         ValueLayout.OfShort shortLayout = ValueLayout.JAVA_SHORT_UNALIGNED.withOrder(ByteOrder.LITTLE_ENDIAN);
         ValueLayout.OfByte byteLayout = ValueLayout.JAVA_BYTE;
 
-        for (int block = 0; block < numBlocks; block++) {
-            // TODO: use GGML type method for the 34L size
-            long blockOffset = block * 34L;  // 34 bytes per block
+        // element-wise copy and unpack from MemorySegment to HalfFloatArray scales and Int8Array quants
+        // use parallel streams and unroll inner loop for better performance
+        IntStream.range(0, numBlocks)
+                .parallel()
+                .forEach(block -> {
+                    // TODO: use GGML type method for the 34L size
+                    long blockOffset = block * 34L;  // 34 bytes per block
+
+                    // read fp16 scale (first 2 bytes of block)
+                    short scaleRaw = q8Segment.get(shortLayout, blockOffset);
+                    scales.set(block, new HalfFloat(scaleRaw));
+                    int blockStart = block * 32;
+
+                    // read 32 int8 quantized values (remaining bytes of block)
+                    // TODO: use GGML type method for the 32 size
+                    for (int i = 0; i < 32; i += 4) {
+                        // unroll inner loop for better performance
+                        byte q0 = q8Segment.get(byteLayout, blockOffset + 2 + i);
+                        byte q1 = q8Segment.get(byteLayout, blockOffset + 2 + i + 1);
+                        byte q2 = q8Segment.get(byteLayout, blockOffset + 2 + i + 2);
+                        byte q3 = q8Segment.get(byteLayout, blockOffset + 2 + i + 3);
+
+                        quants.set(blockStart + i,     q0);
+                        quants.set(blockStart + i + 1, q1);
+                        quants.set(blockStart + i + 2, q2);
+                        quants.set(blockStart + i + 3, q3);
+                    }
+                });
 
-            // read fp16 scale (first 2 bytes of block)
-            short scaleRaw = q8Segment.get(shortLayout, blockOffset);
-            scales.set(block, new HalfFloat(scaleRaw));
+        return new Q8_0TornadoTensor(size, scales, quants, q8Segment);
+    }
 
-            // read 32 int8 quantized values (remaining bytes of block)
-            // TODO: use GGML type method for the 32 size
-            for (int i = 0; i < 32; i++) {
-                byte quantValue = q8Segment.get(byteLayout, blockOffset + 2 + i);
-                quants.set(block * 32 + i, quantValue);
-            }
+    /**
+     * Creates a Q8_0TornadoTensor formulated as FP32TornadoTensor object from a GGMLTensorEntry.
+     * NOTE: Hack implementation to comply with FP32 inference.
+     */
+    public static FP32TornadoTensor createAsFP32(GGMLTensorEntry entry) {
+        if (entry.ggmlType() != GGMLType.Q8_0) {
+            throw new IllegalArgumentException("Expected Q8_0 tensor, got: " + entry.ggmlType() + " for tensor: " + entry.name());
         }
 
-        return new Q8_0TornadoTensor(size, scales, quants, q8Segment);
+        int[] shape = entry.shape();
+        int size = FloatTensor.numberOfElements(shape);
+        int numBlocks = size / GGMLType.Q8_0.getBlockSize();
+
+        if (size % GGMLType.Q8_0.getBlockSize() != 0) {
+            throw new IllegalArgumentException("Q8_0 tensor size must be multiple of " + GGMLType.Q8_0.getBlockSize() + ", got: " + size + " for tensor: " + entry.name());
+        }
+
+        // TODO: fix Q8_0 loading in tornado layoyt
+        //  currently we end up to hack it by removing
+        //  tornado header from memory segment
+        MemorySegment q8Segment = entry.memorySegment().asSlice(TornadoNativeArray.ARRAY_HEADER);
+
+        // allocate the FloatArray to store the result
+        FloatArray floatArray = new FloatArray(size);
+
+        // unpack Q8_0 blocks: [2 bytes fp16 scale][32 bytes int8 quants]
+        ValueLayout.OfShort shortLayout = ValueLayout.JAVA_SHORT_UNALIGNED.withOrder(ByteOrder.LITTLE_ENDIAN);
+        ValueLayout.OfByte byteLayout = ValueLayout.JAVA_BYTE;
+
+        // element-wise dequantization and copy from MemorySegment to FloatArray
+        // use parallel streams and unroll inner loop for better performance
+        IntStream.range(0, numBlocks)
+                .parallel()
+                .forEach(block -> {
+                    // TODO: use GGML type method for the 34L size
+                    long blockOffset = block * 34L;  // 34 bytes per block
+
+                    // read fp16 scale (first 2 bytes of block) and convert to float
+                    short scaleRaw = q8Segment.get(shortLayout, blockOffset);
+                    float scale = Float.float16ToFloat(scaleRaw);
+                    int blockStart = block * 32;
+
+                    // read 32 int8 quantized values (remaining bytes of block)
+                    // TODO: use GGML type method for the 32 size
+                    for (int i = 0; i < 32; i += 4) {
+                        // unroll inner loop for better performance
+                        byte q0 = q8Segment.get(byteLayout, blockOffset + 2 + i);
+                        byte q1 = q8Segment.get(byteLayout, blockOffset + 2 + i + 1);
+                        byte q2 = q8Segment.get(byteLayout, blockOffset + 2 + i + 2);
+                        byte q3 = q8Segment.get(byteLayout, blockOffset + 2 + i + 3);
+
+                        floatArray.set(blockStart + i,     q0 * scale);
+                        floatArray.set(blockStart + i + 1, q1 * scale);
+                        floatArray.set(blockStart + i + 2, q2 * scale);
+                        floatArray.set(blockStart + i + 3, q3 * scale);
+                    }
+                });
+
+        return new FP32TornadoTensor(floatArray);
     }
 }