Rename modelType to quantization across configurations and update associated usages.

orionpapadakis · orionpapadakis · commit 00a4faa643d4 · 2025-12-05T15:31:40.000+02:00
diff --git a/src/main/java/org/beehive/gpullama3/inference/state/LlamaState.java b/src/main/java/org/beehive/gpullama3/inference/state/LlamaState.java
@@ -54,13 +54,11 @@ protected StateFields createStateFields(Configuration config) {
         fields.wrapHb = new FloatArray(config.hiddenDim());
         fields.wrapHb2 = new FloatArray(config.hiddenDim());
 
-        switch (config.modelType()) {
+        switch (config.quantization()) {
             case "FP16" -> fields.createActivationFP16(config.dim());
             case "Q8_0" -> fields.createActivationQ8_0(config.dim());
-            default -> throw new UnsupportedOperationException("Quantization format " + config.modelType());
+            default -> throw new UnsupportedOperationException("Unsupported quantization format: " + config.quantization());
         }
-
-
         fields.wrapLogits = new FloatArray(config.vocabularySize());
         fields.wrapQ = new FloatArray(config.dim());
         fields.wrapK = new FloatArray(config.dim());
diff --git a/src/main/java/org/beehive/gpullama3/inference/state/Phi3State.java b/src/main/java/org/beehive/gpullama3/inference/state/Phi3State.java
@@ -80,10 +80,10 @@ protected StateFields createStateFields(Configuration config) {
         fields.valueCache = Stream.generate(() -> ArrayFloatTensor.allocate(contextLength, kvDim)).limit(nLayers).toArray(FloatTensor[]::new);
 
         // TornadoVM wrapper arrays for GPU acceleration
-        switch (config.modelType()) {
+        switch (config.quantization()) {
             case "FP16" -> fields.createActivationFP16(config.dim());
             case "Q8_0" -> fields.createActivationQ8_0(config.dim());
-            default -> throw new UnsupportedOperationException("Quantization format " + config.modelType());
+            default -> throw new UnsupportedOperationException("Unsupported quantization format: " + config.quantization());
         }
         fields.wrapX = new FloatArray(dim);
         fields.wrapXb = new FloatArray(dim);
diff --git a/src/main/java/org/beehive/gpullama3/inference/state/Qwen2State.java b/src/main/java/org/beehive/gpullama3/inference/state/Qwen2State.java
@@ -41,10 +41,10 @@ protected StateFields createStateFields(Configuration configuration) {
         fields.valueCache = Stream.generate(() -> ArrayFloatTensor.allocate(config.contextLength(), nEmbdGqa)).limit(config.numberOfLayers()).toArray(FloatTensor[]::new);
 
         // TornadoVM wrappers with Qwen2 dimensions
-        switch (config.modelType()) {
+        switch (config.quantization()) {
             case "FP16" -> fields.createActivationFP16(config.dim());
             case "Q8_0" -> fields.createActivationQ8_0(config.dim());
-            default -> throw new UnsupportedOperationException("Quantization format " + config.modelType());
+            default -> throw new UnsupportedOperationException("Unsupported quantization format: " + config.quantization());
         }
         fields.wrapX = new FloatArray(config.dim());
         fields.wrapXb = new FloatArray(config.dim());
diff --git a/src/main/java/org/beehive/gpullama3/inference/state/Qwen3State.java b/src/main/java/org/beehive/gpullama3/inference/state/Qwen3State.java
@@ -67,10 +67,10 @@ protected StateFields createStateFields(Configuration configuration) {
 
         // TornadoVM wrappers with Qwen3-specific sizes
 
-        switch (config.modelType()) {
+        switch (config.quantization()) {
             case "FP16" -> fields.createActivationFP16(config.dim());
             case "Q8_0" -> fields.createActivationQ8_0(config.dim());
-            default -> throw new UnsupportedOperationException("Quantization format " + config.modelType());
+            default -> throw new UnsupportedOperationException("Unsupported quantization format: " + config.quantization());
         }
 
         fields.wrapX = new FloatArray(config.dim());
diff --git a/src/main/java/org/beehive/gpullama3/model/Configuration.java b/src/main/java/org/beehive/gpullama3/model/Configuration.java
@@ -2,7 +2,7 @@
 
 public interface Configuration {
 
-    String modelType();
+    String quantization();
 
     /** Transformer embedding dimension */
     int dim();
diff --git a/src/main/java/org/beehive/gpullama3/model/llama/LlamaConfiguration.java b/src/main/java/org/beehive/gpullama3/model/llama/LlamaConfiguration.java
@@ -3,7 +3,7 @@
 import org.beehive.gpullama3.model.Configuration;
 
 // @formatter:off
-public record LlamaConfiguration(String type,
+public record LlamaConfiguration(String quantization,
                                  int dim,
                                  int hiddenDim,
                                  int numberOfLayers,
@@ -15,8 +15,8 @@ public record LlamaConfiguration(String type,
                                  float ropeTheta) implements Configuration {
 
     @Override
-    public String modelType() {
-        return type;
+    public String quantization() {
+        return quantization;
     }
 
     @Override
@@ -57,7 +57,7 @@ public LlamaConfiguration withContextLength(int newContextLength) {
             return this; // no change
         }
         return new LlamaConfiguration(
-                this.type,
+                this.quantization,
                 this.dim,
                 this.hiddenDim,
                 this.numberOfLayers,
diff --git a/src/main/java/org/beehive/gpullama3/model/mistral/MistralConfiguration.java b/src/main/java/org/beehive/gpullama3/model/mistral/MistralConfiguration.java
@@ -3,7 +3,7 @@
 import org.beehive.gpullama3.model.Configuration;
 
 // @formatter:off
-public record MistralConfiguration(String type,
+public record MistralConfiguration(String quantization,
                                    int dim,
                                    int hiddenDim,
                                    int numberOfLayers,
@@ -15,8 +15,8 @@ public record MistralConfiguration(String type,
                                    float rmsNormEps,
                                    float ropeTheta) implements Configuration {
 
-    @Override public String modelType() {
-        return type;
+    @Override public String quantization() {
+        return quantization;
     }
 
     public int kvDim() {
diff --git a/src/main/java/org/beehive/gpullama3/model/phi3/Phi3Configuration.java b/src/main/java/org/beehive/gpullama3/model/phi3/Phi3Configuration.java
@@ -3,7 +3,7 @@
 import org.beehive.gpullama3.model.Configuration;
 
 // @formatter:off
-public record Phi3Configuration(String type,
+public record Phi3Configuration(String quantization,
                                 int dim,
                                 int hiddenDim,
                                 int numberOfLayers,
@@ -14,8 +14,8 @@ public record Phi3Configuration(String type,
                                 float rmsNormEps,
                                 float ropeTheta) implements Configuration {
 
-    @Override public String modelType() {
-    return type;
+    @Override public String quantization() {
+    return quantization;
     }
 
     @Override
diff --git a/src/main/java/org/beehive/gpullama3/model/qwen2/Qwen2Configuration.java b/src/main/java/org/beehive/gpullama3/model/qwen2/Qwen2Configuration.java
@@ -2,7 +2,7 @@
 
 import org.beehive.gpullama3.model.Configuration;
 
-public record Qwen2Configuration(String type,
+public record Qwen2Configuration(String quantization,
                                  int dim,
                                  int hiddenDim,
                                  int numberOfLayers,
@@ -17,8 +17,8 @@ public record Qwen2Configuration(String type,
                                  float rmsNormEps,
                                  float ropeTheta) implements Configuration {
     @Override
-    public String modelType() {
-        return type;
+    public String quantization() {
+        return quantization;
     }
 
     @Override
diff --git a/src/main/java/org/beehive/gpullama3/model/qwen3/Qwen3Configuration.java b/src/main/java/org/beehive/gpullama3/model/qwen3/Qwen3Configuration.java
@@ -3,7 +3,7 @@
 import org.beehive.gpullama3.model.Configuration;
 
 // @formatter:off
-public record Qwen3Configuration(String type,
+public record Qwen3Configuration(String quantization,
                                  int dim,
                                  int hiddenDim,
                                  int numberOfLayers,
@@ -18,8 +18,8 @@ public record Qwen3Configuration(String type,
                                  float rmsNormEps,
                                  float ropeTheta) implements Configuration {
 
-    @Override public String modelType() {
-        return type;
+    @Override public String quantization() {
+        return quantization;
     }
 
     @Override