Refactor: Execute Maxtext inference as a module via python3 -m

Yijia Jin · jetstream authors · commit cb86ae263e70 · 2025-04-18T00:05:25.000-07:00
Updated the recommended execution command for the inference script
from `python3 MaxText/decode.py` to `python3 -m MaxText.decode`.

This change utilizes Python's standard module execution mechanism (`-m`),
ensuring the script runs within the proper package context (`MaxText`).
This improves consistency and robustness of import resolution.

No changes were made to the source code itself.

PiperOrigin-RevId: 748949600
diff --git a/benchmarks/mlperf/README.md b/benchmarks/mlperf/README.md
@@ -82,7 +82,7 @@ export SAVE_QUANT_PARAMS_PATH=gs://${USER}-bkt/quantized/llama2-70b-chat
 ```
 export TOKENIZER_PATH=maxtext/assets/tokenizer.llama2
 cd maxtext && \
-python MaxText/decode.py MaxText/configs/base.yml tokenizer_path=${TOKENIZER_PATH} load_parameters_path=${LOAD_PARAMS_PATH} max_prefill_predict_length=1024 max_target_length=2048 model_name=llama2-70b ici_fsdp_parallelism=1 ici_autoregressive_parallelism=1 ici_tensor_parallelism=-1 scan_layers=false weight_dtype=bfloat16 per_device_batch_size=11 attention=dot_product quantization=int8 save_quantized_params_path=${SAVE_QUANT_PARAMS_PATH}
+python3 -m MaxText.decode MaxText/configs/base.yml tokenizer_path=${TOKENIZER_PATH} load_parameters_path=${LOAD_PARAMS_PATH} max_prefill_predict_length=1024 max_target_length=2048 model_name=llama2-70b ici_fsdp_parallelism=1 ici_autoregressive_parallelism=1 ici_tensor_parallelism=-1 scan_layers=false weight_dtype=bfloat16 per_device_batch_size=11 attention=dot_product quantization=int8 save_quantized_params_path=${SAVE_QUANT_PARAMS_PATH}
 ```
 
 Your checkpoint is generated at `$SAVE_QUANT_PARAMS_PATH`. This is used to set `load_parameters_path` param below in `MAXENGINE_ARGS` env variable. 
@@ -96,7 +96,7 @@ huggingface-cli login
 Start Jetstream server in a terminal.
 ```
 cd ~/maxtext
-python MaxText/maxengine_server.py \
+python3 -m MaxText.maxengine_server \
   MaxText/configs/base.yml \
   tokenizer_path=assets/tokenizer.llama2 \
   load_parameters_path="gs://msingh-bkt/checkpoints/quant_llama2-70b-chat/mlperf_070924/int8_" \
diff --git a/benchmarks/mlperf/scripts/tpu_script.sh b/benchmarks/mlperf/scripts/tpu_script.sh
@@ -160,7 +160,7 @@ copy_relevant_files() {
 
 # # source .env/bin/activate
 # your_run_name=jwyang_bs1_llama7b
-# python MaxText/inference_microbenchmark.py \
+# python3 -m MaxText.inference_microbenchmark \
 #   MaxText/configs/base.yml \
 #   base_output_directory=gs://jwyang-data/maxtext-llama2-7b/microbenchmark \
 #   run_name=${your_run_name} \
@@ -192,7 +192,7 @@ export load_parameters_path_chat=gs://jwyang-runner-maxtext-logs/llama2-7b_unsca
 export load_parameters_path=gs://jwyang-runner-maxtext-logs/llama2-7b_unscanned_chkpt_2024-04-26-19-40/checkpoints/0/items
 export load_parameters_path_chat_quantized=gs://jwyang-data/llama7b-chat-quantized-fixed/0/items
 
-python MaxText/maxengine_server.py \
+python3 -m MaxText.maxengine_server \
   MaxText/configs/base.yml \
   base_output_directory=gs://jwyang-data/maxtext-llama2-7b/microbenchmark \
   load_parameters_path=${load_parameters_path_chat} \
@@ -244,7 +244,7 @@ export load_parameters_path=gs://runner-maxtext-logs/2024-05-16-23-59/unscanned_
 
 export experiment_time=$(date +%Y-%m-%d-%H-%M)
 echo "export experiment_time=${experiment_time}"
-python MaxText/maxengine_server.py \
+python3 -m MaxText.maxengine_server \
   MaxText/configs/base.yml \
   base_output_directory=gs://morgandu-tpu/maxtext-logs/microbenchmark/${experiment_time} \
   model_name=llama2-13b \
@@ -269,7 +269,7 @@ python MaxText/maxengine_server.py \
   per_device_batch_size=1
 
 
-python MaxText/inference_microbenchmark.py \
+python3 -m MaxText.inference_microbenchmark \
     MaxText/configs/base.yml \
     base_output_directory=gs://morgandu-tpu/maxtext-logs/microbenchmark/${experiment_time} \
     model_name=llama2-13b \
@@ -298,7 +298,7 @@ python MaxText/inference_microbenchmark.py \
 # # LLaMA2-70B commands
 # # source .env/bin/activate
 # your_run_name=jwyang_bs1_llama70b
-# python MaxText/inference_microbenchmark.py \
+# python3 -m MaxText.inference_microbenchmark \
 #   MaxText/configs/base.yml \
 #   base_output_directory=gs://jwyang-data/maxtext-llama2-70b/microbenchmark \
 #   run_name=${your_run_name} \
@@ -328,7 +328,7 @@ export per_device_batch_size=1
 export prefill_length=16
 export target_length=32
 
-python MaxText/maxengine_server.py \
+python3 -m MaxText.maxengine_server \
   MaxText/configs/base.yml \
   base_output_directory=gs://jwyang-data/maxtext-llama2-70b/microbenchmark \
   run_name=$(date +%Y-%m-%d-%H-%M) \
diff --git a/docs/observability-prometheus-metrics-in-jetstream-server.md b/docs/observability-prometheus-metrics-in-jetstream-server.md
@@ -23,7 +23,7 @@ export PER_DEVICE_BATCH_SIZE=11
 export PROMETHEUS_PORT=9090
 
 cd ~/maxtext
-python MaxText/maxengine_server.py \
+python3 -m MaxText.maxengine_server \
   MaxText/configs/base.yml \
   tokenizer_path=${TOKENIZER_PATH} \
   load_parameters_path=${LOAD_PARAMETERS_PATH} \
diff --git a/docs/online-inference-with-maxtext-engine.md b/docs/online-inference-with-maxtext-engine.md
@@ -157,7 +157,7 @@ export PER_DEVICE_BATCH_SIZE=4
 
 ```bash
 cd ~/maxtext
-python MaxText/maxengine_server.py \
+python3 -m MaxText.maxengine_server \
   MaxText/configs/base.yml \
   tokenizer_path=${TOKENIZER_PATH} \
   load_parameters_path=${LOAD_PARAMETERS_PATH} \
@@ -225,12 +225,12 @@ There are several different quantization configurations to choose from:
 
 #### int8 DRQ quantized checkpoint
 ```bash
-python MaxText/decode.py MaxText/configs/base.yml tokenizer_path=assets/tokenizer.llama2 load_parameters_path=${LOAD_PARAMETERS_PATH} max_prefill_predict_length=1024 max_target_length=2048 model_name=llama2-7b ici_fsdp_parallelism=1 ici_autoregressive_parallelism=1 ici_tensor_parallelism=-1 scan_layers=false weight_dtype=bfloat16 per_device_batch_size=11 attention=dot_product quantization=int8 save_quantized_params_path=${SAVE_QUANT_PARAMS_PATH}
+python3 -m MaxText.decode MaxText/configs/base.yml tokenizer_path=assets/tokenizer.llama2 load_parameters_path=${LOAD_PARAMETERS_PATH} max_prefill_predict_length=1024 max_target_length=2048 model_name=llama2-7b ici_fsdp_parallelism=1 ici_autoregressive_parallelism=1 ici_tensor_parallelism=-1 scan_layers=false weight_dtype=bfloat16 per_device_batch_size=11 attention=dot_product quantization=int8 save_quantized_params_path=${SAVE_QUANT_PARAMS_PATH}
 ```
 
 #### Weights-only int8 quantized checkpoint
 ```bash
-python MaxText/decode.py MaxText/configs/base.yml tokenizer_path=assets/tokenizer.llama2 load_parameters_path=${LOAD_PARAMETERS_PATH} max_prefill_predict_length=1024 max_target_length=2048 model_name=llama2-7b ici_fsdp_parallelism=1 ici_autoregressive_parallelism=1 ici_tensor_parallelism=-1 scan_layers=false weight_dtype=bfloat16 per_device_batch_size=11 attention=dot_product quantization=int8w save_quantized_params_path=${SAVE_QUANT_PARAMS_PATH}
+python3 -m MaxText.decode MaxText/configs/base.yml tokenizer_path=assets/tokenizer.llama2 load_parameters_path=${LOAD_PARAMETERS_PATH} max_prefill_predict_length=1024 max_target_length=2048 model_name=llama2-7b ici_fsdp_parallelism=1 ici_autoregressive_parallelism=1 ici_tensor_parallelism=-1 scan_layers=false weight_dtype=bfloat16 per_device_batch_size=11 attention=dot_product quantization=int8w save_quantized_params_path=${SAVE_QUANT_PARAMS_PATH}
 ```
 
 #### Mixed precision weight-only quantized checkpoint
@@ -247,7 +247,7 @@ First, update the mixed precision config file (`MaxText/configs/quantization/mp_
 ```
 Then run the following command:
 ```bash
-python MaxText/decode.py MaxText/configs/base.yml tokenizer_path=assets/tokenizer.llama2 load_parameters_path=${LOAD_PARAMETERS_PATH} max_prefill_predict_length=1024 max_target_length=2048 model_name=llama2-7b ici_fsdp_parallelism=1 ici_autoregressive_parallelism=1 ici_tensor_parallelism=-1 scan_layers=false weight_dtype=bfloat16 per_device_batch_size=11 attention=dot_product quantization=intmp
+python3 -m MaxText.decode MaxText/configs/base.yml tokenizer_path=assets/tokenizer.llama2 load_parameters_path=${LOAD_PARAMETERS_PATH} max_prefill_predict_length=1024 max_target_length=2048 model_name=llama2-7b ici_fsdp_parallelism=1 ici_autoregressive_parallelism=1 ici_tensor_parallelism=-1 scan_layers=false weight_dtype=bfloat16 per_device_batch_size=11 attention=dot_product quantization=intmp
 quant_cfg_path=configs/quantization/mp_scale.json save_quantized_params_path=${SAVE_QUANT_PARAMS_PATH}
 ```
 
@@ -291,7 +291,7 @@ export QUANTIZE_KVCACHE=False
 export PER_DEVICE_BATCH_SIZE=12
 
 cd ~/maxtext
-python MaxText/maxengine_server.py \
+python3 -m MaxText.maxengine_server \
   MaxText/configs/base.yml \
   tokenizer_path=${TOKENIZER_PATH} \
   load_parameters_path=${LOAD_PARAMETERS_PATH} \
@@ -311,7 +311,7 @@ python MaxText/maxengine_server.py \
 
 For the mixed precision quantized model
 ```bash
-python MaxText/maxengine_server.py \
+python3 -m MaxText.maxengine_server \
   MaxText/configs/base.yml \
   tokenizer_path=${TOKENIZER_PATH} \
   load_parameters_path=${LOAD_PARAMETERS_PATH} \
diff --git a/docs/profiling-with-jax-profiler-and-tensorboard.md b/docs/profiling-with-jax-profiler-and-tensorboard.md
@@ -39,7 +39,7 @@ export ENABLE_JAX_PROFILER=true
 export JAX_PROFILER_PORT=9999
 
 cd ~/maxtext
-python MaxText/maxengine_server.py \
+python3 -m MaxText.maxengine_server \
   MaxText/configs/base.yml \
   tokenizer_path=${TOKENIZER_PATH} \
   load_parameters_path=${LOAD_PARAMETERS_PATH} \
diff --git a/jetstream/tools/maxtext/model_ckpt_conversion.sh b/jetstream/tools/maxtext/model_ckpt_conversion.sh
@@ -55,8 +55,8 @@ gcloud storage buckets create ${BASE_OUTPUT_DIRECTORY} --location=${BUCKET_LOCAT
 
 # Convert model checkpoints to MaxText compatible checkpoints.
 if [ "$MODEL" == "gemma" ]; then
-    CONVERT_CKPT_SCRIPT="convert_gemma_chkpt.py"
-    JAX_PLATFORMS=cpu python MaxText/${CONVERT_CKPT_SCRIPT} \
+    CONVERT_CKPT_SCRIPT="convert_gemma_chkpt"
+    JAX_PLATFORMS=cpu python3 -m MaxText.${CONVERT_CKPT_SCRIPT} \
     --base_model_path ${CHKPT_BUCKET} \
     --maxtext_model_path ${MODEL_BUCKET}/${MODEL}/${MODEL_VARIATION}/${idx} \
     --model_size ${MODEL_VARIATION}
@@ -87,14 +87,14 @@ else
 	    lora_local_path=${LORA_INPUT_ADAPTERS_PATH}
 	fi
 
-	JAX_PLATFORMS=cpu python MaxText/${CONVERT_CKPT_SCRIPT} \
+	JAX_PLATFORMS=cpu python3 -m MaxText.${CONVERT_CKPT_SCRIPT} \
 	--base-model-path ${tmp_ckpt_path}${directory_substring} \
 	--maxtext-model-path ${MODEL_BUCKET}/${MODEL}/${MODEL_VARIATION}/${idx} \
 	--model-size ${MODEL_NAME} \
 	--lora-input-adapters-path ${lora_local_path} \
 	--huggingface-checkpoint ${HUGGING_FACE_CHECKPOINT}
     else
-	JAX_PLATFORMS=cpu python MaxText/${CONVERT_CKPT_SCRIPT} \
+	JAX_PLATFORMS=cpu python3 -m MaxText.${CONVERT_CKPT_SCRIPT} \
 	--base-model-path ${tmp_ckpt_path}${directory_substring} \
 	--maxtext-model-path ${MODEL_BUCKET}/${MODEL}/${MODEL_VARIATION}/${idx} \
 	--model-size ${MODEL_NAME} \
@@ -111,7 +111,7 @@ export SCANNED_CKPT_PATH=${MODEL_BUCKET}/${MODEL}/${MODEL_VARIATION}/${idx}
 export RUN_NAME=${MODEL_NAME}_unscanned_chkpt_${idx}
 
 if [[ ! -z "${LORA_INPUT_ADAPTERS_PATH}" ]]; then
-    JAX_PLATFORMS=cpu python MaxText/generate_param_only_checkpoint.py \
+    JAX_PLATFORMS=cpu python3 -m MaxText.generate_param_only_checkpoint \
     MaxText/configs/base.yml \
     base_output_directory=${BASE_OUTPUT_DIRECTORY} \
     load_parameters_path=${SCANNED_CKPT_PATH}/base/0/items \
@@ -121,7 +121,7 @@ if [[ ! -z "${LORA_INPUT_ADAPTERS_PATH}" ]]; then
     force_unroll=true
     echo "Written MaxText unscanned checkpoint to ${BASE_OUTPUT_DIRECTORY}/${RUN_NAME}/checkpoints"
 else
-    JAX_PLATFORMS=cpu python MaxText/generate_param_only_checkpoint.py \
+    JAX_PLATFORMS=cpu python3 -m MaxText.generate_param_only_checkpoint \
     MaxText/configs/base.yml \
     base_output_directory=${BASE_OUTPUT_DIRECTORY} \
     load_parameters_path=${SCANNED_CKPT_PATH}/0/items \
diff --git a/jetstream/tools/maxtext/model_ckpt_finetune_with_aqt.sh b/jetstream/tools/maxtext/model_ckpt_finetune_with_aqt.sh
@@ -70,7 +70,7 @@ export AQT_CKPT=${BASE_OUTPUT_DIRECTORY}/${RUN_NAME}/checkpoints/100/items
 # Note that the `AQT_CKPT` is in a `scanned` format which is great for training but for efficient decoding performance we want the checkpoint in an `unscanned` format.
 export RUN_NAME=${MODEL_NAME}_unscanned_chkpt_${idx}
 
-JAX_PLATFORMS=cpu python MaxText/generate_param_only_checkpoint.py \
+JAX_PLATFORMS=cpu python3 -m MaxText.generate_param_only_checkpoint \
 MaxText/configs/base.yml \
 base_output_directory=${BASE_OUTPUT_DIRECTORY} \
 load_parameters_path=${AQT_CKPT} \