remove mlflow app from eval integs (#1951)

mufaddal-rohawala · mufiAmazon · rsareddy0329 · Roja Reddy Sareddy · commit 30149188c740 · 2025-12-03T12:30:11.000-08:00
Co-authored-by: Mufaddal Rohawala &lt;mufi@amazon.com&gt;
Co-authored-by: rsareddy0329 &lt;rsareddy0329@gmail.com&gt;
diff --git a/tests/integ/sagemaker/modules/evaluate/test_benchmark_evaluator.py b/tests/integ/sagemaker/modules/evaluate/test_benchmark_evaluator.py
@@ -125,7 +125,7 @@ def test_benchmark_evaluation_full_flow(self):
             benchmark=Benchmark.GEN_QA,
             model=TEST_CONFIG["model_package_arn"],
             s3_output_path=TEST_CONFIG["s3_output_path"],
-            mlflow_resource_arn=TEST_CONFIG["mlflow_tracking_server_arn"],
+            # mlflow_resource_arn=TEST_CONFIG["mlflow_tracking_server_arn"],
             dataset=TEST_CONFIG["dataset_s3_uri"],
             model_package_group=TEST_CONFIG["model_package_group_arn"],
             base_eval_name="integ-test-gen-qa-eval",
@@ -245,7 +245,7 @@ def test_benchmark_evaluator_validation(self):
                 benchmark="invalid_benchmark",
                 model=TEST_CONFIG["model_package_arn"],
                 s3_output_path=TEST_CONFIG["s3_output_path"],
-                mlflow_resource_arn=TEST_CONFIG["mlflow_tracking_server_arn"],
+                # mlflow_resource_arn=TEST_CONFIG["mlflow_tracking_server_arn"],
                 dataset="s3://bucket/dataset.jsonl",
             )
         
@@ -270,7 +270,7 @@ def test_benchmark_subtasks_validation(self):
             benchmark=Benchmark.MMLU,
             model=TEST_CONFIG["model_package_arn"],
             s3_output_path=TEST_CONFIG["s3_output_path"],
-            mlflow_resource_arn=TEST_CONFIG["mlflow_tracking_server_arn"],
+            # mlflow_resource_arn=TEST_CONFIG["mlflow_tracking_server_arn"],
             dataset="s3://bucket/dataset.jsonl",
             subtasks=["abstract_algebra", "anatomy"],
             model_package_group="arn:aws:sagemaker:us-west-2:123456789012:model-package-group/test",
@@ -283,7 +283,7 @@ def test_benchmark_subtasks_validation(self):
                 benchmark=Benchmark.GEN_QA,
                 model=TEST_CONFIG["model_package_arn"],
                 s3_output_path=TEST_CONFIG["s3_output_path"],
-                mlflow_resource_arn=TEST_CONFIG["mlflow_tracking_server_arn"],
+                # mlflow_resource_arn=TEST_CONFIG["mlflow_tracking_server_arn"],
                 dataset="s3://bucket/dataset.jsonl",
                 subtasks=["invalid"],
                 model_package_group="arn:aws:sagemaker:us-west-2:123456789012:model-package-group/test",
@@ -312,7 +312,7 @@ def test_benchmark_evaluation_base_model_only(self):
             benchmark=Benchmark.GEN_QA,
             model=BASE_MODEL_ONLY_CONFIG["base_model_id"],
             s3_output_path=BASE_MODEL_ONLY_CONFIG["s3_output_path"],
-            mlflow_resource_arn=BASE_MODEL_ONLY_CONFIG["mlflow_tracking_server_arn"],
+            # mlflow_resource_arn=BASE_MODEL_ONLY_CONFIG["mlflow_tracking_server_arn"],
             dataset=BASE_MODEL_ONLY_CONFIG["dataset_s3_uri"],
             base_eval_name="integ-test-base-model-only",
             # Note: model_package_group not needed for JumpStart models
diff --git a/tests/integ/sagemaker/modules/evaluate/test_custom_scorer_evaluator.py b/tests/integ/sagemaker/modules/evaluate/test_custom_scorer_evaluator.py
@@ -99,7 +99,7 @@ def test_custom_scorer_evaluation_full_flow(self):
             dataset=TEST_CONFIG["dataset_s3_uri"],
             model=TEST_CONFIG["model_package_arn"],
             s3_output_path=TEST_CONFIG["s3_output_path"],
-            mlflow_resource_arn=TEST_CONFIG["mlflow_tracking_server_arn"],
+            # mlflow_resource_arn=TEST_CONFIG["mlflow_tracking_server_arn"],
             evaluate_base_model=TEST_CONFIG["evaluate_base_model"],
         )
         
@@ -216,7 +216,7 @@ def test_custom_scorer_evaluator_validation(self):
                 evaluator=123,  # Invalid type (not string, enum, or object)
                 model=TEST_CONFIG["model_package_arn"],
                 s3_output_path=TEST_CONFIG["s3_output_path"],
-                mlflow_resource_arn=TEST_CONFIG["mlflow_tracking_server_arn"],
+                # mlflow_resource_arn=TEST_CONFIG["mlflow_tracking_server_arn"],
                 dataset=TEST_CONFIG["dataset_s3_uri"],
             )
         
@@ -254,7 +254,7 @@ def test_custom_scorer_with_builtin_metric(self):
             dataset=TEST_CONFIG["dataset_s3_uri"],
             model=TEST_CONFIG["model_package_arn"],
             s3_output_path=TEST_CONFIG["s3_output_path"],
-            mlflow_resource_arn=TEST_CONFIG["mlflow_tracking_server_arn"],
+            # mlflow_resource_arn=TEST_CONFIG["mlflow_tracking_server_arn"],
             evaluate_base_model=False,
         )
         
diff --git a/tests/integ/sagemaker/modules/evaluate/test_llm_as_judge_evaluator.py b/tests/integ/sagemaker/modules/evaluate/test_llm_as_judge_evaluator.py
@@ -112,7 +112,7 @@ def test_llm_as_judge_evaluation_full_flow(self):
             dataset=TEST_CONFIG["dataset_s3_uri"],
             builtin_metrics=TEST_CONFIG["builtin_metrics"],
             custom_metrics=TEST_CONFIG["custom_metrics_json"],
-            mlflow_resource_arn=TEST_CONFIG["mlflow_tracking_server_arn"],
+            # mlflow_resource_arn=TEST_CONFIG["mlflow_tracking_server_arn"],
             s3_output_path=TEST_CONFIG["s3_output_path"],
             evaluate_base_model=TEST_CONFIG["evaluate_base_model"],
         )
@@ -235,7 +235,7 @@ def test_llm_as_judge_builtin_metrics_prefix_handling(self):
             evaluator_model=TEST_CONFIG["evaluator_model"],
             dataset=TEST_CONFIG["dataset_s3_uri"],
             s3_output_path=TEST_CONFIG["s3_output_path"],
-            mlflow_resource_arn=TEST_CONFIG["mlflow_tracking_server_arn"],
+            # mlflow_resource_arn=TEST_CONFIG["mlflow_tracking_server_arn"],
             builtin_metrics=["Builtin.Correctness", "Builtin.Helpfulness"],
         )
         assert evaluator_with_prefix.builtin_metrics == ["Builtin.Correctness", "Builtin.Helpfulness"]
@@ -246,7 +246,7 @@ def test_llm_as_judge_builtin_metrics_prefix_handling(self):
             evaluator_model=TEST_CONFIG["evaluator_model"],
             dataset=TEST_CONFIG["dataset_s3_uri"],
             s3_output_path=TEST_CONFIG["s3_output_path"],
-            mlflow_resource_arn=TEST_CONFIG["mlflow_tracking_server_arn"],
+            # mlflow_resource_arn=TEST_CONFIG["mlflow_tracking_server_arn"],
             builtin_metrics=["Correctness", "Helpfulness"],
         )
         assert evaluator_without_prefix.builtin_metrics == ["Correctness", "Helpfulness"]
@@ -271,7 +271,7 @@ def test_llm_as_judge_builtin_metrics_only(self):
             evaluator_model=TEST_CONFIG["evaluator_model"],
             dataset=TEST_CONFIG["dataset_s3_uri"],
             builtin_metrics=["Completeness", "Faithfulness", "Helpfulness"],
-            mlflow_resource_arn=TEST_CONFIG["mlflow_tracking_server_arn"],
+            # mlflow_resource_arn=TEST_CONFIG["mlflow_tracking_server_arn"],
             s3_output_path=TEST_CONFIG["s3_output_path"],
             evaluate_base_model=False,
         )
@@ -319,7 +319,7 @@ def test_llm_as_judge_custom_metrics_only(self):
             evaluator_model=TEST_CONFIG["evaluator_model"],
             dataset=TEST_CONFIG["dataset_s3_uri"],
             custom_metrics=TEST_CONFIG["custom_metrics_json"],
-            mlflow_resource_arn=TEST_CONFIG["mlflow_tracking_server_arn"],
+            # mlflow_resource_arn=TEST_CONFIG["mlflow_tracking_server_arn"],
             s3_output_path=TEST_CONFIG["s3_output_path"],
             evaluate_base_model=False,
         )