Merge branch 'main' into feat/extend_schedulers_list

kiukchung · web-flow · commit 68b6131a25eb · 2025-12-01T14:33:17.000-08:00
diff --git a/torchx/schedulers/slurm_scheduler.py b/torchx/schedulers/slurm_scheduler.py
@@ -135,6 +135,7 @@ def _should_use_gpus_per_node_from_version() -> bool:
     "comment",
     "mail-user",
     "mail-type",
+    "account",
 }
 SBATCH_GROUP_OPTIONS = {
     "partition",
@@ -159,6 +160,7 @@ def _apply_app_id_env(s: str) -> str:
 SlurmOpts = TypedDict(
     "SlurmOpts",
     {
+        "account": Optional[str],
         "partition": str,
         "time": str,
         "comment": Optional[str],
@@ -404,6 +406,12 @@ def __init__(self, session_name: str) -> None:
 
     def _run_opts(self) -> runopts:
         opts = runopts()
+        opts.add(
+            "account",
+            type_=str,
+            help="The account to use for the slurm job.",
+            default=None,
+        )
         opts.add(
             "partition",
             type_=str,
diff --git a/torchx/schedulers/test/aws_batch_scheduler_test.py b/torchx/schedulers/test/aws_batch_scheduler_test.py
@@ -159,7 +159,6 @@ def test_submit_dryrun_tags(self, _) -> None:
     def test_submit_dryrun_job_role_arn(self) -> None:
         cfg = AWSBatchOpts({"queue": "ignored_in_test", "job_role_arn": "fizzbuzz"})
         info = create_scheduler("test").submit_dryrun(_test_app(), cfg)
-        # pyre-ignore[16]
         node_groups = info.request.job_def["nodeProperties"]["nodeRangeProperties"]
         self.assertEqual(1, len(node_groups))
         self.assertEqual(cfg["job_role_arn"], node_groups[0]["container"]["jobRoleArn"])
@@ -169,7 +168,6 @@ def test_submit_dryrun_execution_role_arn(self) -> None:
             {"queue": "ignored_in_test", "execution_role_arn": "veryexecutive"}
         )
         info = create_scheduler("test").submit_dryrun(_test_app(), cfg)
-        # pyre-ignore[16]
         node_groups = info.request.job_def["nodeProperties"]["nodeRangeProperties"]
         self.assertEqual(1, len(node_groups))
         self.assertEqual(
@@ -179,7 +177,6 @@ def test_submit_dryrun_execution_role_arn(self) -> None:
     def test_submit_dryrun_privileged(self) -> None:
         cfg = AWSBatchOpts({"queue": "ignored_in_test", "privileged": True})
         info = create_scheduler("test").submit_dryrun(_test_app(), cfg)
-        # pyre-ignore[16]
         node_groups = info.request.job_def["nodeProperties"]["nodeRangeProperties"]
         self.assertEqual(1, len(node_groups))
         self.assertTrue(node_groups[0]["container"]["privileged"])
@@ -189,7 +186,6 @@ def test_submit_dryrun_instance_type_multinode(self) -> None:
         resource = specs.named_resources_aws.aws_p3dn_24xlarge()
         app = _test_app(num_replicas=2, resource=resource)
         info = create_scheduler("test").submit_dryrun(app, cfg)
-        # pyre-ignore[16]
         node_groups = info.request.job_def["nodeProperties"]["nodeRangeProperties"]
         self.assertEqual(1, len(node_groups))
         self.assertEqual(
@@ -202,7 +198,6 @@ def test_submit_dryrun_instance_type_singlenode(self) -> None:
         resource = specs.named_resources_aws.aws_p3dn_24xlarge()
         app = _test_app(num_replicas=1, resource=resource)
         info = create_scheduler("test").submit_dryrun(app, cfg)
-        # pyre-ignore[16]
         node_groups = info.request.job_def["nodeProperties"]["nodeRangeProperties"]
         self.assertEqual(1, len(node_groups))
         self.assertTrue("instanceType" in node_groups[0]["container"])
@@ -212,7 +207,6 @@ def test_submit_dryrun_no_instance_type_non_aws(self) -> None:
         resource = specs.named_resources_aws.aws_p3dn_24xlarge()
         app = _test_app(num_replicas=2)
         info = create_scheduler("test").submit_dryrun(app, cfg)
-        # pyre-ignore[16]
         node_groups = info.request.job_def["nodeProperties"]["nodeRangeProperties"]
         self.assertEqual(1, len(node_groups))
         self.assertTrue("instanceType" not in node_groups[0]["container"])
diff --git a/torchx/schedulers/test/slurm_scheduler_test.py b/torchx/schedulers/test/slurm_scheduler_test.py
@@ -696,6 +696,24 @@ def test_dryrun_comment(self, mock_version: MagicMock) -> None:
             info.request.cmd,
         )
 
+    @patch(
+        "torchx.schedulers.slurm_scheduler.version",
+        return_value=SLURM_VERSION_24_5,
+    )
+    def test_account(self, mock_version: MagicMock) -> None:
+        scheduler = create_scheduler("foo")
+        app = simple_app()
+        info = scheduler.submit_dryrun(
+            app,
+            cfg={
+                "account": "foobar",
+            },
+        )
+        self.assertIn(
+            "--account=foobar",
+            info.request.cmd,
+        )
+
     @patch(
         "torchx.schedulers.slurm_scheduler.version",
         return_value=SLURM_VERSION_24_5,
diff --git a/torchx/specs/api.py b/torchx/specs/api.py
@@ -253,7 +253,9 @@ def _apply_nested(self, d: typing.Dict[str, Any]) -> typing.Dict[str, Any]:
                         current_dict[k] = self.substitute(v)
                     elif isinstance(v, list):
                         for i in range(len(v)):
-                            if isinstance(v[i], str):
+                            if isinstance(v[i], dict):
+                                stack.append(v[i])
+                            elif isinstance(v[i], str):
                                 v[i] = self.substitute(v[i])
             return d
 
diff --git a/torchx/specs/test/api_test.py b/torchx/specs/test/api_test.py
@@ -945,3 +945,123 @@ def test_apply(self) -> None:
         self.assertNotEqual(newrole, role)
         self.assertEqual(newrole.args, ["img_root"])
         self.assertEqual(newrole.env, {"FOO": "app_id"})
+
+    def test_apply_nested_with_list_of_dicts(self) -> None:
+        """Test that _apply_nested correctly handles dictionaries nested inside lists."""
+        role = Role(
+            name="test",
+            image="test_image",
+            entrypoint="foo.py",
+            metadata={
+                "nested_list": [
+                    {"key1": macros.app_id, "key2": "static"},
+                    {"key3": macros.img_root},
+                ]
+            },
+        )
+        v = macros.Values(
+            img_root="img_root_value",
+            app_id="app_id_value",
+            replica_id="replica_id_value",
+            base_img_root="base_img_root_value",
+            rank0_env="rank0_env_value",
+        )
+        newrole = v.apply(role)
+        self.assertEqual(newrole.metadata["nested_list"][0]["key1"], "app_id_value")
+        self.assertEqual(newrole.metadata["nested_list"][0]["key2"], "static")
+        self.assertEqual(newrole.metadata["nested_list"][1]["key3"], "img_root_value")
+
+    def test_apply_nested_with_deeply_nested_structures(self) -> None:
+        """Test that _apply_nested handles deeply nested structures with mixed types."""
+        role = Role(
+            name="test",
+            image="test_image",
+            entrypoint="foo.py",
+            metadata={
+                "level1": {
+                    "level2": {
+                        "list_with_dicts": [
+                            {
+                                "nested_key": macros.replica_id,
+                                "nested_list": [macros.app_id, "static_value"],
+                            },
+                            {"another_key": macros.img_root},
+                        ],
+                        "simple_string": macros.rank0_env,
+                    }
+                }
+            },
+        )
+        v = macros.Values(
+            img_root="img_root_value",
+            app_id="app_id_value",
+            replica_id="replica_id_value",
+            base_img_root="base_img_root_value",
+            rank0_env="rank0_env_value",
+        )
+        newrole = v.apply(role)
+
+        # Check deeply nested dict in list
+        nested_dict = newrole.metadata["level1"]["level2"]["list_with_dicts"][0]
+        self.assertEqual(nested_dict["nested_key"], "replica_id_value")
+        self.assertEqual(nested_dict["nested_list"][0], "app_id_value")
+        self.assertEqual(nested_dict["nested_list"][1], "static_value")
+
+        # Check second dict in list
+        second_dict = newrole.metadata["level1"]["level2"]["list_with_dicts"][1]
+        self.assertEqual(second_dict["another_key"], "img_root_value")
+
+        # Check simple string at nested level
+        self.assertEqual(
+            newrole.metadata["level1"]["level2"]["simple_string"], "rank0_env_value"
+        )
+
+    def test_apply_nested_with_list_of_strings(self) -> None:
+        """Test that _apply_nested still works correctly with lists of strings."""
+        role = Role(
+            name="test",
+            image="test_image",
+            entrypoint="foo.py",
+            metadata={
+                "string_list": [macros.app_id, macros.img_root, "static"],
+            },
+        )
+        v = macros.Values(
+            img_root="img_root_value",
+            app_id="app_id_value",
+            replica_id="replica_id_value",
+            base_img_root="base_img_root_value",
+            rank0_env="rank0_env_value",
+        )
+        newrole = v.apply(role)
+        self.assertEqual(newrole.metadata["string_list"][0], "app_id_value")
+        self.assertEqual(newrole.metadata["string_list"][1], "img_root_value")
+        self.assertEqual(newrole.metadata["string_list"][2], "static")
+
+    def test_apply_nested_with_mixed_list_types(self) -> None:
+        """Test that _apply_nested handles lists with mixed types (strings, dicts, other)."""
+        role = Role(
+            name="test",
+            image="test_image",
+            entrypoint="foo.py",
+            metadata={
+                "mixed_list": [
+                    macros.app_id,
+                    {"nested": macros.img_root},
+                    42,  # non-string, non-dict value
+                    "static_string",
+                ],
+            },
+        )
+        v = macros.Values(
+            img_root="img_root_value",
+            app_id="app_id_value",
+            replica_id="replica_id_value",
+            base_img_root="base_img_root_value",
+            rank0_env="rank0_env_value",
+        )
+        newrole = v.apply(role)
+        self.assertEqual(newrole.metadata["mixed_list"][0], "app_id_value")
+        self.assertEqual(newrole.metadata["mixed_list"][1]["nested"], "img_root_value")
+        self.assertEqual(newrole.metadata["mixed_list"][2], 42)
+        self.assertEqual(newrole.metadata["mixed_list"][3], "static_string")