[fix] add patch to fix DeepSpeedStrategy offload 'zero_force_ds_cpu_optimizer' issue

2023-05-09 23:00:28 +08:00 · 2023-05-09 23:00:28 +08:00 · 5e6b747baf
parent 8a5e2043bb
commit 5e6b747baf
3 changed files with 144 additions and 3 deletions
--- a/lit_module.py
+++ b/lit_module.py
@ -68,6 +68,18 @@ class LitModule(pl.LightningModule):
        self.log('accuracy', self.metric_accuracy, rank_zero_only=True)

    def configure_optimizers(self):
+        strategy = self.trainer.strategy
+        if isinstance(strategy, pl.strategies.DeepSpeedStrategy):
+            assert "optimizer" not in strategy.config
+            zero_config = strategy.config.get("zero_optimization")
+            if zero_config is not None:
+                if "offload_optimizer" in zero_config:
+                    import deepspeed
+
+                    optimizer = deepspeed.ops.adam.DeepSpeedCPUAdam(
+                        self.trainer.model.parameters(), lr=self.learning_rate
+                    )
+                    return optimizer
        optimizer = torch.optim.AdamW(
            self.trainer.model.parameters(), lr=self.learning_rate
        )
--- a/lit_patches.py
+++ b/lit_patches.py
@ -1,4 +1,4 @@
-from typing import Any, Dict, Optional
+from typing import Any, Dict, Optional, Union

 import pytorch_lightning as pl
 from torch.nn import Module
@ -47,5 +47,134 @@ class FSDPStrategy(pl.strategies.FSDPStrategy):
        cls._registered_strategies.append("fsdp_cpu_offload")


-def apply_all_patches():
+class DeepSpeedStrategy(pl.strategies.DeepSpeedStrategy):
+    def _create_default_config(
+        self,
+        zero_optimization: bool,
+        zero_allow_untested_optimizer: bool,
+        logging_batch_size_per_gpu: Union[str, int],
+        partition_activations: bool,
+        cpu_checkpointing: bool,
+        contiguous_memory_optimization: bool,
+        synchronize_checkpoint_boundary: bool,
+        offload_optimizer: bool,
+        offload_parameters: bool,
+        nvme_path: str,
+        offload_params_device: str,
+        params_buffer_count: int,
+        params_buffer_size: int,
+        max_in_cpu: int,
+        offload_optimizer_device: str,
+        optimizer_buffer_count: int,
+        pin_memory: bool,
+        block_size: int,
+        queue_depth: int,
+        single_submit: bool,
+        overlap_events: bool,
+        thread_count: int,
+        **zero_kwargs: Any,
+    ) -> Dict:
+        cfg = super()._create_default_config(
+            zero_optimization,
+            zero_allow_untested_optimizer,
+            logging_batch_size_per_gpu,
+            partition_activations,
+            cpu_checkpointing,
+            contiguous_memory_optimization,
+            synchronize_checkpoint_boundary,
+            offload_optimizer,
+            offload_parameters,
+            nvme_path,
+            offload_params_device,
+            params_buffer_count,
+            params_buffer_size,
+            max_in_cpu,
+            offload_optimizer_device,
+            optimizer_buffer_count,
+            pin_memory,
+            block_size,
+            queue_depth,
+            single_submit,
+            overlap_events,
+            thread_count,
+            **zero_kwargs,
+        )
+        if zero_optimization:
+            if offload_parameters:
+                cfg = {
+                    "zero_force_ds_cpu_optimizer": False,
+                    **cfg,
+                }
+        return cfg
+
+    @classmethod
+    def register_strategies(cls, strategy_registry: Dict) -> None:
+        strategy_registry.register(
+            "deepspeed",
+            cls,
+            description="Default DeepSpeed Strategy",
+            override=True,
+        )
+        strategy_registry.register(
+            "deepspeed_stage_1",
+            cls,
+            description="DeepSpeed with ZeRO Stage 1 enabled",
+            stage=1,
+            override=True,
+        )
+        strategy_registry.register(
+            "deepspeed_stage_2",
+            cls,
+            description="DeepSpeed with ZeRO Stage 2 enabled",
+            stage=2,
+            override=True,
+        )
+        strategy_registry.register(
+            "deepspeed_stage_2_offload",
+            cls,
+            description="DeepSpeed ZeRO Stage 2 and CPU Offload",
+            stage=2,
+            offload_optimizer=True,
+            override=True,
+        )
+        strategy_registry.register(
+            "deepspeed_stage_3",
+            cls,
+            description="DeepSpeed ZeRO Stage 3",
+            stage=3,
+            override=True,
+        )
+        strategy_registry.register(
+            "deepspeed_stage_3_offload",
+            cls,
+            description="DeepSpeed ZeRO Stage 3 and CPU Offload",
+            stage=3,
+            offload_optimizer=True,
+            offload_parameters=True,
+            override=True,
+        )
+        strategy_registry.register(
+            "deepspeed_stage_3_offload_nvme",
+            cls,
+            description="DeepSpeed ZeRO Stage 3 and NVMe Offload",
+            stage=3,
+            offload_optimizer=True,
+            offload_parameters=True,
+            remote_device="nvme",
+            offload_params_device="nvme",
+            offload_optimizer_device="nvme",
+            override=True,
+        )
+
+
+def apply_fsdp_strategy_patch():
    FSDPStrategy.register_strategies(pl.strategies.StrategyRegistry)
+
+
+def apply_deepspeed_strategy_patch():
+    DeepSpeedStrategy.register_strategies(pl.strategies.StrategyRegistry)
+
+
+def apply_all_patches():
+    apply_fsdp_strategy_patch()
+    apply_deepspeed_strategy_patch()
--- a/lit_train.py
+++ b/lit_train.py
@ -150,7 +150,7 @@ def parse_args():
    )
    parser.add_argument(
        "--seed",
-        type=str,
+        type=int,
        help="Random seed",
        default=42,
    )