[fix] add patch to fix FSDPStrategy checkpoint issue

2023-05-07 16:51:57 +08:00 · 2023-05-07 16:51:57 +08:00 · 70ff2acaf0
parent 5392a845f7
commit 70ff2acaf0
2 changed files with 53 additions and 0 deletions
--- a/lit_patches.py
+++ b/lit_patches.py
@ -0,0 +1,51 @@
+from typing import Any, Dict, Optional
+
+import pytorch_lightning as pl
+from torch.nn import Module
+
+
+class FSDPStrategy(pl.strategies.FSDPStrategy):
+    @property
+    def model(self) -> Optional[Module]:
+        """Returns the potentially wrapped LightningModule."""
+        return self._model
+
+    @model.setter
+    def model(self, new_model: Optional[Module]) -> None:
+        self._model = new_model
+
+    def lightning_module_state_dict(self) -> Dict[str, Any]:
+        """Returns model state."""
+        if self.model is None:
+            assert self.lightning_module is not None
+            return self.lightning_module.state_dict()
+        else:
+            prefix = "_forward_module."
+            state_dict = self.model.state_dict()
+            state_dict = {k[len(prefix) :]: v for k, v in state_dict.items()}
+            return state_dict
+
+    @classmethod
+    def register_strategies(cls, strategy_registry: Dict) -> None:
+        if not pl.strategies.fsdp._fsdp_available:
+            return
+        strategy_registry.register(
+            "fsdp",
+            cls,
+            description="Fully Sharded Data Parallel (FSDP) training",
+            override=True,
+        )
+        cls._registered_strategies.append("fsdp")
+
+        strategy_registry.register(
+            "fsdp_cpu_offload",
+            cls,
+            description="Fully Sharded Data Parallel (FSDP) training with Full Sharding and CPU Offloading",
+            cpu_offload=True,
+            override=True,
+        )
+        cls._registered_strategies.append("fsdp_cpu_offload")
+
+
+def apply_all_patches():
+    FSDPStrategy.register_strategies(pl.strategies.StrategyRegistry)
--- a/lit_train.py
+++ b/lit_train.py
@ -15,6 +15,7 @@ from transformers import (
 )

 from lit_module import LitModule
+from lit_patches import apply_all_patches
 from utils import load_tokenizer


@ -189,6 +190,7 @@ if __name__ == '__main__':
    )

    # trainer
+    apply_all_patches()
    torch.set_float32_matmul_precision('medium')
    if args.bf16:
        precision = 'bf16-mixed'