fixup: max_seq_len

Whoops
2025-04-30 00:23:25 +02:00 · 2025-04-30 00:23:25 +02:00 · 14fb573371
commit 14fb573371
parent daae9ec43d
1 changed files with 3 additions and 3 deletions
--- a/backends/exllamav3/model.py
+++ b/backends/exllamav3/model.py
@ -47,7 +47,7 @@ class ExllamaV3Container(BaseModelContainer):
    tokenizer: Tokenizer
    config: Config
    gpu_split: List[float] = []
-    max_seq_len: int = 2048
+    max_seq_len: int

    # Required methods
    @classmethod
@ -74,8 +74,8 @@ class ExllamaV3Container(BaseModelContainer):
        self.model = Model.from_config(self.config)
        self.tokenizer = Tokenizer.from_config(self.config)

-        max_seq_len = kwargs.get("max_seq_len")
-        self.cache = Cache(self.model, max_num_tokens=max_seq_len)
+        self.max_seq_len = kwargs.get("max_seq_len")
+        self.cache = Cache(self.model, max_num_tokens=self.max_seq_len)
        gpu_split = unwrap(kwargs.get("gpu_split"), [])

        # Set GPU split options