ModelTC
diff --git a/‎lightllm/common/basemodel/basemodel.py‎
Lines changed: 62 additions & 0 deletions b/‎lightllm/common/basemodel/basemodel.py‎
Lines changed: 62 additions & 0 deletions
diff --git a/‎lightllm/common/infer_utils.py‎
Lines changed: 3 additions & 1 deletion b/‎lightllm/common/infer_utils.py‎
Lines changed: 3 additions & 1 deletion
diff --git a/‎lightllm/common/mem_manager.py‎
Lines changed: 0 additions & 20 deletions b/‎lightllm/common/mem_manager.py‎
Lines changed: 0 additions & 20 deletions
diff --git a/‎lightllm/common/mem_utils.py‎
Lines changed: 4 additions & 0 deletions b/‎lightllm/common/mem_utils.py‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎lightllm/common/page_size_variable_mem_manager.py‎
Lines changed: 173 additions & 0 deletions b/‎lightllm/common/page_size_variable_mem_manager.py‎
Lines changed: 173 additions & 0 deletions
diff --git a/‎lightllm/common/req_manager.py‎
Lines changed: 9 additions & 1 deletion b/‎lightllm/common/req_manager.py‎
Lines changed: 9 additions & 1 deletion
@@ -12,7 +12,9 @@
 from lightllm.common.basemodel.infer_struct import InferStateInfo
 from lightllm.common.mem_manager import MemoryManager
 from lightllm.common.req_manager import ReqManager
+from lightllm.common.infer_utils import init_req_to_token_indexes
 from lightllm.common.build_utils import repair_config
+from lightllm.common.basemodel.triton_kernel.copy_kv_index_to_req import copy_kv_index_to_req
 from lightllm.common.basemodel.layer_infer.cache_tensor_manager import g_cache_manager
 from lightllm.common.basemodel.cuda_graph import CudaGraph
 from lightllm.common.quantization import Quantcfg
@@ -331,6 +333,14 @@ def _prefill(
         model_input: ModelInput,
     ):
         infer_state = self._create_inferstate(model_input)
+        init_req_to_token_indexes(
+            self.req_manager.req_to_token_indexs,
+            model_input.b_req_idx,
+            model_input.b_seq_len,
+            infer_state.b_ready_cache_len,
+            model_input.max_len_in_batch,
+            infer_state.mem_index,
+        )
 
         infer_state.init_some_extra_state(self, model_input.input_ids)
         return self._context_forward(model_input.input_ids, infer_state)
@@ -351,6 +361,12 @@ def _decode(
             find_graph_batch_size = self.graph.find_closest_graph_batch_size(model_input.batch_size)
             padded_model_input = self._create_padded_decode_model_input(model_input, find_graph_batch_size)
             infer_state = self._create_inferstate(padded_model_input)
+            copy_kv_index_to_req(
+                self.req_manager.req_to_token_indexs,
+                infer_state.b_req_idx,
+                infer_state.b_seq_len,
+                infer_state.mem_index,
+            )
             infer_state.init_some_extra_state(self, padded_model_input.input_ids)
 
             if self.graph.need_capture(find_graph_batch_size):
@@ -366,6 +382,12 @@ def _decode(
             )
         else:
             infer_state = self._create_inferstate(model_input)
+            copy_kv_index_to_req(
+                self.req_manager.req_to_token_indexs,
+                infer_state.b_req_idx,
+                infer_state.b_seq_len,
+                infer_state.mem_index,
+            )
             infer_state.init_some_extra_state(self, model_input.input_ids)
             model_output = self._token_forward(model_input.input_ids, infer_state)
 
@@ -450,9 +472,25 @@ def microbatch_overlap_prefill(self, model_input0: ModelInput, model_input1: Mod
         input_ids0, input_ids1 = model_input0.input_ids, model_input1.input_ids
 
         infer_state0 = self._create_inferstate(model_input0, 0)
+        init_req_to_token_indexes(
+            self.req_manager.req_to_token_indexs,
+            model_input0.b_req_idx,
+            model_input0.b_seq_len,
+            infer_state0.b_ready_cache_len,
+            model_input0.max_len_in_batch,
+            infer_state0.mem_index,
+        )
         infer_state0.init_some_extra_state(self, input_ids0)
 
         infer_state1 = self._create_inferstate(model_input1, 1)
+        init_req_to_token_indexes(
+            self.req_manager.req_to_token_indexs,
+            model_input1.b_req_idx,
+            model_input1.b_seq_len,
+            infer_state1.b_ready_cache_len,
+            model_input1.max_len_in_batch,
+            infer_state1.mem_index,
+        )
         infer_state1.init_some_extra_state(self, input_ids1)
 
         model_output0, model_output1 = self._overlap_tpsp_context_forward(
@@ -494,8 +532,20 @@ def microbatch_overlap_decode(self, model_input0: ModelInput, model_input1: Mode
             padded_model_input0 = self._create_padded_decode_model_input(model_input0, find_graph_batch_size)
             padded_model_input1 = self._create_padded_decode_model_input(model_input1, find_graph_batch_size)
             infer_state0 = self._create_inferstate(padded_model_input0, 0)
+            copy_kv_index_to_req(
+                self.req_manager.req_to_token_indexs,
+                infer_state0.b_req_idx,
+                infer_state0.b_seq_len,
+                infer_state0.mem_index,
+            )
             infer_state0.init_some_extra_state(self, padded_model_input0.input_ids)
             infer_state1 = self._create_inferstate(padded_model_input1, 1)
+            copy_kv_index_to_req(
+                self.req_manager.req_to_token_indexs,
+                infer_state1.b_req_idx,
+                infer_state1.b_seq_len,
+                infer_state1.mem_index,
+            )
             infer_state1.init_some_extra_state(self, padded_model_input1.input_ids)
 
             if self.graph.need_capture(find_graph_batch_size):
@@ -520,8 +570,20 @@ def microbatch_overlap_decode(self, model_input0: ModelInput, model_input1: Mode
             model_output1 = self._create_unpad_decode_model_output(model_output1, origin_batch_size=origin_batch_size)
         else:
             infer_state0 = self._create_inferstate(model_input0, 0)
+            copy_kv_index_to_req(
+                self.req_manager.req_to_token_indexs,
+                infer_state0.b_req_idx,
+                infer_state0.b_seq_len,
+                infer_state0.mem_index,
+            )
             infer_state0.init_some_extra_state(self, model_input0.input_ids)
             infer_state1 = self._create_inferstate(model_input1, 1)
+            copy_kv_index_to_req(
+                self.req_manager.req_to_token_indexs,
+                infer_state1.b_req_idx,
+                infer_state1.b_seq_len,
+                infer_state1.mem_index,
+            )
             infer_state1.init_some_extra_state(self, model_input1.input_ids)
 
             model_output0, model_output1 = self._overlap_tpsp_token_forward(
 
@@ -1,4 +1,6 @@
-def init_req_to_token_indexes(req_to_token_indexs, b_req_idx, b_seq_len, b_ready_cache_len, alloc_mem_index):
+def init_req_to_token_indexes(
+    req_to_token_indexs, b_req_idx, b_seq_len, b_ready_cache_len, max_len_in_batch, alloc_mem_index
+):
     start_index = 0
     b_seq_len_numpy = b_seq_len.cpu().numpy()
     b_ready_cache_len_numpy = b_ready_cache_len.cpu().numpy()
 
@@ -12,8 +12,6 @@
 from lightllm.utils.envs_utils import get_unique_server_name, get_env_start_args
 from lightllm.distributed.pynccl import PyNcclCommunicator
 from lightllm.utils.dist_utils import get_current_device_id
-from lightllm.common.infer_utils import init_req_to_token_indexes
-from lightllm.common.basemodel.triton_kernel.copy_kv_index_to_req import copy_kv_index_to_req
 
 logger = init_logger(__name__)
 
@@ -260,24 +258,6 @@ def alloc(
 
         self.can_use_mem_size -= need_size
         self.shared_can_use_token_num.set_value(self.can_use_mem_size)
-
-        if self.req_to_token_indexs is not None:
-            assert b_req_idx is not None and b_seq_len is not None, "b_req_idx and b_seq_len must be provided"
-            if is_prefill:
-                init_req_to_token_indexes(
-                    self.req_to_token_indexs,
-                    b_req_idx,
-                    b_seq_len,
-                    b_ready_cache_len,
-                    ans,
-                )
-            else:
-                copy_kv_index_to_req(
-                    self.req_to_token_indexs,
-                    b_req_idx.cuda(),
-                    b_seq_len.cuda(),
-                    ans.cuda(),
-                )
         return ans
 
     def set_prefix_cache_to_req(self, req_idx: int, start: int, end: int, values: torch.Tensor):
 
@@ -4,6 +4,7 @@
 from lightllm.common.export_calibration_mem_manager import ExportCalibrationMemoryManager
 from lightllm.common.ppl_int8kv_mem_manager import PPLINT8KVMemoryManager
 from lightllm.common.ppl_int4kv_mem_manager import PPLINT4KVMemoryManager
+from lightllm.common.page_size_variable_mem_manager import PageSizeVariableMemoryManager
 from lightllm.utils.log_utils import init_logger
 
 logger = init_logger(__name__)
@@ -28,6 +29,9 @@ def select_mem_manager_class(mode):
     elif "export_fp8kv_calibration" in mode:
         memory_manager_class = ExportCalibrationMemoryManager
         logger.info("Using mode export fp8kv calibration")
+    elif "page_size_variable" in mode:
+        memory_manager_class = PageSizeVariableMemoryManager
+        logger.info("Page size will be variable")
     else:
         memory_manager_class = MemoryManager
         logger.info("Model kv cache using mode normal")
 
@@ -0,0 +1,173 @@
+import torch
+import numpy as np
+from .mem_manager import MemoryManager
+from typing import List, Union
+from lightllm.utils.log_utils import init_logger
+from lightllm.utils.envs_utils import get_page_size
+
+
+def cdiv(a, b):
+    return (a + b - 1) // b
+
+
+logger = init_logger(__name__)
+
+
+class PageSizeVariableMemoryManager(MemoryManager):
+    def __init__(self, size, dtype, head_num, head_dim, layer_num, always_copy=False, mem_fraction=0.9):
+        super().__init__(size, dtype, head_num, head_dim, layer_num, always_copy, mem_fraction)
+        self.req_to_page_indexs = None
+        page_size = get_page_size()
+        self.page_idx_pool = torch.arange(
+            0, cdiv(self.size, page_size), dtype=torch.int32, device="cpu", requires_grad=False, pin_memory=True
+        )
+        self.mark_page_start = 0
+        self.can_use_page_size = cdiv(self.size, page_size)
+
+    def _init_buffers(self, size, dtype, head_num, head_dim, layer_num):
+        self.kv_buffer = torch.empty(
+            (layer_num, cdiv(size, get_page_size()) * get_page_size(), 2 * head_num, head_dim),
+            dtype=dtype,
+            device="cuda",
+        )
+
+    # 要求长度必须是page_size的整数倍，page内token索引必须连续
+    def check_cache_page_valid(self, values: torch.Tensor):
+        end = len(values)
+        assert end % self.page_size == 0, "Values length must be a multiple of page size"
+        total_pages = end // self.page_size
+        for page_idx in range(total_pages):
+            values_start = page_idx * self.page_size
+            values_end = min((page_idx + 1) * self.page_size, end)
+            page_token_idxs = values[values_start:values_end]
+            if len(page_token_idxs) > 1:
+                expected_idxs = torch.arange(
+                    page_token_idxs[0],
+                    page_token_idxs[0] + len(page_token_idxs),
+                    dtype=page_token_idxs.dtype,
+                    device=page_token_idxs.device,
+                )
+                if not torch.equal(page_token_idxs, expected_idxs):
+                    return False
+        return True
+
+    def set_prefix_cache_to_req(self, req_idx: int, start: int, end: int, values: torch.Tensor):
+        # assert self.check_cache_page_valid(values), "Values must be valid for page size"
+        page_size = get_page_size()
+        self.req_to_page_indexs[req_idx, start // page_size : end // page_size] = values[::page_size] // page_size
+        self.req_to_token_indexs[req_idx, start:end] = values
+
+    def expand_by_page_size(self, b_token_len, page_size):
+        # 将seq_len按page整数倍展开，例如seq_len = [9,9,9] -> page_len = [4,4,1,4,4,1,4,4,1], page_size = 4
+        b_page_len = cdiv(b_token_len, page_size)
+        need_pages_num = b_page_len.sum()
+        p_token_len = torch.full((need_pages_num,), page_size, dtype=b_token_len.dtype, device=b_token_len.device)
+        cumsum_pages = torch.cumsum(b_page_len, dim=0)
+        last_page_positions = cumsum_pages - 1
+        remainders = b_token_len - (b_page_len - 1) * page_size
+        p_token_len[last_page_positions] = remainders
+        return need_pages_num, b_page_len, p_token_len
+
+    def get_paged_token_indexs(self, b_req_idx, page_size, b_seq_len, b_ready_cache_len, is_prefill):
+        if is_prefill:
+            b_req_idx = b_req_idx.cuda()
+            b_seq_len = b_seq_len.cuda()
+            b_ready_cache_len = b_ready_cache_len.cuda()
+
+            b_token_len = b_seq_len - b_ready_cache_len
+            total_pages_needed, b_page_len, p_token_len = self.expand_by_page_size(b_token_len, page_size)
+            if self.can_use_page_size < total_pages_needed:
+                raise RuntimeError(
+                    f"No available pages for alloc. remaining: {self.can_use_page_size}, needed: {total_pages_needed}"
+                )
+
+            allocated_pages = self.page_idx_pool[
+                self.mark_page_start : self.mark_page_start + total_pages_needed
+            ].cuda()
+
+            def get_offsets_by_length(b_len, max_len):
+                # 例：b_len = [3,4,5] -> [0,1,2,0,1,2,3,0,1,2,3,4]
+                offsets = torch.arange(max_len, dtype=b_len.dtype, device=b_len.device)
+                offset_mask = offsets.unsqueeze(0) < b_len.unsqueeze(1)
+                return torch.masked_select(offsets, offset_mask)
+
+            page_offsets = get_offsets_by_length(b_page_len, b_page_len.max())
+            token_offsets = get_offsets_by_length(p_token_len, page_size)
+
+            # 更新req_to_page_indexs, b_ready_cache_len必整除page_size
+            page_starts = b_ready_cache_len // page_size
+            req_id = torch.repeat_interleave(
+                torch.arange(len(b_req_idx), dtype=b_token_len.dtype, device=b_token_len.device), b_page_len
+            )
+            self.req_to_page_indexs[b_req_idx[req_id], page_starts[req_id] + page_offsets] = allocated_pages
+
+            self.mark_page_start += total_pages_needed
+            self.can_use_page_size -= total_pages_needed
+            page_bases = allocated_pages * page_size
+            return torch.repeat_interleave(page_bases, p_token_len) + token_offsets
+        else:
+            b_seq_len = b_seq_len.cuda()
+            b_req_idx = b_req_idx.cuda()
+            need_new_page_mask = (b_seq_len - 1) % page_size == 0
+            new_pages_num = need_new_page_mask.sum()
+            if self.can_use_page_size < new_pages_num:
+                raise RuntimeError(
+                    f"No available pages for alloc. remaining: {self.can_use_page_size}, needed: {new_pages_num}"
+                )
+
+            token_idxs = torch.zeros_like(b_seq_len, device=b_seq_len.device)
+            if new_pages_num > 0:
+                new_pages = self.page_idx_pool[self.mark_page_start : self.mark_page_start + new_pages_num].cuda()
+                self.mark_page_start += new_pages_num
+                self.can_use_page_size -= new_pages_num
+                token_idxs[need_new_page_mask] = new_pages * page_size
+
+                # 需要更新req_to_page_indexs
+                new_page_req_indices = b_req_idx[need_new_page_mask]
+                page_positions = (b_seq_len[need_new_page_mask] - 1) // page_size
+                self.req_to_page_indexs[new_page_req_indices, page_positions] = new_pages
+
+            mask = ~need_new_page_mask
+            if mask.any():
+                seq_lens = b_seq_len[mask]
+                token_idxs[mask] = (
+                    self.req_to_token_indexs[b_req_idx[mask], seq_lens - 2] // page_size * page_size
+                    + (seq_lens - 1) % page_size
+                )
+        return token_idxs
+
+    def alloc(self, need_size, b_req_idx, b_seq_len, b_ready_cache_len=None, is_prefill=False) -> torch.Tensor:
+        page_size = get_page_size()
+        token_idxs = self.get_paged_token_indexs(b_req_idx, page_size, b_seq_len, b_ready_cache_len, is_prefill)
+        self.can_use_mem_size -= need_size
+        self.shared_can_use_token_num.set_value(self.can_use_mem_size)
+        return token_idxs
+
+    def free(self, free_index: Union[torch.Tensor, List[int]]):
+        self.can_use_mem_size += len(free_index)
+        self.shared_can_use_token_num.set_value(self.can_use_mem_size)
+
+        page_size = get_page_size()
+        if isinstance(free_index, list):
+            free_index = torch.tensor(free_index, dtype=torch.int32, device="cpu", requires_grad=False, pin_memory=True)
+
+        if len(free_index) == 0:
+            return
+
+        page_indices = free_index // page_size
+        unique_pages = torch.unique(page_indices)
+        for page_idx in sorted(unique_pages, reverse=True):  # 逆序放回，保持池的相对顺序
+            self.mark_page_start -= 1
+            self.page_idx_pool[self.mark_page_start] = page_idx
+            self.can_use_page_size += 1
+
+        return
+
+    def free_all(self):
+        super().free_all()
+        page_size = get_page_size()
+        self.mark_page_start = 0
+        self.can_use_page_size = cdiv(self.size, page_size)
+        self.page_idx_pool = torch.arange(
+            0, cdiv(self.size, page_size), dtype=torch.int32, device="cpu", requires_grad=False, pin_memory=True
+        )
@@ -5,7 +5,7 @@
 from typing import List, Optional
 from lightllm.common.basemodel.triton_kernel.gen_sampling_params import token_id_counter
 from lightllm.common.basemodel.triton_kernel.gen_sampling_params import update_req_to_token_id_counter
-from lightllm.utils.envs_utils import enable_env_vars, get_env_start_args
+from lightllm.utils.envs_utils import enable_env_vars, get_env_start_args, get_page_size
 from lightllm.utils.config_utils import get_vocab_size
 
 logger = init_logger(__name__)
@@ -63,6 +63,14 @@ def __init__(self, max_request_num, max_sequence_length, mem_manager: MemoryMana
             (max_request_num + 1, max_sequence_length), dtype=torch.int32, device="cuda"
         )
         mem_manager.req_to_token_indexs = self.req_to_token_indexs
+        if hasattr(mem_manager, "req_to_page_indexs"):
+            page_size = get_page_size()
+            self.req_to_page_indexs = torch.zeros(
+                (max_request_num + 1, (max_sequence_length + page_size - 1) // page_size),
+                dtype=torch.int32,
+                device="cuda",
+            )
+            mem_manager.req_to_page_indexs = self.req_to_page_indexs
         self.mem_manager = mem_manager
         self.req_sampling_params_manager = ReqSamplingParamsManager(max_request_num)
         self.max_request_num = max_request_num