Skip to content

Commit 54e2315

Browse files
authored
hash 128 and Update doc (#1138)
1 parent 6a81baa commit 54e2315

24 files changed

+484
-100
lines changed

docs/CN/source/getting_started/benchmark.rst

Lines changed: 6 additions & 6 deletions
Original file line numberDiff line numberDiff line change
@@ -4,7 +4,7 @@ Benchmark 测试指南
44
LightLLM 提供了全面的性能测试工具,包括服务端性能测试和静态推理性能测试。本文档将详细介绍如何使用这些工具进行性能评估。
55

66
服务端性能测试 (Service Benchmark)
7-
---------------------------------
7+
-----------------------------------
88

99
服务端性能测试主要用于评估 LightLLM 在真实服务场景下的性能表现,包括吞吐量、延迟等关键指标。
1010

@@ -55,7 +55,7 @@ QPS (Queries Per Second) 测试是评估服务端性能的核心工具,支持
5555
- decode_token_time P{25,50,75,90,95,99,100}: 解码 token 延迟百分位数
5656

5757
固定并发测试 (benchmark_client.py)
58-
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
58+
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
5959

6060
用于评估不同客户端并发数下的性能表现。
6161

@@ -73,7 +73,7 @@ QPS (Queries Per Second) 测试是评估服务端性能的核心工具,支持
7373
--server_api lightllm
7474
7575
ShareGPT 数据集测试 (benchmark_sharegpt.py)
76-
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
76+
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
7777

7878
使用 ShareGPT 真实对话数据进行性能测试。
7979

@@ -131,7 +131,7 @@ Prompt Cache 测试
131131
- ``--num_users``: 用户数
132132

133133
静态推理性能测试 (Static Inference Benchmark)
134-
--------------------------------------------
134+
----------------------------------------------
135135

136136
静态推理测试用于评估模型在固定输入条件下的推理性能, 主要评估算子的优劣
137137
模型推理测试 (model_infer.py)
@@ -178,7 +178,7 @@ Prompt Cache 测试
178178
- 各阶段延迟统计
179179

180180
多结果预测性能测试 (model_infer_mtp.py)
181-
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
181+
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
182182

183183
多结果预测静态性能测试,默认百分百接受率,用来评估多结果预测的极限性能。目前只支持DeepSeek 系列模型
184184

@@ -203,7 +203,7 @@ Prompt Cache 测试
203203
- ``--mtp_draft_model_dir``: 草稿模型路径
204204

205205
Vision Transformer 测试 (test_vit.py)
206-
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
206+
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
207207

208208
用于测试 Vision Transformer 模型的性能。
209209

docs/CN/source/index.rst

Lines changed: 1 addition & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -49,6 +49,7 @@ Lightllm 整合了众多的开源方案的优点,包括但不限于 FasterTran
4949
:caption: 部署教程
5050

5151
DeepSeek R1 部署 <tutorial/deepseek_deployment>
52+
多级缓存部署 <tutorial/multi_level_cache_deployment>
5253
多模态部署 <tutorial/multimodal>
5354
奖励模型部署 <tutorial/reward_model>
5455
OpenAI 接口使用 <tutorial/openai>

docs/CN/source/tutorial/api_server_args_zh.rst

Lines changed: 22 additions & 20 deletions
Original file line numberDiff line numberDiff line change
@@ -1,10 +1,12 @@
1+
.. _tutorial/api_server_args_zh:
2+
13
APIServer 参数详解
2-
================
4+
==================
35

46
本文档详细介绍了 LightLLM APIServer 的所有启动参数及其用法。
57

68
基础配置参数
7-
-----------
9+
------------
810

911
.. option:: --run_mode
1012

@@ -38,7 +40,7 @@ APIServer 参数详解
3840
只能在 ``['tcp://', 'ipc:///tmp/']`` 中选择
3941

4042
PD 分离模式参数
41-
--------------
43+
---------------
4244

4345
.. option:: --pd_master_ip
4446

@@ -65,7 +67,7 @@ PD 分离模式参数
6567
配置服务器模式下的端口号
6668

6769
模型配置参数
68-
-----------
70+
------------
6971

7072
.. option:: --model_name
7173

@@ -87,16 +89,16 @@ PD 分离模式参数
8789

8890
.. option:: --load_way
8991

90-
模型权重加载方式,默认为 ``HF``Huggingface 格式
92+
模型权重加载方式,默认为 ``HF`` (Huggingface 格式)
9193

92-
llama 模型还支持 ``DS``Deepspeed格式
94+
llama 模型还支持 ``DS`` (Deepspeed) 格式
9395

9496
.. option:: --trust_remote_code
9597

9698
是否允许在 Hub 上使用自定义模型定义的文件
9799

98100
内存和批处理参数
99-
--------------
101+
----------------
100102

101103
.. option:: --max_total_token_num
102104

@@ -135,7 +137,7 @@ PD 分离模式参数
135137
* ``mistral``
136138

137139
不同并行模式设置参数
138-
------------------
140+
--------------------
139141

140142
.. option:: --nnodes
141143

@@ -182,7 +184,7 @@ PD 分离模式参数
182184
不要为不同的推理节点使用相同的 nccl_port,这将是严重错误
183185

184186
attention类型选择参数
185-
--------------------
187+
---------------------
186188

187189
.. option:: --mode
188190

@@ -199,7 +201,7 @@ attention类型选择参数
199201
需要阅读源代码以确认所有模型支持的具体模式
200202

201203
调度参数
202-
------------
204+
--------
203205

204206
.. option:: --router_token_ratio
205207

@@ -242,7 +244,7 @@ attention类型选择参数
242244

243245

244246
输出约束参数
245-
-----------
247+
------------
246248

247249
.. option:: --token_healing_mode
248250

@@ -260,7 +262,7 @@ attention类型选择参数
260262
使用环境变量 FIRST_ALLOWED_TOKENS 设置范围,例如 FIRST_ALLOWED_TOKENS=1,2
261263

262264
多模态参数
263-
--------
265+
----------
264266

265267
.. option:: --enable_multimodal
266268

@@ -299,7 +301,7 @@ attention类型选择参数
299301
为 ViT 构建分布式环境的 NCCL 端口列表,例如 29500 29501 29502,默认为 [29500]
300302

301303
性能优化参数
302-
-----------
304+
------------
303305

304306
.. option:: --disable_custom_allreduce
305307

@@ -366,7 +368,7 @@ attention类型选择参数
366368
默认值为 8192。如果遇到更大的值,将转为 eager 模式。
367369

368370
量化参数
369-
-------
371+
--------
370372

371373
.. option:: --quant_type
372374

@@ -382,7 +384,7 @@ attention类型选择参数
382384
* ``vllm-fp8w8a8``
383385
* ``vllm-fp8w8a8-b128``
384386
* ``triton-fp8w8a8-block128``
385-
* ``none``(默认)
387+
* ``none`` (默认)
386388

387389
.. option:: --quant_cfg
388390

@@ -402,7 +404,7 @@ attention类型选择参数
402404
* ``ao-fp6w6a16``
403405
* ``vllm-w8a8``
404406
* ``vllm-fp8w8a8``
405-
* ``none``(默认)
407+
* ``none`` (默认)
406408

407409
.. option:: --vit_quant_cfg
408410

@@ -411,7 +413,7 @@ attention类型选择参数
411413
示例可以在 lightllm/common/quantization/configs 中找到。
412414

413415
采样和生成参数
414-
------------
416+
--------------
415417

416418
.. option:: --sampling_backend
417419

@@ -441,7 +443,7 @@ attention类型选择参数
441443
使用 tgi 输入和输出格式
442444

443445
MTP 多预测参数
444-
------------
446+
--------------
445447

446448
.. option:: --mtp_mode
447449

@@ -466,7 +468,7 @@ MTP 多预测参数
466468
目前 deepseekv3/r1 模型仅支持 1 步
467469

468470
DeepSeek 冗余专家参数
469-
----------
471+
---------------------
470472

471473
.. option:: --ep_redundancy_expert_config_path
472474

@@ -477,7 +479,7 @@ DeepSeek 冗余专家参数
477479
是否通过在线专家使用计数器为 deepseekv3 模型更新冗余专家。
478480

479481
监控和日志参数
480-
------------
482+
--------------
481483

482484
.. option:: --disable_log_stats
483485

docs/CN/source/tutorial/deepseek_deployment.rst

Lines changed: 3 additions & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -6,7 +6,7 @@ DeepSeek 模型部署指南
66
LightLLM 支持多种 DeepSeek 模型的部署方案,包括 DeepSeek-R1、DeepSeek-V2、DeepSeek-V3 等。本文档详细介绍各种部署模式和配置方案。
77

88
部署模式概览
9-
-----------
9+
------------
1010

1111
LightLLM 支持以下几种部署模式:
1212

@@ -316,7 +316,7 @@ PD (Prefill-Decode) 分离模式将预填充和解码阶段分离部署,可以
316316
-------------
317317

318318
4.1 基础功能测试
319-
~~~~~~~~~~~~~~~
319+
~~~~~~~~~~~~~~~~
320320

321321
.. code-block:: bash
322322
@@ -331,7 +331,7 @@ PD (Prefill-Decode) 分离模式将预填充和解码阶段分离部署,可以
331331
}'
332332
333333
4.2 性能基准测试
334-
~~~~~~~~~~~~~~~
334+
~~~~~~~~~~~~~~~~
335335

336336
.. code-block:: bash
337337

0 commit comments

Comments
 (0)