pretrain + dryrun #7

cui0523 · 2025-12-01T07:30:11Z

Description

Changes

Testing & Benchmark

Checklist

Read and followed the Contributing Guidelines.
Self-tested locally to ensure the code runs correctly and achieves expected results (all CI checks expected to pass).
Updated documentation if needed.
Verified accuracy or performance benchmarks if applicable.

Reviewers

qhzhuang · 2025-12-06T02:58:46Z

Chapter5/DryRun.md

@@ -0,0 +1,342 @@
+# 实验简介
+
+本实验在完成Qwen2.5-7B-Instruct预训练的基础上，使用内存模拟工具DryRun模拟相同配置下的预训练，对比内存占用情况，从而证明DryRun工具可以作为模型训练资源规划和问题诊断的有效手段，避免真实训练的资源消耗和时间成本。


后半句"从而证明..."不要这么描述, 证明这个能力是你的隐性逻辑, 改为:“介绍DryRun工具的使用方法，帮助用户降低开发与调试成本”

qhzhuang · 2025-12-06T02:59:27Z

Chapter5/DryRun.md

+
+```
+
+# RryRun模拟Qwen2.5-7B-Instruct预训练流程


这种低级拼写错误不要有了

qhzhuang · 2025-12-06T03:13:58Z

Chapter5/DryRun.md

+本实验在完成Qwen2.5-7B-Instruct预训练的基础上，使用内存模拟工具DryRun模拟相同配置下的预训练，对比内存占用情况，从而证明DryRun工具可以作为模型训练资源规划和问题诊断的有效手段，避免真实训练的资源消耗和时间成本。
+
+
+# 环境准备


这一部分不用重复介绍了吧, 直接引用Chapter2的东西就好了

qhzhuang · 2025-12-06T03:15:22Z

Chapter5/DryRun.md

+
+# RryRun模拟Qwen2.5-7B-Instruct预训练流程
+
+## 权重转换


权重转换, 数据预处理啥的也不用介绍了,反正你都和前面是一样的, 直接点一下, 在"参考xx章节,完成xx,xx,xx流程后"

qhzhuang · 2025-12-06T03:15:41Z

Chapter5/DryRun.md

+
+## DryRun模拟预训练
+
+1. 修改文件 /MindSpeed-Core-MS/MindSpeed-LLM/mindspeed_llm/training/training.py中的pretain函数，在pretain函数的开头部分添加以下代码行


同样不要用绝对路径.

qhzhuang · 2025-12-06T03:15:48Z

Chapter5/DryRun.md

+
+![training](./image/training.png)
+
+2. 修改文件 /MindSpeed-Core-MS/MSAdapter/mmsadpter/distributed/distributed_c10d.py中的init_method为"tcp://ip:port"，此处ip和port根据实际情况修改即可


qhzhuang · 2025-12-06T03:18:09Z

Chapter5/DryRun.md

+  </tr>
+  <tr>
+    <td>真实预训练+无重计算</td>
+    <td>Device MOC memory size: 62420M<br>


我感觉这里内存占用分为4列较好,每个指标一列

qhzhuang · 2025-12-06T03:19:49Z

Chapter5/DryRun.md

+Used peak memory usage (without fragments): 55405M<br>
+Actual peak memory usage (with fragments): 57400M
+</td>
+    <td  rowspan="2" style="vertical-align: middle;">1. DryRun可以模拟实际预训练显存使用<br>


结论的1改为: DryRun模拟的显存占用与实际显存占用差距较小, 后面的结论也是, "DryRun可以模拟"这种有点过于笃定

qhzhuang · 2025-12-06T03:20:32Z

Chapter5/DryRun.md

+```
+ 具体效果如下图所示
+
+![training](./image/training.png)


这个图太小了, 请截取一个大点的图

pretrain + dryrun

ea6898a

qhzhuang requested changes Dec 6, 2025

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

pretrain + dryrun #7

pretrain + dryrun #7

Uh oh!

cui0523 commented Dec 1, 2025 •

edited

Loading

Uh oh!

qhzhuang Dec 6, 2025

Uh oh!

qhzhuang Dec 6, 2025

Uh oh!

qhzhuang Dec 6, 2025

Uh oh!

qhzhuang Dec 6, 2025

Uh oh!

qhzhuang Dec 6, 2025

Uh oh!

qhzhuang Dec 6, 2025

Uh oh!

qhzhuang Dec 6, 2025

Uh oh!

qhzhuang Dec 6, 2025

Uh oh!

qhzhuang Dec 6, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

		@@ -0,0 +1,342 @@
		# 实验简介

		本实验在完成Qwen2.5-7B-Instruct预训练的基础上，使用内存模拟工具DryRun模拟相同配置下的预训练，对比内存占用情况，从而证明DryRun工具可以作为模型训练资源规划和问题诊断的有效手段，避免真实训练的资源消耗和时间成本。

		本实验在完成Qwen2.5-7B-Instruct预训练的基础上，使用内存模拟工具DryRun模拟相同配置下的预训练，对比内存占用情况，从而证明DryRun工具可以作为模型训练资源规划和问题诊断的有效手段，避免真实训练的资源消耗和时间成本。


		# 环境准备


		# RryRun模拟Qwen2.5-7B-Instruct预训练流程

		## 权重转换


		## DryRun模拟预训练

		1. 修改文件 /MindSpeed-Core-MS/MindSpeed-LLM/mindspeed_llm/training/training.py中的pretain函数，在pretain函数的开头部分添加以下代码行


		![training](./image/training.png)

		2. 修改文件 /MindSpeed-Core-MS/MSAdapter/mmsadpter/distributed/distributed_c10d.py中的init_method为"tcp://ip:port"，此处ip和port根据实际情况修改即可


		```

		# RryRun模拟Qwen2.5-7B-Instruct预训练流程

pretrain + dryrun #7

Are you sure you want to change the base?

pretrain + dryrun #7

Uh oh!

Conversation

cui0523 commented Dec 1, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Description

Changes

Testing & Benchmark

Checklist

Reviewers

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

cui0523 commented Dec 1, 2025 •

edited

Loading