搜索_华为云

训练启动脚本说明和参数配置【旧】 - AI开发平台ModelArts

actory模板Sharegpt数据集 MBS 4 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
Notebook中构建新镜像 - AI开发平台ModelArts

sh命令提前下载完整代码包和安装依赖包，然后使用保存镜像功能。后续训练作业使用新保存的镜像，无需每次启动训练作业时再次下载代码包以及安装依赖包，可节约训练作业启动时间。图4 安装依赖包图5 保存镜像图6 填写保存镜像相关参数父主题：准备镜像

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作 > 准备镜像
查询服务详情 - AI开发平台ModelArts

project String 服务归属项目。 owner String 服务归属用户。 publish_at Number 服务最新的发布时间，距'1970.1.1 0:0:0 UTC'的毫秒数。 infer_type String 推理方式，取值为real-time/batch/edge。

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
终止训练作业 - AI开发平台ModelArts

训练作业运行时节点数变化指标。 tasks Array of strings 训练作业子任务名称。 start_time String 训练作业开始时间，格式为时间戳。 task_statuses Array of objects 训练在子任务状态信息。表5 task_statuses 参数参数类型

 帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
使用AI Gallery微调大师训练模型 - AI开发平台ModelArts

训练效果的指标介绍指标名称指标说明 NPU/GPU利用率在训练过程中，机器的NPU/GPU占用情况（横坐标时间，纵坐标占用率）。显存利用率在训练过程中，机器的显存占用情况（横坐标时间，纵坐标占用率）。吞吐在训练过程中，每卡处理tokens数量（tokens/s/p）。每种框架计

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
查询训练作业详情 - AI开发平台ModelArts

训练作业运行时节点数变化指标。 tasks Array of strings 训练作业子任务名称。 start_time String 训练作业开始时间，格式为时间戳。 task_statuses Array of objects 训练在子任务状态信息。表5 task_statuses 参数参数类型

 帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
精度调优前准备工作 - AI开发平台ModelArts

TP：张量并行也叫层内并行，通过将网络中的权重切分到不同的设备，从而降低单个设备的显存消耗，使得超大规模模型训练成为可能。张量并行不会增加设备等待时间，除了通信代价外，没有额外代价。 PP：流水线并行将模型的不同层放置到不同的计算设备，降低单个计算设备的显存消耗，从而实现超大规模模型训练

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
VS Code一键连接Notebook - AI开发平台ModelArts

图14 选择Python版本对于打开的代码文件，单击run按钮，即可执行，可以在下方的Terminal中看到代码输出信息。如果执行较长时间的训练作业，建议使用nohup命令后台运行，否则SSH窗口关闭或者网络断连会影响正在运行的训练作业，命令参考： nohup your_train_job

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
LoRA微调训练 - AI开发平台ModelArts

MOSSMultiTurnHandler：使用微调的moss数据集。 MBS 4 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
SFT全参微调训练 - AI开发平台ModelArts

MOSSMultiTurnHandler：使用微调的moss数据集。 MBS 4 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
VS Code ToolKit连接Notebook - AI开发平台ModelArts

图14 选择Python版本对于打开的代码文件，单击run按钮，即可执行，可以在下方的Terminal中看到代码输出信息。如果执行较长时间的训练作业，建议使用nohup命令后台运行，否则SSH窗口关闭或者网络断连会影响正在运行的训练作业，命令参考： nohup your_train_job

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
训练作业容错检查 - AI开发平台ModelArts

业务失败&硬件正常隔离故障节点后，系统会在新的计算节点上重新创建训练作业。如果资源池规格紧张，重新下发的训练作业会以第一优先级进行排队。如果排队时间超过30分钟，训练作业会自动退出。该现象表明资源池规格任务紧张，训练作业无法正常启动，推荐您购买专属资源池补充计算节点。如果您使用专属资

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
多模态 - AI开发平台ModelArts
多模态 - AI开发平台ModelArts

多模态推理服务启动模板参数说明如下（其余参数设置参考4.2启动推理服务基础参数说明）： VLLM_IMAGE_FETCH_TIMEOUT：图片下载时间环境变量。 VLLM_ENGINE_ITERATION_TIMEOUT_S：服务间隔最大时长，超过会报timeout错误。 PYTORCH

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
计费概述 - AI开发平台ModelArts
计费概述 - AI开发平台ModelArts

见计费样例。续费包年/包月云服务器在到期后会影响ModelArts作业的正常运行。如果您想继续使用ModelArts资源，需要在规定的时间内进行续费，否则资源将会自动释放，数据也可能会丢失。续费包括手动续费和自动续费两种方式，您可以根据需求选择。了解更多关于续费的信息，请参见续费概述。

帮助中心 > AI开发平台ModelArts > 计费说明
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

MOSSMultiTurnHandler：使用微调的moss数据集。 MBS 4 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
MaaS使用场景和使用流程 - AI开发平台ModelArts

域的门槛。架构强调高可用性，多数据中心部署确保数据与任务备份，即使遭遇故障，也能无缝切换至备用系统，维持模型训练不中断，保护长期项目免受时间与资源损耗，确保进展与收益。大模型应用开发，帮助开发者快速构建智能Agents 在企业中，项目级复杂任务通常需要理解任务并拆解成多个问题

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
准备推理环境 - AI开发平台ModelArts

/AscendCloud/AscendCloud-LLM/llm_inference/ascend_vllm/Dockfile中。内容如下： git clone https://gitee.com/ascend/vision.git vision_npu cd vision_npu git checkout

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务部署
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

若无法访问公网，则可以配置代理，增加`--build-arg`参数指定代理地址，可访问公网。 docker build --build-arg "https_proxy=http://xxx.xxx.xxx.xxx" --build-arg "http_proxy=http://xxx.xxx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 准备工作
NPU日志收集上传 - AI开发平台ModelArts

{} to obs bucket {}".format(log_tar, obs_bucket)) obs_url = "https://%s.obs.%s.myhuaweicloud.com/%s/%s" % (obs_bucket, self.region_id,

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
创建节点池 - AI开发平台ModelArts

error_code String ModelArts错误码。 error_msg String 具体错误信息。请求示例创建节点池。 POST https://{endpoint}/v2/{project_id}/pools/{pool_name}/nodepools { "kind"

帮助中心 > AI开发平台ModelArts > API参考 > 节点池管理

总条数： 991

上一页
1
...
45
46
47
...
50
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练启动脚本说明和参数配置【旧】 - AI开发平台ModelArts

Notebook中构建新镜像 - AI开发平台ModelArts

查询服务详情 - AI开发平台ModelArts

终止训练作业 - AI开发平台ModelArts

使用AI Gallery微调大师训练模型 - AI开发平台ModelArts

查询训练作业详情 - AI开发平台ModelArts

精度调优前准备工作 - AI开发平台ModelArts

VS Code一键连接Notebook - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

VS Code ToolKit连接Notebook - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

多模态 - AI开发平台ModelArts

计费概述 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

MaaS使用场景和使用流程 - AI开发平台ModelArts

准备推理环境 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

NPU日志收集上传 - AI开发平台ModelArts

创建节点池 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线