搜索_华为云

执行训练任务 - AI开发平台ModelArts

执行训练任务步骤一上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件、自定义数据集，可以忽略此步骤。未上传训练权重文件，具体参考上传代码和权重文件到工作环境。使用自定义数据集训练未上传自定义数据集。具体参考上传自定义数据到指定目录章节并更新dataset_info

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

NA NA 写入次数 ma_node_disk_writes_completed_total 成功完成的写入总数。 - ≥0 NA NA NA 合并写入的次数 ma_node_disk_writes_merged_total 合并写入的次数。 - ≥0 NA NA NA 写入字节数

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
保存模型时出现Unable to connect to endpoint错误 - AI开发平台ModelArts

处理方法对于OBS连接不稳定的现象，通过增加代码来解决。您可以在代码最前面增加如下代码，让TensorFlow对ckpt和summary的读取和写入可以通过本地缓存的方式中转解决： import moxing.tensorflow as mox mox.cache() 父主题： OBS操作相关故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
通过JupyterLab在线使用Notebook实例进行AI开发 - AI开发平台ModelArts

通过JupyterLab在线使用Notebook实例进行AI开发使用JupyterLab在线开发和调试代码 JupyterLab常用功能介绍在JupyterLab使用Git克隆代码仓在JupyterLab中创建定时任务上传文件至JupyterLab 下载JupyterLab文件到本地

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
创建Standard专属资源池 - AI开发平台ModelArts

容器盘高级配置-写入模式部分规格支持设置磁盘的写入模式，写入模式包括“线性”和“条带化”。线性：线性逻辑卷是将一个或多个物理卷整合为一个逻辑卷，实际写入数据时会先往一个基本物理卷上写入，当存储空间占满时再往另一个基本物理卷写入。条带化：创建逻辑卷时指定条带化，当实际写入数据时会将

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
创建诊断任务 - AI开发平台ModelArts

advisor分析进程数，可选范围为1-8的任意整数。当LLM类模型训练的流水并行参数pp大于1时，advisor会对不同pp stage的训练profilingg数据进行分析。通过设置更大的进程数可以使能并行分析从而加快分析速度，但也会增大分析占用的cpu资源。通常单进程需要占用1U的cpu和一定cpu

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
示例：从 0 到 1 制作自定义镜像并用于训练（PyTorch+CPU/GPU） - AI开发平台ModelArts

_x86_64.whl 编写容器镜像Dockerfile文件。在context文件夹内新建名为Dockerfile的空文件，并将下述内容写入其中。 # 容器镜像构建主机需要连通公网 # 基础容器镜像, https://github.com/NVIDIA/nvidia-docker/wiki/CUDA

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
multi-lora - AI开发平台ModelArts
multi-lora - AI开发平台ModelArts

少模型需要更新的参数量，从而节省NPU内存并提高推理速度。轻量化适配：无需改变原始模型结构，通过低秩矩阵的调整即可适配不同任务。多任务并行：支持同时加载多个LoRA模块，使得VLLM可以在不同任务间快速切换，提高多任务推理的效率。约束限制 multi-lora特性不能和Chunked

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
策略及授权项说明 - AI开发平台ModelArts

授权项：自定义策略中支持的Action，在自定义策略中的Action中写入授权项，可以实现授权项对应的权限功能。依赖的授权项：部分Action存在对其他Action的依赖，需要将依赖的Action同时写入授权项，才能实现对应的权限功能。 IAM项目/企业项目：自定义策略的授权

 帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
创建开发环境实例 - AI开发平台ModelArts

String 存储类型。当前支持“obs”、“obsfs” 和“evs”，其中，obsfs类型当前仅支持部分专属资源池。若您需要挂载OBS并行文件系统，请提工单。 location 否 Object 存储位置，如果type为“obs”类型，该参数必须填写，如表5所示数据结构，如缺省值为“NULL”。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

Shell界面提示如下。图1 Cloud Shell界面当作业处于非运行状态或权限不足时会导致无法使用Cloud Shell，请根据提示定位原因即可。图2 报错提示部分用户登录Cloud Shell界面时，可能会出现路径显示异常情况，此时在Cloud Shell中单击回车键即可恢复正常。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
训练作业运行失败 - AI开发平台ModelArts

训练作业运行失败训练作业运行失败排查指导训练作业运行失败，出现NCCL报错自定义镜像训练作业失败定位思路使用自定义镜像创建的训练作业一直处于运行中使用自定义镜像创建训练作业找不到启动文件训练作业的监控内存指标持续升高直至作业失败订阅算法物体检测YOLOv3_ResN

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
执行预训练任务 - AI开发平台ModelArts

执行预训练任务步骤一上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件和数据集到容器中，可以忽略此步骤。如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910）
执行预训练任务 - AI开发平台ModelArts

执行预训练任务步骤一上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件和数据集到容器中，可以忽略此步骤。如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911）
使用Notebook进行代码调试 - AI开发平台ModelArts

使用Notebook进行代码调试背景信息 Notebook使用涉及到计费，具体收费项如下：处于“运行中”状态的Notebook，会消耗资源，产生费用。根据您选择的资源不同，收费标准不同，价格详情请参见产品价格详情。当您不需要使用Notebook时，建议停止Notebook，避免产生不必要的费用。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机多卡
在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机多卡训练作业操作流程准备工作：购买服务资源（VPC、SFS、SWR和ECS）配置权限创建专属资源池（打通VPC）在ECS服务器挂载SFS Turbo存储在ECS中设置ModelArts用户可读权限安装和配置OBS命令行工具

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
执行预训练任务 - AI开发平台ModelArts

执行预训练任务 Step1 上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件和数据集到容器中，可以忽略此步骤。如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908）
执行预训练任务 - AI开发平台ModelArts

执行预训练任务步骤一上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件和数据集到容器中，可以忽略此步骤。如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909）
执行训练任务【旧】 - AI开发平台ModelArts

执行训练任务【旧】前提条件已上传训练代码、训练权重文件和数据集到SFS Turbo中。 Step1 修改训练超参配置以llama2-13b SFT全参微调为例，执行脚本 0_pl_sft_13b.sh 。修改模型训练脚本中的配置，参数详解可查看训练参数说明，其中【GBS、

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
使用自定义镜像创建的训练作业一直处于运行中 - AI开发平台ModelArts

使用自定义镜像创建的训练作业一直处于运行中问题现象使用自定义镜像创建训练作业，训练作业的“状态”一直处于“运行中”。原因分析及处理办法日志打印如下内容，表示自定义镜像的CPU架构与资源池节点的CPU架构不一致。 standard_init_linux.go:215: exec

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败

总条数： 1774

上一页
1
...
8
9
10
...
89
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

执行训练任务 - AI开发平台ModelArts

在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

保存模型时出现Unable to connect to endpoint错误 - AI开发平台ModelArts

通过JupyterLab在线使用Notebook实例进行AI开发 - AI开发平台ModelArts

创建Standard专属资源池 - AI开发平台ModelArts

创建诊断任务 - AI开发平台ModelArts

示例：从 0 到 1 制作自定义镜像并用于训练（PyTorch+CPU/GPU） - AI开发平台ModelArts

multi-lora - AI开发平台ModelArts

策略及授权项说明 - AI开发平台ModelArts

创建开发环境实例 - AI开发平台ModelArts

使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

训练作业运行失败 - AI开发平台ModelArts

执行预训练任务 - AI开发平台ModelArts

执行预训练任务 - AI开发平台ModelArts

使用Notebook进行代码调试 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

执行预训练任务 - AI开发平台ModelArts

执行预训练任务 - AI开发平台ModelArts

执行训练任务【旧】 - AI开发平台ModelArts

使用自定义镜像创建的训练作业一直处于运行中 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线