搜索_华为云

创建训练任务 - AI开发平台ModelArts

会导致实例重启，ImageNet数据集大小超过该限制，因此建议用线下资源调试、或用小批量数据集在Notebook调试（Notebook调试方法与使用Notebook进行代码调试、使用Notebook进行代码调试相同）。创建训练任务登录ModelArts管理控制台，检查当前账号

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 多机多卡
ascendfactory-cli方式启动（推荐） - AI开发平台ModelArts

yaml相对或绝对路径，根据自己要求执行 <model_name>：训练模型名，如qwen2-7b <exp_name>：实验名称：具体可以设置的值参考<cfgs_yaml_file> --master_addr <master_addr>：主master节点IP，一般选rank0为主master。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 执行训练任务
使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

S桶名称）。 “启动文件”：选择代码目录下上传的训练脚本“train.py”。 “输入”：单击“增加训练输入”，设置训练输入的“参数名称”为“data_url”。设置数据存储位置为您的OBS目录，例如 “/test-modelarts-xx/pytorch/mnist-data/

帮助中心 > AI开发平台ModelArts > 快速入门
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

16,32 # 设置动态分档的档位，根据实际情况设置，另外请不要设置档位1(DeepSeek V2 236B W8A8 模型建议最大设置4个档位) export VLLM_ENGINE_ITERATION_TIMEOUT_S=1500 # 设置vllm请求超时时间(DeepSeek

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
在ModelArts控制台界面上单击VS Code接入并在新界面单击打开，VS Code打开后未进行远程连接 - AI开发平台ModelArts

如果本地为Linux系统，见原因分析二。原因分析一自动安装VS Code插件ModelArts-HuaweiCloud失败。解决方法一方法一：检查VS Code网络是否正常。在VS Code插件市场上搜索ModelArts-HuaweiCloud，如果显示如下则网络异常，请切换代理或使用其他网络。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
Standard资源池节点故障定位 - AI开发平台ModelArts

作业调度到该节点而受到影响，并且使本次作业不受污点影响。当前可识别的故障类型如下，可通过隔离码及对应检测方法定位故障。表1 隔离码隔离码分类子类异常中文描述检测方法 A050101 GPU 显存 GPU ECC错误。通过nvidia-smi -a查询到存在Pending

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
管理开发环境实例 - AI开发平台ModelArts

ion 参数说明如表1所示。表1 参数说明参数是否必选参数类型说明。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 instance_id 是 String 实例ID。请求消息请求参数如表2所示。表2 请求参数参数是否必选

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
请求超时返回Timeout - AI开发平台ModelArts

请求超时返回Timeout 问题现象服务预测请求超时原因分析请求超时，大概率是APIG（API网关）拦截问题。需排查APIG（API网关）和模型。处理方法优先排查APIG（API网关）是否是通的，可以在本地使用curl命令排查，命令行：curl -kv {预测地址}。如返回Timeout则需排查本地防火墙，代理和网络配置。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
配置Standard专属资源池可访问公网 - AI开发平台ModelArts

配置Standard专属资源池可访问公网场景介绍当您使用专属资源池创建作业时（如训练作业），如果需要作业运行过程中需要专属资源池访问外网，可打通VPC的方式，使得专属资源池和已绑定EIP的弹性云服务器处于同一VPC内，实现专属资源池访问外网。前提条件已拥有需要部署SNAT的弹性云服务器。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
部署推理服务 - AI开发平台ModelArts

16,32 # 设置动态分档的档位，根据实际情况设置，另外请不要设置档位1(DeepSeek V2 236B W8A8 模型建议最大设置4个档位) export VLLM_ENGINE_ITERATION_TIMEOUT_S=1500 # 设置vllm请求超时时间(DeepSeek

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
创建Notebook实例 - AI开发平台ModelArts

选择“对象存储服务OBS”或“并行文件系统PFS”作为存储位置。选择“存储位置”：设置用于存储Notebook数据的OBS路径。如果想直接使用已有的文件或数据，可将数据提前上传至对应的OBS路径下。“存储位置”不能设置为OBS桶的根目录，需设置为对应OBS桶下的具体目录。选择“凭据”：选择已有的凭据或

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

控制要考虑的前几个tokens的数量的整数。设置为-1表示考虑所有tokens。适当降低该值可以减少采样时间。 top_p 否 1.0 Float 控制要考虑的前几个tokens的累积概率的浮点数。必须在 (0, 1] 范围内。设置为1表示考虑所有tokens。 temperature

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
非分离部署推理服务 - AI开发平台ModelArts

16,32 # 设置动态分档的档位，根据实际情况设置，另外请不要设置档位1(DeepSeek V2 236B W8A8 模型建议最大设置4个档位) export VLLM_ENGINE_ITERATION_TIMEOUT_S=1500 # 设置vllm请求超时时间(DeepSeek

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
提交验收任务的样本评审意见 - AI开发平台ModelArts

是否必选参数类型描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workforce_task_id 是 String 标注任务ID。请求参数表2 请求Body参数参数是否必选

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

控制要考虑的前几个tokens的数量的整数。设置为-1表示考虑所有tokens。适当降低该值可以减少采样时间。 top_p 否 1.0 Float 控制要考虑的前几个tokens的累积概率的浮点数。必须在 (0, 1] 范围内。设置为1表示考虑所有tokens。 temperature

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
使用DCGM监控Lite Server资源 - AI开发平台ModelArts

docker.com | sh sudo systemctl --now enable docker 步骤二：安装NVIDIA容器工具集设置仓库地址和GPG key： distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
镜像保存时报错“container size %dG is greater than threshold %dG”如何解决？ - AI开发平台ModelArts

大小分为两部分：镜像大小和容器中新安装文件的大小。因此有两种方法来解决该问题：减少容器中新安装文件的大小删除用户在Notebook新安装的内容，比如用户在Notebook中下载了很多文件，可以将这些文件删除。这种方法仅适用于除/home/ma-user/work和/cache

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
Notebook中无法打开“checkpoints”文件夹 - AI开发平台ModelArts

JupyterLab浏览器左侧导航无法打开checkpoints 操作步骤：打开Terminal，用命令行进行操作。方法一：执行cd checkpoints命令打开checkpoints文件夹。方法二：新建一个文件夹，移动checkpoints文件夹的数据到新建的文件夹下。执行mkdir xx

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 其他故障
删除开发环境实例 - AI开发平台ModelArts

_id} 参数说明如表1所示。表1 参数说明参数是否必选参数类型说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 instance_id 是 String 实例ID。请求消息无请求参数。响应消息响应参数如表2所示。表2

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
在MaaS中创建模型 - AI开发平台ModelArts

百川和Llama系列模型只支持自定义权重。自定义权重存储路径当“权重设置与词表”选择“自定义权重”时，需要选择存放模型权重文件的OBS路径，必须选择到模型文件夹。单次上传本地文件到OBS的总大小不能超过5GB，详情请参见如何上传超过5GB的大对象。权重校验当“权重设置与词表”选择“自定义权重”时，需要选择是否开启权重文件校验。默认是开启的。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）

总条数： 1510

上一页
1
...
25
26
27
...
76
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

创建训练任务 - AI开发平台ModelArts

ascendfactory-cli方式启动（推荐） - AI开发平台ModelArts

使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

在ModelArts控制台界面上单击VS Code接入并在新界面单击打开，VS Code打开后未进行远程连接 - AI开发平台ModelArts

Standard资源池节点故障定位 - AI开发平台ModelArts

管理开发环境实例 - AI开发平台ModelArts

请求超时返回Timeout - AI开发平台ModelArts

配置Standard专属资源池可访问公网 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

创建Notebook实例 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

提交验收任务的样本评审意见 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

镜像保存时报错“container size %dG is greater than threshold %dG”如何解决？ - AI开发平台ModelArts

Notebook中无法打开“checkpoints”文件夹 - AI开发平台ModelArts

删除开发环境实例 - AI开发平台ModelArts

在MaaS中创建模型 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线