搜索_华为云

设置在线服务故障自动重启 - AI开发平台ModelArts

设置在线服务故障自动重启场景描述当系统检测到Snt9b硬件故障时，自动复位Snt9B芯片并重启推理在线服务，提升了推理在线服务的恢复速度。约束限制仅支持使用Snt9b资源的同步在线服务。只支持针对整节点资源复位，请确保部署的在线服务为8*N卡规格，请谨慎评估对部署在该节点的其他服务的影响。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练脚本存放目录说明不同模型推荐的参数与NPU卡数设置训练tokenizer文件说明父主题： Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）
训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练脚本参数说明不同模型推荐的参数与NPU卡数设置训练tokenizer文件说明父主题： Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912）

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912）
在Dockerfile中如何给镜像设置环境变量？ - AI开发平台ModelArts

在Dockerfile中如何给镜像设置环境变量？在Dockerfile中，可使用ENV指令来设置环境变量，具体信息请参考Dockerfile指导。父主题： Standard镜像相关

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
配置Lite Server存储 - AI开发平台ModelArts

您可以在云服务器设置重启时进行自动挂载，具体步骤请参考服务器重启后自动挂载指南。使用对象存储服务OBS作为存储若使用OBS服务作为存储方案，推荐使用“并行文件系统+obsutil”的方式，并行文件系统是OBS服务提供的一种经过优化的高性能文件语义系统，提供毫秒级别访问时延，T

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
训练作业找不到GPU - AI开发平台ModelArts

U。处理方法根据报错提示，请您排查代码，是否已添加以下配置，设置该程序可见的GPU： os.environ['CUDA_VISIBLE_DEVICES'] = '0,1,2,3,4,5,6,7' 其中，0为服务器的GPU编号，可以为0，1，2，3等，表明对程序可见的GPU编号

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
模型训练高可靠性 - AI开发平台ModelArts

模型训练高可靠性训练作业容错检查训练日志失败分析训练作业卡死检测训练作业重调度设置断点续训练设置无条件自动重启父主题：使用ModelArts Standard训练模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
Notebook自定义镜像故障基础排查 - AI开发平台ModelArts

用户使用了已开启sudo权限的专属池，使用自定义镜像时，sudo工具未安装或安装错误；用户使用的cann、cuda环境有兼容性问题；用户的docker镜像配置错误、网络或防火墙限制、镜像构建问题（文件权限、依赖缺失或构建命令错误）等原因导致的。父主题：自定义镜像故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
OBS操作相关故障 - AI开发平台ModelArts

OBS操作相关故障读取文件报错，如何正确读取文件 TensorFlow-1.8作业连接OBS时反复出现提示错误 TensorFlow在OBS写入TensorBoard到达5GB时停止保存模型时出现Unable to connect to endpoint错误 OBS复制过程中提示“BrokenPipeError:

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
使用ModelArts VSCode插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

print("Default bucket name: ", obs_bucket) default_obs_dir = f"{obs_bucket}/intermidiate" #default_obs_dir = "obs://your-bucket-name/folder-name"

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard开发环境
Standard Notebook - AI开发平台ModelArts

如何在ModelArts的Notebook中上传下载OBS文件？ ModelArts的Notebook实例upload后，数据会上传到哪里？在ModelArts中如何将Notebook A的数据复制到Notebook B中？在ModelArts的Notebook中如何对OBS的文件重命名？在Mode

帮助中心 > AI开发平台ModelArts > 常见问题
ECS中上传新镜像 - AI开发平台ModelArts

ECS中上传新镜像 Step1 在ECS中Docker登录在SWR中单击右上角的“登录指令”，然后在跳出的登录指定窗口，单击复制临时登录指令。在创建的ECS中粘贴临时登录指令，即可完成登录。图1 复制登录指令 Step2 修改并上传镜像在ECS服务器中输入登录指令后，使用下

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
API/SDK - AI开发平台ModelArts
API/SDK - AI开发平台ModelArts

SDK报错“ERROR: Could not install packages due to an OSError” ModelArts SDK下载文件目标路径设置为文件名，部署服务时报错调用API创建训练作业，训练作业异常用户执行huaweicloud.com相关API超时

 帮助中心 > AI开发平台ModelArts > 故障排除
管理同步在线服务 - AI开发平台ModelArts

查看在线服务详情查看在线服务的事件管理在线服务生命周期修改在线服务配置在云监控平台查看在线服务性能指标集成在线服务API至生产环境中应用设置在线服务故障自动重启父主题：使用ModelArts Standard部署模型并推理预测

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
开发环境权限 - AI开发平台ModelArts

smn:topic:publish obs:object:PutObject obs:object:GetObject obs:object:GetObjectVersion obs:bucket:HeadBucket obs:object:DeleteObject obs:object:GetObject

帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
ECS中上传新镜像 - AI开发平台ModelArts

ECS中上传新镜像 Step1 在ECS中Docker登录在SWR中单击右上角的“登录指令”，然后在跳出的登录指定窗口，单击复制临时登录指令。在创建的ECS中粘贴临时登录指令，即可完成登录。图1 复制登录指令 Step2 修改并上传镜像在ECS服务器中输入登录指令后，使用下

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
使用ModelArts Standard自动学习实现口罩检测 - AI开发平台ModelArts

图8 停止服务清除OBS中的数据。在控制台左侧导航栏的服务列表，选择“对象存储服务OBS”，进入OBS服务详情页面。在左侧导航栏选择“桶列表”，在列表详情，找到自己创建的OBS桶，单击桶名称，进入OBS桶详情。在桶的详情页，左侧导航栏选择“对象”，在右侧“名称”列选中

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard自动学习
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

选择EulerOS；ECS服务器确保可以访问公网，用于获取镜像和构建镜像。图3 购买ECS ECS服务器挂载SFS Turbo ECS服务器中手动挂载SFS Turbo步骤如下：用户可通过CloudShell或SSH等方式登录并访问ECS服务器，进入ECS终端界面。创建/mnt/sfs_turbo目录作为挂载目录

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作
报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决？ - AI开发平台ModelArts

统变量中。重新打开CMD，并执行ssh，结果如下图即说明安装成功，如果还未装成功则执行5和6。 OpenSSH默认端口为22端口，开启防火墙22端口号，在CMD执行以下命令： netsh advfirewall firewall add rule name=sshd dir=in

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
导出ModelArts数据集中的数据 - AI开发平台ModelArts

“保存路径”：表示新数据集的输入路径，即当前数据导出后存储的OBS路径。 “输出路径”：表示新数据集的输出路径，即新数据集在完成标注后输出的路径。“输出路径”不能与“保存路径”为同一路径，且“输出路径”不能是“保存路径”的子目录。图1 导出新数据集数据导出成功后，您可以前往您设置的保存路径，查看到存储的数据

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理

总条数： 1913

上一页
1
...
5
6
7
...
96
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

设置在线服务故障自动重启 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

在Dockerfile中如何给镜像设置环境变量？ - AI开发平台ModelArts

配置Lite Server存储 - AI开发平台ModelArts

训练作业找不到GPU - AI开发平台ModelArts

模型训练高可靠性 - AI开发平台ModelArts

Notebook自定义镜像故障基础排查 - AI开发平台ModelArts

OBS操作相关故障 - AI开发平台ModelArts

使用ModelArts VSCode插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

Standard Notebook - AI开发平台ModelArts

ECS中上传新镜像 - AI开发平台ModelArts

API/SDK - AI开发平台ModelArts

管理同步在线服务 - AI开发平台ModelArts

开发环境权限 - AI开发平台ModelArts

ECS中上传新镜像 - AI开发平台ModelArts

使用ModelArts Standard自动学习实现口罩检测 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决？ - AI开发平台ModelArts

导出ModelArts数据集中的数据 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线