搜索_华为云

访问在线服务支持的传输协议 - AI开发平台ModelArts

访问在线服务支持的传输协议使用WebSocket协议的方式访问在线服务使用Server-Sent Events协议的方式访问在线服务父主题：将模型部署为实时推理作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业
SD1.5&SDXL Diffusers框架基于Lite Server适配PyTorch NPU训练指导（6.3.908） - AI开发平台ModelArts

SD1.5&SDXL Diffusers框架基于Lite Server适配PyTorch NPU训练指导（6.3.908）训练场景和方案介绍准备镜像环境 Finetune训练 LoRA训练 Controlnet训练父主题：文生图模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
使用Notebook进行代码调试 - AI开发平台ModelArts

入实例详情页，查看Notebook实例配置信息。挂载OBS并行文件系统：在Notebook实例详情页面，选择“存储配置”页签，单击“添加数据存储”，设置挂载参数。设置本地挂载目录，在“/data/”目录下输入一个文件夹名称，例如：demo。挂载时，后台自动会在Notebook

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
Yolov8基于Lite Server适配MindSpore Lite推理指导（6.3.909） - AI开发平台ModelArts

享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。 npu-smi info

帮助中心 > AI开发平台ModelArts > 最佳实践 > 内容审核模型训练推理
训练预测分析模型 - AI开发平台ModelArts

练。训练完成后，您可以在预测分析节点中单击查看训练详情，如“标签列”和“标签列数据类型”、“准确率”、“评估结果”等。该示例为二分类的离散型数值，评估效果参数说明请参见表1。不同类型标签列数据产生的评估结果说明请参见评估结果说明。图1 模型评估报告同一个自动学习项目可以

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现预测分析
准备镜像环境 - AI开发平台ModelArts

享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后，检查NPU卡状态。运行如下命令，返回NPU设备信息。 npu-smi info

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Kohya框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
Hunyuan-DiT基于Lite Server部署适配PyTorch NPU推理指导（6.3.909） - AI开发平台ModelArts

享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后，检查NPU卡状态。运行如下命令，返回NPU设备信息。 npu-smi info

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
报错“The VS Code Server failed to start”如何解决？ - AI开发平台ModelArts

报错“The VS Code Server failed to start”如何解决？问题现象解决方法检查VS Code版本是否为1.78.2或更高版本，如果是，请查看Remote-SSH版本，如果低于v0.76.1，请升级Remote-SSH。打开命令面板（Windows：

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

设置python路径的环境变量）。测试训练启动脚本。优先使用手工进行数据复制的工作并验证一般在镜像里不包含训练所用的数据和代码，所以在启动镜像以后需要手工把需要的文件复制进去。建议数据、代码和中间数据都放到"/cache"目录，防止正式运行时磁盘占满。建议linux服务器申

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
TensorFlow在OBS写入TensorBoard到达5GB时停止 - AI开发平台ModelArts

TensorFlow在OBS写入TensorBoard到达5GB时停止问题现象 ModelArts训练作业出现如下报错： Encountered Unknown Error EntityTooLarge Your proposed upload exceeds the maximum

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错问题现象训练作业的状态“运行失败”，查看训练作业的“日志”，存在NCCL的报错，例如“NCCL timeout”、“RuntimeError: NCCL communicator was aborted on rank 7”、“NCCL WARN

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

重装的包与镜像装CUDA版本不匹配问题现象在现有镜像基础上，重新装了引擎版本，或者编译了新的CUDA包，出现如下错误： 1.“RuntimeError: cuda runtime error (11) : invalid argument at /pytorch/aten/s

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
在ModelArts训练作业中如何判断文件夹是否复制完毕？ - AI开发平台ModelArts

在ModelArts训练作业中如何判断文件夹是否复制完毕？您可以在训练作业启动文件的脚本中，通过如下方式获取复制和被复制文件夹大小，根据结果判断是否复制完毕： import moxing as mox mox.file.get_size('obs://bucket_name/obs_file'

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
在ModelArts上如何获得RANK_TABLE_FILE用于分布式训练？ - AI开发平台ModelArts

在ModelArts上如何获得RANK_TABLE_FILE用于分布式训练？ ModelArts会帮用户生成RANK_TABLE_FILE文件，可通过环境变量查看文件位置。在Notebook中打开terminal，可以运行如下命令查看RANK_TABLE_FILE： 1 env

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
发布技术文章（AI说） - AI开发平台ModelArts

发布技术文章（AI说） AI Gallery中的“AI说”，是一个AI开发人员的交流园地。在这里可以阅读其他用户分享的技术文章，并参与评论。也可以发布分享个人技术文章。前提条件已入驻AI Gallery。发布技术文章进入AI Gallery首页，单击“AI说”，在下拉框中单击“AI说

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 参加活动
服务启动后，状态断断续续处于“告警中” - AI开发平台ModelArts

服务启动后，状态断断续续处于“告警中” 问题现象预测流量不大但频繁出现以下报错 Backend service internal error. Backend service read timed out Send the request from gateway to the

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
日志提示“UnboundLocalError: local variable 'epoch'” - AI开发平台ModelArts

日志提示“UnboundLocalError: local variable 'epoch'” 问题现象使用YOLOv5算法增量训练时出现如下报错：UnboundLocalError: local variable 'epoch' referenced before assignment。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
在ModelArts训练代码中，如何获取依赖文件所在的路径？ - AI开发平台ModelArts

在ModelArts训练代码中，如何获取依赖文件所在的路径？由于用户本地开发的代码需要上传至ModelArts后台，训练代码中涉及到依赖文件的路径时，用户设置有误的场景较多。因此推荐通用的解决方案：使用os接口得到依赖文件的绝对路径，避免报错。以下示例展示如何通过os接口获得其他文件夹下的依赖文件路径。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
在ModelArts的Notebook中如何在代码中打印GPU使用信息？ - AI开发平台ModelArts

在ModelArts的Notebook中如何在代码中打印GPU使用信息？用户可通过shell命令或python命令查询GPU使用信息。使用shell命令执行nvidia-smi命令。依赖CUDA nvcc watch -n 1 nvidia-smi 执行gpustat命令。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
obsutil安装和配置 - AI开发平台ModelArts

obsutil安装和配置 obsutil是用于访问、管理对象存储服务OBS的命令行工具，使用该工具可以对OBS进行常用的配置管理操作，如创建桶、上传文件/文件夹、下载文件/文件夹、删除文件/文件夹等。 obsutil安装和配置的具体操作指导请参见obsutils快速入门。操作命

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置

总条数： 2651

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

访问在线服务支持的传输协议 - AI开发平台ModelArts

SD1.5&SDXL Diffusers框架基于Lite Server适配PyTorch NPU训练指导（6.3.908） - AI开发平台ModelArts

使用Notebook进行代码调试 - AI开发平台ModelArts

Yolov8基于Lite Server适配MindSpore Lite推理指导（6.3.909） - AI开发平台ModelArts

训练预测分析模型 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

Hunyuan-DiT基于Lite Server部署适配PyTorch NPU推理指导（6.3.909） - AI开发平台ModelArts

报错“The VS Code Server failed to start”如何解决？ - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

TensorFlow在OBS写入TensorBoard到达5GB时停止 - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

在ModelArts训练作业中如何判断文件夹是否复制完毕？ - AI开发平台ModelArts

在ModelArts上如何获得RANK_TABLE_FILE用于分布式训练？ - AI开发平台ModelArts

发布技术文章（AI说） - AI开发平台ModelArts

服务启动后，状态断断续续处于“告警中” - AI开发平台ModelArts

日志提示“UnboundLocalError: local variable 'epoch'” - AI开发平台ModelArts

在ModelArts训练代码中，如何获取依赖文件所在的路径？ - AI开发平台ModelArts

在ModelArts的Notebook中如何在代码中打印GPU使用信息？ - AI开发平台ModelArts

obsutil安装和配置 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线