搜索_华为云

msprobe工具使用指导 - AI开发平台ModelArts

msprobe工具使用指导 msprobe API预检 msprobe精度比对 msprobe梯度监控父主题： GPU业务迁移至昇腾训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
单机单卡 - AI开发平台ModelArts
单机单卡 - AI开发平台ModelArts

单机单卡线下容器镜像构建及调试上传镜像上传数据和算法至OBS（首次使用时需要）使用Notebook进行代码调试创建训练任务监控资源父主题：调试与训练

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练
安全 - AI开发平台ModelArts
安全 - AI开发平台ModelArts

安全责任共担资产识别与管理身份认证与访问控制数据保护技术审计与日志服务韧性监控安全风险故障恢复更新管理认证证书安全边界

 帮助中心 > AI开发平台ModelArts > 产品介绍
服务管理 - AI开发平台ModelArts
服务管理 - AI开发平台ModelArts

服务管理概述在开发环境中部署本地服务进行调试部署在线服务查询服务详情推理服务测试查询服务列表查询服务对象列表更新服务配置查询服务监控信息查询服务日志删除服务

 帮助中心 > AI开发平台ModelArts > SDK参考
推理业务迁移评估表 - AI开发平台ModelArts

运行环境：Vnt1 单卡性能指标：QPS 100/s （两进程）性能约束：单次请求最大可以接受时延需小于100ms 性能预期：QPS 130/s 例2：模型：OCR 运行环境：6348（单核48U超线程）性能指标：QPS 10/s（四进程）性能约束：单次请求最大可以接受时延需小于1s

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
Lite Server资源管理 - AI开发平台ModelArts

Server服务器详情启动或停止Lite Server服务器同步Lite Server服务器状态切换Lite Server服务器操作系统监控Lite Server资源 NPU日志收集上传释放Lite Server资源

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

如果是client数太多，尤其对于5G以上文件，OBS接口不支持直接调用，需要分多个线程分段复制，目前OBS侧服务端超时时间是30S，可以通过如下设置减少进程数。 # 设置进程数 os.environ['MOX_FILE_LARGE_FILE_TASK_NUM']=1 import moxing as mox

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
创建Notebook失败，查看事件显示JupyterProcessKilled - AI开发平台ModelArts

创建Notebook失败，查看事件显示JupyterProcessKilled。图1 查看事件原因分析出现此故障是因为Jupyter进程被清理掉了，一般情况Notebook会自动重启的，如果没有自动重启，创建一直失败，请确认是否是自定义镜像的问题。解决方案排查是否是自定义镜像的问题。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 实例故障
管理同步在线服务 - AI开发平台ModelArts

管理同步在线服务查看在线服务详情查看在线服务的事件管理在线服务生命周期修改在线服务配置在云监控平台查看在线服务性能指标集成在线服务API至生产环境中应用设置在线服务故障自动重启父主题：使用ModelArts Standard部署模型并推理预测

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
服务管理 - AI开发平台ModelArts
服务管理 - AI开发平台ModelArts

服务管理通过patch操作对服务进行更新查询服务监控信息查询服务列表部署服务查询支持的服务部署规格查询服务详情更新服务配置删除服务更新模型服务的单个属性查询专属资源池列表查询服务事件日志启动停止边缘节点服务实例查询服务更新日志添加资源标签删除资源标签

 帮助中心 > AI开发平台ModelArts > API参考
Lite Cluster资源管理介绍 - AI开发平台ModelArts

ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力。监控Lite Cluster资源：ModelArts支持使用AOM和Prometheus对资源进行监控，方便您了解当前的资源使用情况。释放Lite Cluster资源：针对不再使用的Lite

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
Lite Cluster资源管理 - AI开发平台ModelArts

Cluster资源池升级Lite Cluster资源池驱动升级Lite Cluster资源池单个节点驱动管理Lite Cluster资源池的游离节点监控Lite Cluster资源释放Lite Cluster资源

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
迁移评估 - AI开发平台ModelArts
迁移评估 - AI开发平台ModelArts

运行环境：Vnt1 单卡性能指标：QPS 100/s （两进程）性能约束：单次请求最大可以接受时延需小于100ms 性能预期：QPS 130/s 例2：模型：OCR 运行环境：6348（单核48U超线程）性能指标：QPS 10/s（四进程）性能约束：单次请求最大可以接受时延需小于1s

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
训练作业运行失败 - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错自定义镜像训练作业失败定位思路使用自定义镜像创建的训练作业一直处于运行中使用自定义镜像创建训练作业找不到启动文件训练作业的监控内存指标持续升高直至作业失败订阅算法物体检测YOLOv3_ResNet18(Ascend)训练失败报错label_map.pbtxt cannot

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
在ModelArts的Notebook中如何查看GPU使用情况？ - AI开发平台ModelArts

查看当前Notebook实例中有哪些进程使用GPU。方法一： python /modelarts/tools/gpu_processes.py 如果当前进程使用GPU 如果当前没有进程使用GPU 方法二：打开文件“/resource_info/gpu_usage.json”，可以看到有哪些进程在使用GPU。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
查看Standard专属资源池详情 - AI开发平台ModelArts

大小，则显示默认值）查看资源池监控在资源池详情页，切换到“监控”页签。展示了CPU使用量、内存利用率、磁盘可用容量等使用情况，均以资源池的维度呈现。当资源池中有AI加速卡时，还会显示GPU、NPU的相关监控信息。图5 查看资源视图表1 监控指标名称指标含义单位取值范围

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
资源管理 - AI开发平台ModelArts
资源管理 - AI开发平台ModelArts

查询网络资源列表查询网络资源删除网络资源更新网络资源查询资源实时利用率创建资源池查询资源池列表查询资源池删除资源池更新资源池资源池监控资源池统计查询资源规格列表查询专属资源池作业列表查询专属资源池作业统计信息

 帮助中心 > AI开发平台ModelArts > API参考
创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

相比于DP，DDP能够启动多进程进行运算，从而大幅度提升计算资源的利用率。可以基于torch.distributed实现真正的分布式计算，具体的原理此处不再赘述。大致的流程如下：初始化进程组。创建分布式并行模型，每个进程都会有相同的模型和参数。创建数据分发Sampler，使每个进程加载一个mini

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
训练作业重调度 - AI开发平台ModelArts

训练作业重调度当训练作业发生故障恢复时（例如进程级恢复、POD级重调度、JOB级重调度等），作业详情页面中会出现“故障恢复详情”页签，里面记录了训练作业的启停情况。在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。在训练作业列表中，单击作业名称进入训练作业详情页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
镜像保存时报错“there are processes in 'D' status, please check process status using 'ps -aux' and kill all the 'D' status processes”或“Buildimge - AI开发平台ModelArts

container xxx”。原因分析执行镜像保存时，Notebook中存在状态为D的进程，会导致镜像保存失败。解决方案在Terminal里执行ps -aux命令检查进程。执行kill -9 <pid>命令将相关进程结束后，再次执行镜像保存即可。父主题：自定义镜像故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障

总条数： 311

上一页
1
...
4
5
6
...
16
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

msprobe工具使用指导 - AI开发平台ModelArts

单机单卡 - AI开发平台ModelArts

安全 - AI开发平台ModelArts

服务管理 - AI开发平台ModelArts

推理业务迁移评估表 - AI开发平台ModelArts

Lite Server资源管理 - AI开发平台ModelArts

OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

创建Notebook失败，查看事件显示JupyterProcessKilled - AI开发平台ModelArts

管理同步在线服务 - AI开发平台ModelArts

服务管理 - AI开发平台ModelArts

Lite Cluster资源管理介绍 - AI开发平台ModelArts

Lite Cluster资源管理 - AI开发平台ModelArts

迁移评估 - AI开发平台ModelArts

训练作业运行失败 - AI开发平台ModelArts

在ModelArts的Notebook中如何查看GPU使用情况？ - AI开发平台ModelArts

查看Standard专属资源池详情 - AI开发平台ModelArts

资源管理 - AI开发平台ModelArts

创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

训练作业重调度 - AI开发平台ModelArts

镜像保存时报错“there are processes in 'D' status, please check process status using 'ps -aux' and kill all the 'D' status processes”或“Buildimge - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线