检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
msprobe工具使用指导 msprobe API预检 msprobe精度比对 msprobe梯度监控 父主题: GPU业务迁移至昇腾训练推理
单机单卡 线下容器镜像构建及调试 上传镜像 上传数据和算法至OBS(首次使用时需要) 使用Notebook进行代码调试 创建训练任务 监控资源 父主题: 调试与训练
安全 责任共担 资产识别与管理 身份认证与访问控制 数据保护技术 审计与日志 服务韧性 监控安全风险 故障恢复 更新管理 认证证书 安全边界
服务管理概述 在开发环境中部署本地服务进行调试 部署在线服务 查询服务详情 推理服务测试 查询服务列表 查询服务对象列表 更新服务配置 查询服务监控信息 查询服务日志 删除服务
运行环境:Vnt1 单卡 性能指标:QPS 100/s (两进程) 性能约束:单次请求最大可以接受时延需小于100ms 性能预期:QPS 130/s 例2: 模型:OCR 运行环境:6348(单核48U超线程) 性能指标:QPS 10/s(四进程) 性能约束:单次请求最大可以接受时延需小于1s
Server服务器详情 启动或停止Lite Server服务器 同步Lite Server服务器状态 切换Lite Server服务器操作系统 监控Lite Server资源 NPU日志收集上传 释放Lite Server资源
如果是client数太多,尤其对于5G以上文件,OBS接口不支持直接调用,需要分多个线程分段复制,目前OBS侧服务端超时时间是30S,可以通过如下设置减少进程数。 # 设置进程数 os.environ['MOX_FILE_LARGE_FILE_TASK_NUM']=1 import moxing as mox
创建Notebook失败,查看事件显示JupyterProcessKilled。 图1 查看事件 原因分析 出现此故障是因为Jupyter进程被清理掉了,一般情况Notebook会自动重启的,如果没有自动重启,创建一直失败,请确认是否是自定义镜像的问题。 解决方案 排查是否是自定义镜像的问题。
管理同步在线服务 查看在线服务详情 查看在线服务的事件 管理在线服务生命周期 修改在线服务配置 在云监控平台查看在线服务性能指标 集成在线服务API至生产环境中应用 设置在线服务故障自动重启 父主题: 使用ModelArts Standard部署模型并推理预测
服务管理 通过patch操作对服务进行更新 查询服务监控信息 查询服务列表 部署服务 查询支持的服务部署规格 查询服务详情 更新服务配置 删除服务 更新模型服务的单个属性 查询专属资源池列表 查询服务事件日志 启动停止边缘节点服务实例 查询服务更新日志 添加资源标签 删除资源标签
ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力。 监控Lite Cluster资源:ModelArts支持使用AOM和Prometheus对资源进行监控,方便您了解当前的资源使用情况。 释放Lite Cluster资源:针对不再使用的Lite
Cluster资源池 升级Lite Cluster资源池驱动 升级Lite Cluster资源池单个节点驱动 管理Lite Cluster资源池的游离节点 监控Lite Cluster资源 释放Lite Cluster资源
运行环境:Vnt1 单卡 性能指标:QPS 100/s (两进程) 性能约束:单次请求最大可以接受时延需小于100ms 性能预期:QPS 130/s 例2: 模型:OCR 运行环境:6348(单核48U超线程) 性能指标:QPS 10/s(四进程) 性能约束:单次请求最大可以接受时延需小于1s
训练作业运行失败,出现NCCL报错 自定义镜像训练作业失败定位思路 使用自定义镜像创建的训练作业一直处于运行中 使用自定义镜像创建训练作业找不到启动文件 训练作业的监控内存指标持续升高直至作业失败 订阅算法物体检测YOLOv3_ResNet18(Ascend)训练失败报错label_map.pbtxt cannot
查看当前Notebook实例中有哪些进程使用GPU。 方法一: python /modelarts/tools/gpu_processes.py 如果当前进程使用GPU 如果当前没有进程使用GPU 方法二: 打开文件“/resource_info/gpu_usage.json”,可以看到有哪些进程在使用GPU。
大小,则显示默认值) 查看资源池监控 在资源池详情页,切换到“监控”页签。展示了CPU使用量、内存利用率、磁盘可用容量等使用情况,均以资源池的维度呈现。当资源池中有AI加速卡时,还会显示GPU、NPU的相关监控信息。 图5 查看资源视图 表1 监控指标 名称 指标含义 单位 取值范围
查询网络资源列表 查询网络资源 删除网络资源 更新网络资源 查询资源实时利用率 创建资源池 查询资源池列表 查询资源池 删除资源池 更新资源池 资源池监控 资源池统计 查询资源规格列表 查询专属资源池作业列表 查询专属资源池作业统计信息
相比于DP,DDP能够启动多进程进行运算,从而大幅度提升计算资源的利用率。可以基于torch.distributed实现真正的分布式计算,具体的原理此处不再赘述。大致的流程如下: 初始化进程组。 创建分布式并行模型,每个进程都会有相同的模型和参数。 创建数据分发Sampler,使每个进程加载一个mini
训练作业重调度 当训练作业发生故障恢复时(例如进程级恢复、POD级重调度、JOB级重调度等),作业详情页面中会出现“故障恢复详情”页签,里面记录了训练作业的启停情况。 在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。 在训练作业列表中,单击作业名称进入训练作业详情页面。
container xxx”。 原因分析 执行镜像保存时,Notebook中存在状态为D的进程,会导致镜像保存失败。 解决方案 在Terminal里执行ps -aux命令检查进程。 执行kill -9 <pid>命令将相关进程结束后,再次执行镜像保存即可。 父主题: 自定义镜像故障