检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何访问训练作业的后台? ModelArts不支持访问训练作业后台。 父主题: 查看作业详情
镜像会以快照的形式保存,保存过程约5分钟,请耐心等待。此时不可再操作实例。 图2 保存镜像 快照中耗费的时间仍占用实例的总运行时长,如果在快照中时,实例因运行时间到期停止,将导致镜像保存失败。 镜像保存成功后,实例状态变为“运行中”,用户可在“镜像管理”页面查看到该镜像详情。 单击镜像的名
镜像会以快照的形式保存,保存过程约5分钟,请耐心等待。此时不可再操作实例。 图2 保存镜像 快照中耗费的时间仍占用实例的总运行时长,如果在快照中时,实例因运行时间到期停止,将导致镜像保存失败。 镜像保存成功后,实例状态变为“运行中”,用户可在“镜像管理”页面查看到该镜像详情。 单击镜像的名
指标浏览”,进入“指标浏览”“页面”,单击“添加指标查询”。 图1 示例图片 添加指标查询信息。 图2 示例图片 添加方式:选择“按指标维度添加”。 指标名称:在右侧下拉框中选择“全量指标”,然后选择想要查询的指标,参考表1、表2 指标维度:填写过滤该指标的标签,请参考表4的Label名字栏。样例如下:
到AOM,您可在AOM配置告警通知。 当发生节点异常时,在故障初步分析阶段,您可先按表1识别是否为亚健康并自助进行处理,若不是,则为故障,请联系客户经理发起维修流程(若无客户经理可提交工单)。 表1 节点故障类型定义 NodeCondition Type 分类 子类 异常中文描述
GB/sec,则内存带宽利用率为50%。 百分比(Percent) 0~100% NA NA NA GPU编码器利用率 ma_container_gpu_enc_util 表示编码器利用率 百分比(Percent) % NA NA NA GPU解码器利用率 ma_container_gpu_dec_util 表示解码器利用率
查询训练作业指定任务的日志(OBS链接) 功能介绍 查询训练作业指定任务的日志(OBS临时链接,有效期5分钟),可全量查看或直接下载。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
如何在代码中打印GPU使用信息 用户可通过shell命令或python命令查询GPU使用信息。 使用shell命令 执行nvidia-smi命令。 依赖CUDA nvcc watch -n 1 nvidia-smi 执行gpustat命令。 pip install gpustat
磁盘、网络。在主机上安装加速卡驱动后,可以自动采集的相关指标。此处仅展示NPU相关指标,其他指标项请参考CES Agent支持的指标列表。 表1 NPU指标列表 英文名称 中文名称 说明 单位 维度 npu_device_health NPU健康状况 NPU卡的健康状况 - instance_id,npu
在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。
在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。
如何查看账号ID和IAM用户ID 使用IAM账号登录华为云。 在页面右上方单击“控制台”,进入华为云管理控制台。 图1 控制台入口 在控制台右上角的账户名下方,单击“我的凭证”,进入“我的凭证”页面。 图2 我的凭证 在API凭证页面获取IAM用户名、用户ID、账号名和账号ID。
在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。
!¥…&()【】‘;:”“’。,、? start_time 否 Number 过滤事件发生时间的起始时间,默认不过滤。 end_time 否 Number 过滤事件发生时间的截止时间,默认不过滤。 offset 否 Integer 分页列表的起始页,默认为0。 limit 否 Integer 指定每一页返回的最大条目数,默认为1000。
在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。
在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。
在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。
实际存储空间足够,却依旧报错“No Space left on device”。 同一目录下创建较多文件,为了加快文件检索速度,内核会创建一个索引表,短时间内创建较多文件时,会导致索引表达到上限,进而报错。 触发条件和下面的因素有关: 文件名越长,文件数量的上限越小。 blocksize越小,文件数量的上限越小。(
”,则其中时间“2018年底”的start_index为3,end_index为9。 @modelarts:end_time String 语音起止点标签专用内置属性:语音的结束时间,格式“hh:mm:ss.SSS”(其中hh表示小时,mm表示分钟,ss表示秒,SSS表示毫秒)。
见什么是区域、可用区? 资源类型:ModelArts支持查询的资源类型如表1所示。 资源标签:不填写标签时,表示查询所有资源,无论此资源是否有配置标签。选择相应标签查询资源,用户可以通过多个标签组合查询资源使用情况。 表1 ModelArts的资源类型 资源类型 说明 ModelArts-Notebook