检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查询训练作业版本详情 功能介绍 根据作业ID查看指定的训练作业详情。 URI GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id} 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id
查询数据处理任务版本的结果展示 功能介绍 查询数据处理任务版本的结果展示。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/
查询训练作业参数详情 功能介绍 查看指定的训练作业参数详情。 URI GET /v1/{project_id}/training-job-configs/{config_name} 参数说明如表1所示。 表1 路径参数 参数 是否必选 参数类型 说明 project_id 是 String
查看每个配额项目支持的默认配额,请参考怎样查看我的配额?,登录控制台查询您的配额详情。 表2 配额 资源类型 默认配额限制 是否支持调整 说明 Standard Notebook 一个账号最多创建10个Notebook。 否 更多信息,请参见创建Notebook实例。 Standard推理部署在线服务
ASCEND_GLOBAL_LOG_LEVEL=1 # 0:表示DEBUG、1:表示INFO、2:表示WARNING、3:表示ERROR 4: 表示NONE export ASCEND_SLOG_PRINT_TO_STDOUT=1 # 表示日志打印。 设置DUMP模型转换中间图。 设置DUMP中间图环境变量。
通过API接口查询模型详情,model_name返回值出现乱码 问题现象 通过API接口查询模型详情,model_name返回值出现乱码。例如model_name为query_vec_recall_model,但是api接口返回结果是query_vec_recall_model_b。
配置仪表盘查看指标数据 Grafana中可以自定义配置各种视图的仪表盘,ModelArts也提供了针对集群的配置模板。本章节通过使用ModelArts提供的模板查看指标和创建Dashboards查看指标的方式,说明如何进行仪表盘配置。Grafana的更多使用请参考Grafana官方文档。
可能原因如下: 原因1:未设置环境变量NCCL_IB_TC、NCCL_IB_GID_INDEX、NCCL_IB_TIMEOUT,因此会导致通信速度慢且不稳定,最后造成IB通信断连,偶发上述现象。 原因2:NCCL_SOCKET_IFNAME设置错误。当用户的NCCL版本低于2.1
日志出现ECC错误,导致训练作业失败 问题现象 训练作业日志运行出现如下报错:RuntimeError: CUDA error: uncorrectable ECC error encountered 原因分析 由于ECC错误,导致作业运行失败。 处理方法 当ECC错误且计数超过
在左侧导航栏中,单击“事件列表”,进入“事件列表”页面。 事件列表支持通过筛选来查询对应的操作事件。当前事件列表支持四个维度的组合查询,详细信息如下: 事件来源、资源类型和筛选类型。 在下拉框中选择查询条件。 其中筛选类型选择事件名称时,还需选择某个具体的事件名称。 选择资源ID时,还需输入某个具体的资源ID。
在当前安全组的入方向规则中添加一条规则,基本协议选择ICMP协议,详细配置如下表所示,添加规则步骤请参考添加安全组规则。 表1 入方向规则 方向 协议/应用 端口 源地址 入方向 ICMP 全部 0.0.0.0/0 华为云安全组支持的协议参考可参考下表。 表2 入方向规则 协议 端口 说明 协议 端口 说明
Cluster高危操作一览表 当您在CCE、ECS或BMS服务控制台直接操作ModelArts Lite Lite Cluster资源时,可能会导致资源池部分功能异常。下表可帮助您定位异常出现的原因,风险操作包括但不限于以下内容。 高危操作风险等级说明: 高:对于可能直接导致业务失败、数据丢
DLI resources. 表1 提交DLI Spark作业命令总览 命令 命令详情 get-job 查询DLI Spark作业列表及详情。 get-log 查询DLI Spark运行日志。 get-queue 查询DLI队列。 get-resource 查询DLI分组资源。 stop
节点是容器集群组成的基本元素,在资源池详情页,单击“节点管理”页签,进行删除、重置、续费等操作。当把鼠标放在节点名称上方时,会显示资源ID,资源ID可用于查询账单或者在费用中心查询包周期资源的计费信息。 删除/退订/释放节点 若是“按需计费”的资源池,您可单击操作列的“删除”,即可实现对单个节点的资源释放。
例的AI引擎。Notebook实例状态需在“停止”中才可以变更镜像。 请注意,变更镜像后可能会导致Notebook实例无法启动,镜像对应的Notebook实例规格不匹配,对应的收费规则也会随着镜像的变更而变化,请谨慎操作。 登录ModelArts管理控制台,在左侧菜单栏中选择“开发环境
workspace_id 否 String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 limit 否 String 分页参数limit,表示单次查询的条目数上限。假如要查询20~29条记录,offset为20,limit为10。
通过OBS导入模型时,如何编写打印日志代码才能在ModelArts日志查询界面看到日志 问题现象 用户通过OBS导入模型时,选择使用基础镜像,用户自己编写了部分推理代码实现自己的推理逻辑,出现故障后希望通过故障日志排查定位故障原因,但是通过logger打印日志无法在“在线服务”的日志中查看到部分内容。 原因分析 推理服
此接口为异步接口,作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。 URI POST /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/stop 参数说明如表1所示。 表1 参数说明 参数 是否必选
训练作业的监控内存指标持续升高直至作业失败 问题现象 训练作业的“状态”为“运行失败”。 原因分析 训练作业的监控内存指标持续升高,导致最后训练作业失败。 处理步骤 查询训练作业的日志和监控信息,是否存在明确的OOM报错信息。 是,训练作业的日志里存在OOM报错,执行2。 否,训练作业的日志
创建可视化作业选择的规格,用户无需填写。参见表3。 schedule 否 Object 自动停止设置。参见表4。 表3 flavor属性列表 参数 是否必选 参数类型 说明 code 是 String 可视化作业选择的资源规格编码。通过flavor接口获得。 表4 schedule属性列表 参数 是否必选 参数类型