检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查看ModelArts相关审计日志 在您开启了云审计服务后,系统会记录ModelArts的相关操作,且控制台保存最近7天的操作记录。本节介绍如何在云审计服务管理控制台查看最近7天的操作记录。 操作步骤 登录云审计服务管理控制台。 在管理控制台左上角单击图标,选择区域。 在左侧导航
通过OBS导入模型时,如何编写打印日志代码才能在ModelArts日志查询界面看到日志 问题现象 用户通过OBS导入模型时,选择使用基础镜像,用户自己编写了部分推理代码实现自己的推理逻辑,出现故障后希望通过故障日志排查定位故障原因,但是通过logger打印日志无法在“在线服务”的日志中查看到部分内容。
在ModelArts的Notebook中使用VS Code如何查看远端日志? 在VS Code环境中执行Ctrl+Shift+P 搜show logs 选择Remote Server。 也可在如下截图的红框处切换至其他的Log 父主题: Standard Notebook
查询服务日志 查询当前服务对象的日志信息。 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式1:根据部署在线服务生成的服务对象进行查询服务日志 1 2 3 4 5 6 7 from
模型转换报错如何查看日志和定位? 通过如下的配置项打开对应的模型转换日志,可以看到更底层的报错。如配置以下的环境变量之后,再重新转换模型,导出对应的日志和dump图进行分析: 报错日志中搜到“not support onnx data type”,表示MindSpore暂不支持该算子。
update_user 日志 出于分析或审计等目的,用户可以开启ModelArts的日志记录功能。在您开启了云审计服务后,系统会记录ModelArts的相关操作,且控制台保存最近7天的操作记录。本节介绍如何在云审计服务管理控制台查看最近7天的操作记录。 对接云审计服务的配置方法请参见查看审计日志章节。
查询服务事件日志 功能介绍 查询服务事件日志,包含服务的操作记录及部署过程中的关键动作、部署失败原因。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1
查询服务更新日志 功能介绍 查询实时服务更新日志。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/services/{service_id}/logs
String 日志内容。 如果日志大小没有超过上限(n兆),则返回全部内容; 如果日志超过了上限(n兆),则返回最新的n兆的日志。 current_size Integer 当前返回的日志大小(单位:字节)。最大为5兆。 full_size Integer 完整的日志大小(单位:字节)。
训练日志失败分析 在ModelArts Standard中训练作业遇到问题时,可首先查看日志,多数场景下的问题可以通过日志报错信息直接定位。 ModelArts Standard提供了训练作业失败定位与分析功能,如果训练作业运行失败,ModelArts会自动识别导致作业失败的原因
查询训练作业指定任务的日志(OBS链接) 功能介绍 查询训练作业指定任务的日志(OBS临时链接,有效期5分钟),可全量查看或直接下载。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
npu_log_collection.execute() 执行脚本收集日志。 在节点上执行该脚本,可以看到有如下输出,代表日志收集完成并成功上传至OBS。 图3 日志收集完成 查看在脚本的同级目录下,可以看到收集到的日志压缩包。 图4 查看结果 父主题: Lite Server资源管理
String 日志的基准位置,根据接口返回获得,为空的时候代表获取最新的日志。 lines 否 Integer 获取日志的长度,默认为50行。lines的范围为[0, 500]。 log_file 是 String 需要查看的日志文件名称,获取方式请参见获取训练作业日志的文件名。 order
日志提示“label_map.pbtxt cannot be found” 问题现象 使用目标检测算法训练时,训练作业日志运行出现如下报错:ERROR:root:label_map.pbtxt cannot be found. It will take a long time to
gpu_log_collection.execute() 执行脚本收集日志。 在节点上执行该脚本,可以看到有如下输出,代表日志收集完成并成功上传至OBS。 图3 日志收集完成 查看在脚本的同级目录下。可以看到收集到的日志压缩包。 图4 查看结果 父主题: Lite Server资源管理
查询训练作业指定任务的日志(预览) 功能介绍 查询训练作业指定任务的日志(预览)。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_
日志提示“No module name 'unidecode'” 问题现象 从mindspore开源gitee中master分支下载的tacotron2模型,修改配置文件后上传ModelArts准备训练,日志报错提示:No module name 'unidecode'。 原因分析
日志提示“ Network is unreachable” 问题现象 在使用pytorch时,将torchvision.models中的pretrained置为了True,日志中出现如下报错: ‘OSError: [Errno 101] Network is unreachable’
训练作业日志中提示“No such file or directory” 问题现象 训练作业运行失败,日志中提示“No such file or directory”。 例如:找不到训练输入的数据路径时,会提示“No such file or directory”。 例如:找不到训练启动文件时,也会提示“No
日志提示“no socket interface found” 问题现象 在pytorch镜像运行分布式作业时,设置NCCL日志级别,代码如下: import os os.environ["NCCL_DEBUG"] = "INFO" 会出现如下错误: job0879f61e-jo