-
日志监控 - AI开发平台ModelArts
日志监控 使用ModelArts的exporter功能在Prometheus查看监控数据 使用ModelArts监控自定义指标 如何在AOM上查看ModelArts所有监控指标? 父主题: k8s Cluster资源配置
-
日志文件的大小达到限制 - AI开发平台ModelArts
continue running silently 原因分析 根据报错信息,可以判断是日志文件的大小已达到限制。出现该报错之后,日志不再增加,后台将继续运行。 处理方法 请您在启动文件中减少无用日志输出。 父主题: 硬盘限制故障
-
普通日志说明 - AI开发平台ModelArts
普通日志说明 普通日志中包含训练进程日志、pip-requirement.txt安装日志和ModelArts平台日志。 普通日志类型 表1 普通日志类型 日志类型 说明 训练进程日志 用户训练代码的标准输出。 pip-requirement.txt安装日志 如果用户有定义pip-requirement
-
什么是训练作业日志 - AI开发平台ModelArts
训练日志包括普通训练日志和Ascend相关日志。 普通日志说明:当使用Ascend之外的资源训练时仅产生普通训练日志,普通日志中包含训练进程日志、pip-requirement.txt安装日志和ModelArts平台日志。 Ascend场景日志说明:使用Ascend资源训练时会
-
如何查看训练作业日志 - AI开发平台ModelArts
如何查看训练作业日志 在训练作业详情页,训练日志窗口提供日志预览、日志下载、日志中搜索关键字、系统日志过滤能力。 预览 系统日志窗口提供训练日志预览功能,如果训练作业有多个节点,则支持查看不同计算节点的日志,通过右侧下拉框可以选择目标节点预览。 图1 查看不同计算节日志 当日志文件过大时,
-
通过OBS导入AI应用时,如何编写打印日志代码才能在ModelArts日志查询界面看到日志? - AI开发平台ModelArts
通过OBS导入AI应用时,如何编写打印日志代码才能在ModelArts日志查询界面看到日志? 问题现象 用户通过OBS导入AI应用时,选择使用基础镜像,用户自己编写了部分推理代码实现自己的推理逻辑,出现故障后希望通过故障日志排查定位故障原因,但是通过logger打印日志无法在在线服务的日志中查看到部分内容。
-
查看审计日志 - AI开发平台ModelArts
查看审计日志 在您开启了云审计服务后,系统会记录ModelArts的相关操作,且控制台保存最近7天的操作记录。本节介绍如何在云审计服务管理控制台查看最近7天的操作记录。 操作步骤 登录云审计服务管理控制台。 在管理控制台左上角单击图标,选择区域。 在左侧导航栏中,单击“事件列表”,进入“事件列表”页面。
-
查询服务日志 - AI开发平台ModelArts
查询服务日志 查询当前服务对象的日志信息。 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式1:根据部署在线服务生成的服务对象进行查询服务日志 1 2 3 4 5 6 7 from
-
获取训练作业日志的文件名 - AI开发平台ModelArts
此字段。 log_file_list String 训练作业的日志文件名。单机作业日志仅有一个文件,分布式作业日志有多个文件。 请求示例 如下以获取“job_id”为10,“version_id”为10的作业日志文件为例。 GET https://endpoint/v1/{
-
在Notebook中使用tensorboard命令打开日志文件报错Permission denied - AI开发平台ModelArts
解决方法 建议用户新建一个文件夹(例如:tb_logs),将tensorboard的日志文件(例如:tb.events)放到新建的文件夹下,然后执行tensorboard命令。示例命令如下: mkdir -p ./tb_logs mv tb.events ./tb_logs tensorboard
-
Ascend场景日志说明 - AI开发平台ModelArts
Ascend场景日志说明 Ascend场景日志说明 使用Ascend资源运行训练作业时,会产生Ascend相关日志。Ascend训练场景下会生成device日志、plog日志、proc log单卡训练日志、MindSpore日志、普通日志。 其中,Ascend训练场景下的普通日志包括训练
-
使用ModelArts监控自定义指标 - AI开发平台ModelArts
html_http_requests_total{method="post",code="400"} 2 1686660980681 自定义指标数据结果 父主题: 日志监控
-
查看审计日志 - AI开发平台ModelArts
查看审计日志 在您开启了云审计服务后,系统会记录ModelArts的相关操作,且控制台保存最近7天的操作记录。本节介绍如何在云审计服务管理控制台查看最近7天的操作记录。 操作步骤 登录云审计服务管理控制台。 在管理控制台左上角单击图标,选择区域。 在左侧导航栏中,单击“事件列表”,进入“事件列表”页面。
-
如何在AOM上查看ModelArts所有监控指标? - AI开发平台ModelArts
昇腾系列AI处理器HBM内存使用量(昇腾snt9 AI处理器专属) 字节(Byte) >0 AI处理器HBM内存利用率 ma_node_npu_hbm_util 昇腾系列AI处理器HBM内存利用率(昇腾snt9 AI处理器专属) 百分比(Percent) 0~100% AI处理器HBM内存带宽利用率
-
审计日志 - AI开发平台ModelArts
审计日志 支持云审计的关键操作 查看审计日志
-
审计日志 - AI开发平台ModelArts
审计日志 支持云审计的关键操作 查看审计日志
-
查看训练日志 - AI开发平台ModelArts
”桶下创建一个命名为“train-job-01”的文件夹,且此文件夹下分别新建了三个文件夹“output”、“log”、“code”,分别用于存储输出模型、日志和训练代码。“output”文件夹还会根据您的训练作业版本再创建子文件夹,结构示例如下。 test-modelarts2
-
使用ModelArts的exporter功能在Prometheus查看监控数据 - AI开发平台ModelArts
公网IP和配置安全组即可。 在浏览器地址栏输入http://<弹性公网IP>:9090,即可打开Prometheus监控浏览页面。单击Graph菜单,在输入框输入任意一个指标名称即可看到Prometheus收集到的指标数据: 父主题: 日志监控
-
查询服务事件日志 - AI开发平台ModelArts
查询服务事件日志 功能介绍 查询服务事件日志,包含服务的操作记录及部署过程中的关键动作、部署失败原因。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1
-
审计与日志 - AI开发平台ModelArts
deleteConvert 服务管理支持审计的关键操作列表 表5 服务管理支持审计的关键操作列表 操作名称 资源类型 事件名称 部署服务 service addService 删除服务 service deleteService 更新服务 service updateService 启停服务 service