检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
continue running silently 原因分析 根据报错信息,可以判断是日志文件的大小已达到限制。出现该报错之后,日志不再增加,后台将继续运行。 处理方法 请您在启动文件中减少无用日志输出。 父主题: 硬盘限制故障
解决方法 建议用户新建一个文件夹(例如:tb_logs),将tensorboard的日志文件(例如:tb.events)放到新建的文件夹下,然后执行tensorboard命令。示例命令如下: mkdir -p ./tb_logs mv tb.events ./tb_logs tensorboard
此字段。 log_file_list String 训练作业的日志文件名。单机作业日志仅有一个文件,分布式作业日志有多个文件。 请求示例 如下以获取“job_id”为10,“version_id”为10的作业日志文件为例。 GET https://endpoint/v1/{
解决方法 建议用户新建一个文件夹(例如:tb_logs),将tensorboard的日志文件(例如:tb.events)放到新建的文件夹下,然后执行tensorboard命令。示例命令如下: mkdir -p ./tb_logs mv tb.events ./tb_logs tensorboard
通过OBS导入模型时,如何编写打印日志代码才能在ModelArts日志查询界面看到日志 问题现象 用户通过OBS导入模型时,选择使用基础镜像,用户自己编写了部分推理代码实现自己的推理逻辑,出现故障后希望通过故障日志排查定位故障原因,但是通过logger打印日志无法在“在线服务”的日志中查看到部分内容。
查询服务日志 查询当前服务对象的日志信息。 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式1:根据部署在线服务生成的服务对象进行查询服务日志 1 2 3 4 5 6 7 from
查询服务监控信息 功能介绍 查询服务监控信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/services/{service_id}/monitor
查询服务监控信息 查询当前服务对象监控信息。 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式1:根据部署在线服务生成的服务对象进行查询服务监控 1 2 3 4 5 6 7 from
ModelArts Standard资源监控概述 为了满足用户对资源使用的监控诉求,ModelArts Standard提供了多种监控查看方式。 方式一:通过ModelArts Standard控制台查看 您在可通过ModelArts控制台的总览页或各模块资源监控页签查看监控指标。具体涉及以下几个方面:
使用DCGM监控Lite Server资源 场景描述 本文主要介绍如何在Lite Server上配置DCGM监控,用于监控Lite Server上的GPU资源。 DCGM是用于管理和监控基于Linux系统的NVIDIA GPU大规模集群的一体化工具,提供多种能力,包括主动健康监控、诊断
监控资源 用户可以通过资源占用情况窗口查看计算节点的资源使用情况,最多可显示最近三天的数据。在资源占用情况窗口打开时,会定期向后台获取最新的资源使用率数据并刷新。 操作一:如果训练作业使用多个计算节点,可以通过实例名称的下拉框切换节点。 操作二:单击图例“cpuUsage”、“g
监控安全风险 ModelArts支持监控ModelArts在线服务和对应模型负载,执行自动实时监控、告警和通知操作,帮助用户更好地了解服务和模型的各项性能指标。详细内容请参见ModelArts支持的监控指标。 父主题: 安全
NPU日志收集上传 场景描述 当NPU出现故障,您可通过本方案收集NPU的日志信息。本方案中生成的日志会保存在节点上,并自动上传至华为云技术支持提供的OBS桶中,日志仅用于问题定位分析,因此需要您提供AK/SK给华为云技术支持,用于授权认证。 约束限制 当前仅支持在贵阳一、乌兰察布一使用该功能。
查询服务事件日志 功能介绍 查询服务事件日志,包含服务的操作记录及部署过程中的关键动作、部署失败原因。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1
请确保目录下无影响容器启动的文件,否则文件会被替换,导致容器启动异常,工作负载创建失败。 storage_type String 挂载类型sfs_turbo极速文件系统挂载。 source_address String 挂载源路径,挂载为极速文件时为sfs turbo id。 表11
使用CES监控Lite Server资源 场景描述 Lite Server的监控能力依赖于CES云监控服务。本文主要介绍如何对接CES云监控服务,对Lite Server上的资源和事件进行监控。 监控方案介绍 监控概述请参考BMS官方文档。除文档所列支持的镜像之外,目前还支持Ubuntu20
不一致,请刷新重试。 在各模块资源监控页签查看ModelArts监控指标 训练作业:用户在运行训练作业时,可以查看多个计算节点的CPU、GPU、NPU资源使用情况。具体请参见训练资源监控章节。 在线服务:用户将模型部署为在线服务后,可以通过监控功能查看CPU、内存、GPU等资源使
一台可访问外网的Ubuntu服务器。如果没有请具备以下条件: 准备一台ECS服务器(建议规格选8U或者以上,镜像选择Ubuntu,建议选择22.04版本,本地存储100G),具体操作请参考《购买弹性云服务器》。 购买弹性公网IP,并绑定到购买的弹性云服务器ECS上,具体操作请参见《弹性公网IP快速入门》。
审计与日志 审计 云审计服务(Cloud Trace Service,CTS),是华为云安全解决方案中专业的日志审计服务,提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 用户开通云审计服务并创建和配置追踪任务后,C
资源池监控 功能介绍 获取资源池的监控信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/pools/{pool_name}/monitor