检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
模型训练服务首页 如何回到模型训练服务首页? 创建项目公开至组的参数是什么含义? 父主题: 常见问题
KPI异常检测:https://res.hc-cdn.com/TrainService-CF-Product/1.0.28/hws/online-doc/template-notes/KPI.html KPI时序预测:https://res.hc-cdn.com/TrainService-CF-Product
本次变更如下: 人工智能服务新增监控指标。 新对接云数据迁移服务。 主动监控新增负载指标。 2018-01-30 第十八次正式发布。 本次变更如下: 人工智能服务新增监控指标。 2018-01-26 第十七次正式发布。 本次变更如下: 新对接对象存储服务。
支持预训练、微调、在线推理、能力调测特性,基于Snt9B3,支持1个训练单元训练及1个推理单元部署。 Pangu-AI4S-Weather_6h-20241030 用于天气基础要素预测,时间分辨率为6小时。
人工智能服务、API网关暂不支持自定义设置指标自定义显示。 鼠标滑动到对应指标后,单击指标视图右上角的图标。 进入监控详情页面。 监控详情页面提供更长时间范围的指标情况。
人工智能服务新增监控指标。 2017-11-30 第十六次正式发布。 本次变更如下: 新对接分布式数据库中间件。 人工智能服务新增监控指标。 弹性伸缩新增监控指标。 新增利用CloudInit自动安装配置Agent。 新增配置OBS转储。
SYS.CloudTable Key:cluster_id Value:CloudTable集群ID Key:instance_name Value:CloudTable集群节点名称 HBase集群的监控指标说明 Doris集群的监控指标说明 ClickHouse集群的监控指标说明 人工智能
修改裸金属服务器和用户客户端浏览器时间一致参考命令:timedatectl set-timezone 'Asia/Shanghai'。 父主题: 主机监控
"user": { "name": "username", //IAM用户名 "password": "********", //IAM用户密码 "domain
√ × × Debain10.6 √ × × Debain11.10 √ √ × debian 11.4 √ × × debian 11.5 √ × × EulerOS EulerOS 2.8 64bit × × √ EulerOS 2.5 64bit √ √ × EulerOS
容器无法正常网络通信 重要 容器共享内存过小 共享内存默认为64M,可按需修改 方式一: 修改/etc/docker/daemon.json配置文件default-shm-size字段 方式二: docker run 命令中使用 --shm-size 参数来设置单个容器的共享内存大小 分布式训练时共享内存不足导致训练失败
grantRoleToAgencyOnProject", "iam:permissions:listRolesForAgency", "iam:permissions:listRolesForAgencyOnDomain
SYS.CloudTable Key:cluster_id Value:CloudTable集群ID Key:instance_name Value:CloudTable集群节点名称 HBase集群的监控指标说明 Doris集群的监控指标说明 ClickHouse集群的监控指标说明 人工智能
% 2.4.5 1分钟 cpu_usage_iowait (Agent)iowait状态占比 该指标用于统计测量对象当前iowait状态占用CPU的比率。 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出iowait状态占比。
任务重新执行 RestartAIProcess 提示 当前故障很可能需要客户退出当前的AI任务并尝试重新执行 在收集必要信息后,尝试退出当前AI任务并尝试重新执行 退出当前AI任务以便重新执行 NPU: errorcode告警 NPUErrorCodeWarning 重要 这里涵盖了大量重要及以上的
RAID控制器 枚举值: mount_point disk proc gpu raid value String 维度值,32位字符串,如:2e84018fc8b4484b94e89aae212fe615 最小长度:32 最大长度:32 origin_value String
detail 是 detail object 事件详情。 详细参数请参见表4。 表4 detail字段数据结构说明 名称 是否必选 参数类型 说明 content 否 String 事件内容,最大长度4096。 group_id 否 String 所属分组。
资源分组支持的云服务 由于智能创建资源分组的能力依赖云服务对接config资源管理服务,可能存在部分云服务在某些region未对接config的情况,具体支持情况可在页面配置资源分组时查看确认。 云服务 英文简称 产品 手动添加 企业项目 标签 实例名称 组合匹配 弹性云服务器 ECS
detail Detail object 是 事件详情。 详细参数说明请参见表4。 event_id String 否 事件ID。 表4 detail字段数据结构说明 名称 类型 是否必选 描述 content String 否 事件内容,最大长度4096。
在SAP HANA云服务器中,操作系统(Guest OS)中内部idle=mwait,当操作系统内部空闲时,进入mwait状态,相比idle=poll消耗资源较少,但同样不主动让出CPU,导致CPU占用异常。
通过资源分组实现云资源分组监控 对于有一定资源规模的组织或企业而言,资源数量大多会因为人工维护繁琐导致易出错,同时应用于不同生产环节的资源可能需要分组管理,例如用于测试和用于生产的资源相比,需要配置的监控与告警、通知渠道与接收用户也可能不一样。云监控支持根据实例名称、实例标签、企业项目进行分组管理告警规则
availabilityMonitor-wi4t 任务类型 目前可针对四种协议进行监控:HTTP、PING、TCP、UDP。 更多探测协议正在部署中。 HTTP 协议类型 当任务类型选择PING时,可选择协议类型。 ICMP 监控地址 要监控的站点地址。
{ "projects": [ { "domain_id": "65382450e8f64ac0870cd180d14e684b", "is_domain": false, "parent_id