正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Standard专属资源池训练模型 使用ModelArts Standard专属资源池训练的场景介绍 使用ModelArts Standard专属资源池训练的准备工作 使用ModelArts Standard专属资源池进行单机单卡训练 使用ModelArts Standard专属资源池进行单机多卡训练
单机单卡 线下容器镜像构建及调试 上传镜像 上传数据和算法至OBS(首次使用时需要) 使用Notebook进行代码调试 创建训练任务 监控资源 父主题: 调试与训练
配置Lite Server软件环境 NPU服务器上配置Lite Server资源软件环境 GPU服务器上配置Lite Server资源软件环境 父主题: Lite Server资源配置
使用CES监控Lite Server资源 场景描述 本文主要介绍如何配置华为云BMS+CES联合提供的裸金属服务器的指标监控方案,可帮助您查看CPU相关监控指标、CPU负载类相关监控指标、内存相关监控指标、磁盘相关监控指标、磁盘I/O类、文件系统类、网卡类、软RAID相关监控指标和进程相关监控指标。
使用Grafana查看AOM中的监控指标 安装配置Grafana 配置Grafana数据源 配置仪表盘查看指标数据 父主题: ModelArts Standard资源监控
多机多卡 线下容器镜像构建及调试 上传镜像 上传数据至OBS(首次使用时需要) 上传算法至SFS 使用Notebook进行代码调试 创建训练任务 父主题: 调试与训练
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 问题现象 创建出3台GPU裸金属服务器,使用A节点制作镜像,用于在CCE纳管裸金属服务器时,使用该镜像,但是纳管后发现服务器A纳管失败,剩下两台服务器纳管成功。 原因分析 在CCE纳管过程中,需要通过cloudinit
AI开发流程科普视频 特性讲解 昇腾云服务 产品介绍 03:55 了解什么是昇腾云服务 华为云ModelArts服务视频 训练作业容错检查功能介绍 04:48 了解什么是训练作业容错检查功能 华为云ModelArts服务视频 高可用冗余节点功能介绍 03:07 了解什么是高可用冗余节点功能
安装配置Grafana 在Windows上安装配置Grafana 在Linux上安装配置Grafana 在Notebook上安装配置Grafana 父主题: 使用Grafana查看AOM中的监控指标
of resources objects 资源池中的资源规格信列表,包括资源规格和相应规格的资源数量。 network network object 资源池网络参数。物理资源池时必选。 jobFlavors Array of strings 资源池支持的作业规格信息列表,内容为作业规格名称。
status 否 String 资源池状态。状态为空时,返回当前有效的资源池,包括创建中和创建成功的资源池。可选值如下: created: 创建成功的资源池。 failed:创建失败的资源池,创建失败的资源池记录保留3天。 creating:创建中的资源池。 请求参数 无 响应参数 状态码:
[__meta_kubernetes_pod_name] # 指定从maos-node-agent-字符串开头的POD收集指标数据 action: keep regex: ^maos-node-agent-.+ - source_labels:
服务管理 通过 patch 操作对服务进行更新 查询服务监控信息 查询服务列表 部署服务 查询支持的服务部署规格 查询服务详情 更新服务配置 删除服务 查询专属资源池列表 查询服务事件日志 启动停止边缘节点服务实例 查询服务更新日志 添加资源标签 删除资源标签 查询推理服务标签
建议您在创建界面更换规格重新创建资源池。 为什么无法使用资源池节点上的全部CPU资源? 由于资源池节点上会安装系统、插件等内容,因此不能完全使用所有资源。例如:资源池节点是8U,节点分配给系统组件部分CPU,可用的资源会小于8U。 建议您在启动任务前,在该资源池的详情页中,单击“节点”页签,查看实际可用的CPU资源。
基于昇腾、Dockerhub官网等官方开源的镜像制作,开源镜像需要满足如下操作系统约束: x86:Ubuntu18.04、Ubuntu20.04 ARM:Euler2.8.3、Euler2.10.7 Ubuntu20.04.6可能有兼容性问题,请优先使用低于该版本的操作系统。 不满足以上镜像规范,所制作的镜像使用
行调试? 使用Notebook不同的资源规格,为什么训练速度差不多? 使用MoXing时,如何进行增量训练? 在Notebook中如何查看GPU使用情况 如何在代码中打印GPU使用信息 Ascend上如何查看实时性能指标? 不启用自动停止,系统会自动停掉Notebook实例吗?会删除Notebook实例吗?
X86上运行。 - 当前使用的操作系统及版本 当前推理业务的操作系统及版本,如:Ubuntu 22.04。 是否使用容器化运行业务,以及容器中OS版本,HostOS中是否有业务软件以及HostOS的类型和版本。 需要评估是否愿意迁移到华为云的通用OS。 - AI引擎及版本 当前引
外网访问限制 日志提示“ Network is unreachable” 运行训练作业时提示URL连接超时 父主题: 训练作业
服务部署 自定义镜像模型部署为在线服务时出现异常 部署的在线服务状态为告警 服务启动失败 服务部署、启动、升级和修改时,拉取镜像失败如何处理? 服务部署、启动、升级和修改时,镜像不断重启如何处理? 服务部署、启动、升级和修改时,容器健康检查失败如何处理? 服务部署、启动、升级和修改时,资源不足如何处理?
elArts服务的权限 系统策略 ModelArts CommonOperations ModelArts操作用户,拥有所有ModelArts服务操作权限除了管理专属资源池的权限 系统策略 ModelArts Dependency Access ModelArts服务的常用依赖服务的权限