检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ModelArts Standard资源监控 ModelArts Standard资源监控概述 在ModelArts控制台查看监控指标 在AOM控制台查看ModelArts所有监控指标 使用Grafana查看AOM中的监控指标
训练管理 训练作业 资源和引擎规格接口
区域,获取当前Prometheus实例的Grafana数据源配置代码。 在Grafana中增加数据源。 登录Grafana。首次登录用户名和密码为admin,登录成功后可根据提示修改密码。 在左侧菜单栏,选择“Configuration > Data Sources”,单击“Add
模板使用 导入成功后,单击想查看的模板即可查看响应内容。这里介绍一些常用功能的使用。 切换数据源和资源池 图5 切换数据源和资源池 单击红框中相应位置,即可出现下拉框,修改响应的数据源和资源池。 刷新数据 单击右上角的图标,即可刷新整个DashBoard的所有数据,各panel也会更新
nvidia-smi命令异常 请检查GPU驱动是否正常 GPU卡驱动不可用 重要 nvidia-fabricmanager版本和GPU驱动版本不一致 请检查GPU驱动版本和nvidia-fabricmanager版本 nvidia-fabricmanager 无法正常工作,影响 GPU 的使用
Grafana默认在本地的3000端口启动,打开链接http://localhost:3000,出现Grafana的登录界面。首次登录用户名和密码为admin,登录成功后请根据提示修改密码。 父主题: 安装配置Grafana
单击“入方向规则”,入方向放开TCP协议的3000端口,出方向默认全部放通。 在浏览器中输入“http://{弹性公网IP}:3000”,即可进行访问。首次登录用户名和密码为admin,登录成功后请根据提示修改密码。 父主题: 安装配置Grafana
修改[server]中的“root_url”和“serve_from_sub_path”字段。 图1 修改defaults.ini文件 其中: root_url的组成为:https:{jupyterlab域名}/{INSTANCE_ID}/grafana。域名和INSTANCE_ID可以从打开
际情况替换containerName参数和command参数 spec: containers: - name: my-task image: my-task-image:latest # 替换为实际使用的镜像 业务负载和自定义指标采集可以共用一个容器,也可以由S
如图1所示,用户向ModelArts授权后,ModelArts使用委托授权的临时凭证访问和操作用户资源,协助用户自动化一些繁琐和耗时的操作。同时,委托凭证会同步到用户的作业中(Notebook实例和训练作业),用户在作业中可以使用委托凭证自行访问自己的资源。 在ModelArts服务中委托授权有两种方式:
CUDA和CUDNN Vnt1机型软件版本建议:gpu driver version : 440.95.01 gpu driver version : 440.95.01(GPU驱动在宿主机中安装,镜像中无需安装) cuda runtime version : 10.2(PyTorch自带,无需关心)
Server上配置DCGM监控,用于监控Lite Server上的GPU资源。 DCGM是用于管理和监控基于Linux系统的NVIDIA GPU大规模集群的一体化工具,提供多种能力,包括主动健康监控、诊断、系统验证、策略、电源和时钟管理、配置管理和审计等。 约束限制 仅适用于GPU资源监控。 前提条件 裸金属服务
如果使用Grafana对接Prometheus制作报表,可以将Grafana部署在集群内,这里不需要对Prometheus绑定公网IP和配置安全组,只需要对Grafana绑定公网IP和配置安全组即可。 图1 添加入方向规则 在浏览器地址栏输入http://<弹性公网IP>:9090,即可打开Prom
ModelArts数据管理支持哪些格式? 不同类型的数据集支持不同的功能。 数据集类型 标注类型 创建数据集 导入数据 导出数据 发布数据集 修改数据集 管理版本 自动分组 数据特征 文件型 图像分类 支持 支持 支持 支持 支持 支持 支持 支持 物体检测 支持 支持 支持 支持
参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 请求消息 请求参数如表2所示。 表2 请求参数 参数 是否必选 参数类型 说明 job_name 是 String 可视化作业名称。
监控Lite Cluster资源 使用AOM查看Lite Cluster监控指标 使用Prometheus查看Lite Cluster监控指标 父主题: Lite Cluster资源管理
描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 end_time 是 Long 监控信息的截止时间。 start_time 是
查找和收藏资产 AI Gallery共享了算法、Notebook代码样例、数据集、镜像、模型、Workflow等多种AI资产,为了方便快速搜索相关资产,提供了多种快速搜索方式以及收藏功能,提升资产的查找效率。 搜索资产 在各类资产模块页面,通过如下几种搜索方式可以提高资产的查找效
查询API和APP 功能介绍 查询服务授权的API、APP信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/servi
查看日志和性能 查看日志 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为:/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs