检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
csv 这里使用的是DCGM-Exporter默认的指标采集配置文件/etc/dcgm-exporter/dcp-metrics-included.csv,指标采集对象详见dcgm-exporter。如果采集对象不能满足要求,可通过定制镜像或挂载的方式使用自定义配置。 等待约1分钟,执行下面的命令获取GPU指标:
响应Body参数 参数 参数类型 描述 yaml_templates Array of YamlTemplate objects 所有yaml文件的目录和文件名信息。 表3 YamlTemplate 参数 参数类型 描述 algorithm_type_en String AutoSearch算法类型,英文描述。
Method Not Allowed 问题现象 服务预测报错:Method Not Allowed 原因分析 服务预测默认注册的API需要使用POST方法调用。如您使用了GET方法,APIG(API网关)将会拦截请求。 处理方法 使用POST方法调用。 父主题: 服务预测
关的逻辑不需要下载训练数据。如果ps也下载数据到“/cache”,实际下载的数据会翻倍。例如只下载了2.5TB的数据,程序就显示空间不够而失败,因为/cache只有4TB的可用空间。 处理方法 在使用Tensorflow多节点作业下载数据时,正确的下载逻辑如下: import argparse
查询训练作业版本详情 删除训练作业版本 查询训练作业版本列表 创建训练作业版本 停止训练作业版本 更新训练作业描述 删除训练作业 获取训练作业日志的文件名 查询预置算法 查询训练作业日志 父主题: 训练管理(旧版)
app_id String APP的编号,可通过查询APP列表获取。 auth_id String 授权编号,授权失败时为空。 reason String 授权或者取消授权失败原因,授权成功时为空。 success Boolean 授权或者取消授权是否成功。 状态码: 401 表8 响应Header参数
参数 是否必选 参数类型 描述 key 是 String TMS标签的key。长度不能超过128个字符,首尾不能有空格,不能以_sys_开头。 value 是 String TMS标签的value。长度不能超过255个字符。 响应参数 状态码: 400 表4 响应Body参数 参数 参数类型
参数 是否必选 参数类型 描述 key 是 String TMS标签的key。长度不能超过128个字符,首尾不能有空格,不能以_sys_开头。 value 是 String TMS标签的value。长度不能超过255个字符。 响应参数 状态码: 400 表5 响应Body参数 参数 参数类型
的资源,状态会变为“失败”。可将鼠标悬浮在图标上,查看具体失败原因。 每天累计替换的次数不超过资源池节点总数的20%,同时替换的节点数不超过资源池节点总数的5%。 替换节点时需确保有空闲节点资源,否则替换可能失败。 当操作记录里有节点处于重置中时,该资源池无法进行替换节点操作。 高可用冗余节点
操作是否执行成功。可选值如下: true:执行成功 false:执行失败 表8 BatchResponse 参数 参数类型 描述 error_code String 操作失败的错误码。 error_msg String 操作失败的错误信息。 success Boolean 操作是否执行成功。可选值如下:
app_id String APP的编号,可通过查询APP列表获取。 auth_id String 授权编号,授权失败时为空。 reason String 授权或者取消授权失败原因,授权成功时为空。 success Boolean 授权或者取消授权是否成功。 状态码: 401 表9 响应Header参数
大的值可能会影响性能,设置为18相对平衡。 NCCL_IB_RETRY_CNT 15 IB通信重试次数。建议设置为最大值15,减少IB通信失败的概率。 父主题: 创建训练作业
成功响应示例 { "instance_id": "6fa459ea-ee8a-3ca4-894e-db77e160355e" } 失败响应示例 { "error_message": "The instance does not exist.", "error_code":
figMap资源以文件系统的方式挂载到了prometheus容器的“/etc/prometheus”目录,并且通过--config.file=/etc/prometheus/prometheus.yml参数指定了“/bin/prometheus”使用该配置文件。 apiVersion:
ark引擎相连接,让数据工程师能便捷地使用Notebook进行大数据开发,以及如何在DataArts Studio服务配置Notebook文件定时调度任务。 白名单
给子账号配置查看所有Notebook实例的权限 管理员和开发者权限分离 不允许子账号使用公共资源池创建作业 委托授权ModelArts云服务使用SFS Turbo 给子账号配置文件夹级的SFS Turbo访问权限 父主题: Standard权限管理
{ "current_status": "STARTING", "previous_state": "STOPPED" } 失败响应示例 { "error_message": "The instance does not exist.", "error_code":
key和secret key),默认是PWD。 -rp / --region-profile String 否 指定ModelArts region配置文件信息。 -a / --account String 否 IAM租户账号,在使用IAM用户认证场景时需要指定,属于PWD鉴权的一部分。 -u
app_id String APP的编号,可通过查询APP列表获取。 auth_id String 授权编号,授权失败时为空。 reason String 授权或者取消授权失败原因,授权成功时为空。 success Boolean 授权或者取消授权是否成功。 状态码: 401 表8 响应Header参数
方便用户灵活调整实例的AI引擎。Notebook实例状态需在“停止”中才可以变更镜像。 请注意,变更镜像后可能会导致Notebook实例无法启动,镜像对应的Notebook实例规格不匹配,对应的收费规则也会随着镜像的变更而变化,请谨慎操作。 登录ModelArts管理控制台,在左侧菜单栏中选择“开发环境