检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用Cloud Shell登录训练容器 限制用户使用公共资源池 委托授权ModelArts云服务使用SFS Turbo 给子账号配置文件夹级的SFS Turbo访问权限 父主题: Standard权限管理
EOUT,因此会导致通信速度慢且不稳定,最后造成IB通信断连,偶发上述现象。 原因2:NCCL_SOCKET_IFNAME设置错误。当用户的NCCL版本低于2.14时,则需要手动设置NCCL_SOCKET_IFNAME环境变量。 处理方法 针对原因1,需要在代码中补充如下环境变量。
登录ModelArts管理控制台。 在左侧导航栏中,选择“AI专属资源池 > 弹性节点 Server”,进入“节点”列表页面。 在弹性节点Server列表中,单击的“同步”,在弹出的确认对话框中,确认信息无误,然后单击“确定”,完成同步操作。 图1 同步状态 父主题: Lite Server资源管理
from daemon: Cannot pause container xxx”。 原因分析 执行镜像保存时,Notebook中存在状态为D的进程,会导致镜像保存失败。 解决方案 在Terminal里执行ps -aux命令检查进程。 执行kill -9 <pid>命令将相关进程结束后,再次执行镜像保存即可。
算法ID。 请求参数 无 响应参数 无 请求示例 如下以修改uuid为2e5451fe-913f-4492-821a-2981031382f7的算法为例。 DELETE https://endpoint/v2/{project_id}/algorithms/2e5451fe-913f
String 标注团队描述,长度为0-256位,不能包含^!<>=&"'特殊字符。 workforce_name 否 String 标注团队的名称,1~64长度,只能包含字母、数字、中划线和下划线。 响应参数 无 请求示例 更新标注团队 { "description" : "my
project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workflow_id 是 String 工作流的ID。 execution_id 是 String 工作流执行ID。 请求参数 无 响应参数 无 请求示例 删除Workflow Execution。
'feat_2:0', 'feat_3': 'feat_3:0'} 不做数据集切分操作。如果选择未切分的数据集,算法将做纯训练场景; 父主题: 服务部署
project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workflow_id 是 String 工作流的ID。 请求参数 无 响应参数 无 请求示例 删除Workflow工作流 DELETE https://{endpoint}/v2/{p
服务部署 自定义镜像模型部署为在线服务时出现异常 部署的在线服务状态为告警 服务启动失败 服务部署、启动、升级和修改时,拉取镜像失败如何处理? 服务部署、启动、升级和修改时,镜像不断重启如何处理? 服务部署、启动、升级和修改时,容器健康检查失败如何处理? 服务部署、启动、升级和修改时,资源不足如何处理?
timeout:939 callbacks suppressed 华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 裸金属服务器Euler
登录ModelArts控制台,在“开发环境 > Notebook”中创建Notebook实例,在Terminal或ipynb文件中直接调用ModelArts SDK的接口。在Notebook中调用SDK,可直接参考接口说明,执行OBS管理、作业管理、模型管理和服务管理等操作。 ModelArts SDK支
project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workflow_id 是 String 工作流的ID。 schedule_id 是 String 工作流调度信息ID。 请求参数 无 响应参数 无 请求示例 删除调度信息 DELETE h
为1-64位。 响应参数 状态码: 201 表3 响应Body参数 参数 参数类型 描述 workforce_id String 标注团队的ID。 请求示例 创建标注团队。设置标注团队名称为“team-123”。 { "workforce_name" : "team-123"
instance_id String 实例ID。 请求示例 如下以删除实例ID为“6fa459ea-ee8a-3ca4-894e-db77e160355e”的实例为例。 DELETE https://endpoint/v1/{project_id}/demanager/instances/6fa4
previous_state String 实例上一状态。 请求示例 如下以启动实例ID为“6fa459ea-ee8a-3ca4-894e-db77e160355e”的实例为例。 { "action": "start" } 响应示例 成功响应示例 { "current_status": "STARTING"
agency 否 String 管理员。 workforces 否 Array of WorkforceConfig objects 执行标注任务的团队列表。 表4 WorkforceConfig 参数 是否必选 参数类型 描述 workers 否 Array of Worker objects
agency 否 String 管理员。 workforces 否 Array of WorkforceConfig objects 执行标注任务的团队列表。 表4 WorkforceConfig 参数 是否必选 参数类型 描述 workers 否 Array of Worker objects
Browser+(win)、obsutil(linux)。上述例子为obsutil使用方法。 准备算法 main.py文件内容如下,并将其上传至OBS桶的demo文件夹中: import argparse import os import random import shutil import