检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
制作自定义镜像用于训练模型 训练作业的自定义镜像制作流程 使用预置镜像制作自定义镜像用于训练模型 已有镜像迁移至ModelArts用于训练模型 从0制作自定义镜像用于创建训练作业(Pytorch+Ascend) 从0制作自定义镜像用于创建训练作业(PyTorch+CPU/GPU)
登录ModelArts管理控制台。 在左侧导航栏中,选择“AI专属资源池 > 弹性节点 Server”,进入“节点”列表页面。 在弹性节点Server列表中,单击的“同步”,在弹出的确认对话框中,确认信息无误,然后单击“确定”,完成同步操作。 图1 同步状态 父主题: Lite Server资源管理
在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,VS Code打开后未进行远程连接 VS Code连接开发环境失败时的排查方法 远程连接出现弹窗报错:Could not establish connection to xxx 连接远端开发环境时,一直处于"Setting
资源管理 查询OS的配置参数 查询插件模板 查询节点列表 批量删除节点 批量重启节点 查询事件列表 创建网络资源 查询网络资源列表 查询网络资源 删除网络资源 更新网络资源 查询资源实时利用率 创建资源池 查询资源池列表 查询资源池 删除资源池 更新资源池 资源池监控 资源池统计
<master_addr> --num_nodes <nodes> --rank <rank> <cfgs_yaml_file>:性能测试配置的yaml文件地址,如代码目录中performance_cfgs.yaml相对或绝对路径。 <model_name>:训练模型名,如qwen2-7b
EOUT,因此会导致通信速度慢且不稳定,最后造成IB通信断连,偶发上述现象。 原因2:NCCL_SOCKET_IFNAME设置错误。当用户的NCCL版本低于2.14时,则需要手动设置NCCL_SOCKET_IFNAME环境变量。 处理方法 针对原因1,需要在代码中补充如下环境变量。
模型管理权限 表1 模型管理细化权限说明 权限 对应API接口 授权项 依赖的授权项 IAM项目 企业项目 导入模型 POST /v1/{project_id}/models modelarts:model:create obs:bucket:ListAllMybuckets o
排序方式。枚举值如下: asc:递增排序 desc:递减排序 limit 否 Integer 指定每一页返回的最大条目数,默认为1000。 取值范围[1,1000]。 offset 否 Integer 分页列表的起始页,默认为0。 请求参数 无 响应参数 状态码:200 表3 响应Body参数 参数
<master_addr> --num_nodes <nodes> --rank <rank> <cfgs_yaml_file>:性能测试配置的yaml文件地址,如代码目录中performance_cfgs.yaml相对或绝对路径。 <model_name>:训练模型名,如qwen2-7b
from daemon: Cannot pause container xxx”。 原因分析 执行镜像保存时,Notebook中存在状态为D的进程,会导致镜像保存失败。 解决方案 在Terminal里执行ps -aux命令检查进程。 执行kill -9 <pid>命令将相关进程结束后,再次执行镜像保存即可。
算法ID。 请求参数 无 响应参数 无 请求示例 如下以修改uuid为2e5451fe-913f-4492-821a-2981031382f7的算法为例。 DELETE https://endpoint/v2/{project_id}/algorithms/2e5451fe-913f
服务部署 自定义镜像模型部署为在线服务时出现异常 部署的在线服务状态为告警 服务启动失败 服务部署、启动、升级和修改时,拉取镜像失败如何处理? 服务部署、启动、升级和修改时,镜像不断重启如何处理? 服务部署、启动、升级和修改时,容器健康检查失败如何处理? 服务部署、启动、升级和修改时,资源不足如何处理?
project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workflow_id 是 String 工作流的ID。 execution_id 是 String 工作流执行ID。 请求参数 无 响应参数 无 请求示例 删除Workflow Execution。
'feat_2:0', 'feat_3': 'feat_3:0'} 不做数据集切分操作。如果选择未切分的数据集,算法将做纯训练场景; 父主题: 服务部署
String 标注团队描述,长度为0-256位,不能包含^!<>=&"'特殊字符。 workforce_name 否 String 标注团队的名称,1~64长度,只能包含字母、数字、中划线和下划线。 响应参数 无 请求示例 更新标注团队 { "description" : "my
timeout:939 callbacks suppressed 华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 裸金属服务器Euler
project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workflow_id 是 String 工作流的ID。 请求参数 无 响应参数 无 请求示例 删除Workflow工作流 DELETE https://{endpoint}/v2/{pro
列表。 请求参数 无 响应参数 无 请求示例 如下以删除uuid为3faf5c03-aaa1-4cbe-879d-24b05d997347的训练作业为例。 DELETE https://endpoint/v2/{project_id}/training-jobs/3faf5c03
为1-64位。 响应参数 状态码: 201 表3 响应Body参数 参数 参数类型 描述 workforce_id String 标注团队的ID。 请求示例 创建标注团队。设置标注团队名称为“team-123”。 { "workforce_name" : "team-123"
project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workflow_id 是 String 工作流的ID。 schedule_id 是 String 工作流调度信息ID。 请求参数 无 响应参数 无 请求示例 删除调度信息 DELETE h