检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
像的扩展完成自定义镜像注册。 安全可信,基于安全加固最佳实践,访问策略、用户权限划分、开发软件漏洞扫描、操作系统安全加固等方式,确保镜像使用的安全性。 ModelArts的自定义镜像使用场景 当用户对深度学习引擎、开发库有特殊需求场景的时候,预置镜像已经不能满足用户需求。Mode
String 标注团队名称,名称不能包含!<>=&"',长度为0-1024位。 表5 Worker 参数 是否必选 参数类型 描述 create_time 否 Long 创建时间。 description 否 String 标注成员描述,长度为0-256位,不能包含^!<>=&"'特殊字符。
进入ModelArts控制台,单击“镜像管理 > 注册镜像”,进入“注册镜像”页面。 根据界面提示填写相关信息,然后单击“立即注册”。 “镜像源”选择构建好的镜像。可直接复制完整的SWR地址,或单击选择SWR构建好的镜像进行注册。 图2 选择镜像源 “架构”和“类型”:根据自定义镜像的实际框架选择。 注册后的镜像会显
部署上线失败 出现此问题,一般是因为后台服务故障导致的,建议稍等片刻,然后重新部署在线服务。如果重试超过3次仍无法解决,请获取如下信息,并联系华为云技术支持协助解决故障。 获取服务ID。 进入“部署上线>在线服务”页面,在服务列表中找到自动学习任务中部署的在线服务,自动学习部署的
--trust-remote-code 方式三:多机部署vLLM服务API接口启动服务(可选) 当单机显存无法放下模型权重时,可选用该种方式部署;该种部署方式,需要机器在同一个集群,NPU卡之间IP能够ping通方可,具体步骤如下: 查看卡IP。 for i in $(seq 0 7);do hccn_tool
pSeek-R1模型框架,快速实现对话问答。更多MaaS服务的使用指导,请参见用户指南。 前提条件 已注册华为账号并开通华为云,且在使用ModelArts前检查账号状态,账号不能处于欠费或冻结状态。 步骤一:配置委托访问授权 ModelArts使用过程中涉及到与OBS、SWR等服
中,填写文件夹“名称”,单击“确定”完成创建,选择创建的文件夹。 文件夹名称不能包含以下字符 : \/:*?"<>|。 文件夹名称不能以英文句号(.)或斜杠(/)开头或结尾。 文件夹的绝对路径总长度不能超过1023字符。 任何单个斜杠(/)表示分隔并创建多层级的文件夹。 图2 新建文件夹
中,填写文件夹“名称”,单击“确定”完成创建,选择创建的文件夹。 文件夹名称不能包含以下字符 : \/:*?"<>|。 文件夹名称不能以英文句号(.)或斜杠(/)开头或结尾。 文件夹的绝对路径总长度不能超过1023字符。 任何单个斜杠(/)表示分隔并创建多层级的文件夹。 图2 新建文件夹
用于智能标注的数据集必须存在未标注图片。 检查用于标注的图片数据,确保您的图片数据中,不存在RGBA四通道图片。如果存在四通道图片,智能标注任务将运行失败,因此,请从数据集中删除四通道图片后,再启动智能标注。 启动智能标注前要保证当前数据集不存在正在进行中的智能标注任务。 操作步骤 调用认证鉴权接口获取用户的Token。
参数 是否必选 参数类型 描述 key 是 String TMS标签的key。长度不能超过128个字符,首尾不能有空格,不能以_sys_开头。 value 是 String TMS标签的value。长度不能超过255个字符。 响应参数 状态码:400 表4 响应Body参数 参数 参数类型
链路。 如果机器与容器镜像仓库不在同一区域,则上传镜像走公网链路,机器需要绑定弹性公网IP。 使用客户端上传镜像,镜像的每个layer大小不能大于10G。 上传镜像的容器引擎客户端版本必须为1.11.2及以上。 连接容器镜像服务。 登录容器镜像服务控制台。 单击右上角“创建组织”
远程连接处于retry状态如何解决? 问题现象 原因分析 之前下载VS Code server失败,有残留信息,导致本次无法下载。 解决方法 方法一(本地):打开命令面板(Windows: Ctrl+Shift+P,macOS:Cmd+Shift+P),搜索“Kill VS Code
Cluster”页面。 您可以通过单击“购买AI专属集群”右侧的“操作记录”,查看当前处于失败状态的资源池信息。 图1 创建失败资源池信息 鼠标悬停在“状态”列的上,即可看到该操作失败的具体原因。 失败的记录默认按照操作的申请时间排序,最多显示500条并保留3天。 父主题: 资源池
订阅算法物体检测YOLOv3_ResNet18(Ascend)训练失败报错label_map.pbtxt cannot be found 问题现象 使用订阅算法物体检测YOLOv3_ResNet18(Ascend) 进行训练作业,训练失败报错label_map.pbtxt cannot be
infiniband驱动的安装 infiniband驱动的安装 如果安装了libibverbs-dev库后仍然无法使能infiniband网卡,您可以直接安装infiniband官方驱动,以使用infiniband网卡进行分布式通信,提升训练性能。infiniband驱动需要在制作镜像时安装。
支持给创建出来的节点加taints来设置反亲和性,非特权池不能指定。 labels 否 Map<String,String> k8s标签,格式为key/value键值对。 tags 否 Array of UserTag objects 资源标签,非特权池不能指定。 network 否 NodeNetwork
参数 是否必选 参数类型 描述 key 是 String TMS标签的key。长度不能超过128个字符,首尾不能有空格,不能以_sys_开头。 value 是 String TMS标签的value。长度不能超过255个字符。 响应参数 状态码:400 表5 响应Body参数 参数 参数类型
创建训练任务,显示创建失败 问题现象 创建训练任务时,选择Qwen2.5-7B、Qwen2.5-14B、Qwen2.5-32B、Qwen2.5-72B-1K或者Qwen2-VL-7B模型,创建训练任务失败。 关键日志报错(出现以下任意报错): 报错1: [INFO|trainer
训练作业运行失败 训练作业运行失败排查指导 训练作业运行失败,出现NCCL报错 自定义镜像训练作业失败定位思路 使用自定义镜像创建的训练作业一直处于运行中 使用自定义镜像创建训练作业找不到启动文件 训练作业的监控内存指标持续升高直至作业失败 订阅算法物体检测YOLOv3_ResN
时指定的profile。 注册新镜像 构建完成后,将新镜像注册到ModelArts镜像管理服务中,进而能够在ModelArts中使用该镜像。 有两种方式来注册镜像。 方式一:使用ma-cli image register命令来注册镜像。注册命令会返回注册好的镜像信息,包括镜像id