检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
修改在线服务配置 对于已部署的服务,您可以修改服务的基本信息以匹配业务变化,更换模型的版本号,实现服务升级。 您可以通过如下两种方式修改服务的基本信息: 方式一:通过服务管理页面修改服务信息 方式二:通过服务详情页面修改服务信息 前提条件 服务已部署成功,“部署中”的服务不支持修改服务信息进行升级。
自动模型优化介绍 ModelArts训练支持超参搜索功能,自动实现模型超参搜索,为您的模型匹配最合适的超参。 在模型训练过程中,有很多超参需要根据任务进行调整,比如learning_rate、weight_decay等,这一工作往往需要一个有经验的算法工程师花费一定精力和大量时间
双击“服务部署”节点,完成相关参数配置。 在服务部署页面,选择模型部署使用的资源规格。 模型来源:默认为生成的模型。 选择模型及版本:自动匹配当前使用的模型版本,支持选择版本。 资源池:默认公共资源池。 分流:默认为100,输入值必须是0-100之间。 计算节点规格:请根据界面显
这种类似固定的卡ID号,与实际选择的卡ID不匹配。 处理方法 尽量代码里不要去修改CUDA_VISIBLE_DEVICES变量,用系统默认里面自带的。 如果必须指定卡ID,需要注意1/2/4规格下,指定的卡ID与实际分配的卡ID不匹配的情况。 如果上述方法还出现了错误,可以去no
Ascend相关问题 Cann软件与Ascend驱动版本不匹配 训练作业的日志出现detect failed(昇腾预检失败) 父主题: 训练作业
建并使用的工作空间,以实际取值为准。 search_type 否 String 过滤方式。可选值如下: equal表示精确匹配。 contain表示模糊匹配。 具体过滤的字段,由各个接口额外定义参数。例如Workflow支持按照名称(name)进行过滤,则相应的过滤字段为name
目录下存在dockerfile文件。 图2 构建日志:dockerfile文件目录有问题 pip软件包版本不匹配,需要修改为日志中打印的存在的版本。 图3 pip版本不匹配 构建日志中出现报错:“exec /usr/bin/sh: exec format error”。 这种报错
集群网络模式:容器隧道网络|VPC 集群转发模式:iptables|ipvs huawei-npu npu-driver volcano 插件版本匹配关系请见表3。 RoCE 操作系统:Huawei Cloud EulerOS 2.0 64bit 内核版本:5.10.0-60.18.0.50
print(model_list) 参数说明 表1 查询检索参数说明 参数 是否必选 参数类型 说明 model_name 否 String 模型名称,可支持模糊匹配。 model_version 否 String 模型版本。 model_status 否 String 模型状态,可根据模型的“publ
-V)查看该镜像的cuda版本(customize_service.py编写指导请见模型推理代码编写说明)。 确认该cuda版本与您安装的mmcv版本是否匹配。 部署时是否需要使用GPU,取决于的模型需要用到CPU还是GPU,以及推理脚本如何编写。 父主题: 服务部署
日志提示“Please upgrade numpy to >= xxx to use this pandas version” 重装的包与镜像装CUDA版本不匹配 创建训练作业提示错误码ModelArts.2763 训练作业日志中提示 “AttributeError: module '***' has
Query参数 参数 是否必选 参数类型 描述 model_name 否 String 模型名称,可支持模糊匹配。 exact_match 否 Boolean 是否根据模型名称进行精准匹配。 model_version 否 String 模型版本。格式需为“数值:数值:数值”,其中数值为
当前支持最大获取150个模型对象。 表1 查询检索参数说明 参数 是否必选 参数类型 说明 model_name 否 String 模型名称,可支持模糊匹配。 model_version 否 String 模型版本。 model_status 否 String 模型状态,可根据模型的“publ
ra.py”把lora模型合入unet和text-encoder模型。 数据类型不匹配问题如何处理? 报错“data type not equal”时,按照堆栈信息,将对应的行数的数据类型修改为匹配的类型。 图1 报错信息 处理该问题时,pipeline_onnx_stable_
group_by 否 String 查询算法要搜索的分组条件。 searches 否 String 查询算法所要过滤的条件,如算法名称模糊匹配。 workspace_id 否 String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。
04-x86_64.tgz。 宿主机安装的infiniband驱动版本为4.3-1.0.1.0,容器镜像中安装的infiniband驱动版本需要与宿主机版本匹配,即同为4.3-1.0.1.0。 可能部分区域的网卡较新,会出现更高版本的infiniband驱动版本,如果您遇到了infiniband驱
部署训练环境。方案的区别如下: 直接使用基础镜像方案:用户可在训练作业中直接选择基础镜像作为运行环境。但基础镜像中pip依赖包缺少或版本不匹配,因此每次创建训练作业时,训练作业的启动命令中都需要执行install.sh文件,来安装依赖以及下载完整代码。 ECS中构建新镜像方案:在
部署训练环境。方案的区别如下: 直接使用基础镜像方案:用户可在训练作业中直接选择基础镜像作为运行环境。但基础镜像中pip依赖包缺少或版本不匹配,因此每次创建训练作业时,训练作业的启动命令中都需要执行install.sh文件,来安装依赖以及下载完整代码。 ECS中构建新镜像方案:在
通常为硬件问题,如电源风扇等问题。 A050103 GPU 其他 nvidia-smi执行错误,超时或者不存在。 执行nvidia-smi退出码非0。 A050104 GPU 显存 ECC错误到达64次。 通过nvidia-smi -a查询到Retired Pages中,Single Bit和Double
需要关心底层的技术。同时,ModelArts支持Tensorflow、MXNet等主流开源的AI开发框架,也支持开发者使用自研的算法框架,匹配您的使用习惯。 ModelArts的理念就是让AI开发变得更简单、更方便。面向不同经验的AI开发者,提供便捷易用的使用流程。例如,面向业务