检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
阶段。 资源利用率:在作业进程IO没有变化的情况下,采集一定时间段内的GPU利用率或NPU利用率,并根据这段时间内的GPU利用率或NPU利用率的方差和中位数来判断资源使用率是否有变化。如果没有变化,则判定作业卡死。 系统预置了卡死检测的环境变量“MA_HANG_DETECT_TI
本化管理,并构建为可运行的模型。 部署服务:模型构建完成后,根据您的业务场景,选择将模型部署成对应的服务类型。 将模型部署为实时推理作业 将模型部署为一个Web Service,并且提供在线的测试UI与监控功能,部署成功的在线服务,将为用户提供一个可调用的API。 将模型部署为批量推理服务
例调度失败”的信息时,可根据具体事件信息确定具体问题原因。 图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败 当volcano的资源出现争抢时,会出现下图中的问题。 图2
logical_pool_name 逻辑子池的name。 gpu_uuid 容器使用的GPU的UUID。 gpu_index 容器使用的GPU的索引。 gpu_type 容器使用的GPU的型号。 account_name 训练、推理或开发环境任务创建者的账号名。 user_name 训练、推理或开发环境任务创建者的用户名。
_13b.sh 选择用户自己的专属资源池,以及规格与节点数。防止训练过程中出现内存溢出的情况,用户可参考表2进行配置。 图2 选择资源池规格 新增SFS Turbo挂载配置,并选择用户创建的SFS Turbo文件系统。 云上挂载路径:输入镜像容器中的工作路径 /home/ma-user/work/
_13b.sh 选择用户自己的专属资源池,以及规格与节点数。防止训练过程中出现内存溢出的情况,用户可参考表2进行配置。 图2 选择资源池规格 新增SFS Turbo挂载配置,并选择用户创建的SFS Turbo文件系统。 云上挂载路径:输入镜像容器中的工作路径 /home/ma-user/work/
vcache的空间。不同模型推理支持的max-model-len长度不同,具体差异请参见附录:基于vLLM(v0.3.2)不同模型推理支持的max-model-len长度说明。 --gpu-memory-utilization:NPU使用的显存比例,复用原vLLM的入参名称,默认为0
JOBSTAT_SCALING,作业正在扩容。 16 JOBSTAT_SUBMIT_MODEL_FAILED,提交模型失败。 17 JOBSTAT_DEPLOY_SERVICE_FAILED,部署服务失败。 18 JOBSTAT_CHECK_INIT,审核作业初始化。 19 JOBSTAT_CHECK_RUNNING,审核作业正在运行中。
工作空间管理权限 表1 工作空间管理细化权限说明 权限 对应API接口 授权项 依赖的授权项 IAM项目 企业项目 创建工作空间 POST /v1/{project_id}/workspaces modelarts:workspace:create - √ √ 查询工作空间列表 GET
例调度失败”的信息时,可根据具体事件信息确定具体问题原因。 图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败 当volcano的资源出现争抢时,会出现下图中的问题。 图2
Turbo文件系统。 云上挂载路径:输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置:输入用户的“子目录挂载”路径。如果默认没有填写,则忽略。 图6 选择SFS Turbo 作业日志选择OBS中的路径,ModelArts的训练作业的日志信息则保存该路径下。 最后,请参
保存Notebook实例 通过预置的镜像创建Notebook实例,在基础镜像上安装对应的自定义软件和依赖,在管理页面上进行操作,进而完成将运行的实例环境以容器镜像的方式保存下来。镜像保存后,默认工作目录是根目录“/”路径。 保存的镜像中,安装的依赖包不丢失,持久化存储的部分(home/ma-
在Notebook中通过镜像保存功能制作自定义镜像 通过预置的镜像创建Notebook实例,在基础镜像上安装对应的自定义软件和依赖,在管理页面上进行操作,进而完成将运行的实例环境以容器镜像的方式保存下来。镜像保存后,默认工作目录是根目录“/”路径。 保存的镜像中,安装的依赖包不丢失,持久化存储的部分(home/ma-
准备资源 创建专属资源池 本文档中的模型运行环境是ModelArts Standard。资源规格需要使用专属资源池中的昇腾Snt9B资源,请参考创建资源池购买资源。 推荐使用“西南-贵阳一”Region上的昇腾资源。 专属资源池驱动检查 登录ModelArts控制台,单击“专属资源池
支持用户使用超参搜索功能。 在0代码修改的基础下,实现算法模型的超参搜索。需要完成以下步骤: 准备工作 创建算法 创建训练作业 查看超参搜索作业详情 准备工作 数据已完成准备:已在ModelArts中创建可用的数据集,或者您已将用于训练的数据集上传至OBS目录。 请准备好训练脚本
_13b.sh 选择用户自己的专属资源池,以及规格与节点数。防止训练过程中出现内存溢出的情况,用户可参考表2进行配置。 图2 选择资源池规格 新增SFS Turbo挂载配置,并选择用户创建的SFS Turbo文件系统。 云上挂载路径:输入镜像容器中的工作路径 /home/ma-user/work/
of DataSource objects 数据集输入位置,用于将此目录及子目录下的源数据(如图片/文件/音频等)同步到数据集。对于表格数据集,该参数为导入目录。表格数据集的工作目录不支持为KMS加密桶下的OBS路径。目前仅支持传入单个DataSource。 dataset_name
准备资源 创建专属资源池 本文档中的模型运行环境是ModelArts Standard。资源规格需要使用专属资源池中的昇腾Snt9B资源,请参考创建资源池购买资源。 推荐使用“西南-贵阳一”Region上的昇腾资源。 专属资源池驱动检查 登录ModelArts控制台,单击“专属资源池
准备资源 创建专属资源池 本文档中的模型运行环境是ModelArts Standard。资源规格需要使用专属资源池中的昇腾Snt9B资源,请参考创建资源池购买资源。 推荐使用“西南-贵阳一”Region上的昇腾资源。 专属资源池驱动检查 登录ModelArts控制台,单击“专属资源池
准备资源 创建专属资源池 本文档中的模型运行环境是ModelArts Standard。资源规格需要使用专属资源池中的昇腾Snt9B资源,请参考创建资源池购买资源。 推荐使用“西南-贵阳一”Region上的昇腾资源。 专属资源池驱动检查 登录ModelArts控制台,单击“专属资源池