检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
版本要求是CCE Turbo v1.28及以上 300iDUO 西南-贵阳一 PyTorch: swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2.1.0-cann_8.0.rc3-py
success Boolean 操作是否执行成功。
CCE cce:cluster:list cce:cluster:get 获取CCE集群列表、集群详情、集群证书等信息。 KMS kms:cmk:list kms:cmk:getMaterial 获取用户创建的密钥对列表信息。
异常 边缘服务状态异常,异常信息:实例不存在 Update service status to abnormal, deployment is not exist. 请修改实例后重试。
准备权重 获取对应模型的权重文件,获取链接参考表1。 权重文件下载有如下几种方式,但不仅限于以下方式: 方法一:网页下载:通过单击表格中权重文件获取地址的访问链接,即可在模型主页的Files and Version中下载文件。 方法二:huggingface-cli:huggingface-cli
后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。 图2 CloudShell远程登录界面 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。
表3 SampleComment 参数 是否必选 参数类型 描述 accept 是 Boolean 是否通过。可选值如下: true:通过 false:不通过 comment 否 String 评审意见,限制长度为[0,256],且不能包含!<>=&"'字符。
异常 边缘服务状态异常,异常信息:实例不存在 Update service status to abnormal, deployment is not exist. 请修改实例后重试。
如果需要给子用户开通专属资源池的创建、更新、删除权限,此处要勾选ModelArts FullAccess,请谨慎配置。 ModelArts FullAccess权限和ModelArts CommonOperations权限只能二选一,不能同时选。
后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。 图2 CloudShell远程登录界面 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。
后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。 图2 CloudShell远程登录界面 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。
后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。 图2 CloudShell远程登录界面 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。
前提条件 已准备好Lite k8s Cluster环境,具体参考准备环境。推荐使用“西南-贵阳一”Region上的Cluster和昇腾Snt9b资源。 安装过程需要连接互联网git clone,确保集群可以访问公网。 Step1 上传权重文件 将权重文件上传到集群节点机器中。
前提条件 已准备好Lite k8s Cluster环境,具体参考准备环境。推荐使用“西南-贵阳一”Region上的Cluster和昇腾Snt9b资源。 安装过程需要连接互联网git clone,确保集群可以访问公网。 Step1 上传权重文件 将权重文件上传到集群节点机器中。
后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。 图2 CloudShell远程登录界面 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。
Successfully tagged pytorch:2.1.0-cann7.0.0 上传镜像至SWR服务 登录容器镜像服务控制台,选择区域,要和ModelArts区域保持一致,否则无法选择到镜像。 单击右上角“创建组织”,输入组织名称完成组织创建。
ordinal at xxx” 日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” 训练作业找不到GPU 日志提示“RuntimeError: CUDA error: an illegal memory access
工作负载Pod异常 Pod状态为Pending 当Pod状态为“Pending”,事件中出现“实例调度失败”的信息时,可根据具体事件信息确定具体问题原因。具体参考链接为工作负载状态异常定位方法。 通过以下命令打印Pod日志信息。
工作负载Pod异常 Pod状态为Pending 当Pod状态为“Pending”,事件中出现“实例调度失败”的信息时,可根据具体事件信息确定具体问题原因。具体参考链接为工作负载状态异常定位方法。 通过以下命令打印Pod日志信息。
工作负载Pod异常 Pod状态为Pending 当Pod状态为“Pending”,事件中出现“实例调度失败”的信息时,可根据具体事件信息确定具体问题原因。具体参考链接为工作负载状态异常定位方法。 通过以下命令打印Pod日志信息。