检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
解决方案 如果不需要使用moxing、sdk等功能,可以暂时删除modelarts.pth文件。 执行如下命令在用户运行的Conda环境下查找modelarts.pth。 # /home/ma-user/anaconda3指用户的python环境 find /home/ma-user/anaconda3
一华为云账号将其OBS桶权限授予其他华为云账号。如果您的账号是IAM用户或其他场景时,请参见《OBS权限配置指南 》> 典型场景配置案例,查找授予OBS桶权限的指导。 获得OBS桶的读写权限后,您可以在Notebook中,使用moxing接口,访问对应的OBS桶,并读取数据。举例如下:
若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导(6.3.909)
本文档适配昇腾云ModelArts 6.3.907版本,请参考表1获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。 确保容器可以访问公网。 资源规格要求 推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。 软件配套版本 表1 获取软件 分类 名称 获取路径
gen模式表示生成rank_table文件,merge模式表示合并global rank_table文件。 --save-dir:保存生成的rank_table文件的根目录,默认为当前目录。 --api-server:仅在gen模式有效,可选输入,当存在该输入时,表示分离部署的
ModelArts训练中不同规格资源“/cache”目录的大小是多少? ModelArts训练作业为什么存在/work和/ma-user两种超参目录? 如何查看ModelArts训练作业资源占用情况? 如何将在ModelArts中训练好的模型下载或迁移到其他账号?
若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod,需要先找到config
新安装的包与镜像中带的CUDA版本不匹配。 处理方法 必现的问题,使用本地Pycharm远程连接Notebook调试安装。 先远程登录到所选的镜像,使用“nvcc -V”查看目前镜像自带的CUDA版本。 重装torch等,需要注意选择与上一步版本相匹配的版本。 建议与总结 在创建训练作业前,推荐您先使用Mode
若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导(6.3.911)
/service/packages 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workflow_id 是 String 工作流的ID。 请求参数 表2 请求Body参数 参数 是否必选
单击,选择“开通自动续费”,按照页面提示修改。 在续费管理页面开通自动续费 进入“费用中心 > 续费管理”页面。 自定义查询条件。 可在“自动续费项”页签查询已经开通自动续费的资源。 可对“手动续费项”、“到期转按需项”、“到期不续费项”页签的资源开通自动续费。 图1 续费管理 为包年/包月资源开通自动续费。
视化作业流程 Step1 创建开发环境并在线打开 Step2 上传Summary数据 Step3 启动TensorBoard Step4 查看训练看板中的可视化数据 Step1 创建开发环境并在线打开 在ModelArts控制台,进入“开发空间 > Notebook”页面,创建T
后执行ls /home/ma-user/work命令查看下载到Notebook中的文件。或者在JupyterLab左侧导航中显示下载的文件,如果没有显示,请刷新后查看,如图14所示。 图13 打开Terminal 图14 查看下载到Notebook中的文件 异常处理 通过OBS下
时,不允许参数status设置成running(启动)。 表2 predictor configs结构 参数 是否必选 参数类型 描述 model_id 是 String 模型ID。“model_id”可以通过查询模型列表或者ModelArts管理控制台获取。 weight 是 Integer
${dockerfile_image_name}:在step5中,使用Dockerfile创建的新镜像名称。 <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>:前面步骤中自己创建的组织名称。示例:ma-group <镜像名称>:<
若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod,需要先找到config
若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod,需要先找到config
推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B单机。 表1 环境要求 名称 版本 driver 23.0.6 PyTorch pytorch_2.1.0 获取软件和镜像 表2 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3
DevServer:在裸金属服务器中 ,自助配置好存储、安装固件、驱动、配置网络等。 ModelArts Standard ModelArts上昇腾规格如下。 表1 昇腾规格 规格名称 描述 Ascend 1*ascend-snt9b|ARM 24核 192GB Snt9b单卡规格,配搭ARM处理器,适合深度学习场景下的模型训练和调测
/delete 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 请求参数 表2 请求Body参数