检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
然后在超参或者环境变量中设置checkpoint和数据的挂载路径。 图3 在超参或者环境变量中设置checkpoint和数据的挂载路径 训练存储加速的代码样例(PyTorch版reload ckpt) PyTorch模型保存有两种方式。 仅保存模型参数 state_dict = model.state_dict()
ser用户执行后续命令。 docker exec -it ${container_name} bash 步骤四:下载依赖代码包并上传到宿主机 下载华为侧插件代码包AscendCloud-AIGC-6.3.909-xxx.zip文件,获取路径参见表1。本案例使用的是解压到子目录/a
下载华为侧插件代码包AscendCloud-AIGC-6.3.907-xxx.zip文件,获取路径参见表1。本案例使用的是解压到子目录aigc_train->torch_npu->diffusers的所有文件,将diffusers整个目录上传到宿主机上。 依赖的插件代码包、模型包和
访问,这样可使得学生可独立完成在ModelArts上的实验。 企业场景:管理者可创建用于生产任务的工作空间并限制仅让运维人员使用,用于日常调试的工作空间并限制仅让开发人员使用。通过这种方式让不同的企业角色只能在指定工作空间下使用资源。 目前工作空间功能是“受邀开通”状态,作为企业
IAM用户获得权限后,登录ModelArts管理控制台,删除该实例,然后重新使用此OBS路径创建Notebook实例。 报错503 如果出现503错误,可能是由于该实例运行代码时比较耗费资源。建议先停止当前Notebook实例,然后重新启动。 报错504 如果报此错误时,请提工单或拨打热线电话协助解决。提工单和热线电话请参见:https://www
镜像中pip依赖包缺少或版本不匹配,因此每次创建训练作业时,训练作业的启动命令中都需要执行install.sh文件,来安装依赖以及下载完整代码。 ECS中构建新镜像方案:在ECS中,通过运行Dockerfile文件会在基础镜像上创建新的镜像。新镜像命名可自定义。Dockerfil
腾资源。 软件配套版本 本方案支持的软件配套版本和依赖包获取地址如表1所示。 表1 软件配套版本和获取地址 软件名称 说明 下载地址 插件代码包 AscendCloud-3rdAIGC-6.3.908-xxx.zip 文件名中的xxx表示具体的时间戳,以包名的实际时间为准。 获取路径:Support-E
镜像中pip依赖包缺少或版本不匹配,因此每次创建训练作业时,训练作业的启动命令中都需要执行install.sh文件,来安装依赖以及下载完整代码。 ECS中构建新镜像方案:在ECS中,通过运行Dockerfile文件会在基础镜像上创建新的镜像。新镜像命名可自定义。Dockerfil
获取地址 AscendCloud-6.3.909-xxx.zip 包含 三方大模型训练和推理代码包:AscendCloud-LLM AIGC代码包:AscendCloud-AIGC CV代码包:AscendCloud-CV 算子依赖包:AscendCloud-OPP 获取路径:Support-E
下载华为侧插件代码包AscendCloud-AIGC-6.3.908-xxx.zip文件,获取路径参见表1。本案例使用的是解压到子目录aigc_train->torch_npu->diffusers的所有文件,将diffusers整个目录上传到宿主机上。 依赖的插件代码包、模型包和
0-ofed-cuda11.2” 代码目录:设置为OBS中存放启动脚本文件的目录,例如:“obs://test-modelarts/tensorflow/code/”,训练代码会被自动下载至训练容器的“${MA_JOB_DIR}/code”目录中,“code”为OBS存放代码路径的最后一级目录,可以根据实际修改。
code_dir String 训练作业的代码目录。如:“/usr/app/”。应与boot_file一同出现,如果填入id或subscription_id+item_version_id则无需填写。 boot_file String 训练作业的代码启动文件,需要在代码目录下。如:“/usr/app/boot
准备脚本文件并上传至OBS中 Step3 制作自定义镜像 Step4 上传镜像至SWR Step5 在ModelArts上创建Notebook并调试 Step6 在ModelArts上创建训练作业 父主题: 历史待下线案例
IAM用户获得权限后,登录ModelArts管理控制台,删除该实例,然后重新使用此OBS路径创建Notebook实例。 报错503 如果出现503错误,可能是由于该实例运行代码时比较耗费资源。建议先停止当前Notebook实例,然后重新启动。 报错504 如果报此错误时,请提工单或拨打热线电话协助解决。提工单和热线电话请参见:https://www
3-1.0.1.0-ubuntu16.04-x86_64 USER ma-user 验证infiniband驱动是否安装成功。 在训练代码中执行以下命令,如果无报错则infiniband驱动安装成功: os.system("ofed_info") 父主题: FAQ
下载controlnet模型包并解压 安装插件代码包。 将获取到的插件代码包ascendcloud-aigc-6.3.902-*.tar.gz文件上传到容器的/home/ma-user/temp目录下。获取路径:Support网站。 解压插件代码包ascendcloud-aigc-6.3
pip install -e . 修改examples/quantizing_moe/deepseek_moe_w8a8_int8.py中的代码: 1)若本地已有权重,请将MODEL_ID修改为权重路径; MODEL_ID = "deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct"
软件包名称 软件包说明 获取地址 AscendCloud-6.3.906-xxx.zip 包含 三方大模型训练和推理代码包:AscendCloud-LLM AIGC代码包:AscendCloud-AIGC 算子依赖包:AscendCloud-OPP 获取路径:Support-E 说明:
旧版训练迁移至新版训练需要注意哪些问题? 新版训练和旧版训练的差异主要体现在以下3点,详细内容请参见旧版训练迁移至新版训练注意事项。 新旧版创建训练作业方式差异 新旧版训练代码适配的差异 新旧版训练预置引擎差异 父主题: 下线公告
建议使用官方提供的镜像部署推理服务。镜像地址{image_url}获取请参见表1。 docker pull {image_url} 步骤三 上传代码包和权重文件 上传安装依赖软件推理代码AscendCloud-LLM-6.3.909-xxx.zip和算子包AscendCloud-OPP-6.3.909-xxx