检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下:
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下:
运行训练作业时提示URL连接超时 问题现象 训练作业在运行时提示URL连接超时,具体报错如下: urllib.error.URLERROR:<urlopen error [Errno 110] Connection timed out> 原因分析 由于安全性问题在ModelArts上不能联网下载。
OBS操作相关故障 读取文件报错,如何正确读取文件 TensorFlow-1.8作业连接OBS时反复出现提示错误 TensorFlow在OBS写入TensorBoard到达5GB时停止 保存模型时出现Unable to connect to endpoint错误 OBS复制过程中提示“BrokenPipeError:
准备镜像 准备大模型推理适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 镜像版本 本教程中用到基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr.cn-southwest-2
DeepSeek系列模型推理 DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导
自定义镜像训练作业失败定位思路 问题现象 使用自定义镜像训练作业时,训练失败。 定位思路 确定镜像来源 确认该自定义镜像的基础镜像是否来源于ModelArts提供的基础镜像,推荐用户使用ModelArts的基础镜像构建自定义镜像,具体请参见使用ModelArts的基础镜像构建新的训练镜像。
如何在ModelArts的Notebook中上传下载OBS文件? 在Notebook中可以通过调用ModelArts的Moxing接口或者SDK接口与OBS交互,将Notebook中的文件上传至OBS,或者下载OBS中的文件至Notebook中。 图1 Notebook中上传下载OBS文件
VS Code ToolKit连接Notebook 本节介绍如何在本地使用ModelArts提供的VS Code插件工具VS Code ToolKit,协助用户完成SSH远程连接Notebook。 VS Code ToolKit功能介绍 前提条件 已下载并安装VS Code。详细操作请参考安装VS
云上迁移适配故障 无法导入模块 训练作业日志中提示“No module named .*” 如何安装第三方包,安装报错的处理方法 下载代码目录失败 训练作业日志中提示“No such file or directory” 训练过程中无法找到so文件 ModelArts训练作业无法解析参数,日志报错
Standard Notebook ModelArts的Notebook是否支持Keras引擎? 如何在ModelArts的Notebook中上传下载OBS文件? ModelArts的Notebook实例upload后,数据会上传到哪里? 在ModelArts中如何将Notebook
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下:
权限策略和授权项 策略及授权项说明 数据管理权限 开发环境权限 训练作业权限 模型管理权限 服务管理权限 工作空间管理权限 DevServer权限
创建和保存Manifest文件 需要先创建包含Manifest信息的对象,然后保存。Manifest信息请见表2。路径支持本地和OBS,如果是OBS,需要Session信息。 manifest_info.save(path, session=None, save_mode="w")
Standard镜像相关 不在同一个主账号下,如何使用他人的自定义镜像创建Notebook? 如何登录并上传镜像到SWR? 在Dockerfile中如何给镜像设置环境变量? 如何通过docker镜像启动容器? 如何在ModelArts的Notebook中配置Conda源? Mod
创建数据集 创建数据集,支持从OBS中导入数据。 create_dataset(session, dataset_name=None, data_type=None, data_sources=None, work_path=None, dataset_type=None, **kwargs)
查看训练作业日志 训练日志定义 训练日志用于记录训练作业运行过程和异常信息,为快速定位作业运行中出现的问题提供详细信息。用户代码中的标准输出、标准错误信息会在训练日志中呈现。在ModelArts中训练作业遇到问题时,可首先查看日志,多数场景下的问题可以通过日志报错信息直接定位。
用户创建模型时构建镜像或导入文件失败 问题现象 用户创建模型时,构建镜像失败,失败日志中提示下载obs文件失败(Get object size from OBS failed!)。 图1 下载obs文件失败 用户创建模型时,事件提示:复制模型文件失败,请检查OBS权限是否正常(Failed
准备代码 本教程中用到的模型软件包如下表所示,请提前准备好。 获取配套版本 本方案支持的软件配套版本和依赖包获取地址如表1所示。 表1 软件配套版本和获取地址 软件名称 说明 下载地址 AscendCloud-3rdLLM-6.3.905-xxx.zip 说明: 软件包名称中的xxx表示时间戳。
准备代码 本教程中用到的模型软件包如下表所示,请提前准备好。 软件配套版本 本方案支持的软件配套版本和依赖包获取地址如表1所示。 表1 软件配套版本和获取地址 软件名称 说明 下载地址 AscendCloud-6.3.906-xxx.zip 说明: 软件包名称中的xxx表示时间戳。