检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
网卡名称错误 当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。 比如,ifconfig看到当前机器IP对应的网卡名称为enp67s0f5,则可以设置环境变量指定该值。 export GLOO_SOCKET_IFNAME=enp67s0f5
网卡名称错误 当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。 比如,ifconfig看到当前机器IP对应的网卡名称为enp67s0f5,则可以设置环境变量指定该值。 图1 网卡名称错误 export GLOO_SOCKET_IFNAME=enp67s0f5
网卡名称错误 当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。 比如,ifconfig看到当前机器IP对应的网卡名称为enp67s0f5,则可以设置环境变量指定该值。 export GLOO_SOCKET_IFNAME=enp67s0f5
网卡名称错误 当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。 比如,ifconfig看到当前机器IP对应的网卡名称为enp67s0f5,则可以设置环境变量指定该值。 export GLOO_SOCKET_IFNAME=enp67s0f5
yaml配置文件参数配置说明 本小节主要详细描述demo_yaml样例配置文件、配置参数说明,用户可根据实际自行选择其需要的参数。 表1 模型训练脚本参数 参数 示例值 参数说明 model_name_or_path /home/ma-user/ws/tokenizers/Qwen2-72B
Yaml配置文件参数配置说明 本小节主要详细描述demo_yaml配置文件、配置参数说明,用户可根据实际自行选择其需要的参数。 表1 模型训练脚本参数 参数 示例值 参数说明 model_name_or_path /home/ma-user/ws/tokenizers/Qwen2-72B
单击网络列表中某个网络操作列的“更多 > 查看可用IP数量”,可以看到该网络所在的网段中可以使用的IP地址数量。 图3 查看可用IP数量 在单个资源池的详情页中,也可以查看该资源池绑定网络的可用IP数量。 图4 查看可用IP数量 父主题: 管理Standard专属资源池
选择指定的IAM子用户,给指定的IAM子用户配置委托授权。 “委托选择” 选择“新增委托”。 “ 委托名称” 系统自动创建委托名称,用户可以手动修改。 “权限配置 ” 在服务列表右侧勾选“全选”。 勾选“我已经详细阅读并同意《ModelArts服务声明》”,单击“创建”,即可完成委托配置。 更多高级授权配置
Yaml配置文件参数配置说明 本小节主要详细描述demo_yaml配置文件、配置参数说明,用户可根据实际自行选择其需要的参数。 表1 模型训练脚本参数 参数 示例值 参数说明 model_name_or_path /home/ma-user/ws/tokenizers/Qwen2-72B
Yaml配置文件参数配置说明 本小节主要详细描述demo_yaml配置文件、配置参数说明,用户可根据实际自行选择其需要的参数。 表1 模型训练脚本参数 参数 示例值 参数说明 model_name_or_path /home/ma-user/ws/tokenizers/Qwen2-72B
Yaml配置文件参数配置说明 本小节主要详细描述demo_yaml配置文件、配置参数说明,用户可根据实际自行选择其需要的参数。 表1 模型训练脚本参数 参数 示例值 参数说明 model_name_or_path /home/ma-user/ws/tokenizers/Qwen2-72B
典型场景配置实践 个人用户快速配置ModelArts访问权限 配置ModelArts基本使用权限 给子账号配置开发环境基本使用权限 给子账号配置训练作业基本使用权限 给子账号配置部署上线基本使用权限 给子账号配置查看所有Notebook实例的权限 管理员和开发者权限分离 不允许子账号使用公共资源池创建作业
Yaml配置文件参数配置说明 本小节主要详细描述demo_yaml配置文件、配置参数说明,用户可根据实际自行选择其需要的参数。 表1 模型训练脚本参数 参数 示例值 参数说明 model_name_or_path /home/ma-user/ws/model/Qwen2-72B
CommonOperations没有任何专属资源池的创建、更新、删除权限,只有使用权限。推荐给子账号配置此权限。 如果需要给子账号开通专属资源池的创建、更新、删除权限,此处要勾选ModelArts FullAccess,请谨慎配置。 配置OBS使用权限。搜索OBS,勾选“OBS Administrator
'/xxx/xxxx' bash: /bin/ln: Permission denied 自定义镜像中,bash:/home/ma-user/.pip/pip.conf:Permission Denied 自定义镜像中,tee: /xxx/xxxx: Permission denied cp:
安装步骤,您可针对需要安装的软件查看对应的内容: 安装NVIDIA驱动 安装CUDA驱动 安装Docker 安装nvidia-fabricmanager 以下提供常见的配置场景,您可查看相关文档方便您快速配置: GP Vnt1裸金属服务器EulerOS 2.9安装NVIDIA 515+CUDA
安装Gallery CLI配置工具 场景描述 Gallery CLI配置工具支持将AI Gallery仓库的资产下载到云服务端,便于在云服务本地进行训练、部署推理。 Gallery CLI配置工具支持将单个超过5GB的文件从本地上传至AI Gallery仓库中。 约束限制 Gallery
ModelArts支持训练模型过程中安装第三方依赖包。在训练代码目录下放置“pip-requirements.txt”文件后,在训练启动文件被执行前系统会执行如下命令,以安装用户指定的Python Packages。 pip install -r pip-requirements.txt
基本配置 权限配置 创建网络 专属资源池VPC打通 ECS服务器挂载SFS Turbo存储 在ECS中创建ma-user和ma-group obsutil安装和配置 (可选)工作空间配置 父主题: 专属资源池训练
以llama2-13b举例,使用训练作业运行:obs_pipeline.sh 训练脚本后,脚本自动执行数据集预处理,并检查是否已经完成数据集预处理。 如果已完成数据集预处理,则直接执行训练任务。如果未进行数据集预处理,则会自动执行scripts/llama2/1_preprocess_data