检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
昇腾云服务6.3.909版本说明 本文档主要介绍昇腾云服务6.3.909版本配套的镜像地址、软件包获取方式和支持的特性能力。 当前版本仅适用于华为公有云。 配套的基础镜像 芯片 镜像地址 获取方式 镜像软件说明 配套关系 Snt9B 西南-贵阳一 PyTorch: swr.cn-southwest-2
昇腾云服务6.3.911版本说明 本文档主要介绍昇腾云服务6.3.911版本配套的镜像地址、软件包获取方式和支持的特性能力。 当前版本仅适用于华为公有云。 配套的基础镜像 芯片 镜像地址 获取方式 镜像软件说明 Snt9B PyTorch2.1.0: swr.cn-southwest-2
昇腾云服务6.3.910版本说明(推荐) 本文档主要介绍昇腾云服务6.3.910版本配套的镜像地址、软件包获取方式和支持的特性能力。 当前版本仅适用于华为公有云。 配套的基础镜像 芯片 镜像地址 获取方式 镜像软件说明 配套关系 Snt9B 西南-贵阳一 PyTorch: swr.cn-southwest-2
et.IO),地址栏中填入从服务详情页“调用指南”页签中获取“API接口调用公网地址”后面的地址。如果自定义镜像中有更细粒度的地址,则在地址后面追加该URL。如果有queryString,那么在params栏中添加参数。在header中添加认证信息(不同认证方式有不同header
昇腾云服务6.3.912版本说明 本文档主要介绍昇腾云服务6.3.912版本配套的镜像地址、软件包获取方式和支持的特性能力。 当前版本仅适用于华为公有云。 配套的基础镜像 芯片 镜像地址 获取方式 镜像软件说明 Snt9B PyTorch2.1.0: swr.cn-southwest-2
器翻译和对话系统等。 DeepSpeed是开源的加速深度学习训练的库。它针对大规模的模型和分布式训练进行了优化,可以显著提高训练速度和效率。DeepSpeed提供了各种技术和优化策略,包括分布式梯度下降、模型并行化、梯度累积和动态精度缩放等。它还支持优化大模型的内存使用和计算资源分配。
ECS获取基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注意:C
diffusers==0.11.1 下载git lfs,用于下载git仓中的大文件。 由于欧拉源上没有git-lfs包,所以需要从压缩包中解压使用,在浏览器中输入如下地址下载git-lfs压缩包并上传到服务器的/home目录。 https://github.com/git-lfs/git-lf
EndpointsRes objects 服务器的私有IP信息。 image ServerImageResponse object 服务器镜像信息。 category String 服务器归属类型。 HPS:超节点服务器 SPOD:整柜服务器 SERVER:单台服务器 server_hps ServerHpsInfo
EndpointsRes objects 服务器的私有IP信息。 image ServerImageResponse object 服务器镜像信息。 category String 服务器归属类型。 HPS:超节点服务器 SPOD:整柜服务器 SERVER:单台服务器 server_hps ServerHpsInfo
X-Request-Id String 链路追踪ID。 表4 响应Body参数 参数 参数类型 描述 dns_domain_name String 页面调用指南展示的访问域名,可用于添加内网DNS解析。 vpcep_info Array of InternalChannelDetail objects
标注作业对应的“实体标签”和“关系标签”已定义好。“关系标签”需设置对应的“起始实体”和“终止实体”。“关系标签”只能添加至其设置好的“起始实体”和“终止实体”之间。 支持设置多个“实体标签”和“关系标签”。一个文本数据中,也可以标注多个“实体标签”和“关系标签” 创建数据集时定义的“实体标签”,不支持删除。
服务部署失败,报错:No Module named XXX 原因分析 No Module named XXX,表示模型中没有导入对应依赖模块。 处理方法 依赖模块没有导入,需要您在模型推理代码中导入缺失依赖模块。 例如您的模型是Pytorch框架,部署为在线服务时出现告警:ModuleNotFoundError:
服务状态一直处于“部署中” 问题现象 服务状态一直处于“部署中”,查看模型日志未发现服务有明显错误。 原因分析 一般情况都是模型的端口配置有问题。建议您首先检查创建模型的端口是否正确。 处理方法 模型的端口没有配置,如您在自定义镜像配置文件中修改了端口号,需要在部署模型时,配置对应的端口号,使新的模型重新部署服务。
训练启动脚本说明和参数配置 本代码包中集成了不同模型的训练脚本,并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。若未完成,则执行脚本,自动完成数据预处理和权重转换的过程。 若用户进行自定义数据集预处理以及权重转换,可通过编辑 1_preprocess_data
准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr.cn-southwest-2
准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr.cn-southwest-2
训练启动脚本说明和参数配置 本代码包中集成了不同模型(包括llama2、llama3、Qwen、Qwen1.5 ......)的训练脚本,并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成,则执行脚本,自动完成数据预处理和权重转换的过程。
至弹性裸金属服务器,并完成安装,具体步骤请参考下载和安装obsutil。 使用obsutil之前,您需要配置obsutil与OBS的对接信息,包括OBS终端节点地址(Endpoint)和访问密钥(AK和SK)。获得OBS的认证后,才能使用obsutil执行OBS桶和对象的相关操作,具体步骤请参考初始化配置。
训练启动脚本说明和参数配置 本代码包中集成了不同模型的训练脚本,并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成,则执行脚本,自动完成数据预处理和权重转换的过程。 如果用户进行自定义数据集预处理以及权重转换,可通过编辑 1_preprocess_data