检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
#原始数据目录,需要用户手动创建,后续操作步骤中会提示 |── train-00000-of-00001-a09b74b3ef9c3b56.parquet #原始数据文件 |── alpaca_gpt4_data.json #微调数据文件 上传代码和权重文件到工作环境
网。 购买弹性云服务器ECS 如果您需要在服务器上部署相关业务,较之物理服务器,弹性云服务器的创建成本较低,并且可以在几分钟之内快速获得基于云服务平台的弹性云服务器设施,并且这些基础设施是弹性的,可以根据需求伸缩。操作指导请参考自定义购买ECS。 购买时需注意,ECS需要和SFS买到同一个VPC才能挂载SFS存储。
辑完成后重新构建新镜像。 注意:训练作业的资源池以及ECS都需要联通外网,否则会安装和下载失败。 ECS获取和上传基础镜像 创建ECS。 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行
ECS中构建新镜像(可选) 通过ECS获取和上传基础镜像获取基础镜像后,可通过ECS运行Dockerfile文件,在镜像的基础上构建新镜像。 Step1 构建新ModelArts Standard训练镜像 获取模型软件包,并上传到ECS的目录下(可自定义路径),获取地址参考表1。
术支持下载获取。 获取模型权重文件 获取对应模型的权重文件,获取链接参考表1。 权重文件下载有如下几种方式,但不仅限于以下方式: 方法一:网页下载:通过单击表格中权重文件获取地址的访问链接,即可在模型主页的Files and Version中下载文件。 方法二:huggingfa
Failed 未满足前提条件,服务器未满足请求者在请求中设置的其中一个前提条件。 413 Request Entity Too Large 由于请求的实体过大,服务器无法处理,因此拒绝请求。为防止客户端的连续请求,服务器可能会关闭连接。如果只是服务器暂时无法处理,则会包含一个Retry-After的响应信息。
服务部署 自定义镜像模型部署为在线服务时出现异常 部署的在线服务状态为告警 服务启动失败 服务部署、启动、升级和修改时,拉取镜像失败如何处理? 服务部署、启动、升级和修改时,镜像不断重启如何处理? 服务部署、启动、升级和修改时,容器健康检查失败如何处理? 服务部署、启动、升级和修改时,资源不足如何处理?
关于Ant8裸金属服务器的购买,可以在华为云官网提工单至ModelArts云服务, 完成资源的申请。 步骤1 安装模型 安装Megatron-DeepSpeed框架。 使用root用户SSH的方式登录GPU裸金属服务器。具体登录方式请参见SSH密钥方式登录裸金属服务器。 拉取pyto
本教程中用到的训练、推理代码如下表所示,请提前准备好。 获取模型软件包和权重文件 本方案支持的模型对应的软件和依赖包获取地址如表1所示,模型列表、对应的开源权重获取地址如表1所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6.3.911-xxx.zip
单击新增访问密钥 填写该密钥的描述说明,单击“确定”。根据提示单击“立即下载”,下载密钥。 图4 新增访问密钥 密钥文件会直接保存到浏览器默认的下载文件夹中。打开名称为“credentials.csv”的文件,即可查看访问密钥(Access Key Id和Secret Access Key)。
将AscendSpeed代码包AscendCloud-LLM-xxx.zip在本地解压缩后,将llm_train文件上传至OBS中。 结合准备数据、准备权重、准备代码,将数据集、原始权重、代码文件都上传至OBS后,OBS桶的目录结构如下。 <bucket_name> |──llm_train
使用SSH功能 ECS ecs:serverKeypairs:list ecs:serverKeypairs:get ecs:serverKeypairs:delete ecs:serverKeypairs:create 为开发环境Notebook实例配置登录密钥。 按需配置。 DEW
ECS中构建新镜像 通过ECS获取基础镜像获取基础镜像后,可通过ECS运行Dockerfile文件,在镜像的基础上构建新镜像。 Step1 构建新ModelArts Standard训练镜像 获取模型软件包,并上传到ECS的目录下(可自定义路径),获取地址参考表1。 解压Asce
ECS中构建新镜像 通过ECS获取基础镜像获取基础镜像后,可通过ECS运行Dockerfile文件,在镜像的基础上构建新镜像。 Step1 构建新ModelArts Standard训练镜像 获取模型软件包,并上传到ECS的目录下(可自定义路径),获取地址参考表1。 解压Asce
报错日志 从上图报错日志判断,预测失败是模型推理代码编写有问题。 解决方法 根据日志报错提示,append方法中缺少必填参数,修改模型推理代码文件“customize_service.py”中的代码,给append方法中传入合理的参数。 如需了解更多模型推理代码编写说明,请参考模型推理代码编写说明。
准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr.cn-southwest-2
准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr.cn-southwest-2
CommonOperations权限只能二选一,不能同时选。 SFS弹性文件服务 弹性文件服务SFS Turbo的所有权限。使用SFS服务时需要配置。 ECS弹性云服务器 弹性云服务器所有权限。使用ECS服务时需要配置。 SWR容器镜像仓库 容器镜像仓库所有权限。使用SWR服务时需要配置。同时,还需开通SWR组织权限。
本教程中用到的模型软件包如下表所示,请提前准备好。 获取模型软件包 本方案支持的模型对应的软件和依赖包获取地址如表1所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6.3.909-xxx.zip 说明: 软件包名称中的xxx表示时间戳。
本教程中用到的模型软件包如下表所示,请提前准备好。 获取模型软件包 本方案支持的模型对应的软件和依赖包获取地址如表1所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6.3.909-xxx.zip 说明: 软件包名称中的xxx表示时间戳。