检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
g Face格式权重。若用户需要自动转换,则在运行脚本,例如0_pl_pretrain_13b.sh中,添加变量CONVERT_MG2HF并赋值TRUE。若用户后续不需要自动转换,则在运行脚本中必须删除CONVERT_MG2HF变量。 Megatron转HuggingFace脚本具体参数如下:
自定义一个易于分辨的AI应用中文名称。 字符长度在1到30之间。 许可证 否 选择AI应用遵循的许可证。 计算规格选择 是 按需选择计算规格。单击“选择”,在弹窗中选择资源规格并设置运行时长控制,单击“确定”。 在“所在区”选择计算规格所在的区域。默认显示全部区域的计算规格。 选择计算规格不可用的资源会置灰。右侧“配
操作流程图 表2 操作任务流程说明 阶段 任务 说明 准备工作 准备环境 本教程案例是基于ModelArts Lite Server运行的,需要购买并开通Server资源。 准备代码 准备AscendSpeed训练代码、分词器Tokenizer和推理代码。 准备数据 准备训练数据,可以用本
查询用户镜像组列表 查询用户镜像信息概览,以镜像名称作为聚合的信息。 查询镜像详情 查询镜像详情。 删除镜像 删除镜像对象,对于个人私有镜像可以通过参数一并删除SWR镜像内容。 训练管理接口 表6 算法管理接口 API 说明 创建算法 创建一个算法。 查询算法列表 查询算法列表。 查询算法详情 根据算法ID查询指定算法。
NPU: 需要退出AI任务重新执行 RestartAIProcess 提示 当前故障很可能需要客户退出当前的AI任务并尝试重新执行 在收集必要信息后,尝试退出当前AI任务并尝试重新执行 退出当前AI任务以便重新执行 NPU: errorcode告警 NPUErrorCodeWarning
PretrainedFromHF 。 SEQ_LEN 4096 要处理的最大seq length。脚本会检测超出SEQ_LEN长度的数据,并打印log。 父主题: 训练脚本说明
PretrainedFromHF 。 SEQ_LEN 4096 要处理的最大seq length。脚本会检测超出SEQ_LEN长度的数据,并打印log。 父主题: 训练脚本说明
>Notebook”。 单击“创建”,进入创建页面,选择默认参数后,单击“立即创建”,确认信息无误后单击“提交”。任务提交成功后单击“立即返回”跳转至Notebook列表页。Notebook实例更多参数介绍请参见创建Notebook实例章节。 查看2中创建好的实例,确保其状态为“
a环境python(不包含任何AI引擎),如预置Mindspore所对应的Conda环境如下: 用户可以根据是否使用AI引擎参与功能调试,并选择不同的Conda环境。 Notebook:是一款Web应用,能够使用户在界面编写代码,并且将代码、数学方程和可视化内容组合到一个文档中。
执行如下命令进入容器,并进入AutoAWQ目录下, vLLM使用transformers版本与awq冲突,需要切换conda环境,运行以下命令下载并安装AutoAWQ源码。 kubectl exec -it {pod_name} bash conda create --name awq --clone
执行如下命令进入容器,并进入AutoAWQ目录下, vLLM使用transformers版本与awq冲突,需要切换conda环境,运行以下命令下载并安装AutoAWQ源码。 kubectl exec -it {pod_name} bash conda create --name awq --clone
使用root用户以SSH的方式登录DevServer。 将AscendCloud代码包AscendCloud-xxx-xxx.zip上传到${workdir}目录下并解压缩,如SFS Turbo的路径:/mnt/sfs_turbo目录下,以下都以/mnt/sfs_turbo为例,请根据实际修改。 unzip
图5 查看全量日志 如果全部日志超过500M,可能会引起浏览页面卡顿,建议您直接下载日志查看。 预览链接在生成后的一小时内,支持任何人打开并查看。您可以分享链接至他人。 请注意日志中不能包含隐私内容,否则会造成信息泄露。 下载 训练日志仅保留30天,超过30天会被清理。如果用户需
执行如下命令进入容器,并进入AutoAWQ目录下, vLLM使用transformers版本与awq冲突,需要切换conda环境,运行以下命令下载并安装AutoAWQ源码。 kubectl exec -it {pod_name} bash conda create --name awq --clone
object 数据处理任务的工作目录。 workspace_id String 数据处理任务的工作空间ID。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 表3 ProcessorDataSource 参数 参数类型 描述 name String 数据集的名称。
“名称”:设置此任务的名称。 “标注场景”:选择标注作业的任务类型。 “标签集”:展示当前数据集已有的标签及标签属性。 “启用团队标注”:选择打开,并配置如下团队标注相关参数。 “类型”:设置任务类型,支持“指定标注团队”或“指定标注管理员”。 “选择标注团队”:任务类型设置为“指定标注团
在ModelArts官方提供的基础镜像上,构建一个用于ModelArts Standard推理部署的镜像。 在模型软件包和依赖包的同层目录下,创建并编辑Dockerfile。 vim Dockerfile Dockerfile内容如下: FROM swr.cn-southwest-2.myhuaweicloud
可以到华为云官网上提交工单处理。 模型转换失败时如何查看日志和定位原因? 在模型转换的过程,如果出现模型转换失败,可以参考以下步骤查看日志并定位原因: 设置DEBUG日志。 设置MindSpore日志环境变量。 # shell export GLOG_v=0 # 0-
modelarts/workspace.id 否 String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 os.modelarts/node.prefix 否 String 自定义节点名称前缀。 表6 PoolAnnotationsCreation
单词或者句子,可以让它自行地随机生成后续的文本。 环境准备 在华为云ModelArts Server预购相关超强算力的GPU裸金属服务器,并选择AIGC场景通用的镜像,完成使用Megatron-DeepSpeed训练GPT2模型。本最佳实践使用以下镜像和规格: 镜像选择:Ubuntu