检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
需要Session信息。 manifest_info.save(path, session=None, save_mode="w") 示例代码 在保存Manifest文件之前需要先创建包含Manifest信息的对象,包括Sample样本信息及其标签信息Annotation,然后将
查询训练日志 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式一:根据指定的job_id查询。 from modelarts.session import Session from
率和提升作业的稳定性。为了避免无效重启浪费算力资源,系统最多只支持连续无条件重启3次。 为了避免丢失训练进度、浪费算力,开启此功能前请确认代码已适配断点续训,操作指导请参见设置断点续训练。 当训练过程中触发了自动重启,则系统会记录重启信息,在训练作业详情页可以查看故障恢复详情,具体请参见训练作业重调度。
推荐使用“西南-贵阳一”Region上的Lite Server资源和Ascend Snt9B。 软件配套版本 表1 获取软件 分类 名称 获取路径 插件代码包 AscendCloud-6.3.908软件包中的AscendCloud-AIGC-6.3.908-xxx.zip 文件名中的xxx表示
0.0 代码目录:设置为OBS中存放启动脚本文件的目录,例如:“obs://test-modelarts/pytorch/demo-code/”,训练代码会被自动下载至训练容器的“${MA_JOB_DIR}/demo-code”目录中,“demo-code”为OBS存放代码路径的最后一级目录,可以根据实际修改。
桶。 准备数据 准备训练数据,可以用本案使用的数据集,也可以使用自己准备的数据集。 准备权重 准备所需的权重文件。 准备代码 准备AscendSpeed训练代码。 准备镜像 准备训练模型适用的容器镜像。 准备Notebook 本案例需要创建一个Notebook,以便能够通过它访问SFS
ECS服务器挂载SFS Turbo存储 本小节介绍如何在ECS服务器挂载SFS Turbo存储,挂载完成后可在后续步骤中,将训练所需的数据通过ECS上传至SFS Turbo。 前提条件 已创建SFS Turbo,如果未创建,请参考创建文件系统。 数据及算法已经上传至OBS,如果未
获取地址 AscendCloud-6.3.911-xxx.zip 包含 三方大模型训练和推理代码包:AscendCloud-LLM AIGC代码包:AscendCloud-AIGC CV代码包:AscendCloud-CV 算子依赖包:AscendCloud-OPP 获取路径:Su
获取地址 AscendCloud-6.3.910-xxx.zip 包含 三方大模型训练和推理代码包:AscendCloud-LLM AIGC代码包:AscendCloud-AIGC CV代码包:AscendCloud-CV 算子依赖包:AscendCloud-OPP 获取路径:Su
平均可以生成3个有效token,即用1.5倍的时间代价,生成了3倍的token数量,性能提升了100%。 投机推理参数设置 在启动离线或在线推理服务时参考表1所示配置参数,使用投机推理功能。 表1 投机推理相关参数 服务启动方式 配置项 取值类型 配置说明 offline speculative_model
查看Lite Server服务器详情 在您创建了Lite Server服务器后,可以通过管理控制台查看和管理您的Lite Server服务器。本节介绍如何查看Lite Server服务器的详细信息,包括名称/ID、规格、镜像等信息。 在弹性节点Server的节点列表页中,可以查看
job的方式,直接启动容器进行测试。训练测试用例使用NLP的bert模型,详细代码和指导可参考Bert。 拉取镜像。本测试镜像为bert_pretrain_mindspore:v1,已经把测试数据和代码打进镜像中。 docker pull swr.cn-southwest-2.myhuaweicloud
软件包名称 软件包说明 获取地址 AscendCloud-6.3.908-xxx.zip 包含 三方大模型训练和推理代码包:AscendCloud-LLM AIGC代码包:AscendCloud-AIGC 算子依赖包:AscendCloud-OPP 获取路径:Support-E 说明:
查询训练作业的运行指标 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式一:根据指定的job_id查询。 from modelarts.session import Session
flash_attn' A:当前环境中缺少flash_attn库且昇腾不支持该库,运行时需要注释掉权重文件夹中modeling_deepseek.py中的部分代码。 Q:modeling_utils.py报错 if metadata.get("format") not in ["pt", "tf",
中pip依赖包缺少或版本不匹配,因此每次创建训练作业时,训练作业的启动命令中都需要执行 install.sh 文件,来安装依赖以及下载完整代码。 ECS中构建新镜像方案:在ECS中,通过运行Dockerfile文件会在基础镜像上创建新的镜像。新镜像命名可自定义。Dockerfil
同步Lite Server服务器状态 Lite Server为一台弹性裸金属服务器,当用户在云服务器页面修改了裸金属服务器状态后,您可通过“同步”功能,同步其状态至ModelArts。 登录ModelArts管理控制台。 在左侧导航栏中,选择“AI专属资源池 > 弹性节点 Server”,进入“节点”列表页面。
自定义加密函数,认证用的AK和SK硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件中密文存放,使用时解密,确保安全。 sdk_decrypt_implementation_func 自定义解密函数,认证用的AK和SK硬编码到代码中或者明文存储都有很大的安全风险,建议在配
list_datasets(session, dataset_type=None, dataset_name=None, offset=None, limit=None) 示例代码 示例一:查询数据集列表 from modelarts.session import Session from modelarts.dataset
0:29500 (errno: 98 - Address already in use).”。 原因:训练作业的端口号有冲突。 处理建议:更改代码中的端口号,重启训练作业。 查看训练作业的“日志”,出现报错“WARNING: root: Retry=7, Wait=0.4, Times