检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
list_datasets(session, dataset_type=None, dataset_name=None, offset=None, limit=None) 示例代码 示例一:查询数据集列表 from modelarts.session import Session from modelarts.dataset
0:29500 (errno: 98 - Address already in use).”。 原因:训练作业的端口号有冲突。 处理建议:更改代码中的端口号,重启训练作业。 查看训练作业的“日志”,出现报错“WARNING: root: Retry=7, Wait=0.4, Times
中pip依赖包缺少或版本不匹配,因此每次创建训练作业时,训练作业的启动命令中都需要执行 install.sh 文件,来安装依赖以及下载完整代码。 ECS中构建新镜像方案:在ECS中,通过运行Dockerfile文件会在基础镜像上创建新的镜像。新镜像命名可自定义。Dockerfil
理框架在实际业务中能支持的并发数。 benchmark代码目录 性能benchmark验证使用到的脚本存放在代码包AscendCloud-LLM-xxx.zip的llm_tools/llm_evaluation目录下。具体代码目录如下。 benchmark_tools |---
建议使用官方提供的镜像部署推理服务。镜像地址{image_url}获取请参见表1。 docker pull {image_url} 步骤三 上传代码包和权重文件 上传安装依赖软件推理代码AscendCloud-LLM-6.3.909-xxx.zip和算子包AscendCloud-OPP-6.3.909-xxx
推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。 软件配套版本 表1 获取软件 分类 名称 获取路径 插件代码包 AscendCloud-6.3.908软件包中的AscendCloud-AIGC-6.3.908-xxx.zip 文件名中的xxx表示
flash_attn 根因:昇腾环境暂时不支持flash_attn接口 规避措施:修改dynamic_module_utils.py文件,将180-184行代码注释掉 vim /home/ma-user/anaconda3/envs/PyTorch-2.1.0/lib/python3.9/site
度及性能调优。 环境准备 迁移环境准备有以下两种方式: 表1 迁移环境准备方式 方式 说明 ModelArts Notebook 该环境为在线调试环境,主要面向演示、体验和快速原型调试场景。 环境开通指导请参考Notebook环境创建。 ModelArts Lite DevServer
的小模型进行eagle推理。支持llama1系列、llama2系列和Qwen2系列模型。 步骤一:安装Eagle Eagle训练适配代码存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/spec_decode/EAGLE目录下。 在目录下执行如下命令,即可安装Eagle。
当需要增加新的数据继续训练时,只需要加载Checkpoint,并用Checkpoint信息初始化训练状态即可。用户需要在代码里加上reload ckpt的代码,使能读取前一次训练保存的预训练模型。 在ModelArts训练中实现增量训练,建议使用“训练输出”功能。 在创建训练作业
获取地址 AscendCloud-6.3.912-xxx.zip 包含 三方大模型训练和推理代码包:AscendCloud-LLM AIGC代码包:AscendCloud-AIGC CV代码包:AscendCloud-CV 算子依赖包:AscendCloud-OPP 获取路径:Su
查项出现故障时,隔离故障硬件并重新下发训练作业。针对于分布式场景,容错检查会检查本次训练作业的全部计算节点。 推理部署故障恢复 用户部署的在线推理服务运行过程中,如发生硬件故障导致推理实例故障,ModelArts会自动检测到并迁移受影响实例到其它可用节点,实例启动后恢复推理请求处
桶。 准备数据 准备训练数据,可以用本案使用的数据集,也可以使用自己准备的数据集。 准备权重 准备所需的权重文件。 准备代码 准备AscendSpeed训练代码。 准备镜像 准备训练模型适用的容器镜像。 准备Notebook 本案例需要创建一个Notebook,以便能够通过它访问SFS
软件包名称 软件包说明 获取地址 AscendCloud-6.3.907-xxx.zip 包含 三方大模型训练和推理代码包:AscendCloud-LLM AIGC代码包:AscendCloud-AIGC 算子依赖包:AscendCloud-OPP 获取路径:Support-E 说明:
rk_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录,目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。 容器不能挂载/home/ma-use
0.0 代码目录:设置为OBS中存放启动脚本文件的目录,例如:“obs://test-modelarts/pytorch/demo-code/”,训练代码会被自动下载至训练容器的“${MA_JOB_DIR}/demo-code”目录中,“demo-code”为OBS存放代码路径的最后一级目录,可以根据实际修改。
查询训练作业的运行指标 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式一:根据指定的job_id查询。 from modelarts.session import Session
flash_attn' A:当前环境中缺少flash_attn库且昇腾不支持该库,运行时需要注释掉权重文件夹中modeling_deepseek.py中的部分代码。 Q:modeling_utils.py报错 if metadata.get("format") not in ["pt", "tf",
中pip依赖包缺少或版本不匹配,因此每次创建训练作业时,训练作业的启动命令中都需要执行 install.sh 文件,来安装依赖以及下载完整代码。 ECS中构建新镜像方案:在ECS中,通过运行Dockerfile文件会在基础镜像上创建新的镜像。新镜像命名可自定义。Dockerfil
总览Workflow 获取Workflow统计信息。 查询Workflow待办事项 获取Workflow待办列表。 在线服务鉴权 计费工作流在线主服务鉴权。 创建在线服务包 计费工作流购买资源。 表2 WorkflowExecution API 说明 获取Execution列表 查询Workflow下的执行记录列表。