检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 训练基础镜像 swr.cn-southwest-2.myhuaweicloud
') 示例代码执行后,本地源文件“file1.txt”被上传至“bucket-name”桶的“dir1”文件夹下,路径为“obs://bucket-name/dir1/file1.txt”。其中,桶名称和文件夹的名称均可以按照业务需求自定义。 参数说明 表1 请求参数说明 参数
是建议用户在VPC中创建SNAT。此场景下,在打通VPC后,专属资源池中作业访问公网地址,默认不能转发到用户VPC的SNAT,需要提交工单联系技术支持在专属资源池VPC的路由中添加指向对等连接的默认路由。当您开启默认路由后,在打通VPC时,会给ModelArts网络0.0.0.0
本,升级完成后所有节点驱动会升级为统一版本。 升级方式:可选择安全升级或强制升级。 安全升级:待节点上没有作业时再升级,升级周期可能比较长。 强制升级:忽略运行中作业,直接升级,可能会导致运行中作业失败。 开启滚动:开启开关后,支持滚动升级的方式升级驱动。当前支持“按节点比例”和“按实例数量”两种滚动方式。
tus 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 service_id 是 String 服务ID。 node_id 是 String 边缘节点ID。在IEF上创建边缘节点后可得到。 请求参数
处理方法 在专属资源池列表中,单击资源池“ID/名称”,进入详情页。单击右上角“配置NAS VPC”,检查是否开启了NAS VPC。详情页面的“NAS VPC名称”和“NAS 子网ID”如果为空则证明没有开启,单击右上角配置NAS VPC即可。 如果单击开启后报错,可能是由于对应的
dst_local_dir="/home/ma-user/work/") 示例代码执行后,OBS源文件夹“dir1”被下载至本地“/home/ma-user/work/dir1/”。 下载到本地的路径需要有写权限。 参数说明 表1 请求参数说明 参数 是否必选 参数类型 描述 session 是 Object
') 示例代码执行后,本地源文件夹“/ma-user/”被上传至“bucket-name”桶的“dir1”文件夹下,路径为“obs://bucket-name/dir1/ma-user/”。其中,桶名称和文件夹的名称均可以按照业务需求自定义。 参数说明 表1 请求参数说明 参数
Convertor,支持onnx、pth、tensorflowLite多种类型的模型转换,转换后的模型可直接运行在MindSpore运行时后端,用于昇腾推理。 精度性能检查工具 Benchmark精度检查工具,可以转换模型后执行推理前,使用其对MindSpore Lite模型进行基准测试,它不仅可以对MindSpore
命令中的“your custom command”表示训练作业中需要执行的其他自定义命令。 “环境变量”增加“MY_SSHD_PORT = 38888”。 “配置节点间SSH免密互信”开关打开,并设置“SSH密钥目录”,一般保持默认值。该配置会在下发训练作业后,自动在训练容器的“/home/ma-user/
LLama系列、Qwen系列模型支持此特性。 Chunked Prefill参数配置 Chunked Prefill的依赖参数如下表所示。 表1 依赖参数说明 配置项 取值类型 取值范围 配置说明 enable-chunked-prefill bool true false true:开启Chunked
mxnet.kv.create('dist_async')方式创建“kvstore”时程序被阻塞。如,执行如下代码,如果无法输出“end”,表明程序阻塞。 print('start') kv_store = mxnet.kv.create('dist_async') print('end')
启动的工作进程数。 --log-interval:是一个用于设置日志输出间隔的参数,表示输出日志的频率。在训练大规模模型时,可以通过设置这个参数来控制日志的输出。 输出数据预处理结果路径: 训练完成后,以 llama2-13b 为例,输出数据路径为:/home/ma-user/ws
启动的工作进程数。 --log-interval:是一个用于设置日志输出间隔的参数,表示输出日志的频率。在训练大规模模型时,可以通过设置这个参数来控制日志的输出。 输出数据预处理结果路径: 训练完成后,以 llama2-13b 为例,输出数据路径为:/home/ma-user/ws
登录ModelArts管理控制台,在左侧菜单栏中选择“模型部署>批量服务”,进入批量服务管理页面。 单击批量服务列表“操作”列的“删除”,删除服务。 勾选批量服务列表中的服务,然后单击列表左上角“删除”按钮,批量删除服务。 单击目标服务名称,进入服务详情页面,单击右上角“删除”按钮进行删除。
服务升级关系着业务实现,不当的升级操作会导致升级期间业务中断的情况,请谨慎操作。 ModelArts支持部分场景下在线服务进行无损滚动升级。按要求进行升级前准备,做好验证,即可实现业务不中断的无损升级。 表1 支持无损滚动升级的场景 创建模型的元模型来源 服务使用的是公共资源池 服务使用的是专属资源池 从训练中选择元模型
准备权重 获取对应模型的权重文件,获取链接参考表1。 权重文件下载有如下几种方式,但不仅限于以下方式: 方法一:网页下载:通过单击表格中权重文件获取地址的访问链接,即可在模型主页的Files and Version中下载文件。 方法二:huggingface-cli:huggingface-cli是
推荐先使用单机单卡运行脚本,待正常运行后再改用多机多卡运行脚本。 多机多卡run.sh中的“VC_WORKER_HOSTS”、“VC_WORKER_NUM”、“VC_TASK_INDEX”、“MA_NUM_GPUS”为ModelArts训练容器中预置的环境变量。训练容器环境变量详细介绍可参考查看训练容器环境变量。
strings 安全组id集合。 表11 CreatingStep 参数 是否必选 参数类型 描述 step 否 Integer 创建步长。 type 否 String 批量创建类型。可选值如下: rack:表示整柜。 响应参数 状态码:200 表12 响应Body参数 参数 参数类型
准备权重 获取对应模型的权重文件,获取链接参考表1。 权重文件下载有如下几种方式,但不仅限于以下方式: 方法一:网页下载:通过单击表格中权重文件获取地址的访问链接,即可在模型主页的Files and Version中下载文件。 方法二:huggingface-cli:huggingface-cli是