检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
调用配置授权接口配置ModelArts授权。该接口支持管理员给IAM子用户设置委托,支持设置当前用户的访问密钥。 若没有授权,ModelArts服务的数据管理、训练管理、开发环境、在线服务等功能将不能正常使用。 调用查看授权列表接口查看用户的授权信息。 在管理用户授权时,可以调用删除授权接口删除指定用户的授权或者删除全量用户的授权。
创建训练作业版本 停止训练作业版本 更新训练作业描述 删除训练作业 获取训练作业日志的文件名 查询预置算法 查询训练作业日志 父主题: 训练管理(旧版)
配置训练作业基本信息 在创建训练作业页面填写训练作业基本信息。 表1 创建训练作业的基本信息 参数名称 说明 名称 必填,训练作业的名称。 系统会自动生成一个名称,可以根据业务需求重新命名,命名规则如下: 支持1~64位字符。 可以包含大小写字母、数字、中划线(-)或下划线(_)。 描述 训
调用失败时的错误码。 调用成功时无此字段。 error_msg String 调用失败时的错误信息。 调用成功时无此字段。 父主题: OBS管理
模型管理权限 表1 模型管理细化权限说明 权限 对应API接口 授权项 依赖的授权项 IAM项目 企业项目 导入模型 POST /v1/{project_id}/models modelarts:model:create obs:bucket:ListAllMybuckets o
服务管理权限 表1 服务管理细化权限说明 权限 对应API接口 授权项 依赖的授权项 IAM项目 企业项目 部署模型服务 POST /v1/{project_id}/services modelarts:service:create - √ √ 查询模型服务列表 GET /v1/
配套CANN8.0.RC1镜像 无 算子,包名:AscendCloud-OPP Scatter、Gather算子性能提升,满足MoE场景 昇腾随机数生成算子与GPU保持一致 支持GroupNorm+transpose+BMM融合算子 FFN推理算子支持geglu激活函数 支持配套pybind推理的10+算子(matmul
桶的目录结构如下。 <bucket_name> |──llm_train # 解压代码包后自动生成的代码目录,无需用户创建 |── AscendSpeed # 代码目录
SAVE_INTERVAL 1000 用于模型中间版本地保存。 当参数值>=TRAIN_ITERS时,生成模型仅保存经过TRAIN_ITERS次训练后的最后一个版本。 当参数值<TRAIN_ITERS时,生成模型会每经过SAVE_INTERVAL次,保存一次模型版本。 模型版本保存次数=TRAI
true 用于指定是否覆盖缓存。如果设置为"overwrite_cache",则在训练过程中覆盖缓存。这通常在数据集发生变化,或者需要重新生成缓存时使用 preprocessing_num_workers 16 用于指定预处理数据的工作线程数。随着线程数的增加,预处理的速度也会提高,但也会增加内存的使用。
在弹出的对话框中,设置训练作业相关参数,详细参数说明请参见表1。 表1 训练作业配置参数说明 参数 说明 Job Name 训练作业的名称。 系统会自动生成一个名称,您可以根据业务需求重新命名,命名规则如下: 支持1~64位字符。 并包含大小写字母、数字、中划线(-)或下划线(_)。 Job Description
管理开发环境实例 功能介绍 该接口用于启动、停止、重启、排队、取消排队开发环境Notebook实例。 URI POST /v1/{project_id}/demanager/instances/{instance_id}/action 参数说明如表1所示。 表1 参数说明 参数 是否必选
数据已准备完成:已经创建数据集或者已经将数据上传至OBS。 确保您使用的OBS与ModelArts在同一区域。 创建数据处理任务 登录ModelArts管理控制台,在左侧的导航栏中选择“数据准备 > 数据处理”,进入“数据处理”页面。 在“数据处理”页面,单击“创建”进入“创建数据处理”页面。
String 训练作业的数据集ID,可参考数据管理获取。需要与dataset_version_id同时出现,但是不可与inputs同时出现。 dataset_version_id 否 String 训练作业的数据集版本ID,可参考数据管理获取。需要与dataset_id同时出现,但是不可与inputs同时出现。
资源和引擎规格接口 查询作业资源规格 查询作业引擎规格 父主题: 训练管理(旧版)
工作空间管理权限 表1 工作空间管理细化权限说明 权限 对应API接口 授权项 依赖的授权项 IAM项目 企业项目 创建工作空间 POST /v1/{project_id}/workspaces modelarts:workspace:create - √ √ 查询工作空间列表 GET
支持同时购买多台机器,输入值必须在1到10之间。 若有多台机器资源,会生成对应多笔订单,需逐一支付每笔订单,不可合并支付。 单击“立即创建”,完成实例的创建,随后进入付款界面。 支付对应资源的订单。 图8 支付订单 若有多台机器资源,会生成对应多笔订单,需逐一支付每笔订单,不可合并支付。 支付完
Lite Server资源管理 查看Lite Server服务器详情 启动或停止Lite Server服务器 同步Lite Server服务器状态 切换Lite Server服务器操作系统 监控Lite Server资源 NPU日志收集上传 释放Lite Server资源
<NNODES=1> <NODE_RANK=0> sh scripts/llama2/0_pl_sft_13b.sh localhost 1 0 训练完成后,生成的权重文件保存路径为:/home/ma-user/ws/llm_train/saved_dir_for_output/llama2-13b/saved_models/。
SAVE_INTERVAL 1000 用于模型中间版本地保存。 当参数值>=TRAIN_ITERS时,生成模型仅保存经过TRAIN_ITERS次训练后的最后一个版本。 当参数值<TRAIN_ITERS时,生成模型会每经过SAVE_INTERVAL次,保存一次模型版本。 模型版本保存次数=TRAI