检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
与其他云服务的关系 图1 ModelArts与其他服务的关系示意图 与统一身份认证服务的关系 ModelArts使用统一身份认证服务(Identity and Access Management,简称IAM)实现认证功能。IAM的更多信息请参见《统一身份认证服务产品文档》。 与对象存储服务的关系
GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。 PP 1 表示流水线并行。一般此值与训练节点数相等,与权重转换时设置的值相等。 LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN
X86上运行。 - 当前使用的操作系统及版本 当前推理业务的操作系统及版本,如:Ubuntu 22.04。 是否使用容器化运行业务,以及容器中OS版本,HostOS中是否有业务软件以及HostOS的类型和版本。 需要评估是否愿意迁移到华为云的通用OS。 - AI引擎及版本 当前引
Turbo: 文件系统名称:选择对应的SFS Turbo极速文件。不支持选择跨区域(Region)的极速文件系统。 挂载路径:指定容器内部的挂载路径,如“/sfs-turbo-mount/”。请选择全新目录,选择存量目录会覆盖存量文件。 说明: 相同的文件系统只能挂载一次 ,且只
GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。 PP 1 表示流水线并行。一般此值与训练节点数相等,与权重转换时设置的值相等。 LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN
开启“节点高级配置”开关后,支持设置实例的操作系统。 存储配置 部分规格支持“存储配置”开关,该参数默认关闭。 系统盘 打开“存储配置”开关后,可以看到每个实例默认自带的系统盘的磁盘类型、大小或数量。 部分规格没有携带系统盘,在创建专属资源池时支持设置系统盘的磁盘类型和大小。 容器盘 打开
创建工作空间 功能介绍 创建工作空间("default"为系统预留的默认工作空间名称,不能使用)。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v1/
计费样例 计费场景一 某用户于2023/03/18 15:30:00使用一个按需计费的公共资源池进行训练,规格配置如下: 规格:CPU: 8 核 32GB (modelarts.vm.cpu.8ud) 计算节点个数:1个 用了一段时间后,于2023/03/20 10:30:00停
止后会被保留,存储支持在线按需扩容。 只能在单个开发环境中使用 。 并行文件系统PFS 说明: 并行文件系统PFS为白名单功能,如需使用,请联系华为技术支持开通。 仅支持挂载同一区域下的OBS并行文件系统(PFS)。 适合直接使用PFS桶作为持久化存储进行AI开发和探索,使用场景如下。
什么原因系统都会自动重启训练作业,提高训练成功率和提升作业的稳定性。为了避免无效重启浪费算力资源,系统最多只支持连续无条件重启3次。 为了避免丢失训练进度、浪费算力,开启此功能前请确认代码已适配断点续训,操作指导请参见设置断点续训练。 当训练过程中触发了自动重启,则系统会记录重启
Server时间过长。 解决方法 打开VS Code,选择“Help>About”,并记下“Commit”的ID码。 确认创建Notebook实例使用的镜像的系统架构,可以在Notebook中打开Terminal,通过命令uname -m查看。 下载对应版本的vscode-server,根据Comm
MAAS可以通过管理控制台访问,包括大模型数据生产、微调、提示词工程、应用编排等功能。 SDK方式 如果您需要将ModelArts Standard功能集成到第三方系统,用于二次开发,可选择调用SDK方式完成目的。ModelArts的SDK是对ModelArts Standard提供的REST API进行
Server时间过长。 解决方法 打开VS Code,选择“Help>About”,并记下“Commit”的ID码。 确认创建Notebook实例使用的镜像的系统架构,可以在Notebook中打开Terminal,通过命令uname -m查看。 下载对应版本的vscode-server,根据Comm
bs-mount/”,避免选择存量目录覆盖已有文件。OBS挂载仅开放对挂载目录文件新增、查看、修改功能,如果需要删除文件请到OBS并行文件系统中手动删除。 健康检查接口示例如下。 URI GET /health 请求示例curl -X GET \ http://{listen_ip}:8080/health
# 模型名称的限制/约束,在运行态只能选择该模型名称;一般与模型注册节点中的model_name使用同一个参数对象
化,或者使用NVIDIA Data Loading Library(DALI)等工具提高数据增强的速度。 模型保存不要太频繁:模型保存操作一般会阻塞训练,如果模型较大,并且较频繁地进行保存,就会影响GPU/NPU利用率。同理,其他非GPU/NPU操作尽量不要阻塞训练主进程太多的时间,如日志打印,保存训练指标信息等。
GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。 PP 1 表示流水线并行。一般此值与训练节点数相等,与权重转换时设置的值相等。 CP 1 表示context并行,默认为1。应用于训练长序列文本的模型。如果训练时SEQ
间文件系统与云服务器互通,因此保证SFS Turbo与Server服务器在同一区域即可。 当创建文件系统后,您需要使用弹性裸金属服务器来挂载该文件系统,具体步骤请参考挂载NFS协议类型文件系统到云服务器(Linux)。 为避免已挂载文件系统的云服务器重启后,挂载信息丢失,您可以在
8192-lora、full-8k:8192-full】 --master_addr <master_addr>:主master节点IP,一般选rank0为主master。 --num_nodes <nodes>:训练节点总个数 --rank <rank>:节点ID 训练完成后,
owerCase','BertWordPieceCase','GPT2BPETokenizer','PretrainedFromHF'],一般为PretrainedFromHF。 --tokenizer-name-or-path:tokenizer的存放路径,与HF权重存放在一个文件夹下。