检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
sh scripts/llama2/0_pl_pretrain_13b.sh 注意:如果单机运行需要指定使用NPU卡的数量,可提前定义变量 NPUS_PER_NODE 。例如使用单机四卡训练Llama2-7B命令: MASTER_ADDR=localhost NNODES=1 NODE_RANK=0
sh scripts/llama2/0_pl_pretrain_13b.sh 注意:如果单机运行需要指定使用NPU卡的数量,可提前定义变量 NPUS_PER_NODE 。例如使用单机四卡训练Llama2-7B命令: MASTER_ADDR=localhost NNODES=1 NODE_RANK=0
描述 workspace_id 否 String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 请求参数 表3 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String
在线服务预测报错ModelArts.4302 在线服务预测报错ModelArts.4206 在线服务预测报错ModelArts.4503 当使用推理的镜像并且出现MR.XXXX类型的错误时,表示已进入模型服务,一般是模型推理代码编写有问题。 请根据构建日志报错信息,定位服务预测失败
ResourceQuota 参数 参数类型 描述 type String 资源类型。 quota String 资源配额上限。 used String 已使用配额。 状态码: 404 表5 响应Body参数 参数 参数类型 描述 error_code String ModelArts错误码。 error_msg
存储到OBS中的数据需在OBS控制台进行手动删除。如果未删除,则会按照OBS的计费规则进行持续计费。 按需计费 包年/包月 创建桶不收取费用,按实际使用的存储容量和时长收费 计费示例 示例:存储费用 假设用户于2023年4月1日10:00将创建模型需用到的模型包文件上传至OBS桶中。按照存储费用结算,那么创建的费用计算如下:
sh scripts/llama2/0_pl_pretrain_13b.sh 注意:如果单机运行需要指定使用NPU卡的数量,可提前定义变量 NPUS_PER_NODE 。例如使用单机四卡训练Llama2-7B命令: MASTER_ADDR=localhost NNODES=1 NODE_RANK=0
sh scripts/llama2/0_pl_pretrain_13b.sh 注意:如果单机运行需要指定使用NPU卡的数量,可提前定义变量 NPUS_PER_NODE 。例如使用单机四卡训练Llama2-7B命令: MASTER_ADDR=localhost NNODES=1 NODE_RANK=0
error_code String ModelArts错误码。 error_msg String 具体错误信息。 请求示例 为指定服务添加标签。设置TMS标签的key为“test”和“model_version”,TMS标签的value为“service-gpu”和“0.1”。 htt
数据集输出位置,用于存放输出的标注信息等文件。 格式为 “/桶名称/文件路径”,例如“/obs-bucket/flower/rose/”(使用目录作为路径)。 不能直接使用桶作为路径。 输出位置不能与输入位置相同或者是输入位置的子目录。 长度限制:不少于3字符,不能超过700个字符。 字符限制:
“数据集输出位置”,指在ModelArts完成数据标注后,执行数据集发布操作后,在此指定路径下,按数据集版本,生成相关目录。包含ModelArts中使用的Manifest文件(包含数据及标注信息)。详细文件说明可参见数据集发布后,相关文件的目录结构说明。 查看步骤 在ModelArts管理控制台,进入“数据管理>数据集”。
空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 os.modelarts/name String 用户指定的pool名称。 os.modelarts/resource.id String 资源池的主资源id,通常提供给cbc使用。 os.modelarts/tenant
Boolean 是否通过图片色彩来聚类。 inf_cluster_id 否 String 专属集群ID,默认为空,不使用专属集群;使用专属集群部署服务时需确保集群状态正常;配置此参数后,则使用集群的网络配置,vpc_id参数不生效。 inf_config_list 否 Array of InfConfig
@modelarts:from_type 否 String 内置属性:三元组关系标签的起始实体类型,创建关系标签时必须指定,该参数仅文本三元组数据集使用。 @modelarts:rename_to 否 String 内置属性:重命名后的标签名。 @modelarts:shortcut 否 String
@modelarts:from_type 否 String 内置属性:三元组关系标签的起始实体类型,创建关系标签时必须指定,该参数仅文本三元组数据集使用。 @modelarts:rename_to 否 String 内置属性:重命名后的标签名。 @modelarts:shortcut 否 String
@modelarts:from_type 否 String 内置属性:三元组关系标签的起始实体类型,创建关系标签时必须指定,该参数仅文本三元组数据集使用。 @modelarts:rename_to 否 String 内置属性:重命名后的标签名。 @modelarts:shortcut 否 String
将此压缩后的文件上传至OBS。 训练时,可直接从OBS下载此压缩文件至/cache目录。此操作仅需执行一次,无需训练过程反复与OBS交互导致训练效率低。 如下示例,可使用mox.file.copy_parallel将zip文件下载至本地/cache目录并解压,然后再读取做训练。 1 2 3 4 5
可能是内存溢出造成的。请减少数据量、减少batch_size,优化代码,合理聚合、复制数据。 请注意,数据文件大小不等于内存占用大小,需仔细评估内存使用情况。 退出码139 请排查安装包的版本,可能存在包冲突的问题。 排查办法 根据错误信息判断,报错原因来源于用户代码。 您可以通过以下两种方式排查:
前支持“按节点比例”和“按实例数量”两种滚动方式。 按节点比例:每批次驱动升级的实例数量为“节点比例*资源池实例总数”。 按实例数量:可以设置每批次驱动升级的实例数量。 对于不同的升级方式,滚动升级选择实例的策略会不同: 如果升级方式为安全升级,则根据滚动节点数量选择无业务的节点,隔离节点并滚动升级。
数据约束条件。 value 否 Map<String,Object> 数据的值。 used_steps 否 Array of strings 使用了这条数据的工作流节点。 delay 否 Boolean 延时参数标记。 表4 Constraint 参数 是否必选 参数类型 描述 attribute