检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
String 事件第一次出现时间。 lastTimestamp String 事件最后一次出现时间。 count Integer 事件连续出现次数。 reason String 事件产生的原因。 message String 事件详细信息。 状态码:400 表6 响应Body参数 参数
样本训练一次的过程。 TRAIN_ITERS SN / GBS * EPOCH 非必填。表示训练step迭代次数,根据实际需要修改。 SEED 1234 随机种子数。每次数据采样时,保持一致。 模型参数设置规定 TP张量并行 、PP流水线并行、CP context并行的参数设置:
样本训练一次的过程。 TRAIN_ITERS SN / GBS * EPOCH 非必填。表示训练step迭代次数,根据实际需要修改。 SEED 1234 随机种子数。每次数据采样时,保持一致。 模型参数设置规定 TP张量并行 、PP流水线并行、CP context并行的参数设置:
≥0 NA NA NA 读取次数 ma_node_disk_reads_completed_total 成功完成的读取总次数。 - ≥0 NA NA NA 合并读取的次数 ma_node_disk_reads_merged_total 合并读取的次数。 - ≥0 NA NA NA
样本训练一次的过程。 TRAIN_ITERS SN / GBS * EPOCH 非必填。表示训练step迭代次数,根据实际需要修改。 SEED 1234 随机种子数。每次数据采样时,保持一致。 模型参数设置规定 TP张量并行 、PP流水线并行、CP context并行的参数设置:
样本训练一次的过程。 TRAIN_ITERS SN / GBS * EPOCH 非必填。表示训练step迭代次数,根据实际需要修改。 SEED 1234 随机种子数。每次数据采样时,保持一致。 模型参数设置规定 TP张量并行 、PP流水线并行、CP context并行的参数设置:
样本训练一次的过程。 TRAIN_ITERS SN / GBS * EPOCH 非必填。表示训练step迭代次数,根据实际需要修改。 SEED 1234 随机种子数。每次数据采样时,保持一致。 SAVE_INTERVAL 10 表示训练间隔多少step,则会保存一次权重文件。 模型参数设置规定
latest_execution 否 ExecutionBrief object 最后一次执行工作流的概要信息。 run_count 否 Integer 工作流的已运行次数。 param_ready 否 Boolean 当前工作流的必选参数是否都已填完。 source 否 String 工作流来源,可选值为ai_gallery,表示工作流是从AI
检测到的其他NPU错误,通常为不可自纠正的异常,请联系技术人员支持。 发起维修流程。 NT_NPU_ECC_COUNT NPU 显存 NPU ECC次数达到维修阈值。 NPU的HBM总的多Bit Ecc隔离地址记录达到64个。 发起维修流程。 NT_NET_NTP_CHECK Runtime
latest_execution ExecutionBrief object 最后一次执行工作流的概要信息。 run_count Integer 工作流的已运行次数。 param_ready Boolean 当前工作流的必选参数是否都已填完。 source String 工作流来源,可选值为ai_gallery,表示工作流是从AI
资源类型:ModelArts支持查询的资源类型如表1所示。 资源标签:不填写标签时,表示查询所有资源,无论此资源是否有配置标签。选择相应标签查询资源,用户可以通过多个标签组合查询资源使用情况。 表1 ModelArts的资源类型 资源类型 说明 ModelArts-Notebook ModelArts
打开开关后,可以设置重启次数和是否启用无条件自动重启。 打开自动重启开关后,当由于环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力,开启此功能前请确认代码已适配断点续训,操作指导请参见设置断点续训练。 “重启次数”的取值范
自定义域名的推理请求地址,绑定域名后会返回此值。 invocation_times Number 服务的总调用次数。 failed_times Number 服务调用失败次数。 is_shared Boolean 是否是订阅的服务。 shared_count Number 订阅的服务数。
latest_execution ExecutionBrief object 最后一次执行工作流的概要信息。 run_count Integer 工作流的已运行次数。 param_ready Boolean 当前工作流的必选参数是否都已填完。 source String 工作流来源,可选值为ai_gallery,表示工作流是从AI
RL(检查方式为“HTTP请求检查”时显示)、健康检查命令(检查方式为“执行命令检查”时显示)、健康检查周期、延迟时间、超时时间、最大失败次数。 模型说明 显示创建模型时添加的模型说明文档信息。 系统运行架构 显示系统运行架构。 推理加速卡类型 显示推理加速卡类型。 表4 模型页签详情
latest_execution ExecutionBrief object 最后一次执行工作流的概要信息。 run_count Integer 工作流的已运行次数。 param_ready Boolean 当前工作流的必选参数是否都已填完。 source String 工作流来源,可选值为ai_gallery,表示工作流是从AI
no_load_rng: True # 是否加载随机数种子 train_iters: 500 # 训练迭代次数 eval_iters: 1 # 验证迭代次数 eval_interval: 300 # 验证间隔 eval_batch_size: 1 # 验证集
输入数据集中的总数据条数。 1000 迭代轮次/Epoch 训练过程中模型遍历整个数据集的次数。不同量级数据集的建议值:百量集4~8;千量集2~4;更大数量级1~2。 4 迭代步数/Iterations 计算得出的模型参数/权重更新的次数。在调优过程中,每一个Iterations会消耗32条训练数据。 参见表3
样本训练一次的过程。 TRAIN_ITERS SN / GBS * EPOCH 非必填。表示训练step迭代次数,根据实际需要修改。 SEED 1234 随机种子数。每次数据采样时,保持一致。 SAVE_INTERVAL 10 表示训练间隔多少step,则会保存一次权重文件。 模型参数设置规定
样本训练一次的过程。 TRAIN_ITERS SN / GBS * EPOCH 非必填。表示训练step迭代次数,根据实际需要修改。 SEED 1234 随机种子数。每次数据采样时,保持一致。 模型参数设置规定 TP张量并行 、PP流水线并行、CP context并行的参数设置: