检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
常见错误原因和解决方法 显存溢出错误 网卡名称错误 保存ckpt时超时报错 父主题: 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导(6.3.908)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 保存ckpt时超时报错 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.907)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 保存ckpt时超时报错 父主题: 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.907)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 保存ckpt时超时报错 父主题: 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导(6.3.909)
billing_flavor String 计费规格。当该字段为空时,使用规格名称计费。 billing_params Integer 计费倍率。当billing_flavor不为空时,该字段必选。
“训练规格” 选择自动学习训练节点所使用的资源规格,以实际界面显示为准,将会根据不同的规格计费。 说明: 只有北京四区域支持限时免费规格。
表38 BillingInfo 参数 参数类型 描述 code String 计费码。 unit_num Integer 计费单元。
如果您购买了套餐包,可优先选择您对应规格的套餐包,在“配置费用”页签会显示您的套餐余量,以及超出的部分如何计费,请您关注,避免造成不必要的资源浪费。 节点配置 数据标注参数配置 labeling_input:选择预先创建的数据集即可,版本可以不用选择。
sku SkuInfo object 订阅计费信息。 sku_count String 订阅计数。 表31 SkuInfo 参数 参数类型 描述 code String 计费码。 period String 计费时期。 queries_limit Long 查询次数。
VS Code连接开发环境失败时的排查方法 VS Code连接开发环境失败时,请参考以下步骤进行基础排查。 网络链路检查 在ModelArts控制台查看Notebook实例状态是否正常,确保实例无问题。
获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 action_type 是 String 对训练作业的操作请求。
VS Code连接开发环境失败时的排查方法 VS Code连接开发环境失败时,请参考以下步骤进行基础排查。 网络链路检查 在ModelArts控制台查看Notebook实例状态是否正常,确保实例无问题。
charging_mode String 计费模式。 COMMON:同时支持包周期和按需 POST_PAID:按需模式 PRE_PAID:包周期 cloud_server CloudServer object 云服务信息。
训练作业运行过程中将按照选择的资源进行计费。 父主题: 使用ModelArts Standard训练模型
解决方法 在VS Code中使用命令方式进行远程连接时,增加参数"-o StrictHostKeyChecking=no" ssh -tt -o StrictHostKeyChecking=no -i ${IdentityFile} ${User}@${HostName} -p $
job_instance.update_job_configs(description="update job description fourth") 参数说明 表1 Estimator请求参数说明 参数 是否必选 参数类型 描述 session 是 Object 会话对象,初始化方法请参考
解决方法 在VS Code中使用命令方式进行远程连接时,增加参数"-o StrictHostKeyChecking=no" ssh -tt -o StrictHostKeyChecking=no -i ${IdentityFile} ${User}@${HostName} -p $
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法? 场景描述 本文指导如何进行节点内NVLINK带宽性能测试,适用的环境为:Ant8或者Ant1 GPU裸金属服务器, 且服务器中已经安装相关GPU驱动软件,以及Pytorch2.0。
log = job_instance.get_job_log(task_id="worker-0") print(log) 参数说明 表1 Estimator初始化参数说明 参数 是否必选 参数类型 描述 session 是 Object 会话对象,初始化方法请参考Session鉴权
获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 model_algorithm 否 String 模型算法,从配置文件读取,可不填。