检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
trypoint中指定的执行命令内容不在镜像中预置,在本地环境通过docker run启动通过Notebook保存的镜像,报错创建容器任务失败,启动文件或目录不存在,如图2。 因此需要设置--entrypoint参数,覆盖Entrypoint中指定的程序。使用--entrypoi
配额不足:查看账户的资源配额是否满足,若该账号下资源配额,包括核心数、RAM等,如果未满足也会导致创建失败,需要申请配额后再进行购买。 BMS机器内部错误:查看BMS界面,创建失败出现内部错误,该问题需要提工单给BMS进行进一步定位失败原因并解决。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,
导致该容器实例崩溃。 出现此问题后,系统将自动重启Notebook,来修复实例崩溃的问题。此时只是解决了崩溃问题,如果重新运行训练代码仍将失败。 如果您需要解决“内存不够”的问题,建议您创建一个新的Notebook,使用更高规格的资源池,比如专属资源池来运行此训练代码。 已经创建
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” 问题现象 训练作业失败,日志报出如下错误: RuntimeError: cuda runtime error (10) : invalid device ordinal
下图中有四个场景,其中场景四为正常训练作业失败场景,其他三个场景下可开启容错功能进行训练作业自动恢复。 场景一:环境预检测失败、硬件检测出现故障,系统隔离所有故障节点并重新下发训练作业。 图1 预检失败&硬件故障 场景二:环境预检测失败、硬件无故障,系统随机再分配节点并重新下发训练作业。 图2 预检失败&硬件正常
分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50GB,只有默认的10GB,导致作业训练失败。 实际存储空间足够,却依旧报错“No Space left on device”。 同一目录下创建较多文件,为了加快文件检索速度,内核会
磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50G,只有默认的10GB,导致作业训练失败。 实际存储空间足够,却依旧报错“No Space left on device”。 同一目录下创建较多文件,为了加快文件检索速度,内核会
查询数据集详情 查询数据集的详细信息,包括数据集的样本信息、版本信息等。 dataset.get_dataset_info() 示例代码 查询数据集详情 from modelarts.session import Session from modelarts.dataset import
在创建自动学习项目页面,参考表1填写相应参数。 表1 参数说明 参数 说明 “名称” 项目的名称。 名称只能包含数字、字母、下划线和中划线,长度不能超过64位且不能为空。 名称请以字母开头。 名称不允许重复。 “描述” 对项目的简要描述。 “数据集” 可在右侧下拉框选择已有数据集,或单击“创建数据集”前往新建数据集。
需计费”,参考表1填写相应参数。 表1 参数说明 参数 说明 “名称” 项目的名称。 名称只能包含数字、字母、下划线和中划线,长度不能超过64位且不能为空。 名称请以字母开头。 名称不允许重复。 “描述” 对项目的简要描述。 “数据集” 可在右侧下拉框选择已有数据集,或单击“创建数据集”前往新建数据集。
基于AIGC模型的GPU推理业务迁移至昇腾指导 场景介绍 迁移环境准备 pipeline应用准备 应用迁移 迁移效果校验 模型精度调优 性能调优 常见问题 父主题: GPU业务迁移至昇腾训练推理
GPU推理业务迁移至昇腾的通用指导 简介 昇腾迁移快速入门案例 迁移评估 环境准备 模型适配 精度校验 性能调优 迁移过程使用工具概览 常见问题 推理业务迁移评估表 父主题: GPU业务迁移至昇腾训练推理
更新数据集 功能介绍 修改数据集的基本信息,如数据集名称、描述、当前版本或标签等信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI PUT /v2/{projec
训练日志定义 训练日志用于记录训练作业运行过程和异常信息,为快速定位作业运行中出现的问题提供详细信息。用户代码中的标准输出、标准错误信息会在训练日志中呈现。在ModelArts中训练作业遇到问题时,可首先查看日志,多数场景下的问题可以通过日志报错信息直接定位。 训练日志包括普通训练日志和Ascend相关日志。
在创建自动学习项目页面,参考表1填写相应参数。 表1 参数说明 参数 说明 “名称” 项目的名称。 名称只能包含数字、字母、下划线和中划线,长度不能超过64位且不能为空。 名称请以字母开头。 名称不允许重复。 “描述” 对项目的简要描述。 “数据集” 可在右侧下拉框选择已有数据集,或单击“创建数据集”前往新建数据集。
需计费”,参考表1填写相应参数。 表1 参数说明 参数 说明 “名称” 项目的名称。 名称只能包含数字、字母、下划线和中划线,长度不能超过64位且不能为空。 名称请以字母开头。 名称不允许重复。 “描述” 对项目的简要描述。 “数据集” 可在右侧下拉框选择已有数据集,或单击“创建数据集”前往新建数据集。
处理ModelArts数据集中的数据 数据处理场景介绍 创建ModelArts数据校验任务 创建ModelArts数据清洗任务 创建ModelArts数据选择任务 创建ModelArts数据增强任务 管理和查看数据处理任务 父主题: 数据准备与处理
对于已部署的服务,您可以修改服务的基本信息以匹配业务变化,更换模型的版本号,实现服务升级。 您可以通过如下两种方式修改服务的基本信息: 方式一:通过服务管理页面修改服务信息 方式二:通过服务详情页面修改服务信息 前提条件 服务已部署成功,“部署中”的服务不支持修改服务信息进行升级。 约束限制 服
对于已部署的服务,您可以修改服务的基本信息以匹配业务变化,更换模型的版本号,实现服务升级。 您可以通过如下两种方式修改服务的基本信息: 方式一:通过服务管理页面修改服务信息 方式二:通过服务详情页面修改服务信息 前提条件 服务已部署成功,“部署中”的服务不支持修改服务信息进行升级。 约束限制 服
“数据处理”是指从大量的、杂乱无章的、难以理解的数据中抽取或者生成对某些特定的人们来说是有价值、有意义的数据。“数据处理”又分为“数据校验”、“数据清洗”、“数据选择”和“数据增强”四类。 “数据校验”表示对数据集进行校验,保证数据合法。 “数据清洗”表示对数据进行去噪、纠错或补全的过程。 “数据选择”表示从全量数据中选择数据子集的过程。