检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Step1 创建用户组并加入用户 主用户账号下面可以创建多个子账号,并对子账号的权限进行分组管理。此步骤介绍如何创建用户组、子账号、并将子账号加入用户组中。 主用户登录管理控制台,单击右上角用户名,在下拉框中选择“统一身份认证”,进入IAM服务。 图1 统一身份认证 创建用户组。
导入数据到ModelArts数据集 处理ModelArts数据集中的数据 标注ModelArts数据集中的数据 发布ModelArts数据集中的数据版本 分析ModelArts数据集中的数据特征 导出ModelArts数据集中的数据
如果不再使用ModelArts,如何停止收费? 训练作业如何收费? 为什么项目删除完了,仍然还在计费? 欠费后,ModelArts的资源是否会被删除? 部署后的AI应用是如何收费的? Notebook中的EVS存储可以使用套餐包吗?
3567:用户只能访问自己账号下的obs目录,ModelArts在读取其他用户obs下的数据时,需要用户委托权限,没有创建委托,就没有权限使用其他用户obs中的数据。 登录ModelArts控制台,管理控制台,在左侧导航栏中选择“权限管理”,单击“查看权限”,检查是否配置了obs的委托权限。 图1
pbtxt。 原因分析 算法要求标注框为矩形标注框,提供的数据标注为非矩形,因此导致该错误发生。 处理方法 请您将数据的标注改为矩形的标注框。 建议与总结 在训练作业前,推荐您检查数据的标注是否符合算法要求(如物体检测类算法的标注框为矩形标注框)。 父主题: 预置算法运行故障
kernel,并导致实例崩溃 如何解决训练过程中出现的cudaCheckError错误? 如何处理使用opencv.imshow造成的内核崩溃? 使用Windows下生成的文本文件时报错找不到路径? 创建Notebook文件后,右上角的Kernel状态为“No Kernel”如何处理?
GPU业务迁移至昇腾训练推理 基于AIGC模型的GPU推理业务迁移至昇腾指导 GPU推理业务迁移至昇腾的通用指导 基于advisor的昇腾训练性能自助调优指导
在开发环境(notebook)申请相同规格的开发环境实例。 在notebook调试用户代码,并找出问题的代码段。 通过关键代码段 + 退出码尝试去搜索引擎寻找解决办法。, 通过训练日志排查问题 通过日志判断出问题的代码范围。 修改代码,在问题代码段添加打印,输出更详细的日志信息。 再次运行作业,判断出问题的代码段。
查询智能标注的样本列表 查询单个智能标注样本的信息 分页查询智能任务列表 启动智能任务 获取智能任务的信息 停止智能任务 查询处理任务列表 创建处理任务 查询数据处理的算法类别 查询处理任务详情 更新处理任务 删除处理任务 查询数据处理任务的版本列表 创建数据处理任务版本 查询数据处理任务的版本详情
应用示例 创建图像分类数据集并进行标注任务 创建并完成图像分类的智能标注任务 开发环境的应用示例 以PyTorch框架创建训练作业(新版训练) 创建和修改工作空间 管理ModelArts服务的委托授权
开发Workflow命令参考 开发Workflow的核心概念介绍 配置Workflow参数 配置Workflow的输入输出目录 创建Workflow节点 构建Workflow多分支运行场景 编排Workflow 发布Workflow 在Workflow中更新已部署的服务 Workflow高阶能力 父主题:
删除算法 获取支持的超参搜索算法 创建训练作业 查询训练作业详情 更新训练作业描述 删除训练作业 终止训练作业 查询训练作业指定任务的日志(预览) 查询训练作业指定任务的日志(OBS链接) 查询训练作业指定任务的运行指标 查询训练作业列表 查询超参搜索所有trial的结果 查询超参搜索某个trial的结果
用户授予OBS的系统权限。子用户的IAM权限是由其主用户设置的,如果主用户没有赋予OBS的putObjectAcl权限即会导致创建模型构建失败。 处理方法 了解ModelArts依赖的OBS权限自定义策略,请参见ModelArts依赖的OBS权限自定义策略样例。 在统一身份认证服
运行训练代码,出现dead kernel,并导致实例崩溃 如何解决训练过程中出现的cudaCheckError错误? 开发环境提示空间不足,如何解决? 如何处理使用opencv.imshow造成的内核崩溃? 使用Windows下生成的文本文件时报错找不到路径? JupyterLab中文件保存失败,如何解决?
Gallery AI Gallery的入口在哪里 在AI Gallery订阅商品失败怎么办? 在AI Gallery订阅的数据集可以在SDK中使用吗? AI Gallery支持哪些区域? AI Gallery下载数据到OBS中使用的带宽是用户自己的还是华为云的?
查看作业详情 如何查看训练作业资源占用情况? 如何访问训练作业的后台? 两个训练作业的模型都保存在容器相同的目录下是否有冲突? 训练输出的日志只保留3位有效数字,是否支持更改loss值? 训练好的模型是否可以下载或迁移到其他账号?如何获取下载路径? 父主题: Standard训练作业
xxx”的报错,可以判断是环境中没有包含用户依赖的python包。 处理方法 训练作业导入模块时日志出现前两条报错信息,处理方法如下: 首先保证被导入的module中有“__init__.py”存在,创建“module_dir”的“__init__.py”,如原因分析中的结构所示。
训练作业常用文件路径是什么? 如何安装C++的依赖库? 训练作业中如何判断文件夹是否复制完毕? 如何在训练中加载部分训练好的参数? 训练作业的启动文件如何获取训练作业中的参数? 训练作业中使用os.system('cd xxx')无法进入相应的文件夹? 训练作业如何调用shell脚本,是否可以执行
认值。 表1 预置的环境变量 环境变量 说明 NCCL_SOCKET_IFNAME 指定通信的网卡名称。 NCCL_IB_GID_INDEX 系统设置的默认值为3,表示使用RoCE v2协议。 NCCL_IB_TC 系统设置的默认值为128,表示数据包走交换机的队列4,队列4使用PFC流控机制来保证网络是无损的。
将模型部署为实时推理作业 实时推理的部署及使用流程 部署模型为在线服务 访问在线服务支持的认证方式 访问在线服务支持的访问通道 访问在线服务支持的传输协议 父主题: 使用ModelArts Standard部署模型并推理预测