检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
无法导入模块 训练作业日志中提示“No module named .*” 如何安装第三方包,安装报错的处理方法 下载代码目录失败 训练作业日志中提示“No such file or directory” 训练过程中无法找到so文件 ModelArts训练作业无法解析参数,日志报错 训练输出路径被其他作业使用
数据准备与处理 数据准备使用流程 创建ModelArts数据集 导入数据到ModelArts数据集 处理ModelArts数据集中的数据 标注ModelArts数据集中的数据 发布ModelArts数据集中的数据版本 分析ModelArts数据集中的数据特征 导出ModelArts数据集中的数据
file.copy_parallel(local_output_path, args.train_url) 新版训练中,用户配置输入输出数据,无需书写下载数据的代码,在代码中把arg.data_url和arg.train_url当做本地路径即可,详情参考开发自定义脚本。 #解析命令行参数
资源池”页面。 在资源池列表中,选择需要进行驱动升级的资源池,在右侧的操作列,单击“ > 驱动升级”。 在“驱动升级”弹窗中,会显示当前专属资源池的驱动类型、实例数量、当前版本、目标版本、升级方式、升级范围和开启滚动开关。 目标版本:在目标版本下拉框中,选择一个目标驱动版本。对于
大幅度降低了模型开发门槛。 充足澎湃算力,最佳实践算力推荐方案,提升实践效率和成本 AI Gallery深谙开发者在人工智能项目推进过程中面临的实际困难,尤其是高昂的模型训练与部署成本,这往往成为创意落地的阻碍。通过大量开发者实践,针对主流昇腾云开源大模型,沉淀最佳的算力组合方
查看资源池列表。 在资源池列表中,选择需要进行驱动升级的资源池“ > 驱动升级”。 图1 驱动升级 在“驱动升级”弹窗中,会显示当前专属资源池的驱动类型、实例数、当前版本、目标版本、升级方式、升级范围和开启滚动开关。 目标版本:在目标版本下拉框中,选择一个目标驱动版本。 升级方式:可选择安全升级或强制升级。
ices_out_cuda_frame failed with error code 0” 训练作业失败,返回错误码139 训练作业失败,如何使用开发环境调试训练代码? 日志提示“ '(slice(0, 13184, None), slice(None, None, None))'
训练作业模型总准确率。 表13 volumes属性列表 参数 参数类型 说明 nfs object 共享文件系统类型的存储卷。仅支持运行于已联通共享文件系统网络的资源池的训练作业。具体请参见表14。 host_path object 主机文件系统类型的存储卷。仅支持运行于专属资源池中的训练作业。具体请参见表15。
后并放入coco文件夹中。 下载完成后,将数据上传至SFS相应目录中。由于数据集过大,推荐先通过obsutil工具将数据集传到OBS桶后,再将数据集迁移至SFS。 在本机机器上运行,通过obsutil工具将本地数据集传到OBS桶。 # 将本地数据传至OBS中 # ./obsutil
查询工作空间详情 功能介绍 查询工作空间详情。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/workspaces/{workspace_id}
启动推理服务 配置需要使用的NPU卡为容器中的第几张卡。例如:实际使用的是容器中第1张卡,此处填写“0”。 export ASCEND_RT_VISIBLE_DEVICES=0 如果启动服务需要使用多张卡,则按容器中的卡号依次编排。例如:实际使用的是容器中第1张和第2张卡,此处填写为“0,1”,以此类推。
安装nerdctl工具。nerdctl是containerd的一个客户端命令行工具,使用方式和docker命令基本一致,可用于后续镜像构建步骤中。 # 下载 nerdctl 工具,注意使用的是1.7.6 arm64版本 wget https://github.com/containe
重不同的训练场景,可以定位模型训练中的精度问题。 精度预检工具旨在计算单个API在整网计算中和标杆场景下的差异,对于无明确精度差异来源情况或者对模型了解不多的情形下都推荐使用预检工具,检查第一个步骤或Loss明显出现问题的步骤。它可以抓取模型中API输入的数值范围,根据范围随机生
发布数据 在AI Gallery中,您可以将个人数据集分享给他人使用。 ModelArts数据管理模块在重构升级中,对未使用过数据管理的用户不可见。建议新用户选择发布OBS或本地的数据集。 前提条件 本地或对象存储服务(OBS)中已准备好待发布的数据集,或ModelArts的数据集列表存在待发布的数据集。
retrying”,则表示NCCL无法找到通信网卡或者是无法正常访问IP地址。需要排查训练代码中是否有设置NCCL_SOCKET_IFNAME环境变量,该环境变量由系统自动注入,训练代码中无需设置。训练代码去除NCCL_SOCKET_IFNAME环境变量设置逻辑后,单击右侧“重建”
source_type_header 否 String 指定导出标注文件中的OBS路径前缀,默认为“obs://”,支持指定“s3://”。由于训练无法解析以“obs”开头图片路径,需要导出manifest中的路径前缀为“s3://”。 status 否 Integer 任务状态。
只有处于“运行中”状态的Notebook,才可以执行打开、停止操作。 一个账户最多创建10个Notebook。 创建Notebook实例 注册镜像。登录ModelArts控制台,在左侧导航栏选择“镜像管理”,进入镜像管理页面。单击“注册镜像”,镜像源即为推送到SWR中的镜像。请将完
专属资源池的费用请参考专属资源池计费项。 - - 存储资源 对象存储OBS 用于存储训练和推理的输入数据和输出结果数据。 具体费用可参见对象存储价格详情。 注意: 存储到OBS中的数据需在OBS控制台进行手动删除。如果未删除,则会按照OBS的计费规则进行持续计费。 按需计费 包年/包月 创建桶不收取费用,按实际使用的存储容量和时长收费
kubectl describe pod ${pod_name} volcano资源调度失败 当volcano的资源出现争抢时,会出现下图中的问题。 解决方法: 通过打印所有Pod的信息,并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide
kubectl describe pod ${pod_name} volcano资源调度失败 当volcano的资源出现争抢时,会出现下图中的问题。 解决方法: 通过打印所有Pod的信息,并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide