检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
选择“对象存储服务OBS”或“并行文件系统PFS”作为存储位置。 选择“存储位置”:设置用于存储Notebook数据的OBS路径。如果想直接使用已有的文件或数据,可将数据提前上传至对应的OBS路径下。“存储位置”不能设置为OBS桶的根目录,需设置为对应OBS桶下的具体目录。 选择“凭据”:选择已有的凭据或
在模型转换的过程,如果出现模型转换失败,可以参考以下步骤查看日志并定位原因: 设置DEBUG日志。 设置MindSpore日志环境变量。 # shell export GLOG_v=0 # 0-DEBUG、1-INFO、2-WARNING、3-ERROR 设置CANN日志环境变量。 # shell export
String 内存。 表39 npu 参数 参数类型 描述 unit_num String npu卡数。 product_name String 产品名。 memory String 内存。 表40 memory 参数 参数类型 描述 size Integer 内存大小。 unit
String 单位。 memory Integer 内存大小。 表8 GpuInfo 参数 参数类型 描述 brand String 品牌。 version String 卡类型。 unit String 单位。 memory Integer 卡内存大小。 gpu Number GPU数。 表9
原因分析 可能原因如下: 原因1:未设置环境变量NCCL_IB_TC、NCCL_IB_GID_INDEX、NCCL_IB_TIMEOUT,因此会导致通信速度慢且不稳定,最后造成IB通信断连,偶发上述现象。 原因2:NCCL_SOCKET_IFNAME设置错误。当用户的NCCL版本低于2
operator development. The professional operator development tool MindStudio is preconfigured, only SSH connection supported.", "dev_services":
String 内存。 表39 npu 参数 参数类型 描述 unit_num String npu卡数。 product_name String 产品名。 memory String 内存。 表40 memory 参数 参数类型 描述 size Integer 内存大小。 unit
在ModelArts中物体检测标注时能否自定义标签? 可以通过修改数据集给标签添加自定义属性来设置一些自定义的属性。 图1 修改数据集 父主题: Standard数据准备
Data项中输入性能数据所在的Notebook本地或OBS路径,单击Submit按钮。界面参考下图。 图6 对比两份性能数据 性能诊断插件支持设置高级参数,当前支持的高级参数列表如下表所示。 表1 高级参数介绍 序号 键 默认值 是否必填 说明 1 cann_version 8.0.RC1
CLI配置工具包(云服务器) 如果是在ModelArts Lite等云服务器安装Gallery CLI配置工具,则参考本节将工具包下载至云服务器。 登录AI Gallery,单击右上角“我的Gallery”进入我的Gallery页面。 左侧菜单栏选择“我的资源 > 云服务器”,单击专属资源池页签进入云服务详情页面。
训练作业运行失败,出现NCCL报错 自定义镜像训练作业失败定位思路 使用自定义镜像创建的训练作业一直处于运行中 使用自定义镜像创建训练作业找不到启动文件 训练作业的监控内存指标持续升高直至作业失败 订阅算法物体检测YOLOv3_ResNet18(Ascend)训练失败报错label_map.pbtxt cannot
配置ModelArts授权。若没有授权,ModelArts训练管理、开发环境、数据管理、在线服务等功能将不能正常使用。该API支持管理员给IAM子用户设置委托,支持设置当前用户的访问密钥。调用该API需要在IAM系统里配置Security Administrator权限。 调试 您可以在API Ex
描述 total_count Integer 不分页的情况下符合查询条件的总集群数量。 count Integer 当前查询结果的集群数量,不设置offset、limit查询参数时,count与total相同。 clusters Array of Cluster objects 查询到的集群列表。
8中会出现的情况,该日志是Info级别的,并不是错误信息,可以通过设置环境变量来屏蔽INFO级别的日志信息。环境变量的设置一定要在import tensorflow或者import moxing之前。 处理方法 您需要通过在代码中设置环境变量“TF_CPP_MIN_LOG_LEVEL”来屏
I的输入输出提示用户进行重点关注。使用步骤如下: 通过pip安装msprobe工具。 # shell pip install mindstudio-probe 获取NPU和标杆的dump数据。 PyTorch训练脚本插入dump接口方式如下: from msprobe.pytorch
Boolean 是否为免费规格。 gpu GPUInfo object GPU信息。 id String 规格ID。 memory Long 内存大小。 name String 规格名称。 sold_out Boolean 资源是否充足。 true 资源不足 false 资源充足 storages
ode耗尽的情况,导致空间不足。 请排查是否使用的是GPU资源。如果使用的是CPU规格的资源,“/cache”与代码目录共用10G,会造成内存不足,请更改为使用GPU资源。 请在代码中添加环境变量来解决。 import os os.system('export TMPDIR=/cache')
(此参数目前仅适用于Llama3系列模型长序列训练) LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 TRAIN_ITERS 100 表示训练step迭代次数,根据实际需要修改。
节点的CPU、GPU、NPU资源使用情况。具体请参见训练资源监控章节。 在线服务:用户将模型部署为在线服务后,可以通过监控功能查看CPU、内存、GPU等资源使用统计信息和模型调用次数统计,具体参见查看服务详情章节。 父主题: ModelArts Standard资源监控
Administrator 裸金属服务器BMS BMS FullAccess 镜像服务IMS IMS FullAccess 数据加密服务DEW DEW KeypairReadOnlyAccess 虚拟私有云VPC VPC FullAccess 弹性云服务器ECS ECS FullAccess