检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
-hT命令查看空间大小,排查是否因空间不足导致,可在创建Notebook时使用EVS挂载。 如果代码写作正确,仍然无法解决该问题,请提交工单,由专业工程师为您分析并解决问题。 父主题: MoXing
"error_message": "Error string", "error_code": "ModelArts.0105" } 状态码 状态码请参见状态码。 父主题: 训练作业
没有这个库。 原因分析 客户创建了多个虚拟环境,numba库安装在了python-3.7.10中,如图1所示。 图1 查询创建的虚拟环境 解决方案 在Terminal中执行conda deactivate命令退出当前虚拟环境,默认进入base环境。执行pip list命令查询已安
Cluster资源池如何进行NCCl Test? ModelArts提供AI诊断功能,用户可以通过NCCl Test,测试节点GPU状态,并且测试多个节点间的通信速度。 操作步骤 单击资源池名称,进入资源池详情。 单击左侧“AI组件管理 > AI诊断”。 单击“诊断”,选择“日志上传路径”和NCCL
清除资源:运行完成后,停止服务并删除OBS中的数据,避免不必要的扣费。 准备工作 已注册华为账号并开通华为云,且在使用ModelArts前检查账号状态,账号不能处于欠费或冻结状态。 配置委托访问授权 ModelArts使用过程中涉及到OBS、SWR、IEF等服务交互,首次使用ModelArts需要用户配置委托授权,允许访问这些依赖服务。
空间>Notebook”页面,打开“查看所有”开关,可以看到IAM项目下所有子账号创建的Notebook实例。 按实例名称、实例ID、实例状态、使用的镜像、实例规格、实例描述、创建时间等单个筛选或组合筛选。 给子账号配置查看所有Notebook实例的权限 当子账号被授予“list
通过使用解析方式args, unparsed = parser.parse_known_args()代替args = parser.parse_args()解决该问题。代码示例如下: import argparse parser = argparse.ArgumentParser() parser
创建训练作业时出现“实例挂卷失败”的事件 问题现象 训练作业的状态一直在“创建中”,查看训练作业的“事件”,有异常信息“实例挂卷失败”,详情为“Unable to mount volumes for pod xxx ... list of unmounted volumes=[nfs-x]”。
空间>Notebook”页面,打开“查看所有”开关,可以看到IAM项目下所有子账号创建的Notebook实例。 按实例名称、实例ID、实例状态、使用的镜像、实例规格、实例描述、创建时间等单个筛选或组合筛选。 给子账号配置查看所有Notebook实例的权限 当子账号被授予“list
"error_message": "Error string", "error_code": "ModelArts.0105" } 状态码 状态码请参见表1。 父主题: 训练作业参数配置
1671786468811, "visibility" : "PRIVATE", "workspace_id" : "0" } 状态码 状态码 描述 200 OK 201 Created 401 Unauthorized 403 Forbidden 404 Not Found
如果代码中涉及文件绝对路径,由于Notebook调试与训练作业环境不同,可能会导致文件绝对路径不一致,需要修改代码内容。推荐使用软链接的方式解决该问题,用户只需提前建立好软链接,代码中的地址可保持不变。 新建软链接: # ln -s 源目录/文件 目标目录/文件 # 例如 ln -s
命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的
命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的
"error_message": "Illegal name: %%123", "error_code": "ModelArts.0104" } 状态码 状态码请参见表1。 父主题: 可视化作业
user_password为用户登录密码。 domain_name为用户所属的帐号名。 cn-north-1为项目名,代表服务的部署区域。 返回状态码“201 Created”,在响应Header中获取“X-Subject-Token”的值即为Token,如下所示: x-subject-token
关联异常 图2 报错提示 问题现象2 网络操作解除关联SFS Turbo后状态仍显示已关联且无报错信息,而解除关联按钮置灰不可操作。同时该网络的解除关联SFS Turbo按钮置灰不可操作。 图3 关联SFS Turbo状态 原因分析 ModelArts缺少SFS Turbo委托权限导致关联或解除关联失败。
断点续训(Checkpointing)和故障快恢都是指训练中断后可从训练中一定间隔(${save-interval})保存的模型(包括模型参数、优化器状态、训练迭代次数等)继续训练恢复,而不需要从头开始。 不同点 断点续训:可指定加载训练过程中生成的Megatron格式权重(${user_c
断点续训(Checkpointing)和故障快恢都是指训练中断后可从训练中一定间隔(${save-interval})保存的模型(包括模型参数、优化器状态、训练迭代次数等)继续训练恢复,而不需要从头开始。 不同点 断点续训:可指定加载训练过程中生成的Megatron格式权重(${user_c
此类客户提供了自助Lite Cluster资源池升级节点GPU/Ascend驱动的能力。 约束限制 Lite Cluster资源池节点驱动状态处于运行中,且专属池中的节点需要含有GPU/Ascend资源。 节点驱动升级操作 登录ModelArts管理控制台,在左侧菜单栏中选择“AI专属资源池