检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过CloudShell登录到Linux工作页面,检查GPU工作情况: 通过输入“nvidia-smi”命令,查看GPU工作是否异常。 通过输入“nvidia-smi -q -d TEMPERATURE”命令, 查看TEMP参数是否存在异常, 如果温度过高,会导致训练性能下降。 父主题: 训练作业性能问题
处理方法1 在ModelArts管理控制台,选择“权限管理”。 在用户名对应的“授权内容”列,单击“查看权限”,确认用户的委托权限是否已包含Tenant Administrator。 图1 查看委托权限详情 是,重新“启动”边缘服务,如果还是“异常”则联系技术支持处理。 否,执行下一步,给用户添加委托权限。
下线Region:华为云全部Region。 下线影响 ModelArts自动学习-文本分类正式下线后,所有用户将无法使用自动学习的文本分类功能创建项目,但仍可查看历史使用文本分类功能创建的作业。 如您有任何问题,可随时通过工单或者服务热线(+86-4000-955-988或+86-950808)与我们联系。
请使用正确的密钥文件进行远程访问,如果本地没有正确的密钥文件或文件已损坏,可以尝试: 登录控制台,搜索“数据加密服务 DEW”,选择“密钥对管理 > 账号密钥对”页签,查看并下载正确的密钥文件。 如果密钥不支持下载且已无法找到之前下载的密钥,建议创建新的开发环境实例并创建新的密钥文件。 父主题: VS Code连接开发环境失败故障处理
ia-driver版本号保持一致,可参考安装nvidia-fabricmanager方法。 NCCL必须和CUDA版本相匹配,可单击此处可查看配套关系和安装方法。 使用该裸金属服务器制作自定义镜像时, 必须清除残留文件,请参考清理文件。 父主题: Lite Server
在AI应用详情页,选择“设置”页签。 在“环境变量管理”处,可以查看、新增、修改、删除环境变量。 最多支持创建100个环境变量。变量名称不可重复,只能由下划线、字母与数字组成且不能以数字开头。 查看环境变量的值:单击,可以查看当前环境变量的值。 新增环境变量:单击“新增”,在编辑环境变
的输入路径或输出路径。 图1 导出到OBS 数据导出成功后,您可以前往您设置的保存路径,查看到存储的数据。 在“数据集概览页”,单击右上角“导出历史”,在弹出的“任务历史”对话框中,可以查看该数据集之前的导出任务历史。 图2 任务历史 父主题: 导出ModelArts数据集中的数据
数据集导入相关的配置信息。 是 ImportDataInfo title title信息,主要用于前端的名称展示。 否 str description 数据集导入节点的描述信息。 否 str policy 节点执行的policy。 否 StepPolicy depend_steps
-Console查看相关任务。 团队标注任务创建成功后,团队成员收到标注任务的邮件。 图5 任务邮件 单击任务邮件中的标注任务地址,跳转至ModelArts控制台的“数据准备>数据标注 > 我参与的”页面。如果未登录控制台,请先登录。 在“我参与的”页签下,可查看您的标注任务。 图6
er服务可以使单节点GPU卡间互联,在多卡GPU机器上,出现这种问题可能是nvidia-fabricmanger异常导致。 执行以下命令,查看NVIDIA和CUDA的版本,以及nvidia-fabricmanager的状态。 systemctl status nvidia-fabricmanager
增量训练 分布式训练 训练加速 训练高可靠性 查看训练结果和日志 查看训练作业详情 训练作业运行中或运行结束后,可以在训练作业详情页面查看训练作业的参数设置,训练作业事件等。 查看训练作业日志 训练日志用于记录训练作业运行过程和异常信息,可以通过查看训练作业日志定位作业运行中出现的问题。
将在1~10分钟内完成;成功的任务可单击Report列的View链接查看详细的诊断报告,如下图所示,失败的任务可将鼠标放到Failed字段上,将弹出具体的失败原因。诊断报告详细介绍请查看查看诊断报告。 图9 查看性能诊断报告 Report页面将每隔5s自动刷新一次。 父主题: 基
图1 续费 查看Lite Cluster资源池基本信息 在ModelArts管理控制台的左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”,进入Lite资源池列表页中,单击Lite Cluster资源池名称,可以进入到Lite Cluster资源池详情页中查看更多信息。
容器中挂载存储有多种方式,不同的场景下推荐的存储方式不一样,详情如表1所示。容器存储的基础知识了解请参见存储基础知识,有助您理解本章节内容。您可查看数据盘空间分配说明,了解节点数据盘空间分配的情况,以便您根据业务实际情况配置数据盘大小。 表1 容器挂载存储的方式及差异 容器挂载存储的方式
欠费原因 已购买资源包,但使用量超出资源包额度或资源包属性与桶属性不匹配,进而产生按需费用,同时账户中的余额不足以抵扣产生的按需费用。请参考如何查看ModelArts中正在收费的作业?识别产生按需计费的原因,并重新选择正确的资源包或保证账户中的余额充足。 未购买资源包,在按需计费模式下账户的余额不足。
容器提供的健康检查接口调用失败。容器健康检查接口调用失败,原因可能有两种: 镜像健康检查配置问题 模型健康检查配置问题 解决方法 根据容器日志进行排查,查看健康检查接口失败的具体原因。 镜像健康检查配置问题,需修复代码后重新制作镜像创建模型后部署服务。了解镜像健康接口配置请参考模型配置文件编写说明中health参数说明。
服务状态一直处于“部署中” 问题现象 服务状态一直处于“部署中”,查看模型日志未发现服务有明显错误。 原因分析 一般情况都是模型的端口配置有问题。建议您首先检查创建模型的端口是否正确。 处理方法 模型的端口没有配置,如您在自定义镜像配置文件中修改了端口号,需要在部署模型时,配置对应的端口号,使新的模型重新部署服务。
est格式存储在“数据集输出位置”对应的OBS路径下。 路径获取方式: 在ModelArts管理控制台,进入“数据管理>数据集”。 选择需查看数据集,单击名称左侧小三角,展开数据集详情。可获得“数据集输出位置”指定的OBS路径。 进入OBS管理控制台,根据上述步骤获得的路径,找到
登录ModelArts管理控制台,在左侧导航栏中选择“模型训练 > 训练作业”,进入“训练作业”列表。 在训练作业列表中,单击目标训练作业名称,查看该作业的详情。 在左侧获取“输出位置”下的路径,即为训练模型的下载路径。 模型迁移到其他账号 您可以通过如下两种方式将训练的模型迁移到其他账号。
MindStudio-Insight性能可视化工具使用指导 对于高阶的调优用户,可以使用可视化工具MindStudio Insight查看profiling数据详情并分析可优化点,其提供了丰富的调优分析手段,可视化呈现真实软硬件运行数据,多维度分析性能瓶颈点,支持百卡、千卡及以上