检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建训练作业时出现“实例挂卷失败”的事件 问题现象 训练作业的状态一直在“创建中”,查看训练作业的“事件”,有异常信息“实例挂卷失败”,详情为“Unable to mount volumes for pod xxx ... list of unmounted volumes=[nfs-x]”。
很多自定义的业务逻辑,这些逻辑有问题将会导致服务部署或者预测失败,需要能够排查出哪里有问题。 处理方法 服务部署失败后,进入服务详情界面,查看服务部署日志,明确服务部署失败原因(用户代码输出需要使用标准输入输出函数,否则输出的内容不会呈现到前端页面日志)。根据日志中提示的报错信息找到对应的代码进行定位。
查看Workflow工作流运行记录 运行记录是展示某条工作流所有运行状态数据的地方。 在Workflow列表页,单击某条工作流的名称,进入该工作流的详情页面。 在工作流的详情页,左侧区域即为该条工作流的所有运行记录。 图1 查看运行记录 您可以对当前工作流的所有运行记录,进行删除、编辑以及重新运行的操作。
模型转换报错如何查看日志和定位? 通过如下的配置项打开对应的模型转换日志,可以看到更底层的报错。如配置以下的环境变量之后,再重新转换模型,导出对应的日志和dump图进行分析: 报错日志中搜到“not support onnx data type”,表示MindSpore暂不支持该算子。
GPU裸金属服务器无法Ping通如何解决 问题现象 在华为云使用GPU裸金属服务器时, 服务器绑定EIP(华为云弹性IP服务)后,出现无法ping通弹性公网IP现象。 原因分析 查看当前GPU裸金属服务器的安全组的入方向规则的配置,发现仅开通了TCP协议的22端口。 ping命令是一种基于ICMP协议(Internet
sample/sec: 12.298 loss: 0.000 由于当前不支持更改loss值,您可以通过将loss的值乘以1000来规避此问题。 父主题: 查看作业详情
登录ModelArts管理控制台,在左侧导航栏中选择“模型训练 > 训练作业”,进入“训练作业”列表。 在训练作业列表中,单击目标训练作业名称,查看该作业的详情。 在左侧获取“输出位置”下的路径,即为训练模型的下载路径。 模型迁移到其他账号 您可以通过如下两种方式将训练的模型迁移到其他账号。
Connection refused”如何解决? 问题现象 原因分析 网络不通;端口不通。 解决方法 检查实例是否运行。 请前往ModelArts控制台查看实例是否处于运行状态,如果实例已停止,请执行启动操作,如果实例处于其他状态比如“错误”,请尝试先执行停止然后执行启动操作。待实例变为“运行中”后,再次执行远程连接。
ModelArts”。 查看监控图表。 查看在线服务监控图表:单击目标在线服务“操作”列的“查看监控指标”。 查看模型负载监控图标:单击目标在线服务左侧的,在下拉列表中选择模型负载“操作”列的“查看监控指标”。 在监控区域,您可以通过选择时长,查看对应时间的监控数据。 当前支持查看近1小时、近
在Windows上安装配置Grafana 适用场景 本章节适用于在Windows操作系统的PC中安装配置Grafana。 操作步骤 下载Grafana安装包。 进入下载链接,单击Download the installer,等待下载成功即可。 安装Grafana。 双击安装包,按照指示流程安装完成即可。
两个训练作业的模型都保存在容器相同的目录下是否有冲突? ModelArts训练作业之间的存储目录相互不影响,每个环境之间彼此隔离,看不到其他作业的数据。 父主题: 查看作业详情
元模型来源:选择“从容器镜像中选择” 容器镜像所在的路径:选择已制作好的自有镜像 图4 选择已制作好的自有镜像 容器调用接口:指定模型启动的协议和端口号。请确保协议和端口号与自定义镜像中提供的协议和端口号保持一致。 镜像复制:选填,选择是否将容器镜像中的模型镜像复制到ModelArts中。 健康检查:选填,用于指定
在Linux上安装配置Grafana 适用场景 本章节适用于在Linux操作系统的PC中安装配置Grafana。 前提条件 一台可访问外网的Ubuntu服务器。如果没有请具备以下条件: 准备一台ECS服务器(建议规格选8U或者以上,镜像选择Ubuntu,建议选择22.04版本,本
在Notebook上安装配置Grafana 适用场景 本章节适用于在ModelArts Standard的Notebook中安装配置Grafana。 前提条件 已创建CPU或GPU类型的Notebook实例,并处于运行中。 打开Terminal。 操作步骤 在Terminal中依
在AI Gallery订阅商品失败怎么办? AI Gallery是在ModelArts的基础上构建的开发者生态社区,提供模型、算法、HiLens技能、数据集等内容的共享。当您订阅商品失败可参照如下方式解决: 请检查您是否完成实名认证。 账号注册成功后,您需要完成“实名认证”才可以
元模型来源:选择“从容器镜像中选择” 容器镜像所在的路径:选择已制作好的自有镜像 图4 选择已制作好的自有镜像 容器调用接口:指定模型启动的协议和端口号。请确保协议和端口号与自定义镜像中提供的协议和端口号保持一致。 镜像复制:选填,选择是否将容器镜像中的模型镜像复制到ModelArts中。 健康检查:选填,用于指定
name)和帐号ID(domain_id)。获取步骤如下: 注册并登录管理控制台。 鼠标移动至用户名,在下拉列表中单击“我的凭证”。 在“API凭证”页面的查看“帐号名”和“帐号ID”。 图1 获取帐号名和ID 父主题: 公共参数
执行如下命令可在/home/ma-user/下面的README文件查看当前环境内置的Python虚拟环境。 cat /home/ma-user/README 执行source命令可以切换到具体的Python环境中。 执行which python查看python路径并复制出来,以备后续配置云上Python
常见问题 模型转换失败怎么办? 常见的模型转换失败原因可以通过查询转换失败错误码来确认具体导失败的原因,Stable Diffusion新推出的模型在转换中可能会遇到算子不支持的问题,可以到华为云管理页面上提交工单来寻求帮助。 图片大Shape性能劣化严重怎么办? 在昇腾设备上,可
配置完成后,执行“df -h”可以看到新挂载的磁盘信息。 图3 查看新挂载的磁盘 磁盘合并挂载后,即可在“/home”下创建自己的工作目录,以自己的名字命名。 (可选)安装固件和驱动。 查看环境信息。执行如下命令查看当前拿到的机器的固件和驱动版本。 npu-smi info -t