检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建训练作业时,提示ModelArts.2763 : 选择的支持实例无效,请检查请求中信息的合法性。 原因分析 用户选择的训练规格资源和算法不匹配。 例如:算法支持的是GPU规格,创建训练作业时选择了ASCEND规格的资源类型。 处理方法 查看算法代码中设置的训练资源规格。 检查创建训练作业时所选的资源规
Notebook”,在Notebook实例列表里找到对应的实例,选择“更多 > 保存镜像”。 在保存镜像对话框中,设置组织、镜像名称、镜像版本和描述信息。单击“确定”保存镜像。 镜像会以快照的形式保存,保存过程约5分钟,请耐心等待。此时不可再操作实例。 镜像保存成功后,实例状态变为“运行中”,重启Notebook实例。
ModelArts”。 查看监控图表。 查看在线服务监控图表:单击目标在线服务“操作”列的“查看监控指标”。 查看模型负载监控图标:单击目标在线服务左侧的,在下拉列表中选择模型负载“操作”列的“查看监控指标”。 在监控区域,您可以通过选择时长,查看对应时间的监控数据。 当前支持查看近1小时、近
创建Notebook失败,查看事件显示JupyterProcessKilled 问题现象 创建Notebook失败,查看事件显示JupyterProcessKilled。 图1 查看事件 原因分析 出现此故障是因为Jupyter进程被清理掉了,一般情况Notebook会自动重启的
使用Grafana查看AOM中的监控指标 安装配置Grafana 配置Grafana数据源 配置仪表盘查看指标数据 父主题: ModelArts Standard资源监控
数据集”,进入数据页面,该页面展示了所有共享的数据集。 搜索业务所需的数据集,请参见查找和收藏资产。 单击目标数据集进入详情页面。 在详情页面可以查看数据集的“描述”、“预览”、“限制”、“版本”和“评论”等信息。 在详情页面单击“下载”。弹出“选择云服务区域”,选择区域后单击“确定”进
(包含数据及标注信息)。详细文件说明可参见数据集发布后,相关文件的目录结构说明。 查看步骤 在ModelArts管理控制台,进入“数据管理>数据集”。 选择需查看数据集,单击名称左侧小三角,展开数据集详情。可获得“数据集输出位置”指定的OBS路径。 获取标注信息前,需确保数据集已发布,至少有一个以上数据集版本。
在ModelArts中如何将标注结果下载至本地? ModelArts数据集中的标注信息和数据在发布后,将以manifest格式存储在“数据集输出位置”对应的OBS路径下。 路径获取方式: 在ModelArts管理控制台,进入“数据管理>数据集”。 选择需查看数据集,单击名称左侧小三角,展开数据集详情。可获得“数据集输出位置”指定的OBS路径。
流水账单”中,“消费时间”即按需产品的实际使用时间。 查看自动学习和Workflow的账单 自动学习和Workflow运行时,在进行训练作业和部署服务时,会产生不同的账单。 训练作业产生的账单可参考查看训练作业的账单查询。 部署服务产生的账单可参考查看在线服务的账单查询。 查看Notebook的账单 登录
Pod状态为Pending 当Pod状态长时间为“Pending”,事件中出现“实例调度失败”的信息时,可根据具体事件信息确定具体问题原因。 图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败
conf //hccn.conf配置挂载 进入容器,并查看卡信息。 docker exec -it xxxxxxx bash //进入容器,xxxxxxx替换为容器id npu-smi info //查看卡信息 图13 查看卡信息 执行下述命令启动训练任务。 cd /home
资源标签”,操作单个节点或批量操作节点资源标签。 查找搜索节点 在节点管理页面的搜索栏中,支持通过节点名称、IP地址、资源标签等关键字搜索节点。 设置节点列表显示信息 在节点页面中,单击右上角的设置图标,支持对节点列表中显示的信息进行自定义。 删除/退订/释放节点 具体操作请参见释放游离节点章节。
资源标签”,操作单个节点或批量操作节点资源标签。 查找搜索节点 在节点管理页面的搜索栏中,支持通过节点名称、IP地址、资源标签等关键字搜索节点。 设置节点列表显示信息 在节点页面中,单击右上角的设置图标,支持对节点列表中显示的信息进行自定义。 删除/退订/释放节点 具体操作请参见释放游离节点章节。
Pod状态为Pending 当Pod状态为“Pending”,事件中出现“实例调度失败”的信息时,可根据具体事件信息确定具体问题原因。具体参考链接为工作负载状态异常定位方法。 通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败
Pod状态为Pending 当Pod状态为“Pending”,事件中出现“实例调度失败”的信息时,可根据具体事件信息确定具体问题原因。具体参考链接为工作负载状态异常定位方法。 通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败
Pod状态为Pending 当Pod状态为“Pending”,事件中出现“实例调度失败”的信息时,可根据具体事件信息确定具体问题原因。具体参考链接为工作负载状态异常定位方法。 通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败
Pod状态为Pending 当Pod状态长时间为“Pending”,事件中出现“实例调度失败”的信息时,可根据具体事件信息确定具体问题原因。 图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败
查询网络资源 功能介绍 查询指定网络资源的详情信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/networks/{network_name}
在Windows上安装配置Grafana 在Linux上安装配置Grafana 在Notebook上安装配置Grafana 父主题: 使用Grafana查看AOM中的监控指标
示例代码 在保存Manifest文件之前需要先创建包含Manifest信息的对象,包括Sample样本信息及其标签信息Annotation,然后将若干个样本组成Manifest。保存的时候调用save接口,将session信息传入,即可保存到指定路径。 from modelarts.dataset