检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查看ModelArts模型事件 创建模型的(从用户可看见创建模型任务开始)过程中,每一个关键事件点在系统后台均有记录,用户可随时在对应模型的详情页面进行查看。 方便用户更清楚的了解创建模型过程,遇到任务异常时,更加准确的排查定位问题。可查看的事件点包括: 事件类型 事件信息(“XXX”表示占位符,以实际返回信息为准)
查看诊断报告 Advisor分析profiling会输出html和xlsx两份文件。请优先查看html报告进行训练作业性能调优。xlsx中记录了html中全量数据,如集群计算、通信和下发的耗时,可以基于xlsx对计算耗时、下发耗时和带宽等列进行排序,从而快速过滤出计算慢卡、下发慢卡、带宽最小卡。
管理标注作业 查看标注作业 在ModelArts数据标注页面可查看用户自己创建的标注作业。 登录ModelArts管理控制台,在左侧菜单栏选择“数据准备>数据标注”,进入数据标注页面。 在“我创建的”页签,可查看自己创建的标注作业。用户可查看自己创建的标注作业的相关信息。 图1 我创建的
部署服务超时,错误信息:xxx Deploying timeout, details: %s 请根据错误信息定位和处理问题。 异常 启动服务失败,错误信息xxx Service %s started failed, error message: %s 请根据错误信息定位和处理问题。
查看授权列表 功能介绍 查看授权列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/authorizations 表1 路径参数
图5 报错信息 ECS、BMS节点创建失败? 查看资源池失败报错信息: 包含错误码,如:Ecs.0000时,可查看弹性云服务器 ECS_错误码查看详细的错误信息及处理措施。 包含错误码,如:BMS.0001时,可查看裸金属服务器 BMS_错误码查看详细的错误信息及处理措施。 包含错误码,如:CCE
只可选择其中一项。 时间范围:可选择查询最近七天内任意时间段的操作事件。 在需要查看的事件左侧,单击展开该事件的详细信息。 单击需要查看的事件“操作”列的“查看事件”,可以在弹窗中查看该操作事件结构的详细信息。 更多关于云审计服务事件结构的信息,请参见《云审计服务用户指南》。 父主题:
训练作业的事件信息系统会自动保存30天,过期会被清除。 查看操作 在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。 在训练作业列表中,单击作业名称进入训练作业详情页面。 在训练作业详情页面,单击“事件”页签查看事件信息。 图1 查看事件信息 父主题: 管理模型训练作业
在ModelArts中如何查看OBS目录下的所有文件? 在使用Notebook或训练作业时,需要查看目录下的所有文件,您可以通过如下方式实现: 通过OBS管理控制台进行查看。 使用当前账户登录OBS管理控制台,去查找对应的OBS桶、文件夹、文件。 通过接口判断路径是否存在。在已有
选择修改,修改后,单击保存即可生效。 修改DashBoard查询数据时间范围 图7 修改查询数据时间范围 单击右上角图标,即可修改DashBoard整体的数据查询时间。除固定查询时间外的其他panel,都会应用该数据查询时间范围。 增加新panel 图8 新增一个panel 单击
部署服务超时,错误信息:xxx Deploying timeout, details: %s 请根据错误信息定位和处理问题。 异常 启动服务失败,错误信息xxx Service %s started failed, error message: %s 请根据错误信息定位和处理问题。
查询团队标注的样本信息 功能介绍 查询团队标注的样本信息,只有在验收任务发起后才能正确调用。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{pro
显示为准。 在“基本信息”的“网络”中,可单击关联的资源池中的数字,查看关联的资源池。可以查看该网络中可用的IP数量。 在扩展信息中可以查看监控、作业、节点、规格、事件、标签,详细介绍见下文。 查看资源池中的作业 在资源池详情页,切换到“作业”页签。您可以查看该资源池中运行的所有
在训练作业详情页的左侧,可以查看此次训练作业的基本信息和算法配置的相关信息。 训练作业基本信息 表1 训练作业基本信息 参数 说明 “作业ID” 训练作业唯一标识。 “作业状态” 训练作业状态。 说明: 如果昇腾以及MindSpore框架的训练作业运行失败,您可以在作业状态的提示信息中,单击昇腾论坛进行发帖提问或者搜索问题。
查询APP的API认证信息 功能介绍 查询APP的API认证信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/serv
查询专属资源池作业统计信息 功能介绍 查询专属资源池作业统计信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/stat
在ModelArts控制台查看监控指标 在总览页查看ModelArts监控指标 在ModelArts控制台的总览页,支持查看生产概况(即总体作业运行数量)、资源占用情况、训练作业资源利用情况。您可以单击生产概况的链接、资源池名称、训练作业,跳转到对应界面查看更多详情。 图1 总览页查看监控信息 在总
查询推理VPC访问通道信息的API 功能介绍 该接口用于查询推理VPC访问通道。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project_i
获取智能任务的信息 功能介绍 获取智能任务的详细信息,支持查询“智能标注”和“自动分组”两大类智能任务。可通过指定路径参数“task_id”来查询某个具体任务的详情。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK
查看日志和性能 查看日志 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为:/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs