检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。 2. 忽略该报错,因为报错不影响实际报错的权重。
他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。 2. 忽略该报错,因为报错不影响实际报错的权重。
他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。 2. 忽略该报错,因为报错不影响实际报错的权重。
因此需要提供cache盘使用情况的监控和告警,并将数据上报至AOM平台。 配置流程 填写告警基本信息 设置告警规则 监控对象指标配置 告警触发条件设置 告警通知设置 创建主题、设置主题策略、订阅主题 创建告警行动规则 选择已创建的行动规则 告警上报配置方法 登录AOM控制台。 单击“告警
他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。 2. 忽略该报错,因为报错不影响实际报错的权重。
统计ModelArts用户调用服务的成功次数。 单位:次/分钟。 ≥Count/min ModelArts模型负载 ModelArts在线服务 1分钟 failed_called_times 调用失败次数 统计ModelArts用户调用服务的失败次数。 单位:次/分钟。 ≥Count/min ModelArts模型负载
原因分析 可能由于实例过负载引起故障,Notebook正在自动恢复中,请刷新页面并等待几分钟。常见原因是内存占用满。 处理方法 当出现此错误时,Notebook会自动恢复,您可以刷新页面,等待几分钟。 由于出现此错误,常见原因是内存占用满导致的,您可以尝试使用如下方法,从根本上解决错误。
测试用户权限 由于权限配置需要等待15-30分钟生效,建议在配置完成后,等待30分钟,再执行如下验证操作。 使用用户组02中任意一个子用户登录ModelArts管理控制台。在登录页面,请使用“IAM用户登录”方式进行登录。 首次登录会提示修改密码,请根据界面提示进行修改。 验证ModelArts权限。
Step4 测试用户权限 由于4中的权限需要等待15-30分钟生效,建议在配置完成后,等待30分钟,再执行如下验证操作。 使用用户组02中任意一个子账号登录ModelArts管理控制台。在登录页面,请使用“IAM用户登录”方式进行登录。 首次登录会提示修改密码,请根据界面提示进行修改。
service is disconnected, please wait moment." 出现该错误,是因为模型报错太多。当模型报错太多时,会触发dispatcher的熔断机制,导致预测失败。建议您检查模型返回结果,处理模型报错问题,可尝试通过调整请求参数、降低请求流量等方式,提高模型调用的成功率。
置作业为高优先级权限”的用户可选择优先级1~3。 如何设置训练作业优先级 在创建训练作业页面可以设置训练的“作业优先级”。取值为1~3,默认优先级为1,最高优先级为3。 如何修改训练作业优先级 在训练作业列表页面,选择“状态”为“等待中”的训练作业,单击“作业优先级”列的,在弹窗中修改优先级后单击“确定”。
object 最后一次执行工作流的概要信息。 run_count 否 Integer 工作流的已运行次数。 param_ready 否 Boolean 当前工作流的必选参数是否都已填完。 source 否 String 工作流来源,可选值为ai_gallery,表示工作流是从AI Gallery导入的。
删除Workflow工作流 功能介绍 通过ID删除Workflow工作流。 接口约束 无 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI DELETE /v2/{pr
Workflow工作流名称,1到64位只包含中英文、数字、空格、下划线(_)和中划线(-),并且以中英文开头。 workflow_id String Workflow工作流ID。创建工作流时后台自动生成。 created_at String Workflow工作流的创建时间。 description
n表示查询名称中含有Workflow字样的所有工作流。 name 否 String 工作流名称。填写1-64位,仅包含英文、数字、下划线(_)和中划线(-),并且以英文开头的名称。 description 否 String 工作流描述信息。 请求参数 无 响应参数 状态码: 200
Workflow工作流名称,1到64位只包含中英文、数字、空格、下划线(_)和中划线(-),并且以中英文开头。 workflow_id String Workflow工作流ID。创建工作流时后台自动生成。 created_at String Workflow工作流的创建时间。 description
查找Workflow工作流 查找Workflow 在Workflow列表页,您可以通过搜索框,根据工作流的属性类型快速搜索过滤到相应的工作流,可节省您的时间。 登录ModelArts管理控制台,在左侧导航栏选择“开发空间>Workflow”,进入Workflow总览页面。 在工作流列表上方的搜
管理Workflow工作流 启动Workflow 登录ModelArts管理控制台,在左侧导航栏选择“开发空间>Workflow”,进入Workflow总览页面。 有3种操作方式运行工作流。 工作流列表页:单击操作栏的“启动”按钮,出现启动Workflow询问弹窗,单击“确定”。 工作流运行页面
持连续无条件重启3次。 为了避免丢失训练进度、浪费算力,开启此功能前请确认代码已适配断点续训,操作指导请参见设置断点续训练。 当训练过程中触发了自动重启,则系统会记录重启信息,在训练作业详情页可以查看故障恢复详情,具体请参见训练作业重调度。 开启无条件自动重启 开启无条件自动重启
错误未被抑制,可能影响后续业务,需要重置卡或重启节点。观测方式:Xid事件中包含95事件。(Remapped的Pending记录只作为提示,当业务空闲时进行卡重置触发重映射即可) L4: 需要换卡,SRAM Uncorrectable>4或者Remapped Failed。 可能是亚健康,建议先重启节点,若重启节点后未恢复,发起维修流程。