检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
FailureAnalysisNotPossible 无法对未失败的作业进行失败分析 请对运行失败的训练作业进行失败分析 400 ModelArts.2828 FailureAnalysisFailed 训练作业失败原因获取失败 未知失败,请联系技术支持 400 ModelArts.2829
Cann软件与Ascend驱动版本不匹配 问题现象 训练失败并提示“Cann软件与Ascend驱动版本不匹配”。 原因分析 当昇腾规格的训练作业在ModelArts训练平台上运行时,会自动对Cann软件与Ascend驱动的版本匹配情况进行检查。如果平台发现版本不匹配,则会立即训练失败,避免后续无意义的运行时长。
在ModelArts的算法管理中已准备好待发布的算法。创建算法的相关操作请参见创建算法。 创建算法时,算法代码存储的OBS桶内不能存在文件和文件夹重名的情况,这样算法可能会发布失败。如果算法发布成功,则代码开放会失败。 发布算法 进入AI Gallery首页,选择“资产集市 > 算法”,进入算法页面。 单击“发
启动弹性节点Server:单击“启动”。只有处于“已停止/停止失败/启动失败”状态的弹性节点Server可以执行启动操作。 停止弹性节点Server:单击“停止”,在弹出的确认对话框中,确认信息无误,然后单击“确定”。只有处于“运行中/停止失败”状态的弹性节点Server可以执行停止操作。 停
磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50G,只有默认的10GB,导致作业训练失败。 实际存储空间足够,却依旧报错“No Space left on device”。 同一目录下创建较多文件,为了加快文件检索速度,内核会
当已有的数据处理任务不再使用时,您可以删除数据处理任务。 请注意,数据处理任务删除后不可恢复,请谨慎操作。 处于“完成”、“失败”、“已停止”、“运行失败”、“部署中”状态的训练作业,您可以单击操作列的“删除”,删除对应的数据处理任务。 查看数据处理任务详情 登录ModelArt
服务节点规格时,就可以部署多个服务。如果使用此方式进行部署推理,选择的规格务必满足模型的要求,当设置的规格过小,无法满足模型的最小推理要求时,则会出现部署失败或预测失败的情况。 图1 设置自定义规格 父主题: Standard专属资源池
conversation_id为空的个数) proportion 和 test_count 二选一即可,如果同时输入,则优先使用 test_count,如果都未输入,则返回处理失败 False。 上传数据集至SFS Turbo 准备数据集,例如根据Alpaca数据部分给出的预训练数据集、SFT全参微调训练、LoRA微
day:搜索昨天(往前1天)至今天内添加的样本 yyyyMMdd-yyyyMMdd:搜索指定时间段内添加的样本,格式为“起始日期-结束日期”,查询天数不能超过30天。例如:“20190901-2019091501”表示搜索2019年9月1日至2019年9月15日期间的样本。 score String
启。 否 bool description 标注任务描述信息,长度为0-256位,不能包含^!<>=&"'特殊字符。 否 str 表5 Label 属性 描述 是否必填 数据类型 name 标签名称 否 str property 标签基本属性键值对,如颜色、快捷键等 否 str、dic、Placeholder
设置无条件自动重启 背景信息 训练过程中可能会碰到预期外的情况导致训练失败,且无法及时重启训练作业,导致训练周期长,而无条件自动重启可以避免这类问题。无条件自动重启是指当训练作业失败时,不管什么原因系统都会自动重启训练作业,提高训练成功率和提升作业的稳定性。为了避免无效重启浪费算
调优数据集异常日志说明 调优任务创建后,状态显示为“运行失败”,报错“Modelarts.6001:Unknown error, please contact the operation and maintenance personnel or check the log to locate
参数 是否必选 参数类型 描述 high_score 否 String 置信度上界,默认为1。 label_name 否 String 标签名。 label_type 否 Integer 标注类型。可选值如下: 0:图像分类 1:物体检测 3: 图像分割 100:文本分类 101:命名实体
gateway。 原因分析 出现该问题的可能原因如下: 启动tensorboard对应的summary目录错误,导致tensorboard启动失败。 启动tensorboard对应的summary目录过大,导致tensorboard加载summary导致OOM。 处理方法 检查sum
操作是否执行成功。可选值如下: true:执行成功 false:执行失败 表8 BatchResponse 参数 参数类型 描述 error_code String 操作失败的错误码。 error_msg String 操作失败的错误信息。 success Boolean 操作是否执行成功。可选值如下:
重试/停止/运行Workflow节点 重试/停止/继续运行Workflow节点 重试 当单个节点运行失败时,用户可以通过重试按钮重新执行当前节点,无需重新启动工作流。在当前节点的运行状况页面,单击“重试”。在重试之前您也可以前往权限管理页面修改配置,节点重试启动后新修改的配置信息可以在当前执行中立即生效。
pem文件生成)。 单击“Open”。如果首次登录,PuTTY会显示安全警告对话框,询问是否接受服务器的安全证书。单击“Accept”将证书保存到本地注册表中。 图6 询问是否接受服务器的安全证书 成功连接到云上Notebook实例。 图7 连接到云上Notebook实例 父主题: 使用Notebook进行AI开发调试
day:搜索昨天(往前1天)至今天内添加的样本 yyyyMMdd-yyyyMMdd:搜索指定时间段内添加的样本,格式为“起始日期-结束日期”,查询天数不能超过30天。例如:“20190901-2019091501”表示搜索2019年9月1日至2019年9月15日期间的样本。 score String
安全 责任共担 资产识别与管理 身份认证与访问控制 数据保护技术 审计与日志 服务韧性 监控安全风险 故障恢复 更新管理 认证证书 安全边界
操作是否执行成功。可选值如下: true:执行成功 false:执行失败 表8 BatchResponse 参数 参数类型 描述 error_code String 操作失败的错误码。 error_msg String 操作失败的错误信息。 success Boolean 操作是否执行成功。可选值如下: