检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建训练作业提示错误码ModelArts.2763 问题现象 创建训练作业时,提示ModelArts.2763 : 选择的支持实例无效,请检查请求中信息的合法性。 原因分析 用户选择的训练规格资源和算法不匹配。 例如:算法支持的是GPU规格,创建训练作业时选择了ASCEND规格的资源类型
日志提示“Please set the train_url to an empty obs directory” 问题现象 日志提示“Please set the train_url to an empty obs directory”。 原因分析 对于不支持断点训练的模型,如果选择训练输出路径不是空目录
PyTorch1.0引擎提示“RuntimeError: std:exception” 问题现象 在使用PyTorch1.0镜像时,必现如下报错: “RuntimeError: std:exception” 原因分析 PyTorch1.0镜像中的libmkldnn软连接与原生torch
训练作业的日志出现detect failed(昇腾预检失败) 问题现象 训练启动的日志出现如下相关错误: time="2023-05-27T07:07:08Z" level=error msg="detect failed, error: dsmi-checker detect failed
在ModelArts的Notebook中如何打开VS Code的配置文件settings.json? 在VS Code环境中执行Ctrl+Shift+P 搜Open User Settings (JSON) 父主题: Standard Notebook
在ModelArts的Notebook中使用VS Code调试代码无法进入源码怎么办? 如果已有launch.json文件,请直接看步骤三。 步骤一:打开launch.json文件 方法一:单击左侧菜单栏的Run(Ctrl+Shift+D)按钮,再单击create a launch.json
在ModelArts的Notebook中如何使用pandas库处理OBS桶中的数据? 参考下载OBS文件到Notebook中的指导,将OBS中的数据下载至Notebook本地处理。 参考pandas用户指南处理pandas数据。 父主题: Standard Notebook
ModelArts的自定义镜像软件版本匹配有哪些注意事项? 如果您的自定义镜像涉及NCCL、CUDA、OFED等软件库,当您制作自定义镜像时,您需要确保镜像中的软件库和ModelArts的软件库相匹配。您镜像中的软件版本需要满足以下要求: NCCL版本 ≥ 2.7.8。 OFED版本
工艺模型 工序定义 工艺流程建模 产线能力配置 指导书管理 指导书审核 父主题: 制造数据模型管理
质检模型 故障与缺陷代码 质量追溯标准 检验结果项模板 产品质检方案管理 质检累计器场景规则 父主题: 制造数据模型管理
通过智能标注方式标注数据 创建智能标注作业 确认智能标注作业的数据难例 使用自动分组智能标注作业 父主题: 标注ModelArts数据集中的数据
重建、停止或删除训练作业 另存为算法 当您需要修改训练作业的算法时,可以在训练作业详情页面右上角,单击“另存为算法”。 在“创建算法”页面中,会自动填充上一次训练作业的算法参数配置,您可以根据业务需求在原来算法配置基础上进行修改。 订阅算法不支持另存为算法。 重建训练作业 当对创建的训练作业不满意时
设置无条件自动重启 背景信息 训练过程中可能会碰到预期外的情况导致训练失败,且无法及时重启训练作业,导致训练周期长,而无条件自动重启可以避免这类问题。无条件自动重启是指当训练作业失败时,不管什么原因系统都会自动重启训练作业,提高训练成功率和提升作业的稳定性。为了避免无效重启浪费算力资源
训练日志失败分析 在ModelArts Standard中训练作业遇到问题时,可首先查看日志,多数场景下的问题可以通过日志报错信息直接定位。 ModelArts Standard提供了训练作业失败定位与分析功能,如果训练作业运行失败,ModelArts会自动识别导致作业失败的原因,
制作自定义镜像用于创建Notebook Notebook的自定义镜像制作方法 在ECS上构建自定义镜像并在Notebook中使用 在Notebook中通过Dockerfile从0制作自定义镜像 在Notebook中通过镜像保存功能制作自定义镜像 父主题: 制作自定义镜像用于ModelArts
基于AIGC模型的GPU推理业务迁移至昇腾指导 场景介绍 迁移环境准备 pipeline应用准备 应用迁移 迁移效果校验 模型精度调优 性能调优 常见问题 父主题: GPU业务迁移至昇腾训练推理
常见问题 MindSpore Lite问题定位指南 模型转换报错如何查看日志和定位? 日志提示Compile graph failed 日志提示Custom op has no reg_op_name attr 父主题: GPU推理业务迁移至昇腾的通用指导
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.905)
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 准备Notebook 父主题: 主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.906)
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.906)