搜索_华为云

工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 Pod状态为Pending 当Pod状态为“Pending”，事件中出现“实例调度失败”的信息时，可根据具体事件信息确定具体问题原因。具体参考链接为工作负载状态异常定位方法。通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name}

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

json，数据大小：43.6 MB。自定义数据预训练数据：用户也可以自行准备预训练数据。数据要求如下：使用标准的.json格式的数据，通过设置--json-key来指定需要参与训练的列。请注意huggingface中的数据集具有如下this格式。可以使用–json-key标志更改

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

json，数据大小：43.6 MB。自定义数据预训练数据：用户也可以自行准备预训练数据。数据要求如下：使用标准的.json格式的数据，通过设置--json-key来指定需要参与训练的列。请注意huggingface中的数据集具有如下this格式。可以使用–json-key标志更改

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

json，数据大小：43.6 MB。自定义数据预训练数据：用户也可以自行准备预训练数据。数据要求如下：使用标准的.json格式的数据，通过设置--json-key来指定需要参与训练的列。请注意huggingface中的数据集具有如下this格式。可以使用–json-key标志更改

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
使用ModelArts Standard自动学习实现口罩检测 - AI开发平台ModelArts

是否自动停止：为避免资源浪费，建议打开自动停止开关，根据您的实际需要，选择自动停止时间，也可以自定义自动停止的时间。图3 选择计算节点规格图4 设置自动停止参数填写完毕之后，单击运行状况右边的“继续运行”，单击确认弹窗中的“确定”即可继续完成工作流的运行。步骤五：预测分析运行完成

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard自动学习
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

|──llm_tools # 推理工具工作目录介绍详细的工作目录参考如下，建议参考以下要求设置工作目录。训练脚本以分类的方式集中在scripts文件夹中。 ${workdir}（例如/home/ma-user/ws ） |──llm_train

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
Lite Cluster资源配置流程 - AI开发平台ModelArts

务器页面。图8 节点管理单击“远程登录”，在弹出的窗口中，单击“CloudShell登录”。图9 远程登录在CloudShell中设置密码等参数后，单击“连接”即可登录节点，CloudShell介绍可参见远程登录Linux弹性云服务器（CloudShell方式）。配置kubectl工具。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
执行微调训练任务 - AI开发平台ModelArts

必须修改。加载tokenizer与Hugging Face权重时存放目录绝对或相对路径。请根据实际规划修改。 template qwen 必须修改。用于指定模板。如果设置为"qwen"，则使用Qwen模板进行训练，模板选择可参照表1中的template列 output_dir /home/ma-user/w

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908）
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

json，数据大小：43.6 MB。自定义数据预训练数据：用户也可以自行准备预训练数据。数据要求如下：使用标准的.json格式的数据，通过设置--json-key来指定需要参与训练的列。请注意huggingface中的数据集具有如下this格式。可以使用–json-key标志更改

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
JupyterLab常用功能介绍 - AI开发平台ModelArts

Git插件相关操作，可以方便快捷地使用Github代码库。 Tabs 同时打开多个ipynb文件时，通过Tabs激活或选择文件。 Settings JupyterLab工具系统设置。 Help JupyterLab工具自带的帮助参考。图15 ipynb文件菜单栏中的快捷键表4 ipynb文件菜单栏中的快捷键快捷键

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
发布Workflow到ModelArts - AI开发平台ModelArts

流，节省了前往console配置执行的操作。使用该方法时需要注意以下几个事项： Workflow中所有出现占位符相关的配置对象时，均需要设置默认值，或者直接使用固定的数据对象方法的执行依赖于Workflow对象的名称：当该名称的工作流不存在时，则创建新工作流并创建新执行；当该

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 发布Workflow
查询训练作业列表 - AI开发平台ModelArts

session 是 Object 会话对象，初始化方法请参考Session鉴权。 offset 否 Integer 查询作业的偏移量，最小为0。例如设置为1，则表示从第二条开始查。 limit 否 Integer 查询作业的限制量。最小为1，最大为50。 sort_by 否 String

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
SD1.5基于DevServer适配PyTorch NPU Finetune训练指导（6.3.904） - AI开发平台ModelArts

若显存较低可以调整batch_size保证正常运行，改为8或者更小。本次训练step为1000，训练时间较长，可以改为500。如开启deepspeed训练时，需要设置参数checkpointing_steps>max_train_steps（严格大于），否则会报错。父主题：文生图模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

|──llm_tools # 推理工具工作目录介绍详细的工作目录参考如下，建议参考以下要求设置工作目录。训练脚本以分类的方式集中在scripts文件夹中。 ${workdir}（例如/home/ma-user/ws ） |──llm_train

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
配置Workflow的输入输出目录 - AI开发平台ModelArts

with_execution_id 表示创建目录时是否拼接execution_id，默认为“False”。该字段只有在create_dir为True时才支持设置为True。否 bool 使用示例如下：实现InputStorage相同的能力 import modelarts.workflow as

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

用户使用torch报错Unexpected error from cudaGetDeviceCount 问题现象在Notebook执行兼容gpu的脚本时报错不兼容，但是通过nvcc --version排查显示是兼容。 import torch import sys print('A'

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容场景描述本文提供Atlas800训练服务器硬件相关指南，包括三维视图、备件信息、HCCL常用方法以及网卡配置信息。 Atlas 800训练服务器三维视图 Atlas 800 训练服务器（型号9000）是基于华为鲲鹏920+Sn

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
FLUX.1基于DevSever适配PyTorch NPU Fintune&Lora训练指导（6.3.911） - AI开发平台ModelArts

open(txt_path, 'w') as file: file.write(data['prompt']) 步骤六：设置宿主机文件权限 chmod -R 777 ${work_dir} 步骤七：进入容器通过容器名称进入容器中。默认使用ma-user用户执行后续命令。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
云上迁移适配故障 - AI开发平台ModelArts

下载代码目录失败训练作业日志中提示“No such file or directory” 训练过程中无法找到so文件 ModelArts训练作业无法解析参数，日志报错训练输出路径被其他作业使用 PyTorch1.0引擎提示“RuntimeError: std:exception” MindSpore日志提示“

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
安装Gallery CLI配置工具 - AI开发平台ModelArts

CLI配置工具下载文件，如果在资产详情页有“复制完整资产名称”按钮即表示该资产支持使用Gallery CLI配置工具下载，如图1所示。图1 复制完整资产名称 “运行平台”设置为“Pangu Studio”的数据集，不支持使用CLI工具下载。下载Gallery CLI配置工具包（本地）如果是在本地服务器安装Gallery

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > Gallery CLI配置工具指南

总条数： 916

上一页
1
...
40
41
42
...
46
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

工作负载Pod异常 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

使用ModelArts Standard自动学习实现口罩检测 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

Lite Cluster资源配置流程 - AI开发平台ModelArts

执行微调训练任务 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

JupyterLab常用功能介绍 - AI开发平台ModelArts

发布Workflow到ModelArts - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

SD1.5基于DevServer适配PyTorch NPU Finetune训练指导（6.3.904） - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

配置Workflow的输入输出目录 - AI开发平台ModelArts

用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

FLUX.1基于DevSever适配PyTorch NPU Fintune&Lora训练指导（6.3.911） - AI开发平台ModelArts

云上迁移适配故障 - AI开发平台ModelArts

安装Gallery CLI配置工具 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线