搜索_华为云

开启训练故障自动重启功能 - AI开发平台ModelArts

开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图1 开启故障重启断点续训练是通过checkpoint机制实现。c

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
Qwen-VL基于DevServer适配Pytorch NPU的推理指导（6.3.909） - AI开发平台ModelArts

能通过SSH登录，不同机器之间网络互通。购买DevServer资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
使用SDK调测单机训练作业 - AI开发平台ModelArts

get_spec_list(session=session) 参数session即是1初始化的数据。返回的是一个字典，其中flavors值是一个列表，描述了训练服务支持的所有规格的信息。每个元素中flavor_id是可直接用于远程训练任务的计算规格，max_num是该规格的最大节点数。如果用户知道要使用的计算规格，可以略过这一步。

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
查看训练作业日志 - AI开发平台ModelArts

过打开全量日志访问链接进行搜索。全量日志访问链接打开的新页面可以通过Ctrl+F进行搜索。系统日志过滤图8 系统日志复选框如果勾选了系统日志复选框，则日志中呈现系统日志和用户日志。如果去勾选，则只显示用户日志。父主题：管理模型训练作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
创建资源池 - AI开发平台ModelArts

参数类型描述 name 是 String 网络名称，即网络详情中的metadata.name字段的值。用户接口通过指定网络名称创建网络，系统会自动创建子网，用户无法创建子网。默认将创建在第一个子网下。表11 PoolDriver 参数是否必选参数类型描述 gpuVersion

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
在JupyterLab中使用MindInsight可视化作业 - AI开发平台ModelArts

ummary文件先上传到OBS并行文件系统，并确保OBS并行文件系统与ModelArts在同一区域。在Notebook中启动MindInsight时，Notebook会自动从挂载的OBS并行文件系统目录中读取Summary数据。 Step3 启动MindInsight 在开发环境

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
在JupyterLab中使用TensorBoard可视化作业 - AI开发平台ModelArts

的Summary文件先上传到OBS并行文件系统，并确保OBS并行文件系统与ModelArts在同一区域。在Notebook中启动TensorBoard时，Notebook会自动从挂载的OBS并行文件系统目录中读取Summary数据。 Step3 启动TensorBoard 在开发

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
创建智能标注作业 - AI开发平台ModelArts

智能标注失败，如何处理？当前智能标注为免费使用阶段，当系统的标注任务过多时，因免费资源有限，导致任务失败，请您重新创建智能标注任务或建议您避开高峰期使用。智能标注时间过长，如何处理？当前智能标注为免费使用阶段，当系统的标注任务过多时，因免费资源有限，需要排队，您的标注任务会

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过智能标注方式标注数据
日志提示“No space left on device” - AI开发平台ModelArts

如果是分布式作业有的节点有错误，有的节点正常，建议提工单请求隔离有问题的节点。如果是触发了欧拉操作系统的限制，有如下建议措施。分目录处理，减少单个目录文件量。减慢创建文件的速度。关闭ext4文件系统的dir_index属性，具体可参考：https://access.redhat.com

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
训练作业容错检查 - AI开发平台ModelArts

场景一：环境预检测失败、硬件检测出现故障，系统隔离所有故障节点并重新下发训练作业。图1 预检失败&硬件故障场景二：环境预检测失败、硬件无故障，系统随机再分配节点并重新下发训练作业。图2 预检失败&硬件正常场景三：环境预检测成功并进入用户业务阶段，硬件检测出现故障并且用户业务非正常退出，系统隔离所有故障节点并重新下发训练作业。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
更新Notebook实例 - AI开发平台ModelArts

当链接关闭后失效；新打开建立的链接只允许当前设置的IP进行访问。此处的IP地址，请填写外网IP地址。如果用户使用的访问机器和华为云ModelArts服务的网络有隔离，则访问机器的外网地址需要在主流搜索引擎中搜索“IP地址查询”获取，而不是使用ipconfig或ifconfig/ip命令在本地查询。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
导出ModelArts数据集中的数据到AI Gallery - AI开发平台ModelArts

发布数据集到AI Galley参数说明参数说明资产标题在AI Gallery显示的资产名称。来源可选择“ModelArts”、“对象存储服务（OBS）”、“本地上传”。 ModelArts区域选择当前控制台所在的区域。 OBS区域选择与当前控制台一致的区域。存储位置用来存储发布的资产。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导出ModelArts数据集中的数据
使用GPTQ量化 - AI开发平台ModelArts

false } 2. 启动vLLM，如果是使用命令行的方式，指定--quantization "gptq"参数，其他参数请参考Step3 创建服务启动脚本 python -m vllm.entrypoints.openai.api_server --model <your_model>

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用GPTQ量化 - AI开发平台ModelArts

false } 2. 启动vLLM，如果是使用命令行的方式，指定--quantization "gptq"参数，其他参数请参考Step6 启动推理服务 python -m vllm.entrypoints.openai.api_server --model <your_model> --quantization

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

如果是分布式作业有的节点有错误，有的节点正常，建议提工单请求隔离有问题的节点。如果是触发了欧拉操作系统的限制，有如下建议措施。分目录处理，减少单个目录文件量。减慢创建文件的速度。关闭ext4文件系统的dir_index属性，具体可参考：https://access.redhat.com

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
新建Workflow工作流 - AI开发平台ModelArts

节点的类型，枚举值如下: job 训练 labeling 标注 release_dataset 数据集发布 model 模型发布 service 服务部署 mrs_job MRS作业 dataset_import 数据集导入 create_dataset 创建数据集 inputs 否 Array

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
通过OBS创建AI应用时，构建日志中提示pip下载包失败 - AI开发平台ModelArts

pip源中不存在该包，当前默认pip源为pypi.org中的包，请在pypi.org中查看是否有对应版本的包并查看包安装限制。下载的包与对应基础镜像架构不匹配，如arm系统下载了x86的包，python2版本的pip下载了python3的包。具体基础镜像运行环境请参见推理基础镜像列表。安装pip包有先后依赖关系。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > AI应用管理
查看AI应用事件 - AI开发平台ModelArts

查看AI应用事件创建AI应用的（从用户可看见创建AI应用任务开始）过程中，每一个关键事件点在系统后台均有记录，用户可随时在对应AI应用的详情页面进行查看。方便用户更清楚的了解创建AI应用过程，遇到任务异常时，更加准确的排查定位问题。可查看的事件点包括：事件类型事件信息（“

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理AI应用
导入AI应用对于镜像大小的限制 - AI开发平台ModelArts

导入AI应用对于镜像大小的限制 ModelArts部署使用的是容器化部署，容器运行时有空间大小限制，当用户的模型文件或者其他自定义文件，系统文件超过容器引擎空间大小时，会提示镜像内空间不足。当前，公共资源池容器引擎空间的大小最大支持50G，专属资源池容器引擎空间的默认为50G，

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 模型管理 > 导入模型
发布Notebook - AI开发平台ModelArts

/ : * ? " < > | ' &”。勾选“我已阅读并同意《华为云AI Gallery数字内容发布协议》和《华为云AI Gallery服务协议》”。选择运行环境：CPU、GPU或ASCEND。图2 发布AI Gallery Notebook 界面提示成功创建分享后，单击“”跳转至AI

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 发布分享

总条数： 1463

上一页
1
...
66
67
68
...
74
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

开启训练故障自动重启功能 - AI开发平台ModelArts

Qwen-VL基于DevServer适配Pytorch NPU的推理指导（6.3.909） - AI开发平台ModelArts

使用SDK调测单机训练作业 - AI开发平台ModelArts

查看训练作业日志 - AI开发平台ModelArts

创建资源池 - AI开发平台ModelArts

在JupyterLab中使用MindInsight可视化作业 - AI开发平台ModelArts

在JupyterLab中使用TensorBoard可视化作业 - AI开发平台ModelArts

创建智能标注作业 - AI开发平台ModelArts

日志提示“No space left on device” - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

更新Notebook实例 - AI开发平台ModelArts

导出ModelArts数据集中的数据到AI Gallery - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

新建Workflow工作流 - AI开发平台ModelArts

通过OBS创建AI应用时，构建日志中提示pip下载包失败 - AI开发平台ModelArts

查看AI应用事件 - AI开发平台ModelArts

导入AI应用对于镜像大小的限制 - AI开发平台ModelArts

发布Notebook - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线