搜索_华为云

设置无条件自动重启 - AI开发平台ModelArts

适配断点续训，操作指导请参见设置断点续训练。当训练过程中触发了自动重启，则系统会记录重启信息，在训练作业详情页可以查看故障恢复详情，具体请参见训练作业重调度。开启无条件自动重启开启无条件自动重启有2种方式：控制台设置或API接口设置。控制台设置在创建训练作业页面，开启“

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
在Dockerfile中如何给镜像设置环境变量？ - AI开发平台ModelArts

在Dockerfile中如何给镜像设置环境变量？在Dockerfile中，可使用ENV指令来设置环境变量，具体信息请参考Dockerfile指导。父主题： Standard镜像相关

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
不同模型推荐的参数与NPU卡数设置 - AI开发平台ModelArts

不同模型推荐的参数与NPU卡数设置表1 不同模型推荐的参数与NPU卡数设置模型 Template 模型参数量训练策略类型序列长度cutoff_len 梯度累积值优化工具 (Deepspeed) 规格与节点数 Qwen-VL Qwen-VL 7B full 2048 gr

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 训练脚本说明
不同模型推荐的参数与NPU卡数设置 - AI开发平台ModelArts

不同模型推荐的参数与NPU卡数设置表1 不同模型推荐的参数与NPU卡数设置模型 Template 模型参数量训练策略类型序列长度cutoff_len 梯度累积值优化工具 (Deepspeed) 规格与节点数 Qwen-VL Qwen-VL 7B full 2048 gr

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 训练脚本说明
用户如何设置默认的kernel？ - AI开发平台ModelArts

用户如何设置默认的kernel？用户希望打开Notebook默认的kernel为自己自定义的kernel。解决方式: 在Terminal里执行如下命令在镜像里指定环境变量。 # python-3.7.10这里指用户想设置的kernel名称 export KG_DEFAULT_

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
镜像保存时报错“container size %dG is greater than threshold %dG”如何解决？ - AI开发平台ModelArts

iner size %dG is greater than threshold %dG”。原因分析 Notebook容器当前的大小超过了阈值。解决方案需要减少容器大小。Notebook容器的大小分为两部分：镜像大小和容器中新安装文件的大小。因此有两种方法来解决该问题：减少容器中新安装文件的大小

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
创建ModelArts数据清洗任务 - AI开发平台ModelArts

您可以根据实际情况填写“名称”和“描述”信息。图1 创建数据处理基本信息设置场景类别。场景类别当前支持“图像分类”和“物体检测”。设置数据处理类型选择“数据校验”，填写相应算子的设置参数，算子的详细参数参见数据清洗算子（PCC算子）。图2 设置场景类别和数据处理类型设置输入与输出。需根据实际数据情况选择“数

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
设置断点续训练 - AI开发平台ModelArts

设置断点续训练什么是断点续训练断点续训练是指因为某些原因（例如容错重启、资源抢占、作业卡死等）导致训练作业还未完成就被中断，下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。断点续训练是通过checkpoint机制实现。 checkp

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
设置在线服务故障自动重启 - AI开发平台ModelArts

设置在线服务故障自动重启场景描述当系统检测到Snt9b硬件故障时，自动复位Snt9B芯片并重启推理在线服务，提升了推理在线服务的恢复速度。约束限制仅支持使用Snt9b资源的同步在线服务。只支持针对整节点资源复位，请确保部署的在线服务为8*N卡规格，请谨慎评估对部署在该节点的其他服务的影响。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
Notebook Cache盘告警上报 - AI开发平台ModelArts

service_id:xxx，然后单击“确定”。监控对象设置完成后，选择“统计方式”和“统计周期”。 “告警条件设置”：触发条件根据实际需求设置。图1 监控对象指标设置图2 设置指标统计方式图3 告警条件设置设置告警通知，单击“立即创建”。 “告警方式”：选择“直接告警”

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
套餐包 - AI开发平台ModelArts
套餐包 - AI开发平台ModelArts

为避免产生按需消费，建议通过设置套餐包剩余量预警，以确保在套餐包用尽前及时接收预警。设置套餐包剩余量预警步骤如下：进入控制台“费用中心 > 资源包”，单击右上角“剩余量预警”。在“剩余量预警”弹窗中，设置套餐包阈值类型，并在套餐包列表中打开需开启剩余量预警的套餐包开关、设置阈值类型和剩余量阈值。

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费模式
OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

is_processing=False) 创建训练作业时，可通过环境变量“MOX_FILE_PARTIAL_MAXIMUM_SIZE”设置用户需要分段下载的大文件阈值（单位为Bytes），超过该阈值的文件将使用并发下载模式进行分段下载。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
在ModelArts的Notebook中如何设置VS Code背景色为豆沙绿？ - AI开发平台ModelArts

在ModelArts的Notebook中如何设置VS Code背景色为豆沙绿？在VS Code的配置文件settings.json中添加如下参数 "workbench.colorTheme": "Atom One Light", "workbench.colorCustomizations":

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
ModelArts Standard资源监控概述 - AI开发平台ModelArts

Standard上报的所有监控指标都保存在AOM中，当ModelArts控制台可以查看的指标不满足诉求时，用户可以通过AOM服务提供的指标消费和使用的能力来查看指标。设置指标阈值告警、告警上报等，都可以直接在AOM控制台操作。具体参见通过AOM控制台查看ModelArts所有监控指标。方式三：通过Grafana查看所有监控指标

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
欠费说明 - AI开发平台ModelArts
欠费说明 - AI开发平台ModelArts

储到云硬盘中的数据和其他存储到对象存储服务中的数据，以免继续扣费。您可以在“费用中心 > 总览”页面设置“可用额度预警”功能，当可用额度、通用代金券和现金券的总额度低于预警阈值时，系统自动发送短信和邮件提醒。当产生欠费后，请您及时充值使可用额度大于0。

帮助中心 > AI开发平台ModelArts > 计费说明
在ModelArts的Notebook中如何设置VS Code远端默认安装的插件？ - AI开发平台ModelArts

在ModelArts的Notebook中如何设置VS Code远端默认安装的插件？在VS Code的配置文件settings.json中添加remote.SSH.defaultExtensions参数，如自动安装Python和Maven插件，可配置如下。 "remote.SSH

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
Cluster资源池节点故障如何定位 - AI开发平台ModelArts

登录AOM控制台。在左侧导航栏选择“告警管理 > 告警规则”，单击“创建”，创建告警规则。设置告警规则（以NPU掉卡为例）。规则类型：选择“指标告警规则”。配置方式：选择“PromQL”。设置告警规则详情。默认规则：选择“自定义”。命令行输入框(排除值为2的为无效数据)：

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
ModelArts SDK下载文件目标路径设置为文件名，部署服务时报错 - AI开发平台ModelArts

ModelArts SDK下载文件目标路径设置为文件名，部署服务时报错问题现象 ModelArts SDK在OBS下载文件时，目标路径设置为文件名，在本地IDE运行不报错，部署为在线服务时报错。代码如下： session.obs.download_file（obs_path,

帮助中心 > AI开发平台ModelArts > 故障排除 > API/SDK
创建ModelArts数据选择任务 - AI开发平台ModelArts

您可以根据实际情况填写“名称”和“描述”信息。设置场景类别。场景类别当前支持“图像分类”和“物体检测”。设置数据处理类型“数据选择”，填写相应算子的设置参数，算子的详细参数参见数据去重算子（SimDeduplication算子）和数据去冗余算子（RRD算子）。图1 设置场景类别和数据处理类型设置输入与输出。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
端到端运维ModelArts Standard推理服务方案 - AI开发平台ModelArts

时告警通知。业务运行阶段，先将业务系统对接在线服务请求，然后进行业务逻辑处理和监控设置。图1 推理服务的端到端运维流程图整个运维过程会对服务请求失败和资源占用过高的场景进行监控，当超过阈值时发送告警通知。图2 监控告警流程图方案优势通过端到端的服务运维配置，可方便地查

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署

总条数： 823

上一页
1
2
3
4
5
...
42
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

设置无条件自动重启 - AI开发平台ModelArts

在Dockerfile中如何给镜像设置环境变量？ - AI开发平台ModelArts

不同模型推荐的参数与NPU卡数设置 - AI开发平台ModelArts

不同模型推荐的参数与NPU卡数设置 - AI开发平台ModelArts

用户如何设置默认的kernel？ - AI开发平台ModelArts

镜像保存时报错“container size %dG is greater than threshold %dG”如何解决？ - AI开发平台ModelArts

创建ModelArts数据清洗任务 - AI开发平台ModelArts

设置断点续训练 - AI开发平台ModelArts

设置在线服务故障自动重启 - AI开发平台ModelArts

Notebook Cache盘告警上报 - AI开发平台ModelArts

套餐包 - AI开发平台ModelArts

OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

在ModelArts的Notebook中如何设置VS Code背景色为豆沙绿？ - AI开发平台ModelArts

ModelArts Standard资源监控概述 - AI开发平台ModelArts

欠费说明 - AI开发平台ModelArts

在ModelArts的Notebook中如何设置VS Code远端默认安装的插件？ - AI开发平台ModelArts

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

ModelArts SDK下载文件目标路径设置为文件名，部署服务时报错 - AI开发平台ModelArts

创建ModelArts数据选择任务 - AI开发平台ModelArts

端到端运维ModelArts Standard推理服务方案 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线