搜索_华为云

在线服务预测报错ModelArts.4302 - AI开发平台ModelArts

service due to connection refused. " 出现该报错有两种情况：流量超过了模型的处理能力。可以考虑降低流量或者增加模型实例数量。镜像自身有问题。需要单独运行镜像确保镜像本身能正确提供服务。 "error_msg"："Due to self protection

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
在ModelArts中调整模型后，部署新版本模型能否保持原API接口不变？ - AI开发平台ModelArts

面。在选择模型及配置中，单击“增加模型版本进行灰度发布”添加新版本。图1 灰度发布您可以设置两个版本的流量占比，服务调用请求根据该比例分配。其他设置可参考参数说明。完成设置后，单击下一步。确认信息无误后，单击“提交”部署在线服务。父主题： Standard推理部署

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
Cluster资源池如何进行NCCl Test？ - AI开发平台ModelArts

日志上传路径：AI诊断日志上传路径。数据增加方式：当前支持乘法方式。乘法系数：数值范围[2, 100]。超过时间：数值范围[150, 3600]。 NCCL Test节点名称列表：不可为空，且被选择的节点须为可用状态。单击“确认”，即可开始诊断。父主题： Lite Cluster

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Cluster
修改在线服务配置 - AI开发平台ModelArts

置并行升级的最大节点数，升级阶段节点无效。修改在线服务参数时，可通过增加一个自定义的环境变量参数，触发服务重启。例如，如果服务原来部署在公共资源池，则修改环境变量后，服务可能会调度到新的公共资源池。父主题：管理同步在线服务

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
精度调优总体思路 - AI开发平台ModelArts

比较其一致性，从而确定模型中通信算子的精度是否存在问题。若已排除通信算子异常，则可能是由于网络层数增加放大了累积误差，需要使用精度比对等工具进一步分析。图1 精度调优流程父主题： PyTorch迁移精度调优

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

erLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE（VS Code）开发模型。父主题：云上迁移适配故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
手动续费 - AI开发平台ModelArts
手动续费 - AI开发平台ModelArts

如果您持有多台到期日不同的专属资源池，可以将到期日统一设置到一个日期，便于日常管理和续费。图2展示了用户将两个不同时间到期的资源，同时续费一个月，并设置“统一到期日”后的效果对比。图2 统一到期日更多关于统一到期日的规则请参见如何设置统一到期日。父主题：续费

 帮助中心 > AI开发平台ModelArts > 计费说明 > 续费
不允许子账号使用公共资源池创建作业 - AI开发平台ModelArts

如果没有用户组，也可以创建一个新的用户组，并通过“用户组管理”功能添加用户，并配置授权。如果指定的子用户没有在用户组中，也可以通过“用户组管理”功能增加用户。在用户的委托授权中同步增加此策略，避免在租户面通过委托token突破限制。在统一身份认证服务页面的左侧导航中选择委托，找到该用户组在ModelAr

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
执行训练任务（历史版本） - AI开发平台ModelArts

b <exp_name>：实验名称，具体可以设置的值参考<cfgs_yaml_file> Step2 配置数据输入和输出单击“增加训练输入”和“增加训练输出”，用于配置训练作业开始时需要输入数据的路径和训练结束后输出数据的路径。输入指定的目录在训练开始时，平台会自动将指定的OBS路径下的文件copy到容器内

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
联网下载SimSun.ttf时可能会遇到网络问题 - AI开发平台ModelArts

/home/ma-user/work/model-dir/Qwen-VL-Chat/tokenization_qwen.py 中的 30-35 行注释 3. 然后增加一行直接读取本地的Simsun.ttf文件，写绝对路径 # FONT_PATH = try_to_load_from_cache("Qwen/Qwen-VL-Chat"

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
联网下载SimSun.ttf时可能会遇到网络问题 - AI开发平台ModelArts

/home/ma-user/work/model-dir/Qwen-VL-Chat/tokenization_qwen.py 中的 30-35 行注释 3. 然后增加一行直接读取本地的Simsun.ttf文件，写绝对路径 # FONT_PATH = try_to_load_from_cache("Qwen/Qwen-VL-Chat"

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
附录：训练常见问题 - AI开发平台ModelArts

将yaml文件中的per_device_train_batch_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等级，可参考模型NPU卡数、梯度累积值取值表，如原使用Accelerator可替换为Deepspeed-ZeRO-1，Deepsp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
附录：训练常见问题 - AI开发平台ModelArts

将yaml文件中的per_device_train_batch_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等级，可参考模型NPU卡数、梯度累积值取值表，如原使用Accelerator可替换为Deepspeed-ZeRO-1，Deepsp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
附录：训练常见问题 - AI开发平台ModelArts

将yaml文件中的per_device_train_batch_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等级，可参考模型NPU卡数、梯度累积值取值表，如原使用Accelerator可替换为Deepspeed-ZeRO-1，Deepsp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
执行训练任务（推荐） - AI开发平台ModelArts

<exp_name>：实验名称，具体可以设置的值参考<cfgs_yaml_file> 样例配置截图如下： Step2 配置数据输入和输出单击“增加训练输入”和“增加训练输出”，用于配置训练作业开始时需要输入数据的路径和训练结束后输出数据的路径。输入指定的目录在训练开始时，平台会自动将指定的OBS路径下的文件copy到容器内

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
ECS中构建新镜像 - AI开发平台ModelArts

clone，请确保ECS可以访问公网 docker build -t <镜像名称>:<版本名称> . 图1 docker镜像构建过程如果无法访问公网，则可以配置代理，增加`--build-arg`参数指定代理地址，可访问公网。 docker build --build-arg "https_proxy=http://xxx

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
ECS中构建新镜像 - AI开发平台ModelArts

clone，请确保ECS可以访问公网 docker build -t <镜像名称>:<版本名称> . 图1 docker镜像构建过程如果无法访问公网，则可以配置代理，增加`--build-arg`参数指定代理地址，可访问公网。 docker build --build-arg "https_proxy=http://xxx

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
Yaml配置文件参数配置说明 - AI开发平台ModelArts

用于指定预处理数据的工作线程数。随着线程数的增加，预处理的速度也会提高，但也会增加内存的使用。 per_device_train_batch_size 1 指定每个设备的训练批次大小。 gradient_accumulation_steps 8 必须修改，指定梯度累积的步数，这可以增加批次大小而不增加内存消耗。可参考表1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
扩缩容Lite Cluster资源池 - AI开发平台ModelArts

包周期资源池详情页对节点进行退订操作。在“专属资源池扩缩容”页面，可通过增减“目标总实例数”实现扩缩容，请用户根据本身业务诉求进行调整。增加目标总实例数即表示扩容，减少目标总实例数即表示缩容。若购买资源池时，节点数量采用整柜方式购买（部分规格支持），则在扩缩容时为整柜方式扩缩

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
SD1.5基于DevServer适配PyTorch NPU Finetune训练指导（6.3.904） - AI开发平台ModelArts

yaml文件，再通过在启动脚本命令中增加--config_file=xxx.yaml参数来指定其为配置文件。方式二：通过命令accelerate config进行配置，如下图所示。图1 通过命令accelerate config进行配置（可选）文件替换。因增加nfa和使用npu_ge

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理

总条数： 2520

上一页
1
...
5
6
7
...
126
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在线服务预测报错ModelArts.4302 - AI开发平台ModelArts

在ModelArts中调整模型后，部署新版本模型能否保持原API接口不变？ - AI开发平台ModelArts

Cluster资源池如何进行NCCl Test？ - AI开发平台ModelArts

修改在线服务配置 - AI开发平台ModelArts

精度调优总体思路 - AI开发平台ModelArts

训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

手动续费 - AI开发平台ModelArts

不允许子账号使用公共资源池创建作业 - AI开发平台ModelArts

执行训练任务（历史版本） - AI开发平台ModelArts

联网下载SimSun.ttf时可能会遇到网络问题 - AI开发平台ModelArts

联网下载SimSun.ttf时可能会遇到网络问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

ECS中构建新镜像 - AI开发平台ModelArts

ECS中构建新镜像 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

扩缩容Lite Cluster资源池 - AI开发平台ModelArts

SD1.5基于DevServer适配PyTorch NPU Finetune训练指导（6.3.904） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线