搜索_华为云

infiniband驱动的安装 - AI开发平台ModelArts

nd网卡的问题，可以咨询相关运维人员以确认宿主机的实际infiniband驱动版本。图1 下载驱动参考如下Dockerfile中，以在容器镜像中安装infiniband驱动。 USER root # copy MLNX_OFED_LINUX-4.3-1.0.1.0-ubuntu16

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
导入模型 - AI开发平台ModelArts
导入模型 - AI开发平台ModelArts

型配置文件中配置apis信息时，则可不填，后台自动从配置文件的apis字段中读取输入参数信息。 output_params 否 params结构数组模型推理输出参数列表，默认为空。如果已在模型配置文件中配置apis信息时，则可不填，后台自动从配置文件的apis字段中读取输出参数信息。

帮助中心 > AI开发平台ModelArts > SDK参考 > 模型管理
制作自定义镜像用于创建Notebook - AI开发平台ModelArts

Notebook的自定义镜像制作方法在ECS上构建自定义镜像并在Notebook中使用在Notebook中通过Dockerfile从0制作自定义镜像在Notebook中通过镜像保存功能制作自定义镜像父主题：制作自定义镜像用于ModelArts Standard

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard
配置节点参数控制分支执行 - AI开发平台ModelArts

create_dir=False))) # 指定metric的输出路径，相关指标信息由作业脚本代码根据指定的数据格式自行输出（示例中需要将metric信息输出到训练输出目录下的metrics.json文件中） ], spec=wf.steps.JobSpec( resource=wf

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
监控安全风险 - AI开发平台ModelArts

监控安全风险 ModelArts支持监控ModelArts在线服务和对应模型负载，执行自动实时监控、告警和通知操作。云监控可以帮助用户更好地了解服务和模型的各项性能指标。详细内容请参见ModelArts支持的监控指标。父主题：安全

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
在ModelArts训练得到的模型欠拟合怎么办？ - AI开发平台ModelArts

景的深刻理解，这依赖于经验。调整参数和超参数。神经网络中：学习率、学习衰减率、隐藏层数、隐藏层的单元数、Adam优化算法中的β1和β2参数、batch_size数值等。其他算法中：随机森林的树数量，k-means中的cluster数，正则化参数λ等。增加训练数据作用不大。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
如何安装第三方包，安装报错的处理方法 - AI开发平台ModelArts

platform”报错，具体解决方法请参见2。处理方法安装第三方包 pip中存在的包，使用如下代码： import os os.system('pip install xxx') pip源中不存在的包，此处以“apex”为例，请您用如下方式将安装包上传到OBS桶中。该样例已将安装包上传至“obs://cnn

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
训练迁移快速入门案例 - AI开发平台ModelArts

代码和数据，应该确保在GPU环境中能够运行，并且训练任务有稳定的收敛效果。本文只针对基于PyTorch的训练代码迁移。此处假设用户使用基于PyTorch的训练代码进行迁移。其他的AI引擎如TensorFlow、Caffe等不在本指导的讨论范围中。已完成迁移环境准备，且代码、预

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
msprobe精度分析工具使用指导 - AI开发平台ModelArts

当前固定随机性操作可分为工具固定和人工固定两种。工具固定Seed 对于网络中随机性的固定，msprobe提供了固定Seed的方式，只需要在config.json文件中添加对应seed配置即可。 msprobe工具提供了seed_all接口用于固定网络中的随机数。如果客户使用了工具但取用了其他随机种子，则必须使用客户的随机种子固定随机性。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

但是依旧出现了上述报错。可能是该资源节点中存在GPU卡损坏的情况，导致实际能检测到的卡少于所选规格。处理方法建议直接根据系统分卡情况下传进去的CUDA_VISIBLE_DEVICES去设置，不用手动指定默认的。如果发现资源节点中存在GPU卡损坏，请联系技术支持处理。建议与总结

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
训练的数据集预处理说明 - AI开发平台ModelArts

的指令数据集，用于微调。 GeneralInstructionHandler：用于sft、lora微调时的数据预处理过程中，会对数据集full_prompt中的user_prompt进行mask操作。 --seq-length：要处理的最大seq length。 --workers：设置数据处理使用执行卡数量

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） > 训练脚本说明
日志提示“Please upgrade numpy to >= xxx to use this pandas version” - AI开发平台ModelArts

出现该问题的可能原因如下： conda和pip包混装，有一些包卸载不掉。处理方法参考如下代码，三步走。先卸载numpy中可以卸载的组件。删除你环境中site-packages路径下的numpy文件夹。重新进行安装需要的版本。 import os os.system("pip

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
训练作业日志中提示 “AttributeError: module '***' has no attribute '***'” - AI开发平台ModelArts

原因分析出现该问题的可能原因如下：对应python包使用错误，该python包确实没有对应的变量或者方法第三方pip源中的python包版本更新，导致在训练作业中安装的python包的版本可能也会发生变化。如训练作业之前无此问题，后面一直有此问题，则考虑是此原因。处理方法通过Notebook调试。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
作业状态参考 - AI开发平台ModelArts

6 JOBSTAT_DELETE_FAILED，作业删除失败。 7 JOBSTAT_WAITING，作业正在排队中。 8 JOBSTAT_RUNNING，作业正在运行中。 9 JOBSTAT_KILLING，作业正在取消。 10 JOBSTAT_COMPLETED，作业已经完成。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版）
训练tokenizer文件说明 - AI开发平台ModelArts

修改文件tokenization_qwen.py： # tonkenization_qwen.py会在cache中读取SimSun.ttf 文件，如果没有，就会联网下载，ModelArts作业在执行过程中可能不能请求网络，会遇到报错。 # 直接手动下载 https://qianwen-res.oss-cn-beijing

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

的指令数据集，用于微调。 GeneralInstructionHandler：用于sft、lora微调时的数据预处理过程中，会对数据集full_prompt中的user_prompt进行mask操作。 --seq-length：要处理的最大seq length。 --workers：设置数据处理使用执行卡数量

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

的指令数据集，用于微调。 GeneralInstructionHandler：用于sft、lora微调时的数据预处理过程中，会对数据集full_prompt中的user_prompt进行mask操作。 --seq-length：要处理的最大seq length。 --workers：设置数据处理使用执行卡数量

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明
创建自动模型优化的训练作业 - AI开发平台ModelArts

对于用户希望优化的超参，需在“超参”设置中定义，可以给定名称、类型、默认值、约束等，具体设置方法可以参考表6。单击勾选“自动搜索”，为算法设置算法搜索功能。自动搜索作业运行过程中，ModelArts后台通过指标正则表达式获取搜索指标参数，朝指定的优化方向进行超参优化。用户需要在代码中打印搜索参数并在控制台配置以下参数。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 自动模型优化（AutoSearch）
训练的数据集预处理说明 - AI开发平台ModelArts

的指令数据集，用于微调。 GeneralInstructionHandler：用于sft、lora微调时的数据预处理过程中，会对数据集full_prompt中的user_prompt进行mask操作。 --seq-length：要处理的最大seq length。 --workers：设置数据处理使用执行卡数量

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
使用llm-compressor工具量化 - AI开发平台ModelArts

1、执行权重量化过程中，请保证使用的GPU卡上没有其他进程，否则可能出现OOM； 2、若量化Deepseek-v2-236b模型，大致需要10+小时。使用量化模型使用量化模型需要在NPU的机器上运行。启动vLLM前，请开启图模式（参考步骤六启动推理服务中的配置环境变量），启动服务的命令和启动非量化模型一致。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化

总条数： 2148

上一页
1
...
94
95
96
...
108
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

infiniband驱动的安装 - AI开发平台ModelArts

导入模型 - AI开发平台ModelArts

制作自定义镜像用于创建Notebook - AI开发平台ModelArts

配置节点参数控制分支执行 - AI开发平台ModelArts

监控安全风险 - AI开发平台ModelArts

在ModelArts训练得到的模型欠拟合怎么办？ - AI开发平台ModelArts

如何安装第三方包，安装报错的处理方法 - AI开发平台ModelArts

训练迁移快速入门案例 - AI开发平台ModelArts

msprobe精度分析工具使用指导 - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

日志提示“Please upgrade numpy to >= xxx to use this pandas version” - AI开发平台ModelArts

训练作业日志中提示 “AttributeError: module '' has no attribute ''” - AI开发平台ModelArts

作业状态参考 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

创建自动模型优化的训练作业 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

使用llm-compressor工具量化 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线