搜索_华为云

如何保证训练和调试时文件路径保持一致 - AI开发平台ModelArts

me/ma-user/work”路径下。 ln -s建立软连接如果代码中涉及文件绝对路径，由于Notebook调试与训练作业环境不同，可能会导致文件绝对路径不一致，需要修改代码内容。推荐使用软链接的方式解决该问题，用户只需提前建立好软链接，代码中的地址可保持不变。新建软链接：

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
预测API的域名停用公告 - AI开发平台ModelArts

新建服务、存量服务停止后再启动、存量服务失败后再启动，会立即切换使用新域名。为保障持续提供推理服务，请您及时更新业务中的预测API的域名。如果您使用的是VPC内部节点访问ModelArts推理的在线服务，预测API切换域名后，由于内网VPC无法识别公网域名，请提交工单联系华为云技术支持打通网络。父主题：

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品变更公告
Yaml配置文件参数配置说明 - AI开发平台ModelArts

Yaml配置文件参数配置说明本小节主要详细描述demo_yaml配置文件、配置参数说明，用户可根据实际自行选择其需要的参数。表1 模型训练脚本参数参数示例值参数说明 model_name_or_path /home/ma-user/ws/tokenizers/Qwen2-72B

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
（可选）配置驱动 - AI开发平台ModelArts

（可选）配置驱动当专属资源池中的节点含有GPU/Ascend资源时，为确保GPU/Ascend资源能够正常使用，需要配置好对应的驱动。 Cluster支持两种配置驱动的方式：方式一：购买资源池时通过自定义驱动参数进行配置方式二：通过驱动升级功能对已有的资源池驱动版本进行升级

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
Yaml配置文件参数配置说明 - AI开发平台ModelArts

Yaml配置文件参数配置说明本小节主要详细描述demo_yaml配置文件、配置参数说明，用户可根据实际自行选择其需要的参数。表1 模型训练脚本参数参数示例值参数说明 model_name_or_path /home/ma-user/ws/model/Qwen2-72B

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明
Yaml配置文件参数配置说明 - AI开发平台ModelArts

Yaml配置文件参数配置说明本小节主要详细描述demo_yaml配置文件、配置参数说明，用户可根据实际自行选择其需要的参数。表1 模型训练脚本参数参数示例值参数说明 model_name_or_path /home/ma-user/ws/tokenizers/Qwen2-72B

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
obsutil安装和配置 - AI开发平台ModelArts

obsutil安装和配置 obsutil是用于访问、管理对象存储服务OBS的命令行工具，使用该工具可以对OBS进行常用的配置管理操作，如创建桶、上传文件/文件夹、下载文件/文件夹、删除文件/文件夹等。 obsutil安装和配置的具体操作指导请参见obsutils快速入门。操作命

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
在ModelArts训练作业中如何判断文件夹是否复制完毕？ - AI开发平台ModelArts

e=True”表示类型为文件夹，“True”表示是文件夹，“False”为文件。如果输出结果为一致，表示文件夹复制已完毕。如果输出结果不一致，表示复制未结束。父主题： Standard模型训练

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
训练过程中无法找到so文件 - AI开发平台ModelArts

file no such file or directory 原因分析编译生成so文件的cuda版本与训练作业的cuda版本不一致。处理方法编译环境的cuda版本与训练环境不一致，训练作业运行就会报错。例如：使用cuda版本为10的开发环境tf-1.13中编译生成的so包，在cuda版本为9

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
精度调优前准备工作 - AI开发平台ModelArts

精度调优前准备工作在定位精度问题之前，首先需要排除训练脚本及参数配置等差异的干扰。目前大部分精度无法对齐的问题都是由于模型超参数、Python三方库版本、模型源码等与标杆环境（GPU/CPU）设置的不一致导致，为了在定位过程中少走弯路，需要在定位前先对训练环境及代码做有效排查。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
日志提示“ValueError: label - AI开发平台ModelArts

3:'banana', 4:'pear'} & {1:'apple', 2:'orange', 3:'banana'} 原因分析训练集中的标签个数与验证集中的个数不一致，导致该错误发生。例如，训练集中的标签共有4个，验证集中的标签只有3个。处理方法请您保持数据中训练集和验证集的标签数量一致。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
如何定位Workflow运行报错 - AI开发平台ModelArts

如何定位Workflow运行报错使用run模式运行工作流报错时，分析解决思路如下：确认安装的SDK包是否是最新版本，避免出现包版本不一致问题。检查编写的SDK代码是否符合规范，具体可参考相应的代码示例。检查运行过程中输入的内容是否正确，格式是否与提示信息中要求的一致。根据具体报错信息定位到报错的代码行，分析上下文逻辑。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Workflow
NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

0（SP10）和aarch64架构的包为例来进行讲解。安装固件和驱动包。固件和驱动安装时，注意安装顺序：首次安装场景：硬件设备刚出厂时未安装驱动，或者硬件设备前期安装过驱动固件但是当前已卸载，上述场景属于首次安装场景，需按照“驱动->固件”的顺序安装驱动固件。覆盖安装场景：硬件设备前期安装过驱动固件且未卸载，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
日志提示“AttributeError: 'NoneType' object has no attribute 'dtype'” - AI开发平台ModelArts

'NoneType' object has no attribute 'dtype'。原因分析训练镜像的numpy版本与Notebook中不一致。处理方法在代码中打印出numpy的版本，查看是否为1.18.5版本，如果非该版本号则在代码开始处执行： import os

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
在Notebook上安装配置Grafana - AI开发平台ModelArts

打开Grafana页面。新打开一个浏览器窗口，在地址栏输入3中配置的root_url后。出现Grafana登录页面即代表在Notebook中安装和配置Grafana成功。首次登录用户名和密码为admin，登录成功后请根据提示修改密码。父主题：安装配置Grafana

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana
配置Lite Server网络 - AI开发平台ModelArts

配置Lite Server网络 Server创建后，需要进行网络配置，才可使其与Internet通信，本章节介绍网络配置步骤。网络配置主要分为以下两个场景：单个弹性公网IP用于单个Server服务器：为单台Server服务器绑定一个弹性公网IP，该Server服务器独享网络资源。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
配置kubectl工具 - AI开发平台ModelArts

”，单击kubectl后的“配置”按钮。按照界面提示步骤操作即可。图5 配置kubectl 验证。在安装了kubectl工具的机器上执行如下命令，显示集群节点即为成功。 kubectl get node 父主题： Lite Cluster资源配置

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
测试用户权限 - AI开发平台ModelArts

测试用户权限由于权限配置需要等待15-30分钟生效，建议在配置完成后，等待30分钟，再执行如下验证操作。使用用户组02中任意一个子用户登录ModelArts管理控制台。在登录页面，请使用“IAM用户登录”方式进行登录。首次登录会提示修改密码，请根据界面提示进行修改。验证ModelArts权限。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置 > 权限配置
服务韧性 - AI开发平台ModelArts
服务韧性 - AI开发平台ModelArts

复业务的能力。云服务域名使用安全及租户内容安全策略 ModelArts服务使用的租户可见域名、租户不可见域名均满足如下安全相关要求，避免了域名使用过程中的合规和钓鱼风险。其中：租户可见域名：指租户可访问的域名，需要格外重视安全性和合规性。租户不可见域名：指华为云服务在内网相

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
配置Lite Cluster存储 - AI开发平台ModelArts

配置Lite Cluster存储如果没有挂载任何外部存储，此时可用存储空间根据dockerBaseSize的配置来决定，可访问的存储空间比较小，因此建议通过挂载外部存储空间解决存储空间受限问题。容器中挂载存储有多种方式，不同的场景下推荐的存储方式不一样，详情如表1所示。容器存

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置

总条数： 1714

上一页
1
2
3
4
5
...
86
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

如何保证训练和调试时文件路径保持一致 - AI开发平台ModelArts

预测API的域名停用公告 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

（可选）配置驱动 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

obsutil安装和配置 - AI开发平台ModelArts

在ModelArts训练作业中如何判断文件夹是否复制完毕？ - AI开发平台ModelArts

训练过程中无法找到so文件 - AI开发平台ModelArts

精度调优前准备工作 - AI开发平台ModelArts

日志提示“ValueError: label - AI开发平台ModelArts

如何定位Workflow运行报错 - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

日志提示“AttributeError: 'NoneType' object has no attribute 'dtype'” - AI开发平台ModelArts

在Notebook上安装配置Grafana - AI开发平台ModelArts

配置Lite Server网络 - AI开发平台ModelArts

配置kubectl工具 - AI开发平台ModelArts

测试用户权限 - AI开发平台ModelArts

服务韧性 - AI开发平台ModelArts

配置Lite Cluster存储 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线