搜索_华为云

APP认证管理 - AI开发平台ModelArts

删除AppCode 重置AppSecret 获取用户绑定APP的api列表注册API并授权给APP 删除API 授权API至APP 更新API授权解除API对APP的授权获取API授权关系列表创建API 查询API 查询API和APP 查询APP的API认证信息查询APP是否存在

 帮助中心 > AI开发平台ModelArts > API参考
主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） - AI开发平台ModelArts

推理场景介绍准备工作部署推理服务推理性能测试推理精度测试推理模型量化 Eagle投机小模型训练附录：基于vLLM不同模型推理支持最小卡数和最大序列说明附录：大模型推理常见问题附录：工作负载Pod异常问题和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） - AI开发平台ModelArts

在推理生产环境中部署推理服务推理精度测试推理性能测试推理模型量化 Eagle投机小模型训练附录：基于vLLM不同模型推理支持最小卡数和最大序列说明附录：大模型推理常见问题父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
基于ModelArts Standard运行GPU训练作业 - AI开发平台ModelArts

在ModelArts Standard上运行GPU多机多卡训练作业在ModelArts Standard使用run.sh脚本实现OBS和训练容器间的数据传输父主题： Standard模型训练

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练
ModelArts - AI开发平台ModelArts
ModelArts - AI开发平台ModelArts

Code连接Notebook后使用介绍操作指导 06:08 VS Code连接Notebook后使用介绍使用PyCharm远程连接Notebook 操作指导 16:29 使用PyCharm远程连接Notebook 使用PyCharm提交训练作业操作指导 12:29 使用PyCharm提交训练作业为什么需要云上AI开发

 帮助中心 > AI开发平台ModelArts > 视频帮助
监控资源 - AI开发平台ModelArts
监控资源 - AI开发平台ModelArts

监控资源用户可以通过资源占用情况窗口查看计算节点的资源使用情况，最多可显示最近三天的数据。在资源占用情况窗口打开时，会定期向后台获取最新的资源使用率数据并刷新。操作一：如果训练作业使用多个计算节点，可以通过实例名称的下拉框切换节点。操作二：单击图例“cpuUsage”、“g

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

经过对裸金属服务器排查，发现nvidia-drvier和cuda都已安装，并且正常运行。nvidia-fabricmanager服务可以使单节点GPU卡间互联，在多卡GPU机器上，出现这种问题可能是nvidia-fabricmanger异常导致。执行以下命令，查看NVIDIA和CUDA的版本，以及nvid

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
ModelArts的自定义镜像软件版本匹配有哪些注意事项？ - AI开发平台ModelArts

ModelArts的自定义镜像软件版本匹配有哪些注意事项？如果您的自定义镜像涉及NCCL、CUDA、OFED等软件库，当您制作自定义镜像时，您需要确保镜像中的软件库和ModelArts的软件库相匹配。您镜像中的软件版本需要满足以下要求： NCCL版本 ≥ 2.7.8。 OFED版本 ≥ MLNX_OFED_LINUX-5

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
Lite Server - AI开发平台ModelArts
Lite Server - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容使用GPU A系列裸金属服务器有哪些注意事项？ GPU A系列裸金属服务器如何更换NVIDIA和CUDA？

帮助中心 > AI开发平台ModelArts > 常见问题
训练作业进程被kill - AI开发平台ModelArts

减少线程数。排查办法根据错误信息判断，报错原因来源于用户代码。您可以通过以下两种方式排查：线上环境调试代码（仅适用于非分布式代码）在开发环境（notebook）申请相同规格的开发环境实例。在notebook调试用户代码，并找出问题的代码段。通过关键代码段 + 退出码尝试去搜索引擎寻找解决办法。，

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
在ModelArts中使用自定义镜像创建在线服务，如何修改端口？ - AI开发平台ModelArts

才能保证服务部署成功。修改默认端口号，具体操作如下：登录ModelArts控制台，左侧菜单选择“模型管理”；单击“创建”，进入创建模型界面，元模型选择“从容器镜像中选择”，选择自定义镜像；配置“容器调用接口”和端口号，端口号与模型配置文件中的端口保持一致；设置完成后，

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
特权池信息数据显示均为0%如何解决？ - AI开发平台ModelArts

显存使用率）。原因分析原因是集群没有安装ICAgent。新建特权池时默认会安装ICAgent，可能由于用户自行卸载ICAgent，导致资源池数据显示异常。处理方法登录“应用运维管理”控制台，在“配置管理 > Agent管理”中，选择未安装ICAgent的集群，并单击“安装ICAgent”。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
Standard模型训练 - AI开发平台ModelArts

自如何获取ModelArts训练容器中的文件实际路径？ ModelArts训练中不同规格资源“/cache”目录的大小是多少？ ModelArts训练作业为什么存在/work和/ma-user两种超参目录？如何查看ModelArts训练作业资源占用情况？如何将在ModelArts中训练好的模型下载或迁移到其他账号？

帮助中心 > AI开发平台ModelArts > 常见问题
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表1 NPU卡数、加速框架、梯度配置取值表模型 Template 模型参数量训练策略类型序列长度cutoff_len 梯度累积值

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表1 NPU卡数、加速框架、梯度配置取值表模型 Template 模型参数量训练策略类型序列长度cutoff_len 梯度累积值

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
数据准备与处理 - AI开发平台ModelArts

数据准备与处理数据准备使用流程创建ModelArts数据集导入数据到ModelArts数据集处理ModelArts数据集中的数据标注ModelArts数据集中的数据发布ModelArts数据集中的数据版本分析ModelArts数据集中的数据特征导出ModelArts数据集中的数据

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard）
服务管理概述 - AI开发平台ModelArts

服务管理，包括将已创建成功的模型部署为在线服务或本地服务。可以实现在线预测、本地预测、服务详情查询、查看服务日志等功能。这里的在线服务包括“predictor”和“transformer”两类，都包括下文描述的功能，本章节以“predictor”服务为例进行说明。本章节的示例代码都是在ModelArts

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表1 NPU卡数、加速框架、梯度配置取值表模型模型参数量训练类型序列长度cutoff_len 梯度累积值优化工具(Deepspeed)

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表1 NPU卡数、加速框架、梯度配置取值表模型 Template 模型参数量训练策略类型序列长度cutoff_len 梯度累积值

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
将数据预热到SFS Turbo - AI开发平台ModelArts

训练任务开始前可通过数据预热功能将文件元数据和数据内容全部从OBS导入到SFS Turbo高性能文件存储中，数据预热功能的具体操作请参考创建SFS Turbo 和 OBS 之间的联动任务。在ECS服务器挂载SFS Turbo已经将SFS Turbo挂载到了/mnt/sfs_turbo目录，这里参考o

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作

总条数： 2451

上一页
1
...
93
94
95
...
123
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

APP认证管理 - AI开发平台ModelArts

主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） - AI开发平台ModelArts

主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） - AI开发平台ModelArts

基于ModelArts Standard运行GPU训练作业 - AI开发平台ModelArts

ModelArts - AI开发平台ModelArts

监控资源 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

ModelArts的自定义镜像软件版本匹配有哪些注意事项？ - AI开发平台ModelArts

Lite Server - AI开发平台ModelArts

训练作业进程被kill - AI开发平台ModelArts

在ModelArts中使用自定义镜像创建在线服务，如何修改端口？ - AI开发平台ModelArts

特权池信息数据显示均为0%如何解决？ - AI开发平台ModelArts

Standard模型训练 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

数据准备与处理 - AI开发平台ModelArts

服务管理概述 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

将数据预热到SFS Turbo - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线