搜索_华为云

在ModelArts Standard上运行GPU单机多卡训练任务 - AI开发平台ModelArts

的那个（如果容器镜像装了多个python，需要设置python路径的环境变量）。测试训练启动脚本。优先使用手工进行数据复制的工作并验证一般在镜像里不包含训练所用的数据和代码，所以在启动镜像以后需要手工把需要的文件复制进去。建议数据、代码和中间数据都放到"/cache"目录，

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练任务
开发Workflow的核心概念介绍 - AI开发平台ModelArts

Graph，DAG），由节点和节点之间的关系描述组成。图1 Workflow介绍节点与节点之间的依赖关系由单箭头的线段来表示，依赖关系决定了节点的执行顺序，示例中的工作流在启动后将从左往右顺序执行。DAG也支持多分支结构，用户可根据实际场景进行灵活设计，在多分支场景下，并行分支的节点支持并行运行，具体请参考配置多分支节点数据章节。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
模型的自定义镜像制作流程 - AI开发平台ModelArts

请求成功日志文件输出为保证日志内容可以正常显示，日志信息需要打印到标准输出。镜像启动入口如果需要部署批量服务，镜像的启动入口文件需要为“/home/run.sh”，采用CMD设置默认启动路径，例如Dockerfile配置如下： CMD ["sh", "/home/run.sh"]

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于推理
配置节点参数控制分支执行 - AI开发平台ModelArts

支持单节点通过参数配置或者获取训练输出的metric指标信息来决定执行是否跳过，同时可以基于此能力完成对执行流程的控制。应用场景主要用于存在多分支选择执行的复杂场景，在每次启动执行后需要根据相关配置信息决定哪些分支需要执行，哪些分支需要跳过，达到分支部分执行的目的，与ConditionStep的使用场景类似，但功

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
使用ModelArts PyCharm插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

实例运行中且与PyCharm连接成功状态启动Notebook实例。当Notebook实例为黄色感叹号状态时，表示该实例已停止。此时单击该实例名称，实例会变为绿色勾状态，表示启动Notebook实例且与PyCharm连接成功（默认启动时间为4小时）。图23 实例已停止状态断开PyCharm

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard开发环境
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

systemctl status nvidia-fabricmanager 发现nvidia-fabricmanager的服务为failed状态，尝试重新启动nvidia-fabricmanager失败，且提示以下信息： nvidia-fabricmanager.service failed because

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
训练作业的自定义镜像如何安装Moxing？ - AI开发平台ModelArts

训练作业的自定义镜像如何安装Moxing？为避免自动安装Moxing会影响用户自定义镜像中的包环境，所以自定义镜像需要用户手动安装Moxing。Moxing安装包会在作业启动后放在“/home/ma-user/modelarts/package/”目录下。可在使用Moxing功能前执行如下代码，进行Moxing的安装。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 功能咨询
GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？场景描述当裸金属服务器预置的NVIDIA版本和业务需求不匹配时，需要更换NVIDIA驱动和CUDA版本。本文介绍华为云A系列GPU裸金属服务器（Ubuntu20.04系统）如何从“NVIDIA 525+CUDA 12.0”更换为“NVIDIA

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

原因分析 Error 802原因为缺少fabricmanager，可能由于以下原因导致nvidia-fabricmanager.service不工作：可能系统资源不足、如内存不足、内存泄露。硬件故障、如IB网络或者GPU互联设备故障等。没安装nvidia-fabricmanager组件或被误卸载。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
使用PyCharm ToolKit创建并调试训练作业 - AI开发平台ModelArts

Boot File Path 训练启动文件，所选启动文件必须是当前PyCharm训练工程中的文件。当“Algorithm source”选“Frequently-used”时，显示此参数。 Code Directory 训练代码目录，系统会自动填写为训练启动文件所在的目录，用户可根据需

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 创建调试训练作业
Notebook中构建新镜像 - AI开发平台ModelArts

|──scripts/ # 训练需要的启动脚本 |——src/ # 启动命令行封装脚本，在install.sh里面自动构建 |──Megatron-LM/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作 > 准备镜像
使用VS Code创建并调试训练作业 - AI开发平台ModelArts

Code创建并调试训练作业由于AI开发者会使用VS Code工具开发算法或模型，为方便快速将本地代码提交到ModelArts的训练环境、贴近本地开发习惯地编写启动命令，ModelArts提供了一个训练作业场景下的IDE插件ModelArts-HuaweiCloud，用户通过简易的操作，实现在本地ID

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 创建调试训练作业
Tensorflow多节点作业下载数据到/cache显示No space left - AI开发平台ModelArts

创建训练作业，Tensorflow多节点作业下载数据到/cache显示：“No space left”。原因分析 TensorFlow多节点任务会启动parameter server（简称ps）和worker两种角色，ps和worker会被调度到相同的机器上。由于训练数据对于ps没有用，

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
创建模型成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

（用户代码输出需要使用标准输入输出函数，否则输出的内容不会呈现到前端页面日志）。根据日志中提示的报错信息找到对应的代码进行定位。如果模型启动失败根本没有日志，则考虑使用推理模型调试功能，具体参见：在开发环境中构建并调试推理镜像。父主题：模型管理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
更新服务配置 - AI开发平台ModelArts

参数类型描述 description 否 String 服务描述，不超过100个字符，不设置此参数时，表示不更新。 status 否 String 服务状态，可设置状态为running或stopped来启动、停止服务，不设置此参数则不修改状态。status不可跟configs同时修改，同时存在则只修改status。

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

进入工作目录。 cd ascend_vllm Step4 部署并启动推理服务在Step3中的terminal部署并启动推理服务。有2种方式，使用vllm-api启动推理服务，或者使用openai-api启动推理服务。参考命令如下： # 使用vllm-api python v

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
MXNet创建kvstore时程序被阻塞，无报错 - AI开发平台ModelArts

create('dist_async') print('end') 原因分析 worker阻塞的原因可能是连不上server。处理方法将如下代码放在“启动文件”里“import mxnet”之前可以看到节点间相互通信状态，同时ps能够重新发送。 import os os.environ['PS_VERBOSE']

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
创建生产训练作业 - AI开发平台ModelArts

目录中。启动文件必填，选择代码目录中训练作业的Python启动脚本。 ModelArts只支持使用Python语言编写的启动文件，因此启动文件必须以“.py”结尾。本地代码目录仅当“代码来源”选择“对象OBS存储”时才显示该参数。指定训练容器的本地目录，启动训练时系统会将代码目录下载至此目录。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
创建算法 - AI开发平台ModelArts
创建算法 - AI开发平台ModelArts

一同出现。 boot_file 否 String 算法的代码启动文件，需要在代码目录下。如：“/usr/app/boot.py”。应与code_dir一同出现。 command 否 String 自定义镜像算法的容器启动命令。 parameters 否 Array of Parameters

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
推理精度测试 - AI开发平台ModelArts

#运行opencompass脚本 ├──install.sh #安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字确保容器内通网，未通网需要配置$co

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906）

总条数： 881

上一页
1
...
8
9
10
...
45
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在ModelArts Standard上运行GPU单机多卡训练任务 - AI开发平台ModelArts

开发Workflow的核心概念介绍 - AI开发平台ModelArts

模型的自定义镜像制作流程 - AI开发平台ModelArts

配置节点参数控制分支执行 - AI开发平台ModelArts

使用ModelArts PyCharm插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

训练作业的自定义镜像如何安装Moxing？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

使用PyCharm ToolKit创建并调试训练作业 - AI开发平台ModelArts

Notebook中构建新镜像 - AI开发平台ModelArts

使用VS Code创建并调试训练作业 - AI开发平台ModelArts

Tensorflow多节点作业下载数据到/cache显示No space left - AI开发平台ModelArts

创建模型成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

更新服务配置 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

MXNet创建kvstore时程序被阻塞，无报错 - AI开发平台ModelArts

创建生产训练作业 - AI开发平台ModelArts

创建算法 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线