搜索_华为云

Standard Workflow - AI开发平台ModelArts

程，使团队能够大规模执行AI任务，并提高模型生成的效率。 ModelArts Workflow提供标准化MLOps解决方案，降低模型训练成本支持数据标注、数据处理、模型开发/训练、模型评估、应用开发、应用评估等步骤自动协调工作流步骤之间的所有依赖项，提供运行记录、监控、持续运行等功能

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
创建Notebook失败，查看事件显示JupyterProcessKilled - AI开发平台ModelArts

出现此故障是因为Jupyter进程被清理掉了，一般情况Notebook会自动重启的，如果没有自动重启，创建一直失败，请确认是否是自定义镜像的问题。解决方案排查是否是自定义镜像的问题。自定义镜像构建完成，在ModelArts镜像管理注册时，“架构”和“类型”需要和源镜像保持一致。图2 注册镜像

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 实例故障
使用自定义镜像创建Notebook后打开没有kernel - AI开发平台ModelArts

使用自定义镜像创建实例启动后，打开JupyterLab>新建Notebook，选不到kernel。原因分析自定义镜像的python环境没有注册。解决方案在Terminal里执行命令排查实例存在几个Conda环境。 conda env list 执行如下命令分别切换到对应环境查看是否有ipykernel包。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
推理精度测试 - AI开发平台ModelArts

确保容器可以访问公网。使用opencompass工具需用vllm接口启动在线服务。当前的精度测试仅适用于语言模型精度验证，不适用于多模态模型的精度验证。多模态模型的精度验证，建议使用开源MME数据集和工具（GitHub - BradyFU/Awesome-Multimodal-Large-Language-Models

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910）
分布式Tensorflow无法使用“tf.variable” - AI开发平台ModelArts

分布式Tensorflow无法使用“tf.variable” 问题现象多机或多卡使用“tf.variable”会造成以下错误： WARNING:tensorflow:Gradient is None for variable:v0/tower_0/UNET_v7/sub_pixel/Variable:0

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
资源选择推荐 - AI开发平台ModelArts

方案可提升模型训练效率与资源性价比。ModelArts支持单机单卡、单机多卡和多机多卡的训练场景，满足不同AI模型训练的要求。针对第一次使用ModelArts的用户，本文提供端到端案例指导，帮助您快速了解如何在ModelArts上选择合适的训练方案并进行模型训练。针对不同的数据量和算法情况，推荐以下训练方案：

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练
ModelArts中提示OBS相关错误 - AI开发平台ModelArts

OBS文件加密上传导致。ModelArts不支持OBS加密文件。 OBS桶的权限和访问ACL设置不正确导致。创建训练作业时，代码目录和启动文件设置有误。处理办法查看OBS桶与ModelArts是否在同一个区域查看创建的OBS桶所在区域。登录OBS管理控制台。进入“对象存储”界面，可在搜

 帮助中心 > AI开发平台ModelArts > 故障排除 > 通用问题
ModelArts训练作业为什么存在/work和/ma-user两种超参目录？ - AI开发平台ModelArts

创建训练作业时，输入输出参数的超参目录有的是/work，有的是/ma-user。图1 目录是/ma-user 图2 目录是/work 解决方案这是创建训练作业选用的算法有差异导致的。如果选择的算法是使用旧版镜像创建的，那么创建训练作业时输入输出参数的超参目录就是/work。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
Notebook中已安装对应库，仍报错import numba ModuleNotFoundError: No module named 'numba' - AI开发平台ModelArts

有这个库。原因分析客户创建了多个虚拟环境，numba库安装在了python-3.7.10中，如图1所示。图1 查询创建的虚拟环境解决方案在Terminal中执行conda deactivate命令退出当前虚拟环境，默认进入base环境。执行pip list命令查询已安装

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
推理精度测试 - AI开发平台ModelArts

确保容器可以访问公网。使用opencompass工具需用vllm接口启动在线服务。当前的精度测试仅适用于语言模型精度验证，不适用于多模态模型的精度验证。多模态模型的精度验证，建议使用开源MME数据集和工具（GitHub - BradyFU/Awesome-Multimodal-Large-Language-Models

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）
ModelArts导入模型时，如何编写模型配置文件中的安装包依赖参数？ - AI开发平台ModelArts

、安装方式和版本约束的信息，详细参数见模型配置文件编写说明。导入模型时，模型配置文件中的安装包依赖参数“dependencies”如何编写？解决方案安装包存在前后依赖关系。例如您在安装“mmcv-full”之前，需要完成“Cython”、“pytest-runner”、“py

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
用户使用ma-cli制作自定义镜像失败，报错文件不存在（not found） - AI开发平台ModelArts

复制的文件需要放在Dockerfile同级文件夹或者子目录中，不能放在Dockerfile上层目录。图2 Dockerfile复制文件路径错误解决方案查看用户Dockerfile中的COPY命令中的文件的路径。将要复制的文件放到Dockerfile同级目录或子目录中，如图，Dockerfile在“

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
Lite Server资源配置流程 - AI开发平台ModelArts

配置Lite Server存储 Server资源需要挂载数据盘用于存储数据文件，当前支持SFS、OBS、EVS三种云存储服务，提供了多种场景下的存储解决方案。 3 配置Lite Server软件环境不同镜像中预安装的软件不同，您通过Lite Server算力资源和镜像版本配套关系章节查看已

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
如何在ModelArts的Notebook中配置Conda源？ - AI开发平台ModelArts

如何在ModelArts的Notebook中配置Conda源？用户可以在Notebook开发环境中自行安装开发依赖包，方便使用。常见的依赖安装支持pip和Conda，pip源已经配置好，可以直接使用安装，Conda源需要多一步配置。本章节介绍如何在Notebook开发环境中配置Conda源。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

VS Code连接开发环境失败时的排查方法 VS Code连接开发环境失败时，请参考以下步骤进行基础排查。网络链路检查在ModelArts控制台查看Notebook实例状态是否正常，确保实例无问题。在VS Code Terminal里执行如下命令检测SSH命令是否可用； ssh

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
推理精度测试 - AI开发平台ModelArts

本章节介绍如何使用lm-eval工具开展语言模型的推理精度测试，数据集包含mmlu、ARC_Challenge、GSM_8k、Hellaswag、Winogrande、TruthfulQA等。约束限制确保容器可以访问公网。当前的精度测试仅适用于语言模型精度验证，不适用于多模态模

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
推理精度测试 - AI开发平台ModelArts

本章节介绍如何使用lm-eval工具开展语言模型的推理精度测试，数据集包含mmlu、ARC_Challenge、GSM_8k、Hellaswag、Winogrande、TruthfulQA等。约束限制确保容器可以访问公网。当前的精度测试仅适用于语言模型精度验证，不适用于多模态模

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
推理精度测试 - AI开发平台ModelArts

本章节介绍如何使用lm-eval工具开展语言模型的推理精度测试，数据集包含mmlu、ARC_Challenge、GSM_8k、Hellaswag、Winogrande、TruthfulQA等。约束限制确保容器可以访问公网。当前的精度测试仅适用于语言模型精度验证，不适用于多模态模

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
推理精度测试 - AI开发平台ModelArts

本章节介绍如何使用lm-eval工具开展语言模型的推理精度测试，数据集包含mmlu、ARC_Challenge、GSM_8k、Hellaswag、Winogrande、TruthfulQA等。约束限制确保容器可以访问公网。当前的精度测试仅适用于语言模型精度验证，不适用于多模态模

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
分布式训练功能介绍 - AI开发平台ModelArts

DistributedDataParallel进行多机多卡训练的优缺点通信更快：相比于DP，通信速度更快负载相对均衡：相比于DP，GPU负载相对更均衡运行速度快：因为通信时间更短，效率更高，能更快速地完成训练作业。相关章节创建单机多卡的分布式训练（DataParallel）：介绍单机多卡数据并行分布式训练原理和代码改造点。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练

总条数： 1217

上一页
1
...
5
6
7
...
61
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Standard Workflow - AI开发平台ModelArts

创建Notebook失败，查看事件显示JupyterProcessKilled - AI开发平台ModelArts

使用自定义镜像创建Notebook后打开没有kernel - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

分布式Tensorflow无法使用“tf.variable” - AI开发平台ModelArts

资源选择推荐 - AI开发平台ModelArts

ModelArts中提示OBS相关错误 - AI开发平台ModelArts

ModelArts训练作业为什么存在/work和/ma-user两种超参目录？ - AI开发平台ModelArts

Notebook中已安装对应库，仍报错import numba ModuleNotFoundError: No module named 'numba' - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

ModelArts导入模型时，如何编写模型配置文件中的安装包依赖参数？ - AI开发平台ModelArts

用户使用ma-cli制作自定义镜像失败，报错文件不存在（not found） - AI开发平台ModelArts

Lite Server资源配置流程 - AI开发平台ModelArts

如何在ModelArts的Notebook中配置Conda源？ - AI开发平台ModelArts

VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

分布式训练功能介绍 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线