搜索_华为云

在ModelArts创建分布式训练时如何设置NCCL环境变量？ - AI开发平台ModelArts

在ModelArts创建分布式训练时如何设置NCCL环境变量？ ModelArts训练平台预置了部分NCCL环境变量，如表1所示。这些环境变量建议保持默认值。表1 预置的环境变量环境变量说明 NCCL_SOCKET_IFNAME 指定通信的网卡名称。 NCCL_IB_GID_INDEX 系统设置的默认值为3，表示使用RoCE

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 创建训练作业
自动学习中偏好设置的各参数训练速度大概是多少 - AI开发平台ModelArts

自动学习中偏好设置的各参数训练速度大概是多少偏好设置中： performance_first：性能优先，训练时间较短，模型较小。对于TXT、图片类训练速度为10毫秒。 balance：平衡。对于TXT、图片类训练速度为14毫秒。 accuracy_first：精度优先，训练

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习 > 模型训练
使用ModelArts Studio的Llama3.1-8B模型框架实现对话问答 - AI开发平台ModelArts

图5 资源设置表2 部署模型服务参数说明取值样例服务设置服务名称自定义模型服务的名称。 service-llama3 描述部署模型服务的简介。 - 模型设置部署模型当从“我的模型”进入部署模型服务页面时，此处默认呈现选择的模型。 llama3.1 资源设置资源池类型

 帮助中心 > AI开发平台ModelArts > 快速入门
训练过程中无法找到so文件 - AI开发平台ModelArts

/usr -name *libcudart.so*); 设置环境变量LD_LIBRARY_PATH，设置完成后，重新下发作业即可。例如so文件的存放路径为：/use/local/cuda/lib64，LD_LIBRARY_PATH设置如下： export LD_LIBRARY_PAT

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练场景描述 ranktable路由规划是一种用于分布式并行训练中的通信优化能力，在使用NPU的场景下，支持对节点之间的通信路径根据交换机实际topo做网络路由亲和规划，进而提升节点之间的通信速度。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
创建ModelArts数据校验任务 - AI开发平台ModelArts

图1 创建数据处理基本信息设置场景类别。场景类别当前支持“图像分类”和“物体检测”。设置数据处理类型为“数据清洗”，填写相应算子的设置参数，算子的详细参数参见数据校验算子说明（MetaValidation算子）。图2 设置场景类别和数据处理类型设置输入与输出。需根据实际数据

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

端口有问题，请联系技术支持。端口无问题请继续远端排查。远端排查排查/home/ma-user目录权限是否为755/750，不是该权限，请执行如下命令设置权限。 chmod 755 /home/ma-user 排查/home/ma-user/.ssh目录权限是否为755/750，不是该权限请修改。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

端口有问题，请联系技术支持。端口无问题请继续远端排查。远端排查排查/home/ma-user目录权限是否为755/750，不是该权限，请执行如下命令设置权限。 chmod 755 /home/ma-user 排查/home/ma-user/.ssh目录权限是否为755/750，不是该权限请修改。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
在ModelArts Studio基于Llama3-8B模型实现新闻自动分类 - AI开发平台ModelArts

/maas-test/news/out 超参设置迭代步数/Iterations 设置模型参数/权重更新的次数。在调优过程中，每一个Iterations会消耗32条训练数据。参见表3 学习率/learning_rate 设置每个迭代步数（iteration）模型参数/权重更新的速率。学习率设置得过高会导致模

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
物体检测标注时除了位置、物体名字，是否可以设置其他标签，比如是否遮挡、亮度等？ - AI开发平台ModelArts

物体检测标注时除了位置、物体名字，是否可以设置其他标签，比如是否遮挡、亮度等？可以通过修改数据集给标签添加自定义属性来设置一些自定义的属性。图1 修改数据集父主题： Standard数据管理

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理
SFT全参微调训练 - AI开发平台ModelArts

（此参数目前仅适用于Llama3系列模型长序列训练） LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 TRAIN_ITERS 100 表示训练step迭代次数，根据实际需要修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909）
使用MaaS部署模型服务 - AI开发平台ModelArts

配置。表1 部署模型服务参数说明服务设置服务名称自定义部署模型服务的名称。支持1~64位，以中文、大小写字母开头，只包含中文、大小写字母、数字、中划线、下划线的名称。描述部署模型服务的简介。支持256字符。模型设置部署模型单击“选择模型”，从“我的模型”列表中选择需要部署的模型。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
创建生产训练作业 - AI开发平台ModelArts

选用的是预置框架的MindSpore类引擎、资源池类型选用的是Ascend资源时，则支持选择训练模式。（可选）设置标签：如果需要对训练作业进行资源分组管理，可以设置标签。后续操作。进入创建训练作业页面登录ModelArts管理控制台。在左侧导航栏中，选择“模型训练 > 训练作业”进入训练作业列表。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

（此参数目前仅适用于Llama3系列模型长序列训练） LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 TRAIN_ITERS 100 表示训练step迭代次数，根据实际需要修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909）
LoRA微调训练 - AI开发平台ModelArts

（此参数目前仅适用于Llama3系列模型长序列训练） LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 TRAIN_ITERS 100 表示训练step迭代次数，根据实际需要修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909）
模型训练存储加速 - AI开发平台ModelArts

Turbo存储加速的具体方案请查看：面向AI场景使用OBS+SFS Turbo的存储加速实践。设置训练存储加速当完成上传数据至OBS并预热到SFS Turbo中步骤后，在ModelArts Standard中创建训练作业时，设置训练“SFS Turbo”，在“文件系统”中选择SFS Turbo实例名

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
开发用于自定义镜像训练的代码 - AI开发平台ModelArts

arts/user-job-dir/code/train.py”。可通过以下方式使用指定的“conda env”启动训练：方式一：为镜像设置正确的“DEFAULT_CONDA_ENV_NAME”环境变量与“ANACONDA_DIR”环境变量。 ANACONDA_DIR=/home/ma-user/anaconda3

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
使用预置镜像制作自定义镜像用于训练模型 - AI开发平台ModelArts

--chown=ma-user:ma-group pip.conf /home/ma-user/.pip/pip.conf # 设置容器镜像预置环境变量 # 将python解释器路径加入到PATH环境变量中 # 请务必设置PYTHONUNBUFFERED=1, 以免日志丢失 ENV PATH=${ANACONDA_

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

如上发现reboot后内核为4.18.0-147.5.1.6.h998.eulerosv2r9.x86_64，和当前内核版本h934不一致，则需要重新设置内核版本与当前版本一致。查看当前内核版本，并且锁定reboot后默认启动的内核版本，执行如下命令： grub2-set-default 'EulerOS

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
Lite Server算力资源和镜像版本配套关系 - AI开发平台ModelArts

Lite Server算力资源和镜像版本配套关系 Lite Server提供多种NPU、GPU镜像，您可在购买前了解当前支持的镜像及对应详情。 NPU Snt9裸金属服务器支持的镜像详情镜像名称：ModelArts-Euler2.8_Aarch64_Snt9_C78 表1 镜像详情

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读

总条数： 629

上一页
1
2
3
4
5
...
32
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在ModelArts创建分布式训练时如何设置NCCL环境变量？ - AI开发平台ModelArts

自动学习中偏好设置的各参数训练速度大概是多少 - AI开发平台ModelArts

使用ModelArts Studio的Llama3.1-8B模型框架实现对话问答 - AI开发平台ModelArts

训练过程中无法找到so文件 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

创建ModelArts数据校验任务 - AI开发平台ModelArts

VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

在ModelArts Studio基于Llama3-8B模型实现新闻自动分类 - AI开发平台ModelArts

物体检测标注时除了位置、物体名字，是否可以设置其他标签，比如是否遮挡、亮度等？ - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

使用MaaS部署模型服务 - AI开发平台ModelArts

创建生产训练作业 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

模型训练存储加速 - AI开发平台ModelArts

开发用于自定义镜像训练的代码 - AI开发平台ModelArts

使用预置镜像制作自定义镜像用于训练模型 - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

Lite Server算力资源和镜像版本配套关系 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线