搜索_华为云

准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。购买共享存储硬盘资源（多机训练场景）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。购买共享存储硬盘资源（多机训练场景）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
MoXing常用操作的样例代码 - AI开发平台ModelArts

t_name/sub_dir_0/abc，当调用mox.file.is_directory时，会返回True。获取一个OBS文件的大小，单位为bytes。例如获取“obs://bucket_name/obs_file.txt”的文件大小。 1 2 import moxing as

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令
SDXL基于DevServer适配PyTorch NPU的Finetune训练指导（6.3.905） - AI开发平台ModelArts

PyTorch pytorch_2.1.0 获取软件和镜像表2 获取软件和镜像分类名称获取路径插件代码包 AscendCloud-3rdAIGC-6.3.905-xxx.zip 文件名中的xxx表示具体的时间戳，以包名发布的实际时间为准。获取路径：Support-E 如果没有软

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。购买共享存储硬盘资源（多机训练场景）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。购买共享存储硬盘资源（多机训练场景）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。购买共享存储硬盘资源（多机训练场景）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
训练启动脚本说明和参数配置 - AI开发平台ModelArts

ORIGINAL_HF_WEIGHT /home/ma-user/ws/llm_train/AscendSpeed/model/llama2-70B 必须修改。加载tokenizer与Hugging Face权重时，对应的存放地址。请根据实际规划修改。 MODEL_NAME llama2-70b 对应模型名称。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

ORIGINAL_HF_WEIGHT /home/ma-user/work/model/llama-2-13b-chat-hf 必须修改。加载tokenizer与Hugging Face权重时，对应的存放地址。请根据实际规划修改。 MODEL_NAME llama2-13b 对应模型名称。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

ORIGINAL_HF_WEIGHT /home/ma-user/ws/llm_train/AscendSpeed/model/llama2-70B 必须修改。加载tokenizer与Hugging Face权重时，对应的存放地址。请根据实际规划修改。 SHELL_FOLDER $(dirname $(readlink

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

ORIGINAL_HF_WEIGHT /home/ma-user/work/model/llama-2-13b-chat-hf 必须修改。加载tokenizer与Hugging Face权重时，对应的存放地址。请根据实际规划修改。 SHELL_FOLDER $(dirname $(readlink

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

conv2 = self.make_layer(block, 64, 64, 2, 1) self.conv3 = self.make_layer(block, 64, 128, 2, 2) self.conv4 = self.make_layer(block

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

service会优先读取网卡配置文件中的IP设置为主机IP，此时无论DH Cient是否关闭，服务器都可以获取分配IP。当服务器没有网卡配置文件时，DH Client开启，此时服务器会分配私有IP。如果关闭DH Client，则服务器无法获取私有IP。图2 查看NetworkManager配置图3 查看网络配置

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

分析错误时：训练镜像先看日志，推理镜像先看API的返回。可以通过命令查看容器输出到stdout的所有日志： docker logs -f 39c9ceedb1f6 一般在做推理镜像时，部分日志是直接存储在容器内部的，所以需要进入容器看日志。注意：重点对应日志中是否有ERROR（包括，容器启动时、API执行时）。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
从0制作自定义镜像用于创建训练作业（MindSpore+Ascend） - AI开发平台ModelArts

utils ca-certificates vim curl \ # CANN 6.3.RC2 gcc-7 g++ make cmake zlib1g zlib1g-dev openssl libsqlite3-dev libssl-dev libffi-dev unzip

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

个人防护装备：确保您和您的同事穿戴正确的个人防护装备，如安全鞋、透明眼镜或面罩、手套等。\n\n5.创建一个安全文化：鼓励个人对安全的责任感和意识，并创建一个安全文化，使人们始终关注他们自己和他人的安全。\n\n6.持续监测和改进：持续监测和改进安全准则和程序，以确保它们保持最新，并适应变化的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.910） > 准备工作
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

个人防护装备：确保您和您的同事穿戴正确的个人防护装备，如安全鞋、透明眼镜或面罩、手套等。\n\n5.创建一个安全文化：鼓励个人对安全的责任感和意识，并创建一个安全文化，使人们始终关注自己和他人的安全。\n\n6.持续监测和改进：持续监测和改进安全准则和程序，以确保它们保持最新，并适应变化的情

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909） > 准备工作
Wav2Lip训练基于DevServer适配PyTorch NPU训练指导（6.3.907） - AI开发平台ModelArts

Snt9B单机单卡。表1 环境要求名称版本 driver 23.0.6 PyTorch pytorch_2.1.0 获取软件和镜像表2 获取软件和镜像分类名称获取路径插件代码包 AscendCloud-6.3.907-xxx.zip软件包中的AscendCloud-AIGC-6

帮助中心 > AI开发平台ModelArts > 最佳实践 > 数字人模型训练推理
查看训练作业详情 - AI开发平台ModelArts

本次训练作业使用的训练规格。 “输入-输入路径” 本次训练中，输入数据的OBS路径。 “输入-参数名称” 算法代码中，输入路径指代的参数。 “输入-获取方式” 本次训练作业的输入采用的获取方式。 “输入-本地路径（训练参数值）” 训练启动后，ModelArts将OBS路径中的数据下载至后台容器，本地路径指M

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

yaml”文件。 “config.yaml”文件用于配置pod，代码示例如下。代码中的“xxxx_train.sh”即为2修改的训练启动脚本。 apiVersion: batch.volcano.sh/v1alpha1 kind: Job metadata: name: yourvcjobname

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用

总条数： 1791

上一页
1
...
76
77
78
...
90
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

MoXing常用操作的样例代码 - AI开发平台ModelArts

SDXL基于DevServer适配PyTorch NPU的Finetune训练指导（6.3.905） - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（MindSpore+Ascend） - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

Wav2Lip训练基于DevServer适配PyTorch NPU训练指导（6.3.907） - AI开发平台ModelArts

查看训练作业详情 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线