华为云用户手册

AI开发平台MODELARTS-准备资源:创建SFS Turbo

创建SFS Turbo SFS Turbo HPC型文件系统为用户提供一个完全托管的共享文件存储。SFS Turbo文件系统支持无缝访问存储在OBS对象存储桶中的对象，用户可以指定SFS Turbo内的目录与OBS对象存储桶进行关联，然后通过创建导入导出任务实现数据同步。通过OBS与SFS Turbo存储联动，可以将最新的训练数据导入到SFS Turbo，然后在训练作业中挂载SFS Turbo到容器对应ckpt目录，实现分布式读取训练数据文件。创建SFS Turbo文件系统前提条件：创建SFS Turbo文件系统前，确认已有可用的VPC。需要由 IAM 用户设置SFS Turbo FullAccess权限，用于授权ModelArts云服务使用SFS Turbo。详细操作指导请参考创建SFS Turbo文件系统。图1 创建SFS Turbo 其中，文件系统类型推荐选用500MB/s/TiB或1000MB/s/TiB，应用于AI大模型场景中。存储容量推荐使用 6.0~10.8TB ，以存储更多模型文件。图2 SFS类型和容量选择

AI开发平台MODELARTS
AI开发平台MODELARTS-准备资源:创建ECS服务器

创建E CS 服务器弹性云服务器（Elastic Cloud Server，ECS）是由CPU、内存、操作系统、云硬盘组成的一种可随时获取、弹性可扩展的云服务器。具体过程请参考ECS文档购买一个Linux弹性云服务器。创建完成后，单击“远程登录”，可直接访问ECS服务器。注意：CPU架构必须选择鲲鹏计算；镜像推荐选择EulerOS；ECS服务器确保可以访问公网，用于获取镜像和构建镜像。图3 购买ECS

AI开发平台MODELARTS
AI开发平台MODELARTS-准备资源:ECS服务器挂载SFS Turbo

ECS服务器挂载SFS Turbo ECS服务器中手动挂载SFS Turbo步骤如下：用户可通过CloudShell或SSH等方式登录并访问ECS服务器，进入ECS终端界面。创建/mnt/sfs_turbo目录作为挂载目录，命令为：mkdir /mnt/sfs_turbo。单击用户创建的SFS Turbo，查看基本信息图4，找到并复制挂载命令。在ECS的终端中粘贴SFS Turbo挂载命令，完成挂载。挂载完成后，可通过后续的步骤获取到代码和数据，并上传至/mnt/sfs_turbo路径下。图4 SFS Turbo基本信息

AI开发平台MODELARTS
AI开发平台MODELARTS-准备资源:创建OBS桶

创建OBS桶 ModelArts使用对象存储服务（Object Storage Service，简称OBS）进行数据存储以及模型的备份和快照，实现安全、高可靠和低成本的存储需求。因此，在使用ModelArts之前通常先创建一个OBS桶，然后在OBS桶中创建文件夹用于存放数据。具体过程请参考创建OBS桶，例如桶名：standard-llama2-13b。由于ModelArts创建训练作业时，需要将作业日志输出至OBS桶中，因此创建OBS桶为必选项。用户可通过OBS Browser+、obsutil等工具访问和管理OBS桶，将代码、模型文件、数据集等数据上传或下载进行备份。

AI开发平台MODELARTS
AI开发平台MODELARTS-执行训练任务（历史版本）:步骤二修改训练超参配置

步骤二修改训练超参配置以Llama2-70b和Llama2-13b的SFT微调为例，执行脚本为0_pl_sft_70b.sh 和 0_pl_sft_13b.sh 。修改模型训练脚本中的配置，参数详解可查看训练参数说明，其中【GBS、MBS、TP、PP】参数值可参考模型推荐参数、NPU卡数设置。对于Yi系列模型、ChatGLMv3-6B和Qwen系列模型，还需要手动修改训练参数和tokenizer文件，具体请参见训练tokenizer文件说明。同时开启故障快恢和断点续训时需满足以下条件：如果用户指定${USER_CONVERTED_CKPT_PATH} 因故障快恢读取权重的优先级最高则训练过程的权重保存路径${OUTPUT_SAVE_DIR}/saved_checkpoints 必须为空，否则此参数无效断点续训失效。如果就是使用最新的训练权重进行断点续训（暂停+启动场景），那么可以同时指定MA_TRAIN_AUTO_RESUME =1和 ${USER_CONVERTED_CKPT_PATH}训练过程的权重保存路径，加载路径一致。故障快恢依赖训练过程的权重保存路径。所以如果开启 MA_TRAIN_AUTO_RESUME=1，则用户指定的权重加载路径${USER_CONVERTED_CKPT_PATH}不能是训练过程的权重保存路径。

AI开发平台MODELARTS 执行训练任务
AI开发平台MODELARTS-预训练:Step2 配置数据输入和输出

Step2 配置数据输入和输出单击“增加训练输入”和“增加训练输出”，用于配置训练作业开始时需要输入数据的路径和训练结束后输出数据的路径。在“输入”的输入框内设置变量：ORIGINAL_TRAIN_DATA_PATH、ORIGINAL_HF_WEIGHT。 ORIGINAL_TRAIN_DATA_PATH：训练时指定的输入数据集路径。 ORIGINAL_HF_WEIGHT：加载tokenizer与Hugging Face权重时，对应的存放地址。在“输出”的输入框内设置变量：OUTPUT_SAVE_DIR、HF_SAVE_DIR。 OUTPUT_SAVE_DIR：训练完成后指定的输出模型路径。 HF_SAVE_DIR：训练完成的权重文件自动转换为Hugging Face格式权重输出的路径（确保添加CONVERT_MG2HF环境变量并设置为True）。分别单击“输入”和“输出”的数据存储位置，如图所示，选择OBS桶中指定的目录。ORIGINAL_TRAIN_DATA_PATH中则直接选中数据集文件。 “输入”和“输出”中的获取方式全部选择为：环境变量。 “输出”中的预下载至本地目标选择：下载，此时输出路径中的数据则会下载至OBS中。

AI开发平台MODELARTS 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908）
AI开发平台MODELARTS-预训练:Step1 创建训练任务

Step1 创建训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及选择上传的镜像。代码目录选择：OBS桶路径下的llm_train/AscendSpeed代码目录。图1 创建训练作业如果镜像使用使用基础镜像中的基础镜像时，训练作业启动命令中输入： cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh ./scripts/install.sh; sh ./scripts/obs_pipeline.sh 如果镜像使用ECS中构建新镜像构建的新镜像时，训练作业启动命令中输入： cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh ./scripts/obs_pipeline.sh

AI开发平台MODELARTS 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908）
AI开发平台MODELARTS-预训练:Step4 开启训练故障自动重启功能

Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置继续训练，加载中断生成的checkpoint，中间不需要改动任何参数。可以通过训练脚本中的SAVE_INTERVAL参数来指定间隔多少step保存checkpoint。如果要使用自动重启功能，资源规格必须选择八卡规格。当前功能还处于试验阶段，只有llama3-8B/70B适配。

AI开发平台MODELARTS 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
AI开发平台MODELARTS-预训练:Step2 配置数据输入和输出

Step2 配置数据输入和输出单击“增加训练输入”和“增加训练输出”，用于配置训练作业开始时需要输入数据的路径和训练结束后输出数据的路径。在“输入”的输入框内设置变量：ORIGINAL_TRAIN_DATA_PATH、ORIGINAL_HF_WEIGHT。 ORIGINAL_TRAIN_DATA_PATH：训练时指定的输入数据集路径。 ORIGINAL_HF_WEIGHT：加载tokenizer与Hugging Face权重时，对应的存放地址。在“输出”的输入框内设置变量：OUTPUT_SAVE_DIR、HF_SAVE_DIR。 OUTPUT_SAVE_DIR：训练完成后指定的输出模型路径。 HF_SAVE_DIR：训练完成的权重文件自动转换为Hugging Face格式权重输出的路径（确保添加CONVERT_MG2HF环境变量并设置为True）。分别单击“输入”和“输出”的数据存储位置，如图所示，选择OBS桶中指定的目录。ORIGINAL_TRAIN_DATA_PATH中则直接选中数据集文件。 “输入”和“输出”中的获取方式全部选择为：环境变量。 “输出”中的预下载至本地目标选择：下载，此时输出路径中的数据则会下载至OBS中。

AI开发平台MODELARTS 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
AI开发平台MODELARTS-预训练:Step1 创建训练任务

Step1 创建训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及选择上传的镜像。代码目录选择：OBS桶路径下的llm_train/AscendSpeed代码目录。图1 创建训练作业如果镜像使用使用基础镜像中的基础镜像时，训练作业启动命令中输入： cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh ./scripts/install.sh; sh ./scripts/obs_pipeline.sh 如果镜像使用ECS中构建新镜像构建的新镜像时，训练作业启动命令中输入： cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh ./scripts/obs_pipeline.sh

AI开发平台MODELARTS 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
AI开发平台MODELARTS-SDXL&SD1.5 ComfyUI基于Lite Cluster适配NPU推理指导（6.3.906）:Step3 下载并安装软件

Step3 下载并安装软件在宿主机上创建目录/root/comfyui，将下面步骤中所有的文件放到/root/comfyui目录下。下载模型，模型下载地址：SD1.5模型地址，SDXL下载地址。根据自己的需要下载对应的模型。将获取到的ComfyUI插件AscendCloud-AIGC-6.3.906-xxx.zip文件上传到/root/comfyui，并解压。获取路径参见表2。 unzip AscendCloud-AIGC-*.zip -d ./AscendCloud mv AscendCloud/aigc_inference/torch_npu/comfyui/831511a1eecbe271/comfyui_ascend_node ./ rm -rf AscendCloud* 编写dockerfile FROM swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2.1.0-cann_8.0.rc2-py_3.9-hce_2.0.2312-aarch64-snt9b-20240606190017-b881580 RUN cd /home/ma-user && git clone https://github.com/comfyanonymous/ComfyUI.git -c http.sslVerify=false && cd ComfyUI/ && git reset --hard 831511a1eecbe271e302f2f2053f285f00614180 && pip install -r requirements.txt COPY --chown=ma-user:ma-group v1-5-pruned-emaonly.safetensors /home/ma-user/ComfyUI/models/checkpoints COPY --chown=ma-user:ma-group sd_xl_base_1.0.safetensors /home/ma-user/ComfyUI/models/checkpoints COPY --chown=ma-user:ma-group comfyui_ascend_node /home/ma-user/ComfyUI/custom_nodes/comfyui_ascend_node ENTRYPOINT cd /home/ma-user/ComfyUI && source /usr/local/Ascend/ascend-toolkit/set_env.sh && python main.py --port 30027 --listen 0.0.0.0 --force-fp16 基于dockerfile进行build docker build -t comfyui:v1 .

AI开发平台MODELARTS 文生图模型训练推理
AI开发平台MODELARTS-SDXL&SD1.5 ComfyUI基于Lite Cluster适配NPU推理指导（6.3.906）:获取软件和镜像

获取软件和镜像表2 获取软件和镜像分类名称获取路径插件代码包 AscendCloud-6.3.906-xxx.zip软件包中的AscendCloud-AIGC-6.3.906-xxx.zip 说明：包名中的xxx表示具体的时间戳，以包名的实际时间为准。获取路径：Support-E。说明：如果没有下载权限，请联系您所在企业的华为方技术支持下载获取。基础镜像西南-贵阳一：swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2.1.0-cann_8.0.rc2-py_3.9-hce_2.0.2312-aarch64-snt9b-20240606190017-b881580 从SWR拉取。

AI开发平台MODELARTS 文生图模型训练推理
AI开发平台MODELARTS-SDXL&SD1.5 ComfyUI基于Lite Cluster适配NPU推理指导（6.3.906）:Step1 准备环境

Step1 准备环境请参考Cluster资源开通，购买Cluster资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。配置Cluster资源，确保可以通过公网访问Cluster机器，具体配置请参见配置Lite Cluster网络。 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64

AI开发平台MODELARTS 文生图模型训练推理
AI开发平台MODELARTS-训练tokenizer文件说明:Yi模型

Yi模型在使用Yi模型的chat版本时，由于transformer 4.38版本的bug，导致在读取tokenizer文件时，加载的vocab_size出现类似如下尺寸不匹配的问题。 RuntimeError: Error(s) in loading state_dict for VocabParallelEmbedding: size mismatch for weight: copying a param with shape torch.Size([64000, 4096]) from checkpoint, the shape in current model is torch.Size([63992, 4096]). 需要在训练开始前，修改llm_train/AscendFactory/yi/3_training.sh文件，并添加--tokenizer-not-use-fast参数。修改后如图1所示。图1 修改Yi模型3_training.sh文件

AI开发平台MODELARTS 训练脚本说明参考
AI开发平台MODELARTS-训练tokenizer文件说明:ChatGLMv3-6B

ChatGLMv3-6B 在训练开始前，针对ChatGLMv3-6B模型中的tokenizer文件，需要修改代码。修改文件chatglm3-6b/tokenization_chatglm.py 。文件最后几处代码中需要修改，具体位置可根据上下文代码信息进行查找，修改后如图2所示。图2 修改ChatGLMv3-6B tokenizer文件图3 修改ChatGLMv3-6B tokenizer文件

AI开发平台MODELARTS 训练脚本说明参考
AI开发平台MODELARTS-准备数据:上传数据到指定目录

上传数据到指定目录将下载的原始数据存放在/home/ma-user/ws/training_data目录下。具体步骤如下：进入到/home/ma-user/ws/目录下。创建目录“training_data”，并将原始数据放置在此处。 mkdir training_data 数据存放参考目录结构如下： ${workdir}（例如/home/ma-user/ws ） |── training_data |── train-00000-of-00001-a09b74b3ef9c3b56.parquet # 训练原始数据集 |── alpaca_gpt4_data.json # 微调数据文件多机情况下，只有在rank_0节点进行数据预处理，转换权重等工作，所以原始数据集和原始权重，包括保存结果路径，都应该在共享目录下。

AI开发平台MODELARTS
AI开发平台MODELARTS-准备数据:Alpaca数据集

Alpaca数据集本教程使用Alpaca数据集，数据集的介绍及下载链接如下。 Alpaca数据集是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令数据可以用来对语言模型进行指令调优，使语言模型更好地遵循指令。预训练使用的Alpaca数据集下载：https://huggingface.co/datasets/tatsu-lab/alpaca/resolve/main/data/train-00000-of-00001-a09b74b3ef9c3b56.parquet，数据大小：24M左右。 SFT和LoRA微调使用的Alpaca数据集下载：https://huggingface.co/datasets/QingyiSi/Alpaca-CoT/blob/main/alpacaGPT4/alpaca_gpt4_data.json，数据大小：43.6 MB。

AI开发平台MODELARTS
AI开发平台MODELARTS-训练的数据集预处理说明:微调数据集预处理参数说明

微调数据集预处理参数说明微调包含SFT和LoRA微调。数据集预处理脚本参数说明如下： --input：原始数据集的存放路径。 --output-prefix：处理后的数据集保存路径+数据集名称（例如：moss-003-sft-data） --tokenizer-type：tokenizer的类型，可选项有['BertWordPieceLowerCase'，'BertWordPieceCase'，'GPT2BPETokenizer'，'PretrainedFromHF']，一般为PretrainedFromHF。 --tokenizer-name-or-path：tokenizer的存放路径，与HF权重存放在一个文件夹下。 --handler-name：生成数据集的用途，这里是生成的指令数据集，用于微调。 GeneralInstructionHandler：用于sft、lora微调时的数据预处理过程中，会对数据集full_prompt中的user_prompt进行mask操作。 --seq-length：要处理的最大seq length。 --workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。输出数据预处理结果路径：训练完成后，以 llama2-13b 为例，输出数据路径为：/home/ma-user/ws/llm_train/processed_for_input/llama2-13b/data/finetune/

AI开发平台MODELARTS 训练脚本说明
AI开发平台MODELARTS-训练的数据集预处理说明:用户自定义执行数据处理脚本修改参数说明

用户自定义执行数据处理脚本修改参数说明如果用户要自定义数据处理脚本并且单独执行，同样以 llama2 为例。方法一：用户可打开scripts/llama2/1_preprocess_data.sh脚本，将执行的python命令复制下来，修改环境变量的值，进入到 /home/ma-user/ws/llm_train/AscendSpeed/ModelLink 路径中，再执行python命令。方法二：用户直接编辑scripts/llama2/1_preprocess_data.sh脚本，自定义环境变量的值，并在脚本的首行中添加 cd /home/ma-user/ws/llm_train/AscendSpeed/ModelLink 命令，随后运行该脚本。其中环境变量详细介绍如下：表1 数据预处理中的环境变量环境变量示例参数说明 RUN_TYPE pretrain、sft、lora 数据预处理区分：预训练场景下数据预处理，默认参数：pretrain 微调场景下数据预处理，默认：sft / lora ORIGINAL_TRAIN_DATA_PATH /home/ma-user/ws/training_data/${用户自定义的数据集路径和名称} 原始数据集的存放路径。 TOKENIZER_PATH /home/ma-user/ws/tokenizers/llama2-13b tokenizer的存放路径，与HF权重存放在一个文件夹下。请根据实际规划修改。 PRO CES SED_DATA_PREFIX /home/ma-user/ws/llm_train/processed_for_input/llama2-13b/data 处理后的数据集保存路径+数据集前缀 TOKENIZER_TYPE PretrainedFromHF 可选项有：['BertWordPieceLowerCase'，'BertWordPieceCase'，'GPT2BPETokenizer'，'PretrainedFromHF']，一般为 PretrainedFromHF 。 SEQ_LEN 4096 要处理的最大seq length。脚本会检测超出SEQ_LEN长度的数据，并打印log。

AI开发平台MODELARTS 训练脚本说明
AI开发平台MODELARTS-训练的数据集预处理说明:预训练数据集预处理参数说明

预训练数据集预处理参数说明预训练数据集预处理脚本scripts/llama2/1_preprocess_data.sh 中的具体参数如下： --input：原始数据集的存放路径。 --output-prefix：处理后的数据集保存路径+数据集名称（例如：moss-003-sft-data）。 --tokenizer-type：tokenizer的类型，可选项有['BertWordPieceLowerCase'，'BertWordPieceCase'，'GPT2BPETokenizer'，'PretrainedFromHF']，一般为PretrainedFromHF。 --tokenizer-name-or-path：tokenizer的存放路径，与HF权重存放在一个文件夹下。 --handler-name：生成数据集的用途，这里是生成的文本数据集，用于预训练。 GeneralPretrainHandler：默认。用于预训练时的数据预处理过程中，将数据集根据key值进行简单的过滤。 --seq-length：要处理的最大seq length。 --workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。输出数据预处理结果路径：训练完成后，以 llama2-13b 为例，输出数据路径为：/home/ma-user/ws/llm_train/processed_for_input/llama2-13b/data/pretrain/

AI开发平台MODELARTS 训练脚本说明
AI开发平台MODELARTS-准备镜像:Step9 通过openssl创建SSL pem证书

Step9 通过openssl创建SSL pem证书在ECS中执行如下命令，会在当前目录生成cert.pem和key.pem，并将生成的pem证书上传至OBS。证书用于后续在推理生产环境中部署HTTPS推理服务。 openssl genrsa -out key.pem 2048 openssl req -new -x509 -key key.pem -out cert.pem -days 1095

AI开发平台MODELARTS 准备工作
AI开发平台MODELARTS-准备镜像:Step3 安装Docker

Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1，执行以下命令配置IP转发。 sed -i 's/net\.ipv4\.ip_forward=0/net\.ipv4\.ip_forward=1/g' /etc/sysctl.conf sysctl -p | grep net.ipv4.ip_forward

AI开发平台MODELARTS 准备工作
AI开发平台MODELARTS-准备镜像:镜像版本

镜像版本本教程中用到基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址配套版本基础镜像 swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2.1.0-cann_8.0.rc3-py_3.9-hce_2.0.2409-aarch64-snt9b-20241112192643-c45ac6b CANN：cann_8.0.rc3

AI开发平台MODELARTS 准备工作
AI开发平台MODELARTS-在ModelArts Standard上运行GPU单机多卡训练作业:上传镜像

上传镜像客户端上传镜像，是指在安装了容器引擎客户端的机器上使用docker命令将镜像上传到容器镜像服务的镜像仓库。如果容器引擎客户端机器为云上的ECS或CCE节点，根据机器所在区域有两种网络链路可以选择：如果机器与容器镜像仓库在同一区域，则上传镜像走内网链路。如果机器与容器镜像仓库不在同一区域，则上传镜像走公网链路，机器需要绑定弹性公网IP。使用客户端上传镜像，镜像的每个layer大小不能大于10G。上传镜像的容器引擎客户端版本必须为1.11.2及以上。连接容器镜像服务。登录容器镜像服务控制台。单击右上角“创建组织”，输入组织名称完成组织创建。请自定义组织名称，本示例使用“deep-learning”，下面的命令中涉及到组织名称“deep-learning”也请替换为自定义的值。选择左侧导航栏的“总览”，单击页面右上角的“登录指令”，在弹出的页面中单击复制登录指令。此处生成的登录指令有效期为24小时，如果需要长期有效的登录指令，请参见获取长期有效登录指令。获取了长期有效的登录指令后，在有效期内的临时登录指令仍然可以使用。登录指令末尾的域名为镜像仓库地址，请记录该地址，后面会使用到。在安装容器引擎的机器中执行上一步复制的登录指令。登录成功会显示“Login Succeeded”。在安装容器引擎的机器上执行如下命令，为镜像打标签。 docker tag [镜像名称1:版本名称1] [镜像仓库地址]/[组织名称]/[镜像名称2:版本名称2] [镜像名称1:版本名称1]：${image_name}:${image_version}请替换为您所要上传的实际镜像的名称和版本名称。 [镜像仓库地址]：可在SWR控制台上查询，即1.c中登录指令末尾的域名。 [组织名称]：/${organization_name}请替换为您创建的组织。 [镜像名称2:版本名称2]：${image_name}:${image_version}请替换为您期待的镜像名称和镜像版本。示例： docker tag ${image_name}:${image_version} swr.cn-north-4.myhuaweicloud.com/${organization_name}/${image_name}:${image_version} 上传镜像至镜像仓库。 docker push [镜像仓库地址]/[组织名称]/[镜像名称2:版本名称2] 示例： docker push swr.cn-north-4.myhuaweicloud.com/${organization_name}/${image_name}:${image_version} 上传镜像完成后，返回容器镜像服务控制台，在“我的镜像”页面，执行刷新操作后可查看到对应的镜像信息。

AI开发平台MODELARTS
AI开发平台MODELARTS-在ModelArts Standard上运行GPU单机单卡训练作业:上传镜像

上传镜像客户端上传镜像，是指在安装了容器引擎客户端的机器上使用docker命令将镜像上传到容器镜像服务的镜像仓库。如果容器引擎客户端机器为云上的ECS或CCE节点，根据机器所在区域有两种网络链路可以选择：如果机器与容器镜像仓库在同一区域，则上传镜像走内网链路。如果机器与容器镜像仓库不在同一区域，则上传镜像走公网链路，机器需要绑定弹性公网IP。使用客户端上传镜像，镜像的每个layer大小不能大于10G。上传镜像的容器引擎客户端版本必须为1.11.2及以上。连接容器镜像服务。登录容器镜像服务控制台。单击右上角“创建组织”，输入组织名称完成组织创建。请自定义组织名称，本示例使用“deep-learning”，下面的命令中涉及到组织名称“deep-learning”也请替换为自定义的值。选择左侧导航栏的“总览”，单击页面右上角的“登录指令”，在弹出的页面中单击复制登录指令。此处生成的登录指令有效期为24小时，如果需要长期有效的登录指令，请参见获取长期有效登录指令。获取了长期有效的登录指令后，在有效期内的临时登录指令仍然可以使用。登录指令末尾的域名为镜像仓库地址，请记录该地址，后面会使用到。在安装容器引擎的机器中执行上一步复制的登录指令。登录成功会显示“Login Succeeded”。在安装容器引擎的机器上执行如下命令，为镜像打标签。 docker tag [镜像名称1:版本名称1] [镜像仓库地址]/[组织名称]/[镜像名称2:版本名称2] [镜像名称1:版本名称1]：${image_name}:${image_version}请替换为您所要上传的实际镜像的名称和版本名称。 [镜像仓库地址]：可在SWR控制台上查询，即1.c中登录指令末尾的域名。 [组织名称]：/${organization_name}请替换为您创建的组织。 [镜像名称2:版本名称2]：${image_name}:${image_version}请替换为您期待的镜像名称和镜像版本。示例： docker tag ${image_name}:${image_version} swr.cn-north-4.myhuaweicloud.com/${organization_name}/${image_name}:${image_version} 上传镜像至镜像仓库。 docker push [镜像仓库地址]/[组织名称]/[镜像名称2:版本名称2] 示例： docker push swr.cn-north-4.myhuaweicloud.com/${organization_name}/${image_name}:${image_version} 上传镜像完成后，返回容器镜像服务控制台，在“我的镜像”页面，执行刷新操作后可查看到对应的镜像信息。

AI开发平台MODELARTS 基于ModelArts Standard运行GPU训练作业
AI开发平台MODELARTS-在ModelArts Standard上运行GPU单机单卡训练作业:监控资源

监控资源用户可以通过资源占用情况窗口查看计算节点的资源使用情况，最多可显示最近三天的数据。在资源占用情况窗口打开时，会定期向后台获取最新的资源使用率数据并刷新。操作一：如果训练作业使用多个计算节点，可以通过实例名称的下拉框切换节点。操作二：单击图例“cpuUsage”、“gpuMemUsage”、“gpuUtil”、“memUsage”“npuMemUsage”、“npuUtil”、可以添加或取消对应参数的使用情况图。操作三：鼠标悬浮在图片上的时间节点，可查看对应时间节点的占用率情况。表2 参数说明参数说明 cpuUsage cpu使用率。 gpuMemUsage gpu内存使用率。 gpuUtil gpu使用情况。 memUsage 内存使用率。 npuMemUsage npu内存使用率。 npuUtil npu使用情况。

AI开发平台MODELARTS 基于ModelArts Standard运行GPU训练作业
数据加密服务 DEW-计费样例:计费构成分析

计费构成分析密钥时长计费此处计算2023/05/18 14:25:00 - 2023/06/29 16:14:00的时长费用。计费公式如下：时长费用=存储时长 * 密钥实例费用在本示例中，共计时长天数42天1小时49分，时长=42*24 + 1.82=1009.82小时，带入公式可得时长费用=1009.82 * 0.015458=15.61（元）则在5~6月份，密钥时长产生的费用为15.61元。 API请求计费此处计算使用期间产生的API请求费用。 API请求计费 =(API请求次数-20000*月数量) /10000 * API请求费用在本示例中，共计产生调用次数164573，5~6月共计两个月，每月每个密钥有20000次免费请求次数，带入公式可得API请求计费=（164573-20000*2）/10000 * 0.6（每万次）= 7.47元由此可见，在5~6月份，数据加密服务共产生的费用为：15.61 +7.47 = 23.08元。

数据加密服务 DEW
性能测试 CODEARTS PERFTEST-查询事务:请求示例

请求示例查询事务的详情信息，事务的id是1。 /v1/{project_id}/templates/1 { "code" : "SVCSTG.CPTS.0000000", "message" : "success", "temp_info" : { "id" : 155175, "project_id" : 403931, "name" : "test", "description" : "", "variables" : null, "contents" : [ { "content_id" : 155175, "content" : [ { "content_type" : 2, "content" : { "_adressValue" : "http://1.1.1.1", "body_type" : 0, "bodys" : [ ], "check_end_length" : null, "check_end_str" : null, "check_end_type" : null, "connect_timeout" : 5000, "connect_type" : 1, "headers" : [ { "key" : "Content-Type", "value" : "application/json" } ], "http_version" : "HTTP/1.1", "method" : "GET", "name" : "Msg-8015", "protocol_type" : 1, "return_timeout" : 5000, "return_timeout_param" : null, "url" : "http://1.1.1.1" } } ], "index" : -1, "selected_temp_name" : "", "data" : null, "data_type" : 0, "conditions" : null, "is_disabled" : false, "is_continue" : false } ], "temp_type" : 0, "for_loop_params" : [ ], "logic_controller" : { "for_loop_params" : null, "condition" : null }, "enable_pre" : false } }

性能测试 CODEARTS PERFTEST
性能测试 CODEARTS PERFTEST-查询事务:响应示例

响应示例状态码：200 success { "code" : "SVCSTG.CPTS.0000000", "message" : "success", "temp_info" : { "id" : 21531, "project_id" : 17543, "name" : "transaction", "description" : "", "variables" : null, "contents" : [ { "content_id" : 21531, "content" : [ { "content_type" : 2, "content" : { "body_type" : 0, "bodys" : [ ], "check_end_length" : null, "check_end_str" : null, "check_end_type" : null, "connect_timeout" : 5000, "connect_type" : 1, "headers" : [ { "key" : "Content-Type", "value" : "application/json" } ], "http_version" : "HTTP/1.1", "method" : "GET", "name" : "Msg-73387", "protocol_type" : 2, "return_timeout" : 5000, "return_timeout_param" : null, "url" : "https://www.domain-example.com" } } ], "index" : -1, "selected_temp_name" : "", "data" : null, "data_type" : 0, "conditions" : null, "is_disabled" : false, "is_continue" : false } ], "temp_type" : 0, "for_loop_params" : [ ], "logic_controller" : { "for_loop_params" : null, "condition" : null }, "enable_pre" : false } }

性能测试 CODEARTS PERFTEST
性能测试 CODEARTS PERFTEST-查询事务:响应参数

响应参数状态码：200 表2 响应Body参数参数参数类型描述 code String 响应码 message String 响应消息 temp_info TempInfo object 事务详情表3 TempInfo 参数参数类型描述 id Integer 事务ID project_id Integer 工程ID name String 事务名称 description String 事务描述 variables String 变量 contents Array of objects 事务脚本信息 temp_type Integer 事务类型（弃用） for_loop_params Array of objects 旧版本逻辑控制器字段，当前已未使用 logic_controller LogicController object 逻辑控制器信息 enable_pre Boolean 是否启用预置事务，当前版本已未使用表4 LogicController 参数参数类型描述 for_loop_params String 旧版本逻辑控制器字段，当前已未使用 condition String 逻辑控制器条件状态码：501 表5 响应Body参数参数参数类型描述 - String response message

性能测试 CODEARTS PERFTEST

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！