搜索_华为云

场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

32k）训练内容，例如新增参数context-parallel-size。文档中针对数据集预处理时，handler-name参数的说明，新增不同handler对训练数据的拼接和推理prompt的构造等说明。训练支持的模型列表本方案支持以下模型的训练，如表1所示。表1 支持的模型列表

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908）
扩缩容Lite Cluster资源池 - AI开发平台ModelArts

大小。可指定容器引擎空间大小和不限制空间大小。此操作会导致资源池内该规格下节点的dockerBaseSize不一致，可能会使得部分任务在不同节点的运行情况不一致，请谨慎操作。存量节点不支持修改容器引擎空间大小。修改容器引擎类型。容器引擎是Kubernetes最重要的组件之一

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

表示训练类型。可选择值：[pretrain, sft, lora]。 DATA_TYPE GeneralPretrainHandler 示例值需要根据数据集的不同，选择其一。 GeneralPretrainHandler：使用预训练的alpaca数据集。 GeneralInstructionHandler：使用微调的alpaca数据集。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908）
LoRA微调训练 - AI开发平台ModelArts

表示训练类型。可选择值：[pretrain, sft, lora]。 DATA_TYPE GeneralInstructionHandler 示例值需要根据数据集的不同，选择其一。 GeneralPretrainHandler：使用预训练的alpaca数据集。 GeneralInstructionHandler：使用微调的alpaca数据集。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908）
SFT全参微调训练 - AI开发平台ModelArts

表示训练类型。可选择值：[pretrain, sft, lora]。 DATA_TYPE GeneralInstructionHandler 示例值需要根据数据集的不同，选择其一。 GeneralPretrainHandler：使用预训练的alpaca数据集。 GeneralInstructionHandler：使用微调的alpaca数据集。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908）
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

json存在模型对应的路径下，例如：${container_work_dir}/chatglm3-6b/config.json。不同模型推理支持的max-model-len长度不同，具体差异请参见附录：基于vLLM不同模型推理支持最小卡数和最大序列说明。 --max-num-batched-tokens：pref

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
推理精度测试 - AI开发平台ModelArts

Standard模式。 model_name：评测模型名称，llama2。 deploy_method：部署方法，不同的部署方式api参数输入、输出解析方式不同，目前支持tgi、ma_standard、vllm等方式。 vllm_model：deploy_method为vllm

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
推理精度测试 - AI开发平台ModelArts

部署并启动推理服务中的模型地址参数model，模型格式是Huggingface的目录格式。 deploy_method：部署方法，不同的部署方式api参数输入、输出解析方式不同，目前支持tgi、vllm等方式，本案例使用vllm部署方式。若要在生产环境中进行精度测试，还需修改benchmar

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
创建训练任务 - AI开发平台ModelArts

训练作业创建完成后，后台将自动完成容器镜像下载、代码目录下载、执行启动命令等动作。训练作业一般需要运行一段时间，根据您的训练业务逻辑和选择的资源不同，训练时长将持续几十分钟到几小时不等。父主题：单机单卡

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
日志提示"write line error" - AI开发平台ModelArts

size”，默认是10G，云上统一改为50G。 “/cache”目录满了，一般是3.5T存储空间满了，具体规格的空间大小可参见训练环境中不同规格资源“/cache”目录的大小。处理方法如果在训练作业的工作目录下有core文件生成，可以在启动脚本最前面加上如下代码，来关闭core文件产生。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
训练中的权重转换说明 - AI开发平台ModelArts

--target-tensor-parallel-size：任务不同调整参数target-tensor-parallel-size，默认为1。 --target-pipeline-parallel-size ：任务不同调整参数target-pipeline-parallel-size，默认为1。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明
预训练任务 - AI开发平台ModelArts

sh scripts/llama2/0_pl_pretrain_70b.sh 以上命令多台机器执行时，只有${NODE_RANK}的节点ID值不同，其他参数都保持一致；其中MASTER_ADDR、 NNODES、 NODE_RANK 为必填。单机启动对于Llama2-7B和Lla

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907）
SFT全参微调训练任务 - AI开发平台ModelArts

NODE_RANK=3 sh scripts/llama2/0_pl_sft_70b.sh 以上命令多台机器执行时，只有${NODE_RANK}的节点ID值不同，其他参数都保持一致。其中MASTER_ADDR、 NNODES、 NODE_RANK为必填。单机启动对于Llama2-7b和Llam

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907）
LoRA微调训练 - AI开发平台ModelArts

NODE_RANK=3 sh scripts/llama2/0_pl_lora_70b.sh 以上命令多台机器执行时，只有${NODE_RANK}的节点ID值不同，其他参数都保持一致。其中MASTER_ADDR、NNODES、NODE_RANK为必填项。单机启动对于Llama2-7b和Llama

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907）
训练中的权重转换说明 - AI开发平台ModelArts

--target-tensor-parallel-size：任务不同调整参数target-tensor-parallel-size，默认为1。 --target-pipeline-parallel-size ：任务不同调整参数target-pipeline-parallel-size，默认为1。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明
训练中的权重转换说明 - AI开发平台ModelArts

--target-tensor-parallel-size：任务不同调整参数target-tensor-parallel-size，默认为1。 --target-pipeline-parallel-size ：任务不同调整参数target-pipeline-parallel-size，默认为1。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明
断点续训和故障快恢说明 - AI开发平台ModelArts

训练中一定间隔（${save-interval}）保存的模型（包括模型参数、优化器状态、训练迭代次数等）继续训练恢复，而不需要从头开始。不同点断点续训：可指定加载训练过程中生成的Megatron格式权重(${user_converted_ckpt_path}) 故障快恢：默认

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
在ECS中通过Dockerfile从0制作自定义镜像用于推理 - AI开发平台ModelArts

如果验证自定义镜像功能成功，结果如下图所示。图3 校验接口上传自定义镜像至SWR服务。完成自定义镜像上传后，您可以在“容器镜像服务>我的镜像>自有镜像”列表中看到已上传镜像。将自定义镜像创建为模型参考从容器镜像中选择元模型导入元模型，您需要特别关注以下参数：元模型来源：选择“从容器镜像中选择”

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于推理
从0-1制作自定义镜像并创建模型 - AI开发平台ModelArts

如果验证自定义镜像功能成功，结果如下图所示。图3 校验接口上传自定义镜像至SWR服务。完成自定义镜像上传后，您可以在“容器镜像服务>我的镜像>自有镜像”列表中看到已上传镜像。将自定义镜像创建为模型参考从容器镜像中选择元模型导入元模型，您需要特别关注以下参数：元模型来源：选择“从容器镜像中选择”

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
创建训练任务 - AI开发平台ModelArts

训练作业创建完成后，后台将自动完成容器镜像下载、代码目录下载、执行启动命令等动作。训练作业一般需要运行一段时间，根据您的训练业务逻辑和选择的资源不同，训练时长将持续几十分钟到几小时不等。训练作业执行成功后，日志信息如下所示。父主题：单机多卡

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机多卡

总条数： 809

上一页
1
...
29
30
31
...
41
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

场景介绍 - AI开发平台ModelArts

扩缩容Lite Cluster资源池 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

创建训练任务 - AI开发平台ModelArts

日志提示"write line error" - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

SFT全参微调训练任务 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

在ECS中通过Dockerfile从0制作自定义镜像用于推理 - AI开发平台ModelArts

从0-1制作自定义镜像并创建模型 - AI开发平台ModelArts

创建训练任务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线