搜索_华为云

执行微调训练任务 - AI开发平台ModelArts

Factory下修改启动脚本，其中{work_dir}为容器挂载路径；修改demo.sh最后一行代码：将demo.yaml配置文件路径修改为自己实际绝对路径:{work_dir}/llm_train/LLaMAFactory/demo.yaml，例如将以下命令： FORCE_TORCHRUN=1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908）
ECS中构建新镜像 - AI开发平台ModelArts

/llm_train/AscendSpeed 编辑llm_train/AscendSpeed中的Dockerfile文件第一行镜像地址，修改为本文档中的基础镜像地址。 FROM {image_url} （选填）编辑llm_train/AscendSpeed中的Dockerfile

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作 > 准备镜像
日志提示"Permission denied" - AI开发平台ModelArts

sh，脚本里面有某些环境变量在新版本下发的作业中并不存在这些环境变量导致。可能原因是使用Python file接口并发读写同一文件。处理方法对挂载盘的数据加权限，可以改为与训练容器内相同的用户组（1000），假如/nas盘是挂载路径，执行如下代码。 chown -R 1000：1000 /nas 或者 chmod

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 权限问题
ECS中构建新镜像 - AI开发平台ModelArts

/llm_train/AscendSpeed 编辑llm_train/AscendSpeed中的Dockerfile文件第一行镜像地址，修改为本文档中的基础镜像地址。 FROM {image_url} （选填）编辑llm_train/AscendSpeed中的Dockerfile

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
附录：config.json文件 - AI开发平台ModelArts

ipAddress取值一致。 httpsEnabled：取值需要修改为false。 interCommTLSEnabled和interNodeTLSEnabled：如果不需要开启安全认证，这2个参数取值需要修改为false。 multiNodesInferEnabled：取值需要修改true，表示开启多机推理。

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理应用 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导
示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

将训练启动脚本中的“NODE_RANK="$VC_TASK_INDEX"”修改为“NODE_RANK="$RANK_AFTER_ACC"”。将训练启动脚本中的“MASTER_ADDR="${VC_WORKER_HOSTS%%,*}"”修改为“MASTER_ADDR="${MA_VJ_NAME}-$

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
创建模型失败，如何定位和处理问题？ - AI开发平台ModelArts

需要去掉模型文件目录下存在dockerfile文件。图2 构建日志：dockerfile文件目录有问题 pip软件包版本不匹配，需要修改为日志中打印的存在的版本。图3 pip版本不匹配构建日志中出现报错：“exec /usr/bin/sh: exec format error”。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
使用kv-cache-int8量化 - AI开发平台ModelArts

json文件，里面是提取的per-tensor的scale值。内容示例如下：注意：抽取完成后，可能提取不到model_type信息，需要手动将model_type修改为指定模型，如"llama"。当前社区vllm只支持float8的kv_cache量化，抽取脚本中dtype类型是"float8_e4m3

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

json文件，里面是提取的per-tensor的scale值。内容示例如下：注意：抽取完成后，可能提取不到model_type信息，需要手动将model_type修改为指定模型，如"llama"。当前社区vllm只支持float8的kv_cache量化，抽取脚本中dtype类型是"float8_e4m3

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

json文件，里面是提取的per-tensor的scale值。内容示例如下：注意：抽取完成后，可能提取不到model_type信息，需要手动将model_type修改为指定模型，如"llama"。当前社区vllm只支持float8的kv_cache量化，抽取脚本中dtype类型是"float8_e4m3

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
kv-cache-int8量化 - AI开发平台ModelArts

json文件，里面是提取的per-tensor的scale值。内容示例如下：注意：抽取完成后，可能提取不到model_type信息，需要手动将model_type修改为指定模型，如"llama"。当前社区vllm只支持float8的kv_cache量化，抽取脚本中dtype类型是"float8_e4m3

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理关键特性使用 > 量化
kv-cache-int8量化 - AI开发平台ModelArts

json文件，里面是提取的per-tensor的scale值。内容示例如下：注意：抽取完成后，可能提取不到model_type信息，需要手动将model_type修改为指定模型，如"llama"。当前社区vllm只支持float8的kv_cache量化，抽取脚本中dtype类型是"float8_e4m3

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 量化
（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

如上所示，即需要在C:\Users\xxx\AppData\Roaming路径下创建pip文件夹。在pip文件夹中创建一个名为pip的文本文件，并将后缀名由“.txt”改为“.ini”。文件内容示例如下：其中，index-url为pip源ip地址，使用时需自行替换。本示例以华为源为例，具体如下： [global]

帮助中心 > AI开发平台ModelArts > SDK参考
如何禁止Ubuntu 20.04内核自动升级？ - AI开发平台ModelArts

vi /etc/apt/apt.conf.d/20auto-upgrades 将其中的“Unattended-Upgrade "1"; ”改为“Unattended-Upgrade "0";”以禁用自动更新，然后保存文件并退出。将当前内核版本锁定。要禁止特定的内核版本更新，您

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

择“自定义”。当模型的“任务类型”是除“文本问答”和“文本生成”之外的类型（即自定义模型）时，则“推理任务类型”默认为“自定义”，支持修改为“文本问答”或“文本生成”。当使用自定义镜像部署推理服务时，“推理任务类型”默认为“自定义”，且不支持修改。参数设置当使用自定义镜像

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
Qwen-VL基于Lite Server适配PyTorch NPU的Finetune训练指导(6.3.912) - AI开发平台ModelArts

wen-VL 执行训练脚本 #配置训练参数 vim finetune/finetune_ds.sh MODEL: 修改为权重文件实际路径 DATA: 修改为数据集路径 --output_dir：训练后的权重所在目录名称，默认为output_qwen --num_train_epochs：

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

配置需要的NPU卡。 export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3 0,1,2,3修改为需要使用的卡，如需使用全部8张卡，修改为0,1,2,3,4,5,6,7。配置PYTHONPATH。 export PYTHONPATH=$PYTHONPATH:${vllm_path}

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
权限管理 - AI开发平台ModelArts
权限管理 - AI开发平台ModelArts

权限管理 ModelArts作为一个完备的AI开发平台，支持用户对其进行细粒度的权限配置，以达到精细化资源、权限管理之目的。这类特性在大型企业用户的使用场景下很常见，但对个人用户则显得复杂而意义不足，所以建议个人用户在使用ModelArts时，参照配置访问授权来进行初始权限设置。

帮助中心 > AI开发平台ModelArts > 产品介绍
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

行训练时，需要修改 install.sh 脚本中的 transformers 的版本。由默认 transformers==4.46.1 修改为：transformers==4.44.2 为了避免因使用不同版本的 transformers 库进行训练和推理而导致冲突的问题，建议用户

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

修改pod的卡数。由于本案例中为分布式训练，因此所需卡数修改为8卡。删除已创建的pod。 kubectl delete -f config.yaml 将config.yaml文件中“limit”和“request”改为8。 vi config.yaml 图3 修改卡数重新创建pod。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用

总条数： 226

上一页
1
2
3
4
5
...
12
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

执行微调训练任务 - AI开发平台ModelArts

ECS中构建新镜像 - AI开发平台ModelArts

日志提示"Permission denied" - AI开发平台ModelArts

ECS中构建新镜像 - AI开发平台ModelArts

附录：config.json文件 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

创建模型失败，如何定位和处理问题？ - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

kv-cache-int8量化 - AI开发平台ModelArts

kv-cache-int8量化 - AI开发平台ModelArts

（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

如何禁止Ubuntu 20.04内核自动升级？ - AI开发平台ModelArts

使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

Qwen-VL基于Lite Server适配PyTorch NPU的Finetune训练指导(6.3.912) - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

权限管理 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线