搜索_华为云

服务预测失败 - AI开发平台ModelArts

XXXX类型的错误时，表示已进入模型服务，一般是模型推理代码编写有问题。请根据构建日志报错信息，定位服务预测失败原因，修改模型推理代码后，重新导入模型进行预测。经典案例：在线服务预测报错MR.0105 出现其他情况，优先检查客户端和外部网络是否有问题。以上方法均未解决问题，请联系系统管理员。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

info 如果命令报如下错误，则代表容器启动时指定的“ASCEND_VISIBLE_DEVICES”卡号已被其他容器占用，此时需要重新选择卡号并重新启动新的容器。图17 报错信息 npu-smi info检测正常后，可以执行一段命令进行简单的容器环境测试，能正常输出运算结果代表容器环境正常可用。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
资源池创建失败的原因与解决方法？ - AI开发平台ModelArts

态和资源欠费情况，账号解冻后重新购买资源。订单取消导致资源创建失败？查看资源池失败报错信息，存在"the operation is canceled by customer"，表示资源池对应订单已取消，取消原因可能为超时未支付、用户自主取消，需重新购买。其他错误可通过F1

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
使用kv-cache-int8量化 - AI开发平台ModelArts

当前社区vllm只支持float8的kv_cache量化，抽取脚本中dtype类型是"float8_e4m3fn"。dtype类型不影响int8的scale系数的抽取和加载。启动kv-cache-int8-per-tensor量化服务。在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数： --kv-cache-dtype

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
训练tokenizer文件说明 - AI开发平台ModelArts

mSun.ttf ，放到模型权重目录Qwen-VL-Chat下。 # 然后将tokenization_qwen.py中30-35行注释，并重新定义变量FONT_PATH读取字体文件Simsun，修改如下： 30 # FONT_PATH = try_to_load_from_cac

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 训练脚本说明
预训练任务 - AI开发平台ModelArts

ORIGINAL_HF_WEIGHT /home/ma-user/ws/llm_train/AscendSpeed/model/llama2-70B 必须修改。加载tokenizer与Hugging Face权重时，对应的存放地址。请根据实际规划修改。对于ChatGLMv3-6B和Qwen系列模型，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906）
使用kv-cache-int8量化 - AI开发平台ModelArts

当前社区vllm只支持float8的kv_cache量化，抽取脚本中dtype类型是"float8_e4m3fn"。dtype类型不影响int8的scale系数的抽取和加载。启动kv-cache-int8-per-tensor量化服务。在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数： --kv-cache-dtype

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
镜像保存时报错“container size %dG is greater than threshold %dG”如何解决？ - AI开发平台ModelArts

容器镜像中、“/cache”目录下存储的是临时文件，不占用容器空间。如果没有文件可以删除，或者不清楚哪些可以删除，那么可以使用相同的镜像重新创建一个Notebook，使用新建的Notebook时，注意减少软件包的安装或文件的下载等操作，也可以减少容器大小；减少镜像文件的大小

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
创建网络 - AI开发平台ModelArts
创建网络 - AI开发平台ModelArts

您的VPC网络都已开启IPv6，IPv6才会生效。若是打通VPC后，才开启ModelArts网络的IPv6或VPC网络的IPv6，此时需要重新打通VPC及子网，IPv6才会生效。图2 创建网络图3 启动IPv6 单用户最多可创建15个网络。网段设置以后不能修改，避免与将要打

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
训练tokenizer文件说明 - AI开发平台ModelArts

mSun.ttf ，放到模型权重目录Qwen-VL-Chat下。 # 然后将tokenization_qwen.py中30-35行注释，并重新定义变量FONT_PATH读取字体文件Simsun，修改如下： 30 # FONT_PATH = try_to_load_from_cac

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 训练脚本说明
Yaml配置文件参数配置说明 - AI开发平台ModelArts

示例值参数说明 model_name_or_path /home/ma-user/ws/tokenizers/Qwen2-72B 必须修改。加载tokenizer与Hugging Face权重时，对应的存放绝对或相对路径。请根据实际规划修改。 do_train true 指示脚本执

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

# 预处理后数据 |── pretrain # 预训练加载的数据 |── finetune # 微调加载的数据 |──converted_weights # HuggingFace格式转换megatron格式后权重文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

# 预处理后数据 |── pretrain # 预训练加载的数据 |── finetune # 微调加载的数据 |──converted_weights # HuggingFace格式转换megatron格式后权重文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
我的Gallery介绍 - AI开发平台ModelArts

”、“下架”或“删除”可以管理已发布的算法。资产下架后，已订阅该资产的用户可继续正常使用，其他用户将无法查看和订阅该资产。下架后的资产可以重新上架。资产未被订阅时可以删除资产。 “我的订阅”：可以查看个人订阅的算法信息，如发布者、应用控制台、剩余配额等。通过右侧的“取消订阅”或“

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版）
Yaml配置文件参数配置说明 - AI开发平台ModelArts

示例值参数说明 model_name_or_path /home/ma-user/ws/tokenizers/Qwen2-72B 必须修改。加载tokenizer与Hugging Face权重时，对应的存放绝对或相对路径。请根据实际规划修改。 do_train true 指示脚本执

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
Yaml配置文件参数配置说明 - AI开发平台ModelArts

示例值参数说明 model_name_or_path /home/ma-user/ws/tokenizers/Qwen2-72B 必须修改。加载tokenizer与Hugging Face权重时，对应的存放绝对或相对路径。请根据实际规划修改。 do_train true 指示脚本执

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决？ - AI开发平台ModelArts

ps1 添加环境变量：将“C:\Program Files\OpenSSH-xx”（路径中包含ssh可执行exe文件）添加到环境系统变量中。重新打开CMD，并执行ssh，结果如下图即说明安装成功，如果还未装成功则执行5和6。 OpenSSH默认端口为22端口，开启防火墙22端口号，在CMD执行以下命令：

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

处理方法制作镜像前，清理“/var/lib/cloud/”目录下的所有信息，请参考清理临时文件步骤对文件进行清理，然后再制作镜像。CCE重新纳管服务器A时，使用最新制作的镜像即可。父主题： Lite Server

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
SFT全参微调训练 - AI开发平台ModelArts

F_WEIGHT。 ORIGINAL_TRAIN_DATA_PATH：训练时指定的输入数据集路径。 ORIGINAL_HF_WEIGHT：加载tokenizer与Hugging Face权重时，对应的存放地址。在“输出”的输入框内设置变量：OUTPUT_SAVE_DIR、HF_SAVE_DIR。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
确认智能标注作业的数据难例 - AI开发平台ModelArts

确。如果智能标注结果不准确，建议手工调整标签或目标框，然后单击“确认标注”。完成确认后，重新标注的数据将呈现在“已标注”页签下。如图1所示的难例，dog标签的目标框位置不准确，使用标注框重新标注，如图中的“漏检”目标框，然后需要将原先标注错误的目标框删除，即“误检”标签框。手工调整后，单击“确认标注”完成难例确认。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过智能标注方式标注数据

总条数： 485

上一页
1
...
15
16
17
...
25
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

服务预测失败 - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

资源池创建失败的原因与解决方法？ - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

镜像保存时报错“container size %dG is greater than threshold %dG”如何解决？ - AI开发平台ModelArts

创建网络 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

我的Gallery介绍 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决？ - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

确认智能标注作业的数据难例 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线