搜索_华为云

BF16和FP16说明 - AI开发平台ModelArts

或下溢，从而提供更好的稳定性和可靠性，在大模型训练和推理以及权重存储方面更受欢迎。 FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。综上所述，BF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
使用GPTQ量化 - AI开发平台ModelArts

q_config) 您还可以使用save_pretrain()方法在本地保存您的量化模型。如果模型是用device_map参数量化的，请确保在保存之前将整个模型移动到GPU或CPU。例如，要将模型保存在CPU上。 quantized_model.save_pretrained("CodeLlama-34b-hf")

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用MaaS部署模型服务 - AI开发平台ModelArts

使用MaaS部署模型服务在ModelArts Studio大模型即服务平台可以将模型部署为服务，便于在“模型体验”或其他业务环境中可以调用。约束限制部署模型服务时，ModelArts Studio大模型即服务平台预置了推理的最大输入输出长度。模型Qwen-14B默认是204

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

供用户学习参考。训练流程简述相比于DP，DDP能够启动多进程进行运算，从而大幅度提升计算资源的利用率。可以基于torch.distributed实现真正的分布式计算，具体的原理此处不再赘述。大致的流程如下：初始化进程组。创建分布式并行模型，每个进程都会有相同的模型和参数。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
在MaaS体验模型服务 - AI开发平台ModelArts

在MaaS体验模型服务在ModelArts Studio大模型即服务平台，运行中的模型服务可以在“模型体验”页面在线体验模型服务的推理效果。前提条件在“模型部署”的服务列表存在“运行中”的模型服务。操作步骤登录ModelArts管理控制台。在左侧导航栏中，选择“ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
支持的模型列表 - AI开发平台ModelArts

支持的模型列表表1 支持的大语言模型列表和权重获取地址序号模型名称是否支持fp16/bf16推理是否支持W4A16量化是否支持W8A8量化是否支持W8A16量化是否支持 kv-cache-int8量化开源权重获取地址 1 llama-7b √ √ √ √ √ https://huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912）
在ModelArts Studio基于Qwen2-7B模型实现新闻自动分类 - AI开发平台ModelArts

准备数据集：获取新闻数据集，并上传到OBS。创建模型：选择Qwen2-7B基础模型，使用推荐权重创建个人专属模型。调优模型：使用不同的调优参数去训练模型。部署模型服务：将调优后的模型部署成模型服务。使用模型服务：在MaaS体验模型服务，测试推理结果。结果分析：分析模型的调优结果和推理结果，对比新闻分类效果。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
各个模型训练前文件替换 - AI开发平台ModelArts

各个模型训练前文件替换在训练开始前，因模型权重文件可能与训练框架不匹配或有优化，因此需要针对模型的tokenizer文件进行修改或替换，不同模型的tokenizer文件修改内容如下。 falcon-11B模型在训练开始前，针对falcon-11B模型中的tokenizer文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
各个模型训练前文件替换 - AI开发平台ModelArts

各个模型训练前文件替换在训练开始前，因模型权重文件可能与训练框架不匹配或有优化，因此需要针对模型的tokenizer文件进行修改或替换，不同模型的tokenizer文件修改内容如下。 falcon-11B模型在训练开始前，针对falcon-11B模型中的tokenizer文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
各个模型训练前文件替换 - AI开发平台ModelArts

各个模型训练前文件替换在训练开始前，因模型权重文件可能与训练框架不匹配或有优化，因此需要针对模型的tokenizer文件进行修改或替换，不同模型的tokenizer文件修改内容如下。 falcon-11B模型在训练开始前，针对falcon-11B模型中的tokenizer文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明
查询预置算法 - AI开发平台ModelArts

指定查询的排序方式，默认是根据引擎查找“engine”，目前支持的排序还有模型名称“model_name”，“model_precision”模型用途“model_usage”，模型精度描述“model_precision”，模型大小“model_size”，模型创建时间“create_time”，运行参数“parameter”。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
使用AWQ量化 - AI开发平台ModelArts

AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表3。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：per-group Step1 模型量化可以在Huggingface开源社区获取AWQ量化后的模型权重；或者获

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
停止计费 - AI开发平台ModelArts
停止计费 - AI开发平台ModelArts

停止计费在不需要使用ModelArts服务功能时，需要删除或停止正在计费的项目。自动学习、Workflow、开发环境、模型训练、在线服务、专属资源池涉及到需要停止的计费项如下：自动学习：停止因运行自动学习作业而创建的训练作业和在线服务。删除存储到OBS中的数据及OBS桶。 Workf

帮助中心 > AI开发平台ModelArts > 计费说明
各个模型训练前文件替换 - AI开发平台ModelArts

各个模型训练前文件替换在训练开始前，因模型权重文件可能与训练框架不匹配或有优化，因此需要针对模型的tokenizer文件进行修改或替换，不同模型的tokenizer文件修改内容如下。 falcon-11B模型在训练开始前，针对falcon-11B模型中的tokenizer文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
各个模型训练前文件替换 - AI开发平台ModelArts

各个模型训练前文件替换在训练开始前，因模型权重文件可能与训练框架不匹配或有优化，因此需要针对模型的tokenizer文件进行修改或替换，不同模型的tokenizer文件修改内容如下。 falcon-11B模型在训练开始前，针对falcon-11B模型中的tokenizer文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
各个模型训练前文件替换 - AI开发平台ModelArts

各个模型训练前文件替换在训练开始前，因模型权重文件可能与训练框架不匹配或有优化，因此需要针对模型的tokenizer文件进行修改或替换，不同模型的tokenizer文件修改内容如下。 falcon-11B模型在训练开始前，针对falcon-11B模型中的tokenizer文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
使用SmoothQuant量化 - AI开发平台ModelArts

--per-token --per-channel 参数说明: --model-path：原始模型权重路径。 --quantize-model：体现此参数表示会生成量化模型权重。不需要生成量化模型权重时，不体现此参数 --generate-scale：体现此参数表示会生成量化系数，生成

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

--per-token --per-channel 参数说明: --model-path：原始模型权重路径。 --quantize-model：体现此参数表示会生成量化模型权重。不需要生成量化模型权重时，不体现此参数 --generate-scale：体现此参数表示会生成量化系数，生成

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
执行训练任务 - AI开发平台ModelArts

多模态数据集，如qwen2_vl系列模型 dataset: mllm_demo,identity RM/DPO，目前仅支持llama3系列模型 dataset: dpo_en_demo 是否使用falcon-11b、qwen2_vl系列、glm4-9b模型。是，更新配置或命令。 fa

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何使用SmoothQuant量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化

总条数： 1777

上一页
1
...
9
10
11
...
89
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

BF16和FP16说明 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

使用MaaS部署模型服务 - AI开发平台ModelArts

创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

在MaaS体验模型服务 - AI开发平台ModelArts

支持的模型列表 - AI开发平台ModelArts

在ModelArts Studio基于Qwen2-7B模型实现新闻自动分类 - AI开发平台ModelArts

各个模型训练前文件替换 - AI开发平台ModelArts

各个模型训练前文件替换 - AI开发平台ModelArts

各个模型训练前文件替换 - AI开发平台ModelArts

查询预置算法 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

停止计费 - AI开发平台ModelArts

各个模型训练前文件替换 - AI开发平台ModelArts

各个模型训练前文件替换 - AI开发平台ModelArts

各个模型训练前文件替换 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线