搜索_华为云

SD3.5基于Lite Server适配PyTorch NPU的推理指导（6.3.912） - AI开发平台ModelArts

Prompt”加入推理队列进行推理，如下图。成功之后结果如下图所示。首次加载或切换模型推理时，需要加载模型并进行相关初始化工作，首次推理时间较长，请耐心等待。父主题：文生图模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
Yaml配置文件参数配置说明 - AI开发平台ModelArts

Yaml配置文件参数配置说明本小节主要详细描述demo_yaml配置文件、配置参数说明，用户可根据实际自行选择其需要的参数。表1 模型训练脚本参数参数示例值参数说明 model_name_or_path /home/ma-user/ws/tokenizers/Qwen2-72B

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
通过APP认证的方式访问在线服务 - AI开发平台ModelArts

证鉴权方式发送预测请求约束限制调用API访问在线服务时，对预测请求体大小和预测时间有限制：请求体的大小不超过12MB，超过后请求会被拦截。因APIG（API网关）限制，平台每次请求预测的时间不超过40秒。前提条件数据已完成准备：已在ModelArts中创建状态“正常”可用的模型。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的认证方式
第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

擎选择Custom，引擎包选择步骤3构建的镜像。图3 创建模型将创建的模型部署为在线服务，大模型加载启动的时间一般大于普通的模型创建的服务，请配置合理的“部署超时时间”，避免尚未启动完成被认为超时而导致部署失败。图4 部署为在线服务调用在线服务进行大模型推理，请求路径填写

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6.3.909-xxx.zip 说明：软件包名称中的xxx表示时间戳。包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见模型软件包结构说明。获取路径：Support-E

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6.3.910-xxx.zip 说明：软件包名称中的xxx表示时间戳。包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见模型软件包结构说明。获取路径：Support-

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
训练启动脚本说明和参数配置 - AI开发平台ModelArts

MOSSInstructionHandler：使用微调的moss数据集。 MBS 1 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 128 表

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908） > 训练脚本说明参考
MoXing常用操作的样例代码 - AI开发平台ModelArts

recursive=True) 获取一个OBS文件或文件夹的stat信息，stat信息中包含如下信息。 length：文件大小。 mtime_nsec：创建时间戳。 is_directory：是否为目录。例如查询一个OBS文件“obs://bucket_name/obs_file.txt”，此文件地址也可以替换成一个文件夹地址。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令
启动推理服务 - AI开发平台ModelArts

top_k 否 -1 Int 控制要考虑的前几个tokens的数量的整数。设置为-1表示考虑所有tokens。适当降低该值可以减少采样时间。 top_p 否 1.0 Float 控制要考虑的前几个tokens的累积概率的浮点数。必须在 (0，1] 范围内。设置为1表示考虑所有tokens。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理服务部署
语言模型推理性能测试 - AI开发平台ModelArts

时 avg_decode_latency（平均增量token时延）：服务计算增量token的平均耗时 time_in_queue（请求排队时间）：请求从到达服务开始到开始被调度的耗时 request_latency（请求总时延）：请求从到达服务开始到结束的耗时以上指标单位均是ms，保留2位小数。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理性能测试
语言模型推理性能测试 - AI开发平台ModelArts

时 avg_decode_latency（平均增量token时延）：服务计算增量token的平均耗时 time_in_queue（请求排队时间）：请求从到达服务开始到开始被调度的耗时 request_latency（请求总时延）：请求从到达服务开始到结束的耗时以上指标单位均是ms，保留2位小数。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务性能评测
训练启动脚本说明和参数配置 - AI开发平台ModelArts

MOSSInstructionHandler：使用微调的moss数据集。 MBS 1 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 128 表

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明参考
训练启动脚本说明和参数配置 - AI开发平台ModelArts

MOSSInstructionHandler：使用微调的moss数据集。 MBS 1 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 128 表

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明
使用SDK调测单机训练作业 - AI开发平台ModelArts

l_path中。将训练任务得到的输出上传到4指定的obs_path中，日志上传到第六步指定的log_url中。同时，可以在任务名后增加时间后缀，区分不同的任务名称。 from datetime import datetime, timedelta import time base_name

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
查看模型评估结果 - AI开发平台ModelArts

label_map_dict=label_dict, save_path=FLAGS.train_url) 复制数据集到本地复制数据集到本地主要是为了防止长时间访问OBS容易导致OBS连接中断使得作业卡住，所以一般先将数据复制到本地再进行操作。数据集复制有两种方式，推荐使用OBS路径复制。 OBS路径（推荐）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
启动推理服务 - AI开发平台ModelArts

top_k 否 -1 Int 控制要考虑的前几个tokens的数量的整数。设置为-1表示考虑所有tokens。适当降低该值可以减少采样时间。 top_p 否 1.0 Float 控制要考虑的前几个tokens的累积概率的浮点数。必须在 (0，1] 范围内。设置为1表示考虑所有tokens。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务部署
执行训练任务（推荐） - AI开发平台ModelArts

gpt数据集 micro-batch-size 4 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 global-batch-size

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.5.901） > 执行训练任务
语言模型推理性能测试 - AI开发平台ModelArts

时 avg_decode_latency（平均增量token时延）：服务计算增量token的平均耗时 time_in_queue（请求排队时间）：请求从到达服务开始到开始被调度的耗时 request_latency（请求总时延）：请求从到达服务开始到结束的耗时以上指标单位均是ms，保留2位小数。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理服务性能评测
语言模型推理性能测试 - AI开发平台ModelArts

时 avg_decode_latency（平均增量token时延）：服务计算增量token的平均耗时 time_in_queue（请求排队时间）：请求从到达服务开始到开始被调度的耗时 request_latency（请求总时延）：请求从到达服务开始到结束的耗时以上指标单位均是ms，保留2位小数。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理性能测试
执行训练任务（推荐） - AI开发平台ModelArts

gpt数据集 micro-batch-size 4 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 global-batch-size

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务

总条数： 903

上一页
1
...
41
42
43
...
46
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

SD3.5基于Lite Server适配PyTorch NPU的推理指导（6.3.912） - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

通过APP认证的方式访问在线服务 - AI开发平台ModelArts

第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

MoXing常用操作的样例代码 - AI开发平台ModelArts

启动推理服务 - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

使用SDK调测单机训练作业 - AI开发平台ModelArts

查看模型评估结果 - AI开发平台ModelArts

启动推理服务 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线