搜索_华为云

在推理生产环境中部署推理服务 - AI开发平台ModelArts

DEFER_DECODE=1 # 是否使用推理与Token解码并行；默认值为1表示开启并行，取值为0表示关闭并行。开启该功能会略微增加首Token时间，但可以提升推理吞吐量。 export DEFER_MS=10 # 延迟解码时间，默认值为10，单位为ms。将Token解码延迟进行的毫秒数，使得本次T

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
部署推理服务 - AI开发平台ModelArts

16,32 # 设置动态分档的档位，根据实际情况设置，另外请不要设置档位1(DeepSeek V2 236B W8A8 模型建议最大设置4个档位) export VLLM_ENGINE_ITERATION_TIMEOUT_S=1500 # 设置vllm请求超时时间(DeepSeek

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

|── alpaca_gpt4_data.json # 微调数据文件在ECS服务器中安装obsutil工具，具体命令可参考obsutil工具快速使用，将OBS桶中的数据下载至SFS Turbo中。注意：需要使用用户账

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
使用AWQ量化工具转换权重 - AI开发平台ModelArts

--group-size：量化group size参数，指定-1时为per-channel权重量化，W4A16支持128和-1，W8A16支持-1。 --w-bit：量化比特数，W4A16设置4，W8A16设置8。 --calib-data：数据集路径，推荐使用：https://huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
在推理生产环境中部署推理服务 - AI开发平台ModelArts

16,32 # 设置动态分档的档位，根据实际情况设置，另外请不要设置档位1(DeepSeek V2 236B W8A8 模型建议最大设置4个档位) export VLLM_ENGINE_ITERATION_TIMEOUT_S=1500 # 设置vllm请求超时时间(DeepSeek

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
Standard镜像相关 - AI开发平台ModelArts

如何保证自定义镜像能不因为超过35G而保存失败？如何减小本地或ECS构建镜像的目的镜像的大小？镜像过大，卸载原来的包重新打包镜像，最终镜像会变小吗？在ModelArts镜像管理注册镜像报错ModelArts.6787怎么处理？用户如何设置默认的kernel？

帮助中心 > AI开发平台ModelArts > 常见问题
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

input：任务的可选上下文或输入。instruction 对应的内容会与 input 对应的内容拼接后作为指令，即指令为 instruction\ninput。 output：生成的指令的答案。 system：系统提示词，用来为整个对话设定场景或提供指导原则。 history：一个列表，包含之前轮次的对话记录，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
配置IAM权限 - AI开发平台ModelArts

} ] } 创建自定义策略时，建议将项目级云服务和全局级云服务拆分为两条策略，便于授权时设置最小授权范围。此处的“Policy1”为项目级云服务、“Policy2”为全局级云服务。了解更多。将自定义策略授权给开发者用户组user_group。在统一身份认证服务控制

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置 > 权限配置
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

|── alpaca_gpt4_data.json # 微调数据文件在ECS服务器中安装obsutil工具，具体命令可参考obsutil工具快速使用，将OBS桶中的数据下载至SFS Turbo中。注意：需要使用用户账

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

|── alpaca_gpt4_data.json # 微调数据文件在ECS服务器中安装obsutil工具，具体命令可参考obsutil工具快速使用，将OBS桶中的数据下载至SFS Turbo中。注意：需要使用用户账

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
使用AWQ量化工具转换权重 - AI开发平台ModelArts

--group-size：量化group size参数，指定-1时为per-channel权重量化，W4A16支持128和-1，W8A16支持-1。 --w-bit：量化比特数，W4A16设置4，W8A16设置8。 --calib-data：数据集路径，推荐使用：https://huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
配置Workflow参数 - AI开发平台ModelArts

参数是否运行时输入，默认为“False”，在工作流启动运行前进行配置。设置为“True”，则在使用的相应节点运行时卡点配置。否 bool description 参数描述信息。否 str enum_list 参数枚举值列表，只有当参数类型为PlaceholderType.ENUM时才需要填写。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
advisor调优总体步骤 - AI开发平台ModelArts

文件详情请参考查看诊断报告。下面以开发环境Notebook为例介绍一个典型的性能调优案例。 64卡训练任务，模型为GPT MOE，tensor parallel(tp)为8，pipeline parallel(pp)为4。训练过程中发现每个step耗时均显著增大，基于dynam

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
投机推理使用说明 - AI开发平台ModelArts

speculative_draft_tensor_parallel_size int 小模型所使用的设备数量，由于小模型通常较小，所以此处建议设置为1，如果使用eagle作为小模型，此处必须设置为1 offline speculative_disable_by_batch_size int 投机推理batch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 投机推理
Standard数据准备 - AI开发平台ModelArts

在ModelArts中智能标注完成后新加入数据需要重新训练吗？在ModelArts中如何将图片划分到验证集或者训练集？在ModelArts中物体检测标注时能否自定义标签？ ModelArts数据集新建的版本找不到怎么办？如何切分ModelArts数据集？如何删除ModelArts数据集中的图片？

帮助中心 > AI开发平台ModelArts > 常见问题
发布免费模型 - AI开发平台ModelArts

“时长限制”。设置订阅者可以免费使用资产的时长，默认关闭，即无限期使用。如果打开时长限制，除了设置资产免费使用的时长，还可以设置到期后是否续订。如果是更新已发布资产的版本。 “发布方式”选择“添加资产版本”。在“资产标题”下拉框中选择已有资产名称。支持搜索资产名称。设置“ModelArts区域”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 发布分享
在推理生产环境中部署推理服务 - AI开发平台ModelArts

DEFER_DECODE=1 # 是否使用推理与Token解码并行；默认值为1表示开启并行，取值为0表示关闭并行。开启该功能会略微增加首Token时间，但可以提升推理吞吐量。 export DEFER_MS=10 # 延迟解码时间，默认值为10，单位为ms。将Token解码延迟进行的毫秒数，使得本次T

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
非分离部署推理服务 - AI开发平台ModelArts

16,32 # 设置动态分档的档位，根据实际情况设置，另外请不要设置档位1(DeepSeek V2 236B W8A8 模型建议最大设置4个档位) export VLLM_ENGINE_ITERATION_TIMEOUT_S=1500 # 设置vllm请求超时时间(DeepSeek

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
修复Standard专属资源池故障节点 - AI开发平台ModelArts

冗余实例数：此规格设置的高可用冗余实例数量。冗余系数指的是冗余节点分布策略为step均分时，每个超节点内预留的冗余节点数量。方式二：在资源池详情页的规格页签设置图2 规格页签设置图3 设置高可用冗余能力方式三：在扩缩容页面设置图4 设置高可用冗余能力设置单节点为高可用冗余节点

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
在推理生产环境中部署推理服务 - AI开发平台ModelArts

DEFER_DECODE=1 # 是否使用推理与Token解码并行；默认值为1表示开启并行，取值为0表示关闭并行。开启该功能会略微增加首Token时间，但可以提升推理吞吐量。 export DEFER_MS=10 # 延迟解码时间，默认值为10，单位为ms。将Token解码延迟进行的毫秒数，使得当次T

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）

总条数： 1062

上一页
1
...
17
18
19
...
54
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在推理生产环境中部署推理服务 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

Standard镜像相关 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

配置IAM权限 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

配置Workflow参数 - AI开发平台ModelArts

advisor调优总体步骤 - AI开发平台ModelArts

投机推理使用说明 - AI开发平台ModelArts

Standard数据准备 - AI开发平台ModelArts

发布免费模型 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

修复Standard专属资源池故障节点 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线