搜索_华为云

使用AI Gallery微调大师训练模型 - AI开发平台ModelArts

日志输出步数。 learning_rate float 初始学习率。 max_grad_norm float 梯度裁剪最大范数。 warmup_ratio float 热身步数比。 max_seq_length int 数据最大序列长度。 finetuned_model String

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
在推理生产环境中部署推理服务 - AI开发平台ModelArts

--port：服务部署的端口8080。 --max-model-len：最大数据输入+输出长度，不能超过模型配置文件config.json里面定义的“max_position_embeddings”和“seq_length”；如果设置过大，会占用过多显存，影响kvcache的空间。 --gpu-mem

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
创建Workflow训练作业节点 - AI开发平台ModelArts

描述是否必填数据类型 name 作业节点的名称，命名规范(只能包含英文字母、数字、下划线（_）、中划线（-），并且只能以英文字母开头，长度限制为64字符)，一个Workflow里的两个step名称不能重复是 str algorithm 算法对象是 BaseAlgorithm

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

控制要考虑的前几个tokens的数量的整数。设置为-1表示考虑所有tokens。适当降低该值可以减少采样时间。 top_p 否 1.0 Float 控制要考虑的前几个tokens的累积概率的浮点数。必须在 (0, 1] 范围内。设置为1表示考虑所有tokens。 temperature 否 1.0 Float 控制

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
故障恢复 - AI开发平台ModelArts
故障恢复 - AI开发平台ModelArts

这些可用区通过延迟低、吞吐量高且冗余性高的网络连接在一起。利用可用区，您可以设计和操作在可用区之间无中断地自动实现故障转移的应用程序和数据库。与传统的单个或多个数据中心基础设施相比，可用区具有更高的可用性、容错性和可扩展性。 ModelArts通过对DB的数据进行备份，保证在原数据被破坏或损坏的情况下可以恢复业务。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
推理性能测试 - AI开发平台ModelArts

--min-input：输入tokens最小长度，可以根据实际需求设置。 --max-input：输入tokens最大长度，可以根据实际需求设置。 --avg-input：输入tokens长度平均值，可以根据实际需求设置。 --std-input：输入tokens长度方差，可以根据实际需求设置。 --min-

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907）
推理性能测试 - AI开发平台ModelArts

--min-input：输入tokens最小长度，可以根据实际需求设置。 --max-input：输入tokens最大长度，可以根据实际需求设置。 --avg-input：输入tokens长度平均值，可以根据实际需求设置。 --std-input：输入tokens长度方差，可以根据实际需求设置。 --min-

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906）
推理性能测试 - AI开发平台ModelArts

--min-input：输入tokens最小长度，可以根据实际需求设置。 --max-input：输入tokens最大长度，可以根据实际需求设置。 --avg-input：输入tokens长度平均值，可以根据实际需求设置。 --std-input：输入tokens长度方差，可以根据实际需求设置。 --min-

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.905）
部署推理服务 - AI开发平台ModelArts

PTA_TORCHAIR_DECODE_GEAR_LIST=2,4,6,8,16,32 # 设置动态分档的挡位，根据实际情况设置，另外请不要设置挡位1 export VLLM_ENGINE_ITERATION_TIMEOUT_S=900 # 设置vllm请求超时时间图模式主要针对小模型的场景，可减少算子下发的瓶颈，目前仅针对Qwen2-1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
物体检测标注时除了位置、物体名字，是否可以设置其他标签，比如是否遮挡、亮度等？ - AI开发平台ModelArts

物体检测标注时除了位置、物体名字，是否可以设置其他标签，比如是否遮挡、亮度等？可以通过修改数据集给标签添加自定义属性来设置一些自定义的属性。图1 修改数据集父主题： Standard数据管理

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理
语言模型推理性能测试 - AI开发平台ModelArts

--min-input：输入tokens最小长度，可以根据实际需求设置。 --max-input：输入tokens最大长度，可以根据实际需求设置。 --avg-input：输入tokens长度平均值，可以根据实际需求设置。 --std-input：输入tokens长度方差，可以根据实际需求设置。 --min-

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 推理性能测试
创建AI应用 - AI开发平台ModelArts

nt或float时可选填，默认为空。 method 是 String 请求方法，可选“post”、“get”。 max 否 Number 参数的最大值。当param_type为int或float时可选填，默认为空。 param_desc 否 String 参数描述，建议长度设置不超过100个字符，默认为空。

帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
使用kv-cache-int8量化 - AI开发平台ModelArts

抽取完成后，可能提取不到model_type信息，需要手动将model_type修改为指定模型，如"llama"。当前社区vllm只支持float8的kv_cache量化，抽取脚本中dtype类型是"float8_e4m3fn"。dtype类型不影响int8的scale系数的抽取和加载。启动kv-cache-int8-per-tensor量化服务。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
推理性能测试 - AI开发平台ModelArts

--min-input：输入tokens最小长度，可以根据实际需求设置。 --max-input：输入tokens最大长度，可以根据实际需求设置。 --avg-input：输入tokens长度平均值，可以根据实际需求设置。 --std-input：输入tokens长度方差，可以根据实际需求设置。 --min-

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908）
推理性能测试 - AI开发平台ModelArts

--min-input：输入tokens最小长度，可以根据实际需求设置。 --max-input：输入tokens最大长度，可以根据实际需求设置。 --avg-input：输入tokens长度平均值，可以根据实际需求设置。 --std-input：输入tokens长度方差，可以根据实际需求设置。 --min-

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
创建可视化作业 - AI开发平台ModelArts

Object 自动停止设置。参见表4。表3 flavor属性列表参数是否必选参数类型说明 code 是 String 可视化作业选择的资源规格编码。通过flavor接口获得。表4 schedule属性列表参数是否必选参数类型说明 type 是 String 设置为stop。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 可视化作业
非分离部署推理服务 - AI开发平台ModelArts

16,32 # 设置动态分档的档位，根据实际情况设置，另外请不要设置档位1(DeepSeek V2 236B W8A8 模型建议最大设置4个档位) export VLLM_ENGINE_ITERATION_TIMEOUT_S=1500 # 设置vllm请求超时时间(DeepSeek

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
自定义镜像规范 - AI开发平台ModelArts

显示在部署推理服务页面，在“高级设置”下会新增“参数设置”，基于配置的推理参数供模型使用者修改自定义镜像的部署参数。表4 自定义推理参数说明参数名称说明 name 参数名称，只能包含英文、数字、下划线。 type 参数类型，可选值：float、int、str、bool、enum。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
部署推理服务 - AI开发平台ModelArts

控制要考虑的前几个tokens的数量的整数。设置为-1表示考虑所有tokens。适当降低该值可以减少采样时间。 top_p 否 1.0 Float 控制要考虑的前几个tokens的累积概率的浮点数。必须在 (0, 1] 范围内。设置为1表示考虑所有tokens。 temperature 否 1.0 Float 控制

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907）
部署推理服务 - AI开发平台ModelArts

控制要考虑的前几个tokens的数量的整数。设置为-1表示考虑所有tokens。适当降低该值可以减少采样时间。 top_p 否 1.0 Float 控制要考虑的前几个tokens的累积概率的浮点数。必须在 (0, 1] 范围内。设置为1表示考虑所有tokens。 temperature 否 1.0 Float 控制

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906）

总条数： 779

上一页
1
2
3
4
5
...
39
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用AI Gallery微调大师训练模型 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

创建Workflow训练作业节点 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

故障恢复 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

物体检测标注时除了位置、物体名字，是否可以设置其他标签，比如是否遮挡、亮度等？ - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

创建AI应用 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

创建可视化作业 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

自定义镜像规范 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线