搜索_华为云

推理性能测试 - AI开发平台ModelArts

--url：如果以vllm接口方式启动服务，API接口公网地址与"/generate"拼接而成；如果以openai接口方式启动服务，API接口公网地址与"/v1/completions"拼接而成。部署成功后的在线服务详情页中可查看API接口公网地址。图3 API接口公网地址 --app

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
工作空间管理 - AI开发平台ModelArts

工作空间管理查询工作空间详情修改工作空间删除工作空间查询工作空间配额修改工作空间配额查询工作空间列表创建工作空间

 帮助中心 > AI开发平台ModelArts > API参考
资源管理 - AI开发平台ModelArts
资源管理 - AI开发平台ModelArts

资源管理查询OS的配置参数查询插件模板查询节点列表批量删除节点批量重启节点查询事件列表创建网络资源查询网络资源列表查询网络资源删除网络资源更新网络资源查询资源实时利用率创建资源池查询资源池列表查询资源池删除资源池更新资源池资源池监控资源池统计

 帮助中心 > AI开发平台ModelArts > API参考
开发环境权限 - AI开发平台ModelArts

开发环境权限表1 开发环境细化权限说明权限对应API接口授权项依赖的授权项 IAM项目企业项目创建开发环境实例 POST /v1/{project_id}/notebooks modelarts:notebook:create ecs:serverKeypairs:create

帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
AI应用管理 - AI开发平台ModelArts

AI应用管理查询模型runtime 查询AI应用列表创建AI应用查询AI应用详情删除AI应用

 帮助中心 > AI开发平台ModelArts > API参考
资源标签管理 - AI开发平台ModelArts

资源标签管理查询资源池的所有标签查询资源池上的标签

 帮助中心 > AI开发平台ModelArts > API参考
节点池管理 - AI开发平台ModelArts

节点池管理查询节点池列表创建节点池查询指定节点池详情更新节点池删除节点池查询节点池的节点列表

 帮助中心 > AI开发平台ModelArts > API参考
调用ModelArts API接口创建训练作业和部署服务时，如何填写资源池的参数？ - AI开发平台ModelArts

调用ModelArts API接口创建训练作业和部署服务时，如何填写资源池的参数？调用API接口创建训练作业时，“pool_id”为“资源池ID”。调用API接口部署在线服务时，“pool_name”为“资源池ID” 。图1 资源池ID 父主题： API/SDK

帮助中心 > AI开发平台ModelArts > 常见问题 > API/SDK
kv-cache-int8量化 - AI开发平台ModelArts

kv-cache-int8量化支持的模型请参见支持的模型列表。 per-token动态量化场景使用该场景量化方法，无需提前生成量化权重。推理前向会自动计算kv-cache量化系数，并进行kv的量化。在启动推理服务时添加如下参数，启动kv-cache-int8-per-token量化服务。 --kv-cache-dtype

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 量化
在ModelArts中调整模型后，部署新版本模型能否保持原API接口不变？ - AI开发平台ModelArts

在ModelArts中调整模型后，部署新版本模型能否保持原API接口不变？ ModelArts提供多版本支持和灵活的流量策略，您可以通过使用灰度发布，实现模型版本的平滑过渡升级。修改服务部署新版本模型或者切换模型版本时，原服务预测API不会变化。调整模型版本的操作可以参考如下的步骤。前提条件

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
权限策略和授权项 - AI开发平台ModelArts

权限策略和授权项策略及授权项说明数据管理权限开发环境权限训练作业权限模型管理权限服务管理权限工作空间管理权限 DevServer权限

 帮助中心 > AI开发平台ModelArts > API参考
查看日志和性能 - AI开发平台ModelArts

${pod_name} 训练过程中，训练日志会在最后的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，可以在${SAVE_PATH}/logs路径下获取。日志存放路径为：/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912）
查看日志和性能 - AI开发平台ModelArts

${pod_name} 训练过程中，训练日志会在最后的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，可以在${SAVE_PATH}/logs路径下获取。日志存放路径为：/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909）
查看日志和性能 - AI开发平台ModelArts

${pod_name} 训练过程中，训练日志会在最后的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，可以在${SAVE_PATH}/logs路径下获取。日志存放路径为：/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910）
使用kv-cache-int8量化 - AI开发平台ModelArts

会造成精度下降。 per-token动态量化场景如需使用该场景量化方法，推理前向会自动计算kv-cache量化系数，并进行kv的量化。在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数，启动kv-cache-int8-per-token量化服务。 --kv-cache-dtype

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

会造成精度下降。 per-token动态量化场景如需使用该场景量化方法，推理前向会自动计算kv-cache量化系数，并进行kv的量化。在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数，启动kv-cache-int8-per-token量化服务。 --kv-cache-dtype

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
DevServer管理 - AI开发平台ModelArts

DevServer管理查询用户所有DevServer实例列表创建DevServer 查询DevServer实例详情删除DevServer实例实时同步用户所有DevServer实例状态启动DevServer实例停止DevServer实例

 帮助中心 > AI开发平台ModelArts > API参考
查看日志和性能 - AI开发平台ModelArts

${pod_name} 训练过程中，训练日志会在最后的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，可以在${SAVE_PATH}/logs路径下获取。日志存放路径为：/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911）
ModelArts Standard的WebSocket在线服务全流程开发 - AI开发平台ModelArts

WebSocket协议本身不提供额外的认证方式。不管自定义镜像里面是ws还是wss，经过ModelArts平台出去的WebSocket协议都是wss的。同时wss只支持客户端对服务端的单向认证，不支持服务端对客户端的双向认证。可以使用ModelArts提供的以下认证方式： token认证 AK/SK APP认证

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
推理性能测试 - AI开发平台ModelArts

model_prefill_latency（模型计算首token时延）：服务从开始计算首token到生成首token的耗时 avg_decode_latency（平均增量token时延）：服务计算增量token的平均耗时 time_in_queue（请求排队时间）：请求从到达服务开始到开始被调度的耗时

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908）

总条数： 1920

上一页
1
...
22
23
24
...
96
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

推理性能测试 - AI开发平台ModelArts

工作空间管理 - AI开发平台ModelArts

资源管理 - AI开发平台ModelArts

开发环境权限 - AI开发平台ModelArts

AI应用管理 - AI开发平台ModelArts

资源标签管理 - AI开发平台ModelArts

节点池管理 - AI开发平台ModelArts

调用ModelArts API接口创建训练作业和部署服务时，如何填写资源池的参数？ - AI开发平台ModelArts

kv-cache-int8量化 - AI开发平台ModelArts

在ModelArts中调整模型后，部署新版本模型能否保持原API接口不变？ - AI开发平台ModelArts

权限策略和授权项 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

DevServer管理 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

ModelArts Standard的WebSocket在线服务全流程开发 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线