搜索_华为云

推理精度测试 - AI开发平台ModelArts

服务预测地址，示例：http://${docker_ip}:8080/generate。此处的${docker_ip}替换为宿主机实际的IP地址，端口号8080来自前面配置的服务端口。 few_shot：开启少量样本测试后添加示例样本的个数。默认为3，取值范围为0~5整数。 is_devserver：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
启动Notebook实例 - AI开发平台ModelArts

参数参数类型描述 allowed_access_ips Array of strings 允许通过SSH协议访问Notebook的公网IP地址白名单列表，默认都可以访问。当配置指定IP后，则仅允许IP所在的客户端实现对Notebook的访问。 dev_service String

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
删除Notebook实例 - AI开发平台ModelArts

参数参数类型描述 allowed_access_ips Array of strings 允许通过SSH协议访问Notebook的公网IP地址白名单列表，默认都可以访问。当配置指定IP后，则仅允许IP所在的客户端实现对Notebook的访问。 dev_service String

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码软件配套版本本方案支持的软件配套版本和依赖包获取地址如表1所示。表1 软件配套版本和获取地址软件名称说明下载地址 AscendCloud-6.3.909-xxx.zip 说明：软件包名称中的xxx表示时间戳。包含了本教程中使用到的推理部署代码和推理评测代码

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 准备工作
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

tion）是否使用高精度模式；默认值为1表示开启。针对Qwen2-7B模型和Qwen2-57b模型，必须开启此配置，否则精度会异常；其他模型不建议开启，会影响首token时延增加5%~10%。 export USE_IFA_HIGH_PRECISION_MODE=1 # IFA

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
创建Notebook实例 - AI开发平台ModelArts

EndpointsReq 参数是否必选参数类型描述 allowed_access_ips 否 Array of strings 允许远程接入的公网IP地址列表，最多5个。 service 否 String 支持的服务，枚举值如下： NOTEBOOK：可以通过https协议访问Notebook。

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
分离部署推理服务 - AI开发平台ModelArts

json文件，其中xx表示当前实例的IP地址，yy表示当前实例使用的device_id信息；当实例类型为服务入口实例，local rank_table配置local_ranktable_xx_host.json文件，其中xx表示当前实例的IP地址。 NODE_PORTS：仅在服务入

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
查询Notebook实例详情 - AI开发平台ModelArts

参数参数类型描述 allowed_access_ips Array of strings 允许通过SSH协议访问Notebook的公网IP地址白名单列表，默认都可以访问。当配置指定IP后，则仅允许IP所在的客户端实现对Notebook的访问。 dev_service String

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
推理性能测试 - AI开发平台ModelArts

equest-rate参数）较高，会触发推理平台的流控，请在ModelArts Standard“在线服务”详情页修改服务流量限制。同步请求时，平台每次请求预测的时间不能超过60秒。例如输出数据比较大的调用请求（例如输出大于1k），请求预测会超过60秒导致调用失败，可提交工单设置请求超时时间。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

tion）是否使用高精度模式；默认值为1表示开启。针对Qwen2-7B模型和Qwen2-57b模型，必须开启此配置，否则精度会异常；其他模型不建议开启，会影响首token时延增加5%~10%。 export USE_IFA_HIGH_PRECISION_MODE=1 # IFA

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码软件配套版本本方案支持的软件配套版本和依赖包获取地址如表1所示。表1 软件配套版本和获取地址软件名称说明下载地址 AscendCloud-6.3.911-xxx.zip 说明：软件包名称中的xxx表示时间戳。包含了本教程中使用到的推理部署代码和推理评测代码

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 准备工作
停止Notebook实例 - AI开发平台ModelArts

参数参数类型描述 allowed_access_ips Array of strings 允许通过SSH协议访问Notebook的公网IP地址白名单列表，默认都可以访问。当配置指定IP后，则仅允许IP所在的客户端实现对Notebook的访问。 dev_service String

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
分离部署推理服务 - AI开发平台ModelArts

json文件，其中xx表示当前实例的IP地址，yy表示当前实例使用的device_id信息；当实例类型为服务入口实例，local rank_table配置local_ranktable_xx_host.json文件，其中xx表示当前实例的IP地址。 NODE_PORTS：仅在服务入

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
分离部署推理服务 - AI开发平台ModelArts

json文件，其中xx表示当前实例的IP地址，yy表示当前实例使用的device_id信息；当实例类型为服务入口实例，local rank_table配置local_ranktable_xx_host.json文件，其中xx表示当前实例的IP地址。 NODE_PORTS：仅在服务入

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
分离部署推理服务 - AI开发平台ModelArts

json文件，其中xx表示当前实例的IP地址，yy表示当前实例使用的device_id信息；当实例类型为服务入口实例，local rank_table配置local_ranktable_xx_host.json文件，其中xx表示当前实例的IP地址。 NODE_PORTS：仅在服务入

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

ripts/install.sh文件。具体为删除install.sh的第43行 "git cherrypick 171ba0b3"。该问题会导致代码安装失败，会在后续版本修复。代码上传至OBS 将AscendSpeed代码包AscendCloud-3rdLLM-905-xxx.

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
扩缩容Lite Cluster资源池 - AI开发平台ModelArts

扩缩容Lite Cluster资源池场景介绍当Lite Cluster资源池创建完成，使用一段时间后，由于用户业务的变化，对于资源池资源量的需求可能会产生变化，面对这种场景，ModelArts Lite Cluster资源池提供了扩缩容功能，用户可以根据需求动态调整资源。缩容操作可能影响

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
非分离部署推理服务 - AI开发平台ModelArts

tion）是否使用高精度模式；默认值为1表示开启。针对Qwen2-7B模型和Qwen2-57b模型，必须开启此配置，否则精度会异常；其他模型不建议开启，会影响首token时延增加5%~10%。 export USE_IFA_HIGH_PRECISION_MODE=1 # IFA

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
扩缩容Standard专属资源池 - AI开发平台ModelArts

扩缩容Standard专属资源池场景介绍当专属资源池创建完成，使用一段时间后，由于用户AI开发业务的变化，对于资源池资源量的需求可能会产生变化，面对这种场景，ModelArts Standard专属资源池提供了扩缩容功能，用户可以根据自己的需求动态调整。使用扩容功能时，可以增加资源池已有规格的实例数量。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
通过SSH工具远程使用Notebook - AI开发平台ModelArts

Auth”，单击“Browse”，选择“.ppk文件”（由Step2密钥对.pem文件生成）。单击“Open”。如果首次登录，PuTTY会显示安全警告对话框，询问是否接受服务器的安全证书。单击“Accept”将证书保存到本地注册表中。图6 询问是否接受服务器的安全证书成功连接到云上Notebook实例。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试

总条数： 566

上一页
1
...
6
7
8
...
29
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

推理精度测试 - AI开发平台ModelArts

启动Notebook实例 - AI开发平台ModelArts

删除Notebook实例 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

创建Notebook实例 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

查询Notebook实例详情 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

停止Notebook实例 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

扩缩容Lite Cluster资源池 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

扩缩容Standard专属资源池 - AI开发平台ModelArts

通过SSH工具远程使用Notebook - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线