搜索_华为云

分离部署推理服务 - AI开发平台ModelArts

启动全量推理实例：必须为NPU实例，用于启动全量推理服务，负责输入的全量推理。全量推理占用至少1个容器。步骤七启动增量推理实例：必须为NPU实例，用于启动增量推理服务，负责输入的增量推理。增量推理占用至少1个容器。步骤八启动scheduler实例：可为CPU实例，用于启动api

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
分离部署推理服务 - AI开发平台ModelArts

启动全量推理实例：必须为NPU实例，用于启动全量推理服务，负责输入的全量推理。全量推理占用至少1个容器。 Step7 启动增量推理实例：必须为NPU实例，用于启动增量推理服务，负责输入的增量推理。增量推理占用至少1个容器。 Step8 启动scheduler实例：可为CPU实例，用于启动

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
在DevServer上部署SD WebUI推理服务 - AI开发平台ModelArts

请参考DevServer资源开通，购买DevServer资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。购买DevServer资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD WEBUI套件适配PyTorch NPU的推理指导（6.3.908）
推理精度测试 - AI开发平台ModelArts

├──install.sh #安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字确保Notebook内通网，已通网可以跳过这一步，未通网需

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
推理精度测试 - AI开发平台ModelArts

├──install.sh #安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字确保容器内通网，未通网需要配置$config_proxy_

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906）
同一个账户，图片展示角度不同是为什么？ - AI开发平台ModelArts

稳定浏览器版本。如果您当前使用的浏览器版本过低，将在一定程度上影响页面的显示效果，系统会提示您尽快对浏览器进行升级。如果您当前使用的浏览器不支持访问管理控制台，系统会建议您对浏览器进行升级或安装支持的浏览器。表1 PC端浏览器兼容性一览表浏览器类型版本操作系统兼容性

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理
推理场景介绍 - AI开发平台ModelArts

本方案目前仅适用于部分企业客户。本文档适配昇腾云ModelArts 6.3.908版本，请参考软件配套版本获取配套版本的软件包，请严格遵照版本配套关系使用本文档。资源规格推荐使用“西南-贵阳一”Region上的DevServer和昇腾Snt9B资源。推理部署使用的服务框架是vLLM。vLLM支持v0.5.0版本。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908）
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

en系模型），开启并行可以减少显存占用，以提升推理吞吐量。 export USE_PFA_HIGH_PRECISION_MODE=1 # PFA算子是否使用高精度模式；默认值为0表示不开启。针对Qwen2-7B模型，必须开启此配置，否则精度会异常；其他模型不建议开启，因为性能会有损失。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
镜像保存时报错“container size %dG is greater than threshold %dG”如何解决？ - AI开发平台ModelArts

持久化存储的部分（home/ma-user/work目录的内容）不会保存在最终产生的容器镜像中、“/cache”目录下存储的是临时文件，不占用容器空间。如果没有文件可以删除，或者不清楚哪些可以删除，那么可以使用相同的镜像重新创建一个Notebook，使用新建的Notebook时

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
查询服务详情 - AI开发平台ModelArts

CustomSpec object 自定义资源规格配置，仅当specification配置为custom时返回。 envs Map<String,String> 运行模型需要的环境变量键值对。 specification String 资源规格，例如：modelarts.vm.cpu.2u/modelarts

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
停止Notebook实例 - AI开发平台ModelArts

空间，以实际取值为准。 feature String 实例类别。枚举值： DEFAULT：CodeLab免费规格实例，每个用户最多只能创建一个。 NOTEBOOK：计费规格实例。 billing_items Array of strings 计费资源类型。枚举值： STORAGE：存储资源计费。

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
查询专属资源池作业列表 - AI开发平台ModelArts

上层业务作业名称。 uid String 作业uid。 jobUUID String 上层业务作业id。 flavor String 作业规格。 status String 作业状态。 resourceRequirement resourceRequirement object 运行作业的资源请求量。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

runtime is found分析，是cuda runtime没有找到。处理方法建议您按以下步骤排查处理：确认部署在线服务时是否选择了GPU规格。在customize_service.py中添加一行代码os.system('nvcc -V)查看该镜像的cuda版本（customize_service

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

方法四：使用Git clone，官方提供了 git clone repo_url 的方式下载，但是不支持断点续传，并且clone 会下载历史版本占用磁盘空间。模型软件包结构说明本教程需要使用到的AscendCloud-6.3.909中的AscendCloud-LLM-xxx.zip

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 准备工作
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

|── alpaca_gpt4_data.json # 微调数据文件在ECS服务器中安装obsutil工具，具体命令可参考obsutil工具快速使用，将OBS桶中的数据下载至SFS Turbo中。注意：需要使用用户账

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909） > 准备工作
查看作业详情 - AI开发平台ModelArts

查看作业详情如何查看训练作业资源占用情况？如何访问训练作业的后台？两个训练作业的模型都保存在容器相同的目录下是否有冲突？训练输出的日志只保留3位有效数字，是否支持更改loss值？训练好的模型是否可以下载或迁移到其他账号？如何获取下载路径？父主题： Standard训练作业

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业
为什么资源充足还是在排队？ - AI开发平台ModelArts

为什么资源充足还是在排队？如果是公共资源池，一般是由于其他用户占用资源导致，请耐心等待或根据训练作业一直在等待中（排队）？方法降低排队时间。如果是专属资源池，建议您进行以下排查：排查专属资源池中是否存在其他作业（包括推理作业、训练作业、开发环境作业等）。可通过总览页面，快

 帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
推理场景介绍 - AI开发平台ModelArts

本方案目前仅适用于部分企业客户。本文档适配昇腾云ModelArts 6.3.909版本，请参考软件配套版本获取配套版本的软件包，请严格遵照版本配套关系使用本文档。资源规格推荐使用“西南-贵阳一”Region上的DevServer和昇腾Snt9B资源。推理部署使用的服务框架是vLLM。vLLM支持v0.6.0版本。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.909）
日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” - AI开发平台ModelArts

indices_out_cuda_frame failed with error code 0” 问题现象 pytroch1.3镜像中，去升级了pytroch1.4的版本，导致之前在pytroch1.3跑通的代码报错如下： “RuntimeError:max_pool2d_wit

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
启动Notebook实例 - AI开发平台ModelArts

空间，以实际取值为准。 feature String 实例类别。枚举值： DEFAULT：CodeLab免费规格实例，每个用户最多只能创建一个。 NOTEBOOK：计费规格实例。 billing_items Array of strings 计费资源类型。枚举值： STORAGE：存储资源计费。

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理

总条数： 802

上一页
1
...
21
22
23
...
41
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

在DevServer上部署SD WebUI推理服务 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

同一个账户，图片展示角度不同是为什么？ - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

镜像保存时报错“container size %dG is greater than threshold %dG”如何解决？ - AI开发平台ModelArts

查询服务详情 - AI开发平台ModelArts

停止Notebook实例 - AI开发平台ModelArts

查询专属资源池作业列表 - AI开发平台ModelArts

部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

查看作业详情 - AI开发平台ModelArts

为什么资源充足还是在排队？ - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” - AI开发平台ModelArts

启动Notebook实例 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线