搜索_华为云

使用kv-cache-int8量化 - AI开发平台ModelArts

les.json文件，里面是提取的per-tensor的scale值。内容示例如下：注意：抽取完成后，可能提取不到model_type信息，需要手动将model_type修改为指定模型，如"llama"。当前社区vllm只支持float8的kv_cache量化，抽取脚本中d

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

les.json文件，里面是提取的per-tensor的scale值。内容示例如下：注意：抽取完成后，可能提取不到model_type信息，需要手动将model_type修改为指定模型，如"llama"。当前社区vllm只支持float8的kv_cache量化，抽取脚本中d

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

les.json文件，里面是提取的per-tensor的scale值。内容示例如下：注意：抽取完成后，可能提取不到model_type信息，需要手动将model_type修改为指定模型，如"llama"。当前社区vllm只支持float8的kv_cache量化，抽取脚本中d

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

les.json文件，里面是提取的per-tensor的scale值。内容示例如下：注意：抽取完成后，可能提取不到model_type信息，需要手动将model_type修改为指定模型，如"llama"。当前社区vllm只支持float8的kv_cache量化，抽取脚本中d

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
部署在线服务 - AI开发平台ModelArts

duration=1)] # （可选）设置在线服务运行时间 ) 参数“model_id”代表将部署成在线服务的模型。“model_id”可以通过查询模型列表或者ModelArts管理控制台获取。部署服务到专属资源池 from modelarts.config.model_config

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
训练迁移快速入门案例 - AI开发平台ModelArts

is_available())" torch_npu使用报错看不懂怎么办？应该怎么求助？如果报错可以首先在昇腾社区论坛以及Gitee的PyTorch Issues中查看是否有类似的问题找到相关线索。如果还无法解决，可以通过提交工单的形式从华为云ModelArts入口进行咨询以及求助对应的专业服务。自动迁移似乎还要改很多脚本才能运行起来？

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

一个OBS目录，SDK会将notebook目录code_dir打包上传到obs_path中。准备训练输出，与单机训练作业调试4相同。查看训练支持的AI框架，与单机训练作业调试5相同。保存当前Notebook为新镜像，与单机训练作业调试9相同。 Estimator初始化。 from

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
模型训练存储加速 - AI开发平台ModelArts

到OBS对象存储中长期低成本保存。图1 基于OBS+SFS Turbo的存储解决方案 OBS + SFS Turbo存储加速的具体方案请查看：面向AI场景使用OBS+SFS Turbo的存储加速实践。设置训练存储加速当完成上传数据至OBS并预热到SFS Turbo中步骤后，在ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
通过patch操作对服务进行更新 - AI开发平台ModelArts

响应Body参数参数参数类型描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。请求示例通过patch操作对服务进行更新。 PATCH https://{endpoint}/v1/{project_id}/services/{service_id}

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
在推理生产环境中部署推理服务 - AI开发平台ModelArts

"max_tokens": 50,"temperature":0}”，单击“预测”即可看到预测结果。图5 预测-openai 在线服务的更多内容介绍请参见文档查看服务详情。 Step5 推理性能测试推理性能测试操作请参见推理性能测试。父主题：主流开源大模型基于Standard适配PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
在推理生产环境中部署推理服务 - AI开发平台ModelArts

"max_tokens": 50,"temperature":0}”，单击“预测”即可看到预测结果。图5 预测-openai 在线服务的更多内容介绍请参见文档查看服务详情。 Step5 推理性能测试推理性能测试操作请参见推理性能测试。父主题：主流开源大模型基于Standard适配PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
推理精度测试 - AI开发平台ModelArts

模型的最大输出长度 --hf-num-gpus, 需要使用的卡数 --batch-size, 推理每次处理的输入数目 -w 存放输出结果的目录 Step2 查看精度测试结果默认情况下，评测结果会按照result/{model_name}/的目录结果保存到对应的测试工程。执行多少次，则会在{mod

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
推理精度测试 - AI开发平台ModelArts

--hf-num-gpus：需要使用的卡数。 --batch-size：推理每次处理的输入数目。 -w：存放输出结果的目录。 Step2 查看精度测试结果默认情况下，评测结果会按照result/{model_name}/的目录结果保存到对应的测试工程。执行多少次，则会在{mod

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907）
使用VS Code创建并调试训练作业 - AI开发平台ModelArts

待左侧导航出现图标，表示插件安装完成。图1 安装VS Code插件创建训练作业单击左侧导航的图标，单击“登录”进入登录页面，输入对应的登录信息。单击“获取AccessKey”即可跳转到AK/SK获取教程页面。图2 登录VS Code插件登录后，VS Code自动同步Mode

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 创建调试训练作业
创建团队标注任务 - AI开发平台ModelArts

false：不同步智能标注结果（默认值）。 workforces_config 否 WorkforcesConfig object 团队标注任务团队信息：委托团队管理员分配，或指定团队自行分配。 task_name 否 String 团队标注任务名称 synchronize_data 否 Boolean

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

包含了本教程中使用到的模型训练代码。代码包具体说明请参见模型软件包结构说明。获取路径：Support-E 说明：如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。模型软件包结构说明 AscendCloud-6.3.909代码包中Asc

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909） > 准备工作
配置Workflow参数 - AI开发平台ModelArts

参数是否运行时输入，默认为“False”，在工作流启动运行前进行配置。设置为“True”，则在使用的相应节点运行时卡点配置。否 bool description 参数描述信息。否 str enum_list 参数枚举值列表，只有当参数类型为PlaceholderType.ENUM时才需要填写。否 list constraint

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

包含了本教程中使用到的模型训练代码。代码包具体说明请参见模型软件包结构说明。获取路径：Support-E 说明：如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。模型软件包结构说明 AscendCloud-6.3.907代码包中Asc

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作
MoXing Framework功能介绍 - AI开发平台ModelArts

引入MoXing Framework的相关说明在引入MoXing模块后，Python的标准logging模块会被设置为INFO级别，并打印版本号信息。可以通过以下API重新设置logging的等级。 1 2 3 4 import logging from moxing.framework

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

AscendSpeed是用于模型并行计算的框架，其中包含了许多模型的输入处理方法。获取路径：Support-E 说明：如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。模型软件包结构说明本教程需要使用到的AscendCloud-6.3.9

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 准备工作

总条数： 1492

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

部署在线服务 - AI开发平台ModelArts

训练迁移快速入门案例 - AI开发平台ModelArts

使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

模型训练存储加速 - AI开发平台ModelArts

通过patch操作对服务进行更新 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

使用VS Code创建并调试训练作业 - AI开发平台ModelArts

创建团队标注任务 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

配置Workflow参数 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

MoXing Framework功能介绍 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线