搜索_华为云

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

8*Ascend lora gradient_accumulation_steps: 8 ZeRO-3 2*节点 & 8*Ascend 以上参数为开启NPU FlashAttention融合算子，上述参数值仅供参考，请根据自己实际要求合理配置其他加速框架或ZeRO (Zero Redundancy

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
在Windows上安装配置Grafana - AI开发平台ModelArts

installer，等待下载成功即可。安装Grafana。双击安装包，按照指示流程安装完成即可。在Windows的“服务”中，找到Grafana，将其开启，如果已经开启，则直接进入4。登录Grafana。 Grafana默认在本地的3000端口启动，打开链接http://localhost:300

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana
创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

Turbo的VPC网段的安全组是否被限制了。在所选专属资源池中新建一个未挂载的SFS Turbo的训练作业，当训练作业处于“运行中”时，通过Cloud Shell功能登录训练作业worker-0实例，使用curl {sfs-turbo-endpoint}:{port}命令检查port是否正常打开，SFS

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

8*Ascend lora gradient_accumulation_steps: 8 ZeRO-3 2*节点 & 8*Ascend 以上参数为开启NPU FlashAttention融合算子，上述参数值仅供参考，请根据自己实际要求合理配置其他加速框架或ZeRO (Zero Redundancy

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明
升级Standard专属资源池驱动 - AI开发平台ModelArts

约束限制专属资源池状态处于运行中，且专属池中的节点需要含有GPU/Ascend资源。对于逻辑资源池，需要开启节点绑定后才能进行驱动升级，请提交工单联系华为工程师开启节点绑定。驱动升级操作登录ModelArts管理控制台，在左侧导航栏中选择“AI专属资源池 > 弹性集群C

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
执行训练任务 - AI开发平台ModelArts

DistStoreError: Socket Timeout”时请参考问题4：Error waiting on exit barrier错误需要开启profiling功能进行性能数据采集和解析请参考录制Profiling 训练过程中报"ModuleNotFoundError: No module named

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
模型适配 - AI开发平台ModelArts
模型适配 - AI开发平台ModelArts

动态分档模型转换需要使用配置文件，指定输入格式为“ND”，并在config文件中配置ge.dynamicDims和input_shape使用，在input_shape中将输入shape的动态维度设为-1，并在ge.dynamicDims中指定动态维度的档位，更多配置项可以参考官方文档。如果网络模型只有一个输入

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 应用迁移
不允许子账号使用公共资源池创建作业 - AI开发平台ModelArts

选择授权范围方案，单击“确定”。如果没有用户组，也可以创建一个新的用户组，并通过“用户组管理”功能添加用户，并配置授权。如果指定的子用户没有在用户组中，也可以通过“用户组管理”功能增加用户。在用户的委托授权中同步增加此策略，避免在租户面通过委托token突破限制。在统一身份

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
数据保护技术 - AI开发平台ModelArts

在ModelArts中导入模型时，支持用户自己选择HTTP和HTTPS两种传输协议，为保证数据传输的安全性，推荐用户使用更加安全的HTTPS协议。数据完整性检查推理部署功能模块涉及到的用户模型文件和发布到AIGallery的资产在上传过程中，有可能会因为网络劫持、数据缓存等原因，存在数据不一致的问题。Mode

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
推理部署使用场景 - AI开发平台ModelArts

部署服务：模型构建完成后，根据您的业务场景，选择将模型部署成对应的服务类型。将模型部署为实时推理作业将模型部署为一个Web Service，并且提供在线的测试UI与监控功能，部署成功的在线服务，将为用户提供一个可调用的API。将模型部署为批量推理服务批量服务可对批量数据进行推理，完成数据处理后自动停止。图2

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
精度调优总体思路 - AI开发平台ModelArts

单机精度达标，然后再恢复层数拉起多机训练。若单机精度正常但多机精度异常，有可能是多机通信造成的精度问题，此时可以用精度工具的通信精度检测功能进行定位。部分集合通信算子要求通信域内各rank结果一致，如AllReduce、AllGather等，利用这一特性，工具将多机模型训练中产

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
执行微调训练任务 - AI开发平台ModelArts

DistStoreError: Socket Timeout”时请参考问题4：Error waiting on exit barrier错误 4、需要开启profiling功能进行性能数据采集和解析请参考录制Profiling 5、训练过程中报"ModuleNotFoundError: No module

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908）
使用VS Code创建并调试训练作业 - AI开发平台ModelArts

、资源监控、作业管理、代码管理等动作。本章节介绍如何使用VS Code插件创建训练作业并调试。使用VS Code插件创建训练作业并调试功能目前是白名单，需要提交工单申请开通。准备工作创建OBS桶，桶名称示例：“xxx-project”，在OBS桶里创建“data”文件夹。（建议下载OBS

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 创建调试训练作业
修改训练作业优先级 - AI开发平台ModelArts

Shell登录运行中的训练作业容器。如果没有用户组，也可以创建一个新的用户组，并通过“用户组管理”功能添加用户，并配置授权。如果指定的子用户没有在用户组中，也可以通过“用户组管理”功能增加用户。父主题：管理模型训练作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

Version中下载文件。方法二：huggingface-cli：huggingface-cli是 Hugging Face 官方提供的命令行工具，自带完善的下载功能。具体步骤可参考：HF-Mirror中的使用教程。完成依赖安装和环境变量配置后，以Llama2-70B为例： huggingface-cli

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
解除API对APP的授权 - AI开发平台ModelArts

解除API对APP的授权功能介绍解除指定的API对APP的授权，请求用户对API所属服务必须有更新权限。同URL：/v1/{project_id}/app-auth/{service_id}/apis/{api_id}/auths 调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
demo.sh方式启动（历史版本） - AI开发平台ModelArts

DistStoreError: Socket Timeout”时请参考问题4：Error waiting on exit barrier错误 4、需要开启profiling功能进行性能数据采集和解析请参考录制Profiling 5、训练过程中报"ModuleNotFoundError: No module

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 执行训练任务
启动推理服务 - AI开发平台ModelArts

例如：["你"，"好"]，生成文本时遇到"你"或者"好"将停止文本生成。 stream 否 False Bool 是否开启流式推理。默认为False，表示不开启流式推理。 n 否 1 Int 返回多条正常结果。约束与限制：不使用beam_search场景下，n取值建议为1≤n

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务部署
删除训练作业 - AI开发平台ModelArts

删除训练作业功能介绍删除训练作业。此接口为异步接口，作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。 URI DELETE /v1/{project_id}/training-jobs/{job_id} 参数说明如表1所示。表1 参数说明参数是否必选参数类型

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
删除训练作业参数 - AI开发平台ModelArts

删除训练作业参数功能介绍删除训练作业参数。 URI DELETE /v1/{project_id}/training-job-configs/{config_name} 参数说明如表1所示。表1 参数说明参数是否必选参数类型说明 project_id 是 String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置

总条数： 1460

上一页
1
...
62
63
64
...
73
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

在Windows上安装配置Grafana - AI开发平台ModelArts

创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

升级Standard专属资源池驱动 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

模型适配 - AI开发平台ModelArts

不允许子账号使用公共资源池创建作业 - AI开发平台ModelArts

数据保护技术 - AI开发平台ModelArts

推理部署使用场景 - AI开发平台ModelArts

精度调优总体思路 - AI开发平台ModelArts

执行微调训练任务 - AI开发平台ModelArts

使用VS Code创建并调试训练作业 - AI开发平台ModelArts

修改训练作业优先级 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

解除API对APP的授权 - AI开发平台ModelArts

demo.sh方式启动（历史版本） - AI开发平台ModelArts

启动推理服务 - AI开发平台ModelArts

删除训练作业 - AI开发平台ModelArts

删除训练作业参数 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线