搜索_华为云

保存ckpt时超时报错 - AI开发平台ModelArts

权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40G以下）的文件内容，只要在36分钟内保存完成，就不会报超时错误。 2

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法
保存ckpt时超时报错 - AI开发平台ModelArts

权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40G以下）的文件内容，只要在36分钟内保存完成，就不会报超时错误。 2

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
保存ckpt时超时报错 - AI开发平台ModelArts

权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40G以下）的文件内容，只要在36分钟内保存完成，就不会报超时错误。 2

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
Step4 测试用户权限 - AI开发平台ModelArts

委托访问授权。在ModelArts左侧菜单栏中，选择“开发环境>Notebook”，单击“创建”，如果可以正常打开创建页面，说明具备ModelArts的操作权限。您也可以尝试其他功能，例如“训练管理>训练作业”等，如能正常打开创建页面，即可正常使用ModelArts。验证OBS权限。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践 > 配置ModelArts基本使用权限
Function Calling介绍 - AI开发平台ModelArts

Calling的使用场景：表1 Function Calling使用场景说明使用场景说明增强能力大模型通过Function Calling可以调用外部工具或服务，例如实时数据检索、文件处理、数据库查询等，从而扩展其能力。实时数据访问由于大模型通常基于静态数据集训练，不具备实时信息。Function

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 通过Function Calling扩展大语言模型交互能力
advisor调优总体步骤 - AI开发平台ModelArts

理配置profiling参数，确保能采集到16步的数据。对于所有step稳定劣化的场景，避免采集第一个step的profiling即可，可以采集任意step如第15个step即可。对于偶现且劣化现象出现的step数不固定的场景，则需要确保能采集到该不固定的step。 profiling数据采集请参考Ascend

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
在Notebook中通过镜像保存功能制作自定义镜像用于推理 - AI开发平台ModelArts

镜像版本和描述信息。单击“确认”保存镜像。在“组织”下拉框中选择一个组织。如果没有组织，可以单击右侧的“立即创建”，创建一个组织。创建组织的详细操作请参见创建组织。同一个组织内的用户可以共享使用该组织内的所有镜像。镜像会以快照的形式保存，保存过程约5分钟，请耐心等待。此时不

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于推理
发布解决方案 - AI开发平台ModelArts

左侧菜单栏选择“解决方案”进入解决方案列表页，单击右上方的“发布”，进入发布解决方案页面。根据界面提示填写解决方案的相关信息，单击下方的“提交”。在解决方案列表页可以查看发布的方案信息。父主题：合作伙伴

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 合作伙伴
multi-lora - AI开发平台ModelArts
multi-lora - AI开发平台ModelArts

优势：资源节省：在大模型中引入LoRA，可以减少模型需要更新的参数量，从而节省NPU内存并提高推理速度。轻量化适配：无需改变原始模型结构，通过低秩矩阵的调整即可适配不同任务。多任务并行：支持同时加载多个LoRA模块，使得VLLM可以在不同任务间快速切换，提高多任务推理的效率。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
日志提示“No module name 'unidecode'” - AI开发平台ModelArts

有装上unidecode模块。处理方法将requirements.txt中的Unidecode改为unidecode。建议与总结您可以在训练代码里添加一行： os.system('pip list') 然后运行训练作业，查看日志中是否有所需要的模块。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
VS Code连接后长时间未操作，连接自动断开 - AI开发平台ModelArts

com/blog/linux-ssh-session-alive.html），后台的实例运行是一直稳定的，重连即可再次连上。解决方法如果想保持长时间连接不断开，可以通过配置SSH定期发送通信消息，避免防火墙认为链路空闲而关闭。客户端配置（用户可根据需要自行配置，不配置默认是不给服务端发心跳包），如图1，图2所示。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
管理员和开发者权限分离 - AI开发平台ModelArts

账号关系示意图配置管理员权限管理员账号需要拥有ModelArts专属资源池的完全控制权限，以及Notebook所有实例的访问和操作权限。可以通过以下配置流程实现管理员权限配置。使用主账号创建一个管理员用户组ModelArts_admin_group，将管理员账号加入用户组Mo

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
Hunyuan-DiT基于DevServer部署适配PyTorch NPU推理指导（6.3.909） - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
调用MaaS部署的模型服务 - AI开发平台ModelArts

选择“我的服务”页签。选择要调用的服务，单击操作列的“更多 > 调用”弹出调用页面。选择是否启用内容审核，默认启用。是，内容审核可以阻止模型推理中的输入输出中出现不合规的内容，但可能会对接口性能产生较大影响。否，停用内容审核服务，将不会审核模型推理中的输入输出，模型服务可能会有违规风险，请谨慎关闭。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
使用WebSocket协议的方式访问在线服务 - AI开发平台ModelArts

WebSocket使得客户端和服务器之间的数据交换变得更加简单，允许服务端主动向客户端推送数据。在WebSocket API中，浏览器和服务器只需要完成一次握手，两者之间就可以建立持久性的连接，并进行双向数据传输。前提条件在线服务部署时需选择“升级为WebSocket”。在线服务中的模型导入选择的镜像需支持WebSocket协议。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的传输协议
配置Lite Cluster网络 - AI开发平台ModelArts

配置Lite Cluster网络本章节介绍如何申请弹性公网IP并绑定到弹性云服务器。通过本文档，您可以实现弹性云服务器访问公网的目的。使用华为云账号登录CCE管理控制台。找到购买Cluster资源时选择的CCE集群，单击名称进入CCE集群详情页面，单击“节点管理”页签，在“

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
使用Notebook进行代码调试 - AI开发平台ModelArts

在创建Notebook时，默认会开启自动停止功能，在指定时间内停止运行Notebook，避免资源浪费。只有处于“运行中”状态的Notebook，才可以执行打开、停止操作。一个账户最多创建10个Notebook。创建Notebook实例注册镜像。登录ModelArts控制台，在左侧导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
入驻AI Gallery - AI开发平台ModelArts

Gallery数字内容发布协议》和《华为云AI Gallery服务协议》后，单击“确定”完成入驻。图1 入驻AI Gallery 注册完成后，您可以在AI Gallery中报名实践活动或发布技术文章（AI说）。父主题： AI Gallery（旧版）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版）

总条数： 1569

上一页
1
...
68
69
70
...
79
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

Step4 测试用户权限 - AI开发平台ModelArts

Function Calling介绍 - AI开发平台ModelArts

advisor调优总体步骤 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

在Notebook中通过镜像保存功能制作自定义镜像用于推理 - AI开发平台ModelArts

发布解决方案 - AI开发平台ModelArts

multi-lora - AI开发平台ModelArts

日志提示“No module name 'unidecode'” - AI开发平台ModelArts

VS Code连接后长时间未操作，连接自动断开 - AI开发平台ModelArts

管理员和开发者权限分离 - AI开发平台ModelArts

Hunyuan-DiT基于DevServer部署适配PyTorch NPU推理指导（6.3.909） - AI开发平台ModelArts

调用MaaS部署的模型服务 - AI开发平台ModelArts

使用WebSocket协议的方式访问在线服务 - AI开发平台ModelArts

配置Lite Cluster网络 - AI开发平台ModelArts

使用Notebook进行代码调试 - AI开发平台ModelArts

入驻AI Gallery - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线