搜索_华为云

特权池信息数据显示均为0%如何解决？ - AI开发平台ModelArts

显示异常。处理方法登录“应用运维管理”控制台，在“配置管理 > Agent管理”中，选择未安装ICAgent的集群，并单击“安装ICAgent”。图1 安装ICAgent 建议不要随意卸载ICAgent，否则会影响特权池详情页的参数显示。父主题： Lite Cluster

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） - AI开发平台ModelArts

主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908）推理场景介绍部署推理服务推理性能测试推理精度测试推理模型量化附录：基于vLLM不同模型推理支持最小卡数和最大序列说明附录：大模型推理常见问题父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） - AI开发平台ModelArts

NPU推理指导（6.3.910）推理场景介绍部署推理服务推理性能测试推理精度测试推理模型量化 eagle投机小模型训练附录：基于vLLM不同模型推理支持最小卡数和最大序列说明附录：大模型推理常见问题父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
使用基础镜像 - AI开发平台ModelArts

建训练作业时，训练作业的图1中都需要执行 install.sh文件，来安装依赖以及下载完整代码。使用基础镜像的方法，需要确认训练作业的资源池是否联通公网，否则执行 install.sh 文件时下载代码会失败。因此可以选择配置网络或使用ECS中构建新镜像的方法。若要对ChatC

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
指令监督微调训练任务 - AI开发平台ModelArts

指定每个设备的训练批次大小 gradient_accumulation_steps 8 指定梯度累积的步数，这可以增加批次大小而不增加内存消耗。可根据自己要求适配 num_train_epochs 5 表示训练轮次，根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。可根据自己要求适配

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907）
主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） - AI开发平台ModelArts

3.911）推理场景介绍准备工作部署推理服务推理性能测试推理精度测试推理模型量化 Eagle投机小模型训练附录：基于vLLM不同模型推理支持最小卡数和最大序列说明附录：大模型推理常见问题附录：工作负载Pod异常问题和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） - AI开发平台ModelArts

在Notebook调试环境中部署推理服务在推理生产环境中部署推理服务推理精度测试推理性能测试推理模型量化 Eagle投机小模型训练附录：基于vLLM不同模型推理支持最小卡数和最大序列说明附录：大模型推理常见问题父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
创建工作空间 - AI开发平台ModelArts

创建工作空间功能介绍创建工作空间（"default"为系统预留的默认工作空间名称，不能使用）。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI POST /v1/

帮助中心 > AI开发平台ModelArts > API参考 > 工作空间管理
网卡名称错误 - AI开发平台ModelArts

当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。比如，ifconfig看到当前机器IP对应的网卡名称为enp67s0f5，则可以设置环境变量指定该值。 export GLOO_SOCKET_IFNAME=enp67s0f5 #

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
网卡名称错误 - AI开发平台ModelArts

当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。比如，ifconfig看到当前机器IP对应的网卡名称为enp67s0f5，则可以设置环境变量指定该值。 export GLOO_SOCKET_IFNAME=enp67s0f5 #

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
网卡名称错误 - AI开发平台ModelArts

当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。比如，ifconfig看到当前机器IP对应的网卡名称为enp67s0f5，则可以设置环境变量指定该值。 export GLOO_SOCKET_IFNAME=enp67s0f5 #

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
PD分离部署使用说明 - AI开发平台ModelArts

vllm服务。其中常见的参数如下： --host：服务部署的IP --port：服务部署的端口，注意如果不同实例部署在一台机器上，不同实例需要使用不同端口号 --model：HuggingFace下载的官方权重 --max-num-seqs：同时处理的最大句子数量 --max-

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 分离部署
创建生产训练作业 - AI开发平台ModelArts

配置训练参数：配置训练作业的输入、输出、超参、环境变量等参数。根据需要选择不同的资源池用于训练作业，推荐使用专属资源池，两者的差异说明请参见专属资源池和公共资源池的能力差异。配置资源池（公共资源池）配置资源池（专属资源池）（可选）选择训练模式：当训练作业的算法框架选用的是预置框架的Mind

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
端到端运维ModelArts Standard推理服务方案 - AI开发平台ModelArts

监控告警流程图方案优势通过端到端的服务运维配置，可方便地查看业务运行高低峰情况，并能够实时感知在线服务的健康状态。约束限制端到端服务运维只支持在线服务，因为推理的批量服务和边缘服务无CES监控数据，不支持完整的端到端服务运维设置。实施步骤以出行场景的司乘安全算法为例，介绍使用M

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
训练作业容错检查 - AI开发平台ModelArts

设置断点续训练。开启容错检查用户可以在创建训练作业时通过设置自动重启的方式开启容错检查。使用ModelArts Standard控制台的创建训练作业页面设置自动重启：用户可以在控制台页面通过开关的方式开启自动重启。“自动重启”开关默认不开启，表示不做重新下发作业，也不会启

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
创建算法 - AI开发平台ModelArts
创建算法 - AI开发平台ModelArts

算法名称。限制为1-64位只含数字、字母、下划线和中划线的名称。 description 否 String 对算法的描述，默认为“NULL”，字符串的长度限制为[0, 256]。 workspace_id 否 String 指定算法所处的工作空间，默认值为“0”。“0” 为默认的工作空间。 ai_project

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
从训练作业中导入模型文件创建模型 - AI开发平台ModelArts

前提条件请确保训练作业已运行成功，且模型已存储至训练输出的OBS目录下（输入参数为train_url）。针对使用常用框架或自定义镜像创建的训练作业，需根据模型包结构介绍，将推理代码和配置文件上传至模型的存储目录中。确保您使用的OBS目录与ModelArts在同一区域。创建模型操作步骤

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型
删除训练作业 - AI开发平台ModelArts

String 训练作业的id，可通过创建训练作业生成的训练作业对象查询，如"job_instance.job_id"，或从查询训练作业列表的响应中获得。无成功响应参数。表2 调用训练接口失败响应参数参数类型描述 error_msg String 调用失败时的错误信息，调用成功时无此字段。

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
发布Notebook - AI开发平台ModelArts

当您需要在AI Gallery下架共享的资产时，可以执行如下操作：在“AI Gallery”页面，选择“我的Gallery > 我的资产 > Notebook”，进入“我的Notebook”。在“我的Notebook > 我的发布”页面，单击目标资产右侧的“下架”，在弹框中确认资产信息，单击“确定”完成下架。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 发布分享
服务管理 - AI开发平台ModelArts
服务管理 - AI开发平台ModelArts

查询服务列表部署服务查询支持的服务部署规格查询服务详情更新服务配置删除服务更新模型服务的单个属性查询专属资源池列表查询服务事件日志启动停止边缘节点服务实例查询服务更新日志添加资源标签删除资源标签查询推理服务标签查询推理VPC访问通道信息的API

帮助中心 > AI开发平台ModelArts > API参考

总条数： 1329

上一页
1
...
34
35
36
...
67
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

特权池信息数据显示均为0%如何解决？ - AI开发平台ModelArts

主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） - AI开发平台ModelArts

主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

指令监督微调训练任务 - AI开发平台ModelArts

主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） - AI开发平台ModelArts

主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） - AI开发平台ModelArts

创建工作空间 - AI开发平台ModelArts

网卡名称错误 - AI开发平台ModelArts

网卡名称错误 - AI开发平台ModelArts

网卡名称错误 - AI开发平台ModelArts

PD分离部署使用说明 - AI开发平台ModelArts

创建生产训练作业 - AI开发平台ModelArts

端到端运维ModelArts Standard推理服务方案 - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

创建算法 - AI开发平台ModelArts

从训练作业中导入模型文件创建模型 - AI开发平台ModelArts

删除训练作业 - AI开发平台ModelArts

发布Notebook - AI开发平台ModelArts

服务管理 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线