搜索_华为云

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

from cudaGetDeviceCount() 原因分析经过对裸金属服务器排查，发现nvidia-drvier和cuda都已安装，并且正常运行。nvidia-fabricmanager服务可以使单节点GPU卡间互联，在多卡GPU机器上，出现这种问题可能是nvidia-fabricmanger异常导致。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
调用MaaS部署的模型服务 - AI开发平台ModelArts

返回参数说明参数参数类型描述 id Str 请求ID。 object Str 请求任务。 created Int 请求生成的时间戳。 model Str 调用的模型名。 choices Array 模型生成内容。 usage Object 请求输入长度、输出长度和总长度。当调用失败时，可以根据错误码调整脚本或运行环境。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
非分离部署推理服务 - AI开发平台ModelArts

是 json 单图单轮对话的post请求json，可参考表2.请求服务json参数说明 docker_ip 是 str 启动多模态openAI服务的主机ip served_port 是 str 启动多模态openAI服务的端口号表3 请求服务json参数说明参数是否必须默认值

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
非分离部署推理服务 - AI开发平台ModelArts

是 json 单图单轮对话的post请求json，可参考表2.请求服务json参数说明 docker_ip 是 str 启动多模态openAI服务的主机ip served_port 是 str 启动多模态openAI服务的端口号表3 请求服务json参数说明参数是否必须默认值

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
查询事件列表 - AI开发平台ModelArts

事件开始时间戳。 until 否 Integer 事件结束时间戳。 type 否 String 事件类型。可选值如下： Normal：正常 Warning：异常请求参数无响应参数状态码： 200 表3 响应Body参数参数参数类型描述 apiVersion String API版本。可选值如下：

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
训练作业访问OBS时，日志提示“stat:403 reason:Forbidden” - AI开发平台ModelArts

5ACCAC445CAA1A71019C9D0 retry:0 原因分析出现该问题的可能原因如下: OBS服务的权限出现问题，导致无法正常读取数据处理方法请检查OBS权限配置，如未解决问题可参考OBS文档的已配置OBS权限，仍然无法访问OBS（403 AccessDenied）。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 权限问题
查询工作空间详情 - AI开发平台ModelArts

String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”，存在创建并使用的工作空间，以实际取值为准。请求参数表2 请求Header参数参数是否必选参数类型描述 X-Auth-Token 是 String 用户Token。通过调用IAM服务

 帮助中心 > AI开发平台ModelArts > API参考 > 工作空间管理
日志提示“No space left on device” - AI开发平台ModelArts

创建文件越快，越容易触发。处理方法可以参照日志提示"write line error"文档进行修复。如果是分布式作业有的节点有错误，有的节点正常，建议提工单请求隔离有问题的节点。如果是触发了欧拉操作系统的限制，有如下建议措施。分目录处理，减少单个目录文件量。减慢创建文件的速度。关闭

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

0:8080 (Press CTRL+C to quit) Step4 请求推理服务另外启动一个terminal，使用命令测试推理服务是否正常启动，端口请修改为启动服务时指定的端口。使用命令测试推理服务是否正常启动。服务启动命令中的参数设置请参见表1。方式一：通过OpenAI服

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

用边释放）处理方法可以参照日志提示"write line error"文档进行修复。如果是分布式作业有的节点有错误，有的节点正常，建议提工单请求隔离有问题的节点。如果是触发了欧拉操作系统的限制，有如下建议措施。分目录处理，减少单个目录文件量。减慢创建文件的速度。关闭

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
Lite Server高危操作一览表 - AI开发平台ModelArts

Server高危操作一览表 ModelArts Lite Server在日常操作与维护过程中涉及的高危操作，需要严格按照操作指导进行，否则可能会影响业务的正常运行。高危操作风险等级说明：高：对于可能直接导致业务失败、数据丢失、系统不能维护、系统资源耗尽的高危操作。中：对于可能导致安全风险及可靠性降低的高危操作。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读
示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

如果训练作业需要使用ranktable动态路由算法进行网络加速，则可以联系技术支持开启集群的cabinet调度权限。同时，训练作业要满足如下要求才能正常实现ranktable动态路由加速。训练使用的Python版本是3.7或3.9。训练作业的实例数要大于或等于3。路由加速的原理是改变

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
创建工作空间 - AI开发平台ModelArts

用户项目ID。获取方法请参见获取项目ID和名称。请求参数表2 请求Header参数参数是否必选参数类型描述 X-Auth-Token 是 String 用户Token。通过调用IAM服务获取用户Token接口获取（响应消息头中X-Subject-Token的值）。表3 请求Body参数参数是否必选

 帮助中心 > AI开发平台ModelArts > API参考 > 工作空间管理
删除资源池 - AI开发平台ModelArts

是 String 用户项目ID。获取方法请参见获取项目ID和名称。 pool_name 是 String 系统生成的资源池名称。请求参数表2 请求Header参数参数是否必选参数类型描述 X-ModelArts-User-ID 否 String 实际的外部租户ID，如果有的话，工作空间鉴权以该ID为准。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

0:8080 (Press CTRL+C to quit) Step4 请求推理服务另外启动一个terminal，使用命令测试推理服务是否正常启动，端口请修改为启动服务时指定的端口。使用命令测试推理服务是否正常启动。服务启动命令中的参数设置请参见表1。方式一：通过OpenAI服

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
订阅的模型一直处于等待同步状态 - AI开发平台ModelArts

订阅的模型一直处于等待同步状态，可能原因如下：由于ModelArts的数据存储、模型导入以及部署上线等功能依赖OBS、SWR等服务，需获取依赖服务的授权后，才能正常使用ModelArts的相关功能。您未被授权执行该操作。执行同步操作时报错：ModelArts.0108: 您未被授权执行该操作。订阅

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
个人用户快速配置ModelArts访问权限 - AI开发平台ModelArts

ModelArts使用过程中涉及到OBS、SWR等服务交互，需要用户配置委托授权，允许ModelArts访问这些依赖服务。如果没有授权，ModelArts的部分功能将不能正常使用。约束与限制只有主账号可以使用委托授权，可以为当前账号授权，也可以为当前账号下的所有IAM用户授权。多个IAM用户或账号，可使用同一个委托。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
查询资源池 - AI开发平台ModelArts

project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 pool_name 是 String 资源池名称。请求参数表2 请求Header参数参数是否必选参数类型描述 X-ModelArts-User-ID 否 String 实际的外部租户ID，如果有的话，工作空间鉴权以该ID为准。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

0:8080 (Press CTRL+C to quit) Step4 请求推理服务另外启动一个terminal，使用命令测试推理服务是否正常启动，端口请修改为启动服务时指定的端口。方式一：使用vLLM接口请求服务，命令参考如下。 curl -X POST http://localhost:8080/generate

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
ModelArts训练中不同规格资源“/cache”目录的大小是多少？ - AI开发平台ModelArts

用户可以使用此目录来储存临时文件。“/cache”与代码目录共用资源，不同资源规格有不同的容量。 k8s磁盘的驱逐策略是90%，所以可以正常使用的磁盘大小应该是“cache目录容量 x 0.9”。裸机的本地磁盘为物理磁盘，无法扩容，如果存储的数据量大，建议使用SFS存放数据，SFS支持扩容。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练

总条数： 678

上一页
1
...
6
7
8
...
34
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

调用MaaS部署的模型服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

查询事件列表 - AI开发平台ModelArts

训练作业访问OBS时，日志提示“stat:403 reason:Forbidden” - AI开发平台ModelArts

查询工作空间详情 - AI开发平台ModelArts

日志提示“No space left on device” - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

Lite Server高危操作一览表 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

创建工作空间 - AI开发平台ModelArts

删除资源池 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

订阅的模型一直处于等待同步状态 - AI开发平台ModelArts

个人用户快速配置ModelArts访问权限 - AI开发平台ModelArts

查询资源池 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

ModelArts训练中不同规格资源“/cache”目录的大小是多少？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线