搜索_华为云

运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

在Notebook实例中运行训练代码，如果数据量太大或者训练层数太多，亦或者其他原因，导致出现“内存不够”问题，最终导致该容器实例崩溃。出现此问题后，系统将自动重启Notebook，来修复实例崩溃的问题。此时只是解决了崩溃问题，如果重新运行训练代码仍将失败。如果您需要解决“内存不够”的问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
Lite Cluster使用流程 - AI开发平台ModelArts

Cluster节点默认会安装os-node-agent插件，用于对节点进行管理，例如：驱动升级：通过os-node-agent插件下载驱动文件并进行驱动版本升级、回退。故障检测：通过os-node-agent插件在系统内周期性巡检故障特征，及时发现节点故障。指标采集：通过os-node-a

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
实时同步用户所有DevServer实例状态 - AI开发平台ModelArts

REBOOT_FAILED: 重启失败； CHANGINGOS: 切换操作系统中： CHANGINGOS_FAILED: 切换操作系统失败： REINSTALLINGOS: 重装操作系统中： REINSTALLINGOS_FAILED。重装操作系统失败。 vpc_id String 实例所在虚拟私有云ID。

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
报错“Permissions for 'x:/xxx.pem' are too open”如何解决？ - AI开发平台ModelArts

open”如何解决？问题现象原因分析原因分析一：密钥文件未放在指定路径，详情请参考安全限制或VS Code文档。请参考解决方法一处理。原因分析二：当操作系统为macOS/Linux时，可能是密钥文件或放置密钥的文件夹权限问题，请参考解决方法二处理。解决方法解决方法一：请将密钥放在如下路径或其子路径下：

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
Lite Server - AI开发平台ModelArts
Lite Server - AI开发平台ModelArts

A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案

 帮助中心 > AI开发平台ModelArts > 故障排除
查询用户所有DevServer实例列表 - AI开发平台ModelArts

REBOOT_FAILED: 重启失败； CHANGINGOS: 切换操作系统中： CHANGINGOS_FAILED: 切换操作系统失败： REINSTALLINGOS: 重装操作系统中： REINSTALLINGOS_FAILED。重装操作系统失败。 vpc_id String 实例所在虚拟私有云ID。

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
报错“Permissions for 'x:/xxx.pem' are too open”如何解决？ - AI开发平台ModelArts

open”如何解决？问题现象原因分析原因分析一：密钥文件未放在指定路径，详情请参考安全限制或VS Code文档。请参考解决方法一处理。原因分析二：当操作系统为macOS/Linux时，可能是密钥文件或放置密钥的文件夹权限问题，请参考解决方法二处理。解决方法解决方法一：请将密钥放在如下路径或其子路径下：

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
配置Standard专属资源池可访问公网 - AI开发平台ModelArts

务器处于同一VPC内，实现专属资源池访问外网。前提条件已拥有需要部署SNAT的弹性云服务器。待部署SNAT的弹性云服务器操作系统为Linux操作系统。待部署SNAT的弹性云服务器网卡已配置为单网卡。步骤一：打通VPC 通过打通VPC，可以方便用户跨VPC使用资源，提升资源利用率。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
推理精度测试 - AI开发平台ModelArts

将最大值适当调低。 ppl困惑度评测一般用于base权重测评，会将n个选项上拼接上下文，形成n个序列，再计算这n个序列的困惑度(perplexity)。其中，perplexity最小的序列所对应的选项即为这道题的推理结果。运行时间比较长，例如llama3_8b 跑完mmlu要2~3小时。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
导入模型后部署服务，提示磁盘不足 - AI开发平台ModelArts

on device”。原因分析 ModelArts部署使用的是容器化部署，容器运行时有空间大小限制，当用户的模型文件或者其他自定义文件，系统文件超过Docker size大小时，会提示镜像内空间不足。处理方法公共资源池容器Docker size的大小最大支持50G，专属资源池Docker

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
同一个账户，图片展示角度不同是为什么？ - AI开发平台ModelArts

如果您当前使用的浏览器版本过低，将在一定程度上影响页面的显示效果，系统会提示您尽快对浏览器进行升级。如果您当前使用的浏览器不支持访问管理控制台，系统会建议您对浏览器进行升级或安装支持的浏览器。表1 PC端浏览器兼容性一览表浏览器类型版本操作系统兼容性 Internet Explorer 11

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理
扩缩容Lite Cluster资源池 - AI开发平台ModelArts

27，仅支持选择Containerd作为容器引擎。其余CCE集群版本，支持选择Containerd或Docker作为容器引擎。修改操作系统。在“操作系统”下拉列表中指定操作系统版本。修改驱动版本。在“驱动版本”下拉列表中指定驱动版本。指定节点计费模式。用户增加节点数量时，可以打开“节点计费

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
ModelArts训练作业无法解析参数，日志报错 - AI开发平台ModelArts

UnrecognizedFlagError:Unknown command line flag 'task_index' 原因分析运行参数中未定义该参数。在训练环境中，系统可能会传入在Python脚本里没有定义的其他参数名称，导致参数无法解析，日志报错。处理方法参数定义中增加该参数的定义，代码示例如下： parser

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，拉取镜像失败。原因分析节点磁盘不足，镜像大小过大。解决方法首先考虑优化镜像，减小节点磁盘的占用。优化镜像无法解决问题，请联系系统管理员处理。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
推理场景介绍 - AI开发平台ModelArts

posemb = posemb.contiguous() #新增 posemb = F.interpolate(posemb, size=new_size, mode=interpolation, antialias=antialias) 各模型支持的卡数请参见附录：基于vLL

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
管理Lite Cluster资源池 - AI开发平台ModelArts

数较多。也可关闭系统默认绑核后，在业务容器中用taskset等方式进行灵活绑核。 Dropcache：开启后表示启用Linux的缓存清理功能，是一种应用性能调优手段，在大部分场景下可以提升应用性能。但是清除缓存也可能会导致容器启动失败或系统性能暂时下降（因为系统需要重新从磁盘加载

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
（可选）本地安装ma-cli - AI开发平台ModelArts

（可选）本地安装ma-cli 使用场景本文以Windows系统为例，介绍如何在Windows环境中安装ma-cli。 Step1：安装ModelArts SDK 参考本地安装ModelArts SDK完成SDK的安装。 Step2：下载ma-cli 下载ma-cli软件包。完成软件包签名校验。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
自定义镜像导入配置运行时依赖无效 - AI开发平台ModelArts

问题现象通过API接口选择自定义镜像导入创建模型，配置了运行时依赖，没有正常安装pip依赖包。原因分析自定义镜像导入不支持配置运行时依赖，系统不会自动安装所需要的pip依赖包。处理方法重新构建镜像。在构建镜像的dockerfile文件中安装pip依赖包，例如安装Flask依赖包。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
配置授权 - AI开发平台ModelArts
配置授权 - AI开发平台ModelArts

境、数据管理、在线服务等功能将不能正常使用。该API支持管理员给IAM子用户设置委托，支持设置当前用户的访问密钥。调用该API需要在IAM系统里配置Security Administrator权限。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API E

帮助中心 > AI开发平台ModelArts > API参考 > 授权管理
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

sudo systemctl --now enable docker 安装NIVDIA容器插件。 distribution=$(. /etc/os-release;echo $ID$VERSION_ID) && curl -fsSL https://nvidia.github.io

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境

总条数： 2072

上一页
1
...
4
5
6
...
104
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

Lite Cluster使用流程 - AI开发平台ModelArts

实时同步用户所有DevServer实例状态 - AI开发平台ModelArts

报错“Permissions for 'x:/xxx.pem' are too open”如何解决？ - AI开发平台ModelArts

Lite Server - AI开发平台ModelArts

查询用户所有DevServer实例列表 - AI开发平台ModelArts

报错“Permissions for 'x:/xxx.pem' are too open”如何解决？ - AI开发平台ModelArts

配置Standard专属资源池可访问公网 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

导入模型后部署服务，提示磁盘不足 - AI开发平台ModelArts

同一个账户，图片展示角度不同是为什么？ - AI开发平台ModelArts

扩缩容Lite Cluster资源池 - AI开发平台ModelArts

ModelArts训练作业无法解析参数，日志报错 - AI开发平台ModelArts

服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

管理Lite Cluster资源池 - AI开发平台ModelArts

（可选）本地安装ma-cli - AI开发平台ModelArts

自定义镜像导入配置运行时依赖无效 - AI开发平台ModelArts

配置授权 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线