搜索_华为云

使用SSH工具连接Notebook，服务器的进程被清理了，GPU使用率显示还是100% - AI开发平台ModelArts

使用SSH工具连接Notebook，服务器的进程被清理了，GPU使用率显示还是100% 原因是代码运行卡死导致被进程清理，GPU显存没有释放；或者代码运行过程中内存溢出导致程序被清理，需要释放下显存，清理GPU，然后重新启动。为了避免进程结束引起的代码未保存，建议您每隔一段时间保存下代码输出至OBS桶或者容器

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > Notebook实例常见错误
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象华为云裸金属服务器，NVIDIA驱动卸载后重新安装。（1）已卸载原有版本NVIDIA驱动和CUDA版本，且已安装新版本的NVIDIA驱动和CUDA版本

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
场景描述 - AI开发平台ModelArts
场景描述 - AI开发平台ModelArts

子账号的权限，由主用户来控制，主用户通过IAM的权限配置功能设置用户组的权限，从而控制用户组内的子账号的权限。此处的授权列表均按照ModelArts和其他服务的系统预置策略来举例。表1 服务授权列表待授权的服务授权说明 IAM权限设置是否必选 ModelArts 授予子账号使用ModelArts服务的权限。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践 > 配置ModelArts基本使用权限
在JupyterLab中创建定时任务 - AI开发平台ModelArts

功能亮点一键运行：允许用户一键运行Notebook文件，无需逐个执行Cell。定时任务调度：允许用户设置定时执行代码块的时间和频率。支持秒、分钟、小时和每天/每周/月的时间设置。支持参数化执行：允许用户在运行时向Notebook传递参数，使得Notebook能根据不同需求调整行为。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？场景描述本文指导如何进行节点内NVLINK带宽性能测试，适用的环境为：Ant8或者Ant1 GPU裸金属服务器，且服务器中已经安装相关GPU驱动软件，以及Pytorch2.0。 GPU A系列裸金属服务器

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案问题现象创建出3台GPU裸金属服务器，使用A节点制作镜像，用于在CCE纳管裸金属服务器时，使用该镜像，但是纳管后发现服务器A纳管失败，剩下两台服务器纳管成功。原因分析在CCE纳管过程中，需要通过cloudinit

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
使用MoXing时，如何进行增量训练？ - AI开发平台ModelArts

run”中，修改“log_dir”参数，并新增“checkpoint_path”参数。其中“log_dir”参数建议设置为一个新的目录，“checkpoint_path”参数设置为上一次训练结果输出路径，如果是OBS目录，路径填写时建议使用“obs://”开头。如果标注数据中的标签发生了变化，在运行“mox

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 更多功能咨询
自定义模型规范 - AI开发平台ModelArts

“train_params.json” 必选文件，训练参数文件，定义了模型训练的必要参数，例如训练方式、超参信息。该参数会显示在微调工作流的“作业设置”页面的算法配置和超参数设置里面。代码示例请参见train_params.json示例。 “dataset_readme.md” 必选文件，数据集要求说

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
修改Standard专属资源池支持的作业类型 - AI开发平台ModelArts

弹性集群Cluster”，进入“Standard资源池”页面。在资源池列表中，选择某个资源池右侧操作列的“ > 设置作业类型”。在“设置作业类型”弹窗中，选择需要设置的作业类型。图1 设置作业类型设置完成后，单击“确定”，启用作业类型。父主题：管理Standard专属资源池

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
上传数据和算法至SFS（首次使用时需要） - AI开发平台ModelArts

|---annotations |---train2017 |---val2017 更多obsutil的操作，可参考obsutil简介。将文件设置归属为ma-user： chown -R ma-user:ma-group coco 代码云上适配下载YOLOX代码。代码仓地址：https://github

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机多卡
使用ModelArts VSCode插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

文件或者环境变量中密文存放，使用时解密，确保安全； # 本示例以ak和sk保存在环境变量中来实现身份验证为例，运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。 __AK = os.environ["HUAWEICLOUD_SDK_AK"]

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard开发环境
VS Code自动升级后，导致远程连接时间过长 - AI开发平台ModelArts

r。解决方法禁止VS Code自动升级。单击左下角选择Settings项，搜索Update: Mode，将其设置为none。图1 打开Settings 图2 设置“Update: Mode”为“none” 父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
VS Code自动升级后，导致远程连接时间过长 - AI开发平台ModelArts

r。解决方法禁止VS Code自动升级。单击左下角选择Settings项，搜索Update: Mode，将其设置为none。图1 打开Settings 图2 设置“Update: Mode”为“none” 父主题： VS Code连接开发环境失败常见问题

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
配置了合理的服务部署超时时间，服务还是部署失败，无法启动 - AI开发平台ModelArts

在自定义镜像健康检查接口中，用户可以实现实际业务是否成功的检测。在创建AI应用时配置健康检查延迟时间，保证容器服务的初始化。因此，推荐在创建AI应用时配置健康检查，并设置合理的延迟检测时间，实现实际业务的是否成功的检测，确保服务部署成功。父主题：在线服务

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 在线服务
管理AI Gallery镜像 - AI开发平台ModelArts

量，能更好的支撑用户使用该资产。在镜像详情页，选择“镜像介绍”页签，单击右侧“编辑介绍”。编辑镜像基础设置和镜像描述。表1 镜像介绍的参数说明参数名称说明基础设置中文名称显示镜像的名称，不可编辑。 README.md - 资产的README内容，支持添加资产的简介、使用场景、使用方法等信息。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery镜像
如何将某些图片划分到验证集或者训练集？ - AI开发平台ModelArts

在发布数据集时，仅“图像分类”、“物体检测”、“文本分类”和“声音分类”类型数据集支持进行数据切分功能。一般默认不启用该功能。启用后，需设置对应的训练验证比例。输入“训练集比例”，数值只能是0~1区间内的数。设置好“训练集比例”后，“验证集比例”自动填充。“训练集比例”加“验证集比例”等于1。 “训练集比例”即用

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理
训练作业的启动文件如何获取训练作业中的参数？ - AI开发平台ModelArts

动输入的参数。具体获取方式如下：创建训练作业时，“输入”支持配置训练的输入参数名称（一般设置为“data_url”），以及输入数据的存储位置，“输出”支持配置训练的输出参数名称（一般设置为“train_url”），以及输出数据的存储位置。训练作业运行成功之后，在训练作业列表中

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 编写训练代码
数据集如何切分 - AI开发平台ModelArts

在发布数据集时，仅“图像分类”、“物体检测”、“文本分类”和“声音分类”类型数据集支持进行数据切分功能。一般默认不启用该功能。启用后，需设置对应的训练验证比例。输入“训练集比例”，数值只能是0~1区间内的数。设置好“训练集比例”后，“验证集比例”自动填充。“训练集比例”加“验证集比例”等于1。 “训练集比例”即用

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理
导入AI应用对于镜像大小的限制 - AI开发平台ModelArts

当前，公共资源池容器引擎空间的大小最大支持50G，专属资源池容器引擎空间的默认为50G，专属资源池容器引擎空间可在创建资源池时自定义设置，设置专属资源池容器引擎空间不会造成额外费用增加。如果使用的是OBS导入或者训练导入，则包含基础镜像、模型文件、代码、数据文件和下载安装软件包的大小总和。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 模型管理 > 导入模型
管理ModelArts服务的委托授权 - AI开发平台ModelArts

调用创建ModelArts委托接口完成包含OBS、SWR等依赖服务的ModelArts委托。调用配置授权接口配置ModelArts授权。该接口支持管理员给IAM子用户设置委托，支持设置当前用户的访问密钥。若没有授权，ModelArts服务的数据管理、训练管理、开发环境、在线服务等功能将不能正常使用。调用查看授权列表接口查看用户的授权信息。

帮助中心 > AI开发平台ModelArts > API参考 > 应用示例

总条数： 914

上一页
1
2
3
4
5
...
46
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用SSH工具连接Notebook，服务器的进程被清理了，GPU使用率显示还是100% - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

场景描述 - AI开发平台ModelArts

在JupyterLab中创建定时任务 - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

使用MoXing时，如何进行增量训练？ - AI开发平台ModelArts

自定义模型规范 - AI开发平台ModelArts

修改Standard专属资源池支持的作业类型 - AI开发平台ModelArts

上传数据和算法至SFS（首次使用时需要） - AI开发平台ModelArts

使用ModelArts VSCode插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

VS Code自动升级后，导致远程连接时间过长 - AI开发平台ModelArts

VS Code自动升级后，导致远程连接时间过长 - AI开发平台ModelArts

配置了合理的服务部署超时时间，服务还是部署失败，无法启动 - AI开发平台ModelArts

管理AI Gallery镜像 - AI开发平台ModelArts

如何将某些图片划分到验证集或者训练集？ - AI开发平台ModelArts

训练作业的启动文件如何获取训练作业中的参数？ - AI开发平台ModelArts

数据集如何切分 - AI开发平台ModelArts

导入AI应用对于镜像大小的限制 - AI开发平台ModelArts

管理ModelArts服务的委托授权 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线