搜索_华为云

报错“Failed to install the VS Code Server.”或“tar: Error is not recoverable: exiting now.”如何解决？ - AI开发平台ModelArts

not recoverable: exiting now.”如何解决？问题现象或原因分析可能为/home/ma-user/work磁盘空间不足。解决方法删除/home/ma-user/work路径下无用文件。父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
Cluster资源池节点故障如何定位 - AI开发平台ModelArts

Cluster资源池节点故障如何定位故障说明和处理建议图1 Lite池故障处理流程对于ModelArts Lite资源池，每个节点会以DaemonSet方式部署node-agent组件，该组件会检测节点状态，并将检测结果写到K8S NodeCondtition中。同时，节点

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
查询Notebook实例列表 - AI开发平台ModelArts

存储容量，EVS默认5G，EFS默认50G，最大限制4096G。 category String 支持的存储类型。不同存储类型的差异，详见开发环境中如何选择存储。枚举值如下： SFS：弹性文件服务 EVS：云硬盘 mount_path String 存储挂载至Notebook实例的目录，当前固定在/home/ma-user/work/下。

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
查询所有Notebook实例列表 - AI开发平台ModelArts

存储容量，EVS默认5G，EFS默认50G，最大限制4096G。 category String 支持的存储类型。不同存储类型的差异，详见开发环境中如何选择存储。枚举值如下： SFS：弹性文件服务 EVS：云硬盘 mount_path String 存储挂载至Notebook实例的目录，当前固定在/home/ma-user/work/下。

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
Cluster资源池如何进行NCCl Test？ - AI开发平台ModelArts

Cluster资源池如何进行NCCl Test？ ModelArts提供AI诊断功能，用户可以通过NCCl Test，测试节点GPU状态，并且测试多个节点间的通信速度。操作步骤单击资源池名称，进入资源池详情。单击左侧“AI组件管理 > AI诊断”。单击“诊断”，选择“日志上传路径”和NCCL

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Cluster
在ModelArts自动学习中，如何进行增量训练？ - AI开发平台ModelArts

在ModelArts自动学习中，如何进行增量训练？在自动学习项目中，每训练一次，将自动产生一个训练版本。当前一次的训练结果不满意时（如对训练精度不满意），您可以适当增加高质量的数据，或者增减标签，然后再次进行训练。增量训练目前仅支持“图像分类”、“物体检测”、“声音分类”类型的自动学习项目。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习
在ModelArts上如何提升训练效率并减少与OBS的交互？ - AI开发平台ModelArts

在ModelArts上如何提升训练效率并减少与OBS的交互？场景描述在使用ModelArts进行自定义深度学习训练时，训练数据通常存储在对象存储服务（OBS）中，且训练数据较大时（如200GB以上），每次都需要使用GPU资源池进行训练，且训练效率低。希望提升训练效率，同时减

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
在ModelArts的Notebook中，如何使用昇腾多卡进行调试？ - AI开发平台ModelArts

在ModelArts的Notebook中，如何使用昇腾多卡进行调试？昇腾多卡训练任务是多进程多卡模式，跑几卡需要起几个python进程。昇腾底层会读取环境变量：RANK_TABLE_FILE，开发环境已经设置，用户无需关注。比如跑八卡，可以如下片段代码： export RANK_SIZE=8

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
Notebook无法执行代码，如何处理？ - AI开发平台ModelArts

Notebook无法执行代码，如何处理？当Notebook出现无法执行时，您可以根据如下几种情况判断并处理。如果只是Cell的执行过程卡死或执行时间过长，如图1中的第2个和第3个Cell，导致第4个Cell无法执行，但整个Notebook页面还有反应，其他Cell也还可以单击

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
使用Gallery CLI配置工具下载文件 - AI开发平台ModelArts

下载多个文件根据文件名下载文件在服务器执行如下命令，将待下载的文件名枚举出来即可从AI Gallery仓库依次下载多个文件到云服务器的缓存目录下。 gallery-cli download {repo_id} {文件名} {文件名} 其中，“repo_id”如何获取，文件名如何获取。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > Gallery CLI配置工具指南
在ModelArts的Notebook中使用MoXing时，如何进行增量训练？ - AI开发平台ModelArts

在ModelArts的Notebook中使用MoXing时，如何进行增量训练？在使用MoXing构建模型时，如果您对前一次训练结果不满意，可以在更改部分数据和标注信息后，进行增量训练。 “mox.run”添加增量训练参数在完成标注数据或数据集的修改后，您可以在“mox.run

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
训练作业失败，如何使用开发环境调试训练代码？ - AI开发平台ModelArts

训练作业失败，如何使用开发环境调试训练代码？在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VsCode）联接云上环境调试请参考使用本地IDE开发模型。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
在推理生产环境中部署推理服务 - AI开发平台ModelArts

在推理生产环境中部署推理服务本章节介绍如何在ModelArts的推理生产环境（ModelArts控制台的在线服务功能）中部署推理服务。 Step1 准备模型文件和权重文件在OBS桶中，创建文件夹，准备模型权重文件、推理启动脚本run_vllm.sh及SSL证书。此处以chatglm3-6b为例。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
日志提示"write line error" - AI开发平台ModelArts

如果在训练作业的工作目录下有core文件生成，可以在启动脚本最前面加上如下代码，来关闭core文件产生。 import os os.system("ulimit -c 0") 排查数据集大小，checkpoint保存文件大小，是否占满了磁盘空间。必现的问题，使用本地Pycharm远程连接Notebook调试。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
在推理生产环境中部署推理服务 - AI开发平台ModelArts

在推理生产环境中部署推理服务本章节介绍如何在ModelArts的推理生产环境（ModelArts控制台的在线服务功能）中部署推理服务。 Step1 准备模型文件和权重文件在OBS桶中，创建文件夹，准备模型权重文件、推理启动脚本run_vllm.sh及SSL证书。此处以chatglm3-6b为例。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
启动或停止Lite Server服务器 - AI开发平台ModelArts

只有处于“运行中/停止失败”状态的弹性节点Server可以执行停止操作。停止服务器为“强制关机”方式，会中断您的业务，请确保服务器上的文件已保存。父主题： Lite Server资源管理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
如何在ModelArts训练作业中加载部分训练好的参数？ - AI开发平台ModelArts

如何在ModelArts训练作业中加载部分训练好的参数？在训练作业时，需要从预训练的模型中加载部分参数，初始化当前模型。请您通过如下方式加载：通过如下代码，您可以查看所有的参数。 from moxing.tensorflow.utils.hyper_param_flags import

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
如何减小本地或ECS构建镜像的目的镜像的大小？ - AI开发平台ModelArts

如何减小本地或ECS构建镜像的目的镜像的大小？减小目的镜像大小的最直接的办法就是选择尽可能小且符合自己诉求的镜像，比如您需要制作一个PyTorch2.1+Cuda12.2的镜像，官方如果没有提供对应的PyTorch或者Cuda版本的镜像，优选一个没有PyTorch环境或没有安装

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
资源池推理服务一直初始化中如何解决 - AI开发平台ModelArts

资源池推理服务一直初始化中如何解决问题现象创建资源池时作业类型选择了推理服务，资源池创建成功后推理一直显示“环境初始化。原因分析专属池网段和推理微服务dispatcher网段冲突，导致专属池上的VPCEP终端节点无法创建，该region无法使用此网段创建包含推理服务的资源池。

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
如何处理使用opencv.imshow造成的内核崩溃？ - AI开发平台ModelArts

如何处理使用opencv.imshow造成的内核崩溃？问题现象当在Notebook中使用opencv.imshow后，会造成Notebook崩溃。原因分析 opencv的cv2.imshow在jupyter这样的client/server环境下存在问题。而matplotlib不存在这个问题。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障

总条数： 1620

上一页
1
...
10
11
12
...
81
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

报错“Failed to install the VS Code Server.”或“tar: Error is not recoverable: exiting now.”如何解决？ - AI开发平台ModelArts

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

查询Notebook实例列表 - AI开发平台ModelArts

查询所有Notebook实例列表 - AI开发平台ModelArts

Cluster资源池如何进行NCCl Test？ - AI开发平台ModelArts

在ModelArts自动学习中，如何进行增量训练？ - AI开发平台ModelArts

在ModelArts上如何提升训练效率并减少与OBS的交互？ - AI开发平台ModelArts

在ModelArts的Notebook中，如何使用昇腾多卡进行调试？ - AI开发平台ModelArts

Notebook无法执行代码，如何处理？ - AI开发平台ModelArts

使用Gallery CLI配置工具下载文件 - AI开发平台ModelArts

在ModelArts的Notebook中使用MoXing时，如何进行增量训练？ - AI开发平台ModelArts

训练作业失败，如何使用开发环境调试训练代码？ - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

日志提示"write line error" - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

启动或停止Lite Server服务器 - AI开发平台ModelArts

如何在ModelArts训练作业中加载部分训练好的参数？ - AI开发平台ModelArts

如何减小本地或ECS构建镜像的目的镜像的大小？ - AI开发平台ModelArts

资源池推理服务一直初始化中如何解决 - AI开发平台ModelArts

如何处理使用opencv.imshow造成的内核崩溃？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线