搜索_华为云

ModelArts训练作业无法解析参数，日志报错 - AI开发平台ModelArts

UnrecognizedFlagError:Unknown command line flag 'task_index' 原因分析运行参数中未定义该参数。在训练环境中，系统可能会传入在Python脚本里没有定义的其他参数名称，导致参数无法解析，日志报错。处理方法参数定义中增加该参数的定义，代码示例如下： parser

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
VS Code手动连接Notebook - AI开发平台ModelArts

Code环境访问Notebook的方式。前提条件已下载并安装VS Code。详细操作请参考安装VS Code软件。用户本地PC或服务器的操作系统中建议先安装Python环境，详见VSCode官方指导。创建一个Notebook实例，并开启远程SSH开发。该实例状态必须处于“运行中

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

Error 802原因为缺少fabricmanager，可能由于以下原因导致nvidia-fabricmanager.service不工作：可能系统资源不足、如内存不足、内存泄露。硬件故障、如IB网络或者GPU互联设备故障等。没安装nvidia-fabricmanager组件或被误卸载。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
配置授权 - AI开发平台ModelArts
配置授权 - AI开发平台ModelArts

境、数据管理、在线服务等功能将不能正常使用。该API支持管理员给IAM子用户设置委托，支持设置当前用户的访问密钥。调用该API需要在IAM系统里配置Security Administrator权限。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API E

帮助中心 > AI开发平台ModelArts > API参考 > 授权管理
自定义镜像导入配置运行时依赖无效 - AI开发平台ModelArts

问题现象通过API接口选择自定义镜像导入创建模型，配置了运行时依赖，没有正常安装pip依赖包。原因分析自定义镜像导入不支持配置运行时依赖，系统不会自动安装所需要的pip依赖包。处理方法重新构建镜像。在构建镜像的dockerfile文件中安装pip依赖包，例如安装Flask依赖包。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

当裸金属服务器预置的NVIDIA版本和业务需求不匹配时，需要更换NVIDIA驱动和CUDA版本。本文介绍华为云A系列GPU裸金属服务器（Ubuntu20.04系统）如何从“NVIDIA 525+CUDA 12.0”更换为“NVIDIA 515+CUDA 11.7”。操作步骤卸载原有版本的NVIDIA和CUDA。

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
使用MobaXterm工具SSH连接Notebook后，经常断开或卡顿，如何解决？ - AI开发平台ModelArts

在打开的“MobaXterm Configuration”配置页面，选择“SSH”选项卡，勾选“SSH keepalive”，如图2 勾选“SSH keepalive”所示。图2 勾选“SSH keepalive” 如果使用的是专业版的MobaXterm工具，请执行步骤3。如果使用的是专业版的MobaXterm工具，请参考图3

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
模型的自定义镜像制作流程 - AI开发平台ModelArts

如果需要支持滚动升级的过程中不中断业务，那么需要将服务的Http的“keep-alive”参数设置为200s。以gunicorn服务框架为例，gunicorn缺省情形下不支持keep-alive，需要同时安装gevent并配置启动参数“--keep-alive 200 -k gevent”。不同服务框架参数设置有区别，请以实际情况为准。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于推理
AIGC工具tailor使用指导 - AI开发平台ModelArts

2/use/downloads.html 需要下载的安装包与操作系统有关，请根据需要选择合适的安装包。如果操作系统为Linux aarch64，请下载mindspore-lite-2.2.10-linux-aarch64.tar.gz。如果操作系统为Linux x86_64，请下载mindspore-lite-2

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
Open-Sora 1.0基于DevServer适配PyTorch NPU训练指导（6.3.905） - AI开发平台ModelArts

i7。 ${work_dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的大文件系统，work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_dir为要挂载到的容器中的目录。为方便两个地址可以相同。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
查询数据集标签列表 - AI开发平台ModelArts

查询数据集标签列表功能介绍查询数据集下所有标签列表。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/datasets/

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败问题现象在A系列GPU裸金属服务器上，系统环境是ubuntu20.04+nvidia515+cuda11.7，使用Pytorch2.0时出现如下错误： CUDA initialization:

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
Open-Sora1.2基于DevServer适配PyTorch NPU训练推理指导（6.3.910） - AI开发平台ModelArts

download_datasets.py的内容。 import os import pandas as pd for idx, row in pd.read_csv('results_2M_val.csv').iterrows(): os.system(f"wget -O './dat

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
导入模型后部署服务，提示磁盘不足 - AI开发平台ModelArts

on device”。原因分析 ModelArts部署使用的是容器化部署，容器运行时有空间大小限制，当用户的模型文件或者其他自定义文件，系统文件超过Docker size大小时，会提示镜像内空间不足。处理方法公共资源池容器Docker size的大小最大支持50G，专属资源池Docker

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
在ModelArts上如何创建引用第三方依赖包的训练作业？ - AI开发平台ModelArts

ModelArts支持训练模型过程中安装第三方依赖包。在训练代码目录下放置“pip-requirements.txt”文件后，在训练启动文件被执行前系统会执行如下命令，以安装用户指定的Python Packages。 pip install -r pip-requirements.txt

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
离线训练安装包准备说明 - AI开发平台ModelArts

机器或资源池无法连通网络，并无法git clone下载代码、安装python依赖包的情况下，用户则需要找到已联网的机器（本章节以Linux系统机器为例）提前下载资源，以实现离线安装。用户可遵循以下步骤操作。步骤一：资源下载 Python依赖包下载：进入 scripts/install

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明参考
运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

在Notebook实例中运行训练代码，如果数据量太大或者训练层数太多，亦或者其他原因，导致出现“内存不够”问题，最终导致该容器实例崩溃。出现此问题后，系统将自动重启Notebook，来修复实例崩溃的问题。此时只是解决了崩溃问题，如果重新运行训练代码仍将失败。如果您需要解决“内存不够”的问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
管理训练容器环境变量 - AI开发平台ModelArts

Library）环境变量 OBS环境变量 PIP源环境变量 API网关地址环境变量作业元信息环境变量约束限制为了避免新设置的环境变量与系统环境变量冲突，而引起作业运行异常或失败，请在定义自定义环境变量时，不要使用“MA_”开头的名称。如何修改环境变量用户可以在创建训练作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
MaaS使用场景和使用流程 - AI开发平台ModelArts

点续训企业在具体使用大模型接入企业应用系统的时候，不仅要考虑模型体验情况，还需要考虑模型具体的精度效果，和实际应用成本。 MaaS提供灵活的模型开发能力，同时基于昇腾云的算力底座能力，提供了若干保障客户商业应用的关键能力。保障客户系统应用大模型的成本效率，按需收费，按需扩缩的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
模型训练存储加速 - AI开发平台ModelArts

Turbo”，在“文件系统”中选择SFS Turbo实例名称，并指定“存储位置”和“云上挂载路径”。系统会在训练作业启动前，自动将存储位置中的文件目录挂载到训练容器中指定路径。图2 设置训练“SFS Turbo” 当前训练作业支持挂载多个弹性文件服务SFS Turbo，文件系统支持重复挂载

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型

总条数： 1072

上一页
1
2
3
4
5
...
54
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

ModelArts训练作业无法解析参数，日志报错 - AI开发平台ModelArts

VS Code手动连接Notebook - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

配置授权 - AI开发平台ModelArts

自定义镜像导入配置运行时依赖无效 - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

使用MobaXterm工具SSH连接Notebook后，经常断开或卡顿，如何解决？ - AI开发平台ModelArts

模型的自定义镜像制作流程 - AI开发平台ModelArts

AIGC工具tailor使用指导 - AI开发平台ModelArts

Open-Sora 1.0基于DevServer适配PyTorch NPU训练指导（6.3.905） - AI开发平台ModelArts

查询数据集标签列表 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

Open-Sora1.2基于DevServer适配PyTorch NPU训练推理指导（6.3.910） - AI开发平台ModelArts

导入模型后部署服务，提示磁盘不足 - AI开发平台ModelArts

在ModelArts上如何创建引用第三方依赖包的训练作业？ - AI开发平台ModelArts

离线训练安装包准备说明 - AI开发平台ModelArts

运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

管理训练容器环境变量 - AI开发平台ModelArts

MaaS使用场景和使用流程 - AI开发平台ModelArts

模型训练存储加速 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线