搜索_华为云

ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 Step1 创建镜像组织在SWR服务页面创建镜像组织。图1 创建镜像组织 Step2 登录ECS服务器根据创建ECS服务器创建完成ECS服务器后，单击“远程登录”，可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908） > 准备工作 > 准备镜像
在ModelArts Standard上运行GPU单机多卡训练任务 - AI开发平台ModelArts

ing”也请替换为自定义的值。选择左侧导航栏的“总览”，单击页面右上角的“登录指令”，在弹出的页面中单击复制登录指令。此处生成的登录指令有效期为24小时，如果需要长期有效的登录指令，请参见获取长期有效登录指令。获取了长期有效的登录指令后，在有效期内的临时登录指令仍然可以使用。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练任务
【下线公告】华为云ModelArts服务旧版数据集下线公告 - AI开发平台ModelArts

00:00（北京时间）用AI开发平台ModelArts的新版数据集全面替代旧版数据集，旧版数据集正式下线。下线范围下线区域：华北-北京四（其他区域已下线）受影响服务 ModelArts旧版数据集。下线影响正式下线后，所有用户将无法使用旧版数据集。为了避免影响您的业务，建议您在2024/10/30

帮助中心 > AI开发平台ModelArts > 服务公告 > 下线公告
训练作业日志中提示“No module named .*” - AI开发平台ModelArts

方式一（推荐使用）：在创建我的算法时，需要在“代码目录”下放置相应的文件或安装包。请根据依赖包的类型，在代码目录下放置对应文件：依赖包为开源安装包时在“代码目录”中创建一个命名为“pip-requirements.txt”的文件，并且在文件中写明依赖包的包名及其版本号，格式为“包名==版本号”。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
日志提示“ '(slice(0, 13184, None), slice(None, None, None))' is an invalid key” - AI开发平台ModelArts

原因分析出现该问题的可能原因如下：切分数据时，选择的数据不对。处理方法尝试如下代码： X = dataset.iloc[:,:-1].values 建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上n

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
在线服务的API接口组成规则是什么？ - AI开发平台ModelArts

在线服务的API接口组成规则是什么？ AI应用部署成在线服务后，用户可以获取API接口用于访问推理。 API接口组成规则如下： https://域名/版本/infer/服务ID 示例如下： https://6ac81cdfac4f4a30be95xxxbb682.apig.xxx

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 在线服务
调用MaaS部署的模型服务 - AI开发平台ModelArts

Studio左侧导航栏中，选择“模型部署”进入服务列表。选择“我的服务”页签。选择要调用的服务，单击操作列的“更多 > 调用”弹出调用页面。选择是否启用内容审核，默认启用。是，内容审核可以阻止模型推理中的输入输出中出现不合规的内容。否，停用内容审核服务，将不会审核模型推理中的输入输出，模型服务可能会有违规风险，请谨慎关闭。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

驱动程序及其相关的内核模块。在Linux系统上安装NVIDIA显卡驱动后，需要通过“nvidia-modprobe”命令来加载相应的内核模块，以便让显卡驱动正常工作。通常情况下，在安装NVIDIA驱动时，会自动执行“nvidia-modprobe”命令，将必要的内核模块加载到系

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
日志提示“Please upgrade numpy to >= xxx to use this pandas version” - AI开发平台ModelArts

version 原因分析出现该问题的可能原因如下： conda和pip包混装，有一些包卸载不掉。处理方法参考如下代码，三步走。先卸载numpy中可以卸载的组件。删除你环境中site-packages路径下的numpy文件夹。重新进行安装需要的版本。 import os os

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” - AI开发平台ModelArts

tokenizing data. C error: Expected 4 field 原因分析 csv中文件的每一行的列数不相等。处理方法可以使用以下方法处理：校验csv文件，将多出字段的行删除。在代码中忽略错误行，参考如下： import pandas as pd pd.read_csv(filePath

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
不启用自动停止，系统会自动停掉Notebook实例吗？会删除Notebook实例吗？ - AI开发平台ModelArts

针对此问题，需要根据选择的不同资源规格进行说明。如果使用免费规格，Notebook实例将在运行1小时后，自动停止。如果72小时内没有再次启动，会释放资源，即删除此Notebook实例。因此使用免费规格时，关注运行时间并注意文件备份。如果使用收费的公共资源池，未启用自动停止功

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 更多功能咨询
复制数据至容器中空间不足 - AI开发平台ModelArts

请排查是否将数据下载至“/cache”目录下，GPU规格资源的每个节点会有一个“/cache”目录，空间大小为4TB。并确认该目录下并发创建的文件数量是否过大，占用过多存储空间会出现inode耗尽的情况，导致空间不足。请排查是否使用的是GPU资源。如果使用的是CPU规格的资源，“/cache”与代码目录共

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
不同机型的对应的软件配套版本 - AI开发平台ModelArts

不同机型的对应的软件配套版本由于弹性集群资源池可选择弹性裸金属或弹性云服务器作为节点资源，不同机型的节点对应的操作系统、适用的CCE集群版本等不相同，为了便于您制作镜像、升级软件等操作，本文对不同机型对应的软件配套版本做了详细介绍。裸金属服务器的对应的软件配套版本表1 裸金属服务器

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
Lite Server使用流程 - AI开发平台ModelArts

Server提供多样化的xPU裸金属服务器，赋予用户以root账号自主安装和部署AI框架、应用程序等第三方软件的能力，为用户打造专属的云上物理服务器环境。用户只需轻松选择服务器的规格、镜像、网络配置及密钥等基本信息，即可迅速创建弹性裸金属服务器，获取所需的云上物理资源，充分满足算法工程师在日常训练和推理工作中的需求。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读
OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

在大规模分布式作业上，每个节点都在复制同一个桶的文件，导致OBS桶限流。 OBS Client连接数过多，进程/线程之间的轮询，导致一个OBS Client与服务端连接30S内无响应，超过超时时间，服务端断开了连接。处理方法如果是限流问题，日志中还会出现如下报错，OBS相关的错误码解释请参见OBS官方文档，这种情况建议提工单。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

Service，SFS）提供按需扩展的高性能文件存储（NAS），可以在裸金属服务器中通过网络协议挂载使用，SFS支持NFS和CIFS的网络协议。在使用裸金属服务器时，将数据放在SFS盘中，并发建立多个NFS链接、并发的读写数据、做大模型训练。但有时候会出现读取速度变慢的现象，并且SFS提示

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
SDXL基于Standard适配PyTorch NPU的LoRA训练指导（6.3.908） - AI开发平台ModelArts

在SWR服务页面创建镜像组织。图2 创建镜像组织在SWR中单击右上角的“登录指令”，然后在跳出的登录指定窗口，单击复制临时登录指令。在创建的ECS中复制临时登录指令，即可完成登录。图3 复制登录指令修改并上传镜像。在ECS中输入上一步的登录指令后，使用下列示例命令： docker tag {image_url}

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
SDXL基于Standard适配PyTorch NPU的LoRA训练指导（6.3.907） - AI开发平台ModelArts

在SWR服务页面创建镜像组织。图2 创建镜像组织在SWR中单击右上角的“登录指令”，然后在跳出的登录指定窗口，单击复制临时登录指令。在创建的ECS中复制临时登录指令，即可完成登录。图3 复制登录指令修改并上传镜像。在ECS中输入上一步的登录指令后，使用下列示例命令： docker tag {image_url}

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
安全边界 - AI开发平台ModelArts
安全边界 - AI开发平台ModelArts

k8s的版本更新和漏洞修复虚拟机OS的版本生命周期维护 ModelArts推理平台自身的安全合规性容器应用服务加固模型运行环境的版本更新和漏洞定期修复客户侧资源的授权，访问控制保证应用的供应链安全，依赖和自身的安全性，安全扫描、审计和准入校验机制，保证制品源头的安全性权限配置和凭证下发权限最小化

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” 问题现象在使用pytorch启动多进程的时候，出现如下报错： RuntimeError: Cannot re-initialize CUDA in

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题

总条数： 1385

上一页
1
...
6
7
8
...
70
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

ECS获取和上传基础镜像 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机多卡训练任务 - AI开发平台ModelArts

【下线公告】华为云ModelArts服务旧版数据集下线公告 - AI开发平台ModelArts

训练作业日志中提示“No module named .*” - AI开发平台ModelArts

日志提示“ '(slice(0, 13184, None), slice(None, None, None))' is an invalid key” - AI开发平台ModelArts

在线服务的API接口组成规则是什么？ - AI开发平台ModelArts

调用MaaS部署的模型服务 - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

日志提示“Please upgrade numpy to >= xxx to use this pandas version” - AI开发平台ModelArts

日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” - AI开发平台ModelArts

不启用自动停止，系统会自动停掉Notebook实例吗？会删除Notebook实例吗？ - AI开发平台ModelArts

复制数据至容器中空间不足 - AI开发平台ModelArts

不同机型的对应的软件配套版本 - AI开发平台ModelArts

Lite Server使用流程 - AI开发平台ModelArts

OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

SDXL基于Standard适配PyTorch NPU的LoRA训练指导（6.3.908） - AI开发平台ModelArts

SDXL基于Standard适配PyTorch NPU的LoRA训练指导（6.3.907） - AI开发平台ModelArts

安全边界 - AI开发平台ModelArts

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线