搜索_华为云

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

nccl_test的总线bandwidth是在假定是Ring算法的情况下计算出来的。计算公式是有假设的：总线带宽 = 算法带宽 * 2 ( N-1 ) / N ，算法带宽 = 数据量 / 时间但是这个计算公式的前提是用Ring算法，Tree算法的总线带宽不可以这么计算。如果Tree算法算出来的总线带宽相当

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
分布式训练功能介绍 - AI开发平台ModelArts

相关章节创建单机多卡的分布式训练（DataParallel）：介绍单机多卡数据并行分布式训练原理和代码改造点。创建多机多卡的分布式训练（DistributedDataParallel）：介绍多机多卡数据并行分布式训练原理和代码改造点。示例：创建DDP分布式训练（PyTorch

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
时序预测-time_series_v2算法部署在线服务预测报错 - AI开发平台ModelArts

windows。原因分析该报错说明预测使用的数据行数小于window超参值。在使用订阅算法时序预测-time_series_v2训练时，超参：window设置为60。训练完成并创建模型后，部署在线服务，进行预测，当预测的数据行数小于window超参值时，日志中有报错信息：ERROR:

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
在Notebook中通过Dockerfile从0制作自定义镜像用于推理 - AI开发平台ModelArts

本文详细介绍如何在ModelArts的开发环境Notebook中使用基础镜像构建一个新的推理镜像，并完成模型的创建，部署为在线服务。本案例仅适用于华为云北京四和上海一站点。操作流程如下： Step1 在Notebook中构建一个新镜像：在ModelArts的开发环境Notebook中制作

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于推理
创建生产训练作业 - AI开发平台ModelArts

算法代码需要通过“输入”的“参数名称”去读取训练的输入数据。建议设置为“data_url”。训练输入参数要与所选算法的“输入”参数匹配，请参见创建算法时的表4。数据集单击“数据集”，在ModelArts数据集列表中勾选目标数据集并选择对应的版本。训练启动时，系统将自动下载输入路径中的数据到训练运行容器。说明：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
LoRA训练 - AI开发平台ModelArts
LoRA训练 - AI开发平台ModelArts

sh 所有数据保存在auto_log/avg_step_time.txt文本中 auto_log/log/目录下存放各个shapes的数据。启动SDXL LoRA训练服务使用ma-user用户执行如下命令运行训练脚本。 sh run_lora_sdxl.sh 所有数据保存在au

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
创建训练作业参数 - AI开发平台ModelArts

type 否 String 数据集类型。可选值有“obs”、“dataset”。obs与dataset不可同时出现。 data_url 否 String OBS的桶路径，不可与dataset_id/dataset_version同时出现。表4 parameter属性列表参数是否必选

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
创建IAM用户并授权使用ModelArts - AI开发平台ModelArts

CommonOperations权限只能二选一，不能同时选。 OBS对象存储服务授予子用户使用OBS服务的权限。ModelArts的数据集、开发环境、训练作业、模型推理部署均需要通过OBS进行数据中转。 OBS OperateAccess 必选 SWR容器镜像仓库授予子用户使用SWR服务权限。Mode

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard准备工作 > 配置ModelArts Standard访问授权
创建模型不同方式的场景介绍 - AI开发平台ModelArts

创建模型不同方式的场景介绍 AI开发和调优往往需要大量的迭代和调试，数据集、训练代码或参数的变化都可能会影响模型的质量，如不能统一管理开发流程元数据，可能会出现无法重现最优模型的现象。 ModelArts的模型可导入所有训练生成的元模型、上传至对象存储服务（OBS）中的元模型和容

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型
使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

），可以在裸金属服务器中通过网络协议挂载使用，SFS支持NFS和CIFS的网络协议。在使用裸金属服务器时，将数据放在SFS盘中，并发建立多个NFS链接、并发的读写数据、做大模型训练。但有时候会出现读取速度变慢的现象，并且SFS提示报错"rpc_check_timeout:939

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
上传文件至OBS - AI开发平台ModelArts

Session() session.obs.upload_file(src_local_file='/home/ma-user/file1.txt', dst_obs_dir='obs://bucket-name/dir1/') 示例代码执行后，本地源文件“file1.txt”被上传至

 帮助中心 > AI开发平台ModelArts > SDK参考 > OBS管理
内存不足如何处理？ - AI开发平台ModelArts

部署或升级时出现该提示，可能原因是选择的计算节点规格内存太小，无法满足应用部署，请增大内存规格。运行中服务告警中出现该提示，可能代码有问题导致内存溢出或者业务使用量太大导致内存需求增多。处理方法在部署或升级在线服务时，选择更大内存规格的计算节点。图3 选择计算节点规格运行中服务出现告

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

数据集迁移至SFS。在本机机器上运行，通过obsutil工具将本地数据集传到OBS桶。 # 将本地数据传至OBS中 # ./obsutil cp ${数据集所在的本地文件夹路径} ${存放数据集的obs文件夹路径} -f -r # 例如 ./obsutil cp ./coco obs://your_bucket/

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
导入模型提示模型或镜像大小超过限制 - AI开发平台ModelArts

导入模型提示模型或镜像大小超过限制问题现象在导入模型时，提示模型或镜像大小超过限制。原因分析如果使用的是OBS导入或者训练导入，则是基础镜像、模型文件、代码、数据文件和下载安装软件包的大小总和超过了限制。如果使用的是自定义镜像导入，则是解压后镜像和镜像下载文件的大小总和超过了限制。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
在ModelArts中1个节点的专属资源池，能否部署多个服务？ - AI开发平台ModelArts

在ModelArts中1个节点的专属资源池，能否部署多个服务？支持。在部署服务时，选择专属资源池，在选择“计算节点规格”时选择“自定义规格”，设置小一些或者选择小规格的服务节点规格，当资源池节点可以容纳多个服务节点规格时，就可以部署多个服务。如果使用此方式进行部署推理，选择的

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard专属资源池
在线服务预测报错ModelArts.4503 - AI开发平台ModelArts

因APIG（API网关）限制，平台每次请求预测的时间不超过40秒。数据从平台发送到服务，服务预测推理，再将结果返回的时间不超过限制，可以成功返回预测结果。当服务预测的时间过长或者频繁预测导致服务接收不过来请求，即会出现该报错。可以通过以下方式解决问题：服务预测请求内容过大时，会因数据处理慢导致请求超时，优化预测代码，缩短预测时间。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
部署服务 - AI开发平台ModelArts
部署服务 - AI开发平台ModelArts

real-time代表在线服务，将模型部署为一个Web Service，并且提供在线的测试UI与监控能力，服务一直保持运行。 batch为批量服务，批量服务可对批量数据进行推理，完成数据处理后自动停止。 edge表示边缘服务，通过华为云智能边缘平台，在边缘节点将模型部署为一个Web Service，需提前在IEF（智能边缘服务）创建好节点。

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
镜像保存时报错“The container size (xG) is greater than the threshold (25G)”如何解决？ - AI开发平台ModelArts

镜像保存本质是通过在资源集群节点上的agent中进行了docker commit，再配合一系列自动化操作来上传和更新管理数据等。每次Commit都会带来额外的一些开销，层数越多镜像越大，如果多次保存后就会有存储显示没那么大，但是镜像已经很大。镜像超大会导致加载的各种问题，所以这里做了限制。这种场景下，建议找到原始镜像重新构建环境进行保存。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
上传文件夹至OBS - AI开发平台ModelArts

本地需要上传的文件夹路径。当上传的文件夹下内容为空或者该文件夹下包含多个文件夹且有文件夹下内容有空时，OBS对应路径下不产生该空文件夹。 dst_obs_dir 是 String 上传的目标OBS桶地址，必须以“obs://”作为前缀，上传的目标文件夹后缀必须以“/”结尾。表2 失败响应参数说明参数

 帮助中心 > AI开发平台ModelArts > SDK参考 > OBS管理
策略及授权项说明 - AI开发平台ModelArts

M项目，不支持企业项目，表示仅能在IAM中给用户组授权并生效，如果在企业管理中授权，则该自定义策略不生效。关于IAM项目与企业项目的区别，详情请参见：IAM与企业管理的区别。 “√”表示支持，“x”表示暂不支持。父主题：权限策略和授权项

 帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项

总条数： 1952

上一页
1
...
79
80
81
...
98
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

分布式训练功能介绍 - AI开发平台ModelArts

时序预测-time_series_v2算法部署在线服务预测报错 - AI开发平台ModelArts

在Notebook中通过Dockerfile从0制作自定义镜像用于推理 - AI开发平台ModelArts

创建生产训练作业 - AI开发平台ModelArts

LoRA训练 - AI开发平台ModelArts

创建训练作业参数 - AI开发平台ModelArts

创建IAM用户并授权使用ModelArts - AI开发平台ModelArts

创建模型不同方式的场景介绍 - AI开发平台ModelArts

使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

上传文件至OBS - AI开发平台ModelArts

内存不足如何处理？ - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

导入模型提示模型或镜像大小超过限制 - AI开发平台ModelArts

在ModelArts中1个节点的专属资源池，能否部署多个服务？ - AI开发平台ModelArts

在线服务预测报错ModelArts.4503 - AI开发平台ModelArts

部署服务 - AI开发平台ModelArts

镜像保存时报错“The container size (xG) is greater than the threshold (25G)”如何解决？ - AI开发平台ModelArts

上传文件夹至OBS - AI开发平台ModelArts

策略及授权项说明 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线