搜索_华为云

预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

出现内存溢出的情况，用户可参考表2进行配置。图3 选择资源池规格新增SFS Turbo挂载配置，并选择用户创建的SFS Turbo文件系统。云上挂载路径：输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置：输入用户在创建Notebook的“子目录挂载”路径。若默认没有填写，则忽略。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

train_13b.sh 的脚本，开始训练。在训练中，程序会自动执行对数据集预处理、权重转换、执行训练等操作，具体可通过训练启动脚本说明和参数配置、训练的数据集预处理说明、训练的权重转换说明了解其中的操作。训练完成后在SFS Turbo中保存训练的模型结果。（多机情况下，只有

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909） > 准备工作
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

开启图模式后，服务第一次响应请求时会有一个较长时间的图编译过程，并且会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时，可通过缓存文件来快速完成图编译的过程，避免长时间的等待，并且基于图编译缓存文件来启动服务可获得更优的推理性能，因此请在有图编译缓存文件的前提下启动服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
部署推理服务 - AI开发平台ModelArts

开启图模式后，服务第一次响应请求时会有一个较长时间的图编译过程，并且会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时，可通过缓存文件来快速完成图编译的过程，避免长时间的等待，并且基于图编译缓存文件来启动服务可获得更优的推理性能，因此请在有图编译缓存文件的前提下启动服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

在假定是Ring算法的情况下计算出来的。计算公式是有假设的：总线带宽 = 算法带宽 * 2 ( N-1 ) / N ，算法带宽 = 数据量 / 时间但是这个计算公式的前提是用Ring算法，Tree算法的总线带宽不可以这么计算。如果Tree算法算出来的总线带宽相当于是相对R

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
查询用户所有DevServer实例列表 - AI开发平台ModelArts

of strings 允许通过SSH协议访问Notebook的公网IP地址白名单列表，默认都可以访问。当配置指定IP后，则仅允许IP所在的客户端实现对Notebook的访问。 dev_service String 支持的服务，枚举值如下： NOTEBOOK：可以通过https协议访问Notebook

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
训练作业卡死检测 - AI开发平台ModelArts

阶段。资源利用率：在作业进程IO没有变化的情况下，采集一定时间段内的GPU利用率或NPU利用率，并根据这段时间内的GPU利用率或NPU利用率的方差和中位数来判断资源使用率是否有变化。如果没有变化，则判定作业卡死。系统预置了卡死检测的环境变量“MA_HANG_DETECT_TI

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
终止训练作业 - AI开发平台ModelArts

String 自定义镜像训练作业的自定义镜像的容器的启动命令。例如python train.py。 parameters Array of Parameter objects 训练作业的运行参数。 policies policies object 作业支持的策略。 inputs Array

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
查询训练作业详情 - AI开发平台ModelArts

String 自定义镜像训练作业的自定义镜像的容器的启动命令。例如python train.py。 parameters Array of Parameter objects 训练作业的运行参数。 policies policies object 作业支持的策略。 inputs Array

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
查看Standard专属资源池详情 - AI开发平台ModelArts

操作，不同资源池可进行的操作不一致，具体以控制台显示为准。在“基本信息”的“网络”中，可单击关联的资源池中的数字，查看关联的资源池。可以查看该网络中可用的IP数量。在扩展信息中可以查看监控、作业、节点、规格、事件、标签，详细介绍见下文。查看资源池中的作业在资源池详情页，切

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
AIGC工具tailor使用指导 - AI开发平台ModelArts

查询onnx模型的输入信息。 # 查询onnx模型的输入信息 t.get_model_input_info() 图1 查询onnx模型的输入输出信息查询onnx模型的输出信息。 # 查询模型的输出信息 t.get_model_output_info() 图2 查询onnx模型的输出信息

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
查询训练作业列表 - AI开发平台ModelArts

Integer 查询到当前用户名下的所有作业总数。 count Integer 查询到当前用户名下的所有符合查询条件的作业总数。 limit Integer 查询作业的每页条目数。最小为1，最大为50。 offset Integer 查询作业的页数，最小为0。例如设置为0，则表示从第一页开始查询。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

取训练作业日志的对应的obs路径。调用查询训练作业指定任务的运行指标接口查看训练作业的运行指标详情。当训练作业使用完成或不再需要时，调用删除训练作业接口删除训练作业。前提条件已获取IAM的EndPoint和ModelArts的EndPoint。确认服务的部署区域，获取项

 帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

的完整代码示例，供用户学习参考。训练流程简述相比于DP，DDP能够启动多进程进行运算，从而大幅度提升计算资源的利用率。可以基于torch.distributed实现真正的分布式计算，具体的原理此处不再赘述。大致的流程如下：初始化进程组。创建分布式并行模型，每个进程都会有相同的模型和参数。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
非分离部署推理服务 - AI开发平台ModelArts

每个输出序列要生成的最大tokens数量。 top_k 否 -1 Int 控制要考虑的前几个tokens的数量的整数。设置为-1表示考虑所有tokens。适当降低该值可以减少采样时间。 top_p 否 1.0 Float 控制要考虑的前几个tokens的累积概率的浮点数。必须在 (0, 1] 范围内。设置为1表示考虑所有tokens。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
更新算法 - AI开发平台ModelArts
更新算法 - AI开发平台ModelArts

算法名称。限制为1-64位只含数字、字母、下划线和中划线的名称。 description 否 String 对算法的描述，默认为“NULL”，字符串的长度限制为[0, 256]。 workspace_id 否 String 指定算法所处的工作空间，默认值为“0”。“0” 为默认的工作空间。 ai_project

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
创建Workflow训练作业节点 - AI开发平台ModelArts

spec 作业使用的资源规格相关配置是 JobSpec inputs 作业节点的输入列表是 JobInput或者JobInput的列表 outputs 作业节点的输出列表是 JobOutput或者JobOutput的列表 title title信息，主要用于前端的名称展示否 str

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
创建训练作业 - AI开发平台ModelArts

自动化搜索作业的yaml配置路径，需要提供一个OBS路径。 autosearch_framework_path 否 String 自动化搜索作业的框架代码目录，需要提供一个OBS路径。 command 否 String 自定义镜像场景下，训练作业的自定义镜像的容器的启动命令。 parameters

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
创建ModelArts数据增强任务 - AI开发平台ModelArts

成网络的输出结果是否真实。训练中获得的生成器网络可用于生成与输入图片相似的图片，用作新的数据集参与训练。基于Gan网络生成新的数据集不会生成相应的标签。图像生成过程不会改动原始数据，新生成的图片或xml文件保存在指定的输出路径下。基于StyleGan2用于在数据集较小的情形下，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
依赖和委托 - AI开发平台ModelArts

用户自身用户组的授权策略的授权范围，如果配置不当就会出现用户越权的问题。为了控制委托授权的越权风险，ModelArts服务的权限管理功能要求只有租户管理员才能为用户配置委托，由管理员保证委托授权的安全性。委托授权的最小化管理员在配置委托授权时，应严格控制授权的范围。 Mod

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 权限控制方式

总条数： 1240

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

预训练 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

查询用户所有DevServer实例列表 - AI开发平台ModelArts

训练作业卡死检测 - AI开发平台ModelArts

终止训练作业 - AI开发平台ModelArts

查询训练作业详情 - AI开发平台ModelArts

查看Standard专属资源池详情 - AI开发平台ModelArts

AIGC工具tailor使用指导 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

更新算法 - AI开发平台ModelArts

创建Workflow训练作业节点 - AI开发平台ModelArts

创建训练作业 - AI开发平台ModelArts

创建ModelArts数据增强任务 - AI开发平台ModelArts

依赖和委托 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线