搜索_华为云

训练作业容错检查 - AI开发平台ModelArts

开启容错检查用户可以在创建训练作业时通过设置自动重启的方式开启容错检查。使用ModelArts Standard控制台的创建训练作业页面设置自动重启：用户可以在控制台页面通过开关的方式开启自动重启。“自动重启”开关默认不开启，表示不做重新下发作业，也不会启用环境检测。打开开关后，允许设置重启次数为1~128次。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
训练数据集预处理说明 - AI开发平台ModelArts

启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。微调数据集预处理参数说明微调包含SFT和LoRA微调。数据集预处理脚本参数说明如下： --input：原始数据集的存放路径。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
SDK简介 - AI开发平台ModelArts
SDK简介 - AI开发平台ModelArts

ModelArts SDK已经集成在ModelArts开发环境Notebook中，可以直接使用，无需进行Session鉴权。登录ModelArts控制台，在“开发空间 > Notebook”中创建Notebook实例，在Terminal或ipynb文件中直接调用ModelArts SDK

帮助中心 > AI开发平台ModelArts > SDK参考
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

卡通信。该环境变量由系统自动注入，由于通信网卡名称不固定，因此训练代码不应默认设置该环境变量。环境变量NCCL_IB_TIMEOUT用于控制InfiniBand Verbs超时。NCCL使用的默认值为18，取值范围是1~22。父主题：训练作业运行失败

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
如果不再使用ModelArts，如何停止收费？ - AI开发平台ModelArts

计费。清理资源请检查在ModelArts所创建运行中的作业，并停止或删除相关作业，即可停止计费。操作步骤：在ModelArts管理控制台，单击左侧菜单栏的“总览”，您可以在“总览”区域查看正在收费的作业。再根据实际情况进入管理页面，停止收费。图1 查看收费作业进入“M

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费FAQ
创建训练任务 - AI开发平台ModelArts

tebook调试方法与使用Notebook进行代码调试、使用Notebook进行代码调试相同）。创建训练任务登录ModelArts管理控制台，检查当前账号是否已完成访问授权的配置。如未完成，请参考使用委托授权。针对之前使用访问密钥授权的用户，建议清空授权，然后使用委托进行授权。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 多机多卡
Yaml配置文件参数配置说明 - AI开发平台ModelArts

必须修改。加载tokenizer与Hugging Face权重时，对应的存放绝对或相对路径。请根据实际规划修改。 do_train true 指示脚本执行训练步骤，用来控制是否进行模型训练的。如果设置为true，则会进行模型训练；如果设置为false，则不会进行模型训练。 cutoff_len 4096 文本

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
上传OBS文件到JupyterLab - AI开发平台ModelArts

提示文件上传失败，有以下三种常见场景。异常场景1 图5 文件上传失败可能原因： OBS路径没有设置为具体的文件路径，设置成了文件夹。 OBS中的文件设置了加密。请前往OBS控制台查看，确保该文件未加密。 OBS桶和Notebook不在同一个区域。请确保读取的OBS桶和Notebook处于同一站点区域，不支持跨站点

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发 > 上传文件至JupyterLab
功能总览 - AI开发平台ModelArts
功能总览 - AI开发平台ModelArts

Gallery订阅模型部署上线通常AI模型部署和规模化落地非常复杂。ModelArts支持将训练好的模型一键部署到端、边、云的各种设备上和各种场景上，并且还为个人开发者、企业和设备生产厂商提供了一整套安全可靠的一站式部署方式。在线服务在线推理服务，可以实现高并发，低延时，弹性伸缩，并且支持多

 帮助中心 > AI开发平台ModelArts > 功能总览
Yaml配置文件参数配置说明 - AI开发平台ModelArts

必须修改。加载tokenizer与Hugging Face权重时，对应的存放绝对或相对路径。请根据实际规划修改。 do_train true 指示脚本执行训练步骤，用来控制是否进行模型训练的。如果设置为true，则会进行模型训练；如果设置为false，则不会进行模型训练。 cutoff_len 4096 文本

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
查询算法详情 - AI开发平台ModelArts

continuous：指定时表示这个超参是连续类型的。连续类型的超参在算法使用于训练作业时，控制台显示为输入框。 discrete：指定时表示这个超参是离散类型的。离散类型的超参在算法使用于训练作业时，控制台显示为下拉选择框架。 lower_bound String 超参下界。 upper_bound

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

打印如下信息，表示上传镜像成功。图7 成功上传镜像 Step8 注册镜像镜像上传至SWR成功后，在ModelArts控制台的“镜像管理”页面中单击“注册镜像”。图8 在ModelArts控制台注册镜像在镜像源中，选择上一步中上传到SWR自有镜像仓中的镜像名，作为模型推理使用的镜像，架构选择ARM，类型选择CPU和ASCEND。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 准备工作
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

打印如下信息，表示上传镜像成功。图7 成功上传镜像 Step8 注册镜像镜像上传至SWR成功后，在ModelArts控制台的“镜像管理”页面中单击“注册镜像”。图8 在ModelArts控制台注册镜像在镜像源中，选择上一步中上传到SWR自有镜像仓中的镜像名，作为模型推理使用的镜像，架构选择ARM，类型选择CPU和ASCEND。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 准备工作
ModelArts Standard推理服务支持VPC直连的高速访问通道配置 - AI开发平台ModelArts

将专属资源池的网络打通VPC VPC下创建弹性云服务器获取在线服务的IP和端口号通过IP和端口号直连应用将专属资源池的网络打通VPC 登录ModelArts控制台，进入“AI专属资源池 > 弹性集群Cluster”找到服务部署使用的专属资源池，单击“名称/ID”，进入资源池详情页面，查看网络配置信

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
导出ModelArts数据集中的数据 - AI开发平台ModelArts

VOC格式的XML标注文件。 “图像分割”只支持导出Pascal VOC格式的XML标注文件以及Mask图像。导出数据为新数据集登录ModelArts管理控制台，在左侧菜单栏中选择“资产管理>数据集”，进入“数据集”管理页面。在数据集列表中，选择“图片”类型的数据集，单击数据集名称进入“数据集概览页”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理
通过VPC高速访问通道的方式访问在线服务 - AI开发平台ModelArts

将专属资源池的网络打通VPC VPC下创建弹性云服务器获取在线服务的IP和端口号通过IP和端口号直连应用将专属资源池的网络打通VPC 登录ModelArts控制台，进入“AI专属资源池 > 弹性集群Cluster”找到服务部署使用的专属资源池，单击“名称/ID”，进入资源池详情页面，查看网络配置信

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的访问通道
查询数据集导入任务的详情 - AI开发平台ModelArts

cluster_id String MRS集群ID。可登录MRS控制台查看。 cluster_mode String MRS集群运行模式。可选值如下： 0：普通集群 1：安全集群 cluster_name String MRS集群名称。可登录MRS控制台查看。 database_name String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
训练的数据集预处理说明 - AI开发平台ModelArts

启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。输出数据预处理结果路径：训练完成后，以 llama2-13b 为例，输出数据路径为：/home/ma-user/work/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

打印如下信息，表示上传镜像成功。图5 成功上传镜像 Step8 注册镜像镜像上传至SWR成功后，在ModelArts控制台的“镜像管理”页面中单击“注册镜像”。图6 在ModelArts控制台注册镜像在镜像源中，选择上一步中上传到SWR自有镜像仓中的镜像名，作为模型推理使用的镜像，架构选择ARM，类型选择CPU和ASCEND。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 准备工作
ModelArts SDK、OBS SDK和MoXing的区别是什么？ - AI开发平台ModelArts

indSpore等)下均可以使用。 MoXing Framework模块提供了OBS中常见的数据文件操作，如读写、列举、创建文件夹、查询、移动、复制、删除等。在ModelArts Notebook中使用MoXing接口时，可直接调用接口，无需下载或安装SDK，使用限制比ModelArts

帮助中心 > AI开发平台ModelArts > 常见问题 > API/SDK

总条数： 702

上一页
1
...
19
20
21
...
36
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业容错检查 - AI开发平台ModelArts

训练数据集预处理说明 - AI开发平台ModelArts

SDK简介 - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

如果不再使用ModelArts，如何停止收费？ - AI开发平台ModelArts

创建训练任务 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

上传OBS文件到JupyterLab - AI开发平台ModelArts

功能总览 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

查询算法详情 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

ModelArts Standard推理服务支持VPC直连的高速访问通道配置 - AI开发平台ModelArts

导出ModelArts数据集中的数据 - AI开发平台ModelArts

通过VPC高速访问通道的方式访问在线服务 - AI开发平台ModelArts

查询数据集导入任务的详情 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

ModelArts SDK、OBS SDK和MoXing的区别是什么？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线