搜索_华为云

训练启动脚本说明和参数配置 - AI开发平台ModelArts

MBS 1 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 128 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明
CogVideoX模型基于Lite Server适配PyTorch NPU全量训练指导（6.3.911） - AI开发平台ModelArts

CogVideo是一个94亿参数的Transformer模型，用于文本到视频生成。通过继承一个预训练的文本到图像模型CogView2，还提出了多帧速率分层训练策略，以更好地对齐文本和视频剪辑。作为一个开源的大规模预训练文本到视频模型，CogVideo性能优于所有公开可用的模型，在机器和人类评估方面都有很大的优势。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
创建IAM用户并授权使用ModelArts - AI开发平台ModelArts

CES云监控授予子用户使用CES云监控服务的权限。通过CES云监控可以查看ModelArts的在线服务和对应模型负载运行状态的整体情况，并设置监控告警。 CES FullAccess 可选 SMN消息服务授予子用户使用SMN消息服务的权限。SMN消息通知服务配合CES监控告警功能一起使用。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard准备工作 > 配置ModelArts Standard访问授权
SD 3.5基于Lite Server适配PyTorch NPU的训练指导（6.5.901） - AI开发平台ModelArts

推荐使用“西南-贵阳一”Region上的Lite Server资源和Ascend Snt9B单机。表1 环境要求名称版本 driver 23.0.6 PyTorch pytorch_2.1.0 获取软件和镜像表2 获取软件和镜像分类名称获取路径插件代码包 AscendCloud-6

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
在Dify中配置支持Function Calling的模型使用 - AI开发平台ModelArts

在Dify中配置支持Function Calling的模型使用 Dify是一个能力丰富的开源AI应用开发平台，为大型语言模型（LLM）应用的开发而设计。它巧妙地结合了后端即服务（Backend as Service）和LLMOps的理念，提供了一套易用的界面和API，加速了开发者构建可扩展的生成式AI应用的过程。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 通过Function Calling扩展大语言模型交互能力
个人用户快速配置ModelArts访问权限 - AI开发平台ModelArts

约束与限制只有主账号可以使用委托授权，可以为当前账号授权，也可以为当前账号下的所有IAM用户授权。多个IAM用户或账号，可使用同一个委托。一个账号下，最多可创建50个委托。对于首次使用ModelArts新用户，请直接新增委托即可。一般用户新增普通用户权限即可满足使用要求。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
CogVideoX1.5 5b 和 CogVideoX 5b模型基于Lite Server全量8卡序列并行推理指导（6.5.901） - AI开发平台ModelArts

CogVideo是一个94亿参数的Transformer模型，用于文本到视频生成。通过继承一个预训练的文本到图像模型CogView2，还提出了多帧速率分层训练策略，以更好地对齐文本和视频剪辑。作为一个开源的大规模预训练文本到视频模型，CogVideo性能优于所有公开可用的模型，在机器和人类评估方面都有很大的优势。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

pipe”。原因分析出现该问题的可能原因如下：在大规模分布式作业上，每个节点都在复制同一个桶的文件，导致OBS桶限流。 OBS Client连接数过多，进程/线程之间的轮询，导致一个OBS Client与服务端连接30S内无响应，超过超时时间，服务端断开了连接。处理方法

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

问题现象在Vnt1 GPU裸金属服务器（Ubuntu18.04系统），安装NVIDIA 470+CUDA 11.4后使用“nvidia-smi”和“nvcc - V”显示正确的安装信息，然后使用Pytorch下述命令验证cuda有效性： print(torch.cuda.is_available())

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
资源超分对在ModelArts的Notebook实例有什么影响？ - AI开发平台ModelArts

资源超分对在ModelArts的Notebook实例有什么影响？ Notebook超分，是指一个节点中CPU、内存共享的场景。为了充分利用资源，在专属池中存在超分情况。举例：一个专属池中有1个8U64G的CPU节点，如创建2U8G规格的Notebook，因为超分最多可启动 8U/(2U*0

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
创建诊断任务 - AI开发平台ModelArts

3.RC2、7.0.RC1、7.0.0和8.0.RC1。当运行环境实际cann版本与可选值不匹配时选择大版本相近的可选值即可。主要影响亲和api分析和aicpu算子分析。 2 torch_version 2.1.0 否可选值包括1.11.0和2.1.0，当运行环境实际torch版

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
如何将两个ModelArts数据集合并？ - AI开发平台ModelArts

但是可以参考如下操作方式，将两个数据集的数据合并在一个数据集中。例如需将数据集A和数据集B进行合并。分别将数据集A和数据集B进行发布。发布后可获得数据集A和数据集B的Manifest文件。可通过数据集的“数据集输出位置”获得此文件。创建一个空数据集C，即无任何输出，其输入位置选择一个空的OBS文件夹。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据准备
训练启动脚本说明和参数配置【旧】 - AI开发平台ModelArts

MBS 4 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
CogVideoX1.5 5b模型基于Lite Server适配PyTorch NPU全量训练指导（6.5.901） - AI开发平台ModelArts

CogVideo是一个94亿参数的Transformer模型，用于文本到视频生成。通过继承一个预训练的文本到图像模型CogView2，还提出了多帧速率分层训练策略，以更好地对齐文本和视频剪辑。作为一个开源的大规模预训练文本到视频模型，CogVideo性能优于所有公开可用的模型，在机器和人类评估方面都有很大的优势。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
ModelArts中的作业为什么一直处于等待中？ - AI开发平台ModelArts

当前训练任务排队的逻辑是先进先出，前面的任务没运行完后面的任务不会运行，有可能会造成小任务被“饿死”，需要用户注意。饿死指的是前面的任务被一个大的任务堵着（例如是64卡），需要等空闲64卡这个任务才能运行，64卡的任务后面跟着1卡的。即使现在空出来30卡，这个1卡的任务也排不上。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard专属资源池
推理部署使用场景 - AI开发平台ModelArts

部署服务：模型构建完成后，根据您的业务场景，选择将模型部署成对应的服务类型。将模型部署为实时推理作业将模型部署为一个Web Service，并且提供在线的测试UI与监控功能，部署成功的在线服务，将为用户提供一个可调用的API。将模型部署为批量推理服务批量服务可对批量数据进行推理，完成数据处理后自动停止。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
CogVideoX1.5 5b模型基于Lite Server适配PyTorch NPU全量训练指导（6.3.912） - AI开发平台ModelArts

CogVideo是一个94亿参数的Transformer模型，用于文本到视频生成。通过继承一个预训练的文本到图像模型CogView2，还提出了多帧速率分层训练策略，以更好地对齐文本和视频剪辑。作为一个开源的大规模预训练文本到视频模型，CogVideo性能优于所有公开可用的模型，在机器和人类评估方面都有很大的优势。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
训练启动脚本说明和参数配置【旧】 - AI开发平台ModelArts

MBS 4 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.5.901） > 训练脚本说明
创建训练作业版本 - AI开发平台ModelArts

创建训练作业版本功能介绍创建一个训练作业版本。该接口为异步接口，作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。 URI POST /v1/{project_id}/training-jobs/{job_id}/versions 参数说明如表1所示。表1 参数说明

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
上传数据和算法至SFS（首次使用时需要） - AI开发平台ModelArts

上传数据和算法至SFS（首次使用时需要）前提条件 ECS服务器已挂载SFS，请参考ECS服务器挂载SFS Turbo存储。在ECS中已经创建ma-user和ma-group用户，请参考在ECS中创建ma-user和ma-group。已经安装obsutil，请参考下载和安装obsutil。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机多卡

总条数： 1091

上一页
1
...
8
9
10
...
55
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练启动脚本说明和参数配置 - AI开发平台ModelArts

CogVideoX模型基于Lite Server适配PyTorch NPU全量训练指导（6.3.911） - AI开发平台ModelArts

创建IAM用户并授权使用ModelArts - AI开发平台ModelArts

SD 3.5基于Lite Server适配PyTorch NPU的训练指导（6.5.901） - AI开发平台ModelArts

在Dify中配置支持Function Calling的模型使用 - AI开发平台ModelArts

个人用户快速配置ModelArts访问权限 - AI开发平台ModelArts

CogVideoX1.5 5b 和 CogVideoX 5b模型基于Lite Server全量8卡序列并行推理指导（6.5.901） - AI开发平台ModelArts

OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

资源超分对在ModelArts的Notebook实例有什么影响？ - AI开发平台ModelArts

创建诊断任务 - AI开发平台ModelArts

如何将两个ModelArts数据集合并？ - AI开发平台ModelArts

训练启动脚本说明和参数配置【旧】 - AI开发平台ModelArts

CogVideoX1.5 5b模型基于Lite Server适配PyTorch NPU全量训练指导（6.5.901） - AI开发平台ModelArts

ModelArts中的作业为什么一直处于等待中？ - AI开发平台ModelArts

推理部署使用场景 - AI开发平台ModelArts

CogVideoX1.5 5b模型基于Lite Server适配PyTorch NPU全量训练指导（6.3.912） - AI开发平台ModelArts

训练启动脚本说明和参数配置【旧】 - AI开发平台ModelArts

创建训练作业版本 - AI开发平台ModelArts

上传数据和算法至SFS（首次使用时需要） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线