搜索_华为云

人工标注视频数据 - AI开发平台ModelArts

在位置，一帧对应的画面可添加多个标签。支持的标注框与“物体检测”类型一致，详细描述请参见物体检测章节的表2。图2 视频标注上一帧对应的画面标注完成后，在进度条处单击播放按钮继续播放，在需要标注处暂停，然后重复执行步骤3完成整个视频的标注。单击界面右上角的“标注列表”，在“

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过人工标注方式标注数据
管理Lite Cluster资源池的游离节点 - AI开发平台ModelArts

管理Lite Cluster资源池的游离节点如果资源中存在游离节点，即没有被纳管到资源池中的节点，可在“AI专属资源池 > 弹性集群Cluster >节点”下查看此类节点的相关信息。系统支持对游离节点进行续费、退订、开通/修改自动续费、添加/编辑资源标签、删除资源标签、搜索等操作。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
在JupyterLab中使用TensorBoard可视化作业 - AI开发平台ModelArts

查看训练看板中的可视化数据训练看板是TensorBoard的可视化组件的重要组成部分，而训练看板的标签包含：标量可视化、图像可视化和计算图可视化等。更多功能介绍请参见TensorBoard官网资料。关闭TensorBoard 关闭TensorBoard方式如下：单击下图所示的，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

失败”的信息时，可根据具体事件信息确定具体问题原因。图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败当volcano的资源出现争抢时，会出现以下图中的问题。图2 volcano资源争抢

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

的完整代码示例，供用户学习参考。训练流程简述相比于DP，DDP能够启动多进程进行运算，从而大幅度提升计算资源的利用率。可以基于torch.distributed实现真正的分布式计算，具体的原理此处不再赘述。大致的流程如下：初始化进程组。创建分布式并行模型，每个进程都会有相同的模型和参数。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
故障恢复 - AI开发平台ModelArts
故障恢复 - AI开发平台ModelArts

且隔离的可用区，这些可用区通过延迟低、吞吐量高且冗余性高的网络连接在一起。利用可用区，您可以设计和操作在可用区之间无中断地自动实现故障转移的应用程序和数据库。与传统的单个或多个数据中心基础设施相比，可用区具有更高的可用性、容错性和可扩展性。 ModelArts通过对DB的数据进行

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
批量服务输入/输出obs目录不存在或者权限不足 - AI开发平台ModelArts

提工单申请技术支持 ModelArts.3567：用户只能访问自己账号下的obs目录，ModelArts在读取其他用户obs下的数据时，需要用户委托权限，没有创建委托，就没有权限使用其他用户obs中的数据。登录ModelArts控制台，管理控制台，在左侧导航栏中选择“权限管理”

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
Eagle投机小模型训练 - AI开发平台ModelArts

--tp 8 old_folder为上一步生成data的地址，填写到卡号的文件夹之前。命令中的./sharegpt_0_199_mufp16/"为举例，需要替换为实际地址。 new_folder为需要存储新的data的地址。命令中的./sharegpt_0_199_mufp16/"为举例，需要替换为实际地址。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）
Eagle投机小模型训练 - AI开发平台ModelArts

--tp 8 old_folder为上一步生成data的地址，填写到卡号的文件夹之前。命令中的./sharegpt_0_199_mufp16/"为举例，需要替换为实际地址。 new_folder为需要存储新的data的地址。命令中的./sharegpt_0_199_mufp16/"为举例，需要替换为实际地址。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
Eagle投机小模型训练 - AI开发平台ModelArts

--tp 8 old_folder为上一步生成data的地址，填写到卡号的文件夹之前。命令中的./sharegpt_0_199_mufp16/"为举例，需要替换为实际地址。 new_folder为需要存储新的data的地址。命令中的./sharegpt_0_199_mufp16/"为举例，需要替换为实际地址。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
CogVideoX1.5 5b模型基于Lite Server适配PyTorch NPU全量训练指导（6.3.912） - AI开发平台ModelArts

一个预训练的文本到图像模型CogView2，还提出了多帧速率分层训练策略，以更好地对齐文本和视频剪辑。作为一个开源的大规模预训练文本到视频模型，CogVideo性能优于所有公开可用的模型，在机器和人类评估方面都有很大的优势。方案概览本方案介绍了在ModelArts的Serve

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
工作负载Pod异常 - AI开发平台ModelArts

度失败”的信息时，可根据具体事件信息确定具体问题原因。具体参考链接为工作负载状态异常定位方法。通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败当volcano的资源出现争抢时，会出现下图中的问题。解决方法：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
工作负载Pod异常 - AI开发平台ModelArts

度失败”的信息时，可根据具体事件信息确定具体问题原因。具体参考链接为工作负载状态异常定位方法。通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败当volcano的资源出现争抢时，会出现下图中的问题。解决方法：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法
在ModelArts的Notebook中内置引擎不满足使用需要时，如何自定义引擎IPython Kernel？ - AI开发平台ModelArts

在ModelArts的Notebook中内置引擎不满足使用需要时，如何自定义引擎IPython Kernel？使用场景当前Notebook默认内置的引擎环境不能满足用户诉求，用户可以新建一个conda env按需搭建自己的环境。本小节以搭建一个“python3.6.5和tensorflow1

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

失败”的信息时，可根据具体事件信息确定具体问题原因。图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败当volcano的资源出现争抢时，会出现下图中的问题。图2 volcano资源争抢

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
CogVideoX模型基于Lite Server适配PyTorch NPU全量训练指导（6.3.911） - AI开发平台ModelArts

一个预训练的文本到图像模型CogView2，还提出了多帧速率分层训练策略，以更好地对齐文本和视频剪辑。作为一个开源的大规模预训练文本到视频模型，CogVideo性能优于所有公开可用的模型，在机器和人类评估方面都有很大的优势。方案概览本方案介绍了在ModelArts的Lite

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
工作负载Pod异常 - AI开发平台ModelArts

度失败”的信息时，可根据具体事件信息确定具体问题原因。具体参考链接为工作负载状态异常定位方法。通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败当volcano的资源出现争抢时，会出现下图中的问题。解决方法：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

本教程中用到的模型软件包如下表所示，请提前准备好。获取模型软件包本方案支持的模型对应的软件和依赖包获取地址如表1所示。表1 模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6.3.912-xxx.zip 说明：软件包名称中的xxx表示时间戳。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 准备工作
训练作业的自定义镜像制作流程 - AI开发平台ModelArts

nd）训练框架的自定义镜像约束推荐自定义镜像使用ubuntu-18.04的操作系统，避免出现版本不兼容的问题。自定义镜像的大小推荐15GB以内，最大不要超过资源池的容器引擎空间大小的一半。镜像过大会直接影响训练作业的启动时间。 ModelArts公共资源池的容器引擎空间为5

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
精度调优总体思路 - AI开发平台ModelArts

机通信造成的精度问题，此时可以用精度工具的通信精度检测功能进行定位。部分集合通信算子要求通信域内各rank结果一致，如AllReduce、AllGather等，利用这一特性，工具将多机模型训练中产生的通信输出存盘，并传输到同一节点来比较其一致性，从而确定模型中通信算子的精度是否存

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优

总条数： 1326

上一页
1
...
26
27
28
...
67
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

人工标注视频数据 - AI开发平台ModelArts

管理Lite Cluster资源池的游离节点 - AI开发平台ModelArts

在JupyterLab中使用TensorBoard可视化作业 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

故障恢复 - AI开发平台ModelArts

批量服务输入/输出obs目录不存在或者权限不足 - AI开发平台ModelArts

Eagle投机小模型训练 - AI开发平台ModelArts

Eagle投机小模型训练 - AI开发平台ModelArts

Eagle投机小模型训练 - AI开发平台ModelArts

CogVideoX1.5 5b模型基于Lite Server适配PyTorch NPU全量训练指导（6.3.912） - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

在ModelArts的Notebook中内置引擎不满足使用需要时，如何自定义引擎IPython Kernel？ - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

CogVideoX模型基于Lite Server适配PyTorch NPU全量训练指导（6.3.911） - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

训练作业的自定义镜像制作流程 - AI开发平台ModelArts

精度调优总体思路 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线