搜索_华为云

《Java 与 Deeplearning4j：开启深度学习高效训练之旅》

用集成学习的方法，将多个训练好的模型进行组合，以提高模型的整体性能。在 Java 中高效地使用 Deeplearning4j 框架进行深度学习模型训练需要从数据准备、模型构建、训练、评估与调优等多个环节精心打磨。只有每个环节都做到严谨细致、合理优化，才能构建出高性能的深度学习模型，在人工智能的浪潮中借助

开发者 > 博客

作者：程序员阿伟

发表时间： 2024-12-22 22:59:54

90

0

深度学习的分布式训练与集合通信（二）

深度学习的分布式训练与集合通信（二）本专题介绍常见的深度学习分布式训练的并行策略和背后使用到的集合通信操作，希望能帮助读者理解分布式训练的原理，以及集合通信之于分布式训练的重要性和必要性。鉴于篇幅限制，将拆分成三个部分展开讲述：第一部分：介绍模型训练的大体流程，以及集合通信操

开发者 > 博客

作者：昇腾CANN

发表时间： 2024-11-25 11:32:12

30

0

腾讯医疗AI深度学习预训练模型MedicalNet

2019年8月，腾讯优图首个医疗AI深度学习预训练模型 MedicalNet 正式对外开源。这也是全球第一个提供多种 3D 医疗影像专用预训练模型的项目MedicalNet具备以下特性： 1、MedicalNet提供的预训练网络可迁移到任何3D医疗影像的AI应用中，包括但不限于分

开发者 > 其他

作者： AI资讯

8751

36

训练作业运行失败排查指导 - AI开发平台ModelArts

训练作业运行失败排查指导问题现象训练作业的“状态”出现“运行失败”的现象。原因分析及处理方法查看训练作业的“日志”，出现报错“MoxFileNotExistsException(resp, 'file or directory or bucket not found.')”。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败

平台概述

平台概述图解开发者空间快速入门

开发者 > 开发服务

平台介绍

平台介绍企业数字化转型面临的挑战企业在进行数据管理时，通常会遇到下列挑战。数据治理的挑战缺乏企业数据体系标准和数据规范定义的方法论，数据语言不统一。缺乏面向普通业务人员的高效、准确的数据搜索工具，数据找不到。

开发者 > 开发服务

平台介绍

平台介绍企业数字化转型面临的挑战企业在进行数据管理时，通常会遇到下列挑战。数据治理的挑战缺乏企业数据体系标准和数据规范定义的方法论，数据语言不统一。缺乏面向普通业务人员的高效、准确的数据搜索工具，数据找不到。

开发者 > 开发服务

如何基于ModelArts实现最快最普惠的深度学习训练？

随着过去几年的发展，以ResNet50为代表的CNN模型已经成为了深度学习在计算机视觉方面最常用的模型之一。然而深度学习模型的训练通常非常慢，例如，如果用1块P100的GPU训练一个ResNet50需要1周时间（假如训练90个Epoch）。在工业界，我们都追求极致的训练速度，以便进行快速的产品迭代。目前，

开发者 > 博客

作者： sound

发表时间： 2019-12-28 11:22:36

8038

0

预训练 - AI开发平台ModelArts

nizer文件，具体请参见训练tokenizer文件说明。 Step2 创建预训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。图1 选择镜像训练作业启动命令中输入： cd

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905）

创建训练任务 - AI开发平台ModelArts

单击“提交”，在“信息确认”页面，确认训练作业的参数信息，确认无误后单击“确定”。训练作业创建完成后，后台将自动完成容器镜像下载、代码目录下载、执行启动命令等动作。训练作业一般需要运行一段时间，根据您的训练业务逻辑和选择的资源不同，训练时长将持续几十分钟到几小时不等。父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡

平台介绍

平台介绍媒体处理（Media Processing Center，简称MPC）是一种多媒体数据处理服务，通过经济、弹性和高可扩展的转换方法，将存储于OBS上的音视频转码为适应各种终端（PC、TV、Phone等）播放的格式，并实现抽帧截图、图片水印、内容质检、视频加密

开发者 > 开发服务

训练作业运行失败 - AI开发平台ModelArts

训练作业运行失败训练作业运行失败排查指导训练作业运行失败，出现NCCL报错自定义镜像训练作业失败定位思路使用自定义镜像创建的训练作业一直处于运行中使用自定义镜像创建训练作业找不到启动文件训练作业的监控内存指标持续升高直至作业失败订阅算法物体检测YOLOv3_ResN

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业

深度学习的分布式训练与集合通信（一）

者可以参考链接。在了解了上述有关模型训练和通信操作的背景知识后，我们来看看分布式训练是如何利用多卡并行来共同完成大模型训练的，以及不同分布式训练策略背后的通信操作。分布式训练的并行策略什么是分布式训练？通俗易懂地说，就是将大模型训练这个涉及到庞大数据量和计算量的任务切成小

开发者 > 博客

作者：昇腾CANN

发表时间： 2024-11-15 16:59:24

549

0

查询训练作业版本列表 - AI开发平台ModelArts

调用成功时无此字段。 job_id Long 训练作业的ID。 job_name String 训练作业的名称。 job_desc String 训练作业的描述信息。 version_count Long 训练作业的版本数。 versions JSON Array 训练作业的运行版本参数。该样例请参考响应样例。属性详情参见表4。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业

《深入理解AutoML和AutoDL：构建自动化机器学习与深度学习平台》

全书最核心的章节。第四部分（第14章）是关于元学习的内容，我们认为元学习应该是独立于统计机器学习和深度学习的一个研究领域，因为元学习跳出了学习“结果”的这种思想，学习的是“学习过程”，这也是自动化人工智能的理想目标。因此，我们将元学习单独作为一个部分，作为全书内容的升华，读者可以

开发者 > 博客

作者：华章计算机

发表时间： 2019-11-15 14:57:13

15002

0

创建训练实验 - AI开发平台ModelArts

创建训练实验功能介绍创建训练实验。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI POST /v2/{project_id}/training-experiments/

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理

指定GPU运行和训练python程序、深度学习单卡、多卡训练GPU设置【一文读懂】

此次博文内容难以以偏概全，如有不恰当的地方，欢迎评论区批评指正对于即将入行计算机视觉的小伙伴，墨理这里推荐收藏的干货博文目前如下 ❤️ 深度学习模型训练基础环境搭建相关教程————认真帮大家整理了 🚀🚀 墨理学AI 🎉 作为全网 AI 领域干货最多的博主之一，❤️ 不负光阴不负卿

开发者 > 博客

作者：墨理学AI

发表时间： 2022-01-09 06:31:22

1451

0

作者： Tianyi_Li

发表时间： 2022-07-16 13:54:35

2432

0

《Java 与 Deeplearning4j：开启深度学习高效训练之旅》

深度学习的分布式训练与集合通信（二）

腾讯医疗AI深度学习预训练模型MedicalNet

训练作业运行失败排查指导 - AI开发平台ModelArts

平台概述

平台介绍

平台介绍

如何基于ModelArts实现最快最普惠的深度学习训练？

预训练 - AI开发平台ModelArts

创建训练任务 - AI开发平台ModelArts

平台介绍

训练作业运行失败 - AI开发平台ModelArts

深度学习的分布式训练与集合通信（一）

查询训练作业版本列表 - AI开发平台ModelArts

《深入理解AutoML和AutoDL：构建自动化机器学习与深度学习平台》

创建训练实验 - AI开发平台ModelArts

指定GPU运行和训练python程序、深度学习单卡、多卡训练GPU设置【一文读懂】

开发用于预置框架训练的代码 - AI开发平台ModelArts

创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

【CANN训练营】基于昇腾CANN平台的AI CPU算子开发

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线