搜索_华为云

ModelArts最佳实践案例列表 - AI开发平台ModelArts

预测。从0制作自定义镜像并用于训练（PyTorch+CPU/GPU） PyTorch 镜像制作自定义镜像训练 - 此案例介绍如何从0到1制作镜像，并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是PyTorch，训练使用的资源是CPU或GPU。从0制作自

 帮助中心 > AI开发平台ModelArts > 最佳实践
Standard镜像相关 - AI开发平台ModelArts

Standard镜像相关不在同一个主账号下，如何使用他人的自定义镜像创建Notebook？如何登录并上传镜像到SWR？在Dockerfile中如何给镜像设置环境变量？如何通过docker镜像启动容器？如何在ModelArts的Notebook中配置Conda源？ Mod

帮助中心 > AI开发平台ModelArts > 常见问题
各个模型深度学习训练加速框架的选择 - AI开发平台ModelArts

LlamaFactory框架使用两种训练框架： DeepSpeed和Accelerate都是针对深度学习训练加速的工具，但是它们的实现方式和应用场景有所不同。 DeepSpeed是一种深度学习加速框架，主要针对大规模模型和大规模数据集的训练。DeepSpeed的核心思想是在单个GPU

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
Ascend-vLLM介绍 - AI开发平台ModelArts

模型：结构实现和社区一致，Huggingface模型开箱即用，同时可以快速适配新模型。调用：提供高性能算子下发和图模式两种方案，兼顾性能和灵活性。特性：服务调度、特性实现和社区一致，针对昇腾硬件做亲和替换和优化。接口：离线SDK、在线OpenAI Server和社区完全一致，无缝迁移。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912）
AIGC工具tailor使用指导 - AI开发平台ModelArts

%7C22892968%7C251168373 请下载toolkit和对应机器的kernels包，以Snt9B为例则下载“Ascend-cann-toolkit_7.0.0_linux-aarch64.run”和“Ascend-cann-kernels-型号_7.0.0_linux

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
审计与日志 - AI开发平台ModelArts

务，提供对各种云资源操作记录的收集、存储和查询功能，可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。用户开通云审计服务并创建和配置追踪任务后，CTS可记录ModelArts的管理事件和数据事件用于审计。 CTS的详细介绍和开通配置方法，请参见CTS快速入门。 C

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
msprobe精度分析工具使用指导 - AI开发平台ModelArts

msprobe是MindStudio Training Tools工具链下精度调试部分的工具包，其通过采集和对比标杆（GPU/CPU）环境和昇腾环境上运行训练时的差异点来判断问题所在，主要包括精度预检、精度比对和梯度监控等功能。更多内容请参考msprobe工具介绍。一般场景的训练模型都是包括随机种

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
发布Notebook - AI开发平台ModelArts

资产的公开权限和版本信息暂不支持修改。修改封面图和二级标题在发布的资产详情页面，单击右侧的“编辑”，选择上传新的封面图，为资产编辑独特的主副标题。编辑完成之后单击“保存”，封面图和二级标题内容自动同步，您可以直接在资产详情页查看修改结果。图4 修改封面图和二级标题编辑标签

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 发布分享
GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

器翻译和对话系统等。 DeepSpeed是开源的加速深度学习训练的库。它针对大规模的模型和分布式训练进行了优化，可以显著提高训练速度和效率。DeepSpeed提供了各种技术和优化策略，包括分布式梯度下降、模型并行化、梯度累积和动态精度缩放等。它还支持优化大模型的内存使用和计算资源分配。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源使用
使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

事项： nvidia-fabricmanager版本号必须和nvidia-driver版本号保持一致，可参考安装nvidia-fabricmanager方法。 NCCL必须和CUDA版本相匹配，可单击此处可查看配套关系和安装方法。使用该裸金属服务器制作自定义镜像时，必须清除残留文件，请参考清理文件。

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
使用DCGM监控Lite Server资源 - AI开发平台ModelArts

Server上配置DCGM监控，用于监控Lite Server上的GPU资源。 DCGM是用于管理和监控基于Linux系统的NVIDIA GPU大规模集群的一体化工具，提供多种能力，包括主动健康监控、诊断、系统验证、策略、电源和时钟管理、配置管理和审计等。约束限制仅适用于GPU资源监控。前提条件裸金属服务

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码本教程中用到的训练推理代码和如下表所示，请提前准备好。获取模型软件包和权重文件本方案支持的模型对应的软件和依赖包获取地址如表1所示，模型列表、对应的开源权重获取地址如表2所示。表1 模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907） > 准备工作
自动模型优化介绍 - AI开发平台ModelArts

TPE算法模拟退火算法（Anneal）贝叶斯优化（SMAC）贝叶斯优化假设超参和目标函数存在一个函数关系。基于已搜索超参的评估值，通过高斯过程回归来估计其他搜索点处目标函数值的均值和方差。根据均值和方差构造采集函数（Acquisition Function），下一个搜索点为采集

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 自动模型优化（AutoSearch）
创建AI应用 - AI开发平台ModelArts

来源训练作业的ID，模型是从训练作业产生的可填写，用于溯源；如模型是从第三方元模型导入，则为空。默认值为空。非模板参数 model_type 是 String 模型类型，取值为TensorFlow/Image/PyTorch/Template/MindSpore，从配置文件读取。公共参数

 帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
开发环境计费项 - AI开发平台ModelArts

k实例时，会使用计算资源和存储资源，会产生计算资源和存储资源的累计值计费。具体内容如表1所示。 Notebook实例停止运行时，EVS还会持续计费，需及时删除才能停止EVS计费。计算资源费用：如果运行Notebook实例时，使用专属资源池进行模型训练和推理，计算资源不计费。

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

不同AI模型训练所需要的数据量和算力不同，在训练时选择合适的存储及训练方案可提升模型训练效率与资源性价比。ModelArts Standard支持单机单卡、单机多卡和多机多卡的训练场景，满足不同AI模型训练的要求。 ModelArts Standard提供了公共资源池和专属资源池，专属资源

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
查看诊断报告 - AI开发平台ModelArts

rank，用于分析计算和任务下发的快慢卡)和集群带宽统计数值(slow link，用于分析集群中的网络通信慢链路)。点开slow rank模块，html中会基于表格展示每张卡不同step的计算耗时、通信耗时和空闲耗时。基于该表格，通常关注计算耗时(compute)和空闲耗时(free

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
发布数据 - AI开发平台ModelArts
发布数据 - AI开发平台ModelArts

“描述”、“版本”和“限制”等信息。修改封面图和二级标题在发布的资产详情页面，单击右侧的“编辑”，选择上传新的封面图，为资产编辑独特的主副标题。编辑完成之后单击“保存”。封面图和二级标题内容自动同步，您可以直接在资产详情页查看修改结果。图3 修改封面图和二级标题编辑许可证类型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 发布分享
语言模型推理性能测试 - AI开发平台ModelArts

静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动，且输入输出长度也在一定范围内变化时，模型的延迟和吞吐。该场景能模拟实际业务下动态的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务性能评测
训练网络迁移总结 - AI开发平台ModelArts

好的对比标杆。如果是NPU上全新开发的网络，请参考PyTorch迁移精度调优排查溢出和精度问题。理解GPU和NPU的构造以及运行的差别，有助于在迁移过程中分析问题并发挥NPU的优势。由于构造和运行机制的差别，整个迁移过程并非是完全平替，GPU在灵活性上有其独特的优势，而NPU上

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导

总条数： 1891

上一页
1
...
21
22
23
...
95
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

ModelArts最佳实践案例列表 - AI开发平台ModelArts

Standard镜像相关 - AI开发平台ModelArts

各个模型深度学习训练加速框架的选择 - AI开发平台ModelArts

Ascend-vLLM介绍 - AI开发平台ModelArts

AIGC工具tailor使用指导 - AI开发平台ModelArts

审计与日志 - AI开发平台ModelArts

msprobe精度分析工具使用指导 - AI开发平台ModelArts

发布Notebook - AI开发平台ModelArts

GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

自动模型优化介绍 - AI开发平台ModelArts

创建AI应用 - AI开发平台ModelArts

开发环境计费项 - AI开发平台ModelArts

在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

查看诊断报告 - AI开发平台ModelArts

发布数据 - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

训练网络迁移总结 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线