搜索_华为云

查看日志和性能 - AI开发平台ModelArts

况。吞吐量（tokens/s/p）：可通过表1表格中output_dir参数值路径下的train_results.json查看性能。吞吐计算公式为"num_input_tokens_seen / train_runtime / 训练卡数"。相关参数可查看表1。 loss收敛情况：日志里存在lm

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908）
训练作业进程异常退出 - AI开发平台ModelArts

请排查安装包的版本，可能存在包冲突的问题。排查办法根据错误信息判断，报错原因来源于用户代码。您可以通过以下两种方式排查：线上环境调试代码（仅适用于非分布式代码）在开发环境（notebook）申请相同规格的开发环境实例。在notebook调试用户代码，并找出问题的代码段。通过关键代码段 +

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
BF16和FP16说明 - AI开发平台ModelArts

时有优势，能够避免在训练过程中数值的上溢或下溢，从而提供更好的稳定性和可靠性，在大模型训练和推理以及权重存储方面更受欢迎。 FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
从0制作自定义镜像用于创建训练作业（Tensorflow+GPU） - AI开发平台ModelArts

nsorflow/code/” 用于存储训练脚本文件。 “obs://test-modelarts/tensorflow/data/” 用于存储数据集文件。 “obs://test-modelarts/tensorflow/log/” 用于存储训练日志文件。 Step2 创建数据集并上传至OBS

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
1个节点的专属资源池，能否部署多个服务？ - AI开发平台ModelArts

1个节点的专属资源池，能否部署多个服务？支持。在部署服务时，选择专属资源池，在选择“计算节点规格”时选择“自定义规格”，设置小一些或者选择小规格的服务节点规格，当资源池节点可以容纳多个服务节点规格时，就可以部署多个服务。如果使用此方式进行部署推理，选择的规格务必满足模型的要求

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard资源池
训练日志失败分析 - AI开发平台ModelArts

训练故障识别 ModelArts Standard会对部分常见训练错误给出分析建议，目前还不能识别所有错误，提供的失败可能原因仅供参考。针对分布式作业，只会显示当前节点的一个分析结果，作业的失败需要综合各个节点的失败原因做一个综合判断。常见训练问题定位思路如下：根据日志界面提示中提供的分析建议解决。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
内存不足如何处理？ - AI开发平台ModelArts

部署或升级时出现该提示，可能原因是选择的计算节点规格内存太小，无法满足应用部署，请增大内存规格。运行中服务告警中出现该提示，可能代码有问题导致内存溢出或者业务使用量太大导致内存需求增多。处理方法在部署或升级在线服务时，选择更大内存规格的计算节点。图3 选择计算节点规格运行中服务出现告

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

置等步骤，可根据默认选择，或进行自定义。创建完成后，单击“远程登录”，后续安装Docker等操作均在该ECS上进行。注意：CPU架构必须选择鲲鹏计算，镜像推荐选择EulerOS。图1 购买ECS 创建镜像组织。在SWR服务页面创建镜像组织。图2 创建镜像组织安装Docker。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 准备工作
如何对OBS的文件重命名？ - AI开发平台ModelArts

rename('obs://bucket_name/obs_file.txt', 'obs://bucket_name/obs_file_2.txt') 父主题：数据存储

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 数据存储
在JupyterLab中使用MindInsight可视化作业 - AI开发平台ModelArts

试算法，主要目的是验证算法收敛性、检查是否有训练过程中的问题，方便用户调测。 MindInsight能可视化展现出训练过程中的标量、图像、计算图以及模型超参等信息，同时提供训练看板、模型溯源、数据溯源、性能调试等功能，帮助您更高效地训练调试模型。MindInsight当前支持基于

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
ModelArts - AI开发平台ModelArts
ModelArts - AI开发平台ModelArts

达、非洲-约翰内斯堡、拉美-墨西哥城二、拉美-圣保罗一、拉美-圣地亚哥部署为在线服务批量服务批量服务适用于处理大量数据推理、高效分布式计算场景。批量服务可对批量数据进行推理，完成数据处理后自动停止。发布区域：华北-北京一、华北-北京四、华东-上海一、华南-广州、中国-香港

 帮助中心 > AI开发平台ModelArts > 功能总览
示例：从 0 到 1 制作自定义镜像并用于训练（MPI+CPU/GPU） - AI开发平台ModelArts

准备一台Linux x86_64架构的主机，操作系统使用ubuntu-18.04。您可以准备相同规格的弹性云服务器ECS或者应用本地已有的主机进行自定义镜像的制作。购买ECS服务器的具体操作请参考购买并登录Linux弹性云服务器。“CPU架构”选择“x86计算”，“镜像”选择“公共镜像”，推荐使用Ubuntu18

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
获取训练作业日志的文件名 - AI开发平台ModelArts

调用失败时的错误码，具体请参见错误码。调用成功时无此字段。 log_file_list String 训练作业的日志文件名。单机作业日志仅有一个文件，分布式作业日志有多个文件。请求示例如下以获取“job_id”为10，“version_id”为10的作业日志文件为例。 GET htt

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
查看训练作业日志 - AI开发平台ModelArts

id取值为0~7；Ascend规格为 1*Snt9时，device id取值为0。 rank id为本次训练作业的全局NPU卡编号，取值为0~计算节点数*卡数-1，单个计算节点下，rank id与device id取值相同。样例： modelarts-job-95f661bd-1527-41b8

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
AI开发基本流程介绍 - AI开发平台ModelArts

中处理并进行提炼，从而总结得到研究对象的内在规律。对数据进行分析，一般通过使用适当的统计、机器学习、深度学习等方法，对收集的大量数据进行计算、分析、汇总和整理，以求最大化地开发数据价值，发挥数据作用。 AI开发的基本流程 AI开发的基本流程通常可以归纳为几个步骤：确定目的、准备数据、训练模型、评估模型、部署模型。

帮助中心 > AI开发平台ModelArts > 产品介绍 > AI开发基础知识
ModelArts的SDK支持哪些安装环境？ - AI开发平台ModelArts

ModelArts的SDK支持哪些安装环境？ ModelArts的SDK支持在Notebook或本地环境中使用，但是不同环境下的不同架构，支持情况不同，如表1所示。表1 SDK安装环境开发环境架构是否支持 Notebook ARM 是 X86 是本地环境 ARM 否 X86 是父主题： API/SDK

帮助中心 > AI开发平台ModelArts > 常见问题 > API/SDK
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

适配的CANN版本是cann_8.0.rc2，驱动版本是23.0.5。本文档适用于OBS+SFS Turbo的数据存储方案，不适用于仅使用OBS的存储方案。通过OBS对象存储服务（Object Storage Service）与SFS Turbo文件系统联动，可以实现数据灵活管理、高

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）
数据管理计费项 - AI开发平台ModelArts

任务时，不收费。但是存储到OBS中的数据会收取费用。具体内容如表1所示。表1 存储计费项计费项计费项说明适用的计费模式计费公式存储资源对象存储OBS 用于存储训练和推理的输入数据和输出结果数据。具体费用可参见对象存储价格详情。注意：存储到OBS中的数据需在OB

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
在Notebook中，如何访问其他账号的OBS桶？ - AI开发平台ModelArts

在Notebook中，如何访问其他账号的OBS桶？创建Notebook时选择OBS存储，这种情况下只能访问到自己账号下的桶，无法访问到其他账号的OBS桶。如果需要在Notebook中，访问其他账号的OBS文件，前提是，需获取目标OBS桶的读写权限。首先，请联系OBS桶的创建

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 数据存储
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本方案目前仅适用于部分企业客户，完成本方案的部署，需要先联系您所在企业的华为方技术支持。本文档适用于OBS+SFS Turbo的数据存储方案，不适用于仅使用OBS的存储方案。通过OBS对象存储服务（Object Storage Service）与SFS Turbo文件系统联动，可以实现数据灵活管理、高

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908）

总条数： 721

上一页
1
...
9
10
11
...
37
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查看日志和性能 - AI开发平台ModelArts

训练作业进程异常退出 - AI开发平台ModelArts

BF16和FP16说明 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（Tensorflow+GPU） - AI开发平台ModelArts

1个节点的专属资源池，能否部署多个服务？ - AI开发平台ModelArts

训练日志失败分析 - AI开发平台ModelArts

内存不足如何处理？ - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

如何对OBS的文件重命名？ - AI开发平台ModelArts

在JupyterLab中使用MindInsight可视化作业 - AI开发平台ModelArts

ModelArts - AI开发平台ModelArts

示例：从 0 到 1 制作自定义镜像并用于训练（MPI+CPU/GPU） - AI开发平台ModelArts

获取训练作业日志的文件名 - AI开发平台ModelArts

查看训练作业日志 - AI开发平台ModelArts

AI开发基本流程介绍 - AI开发平台ModelArts

ModelArts的SDK支持哪些安装环境？ - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

数据管理计费项 - AI开发平台ModelArts

在Notebook中，如何访问其他账号的OBS桶？ - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线