搜索_华为云

查询训练日志 - AI开发平台ModelArts

描述 session 是 Object 会话对象，初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id，可通过创建训练作业生成的训练作业对象查询，如"job_instance.job_id"，或从查询训练作业列表的响应中获得。表2 get_job_log请求参数说明

 帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

nvidia-fabricmanager.service failed because the control process exited with error code 通过命令查看nvidia-fabricmanager的版本，发现nvidia-fabricmanager版本与当前NVIDIA驱动版本不一致。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
附录：大模型推理常见问题 - AI开发平台ModelArts

`rope_scaling` must be a dictionary with two fields, `type` and `factor`，解决方法：改问题通过将transformers升级到4.44.0，修改对应transformers中的transformers/models/llama/modeling_llama

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
附录：大模型推理常见问题 - AI开发平台ModelArts

`rope_scaling` must be a dictionary with two fields, `type` and `factor`，解决方法：改问题通过将transformers升级到4.44.0，修改对应transformers中的transformers/models/llama/modeling_llama

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908）
自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

件“authorized_keys config id_rsa id_rsa.pub”。提交创建训练作业后，训练过程中，训练作业的节点可通过域名+端口的方式SSH连接到其他节点，示例代码如下所示： ssh modelarts-job-a0978141-1712-4f9b-8a8

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
设置无条件自动重启 - AI开发平台ModelArts

则表示仅环境问题导致训练作业异常时才会自动重启，其他问题导致训练作业异常时会直接返回“运行失败”。图1 开启无条件重启 API接口设置通过API接口创建训练作业时，在“metadata”字段的“annotations”中传入“fault-tolerance/job-retry

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
训练的数据集预处理说明 - AI开发平台ModelArts

数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。输出数据预处理结果路径：训练完成后，以 llama2-13b 为例，输出数据路径为：/home/ma-u

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

${image_name} 为docker镜像的ID，在宿主机上可通过docker images查询得到。 --shm-size：表示共享内存，用于多进程间通信。由于需要转换较大内存的模型文件，因此大小要求200g及以上。通过容器名称进入容器中。启动容器时默认用户为ma-user用户。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.905） > 准备工作
读取文件报错，如何正确读取文件 - AI开发平台ModelArts

matching files for xxx://xxx 原因分析在ModelArts中，用户的数据都是存放在OBS桶中，而训练作业运行在容器中，无法通过访问本地路径的方式访问OBS桶中的文件。处理方法读取文件报错，您可以使用Moxing将数据复制至容器中，再直接访问容器中的数据。请参见步骤1。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
附录：大模型推理常见问题 - AI开发平台ModelArts

`rope_scaling` must be a dictionary with two fields, `type` and `factor`，解决方法：该问题通过将transformers升级到4.44.0，修改对应transformers中的transformers/models/llama/modeling_llama

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909）
附录：大模型推理常见问题 - AI开发平台ModelArts

`rope_scaling` must be a dictionary with two fields, `type` and `factor`，解决方法：改问题通过将transformers升级到4.44.0，修改对应transformers中的transformers/models/llama/modeling_llama

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
Wav2Lip推理基于DevServer适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

${container_name}：容器名称，进入容器时会用到，此处可以自己定义一个容器名称。 ${image_id}：镜像ID，通过docker images查看刚拉取的镜像ID。通过容器名称进入容器中。默认使用ma-user用户，后续所有操作步骤都在ma-user用户下执行。 docker exec

帮助中心 > AI开发平台ModelArts > 最佳实践 > 数字人模型训练推理
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

准备AscendSpeed训练代码。准备镜像准备训练模型适用的容器镜像。准备Notebook 本案例需要创建一个Notebook，以便能够通过它访问SFS Turbo服务。随后，通过Notebook将OBS中的数据上传至SFS Turbo，并对存储在SFS Turbo中的数据执行编辑操作。预训练预训练

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909）
准备镜像环境 - AI开发平台ModelArts

不要将多个容器绑到同一个NPU上，会导致后续的容器无法正常使用NPU功能。 ${image_name} 为docker镜像的ID，在宿主机上可通过docker images查询得到。 --shm-size：表示共享内存，用于多进程间通信。由于需要转换较大内存的模型文件，因此大小要求200g及以上。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 准备工作
训练的数据集预处理说明 - AI开发平台ModelArts

数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。输出数据预处理结果路径：训练完成后，以 llama2-13b 为例，输出数据路径为：/home/ma-u

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
AI开发基本概念 - AI开发平台ModelArts

、产品生命周期分析、销售趋势预测及有针对性的促销活动等。分类分类是找出一组数据对象的共同特点并按照分类模式将其划分为不同的类，其目的是通过分类模型，将数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等。聚类聚类是

 帮助中心 > AI开发平台ModelArts > 产品介绍 > AI开发基础知识
yaml配置文件参数配置说明 - AI开发平台ModelArts

config.json 可选项。用于指定DeepSpeed的配置文件相对或绝对路径。DeepSpeed是一个开源库，用于加速深度学习训练。通过使用DeepSpeed，可以实现如混合精度训练、ZeRO内存优化等高级特性，以提高训练效率和性能 stage sft 表示训练类型。可选择

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
迁移评估 - AI开发平台ModelArts
迁移评估 - AI开发平台ModelArts

- 推理框架 TensorRT/Triton/MSLite等。例如： 2个推理模型使用TensorRT框架，5个使用Triton框架。通过stable-diffusion的WebUI提供AIGC推理服务。 - GPU卡的类型 Vnt1/Ant1/Ant03/Tnt004等。例如：

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
查询数据集列表 - AI开发平台ModelArts

dataset_name="dataset") print(dataset_list) 示例四：分页查询数据集列表 # 默认一次返回10条数据集记录，可通过设置limit和offset进行分页查询 dataset_list = Dataset.list_datasets(session, offset=0

帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > 数据集管理
动态挂载OBS - AI开发平台ModelArts

}/storage 表1 路径参数参数是否必选参数类型描述 instance_id 是 String Notebook实例ID，可通过调用查询Notebook实例列表接口获取。 project_id 是 String 用户项目ID，获取方法请参见获取项目ID和名称。请求参数

 帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理

总条数： 1255

上一页
1
...
47
48
49
...
63
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查询训练日志 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

设置无条件自动重启 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

读取文件报错，如何正确读取文件 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

Wav2Lip推理基于DevServer适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

AI开发基本概念 - AI开发平台ModelArts

yaml配置文件参数配置说明 - AI开发平台ModelArts

迁移评估 - AI开发平台ModelArts

查询数据集列表 - AI开发平台ModelArts

动态挂载OBS - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线