搜索_华为云

日志提示“No space left on device” - AI开发平台ModelArts

on device”。同一目录下创建较多文件，为了加快文件检索速度，内核会创建一个索引表，短时间内创建较多文件时，会导致索引表达到上限，进而报错。触发条件和下面的因素有关：文件名越长，文件数量的上限越小。 blocksize越小，文件数量的上限越小。（ blocksize，系统默认

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

该目录下主要放置性能、精度任务的yaml配置文件，包含性能基线、精度基线、训练最佳实践参数等，以上配置文件仅供参考。代码上传至OBS 本地完成代码包AscendCloud-LLM-xxx.zip的解压，将llm_train文件上传至OBS中。结合准备数据、准备权重、准备代码，将数据集、原始权重、代码文件都上传至OBS后，OBS桶的目录结构如下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
录制Profiling - AI开发平台ModelArts

Torch训练脚本中插入Ascend PyTorch Profiler接口，执行训练的同时采集性能数据，完成训练后直接输出可视化的性能数据文件，提升了性能分析效率。 Ascend PyTorch Profiler接口可全面采集PyTorch训练场景下的性能数据，主要包括PyTor

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
录制Profiling - AI开发平台ModelArts

Torch训练脚本中插入Ascend PyTorch Profiler接口，执行训练的同时采集性能数据，完成训练后直接输出可视化的性能数据文件，提升了性能分析效率。 Ascend PyTorch Profiler接口可全面采集PyTorch训练场景下的性能数据，主要包括PyTor

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
准备图像分类数据 - AI开发平台ModelArts

上传OBS的文件规范：文件名规范：不能有+、空格、制表符。如不需要提前上传训练数据，请创建一个空文件夹用于存放工程后期生成的文件。如：“/bucketName/data-cat”。如需要提前上传待标注的图片，请创建一个空文件夹，然后将图片文件保存在该文件夹下，图片的目录

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现图像分类
基本配置 - AI开发平台ModelArts
基本配置 - AI开发平台ModelArts

基本配置权限配置创建网络专属资源池VPC打通 ECS服务器挂载SFS Turbo存储在ECS中创建ma-user和ma-group obsutil安装和配置（可选）工作空间配置父主题：专属资源池训练

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

# config配置文件目录 |──config/ # 配置文件 |──deepspeed/ # deepspeed配置json文件 |──performance_cfgs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 准备工作
创建声音分类项目 - AI开发平台ModelArts

说明：只有北京四区域支持限时免费规格。如果您购买了套餐包，可优先选择您对应规格的套餐包，在“配置费用”处会显示您的套餐余量，以及超出的部分如何计费，请您关注，避免造成不必要的资源浪费。单击“创建项目”，声音分类项目创建成功后页面自动跳转到“自动学习工作流”。声音分类项目的工作流，将依次运行如下节点：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现声音分类
发布本地AI应用到AI Gallery - AI开发平台ModelArts

当AI应用的状态变为“待启动”时，表示创建完成。启动AI应用上传AI应用的运行文件“app.py”。在AI应用详情页，选择“应用文件”页签，单击“添加文件”，进入上传文件页面。运行文件的开发要求请参见准备AI应用运行文件app.py。上传单个超过5GB的文件时，请使用Gallery CLI工具。CLI工具的获取和使用请参见Gallery

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery中的AI应用
moondream2基于DevServer适配PyTorch NPU推理指导 - AI开发平台ModelArts

请参考DevServer资源开通，购买DevServer资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
创建物体检测项目 - AI开发平台ModelArts

说明：只有北京四区域支持限时免费规格。如果您购买了套餐包，可优先选择您对应规格的套餐包，在“配置费用”处会显示您的套餐余量，以及超出的部分如何计费，请您关注，避免造成不必要的资源浪费。单击“创建项目”，物体检测项目创建成功后页面自动跳转到“自动学习工作流”。物体检测项目的工作流，将依次运行如下节点：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现物体检测
创建文本分类项目 - AI开发平台ModelArts

说明：只有北京四区域支持限时免费规格。如果您购买了套餐包，可优先选择您对应规格的套餐包，在“配置费用”处会显示您的套餐余量，以及超出的部分如何计费，请您关注，避免造成不必要的资源浪费。单击“创建项目”，文本分类项目创建成功后页面自动跳转到“自动学习工作流”。文本分类项目的工作流，将依次运行如下节点：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现文本分类
使用预置镜像制作自定义镜像用于训练模型 - AI开发平台ModelArts

容器镜像选择上一步上传到SWR的镜像。代码目录必填，选择训练代码文件所在的OBS目录。需要提前将代码上传至OBS桶中，目录内文件总大小要小于或等于5GB，文件数要小于或等于1000个，文件深度要小于或等于32。训练代码文件会在训练作业启动的时候被系统自动下载到训练容器的“${MA_

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
在开发环境中部署本地服务进行调试 - AI开发平台ModelArts

部署开发环境本地服务Predictor，即将模型文件部署在开发环境中，其环境规格取决于开发环境资源规格；例如在一个modelarts.vm.cpu.2u的Notebook中，部署本地Predictor，其运行环境就是cpu.2u。部署在线服务Predictor，即将存储在OBS中的模型文件部署到线上服务管理

 帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
附录：训练常见问题 - AI开发平台ModelArts

错误的发生。 export PYTORCH_NPU_ALLOC_CONF = expandable_segments:True 将yaml文件中的per_device_train_batch_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
模型调试 - AI开发平台ModelArts
模型调试 - AI开发平台ModelArts

ssion鉴权。将自定义的推理文件和模型配置文件保存在训练生成的模型文件目录下。如训练生成的模型保存在“/home/ma-user/work/tensorflow_mlp_mnist_local_mode/train/model/”中，则推理文件“customize_service

帮助中心 > AI开发平台ModelArts > SDK参考 > 模型管理
离线训练安装包准备说明 - AI开发平台ModelArts

可遵循以下步骤操作。步骤一：资源下载 Python依赖包下载：进入 scripts/install.sh 文件中，找到需要安装的pip文件，如下列所示。直接下载pip文件，注意：下载要求的版本。 pip install numpy==1.22.0 \ t

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明参考
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

保存训练过程中记录的程序堆栈信息日志 PLOG 文件。示例中，默认保存在“saved_dir_for_output/plog”文件夹下。如果用户需要修改，可添加并自定义该变量。 SAVE_INTERVAL 10 表示训练间隔多少step，则会保存一次权重文件。 CONVERT_MG2HF TRUE

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）
AIGC工具tailor使用指导 - AI开发平台ModelArts

运行结果将存储在output文件夹中，如果用户指定了output_path，会指定位置保存，如果不指定则在当前代码执行目录生成文件夹保存输出。整体运行的结果都存放在output文件夹中，每转一次模型就会根据模型名称以及相关参数生成结果文件，如下图所示。图3 output文件在每次运行的结

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
训练作业使用MoXing复制数据较慢，重复打印日志 - AI开发平台ModelArts

重复打印日志，该日志表示正在读取远端存在的文件，当文件列表读取完成以后，开始下载数据。如果文件比较多，那么该过程会消耗较长时间。处理方法在创建训练作业时，数据可以保存到OBS上。不建议使用TensorFlow、MXNet、PyTorch的OBS接口直接从OBS上读取数据。如果文件较小，可以将OBS上的数据保存成“

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing

总条数： 1160

上一页
1
...
45
46
47
...
58
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

日志提示“No space left on device” - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

录制Profiling - AI开发平台ModelArts

录制Profiling - AI开发平台ModelArts

准备图像分类数据 - AI开发平台ModelArts

基本配置 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

创建声音分类项目 - AI开发平台ModelArts

发布本地AI应用到AI Gallery - AI开发平台ModelArts

moondream2基于DevServer适配PyTorch NPU推理指导 - AI开发平台ModelArts

创建物体检测项目 - AI开发平台ModelArts

创建文本分类项目 - AI开发平台ModelArts

使用预置镜像制作自定义镜像用于训练模型 - AI开发平台ModelArts

在开发环境中部署本地服务进行调试 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

模型调试 - AI开发平台ModelArts

离线训练安装包准备说明 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

AIGC工具tailor使用指导 - AI开发平台ModelArts

训练作业使用MoXing复制数据较慢，重复打印日志 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线