搜索_华为云

使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

更多Screen使用说明可参考Screen User's Manual。通过py-spy工具分析卡死进程的调用栈并结合代码分析定位卡死问题本文指导用户通过py-spy工具分析卡死进程的调用栈并结合代码分析定位卡死问题。在ModelArts Standard控制台，选择“模型训练>训练作业”。在训练作业详情页面，选择Cloud

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
InternVL2基于DevServer适配PyTorch NPU训练微调指导（6.3.908） - AI开发平台ModelArts

ma-user:ma-group ${container_work_dir} 此步骤可能需要密码或root权限 Step5 下载代码安装环境下载华为侧插件代码包AscendCloud-AIGC-6.3.908-xxx.zip文件，获取路径参见表1。 unzip AscendCloud-AIGC-6

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
通过APP认证的方式访问在线服务 - AI开发平台ModelArts

com/v1/infers/f2682******f42" url = "在线服务的调用地址" # 认证用的app_key和app_secret硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全; # 本示例以app_key和app

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将AI应用部署为实时推理作业 > 访问在线服务支持的认证方式
用户AK-SK认证模式 - AI开发平台ModelArts

用户AK-SK认证模式本模式支持OBS管理、训练管理、模型管理、服务管理模块的鉴权。示例代码 1 2 from modelarts.session import Session session = Session(access_key='***',secret_key='***'

帮助中心 > AI开发平台ModelArts > SDK参考 > Session鉴权
删除训练作业 - AI开发平台ModelArts

删除训练作业示例代码在ModelArts notebook平台，Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。方式一：根据指定的job_id删除。 from modelarts.session import Session from

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本教程案例是基于ModelArts Lite DevServer运行的，需要购买并开通DevServer资源。准备代码准备AscendSpeed训练代码、分词器Tokenizer和推理代码。准备数据准备训练数据，可以用本案使用的数据集，也可以使用自己准备的数据集。准备镜像准备训练模型适用的容器镜像。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
示例：从 0 到 1 制作自定义镜像并用于训练（Pytorch+CPU/GPU） - AI开发平台ModelArts

1” 代码目录：设置为OBS中存放启动脚本文件的目录，例如：“obs://test-modelarts/pytorch/demo-code/”，训练代码会被自动下载至训练容器的“${MA_JOB_DIR}/demo-code”目录中，“demo-code”为OBS存放代码路径的最后一级目录，可以根据实际修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
设置断点续训练 - AI开发平台ModelArts

当需要从训练中断的位置接续训练，只需要加载checkpoint，并用checkpoint信息初始化训练状态即可。用户需要在代码里加上reload ckpt的代码，使能读取前一次训练保存的预训练模型。 ModelArts Standard中如何实现断点续训练在ModelArts S

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
【下线公告】华为云ModelArts旧版自动学习下线公告 - AI开发平台ModelArts

8或950808）与我们联系。常见问题为什么要下线旧版自动学习？ ModelArts自动学习是帮助用户实现AI应用的低门槛、高灵活、零代码的定制化模型开发工具。ModelArts团队对自动学习模块进行了架构与前端页面的升级，新版自动学习已于2023年6月上线，并已作为主入口面

 帮助中心 > AI开发平台ModelArts > 服务公告 > 下线公告
推理服务测试 - AI开发平台ModelArts

推理服务测试推理服务在线测试支持文件、图片、json三种格式。通过部署为在线服务Predictor可以完成在线推理预测。示例代码在ModelArts notebook平台，Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。场景：部署在线服务Predictor的推理预测

 帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
训练作业使用MoXing拷贝数据较慢，重复打印日志 - AI开发平台ModelArts

如果文件较大，可以保存成多个“.tar”包，在入口脚本中调用多进程进行并行解压数据。不建议把散文件保存到OBS上，这样会导致下载数据很慢。在训练作业中，使用如下代码进行“.tar”包解压： import moxing as mox import os mox.file.copy_parallel("o

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
从0制作自定义镜像用于创建训练作业（PyTorch+CPU/GPU） - AI开发平台ModelArts

1” 代码目录：设置为OBS中存放启动脚本文件的目录，例如：“obs://test-modelarts/pytorch/demo-code/”，训练代码会被自动下载至训练容器的“${MA_JOB_DIR}/demo-code”目录中，“demo-code”为OBS存放代码路径的最后一级目录，可以根据实际修改。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
计算规格说明 - AI开发平台ModelArts

Gallery工具链服务，即服务不处于计费的状态中，则系统不会立即扣费，依然等到满1小时后再进行扣费，且基于当前1小时内的实际使用时长进行扣费。实际计费规则资源按时价扣费，真正计费的价格以实际账单为准。查看账单请参见账单介绍。用户在创建AI Gallery工具链服务选择付费资源

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

登录弹性文件服务SFS控制台，在SFS Turbo列表找到训练作业挂载的SFS Turbo，单击名称进入详情页。获取VPC信息、安全组信息和endpoint信息。 VPC信息：SFS Turbo详情页的“虚拟私有云”。安全组信息：SFS Turbo详情页的“安全组”。 endpoint信息：SFS Turbo详

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业
依赖和委托 - AI开发平台ModelArts

通过关联sfsturbo功能实现专属资源池和SFS Turbo资源打通。 SFS Turbo sfsturbo:shares:showShareNic sfsturbo:shares:listShareNics sfsturbo:shares:addShareNic sfsturbo:s

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 权限控制方式
更新训练作业描述 - AI开发平台ModelArts

更新训练作业描述示例代码在ModelArts notebook平台，Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。方式一：根据指定的job_id更新。 from modelarts.session import Session from

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
使用llm-compressor工具量化 - AI开发平台ModelArts

pip install -e . 修改examples/quantizing_moe/deepseek_moe_w8a8_int8.py中的代码： 1）若本地已有权重，请将MODEL_ID修改为权重路径； MODEL_ID = "deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct"

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
SD3 Diffusers框架基于DevServer适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

/etc/sysctl.conf sysctl -p | grep net.ipv4.ip_forward Step2 下载依赖代码包并上传到宿主机下载华为侧插件代码包AscendCloud-AIGC-6.3.907-xxx.zip文件，获取路径参见表1。本案例使用的是解压到子目录ai

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
准备镜像环境 - AI开发平台ModelArts

下载华为侧插件代码包AscendCloud-AIGC-6.3.908-xxx.zip文件，获取路径参见表1。本案例使用的是解压到子目录aigc_train->torch_npu->diffusers的所有文件，将diffusers整个目录上传到宿主机上。依赖的插件代码包、模型包和

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
增量模型训练 - AI开发平台ModelArts

当需要增加新的数据继续训练时，只需要加载Checkpoint，并用Checkpoint信息初始化训练状态即可。用户需要在代码里加上reload ckpt的代码，使能读取前一次训练保存的预训练模型。在ModelArts训练中实现增量训练，建议使用“训练输出”功能。在创建训练作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型

总条数： 1196

上一页
1
...
49
50
51
...
60
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

InternVL2基于DevServer适配PyTorch NPU训练微调指导（6.3.908） - AI开发平台ModelArts

通过APP认证的方式访问在线服务 - AI开发平台ModelArts

用户AK-SK认证模式 - AI开发平台ModelArts

删除训练作业 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

示例：从 0 到 1 制作自定义镜像并用于训练（Pytorch+CPU/GPU） - AI开发平台ModelArts

设置断点续训练 - AI开发平台ModelArts

【下线公告】华为云ModelArts旧版自动学习下线公告 - AI开发平台ModelArts

推理服务测试 - AI开发平台ModelArts

训练作业使用MoXing拷贝数据较慢，重复打印日志 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（PyTorch+CPU/GPU） - AI开发平台ModelArts

计算规格说明 - AI开发平台ModelArts

创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

依赖和委托 - AI开发平台ModelArts

更新训练作业描述 - AI开发平台ModelArts

使用llm-compressor工具量化 - AI开发平台ModelArts

SD3 Diffusers框架基于DevServer适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

增量模型训练 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线