搜索_华为云

Finetune训练 - AI开发平台ModelArts

Finetune训练服务使用ma-user用户执行如下命令运行训练脚本。 sh diffusers_sdxl_finetune_train.sh 训练执行脚本中配置了保存checkpoint的频率，每500steps保存一次，如果磁盘空间较小，这个值可以改大到5000，避免磁盘空间写满，导致训练失败终止。

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
SFT全参微调训练任务 - AI开发平台ModelArts

训练的数据集预处理说明。 Step2 修改训练超参配置以Llama2-70b和Llama2-13b的SFT微调为例，执行脚本为0_pl_sft_70b.sh 和 0_pl_sft_13b.sh 。修改模型训练脚本中的超参配置，必须修改的参数如表1所示。其他超参均有默认值，可以参考表1按照实际需求修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907）
查询指定节点池详情 - AI开发平台ModelArts

objects 资源标签，非特权池不能指定。 network NodeNetwork object 网络配置，非特权池不能指定。 extendParams Map<String,String> 自定义配置，比如设置节点dockerSize："extendParams": {"dockerBaseSize":

帮助中心 > AI开发平台ModelArts > API参考 > 节点池管理
设置训练故障优雅退出 - AI开发平台ModelArts

在数据并行场景下，也是类似的流程，只是更为简单，无需生成并行策略文件和策略恢复文件，只要保存和加载临终ckpt文件即可。特性使用操作安装优雅退出二进制包通过ma_pre_start.sh安装whl包。 echo "[ma-pre-start] Enter the input directory" c

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
日志提示“ Network is unreachable” - AI开发平台ModelArts

在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题：外网访问限制

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 外网访问限制
托管模型到AI Gallery - AI开发平台ModelArts

Gallery，单击右上角“我的Gallery”进入我的Gallery页面。单击左上方“创建资产”，选择“模型”。在“创建模型”弹窗中配置参数，单击“创建”。表1 创建模型参数名称说明英文名称必填项，模型的英文名称。如果没有填写“中文名称”，则资产发布后，在模型页签上会显示该“英文名称”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型
使用moxing适配OBS路径，pandas读取文件报错 - AI开发平台ModelArts

在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题：云上迁移适配故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
查询节点池列表 - AI开发平台ModelArts

objects 资源标签，非特权池不能指定。 network NodeNetwork object 网络配置，非特权池不能指定。 extendParams Map<String,String> 自定义配置，比如设置节点dockerSize："extendParams": {"dockerBaseSize":

帮助中心 > AI开发平台ModelArts > API参考 > 节点池管理
日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” - AI开发平台ModelArts

在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
构造请求 - AI开发平台ModelArts
构造请求 - AI开发平台ModelArts

"cn-north-1" } } } } 到这里为止这个请求需要的内容就具备齐全了，您可以使用curl、Postman或直接编写代码等方式发送请求调用API。对于获取用户Token接口，返回的响应消息头中“x-subject-token”的值，就是需要获取的用户Token。有

 帮助中心 > AI开发平台ModelArts > API参考 > 如何调用API
日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题： GPU相关问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题： GPU相关问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
预训练任务 - AI开发平台ModelArts

据集预处理说明。步骤二修改训练超参配置以 llama2-70b 和 llama2-13b 预训练为例，执行脚本为 0_pl_pretrain_70b.sh 和 0_pl_pretrain_13b.sh 。修改模型训练脚本中的超参配置，必须修改的参数如表1所示。其他超参均

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909）
执行LoRA微调训练任务 - AI开发平台ModelArts

训练的数据集预处理说明。 Step2 修改训练超参配置以Llama2-70b和Llama2-13b的LoRA微调为例，执行脚本为0_pl_lora_70b.sh和0_pl_lora_13b.sh 。修改模型训练脚本中的超参配置，必须修改的参数如表1所示。其他超参均有默认值，可以参考表1按照实际需求修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908）
查看Notebook实例事件 - AI开发平台ModelArts

write permissions to {conda_path}）重要 ConfigurationError conda命令不可用导致配置modelarts sdk和ma-cli路径到conda env失败（The modelarts sdk and cli is unavailable

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
Open-Sora 1.0基于DevServer适配PyTorch NPU训练指导（6.3.905） - AI开发平台ModelArts

如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查是否安装docker。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
连接远端开发环境时，一直处于"Setting up SSH Host xxx: Copying VS Code Server to host with scp"超过10分钟以上，如何解决？ - AI开发平台ModelArts

ommit编号 ll 如果出现如图2，则表示远端已上传，则执行2。反之，如果显示0KB，则表示远端未上传。请参考Notebook如何离线安装VS Code Server离线下载VS Code插件后，再执行2。图2 远端已上传关闭VS Code所有窗口，回到ModelArts

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
查询数据处理任务的版本列表 - AI开发平台ModelArts

String 指定查询的排序顺序。可选值如下： asc：递增排序 desc：递减排序（默认值） sort_by 否 String 指定查询的排序方式。可选值如下： create_time：按创建时间排序（默认值） version_name：按任务版本名称排序请求参数无响应参数状态码：

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
增量模型训练 - AI开发平台ModelArts

heckpoint文件下载到训练容器的本地目录。图1 训练输出设置 PyTorch版reload ckpt PyTorch模型保存有两种方式。仅保存模型参数 state_dict = model.state_dict() torch.save(state_dict, path)

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
模型训练存储加速 - AI开发平台ModelArts

在超参或者环境变量中设置checkpoint和数据的挂载路径训练存储加速的代码样例（PyTorch版reload ckpt） PyTorch模型保存有两种方式。仅保存模型参数 state_dict = model.state_dict() torch.save(state_dict, path)

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型

总条数： 1355

上一页
1
...
63
64
65
...
68
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Finetune训练 - AI开发平台ModelArts

SFT全参微调训练任务 - AI开发平台ModelArts

查询指定节点池详情 - AI开发平台ModelArts

设置训练故障优雅退出 - AI开发平台ModelArts

日志提示“ Network is unreachable” - AI开发平台ModelArts

托管模型到AI Gallery - AI开发平台ModelArts

使用moxing适配OBS路径，pandas读取文件报错 - AI开发平台ModelArts

查询节点池列表 - AI开发平台ModelArts

日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” - AI开发平台ModelArts

构造请求 - AI开发平台ModelArts

日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

执行LoRA微调训练任务 - AI开发平台ModelArts

查看Notebook实例事件 - AI开发平台ModelArts

Open-Sora 1.0基于DevServer适配PyTorch NPU训练指导（6.3.905） - AI开发平台ModelArts

连接远端开发环境时，一直处于"Setting up SSH Host xxx: Copying VS Code Server to host with scp"超过10分钟以上，如何解决？ - AI开发平台ModelArts

查询数据处理任务的版本列表 - AI开发平台ModelArts

增量模型训练 - AI开发平台ModelArts

模型训练存储加速 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线