搜索_华为云

SFT全参微调训练 - AI开发平台ModelArts

Face权重（可与tokenizer相同文件夹）时，对应的存放地址。请根据实际规划修改。 TOKENIZER_PATH /home/ma-user/work/tokenizers/llama-2-13b-chat-hf 该参数为tokenizer文件的存放地址。默认与ORIGINAL_HF_WEIGH

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.910）
训练作业找不到GPU - AI开发平台ModelArts

训练作业找不到GPU 问题现象训练作业运行出现如下报错： failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected 原因分析根据错误信息判断，报错原因为训练作业运行程序读取不到GPU。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

支持。 ModelArts Lite资源池对应的CCE集群需要安装1.10.12及以上版本的华为云版Volcano插件。Volcano调度器的安装升级请参见Volcano调度器。仅华为云版Volcano插件支持开启路由加速特性。训练使用的Python版本是3.7或3.9，否则无法实现ranktable路由加速。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
示例：从 0 到 1 制作自定义镜像并用于训练（Pytorch+CPU/GPU） - AI开发平台ModelArts

Step4 制作自定义镜像 Step5 上传镜像至SWR服务 Step6 在ModelArts上创建训练作业前提条件已注册华为账号并开通华为云，且在使用ModelArts前检查账号状态，账号不能处于欠费或冻结状态。 Step1 创建OBS桶和文件夹在OBS服务中创建桶和文件夹，

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
在ModelArts Standard上运行GPU单机单卡训练任务 - AI开发平台ModelArts

登录指令末尾的域名为镜像仓库地址，请记录该地址，后面会使用到。在安装容器引擎的机器中执行上一步复制的登录指令。登录成功会显示“Login Succeeded”。在安装容器引擎的机器上执行如下命令，为镜像打标签。 docker tag [镜像名称1:版本名称1] [镜像仓库地址]/[组织名称]/[镜像名称2:版本名称2]

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练任务
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

程，再开始操作购买Cluster资源。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。购买专属资源池注意事项使用场景需要选择ModelArts

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 准备工作
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败问题现象在A系列GPU裸金属服务器上，系统环境是ubuntu20.04+nvidia515+cuda11.7，使用Pytorch2.0时出现如下错误： CUDA

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

Face权重（可与tokenizer相同文件夹）时，对应的存放地址。请根据实际规划修改。 TOKENIZER_PATH /home/ma-user/work/tokenizers/llama-2-13b-chat-hf 可添加。该参数为tokenizer文件的存放地址。默认与ORIGINAL_HF_WEI

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

Face权重（可与tokenizer相同文件夹）时，对应的存放地址。请根据实际规划修改。 TOKENIZER_PATH /home/ma-user/work/tokenizers/llama-2-13b-chat-hf 该参数为tokenizer文件的存放地址。默认与ORIGINAL_HF_WEIGHT路径相同。若用户需要将Hugging

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

Face权重（可与tokenizer相同文件夹）时，对应的存放地址。请根据实际规划修改。 TOKENIZER_PATH /home/ma-user/work/tokenizers/llama-2-13b-chat-hf 可添加。该参数为tokenizer文件的存放地址。默认与ORIGINAL_HF_WEI

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.910）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

Face权重（可与tokenizer相同文件夹）时，对应的存放地址。请根据实际规划修改。 TOKENIZER_PATH /home/ma-user/work/tokenizers/llama-2-13b-chat-hf 可添加。该参数为tokenizer文件的存放地址。默认与ORIGINAL_HF_WEI

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909）
Notebook的自定义镜像制作方法 - AI开发平台ModelArts

> 注册镜像”，进入“注册镜像”页面。根据界面提示填写相关信息，然后单击“立即注册”。 “镜像源”选择构建好的镜像。可直接复制完整的SWR地址，或单击选择SWR构建好的镜像进行注册。图2 选择镜像源 “架构”和“类型”：根据自定义镜像的实际框架选择。注册后的镜像会显示在ModelArts“镜像管理”页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
Lite Server - AI开发平台ModelArts
Lite Server - AI开发平台ModelArts

Lite Server GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？如何将Ubuntu20.04内核版本从低版本升级至5.4.0-144-generic？如何禁止Ubuntu 20.04内核自动升级？

帮助中心 > AI开发平台ModelArts > 常见问题
Wav2Lip推理基于DevServer适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

907-xxx.zip 说明：包名中的xxx表示具体的时间戳，以包名的实际时间为准。获取路径：Support-E 说明：如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。基础镜像西南-贵阳一： swr.cn-southwest-2

帮助中心 > AI开发平台ModelArts > 最佳实践 > 数字人模型训练推理
终止训练作业 - AI开发平台ModelArts

SSH连接地址信息。表51 TaskUrls 参数参数类型描述 task String 训练作业的任务ID。 url String 训练作业SSH连接地址。表52 JupyterLab 参数参数类型描述 url String 训练作业的JupyterLab地址。 token

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
自动学习为什么训练失败？ - AI开发平台ModelArts

当自动学习项目训练失败时，请根据如下步骤排除问题。进入当前账号的费用中心，检查是否欠费。是，建议您参考华为云账户充值，为您的账号充值。否，执行2。检查存储图片数据的OBS路径。是否满足如下要求：此OBS目录下未存放其他文件夹。文件名称中无特殊字符，如~`@#$%^&*{}[]:;+=<>/

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习 > 模型训练
分离部署推理服务 - AI开发平台ModelArts

json文件，其中xx表示当前实例的IP地址，yy表示当前实例使用的device_id信息；当实例类型为服务入口实例，local rank_table配置local_ranktable_xx_host.json文件，其中xx表示当前实例的IP地址。 NODE_PORTS：仅在服务入口

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
分离部署推理服务 - AI开发平台ModelArts

json文件，其中xx表示当前实例的IP地址，yy表示当前实例使用的device_id信息；当实例类型为服务入口实例，local rank_table配置local_ranktable_xx_host.json文件，其中xx表示当前实例的IP地址。 NODE_PORTS：仅在服务入口

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed 问题现象弹性文件服务（Scalable File Service，SFS）提供按需扩展的高性能文件存储（NAS），可以在裸金属服务器中通过网络协议挂载使用，SFS支持NFS

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
在Notebook中通过镜像保存功能制作自定义镜像用于推理 - AI开发平台ModelArts

本文详细介绍如何将本地已经制作好的模型包导入ModelArts的开发环境Notebook中进行调试和保存，然后将保存后的镜像部署到推理。本案例仅适用于华为云北京四和上海一站点。操作流程如下： Step1 在Notebook中复制模型包 Step2 在Notebook中调试模型 Step3 Notebook中保存镜像

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于推理

总条数： 1410

上一页
1
...
17
18
19
...
71
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

SFT全参微调训练 - AI开发平台ModelArts

训练作业找不到GPU - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

示例：从 0 到 1 制作自定义镜像并用于训练（Pytorch+CPU/GPU） - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机单卡训练任务 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

Notebook的自定义镜像制作方法 - AI开发平台ModelArts

Lite Server - AI开发平台ModelArts

Wav2Lip推理基于DevServer适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

终止训练作业 - AI开发平台ModelArts

自动学习为什么训练失败？ - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

在Notebook中通过镜像保存功能制作自定义镜像用于推理 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线