搜索_华为云

在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

ch 1.8、ffmpeg 3和gcc 8，构建一个面向AI开发的新环境。主要流程如下图所示：图1 构建与调测镜像流程本案例适用于华为云-北京四Region。 Notebook自定义镜像规范制作自定义镜像时，Base镜像需满足如下规范：基于昇腾、Dockerhub官网等

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
tensorboard显示502 bad gateway - AI开发平台ModelArts

检查summary目录是否存在其他文件，如有请删除。检查summary目的文件是否过大（比如大于5GB），如果有请减小summary。父主题： OBS操作相关故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

查看专属池驱动创建OBS桶 ModelArts使用对象存储服务（Object Storage Service，简称OBS）存储输入输出数据、运行代码和模型文件，实现安全、高可靠和低成本的存储需求。因此，在使用ModelArts之前通常先创建一个OBS桶，然后在OBS桶中创建文件夹用于存放数据。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 准备工作
推理性能测试 - AI开发平台ModelArts

（request-rate参数）较高，会触发推理平台的流控，请在ModelArts Standard“在线服务”详情页修改服务流量限制。同步请求时，平台每次请求预测的时间不能超过60秒。例如输出数据比较大的调用请求（例如输出大于1k），请求预测会超过60秒导致调用失败，可提交工单设置请求超时时间。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
训练的数据集预处理说明 - AI开发平台ModelArts

方法一：用户可打开scripts/llama2/1_preprocess_data.sh脚本，将执行的python命令复制下来，修改环境变量的值。在Notebook进入到 /home/ma-user/work/llm_train/AscendSpeed/ModelLink 路径中，再执行python命令。方

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

gz"，需要替换为1中pytorch.tar.gz在OBS上的路径（需将文件设置为公共读）。进入Dockerfile目录，通过Dockerfile构建镜像命令： # cd 到Dockerfile所在目录下，输入构建命令 # docker build -t ${image_name}:${image_version}

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
编排Workflow - AI开发平台ModelArts

obs_config=wf.data.OBSOutputConfig(obs_path=output_storage.join("/train_output/")))], spec=wf.steps.JobSpec( resource=wf

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
Step3 为用户配置ModelArts的委托访问授权 - AI开发平台ModelArts

为用户配置ModelArts的委托访问授权配置完IAM权限之后，需要在ModelArts页面为子账号设置ModelArts访问授权，允许ModelArts访问OBS、SWR、IEF等依赖服务。此方式只允许主用户为子账号进行配置。因此，本示例中，管理员账号需为所有用户完成访问授权的配置。使用主用户的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践 > 配置ModelArts基本使用权限
系统容器异常退出 - AI开发平台ModelArts

原因分析出现该问题的可能原因如下： OBS相关错误。 OBS文件不存在。The specified key does not exist。用户OBS权限不足。 OBS限流。 OBS其他问题。磁盘空间不足。处理方法如果是OBS相关错误。 OBS文件不存在。The specified

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
保存模型时出现Unable to connect to endpoint错误 - AI开发平台ModelArts

traceback): : Unable to connect to endpoint 原因分析 OBS连接不稳定可能会出现报错，“Unable to connect to endpoint”。处理方法对于OBS连接不稳定的现象，通过增加代码来解决。您可以在代码最前面增加如下代码，让Tenso

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
训练性能测试 - AI开发平台ModelArts

默认8卡 benchmark-cli train <cfgs_yaml_file> <model_name> <run_type> # 指定设备卡数，如2卡 ASCEND_RT_VISIBLE_DEVICES=0,1 benchmark-cli train <cfgs_yaml_file>

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练benchmark工具
上传数据和算法至OBS（首次使用时需要） - AI开发平台ModelArts

上传数据和算法至OBS（首次使用时需要）前提条件已经在OBS上创建好并行文件系统，请参见创建并行文件系统。已经在obsutil安装和配置，请参见obsutils安装和配置。准备数据单击下载动物数据集至本地，并解压。通过obsutil将数据集上传至OBS桶中。 ./obsutil

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
LLaVA-NeXT基于DevServer适配Pytorch NPU训练微调指导（6.3.910） - AI开发平台ModelArts

r资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。购买DevServer资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
moondream2基于DevServer适配PyTorch NPU推理指导 - AI开发平台ModelArts

254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。检查环境。 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
Open-Sora1.2基于DevServer适配PyTorch NPU训练推理指导（6.3.910） - AI开发平台ModelArts

r资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。购买DevServer资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
推理性能测试 - AI开发平台ModelArts

（request-rate参数）较高，会触发推理平台的流控，请在ModelArts Standard“在线服务”详情页修改服务流量限制。同步请求时，平台每次请求预测的时间不能超过60秒。例如输出数据比较大的调用请求（例如输出大于1k），请求预测会超过60秒导致调用失败，可提交工单设置请求超时时间。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
训练作业访问OBS时，日志提示“stat:403 reason:Forbidden” - AI开发平台ModelArts

C9D0 retry:0 原因分析出现该问题的可能原因如下: OBS服务的权限出现问题，导致无法正常读取数据处理方法请检查OBS权限配置，如未解决问题可参考OBS文档的已配置OBS权限，仍然无法访问OBS（403 AccessDenied）。建议与总结在创建训练作业前

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 权限问题
状态码 - AI开发平台ModelArts
状态码 - AI开发平台ModelArts

表用于用户终端（例如：浏览器）选择。 301 Moved Permanently 永久移动，请求的资源已被永久的移动到新的URI，返回信息会包括新的URI。 302 Found 资源被临时移动。 303 See Other 查看其它地址。使用GET和POST请求查看。 304 Not

帮助中心 > AI开发平台ModelArts > API参考 > 公共参数
性能调优 - AI开发平台ModelArts
性能调优 - AI开发平台ModelArts

性能调优算子优化为了更好地发挥昇腾设备的性能，将ChatGLM-6B原模型中的部分算子替换成了NPU亲和的算子，修改的是modeling_chatglm.py文件，下图通过对比列举了对应的修改方式，图示中左边为原始方式，右边为修改后的方式。使用torch.bmm替换torch

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于LLM模型的GPU训练业务迁移至昇腾指导
ma-cli dli-job提交DLI Spark作业支持的命令 - AI开发平台ModelArts

Bool 否异步上传文件，推荐使用。示例上传本地文件到DLI分组资源 ma-cli dli-job upload ./test.py -obs ${your-bucket} --kind pyFile 上传OBS文件到DLI分组资源 ma-cli dli-job upload

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考

总条数： 979

上一页
1
...
41
42
43
...
49
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

tensorboard显示502 bad gateway - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

编排Workflow - AI开发平台ModelArts

Step3 为用户配置ModelArts的委托访问授权 - AI开发平台ModelArts

系统容器异常退出 - AI开发平台ModelArts

保存模型时出现Unable to connect to endpoint错误 - AI开发平台ModelArts

训练性能测试 - AI开发平台ModelArts

上传数据和算法至OBS（首次使用时需要） - AI开发平台ModelArts

LLaVA-NeXT基于DevServer适配Pytorch NPU训练微调指导（6.3.910） - AI开发平台ModelArts

moondream2基于DevServer适配PyTorch NPU推理指导 - AI开发平台ModelArts

Open-Sora1.2基于DevServer适配PyTorch NPU训练推理指导（6.3.910） - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

训练作业访问OBS时，日志提示“stat:403 reason:Forbidden” - AI开发平台ModelArts

状态码 - AI开发平台ModelArts

性能调优 - AI开发平台ModelArts

ma-cli dli-job提交DLI Spark作业支持的命令 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线