搜索_华为云

ModelArts Standard的WebSocket在线服务全流程开发 - AI开发平台ModelArts

Socket API中，浏览器和服务器只需要完成一次握手，两者之间就可以建立持久性的连接，并进行双向数据传输。前提条件用户需有一定的Java开发经验，熟悉jar打包流程。用户需了解WebSocket协议的基本概念及调用方法。用户需熟悉Docker制作镜像的方法。约束与限制

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
批量服务输入/输出obs目录不存在或者权限不足 - AI开发平台ModelArts

目录存在，但依然报同样的错，可以提工单申请技术支持 ModelArts.3567：用户只能访问自己账号下的obs目录，ModelArts在读取其他用户obs下的数据时，需要用户委托权限，没有创建委托，就没有权限使用其他用户obs中的数据。登录ModelArts控制台，管理控制台

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
自动学习训练作业失败 - AI开发平台ModelArts

数据直读”选项进行修改。图2 关闭归档数据直读功能确保OBS中的文件是非加密状态上传图片或文件时不要选择KMS加密，否则会导致数据集读取失败。文件加密无法取消，请先解除桶加密，重新上传图片或文件。图3 OBS桶中的文件未加密检查图片是否符合要求目前自动学习不支持四通道

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 模型训练
如何在ModelArts的Notebook中上传下载OBS文件？ - AI开发平台ModelArts

denied。请依次排查：请确保读取的OBS桶和Notebook处于同一站点区域，例如：都在华北-北京四站点。不支持跨站点访问OBS桶。具体请参见查看OBS桶与ModelArts是否在同一个区域。请确认操作Notebook的账号有权限读取OBS桶中的数据。如没有权限，请参见

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
导入模型 - AI开发平台ModelArts
导入模型 - AI开发平台ModelArts

可不填，后台自动从配置文件的apis字段中读取输入参数信息。 output_params 否 params结构数组模型推理输出参数列表，默认为空。如果已在模型配置文件中配置apis信息时，则可不填，后台自动从配置文件的apis字段中读取输出参数信息。 dependencies 否

 帮助中心 > AI开发平台ModelArts > SDK参考 > 模型管理
断点续训和故障快恢说明 - AI开发平台ModelArts

txt文件内容：20 同时开启故障快恢和断点续训时需满足以下条件：如果用户指定${user_converted_ckpt_path} 因故障快恢读取权重的优先级最高则训练过程的权重保存路径${output_dir}/saved_checkpoints（加载故障快恢路径）必须为空，否则此参数无效断点续训失效。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
在ModelArts上如何提升训练效率并减少与OBS的交互？ - AI开发平台ModelArts

容会被清空，腾出空间，供下一次训练作业使用。因此，可以在训练过程中将数据从OBS复制到“/cache”目录，然后每次从“/cache”目录读取数据，直到训练结束。训练结束以后“/cache”目录的内容会自动被清空。优化方式以TensorFlow代码为例。优化前代码如下所示：

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
断点续训和故障快恢说明 - AI开发平台ModelArts

txt文件内容：20 同时开启故障快恢和断点续训时需满足以下条件：如果用户指定${user_converted_ckpt_path} 因故障快恢读取权重的优先级最高则训练过程的权重保存路径${output_dir}/saved_checkpoints（加载故障快恢路径）必须为空，否则此参数无效断点续训失效。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
断点续训和故障快恢说明 - AI开发平台ModelArts

txt文件内容：20 同时开启故障快恢和断点续训时需满足以下条件：如果用户指定${user_converted_ckpt_path} 因故障快恢读取权重的优先级最高则训练过程的权重保存路径${output_dir}/saved_checkpoints（加载故障快恢路径）必须为空，否则此参数无效断点续训失效。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
断点续训和故障快恢说明 - AI开发平台ModelArts

txt文件内容：20 同时开启故障快恢和断点续训时需满足以下条件：如果用户指定${user_converted_ckpt_path} 因故障快恢读取权重的优先级最高则训练过程的权重保存路径${output_dir}/saved_checkpoints（加载故障快恢路径）必须为空，否则此参数无效断点续训失效。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

方案。通过OBS对象存储服务（Object Storage Service）与SFS Turbo文件系统联动，可以实现灵活数据管理、高性能读取等。约束限制适配的CANN版本是cann_8.0.rc3，驱动版本是23.0.6。本案例仅支持在专属资源池上运行，确保专属资源池可以访问公网。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

Turbo文件系统联动，可以实现数据灵活管理、高性能读取数据等。通过OBS上传训练所需的模型文件、训练数据等，再将OBS中的数据文件导入到SFS Turbo，然后在训练作业中挂载SFS Turbo到容器对应ckpt目录，实现分布式读取训练数据文件。约束限制如果要使用自动重启功能，资源规格必须选择八卡规格。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）
pipeline代码适配 - AI开发平台ModelArts

onnx模型初始化及推理的接口替换为MindSpore Lite的接口即可。 MindSpore Lite提供了Python、C++以及JAVA三种应用开发接口。此处以Python接口为例，介绍如何使用MindSpore Lite Python API构建并推理Stable Di

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 应用迁移
训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

在正常情况下，nvidia-smi进程通常只会短暂地出现D+状态，因为它们是由内核控制的，该进程处于等待I/O操作完成的状态，可能是在读取或写入GPU相关的数据，这是正常的操作。但是，如果该进程一直处于"D+"状态，可能表明出现了I/O操作阻塞或其他问题，这可能导致系统死锁或其他问题。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
精度校验 - AI开发平台ModelArts
精度校验 - AI开发平台ModelArts

度和平均相对误差），得到模型转换后的精度偏差信息。使用benchmark进行精度比对的基本流程如下：将模型输入保存二进制文件。 # 数据读取，预处理 image = img_preprocess(image_path) image = np.array(image, dtype=np

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

准备镜像准备大模型推理适用的容器镜像，包括获取镜像地址，了解镜像中包含的各类固件版本，配置Standard物理机环境操作。镜像版本本教程中用到基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址配套版本基础镜像 swr.cn-southwest-2

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 准备工作
约束与限制 - AI开发平台ModelArts

Cluster逻辑资源池，需要开启节点绑定后才能进行驱动升级，请提交工单联系华为工程师开启节点绑定。 ModelArts与OBS交互 ModelArts不支持从加密的OBS桶中读取数据，创建OBS桶时，请勿开启桶加密。 ModelArts不支持跨区域访问OBS桶，请确保使用的OBS与ModelArts在同一区域。

帮助中心 > AI开发平台ModelArts > 产品介绍
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

Turbo文件系统联动，可以实现数据灵活管理、高性能读取数据等。通过OBS上传训练所需的模型文件、训练数据等，再将OBS中的数据文件导入到SFS Turbo，然后在训练作业中挂载SFS Turbo到容器对应ckpt目录，实现分布式读取训练数据文件。约束限制如果要使用自动重启功能，资源规格必须选择八卡规格。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908）
推理场景介绍 - AI开发平台ModelArts

√ √ https://huggingface.co/meta-llama/Llama-2-13b-chat-hf 6 llama2-70b √ √ √ √ √ https://huggingface.co/meta-llama/Llama-2-70b-hf https://huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
推理场景介绍 - AI开发平台ModelArts

√ √ https://huggingface.co/meta-llama/Llama-2-13b-chat-hf 6 llama2-70b √ √ √ √ √ https://huggingface.co/meta-llama/Llama-2-70b-hf https://huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）

总条数： 427

上一页
1
...
5
6
7
...
22
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

ModelArts Standard的WebSocket在线服务全流程开发 - AI开发平台ModelArts

批量服务输入/输出obs目录不存在或者权限不足 - AI开发平台ModelArts

自动学习训练作业失败 - AI开发平台ModelArts

如何在ModelArts的Notebook中上传下载OBS文件？ - AI开发平台ModelArts

导入模型 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

在ModelArts上如何提升训练效率并减少与OBS的交互？ - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

pipeline代码适配 - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

精度校验 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

约束与限制 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线