搜索_华为云

SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU推理指导（6.3.908） - AI开发平台ModelArts

启动两个终端，并在每个终端均设置下述环境变量。 export MASTER_ADDR=127.0.0.1 export MASTER_PORT=29001 export RANK=x # x等于终端的编号，如开启2个终端，x在两个终端中依次设置为0，1 export WORLD_SIZE=2

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
Standard资源管理 - AI开发平台ModelArts

专属资源池类型归一：不再区分训练、推理专属资源池。如果业务允许，您可以在一个专属资源池中同时跑训练和推理的Workload。同时，也可以通过“设置作业类型”来开启/关闭专属资源池对特定作业类型的支持。自助专属池网络打通：可以在ModelArts管理控制台自行创建和管理专属资源池所属

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

在创建训练作业页面配置环境变量“ROUTE_PLAN”，取值为“true”，具体操作请参见管理训练容器环境变量。代码示例训练作业的启动脚本示例如下。启动脚本中设置plog生成后存放在“/home/ma-user/modelarts/log/modelarts-job-{id}/worker-{ind

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
删除镜像 - AI开发平台ModelArts
删除镜像 - AI开发平台ModelArts

INFERENCE: 建议仅在推理部署场景使用。 TRAIN: 建议仅在训练任务场景使用。 DEV: 建议仅在开发调测场景使用。 UNKNOWN: 未明确设置的镜像支持的服务类型。 size Long 镜像大小（单位KB）。 status String 镜像状态。枚举值如下： INIT：初始化。

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
附录：训练常见问题 - AI开发平台ModelArts

问题4：Error waiting on exit barrier错误错误截图：报错原因：多线程退出各个节点间超时时间默认为300s，时间设置过短。解决措施：修改容器内torch/distributed/elastic/agent/server/api.py文件参数： vim

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
个人用户快速配置ModelArts访问权限 - AI开发平台ModelArts

对于首次使用ModelArts新用户，请直接新增委托即可。一般用户新增普通用户权限即可满足使用要求。如果有精细化权限管理的需求，可以自定义权限按需设置。如果未获得委托授权，当打开“访问授权”页面时，ModelArts会提醒您当前用户未配置授权，需联系此IAM用户的管理员账号进行委托授权。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
旧版训练迁移至新版训练需要注意哪些问题？ - AI开发平台ModelArts

where the trained ckpt file') args = parser.parse_args() ... # 下载的代码无需设置，后续涉及训练数据和输出路径数据使用data_url和train_url即可 #下载数据参数至容器本地，在代码中使用local_data_path代表训练输入位置

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 功能咨询
在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

文件已添加指定的用户和用户组，您直接使用即可。用户只需要设置uid为1000的用户ma-user和gid为100的用户组ma-group，并使ma-user有对应目录的读写执行权限，其他如启动cmd不需要关心，无需设置或更改。 vim一个Dockerfile文件，添加第三方镜像

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
在线服务预测报错ModelArts.4503 - AI开发平台ModelArts

免由服务端发起关闭连接。如您使用的Gunicorn来作为web server，可以通过Gunicorn命令的--keep-alive参数来设置该值。其他方式导入的模型，服务内部已做处理。协议错误请求报错：{"error_code":"ModelArts.4503", "error_msg":"Failed

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

创建SFS Turbo文件系统前提条件：创建SFS Turbo文件系统前，确认已有可用的VPC。图4 创建SFS Turbo 需要由IAM用户设置SFS Turbo FullAccess权限，用于授权ModelArts云服务使用SFS Turbo。详细操作指导请参考创建SFS Turbo文件系统。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 准备工作
更新Notebook实例 - AI开发平台ModelArts

k。 SSH：可以通过SSH协议远程连接Notebook。 ssh_keys Array of strings SSH密钥对名称列表，允许设置多个密钥对实现同时对SSH实例的访问。 service String 访问Notebook的途径，枚举值如下： NOTEBOOK：可以通过https协议访问Notebook。

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
部署服务 - AI开发平台ModelArts
部署服务 - AI开发平台ModelArts

服务接口是否升级为WebSocket。部署服务时，默认值为false；更新服务配置时，默认值为上一次设置的值。 false：不升级为WebSocket。 true：升级为WebSocket。开启后，不支持修改。开启WebSocket时，不支持同时设置“服务流量限制”。表15 SmnNotification 参数是否必选

 帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
执行训练任务 - AI开发平台ModelArts

必须修改。加载tokenizer与Hugging Face权重时存放目录绝对或相对路径。请根据实际规划修改。 template qwen 必须修改。用于指定模板。如果设置为"qwen"，则使用Qwen模板进行训练，模板选择可参照表1中的template列 output_dir /home/ma-user/w

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
人工标注音频数据 - AI开发平台ModelArts

类型，可以在列表的右上角单击“选择当前页”，则当前页面所有的音频将选中。添加标签。在右侧的“添加标签”区域中，单击“标签”下侧的文本框设置标签。方式一（已存在标签）：单击“标签”下方的文本框，在快捷键下拉列表中选择快捷键，然后在标签文本输入框中选择已有的标签名称，然后单击“确定”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过人工标注方式标注数据
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

式读取训练数据文件。创建SFS Turbo文件系统前提条件：创建SFS Turbo文件系统前，确认已有可用的VPC。需要由IAM用户设置SFS Turbo FullAccess权限，用于授权ModelArts云服务使用SFS Turbo。详细操作指导请参考创建SFS Turbo文件系统。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作
使用DCGM监控Lite Server资源 - AI开发平台ModelArts

https://get.docker.com | sh sudo systemctl --now enable docker 2、安装NVIDIA容器工具集设置仓库地址和GPG key： distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
查询服务更新日志 - AI开发平台ModelArts

的流量权重，仅当infer_type为real-time时需要配置，多个权重相加必须等于100；当在一个在线服务中同时配置了多个模型版本且设置不同的流量权重比例时，持续地访问此服务的预测接口，ModelArts会按此权重比例将预测请求转发到对应的模型版本实例。 specification

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

#HuggingFace格式转换magatron格式后权重文件 ├── saved_dir_for_ma_output #训练输出保存权重，根据实际训练需求设置 ├── BaiChuan2-13B ├── logs #训练过程中日志（loss、吞吐性能）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Baichuan2-13B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 准备工作
SFT全参微调数据处理 - AI开发平台ModelArts

erCase'， 'BertWordPieceCase'，'GPT2BPETokenizer'， 'PretrainedFromHF']，设置为PretrainedFromHF。 - tokenizer-name-or-path：tokenizer的存放路径。 - handler

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > GLM3-6B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > SFT全参微调训练
安全边界 - AI开发平台ModelArts
安全边界 - AI开发平台ModelArts

告警和故障恢复。容器应该采用https的安全传输通道，并使用业界推荐的加密套件保证业务数据的安全性。部署上线部署服务时，需要注意为服务设置合适计算节点规格，防止服务因资源不足而过载或者资源过大而浪费。尽量避免在容器中监听其他端口，有本地内部需要访问的其他端口，监听在local

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全

总条数： 635

上一页
1
...
26
27
28
...
32
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU推理指导（6.3.908） - AI开发平台ModelArts

Standard资源管理 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

删除镜像 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

个人用户快速配置ModelArts访问权限 - AI开发平台ModelArts

旧版训练迁移至新版训练需要注意哪些问题？ - AI开发平台ModelArts

在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

在线服务预测报错ModelArts.4503 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

更新Notebook实例 - AI开发平台ModelArts

部署服务 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

人工标注音频数据 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

查询服务更新日志 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

SFT全参微调数据处理 - AI开发平台ModelArts

安全边界 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线