搜索_华为云

准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

service [Unit] Description=buildkitd After=network.target [Service] ExecStart=/usr/local/buildkit/bin/buildkitd [Install] WantedBy=multi-user

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 准备工作
pipeline代码适配 - AI开发平台ModelArts

Lite进行推理时一般需要先设置目标设备的上下文信息，然后构建推理模型，获取输入数据，模型预测并得到最终的结果。一个基础的推理框架写法如下所示： # base_mslite_demo.py import mindspore_lite as mslite # 设置目标设备上下文为Ascend，指定device_id为0。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 应用迁移
在Standard上部署SD WebUI推理服务 - AI开发平台ModelArts

创建镜像组织步骤三在宿主机上传镜像到SWR 在SWR中单击右上角的“登录指令”，然后在跳出的登录指定窗口，单击复制临时登录指令。在创建的ECS中复制临时登录指令，即可完成登录。图2 复制登录指令登录指令输入之后，使用下列示例命令。 docker tag sdxl-train:0

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD WEBUI套件适配PyTorch NPU的推理指导（6.3.908）
使用AWQ量化 - AI开发平台ModelArts

transformers sentencepiece #安装量化工具依赖 export ASCEND_RT_VISIBLE_DEVICES=0 #设置使用NPU单卡执行模型量化 python examples/quantize.py 详细说明可以参考vLLM官网：https://docs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
训练作业卡死检测 - AI开发平台ModelArts

V1版本修改：file_io._NUMBER_OF_PROCESSES=1 V2版本修改：可以 file_io._LARGE_FILE_METHOD = 1，将模式设置成V1然后用V1的方式修改规避，也可以直接file_io._LARGE_FILE_TASK_NUM=1。复制文件夹时可采用： mox.file

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
添加资源标签 - AI开发平台ModelArts

error_code String ModelArts错误码。 error_msg String 具体错误信息。请求示例为指定服务添加标签。设置TMS标签的key为“test”和“model_version”，TMS标签的value为“service-gpu”和“0.1”。 htt

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
查询算法列表 - AI开发平台ModelArts

resource_requirements Array of resource_requirements objects 算法资源约束，可不设置。设置后，在算法使用于训练作业时，控制台会过滤可用的公共资源池。 advanced_config advanced_config object

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
从OBS中导入模型文件创建模型 - AI开发平台ModelArts

模型基本信息参数说明参数名称说明名称模型名称。支持1～64位可见字符（含中文），名称可以包含字母、中文、数字、中划线、下划线。版本设置所创建模型的版本。第一次导入时，默认为0.0.1。说明：模型创建完成后，可以通过创建新版本，导入不同的元模型进行调优。描述模型的简要描述。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型
训练启动脚本说明和参数配置 - AI开发平台ModelArts

规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表1 不同模型推荐的参数与NPU卡数设置序号支持模型支持模型参数量文本序列长度并行参数设置规格与节点数 1 llama2 llama2-7b SEQ_LEN=4096 TP(tensor model

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
升级Lite Cluster资源池驱动 - AI开发平台ModelArts

前支持“按节点比例”和“按实例数量”两种滚动方式。按节点比例：每批次驱动升级的实例数量为“节点比例*资源池实例总数”。按实例数量：可以设置每批次驱动升级的实例数量。对于不同的升级方式，滚动升级选择实例的策略会不同：如果升级方式为安全升级，则根据滚动节点数量选择无业务的节点，隔离节点并滚动升级。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
Standard资源管理 - AI开发平台ModelArts

专属资源池类型归一：不再区分训练、推理专属资源池。如果业务允许，您可以在一个专属资源池中同时跑训练和推理的Workload。同时，也可以通过“设置作业类型”来开启/关闭专属资源池对特定作业类型的支持。自助专属池网络打通：可以在ModelArts管理控制台自行创建和管理专属资源池所属

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
自动学习训练作业失败 - AI开发平台ModelArts

数据源”，将OBS中的数据重新同步至ModelArts中。检查OBS的访问权限如果OBS桶的访问权限设置无法满足训练要求时，将会出现训练失败。请排查如下几个OBS的权限设置。当前账号具备OBS桶的读写权限（桶ACLs）进入OBS管理控制台，选择当前自动学习项目使用的OBS桶，单击桶名称进入概览页。

帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 模型训练
示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

ain.py”。超参当资源规格为单机多卡时，需要指定超参world_size和rank。当资源规格为多机时（即实例数大于 1），无需设置超参world_size和rank，超参会由平台自动注入。方式二：使用自定义镜像功能，通过torch.distributed.launch命令启动训练作业。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
更新算法 - AI开发平台ModelArts
更新算法 - AI开发平台ModelArts

resource_requirements 否 Array of ResourceRequirement objects 算法资源约束。可不设置。设置后，在算法使用于训练作业时，控制台会过滤可用的公共资源池。 advanced_config 否 AlgorithmAdvancedConfig

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
查询服务列表 - AI开发平台ModelArts

total_count Integer 不分页的情况下，符合查询条件的总服务数量。 count Integer 当前查询结果的服务数量，不设置offset、limit查询参数时，count与total相同。 services service结构数组查询到的服务集合。表3 service结构

 帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
推理精度测试 - AI开发平台ModelArts

model_args：标志向模型构造函数提供额外参数，比如指定运行模型的数据类型； vllm_path是模型权重路径； max_model_len 是最大模型长度，默认设置为4096； gpu_memory_utilization是gpu利用率，如果模型出现oom报错，调小参数； tensor_parallel_size是使用的卡数；

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

# 原始数据目录 # 训练输出目录路径：根据{OUTPUT_SAVE_DIR}或yaml文件{output_dir}参数设置 |──{output_dir} # 输出目录，以下目录在训练过程中自动生成 |──conv

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

service [Unit] Description=buildkitd After=network.target [Service] ExecStart=/usr/local/buildkit/bin/buildkitd [Install] WantedBy=multi-user

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 准备工作
Lite Server - AI开发平台ModelArts
Lite Server - AI开发平台ModelArts

Lite Server GPU裸金属服务器使用EulerOS内核误升级如何解决 GPU A系列裸金属服务器无法获取显卡如何解决 GPU裸金属服务器无法Ping通如何解决 GPU A系列裸金属服务器RoCE带宽不足如何解决？ GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed

帮助中心 > AI开发平台ModelArts > 故障排除
推理精度测试 - AI开发平台ModelArts

model_args：标志向模型构造函数提供额外参数，比如指定运行模型的数据类型； vllm_path是模型权重路径； max_model_len 是最大模型长度，默认设置为4096； gpu_memory_utilization是gpu利用率，如果模型出现oom报错，调小参数； tensor_parallel_size是使用的卡数；

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）

总条数： 1158

上一页
1
...
45
46
47
...
58
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备镜像 - AI开发平台ModelArts

pipeline代码适配 - AI开发平台ModelArts

在Standard上部署SD WebUI推理服务 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

训练作业卡死检测 - AI开发平台ModelArts

添加资源标签 - AI开发平台ModelArts

查询算法列表 - AI开发平台ModelArts

从OBS中导入模型文件创建模型 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

升级Lite Cluster资源池驱动 - AI开发平台ModelArts

Standard资源管理 - AI开发平台ModelArts

自动学习训练作业失败 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

更新算法 - AI开发平台ModelArts

查询服务列表 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

Lite Server - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线