搜索_华为云

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

Pytorch2.0。 GPU A系列裸金属服务器，单台服务器GPU间是走NVLINK，可以通过相关命令查询GPU拓扑模式： nvidia-smi topo -m 图1 查询GPU拓扑模式操作步骤使用以下脚本测得GPU服务器内NVLINK带宽性能。 import torch import

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
训练tokenizer文件说明 - AI开发平台ModelArts

件chatglm3-6b/tokenization_chatglm.py 。文件最后几处代码中需要修改，具体位置可根据上下文代码信息进行查找，修改后如图所示。图1 修改ChatGLMv3-6B tokenizer文件图2 修改ChatGLMv3-6B tokenizer文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
模型的自定义镜像制作流程 - AI开发平台ModelArts

储挂载功能，需要新建一个OBS挂载专属目录如“/obs-mount/”，避免选择存量目录覆盖已有文件。OBS挂载仅开放对挂载目录文件新增、查看、修改功能，如果需要删除文件请到OBS并行文件系统中手动删除。健康检查接口示例如下。 URI GET /health 请求示例curl -X

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于推理
创建工作空间 - AI开发平台ModelArts

DELETE_FAILED：删除失败。 status_info String 状态描述，默认为空。该字段会补充显示状态的详细信息。如删除失败时，可通过该字段查看删除失败的原因。 grants Array of grants objects 授权用户列表。默认为空。需要与“auth_type”参数配

 帮助中心 > AI开发平台ModelArts > API参考 > 工作空间管理
重建、停止或删除训练作业 - AI开发平台ModelArts

除对应的训练作业。进入OBS，删除本训练作业使用的OBS桶及文件。查找训练作业当用户使用IAM账号登录时，训练作业列表会显示IAM账号下所有训练作业。ModelArts提供查找训练作业功能帮助用户快速查找训练作业。操作一：单击“只显示自己”按钮，训练作业列表仅显示当前子账号下创建的训练作业。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

备的数据集。准备镜像准备训练模型适用的容器镜像。微调训练指令监督微调训练介绍如何进行SFT全参微调/lora微调、训练任务、性能查看。父主题：主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908）
训练tokenizer文件说明 - AI开发平台ModelArts

件chatglm3-6b/tokenization_chatglm.py 。文件最后几处代码中需要修改，具体位置可根据上下文代码信息进行查找，修改后如图所示。图1 修改ChatGLMv3-6B tokenizer文件图2 修改ChatGLMv3-6B tokenizer文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
模型管理权限 - AI开发平台ModelArts

obs:bucket:HeadBucket obs:object:GetObject obs:object:PutObject √ √ 查询模型列表 GET /v1/{project_id}/models modelarts:model:list - √ √ 删除模型 DELETE

帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
Bert基于Lite Server适配MindSpore Lite推理指导(6.3.910) - AI开发平台ModelArts

载的NPU或者联系华为方技术支持。检查驱动版本。运行如下命令查询驱动版本，回显信息中的“Software Version”字段值表示驱动版本。NPU ID表示设备编号，可通过npu-smi info -l命令查询。 npu-smi info -t board -i NPU ID

帮助中心 > AI开发平台ModelArts > 最佳实践 > 内容审核模型训练推理
LLaVA-NeXT基于Lite Server适配PyTorch NPU训练微调指导（6.3.912） - AI开发平台ModelArts

C-6.3.912-xxx.zip 文件名中的xxx表示具体的时间戳，以包名发布的实际时间为准。获取路径：Support-E，在此路径中查找下载ModelArts 6.3.912 版本。说明：如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
推理性能测试 - AI开发平台ModelArts

接而成；如果以openai接口方式启动服务，API接口公网地址与"/v1/completions"拼接而成。部署成功后的在线服务详情页中可查看API接口公网地址。图1 API接口公网地址 --app-code：获取方式见访问在线服务（APP认证）。 --tokenizer：to

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
推理性能测试 - AI开发平台ModelArts

接而成；如果以openai接口方式启动服务，API接口公网地址与"/v1/completions"拼接而成。部署成功后的在线服务详情页中可查看API接口公网地址。图1 API接口公网地址 --app-code：获取方式见访问在线服务（APP认证）。 --tokenizer：to

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
DevServer权限 - AI开发平台ModelArts

list ims.*.list ims.*.get √ × 查询DevServer实例列表 GET /v1/{project_id}/dev-servers modelarts:devserver:listByUser - √ × 查询租户所有DevServer实例列表 GET /v1/

帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
计费概述 - AI开发平台ModelArts
计费概述 - AI开发平台ModelArts

包括手动续费和自动续费两种方式，您可以根据需求选择。了解更多关于续费的信息，请参见续费概述。费用账单您可以在“费用中心 > 账单管理”查看资源相关的流水和明细账单，以便了解您的消费情况。如需了解具体操作步骤，请参见费用账单。欠费在使用云服务时，账户的可用额度小于待结算的账

 帮助中心 > AI开发平台ModelArts > 计费说明
标注图像分类数据 - AI开发平台ModelArts

图片标注不支持多标签，即一张图片不可以添加多个标签。标签名是由中文、大小写字母、数字、中划线或下划线组成。当图片目录中所有图片都完成标注后，您可以在“已标注”页签下查看已完成标注的图片，或者通过右侧的“全部标签”列表，了解当前已完成的标签名称和标签数量。同步或添加图片在“数据标注”节点单击“实例详情”

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现图像分类
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

#检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 准备工作
启动推理服务 - AI开发平台ModelArts

当单机显存无法放下模型权重时，可选用多机方式部署；多机部署方式，需要机器在同一个集群，NPU卡之间IP能够ping通方可，具体步骤如下：查看卡IP，在其中一个宿主机上执行。 for i in $(seq 0 7);do hccn_tool -i $i -ip -g;done 检查卡之间的网络是否通。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务部署
Notebook中已安装对应库，仍报错import numba ModuleNotFoundError: No module named 'numba' - AI开发平台ModelArts

客户创建了多个虚拟环境，numba库安装在了python-3.7.10中，如图1所示。图1 查询创建的虚拟环境解决方案在Terminal中执行conda deactivate命令退出当前虚拟环境，默认进入base环境。执行pip list命令查询已安装的包，然后安装需要的依赖进行保存，最后切换至指定的虚拟环境后再运行脚本。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
在ModelArts的Notebook的Jupyterlab可以安装插件吗？ - AI开发平台ModelArts

装。使用命令jupyter labextension list --app-dir=/home/ma-user/.lab/console查询前端插件安装目录为：/home/ma-user/.local/share/jupyter/labextensions 后端插件代码安装目录：/home/ma-user/

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
训练作业的监控内存指标持续升高直至作业失败 - AI开发平台ModelArts

训练作业的监控内存指标持续升高直至作业失败问题现象训练作业的“状态”为“运行失败”。原因分析训练作业的监控内存指标持续升高，导致最后训练作业失败。处理步骤查询训练作业的日志和监控信息，是否存在明确的OOM报错信息。是，训练作业的日志里存在OOM报错，执行2。否，训练作业的日志里没有OOM报错，但是存在监控指标异常，执行3。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败

总条数： 1249

上一页
1
...
46
47
48
...
63
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

模型的自定义镜像制作流程 - AI开发平台ModelArts

创建工作空间 - AI开发平台ModelArts

重建、停止或删除训练作业 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

模型管理权限 - AI开发平台ModelArts

Bert基于Lite Server适配MindSpore Lite推理指导(6.3.910) - AI开发平台ModelArts

LLaVA-NeXT基于Lite Server适配PyTorch NPU训练微调指导（6.3.912） - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

DevServer权限 - AI开发平台ModelArts

计费概述 - AI开发平台ModelArts

标注图像分类数据 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

启动推理服务 - AI开发平台ModelArts

Notebook中已安装对应库，仍报错import numba ModuleNotFoundError: No module named 'numba' - AI开发平台ModelArts

在ModelArts的Notebook的Jupyterlab可以安装插件吗？ - AI开发平台ModelArts

训练作业的监控内存指标持续升高直至作业失败 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线