搜索_华为云

准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

├──install.sh #安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字父主题：准备工作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 准备工作
查看Lite Server服务器详情 - AI开发平台ModelArts

Server服务器创建时绑定的虚拟私有云，单击链接可跳转到虚拟私有云详情页。裸金属服务器 Lite Server服务器为一台裸金属服务器，单击链接可跳转至对应弹性裸金属服务器的详情页。镜像 Lite Server服务器的镜像。创建时间 Lite Server服务器的创建时间。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
报名实践活动（实践） - AI开发平台ModelArts

实践 >”，进入实践首页。在实践列表选择您感兴趣的实践活动。报名实践活动：方式一：单击实践活动简介下的“立即报名”，进入邀请函页面，根据提示填写个人信息，单击“报名”。图2 活动邀请函方式二：单击实践活动标题进入活动详情页面，在详情页面单击“立即报名”，进入邀请函页面报名。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 参加活动
使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？使用华为云A系列裸金属服务器时有如下注意事项： nvidia-fabricmanager版本号必须和nvidia-driver版本号保持一致，可参考安装nvidia-fabricmanager方法。 NCCL必须和CUDA版本相匹配，可单击此处可查看配套关系和安装方法。

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

|──llm_tools # 推理工具工作目录介绍详细的工作目录参考如下，建议参考以下要求设置工作目录。训练脚本以分类的方式集中在scripts文件夹中。 ${workdir}（例如/home/ma-user/ws ） |──llm_train

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

├──install.sh #安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字相关文档

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 准备工作
SD3基于Lite Server适配PyTorch NPU的训练指导（6.3.912） - AI开发平台ModelArts

确保容器可以访问公网。步骤一：检查环境请参考Lite Server资源开通，购买Server资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。购买Server资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户，

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
SD3 Diffusers框架基于DevServer适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

间网络互通。购买DevServer资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

若已完成集群资源购买和开通，则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。 kubectl访问集群配置本步骤需要在节点机器，对kubectl进行集群访问配置。首先进入已创建的CCE集群控制版面中。根据图2的步骤进行操作，单击kubectl配置时，会弹出图3步骤页面。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 准备工作
专属资源池VPC打通 - AI开发平台ModelArts

您可单击“+”即可添加子网（上限10个）。如果需要使用打通VPC的方式实现专属资源池访问公网，由于要访问的公网地址不确定，一般是建议用户在VPC中创建SNAT。此场景下，在打通VPC后，专属资源池中作业访问公网地址，默认不能转发到用户VPC的SNAT，需要提交工单联系技术支持

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
执行微调训练任务 - AI开发平台ModelArts

必须修改。加载tokenizer与Hugging Face权重时存放目录绝对或相对路径。请根据实际规划修改。 template qwen 必须修改。用于指定模板。如果设置为"qwen"，则使用Qwen模板进行训练，模板选择可参照表1中的template列 output_dir /home/ma-user/w

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908）
Cluster资源池如何进行NCCl Test？ - AI开发平台ModelArts

开始测试使用的最小数据：取值范围[1, 1024]，单位可选为“B”、“KB”、“MB”、“GB”“TB”。日志上传路径：AI诊断日志上传路径。数据增加方式：当前支持乘法方式。乘法系数：数值范围[2, 100]。超过时间：数值范围[150, 3600]。 NCCL Test节点名称列表：不可为空，且被选择的节点须为可用状态。

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Cluster
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

如果已完成集群资源购买和开通，则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。 kubectl访问集群配置本步骤需要在节点机器，对kubectl进行集群访问配置。首先进入已创建的CCE集群控制版面中。根据图2的步骤进行操作，单击kubectl配置时，会弹出图3步骤页面。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

如果已完成集群资源购买和开通，则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。 kubectl访问集群配置本步骤需要在节点机器，对kubectl进行集群访问配置。首先进入已创建的CCE集群控制版面中。根据图2的步骤进行操作，单击kubectl配置时，会弹出图3步骤页面。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 准备工作
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？场景描述本文指导如何进行节点内NVLINK带宽性能测试，适用的环境为：Ant8或者Ant1 GPU裸金属服务器，且服务器中已经安装相关GPU驱动软件，以及Pytorch2.0。 GPU A系列裸金属服务器，单台服务

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
Standard自动学习 - AI开发平台ModelArts

Standard自动学习 ModelArts通过机器学习的方式帮助不具备算法开发能力的业务开发者实现算法的开发，基于迁移学习、自动神经网络架构搜索实现模型自动生成，通过算法实现模型训练的参数自动化选择和模型自动调优的自动学习功能，让零AI基础的业务开发者可快速完成模型的训练和部署。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

确定带宽服务器A：服务端从mlx4_0网卡接收数据 ib_write_bw -a -d mlx5_0 服务器B：客户端向服务端mlx4_0网卡发送数据。 ib_write_bw -a -F 服务器A的IP -d mlx5_0 --report_gbits 图1 服务器A执行结果

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案问题现象创建出3台GPU裸金属服务器，使用A节点制作镜像，用于在CCE纳管裸金属服务器时，使用该镜像，但是纳管后发现服务器A纳管失败，剩下两台服务器纳管成功。原因分析在CCE纳管过程中，需要通过cloudinit

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

systemctl status buildkitd 若buildkitd的服务运行状态如下图所示，则表示服务运行成功。使用Ctrl+C即可退出查看状态。 Step2 获取推理镜像建议使用官方提供的镜像部署推理服务。镜像地址{image_url}获取请参见表1。 containerd

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 准备工作
自定义镜像导入配置运行时依赖无效 - AI开发平台ModelArts

自定义镜像导入配置运行时依赖无效问题现象通过API接口选择自定义镜像导入创建模型，配置了运行时依赖，没有正常安装pip依赖包。原因分析自定义镜像导入不支持配置运行时依赖，系统不会自动安装所需要的pip依赖包。处理方法重新构建镜像。在构建镜像的dockerfile文件

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理

总条数： 2005

上一页
1
...
92
93
94
...
101
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备代码 - AI开发平台ModelArts

查看Lite Server服务器详情 - AI开发平台ModelArts

报名实践活动（实践） - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

SD3基于Lite Server适配PyTorch NPU的训练指导（6.3.912） - AI开发平台ModelArts

SD3 Diffusers框架基于DevServer适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

专属资源池VPC打通 - AI开发平台ModelArts

执行微调训练任务 - AI开发平台ModelArts

Cluster资源池如何进行NCCl Test？ - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

Standard自动学习 - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

自定义镜像导入配置运行时依赖无效 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线