搜索_华为云

在ModelArts Standard运行GPU训练作业的准备工作 - AI开发平台ModelArts

在ECS服务器挂载SFS Turbo存储在ECS服务器挂载SFS Turbo存储后，支持将训练所需的数据通过ECS上传至SFS Turbo。检查云服务环境。 ECS服务器和SFS的共享硬盘在相同的VPC或者对应VPC能够互联。 ECS服务器基础镜像用的是Ubuntu 18

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
使用CES监控Lite Server资源 - AI开发平台ModelArts

MAC发送pause帧总数 NPU卡对应MAC 地址发送的 pause帧总报文数 count ≥0 instance_id，npu 44 npu_mac_rx_mac_pause_num MAC接收pause帧总数 NPU卡对应MAC 地址接收的 pause帧总报文数 count ≥0

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
infiniband驱动的安装 - AI开发平台ModelArts

下载MLNX_OFED_LINUX-4.3-1.0.1.0-ubuntu16.04-x86_64.tgz。进入地址，单击“Download”，选择“Archive Versions”，“Version”选择“4.3-1.0.1.0”，“OS Distribution”选择“Ubuntu”，“OS Distribution

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
用户如何设置默认的kernel？ - AI开发平台ModelArts

用户如何设置默认的kernel？用户希望打开Notebook默认的kernel为自己自定义的kernel。解决方式: 在Terminal里执行如下命令在镜像里指定环境变量。 # python-3.7.10这里指用户想设置的kernel名称 export KG_DEFAULT_

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
训练作业找不到GPU - AI开发平台ModelArts

U。处理方法根据报错提示，请您排查代码，是否已添加以下配置，设置该程序可见的GPU： os.environ['CUDA_VISIBLE_DEVICES'] = '0,1,2,3,4,5,6,7' 其中，0为服务器的GPU编号，可以为0，1，2，3等，表明对程序可见的GPU编号

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
设置在线服务故障自动重启 - AI开发平台ModelArts

设置在线服务故障自动重启场景描述当系统检测到Snt9b硬件故障时，自动复位Snt9B芯片并重启推理在线服务，提升了推理在线服务的恢复速度。约束限制仅支持使用Snt9b资源的同步在线服务。只支持针对整节点资源复位，请确保部署的在线服务为8*N卡规格，请谨慎评估对部署在该节点的其他服务的影响。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
通过Function Calling扩展大语言模型对外部环境的理解 - AI开发平台ModelArts

Calling扩展大语言模型对外部环境的理解本示例将展示如何定义一个获取送货日期的函数，并通过LLM来调用外部API来获取外部信息。操作步骤设置Maas的api key和模型服务地址。 import requests from openai import OpenAI client = OpenAI(

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 通过Function Calling扩展大语言模型交互能力
查询镜像详情 - AI开发平台ModelArts

1.8.0-cuda_10.2-py_3.7-ubuntu_18.04-x86_64-20220926104358-041ba2e", "tag" : "pytorch_1.8.0-cuda_10.2-py_3.7-ubuntu_18.04-x86_64-20220926104358-041ba2e"

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
使用ModelArts VSCode插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

VSCode插件调试训练ResNet50图像分类模型应用场景 Notebook等线上开发工具工程化开发体验不如IDE，但是本地开发服务器等资源有限，运行和调试环境大多使用团队公共搭建的CPU或GPU服务器，并且是多人共用，这带来一定的环境搭建和维护成本。因此使用本地IDE+远程Notebook结合的方式，可

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard开发环境
在Dockerfile中如何给镜像设置环境变量？ - AI开发平台ModelArts

在Dockerfile中如何给镜像设置环境变量？在Dockerfile中，可使用ENV指令来设置环境变量，具体信息请参考Dockerfile指导。父主题： Standard镜像相关

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
配置Lite Cluster网络 - AI开发平台ModelArts

本章节介绍如何申请弹性公网IP并绑定到弹性云服务器。通过本文档，您可以实现弹性云服务器访问公网的目的。使用华为云账号登录CCE管理控制台。找到购买Cluster资源时选择的CCE集群，单击名称进入CCE集群详情页面，单击“节点管理”页签，在“节点”页签中单击需要登录的节点名称，跳转至弹性云服务器页面。图1

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

弹性文件服务（Scalable File Service，SFS）提供按需扩展的高性能文件存储（NAS），可以在裸金属服务器中通过网络协议挂载使用，SFS支持NFS和CIFS的网络协议。在使用裸金属服务器时，将数据放在SFS盘中，并发建立多个NFS链接、并发的读写数据、做大模型训练。但有时候会出

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
查询模型runtime - AI开发平台ModelArts

1-py_3.7-ubuntu_18.04-x86_64", "tensorflow_2.6.0-cuda_11.2-py_3.7-ubuntu_18.04-x86_64", "tensorflow_1.15.5-cuda_11.4-py_3.8-ubuntu_20.04-x86_64"

帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

本教程中用到的模型软件包如下表所示，请提前准备好。获取模型软件包本方案支持的模型对应的软件和依赖包获取地址如表1所示。表1 模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6.3.912-xxx.zip 说明：软件包名称中的xxx表示时间戳。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
Standard支持的AI框架 - AI开发平台ModelArts

支持的cuda或Ascend版本 TensorFlow x86_64 Ubuntu18.04 tensorflow_2.1.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64 cuda10.1 PyTorch x86_64 Ubuntu18.04 pytorch_1.8.0-cuda_10

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像，请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤，可根据默认选择，或进行自定义。创建完成后，单击“远程登录”，后续安装Docker等操作均在该ECS上进行。注

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作 > 准备镜像
状态码 - AI开发平台ModelArts
状态码 - AI开发平台ModelArts

Failed 未满足前提条件，服务器未满足请求者在请求中设置的其中一个前提条件。 413 Request Entity Too Large 由于请求的实体过大，服务器无法处理，因此拒绝请求。为防止客户端的连续请求，服务器可能会关闭连接。如果只是服务器暂时无法处理，则会包含一个Retry-After的响应信息。

帮助中心 > AI开发平台ModelArts > API参考 > 公共参数
ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像，请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤，可根据默认选择，或进行自定义。创建完成后，单击“远程登录”，后续安装Docker等操作均在该ECS上进行。注

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作 > 准备镜像
ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像，请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤，可根据默认选择，或进行自定义。创建完成后，单击“远程登录”，后续安装Docker等操作均在该ECS上进行。注

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像，请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤，可根据默认选择，或进行自定义。创建完成后，单击“远程登录”，后续安装Docker等操作均在该ECS上进行。注

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作 > 准备镜像

总条数： 1300

上一页
1
...
4
5
6
...
65
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在ModelArts Standard运行GPU训练作业的准备工作 - AI开发平台ModelArts

使用CES监控Lite Server资源 - AI开发平台ModelArts

infiniband驱动的安装 - AI开发平台ModelArts

用户如何设置默认的kernel？ - AI开发平台ModelArts

训练作业找不到GPU - AI开发平台ModelArts

设置在线服务故障自动重启 - AI开发平台ModelArts

通过Function Calling扩展大语言模型对外部环境的理解 - AI开发平台ModelArts

查询镜像详情 - AI开发平台ModelArts

使用ModelArts VSCode插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

在Dockerfile中如何给镜像设置环境变量？ - AI开发平台ModelArts

配置Lite Cluster网络 - AI开发平台ModelArts

使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

查询模型runtime - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

Standard支持的AI框架 - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

状态码 - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线