搜索_华为云

准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

|──llm_tools # 推理工具代码上传至SFS Turbo 将AscendSpeed代码包AscendCloud-LLM-xxx.zip直接上传至ECS服务器中的SFS Turbo中，例如存放在/mnt/sfs_turbo/AscendCloud-LLM-xxx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

|──llm_tools # 推理工具代码上传至SFS Turbo 将AscendSpeed代码包AscendCloud-LLM-xxx.zip直接上传至ECS服务器中的SFS Turbo中，例如存放在/mnt/sfs_turbo/AscendCloud-LLM-xxx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
启动DevServer实例 - AI开发平台ModelArts

NOTEBOOK：可以通过https协议访问Notebook。 SSH：可以通过SSH协议远程连接Notebook。 ssh_keys Array of strings SSH密钥对名称列表，允许设置多个密钥对实现同时对SSH实例的访问。 service String 访问Notebook的途径，枚举值如下：

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
使用WebSocket协议的方式访问在线服务 - AI开发平台ModelArts

端口和ws跟wss的配置是否正确。连接成功后结果如下：图3 连接成功优先验证自定义镜像提供的websocket服务的情况，不同的工具实现的websocket服务会有不同，可能出现连接建立后维持不住，可能出现请求一次后连接就中断需要重新连接的情况，ModelArts平台只保证

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的传输协议
GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

关于Ant8裸金属服务器的购买，可以在华为云官网提工单至ModelArts云服务，完成资源的申请。步骤1 安装模型安装Megatron-DeepSpeed框架。使用root用户SSH的方式登录GPU裸金属服务器。具体登录方式请参见SSH密钥方式登录裸金属服务器。拉取pyto

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源使用
实时同步用户所有DevServer实例状态 - AI开发平台ModelArts

NOTEBOOK：可以通过https协议访问Notebook。 SSH：可以通过SSH协议远程连接Notebook。 ssh_keys Array of strings SSH密钥对名称列表，允许设置多个密钥对实现同时对SSH实例的访问。 service String 访问Notebook的途径，枚举值如下：

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
创建DevServer - AI开发平台ModelArts

NOTEBOOK：可以通过https协议访问Notebook。 SSH：可以通过SSH协议远程连接Notebook。 ssh_keys Array of strings SSH密钥对名称列表，允许设置多个密钥对实现同时对SSH实例的访问。 service String 访问Notebook的途径，枚举值如下：

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

|── alpaca_gpt4_data.json #微调数据文件上传代码和权重文件到工作环境使用root用户以SSH的方式登录服务器。将AscendCloud代码包AscendCloud-xxx-xxx.zip上传到${workdir}目录下并解压缩，如SFS

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
tensorboard显示502 bad gateway - AI开发平台ModelArts

启动tensorboard对应的summary目录错误，导致tensorboard启动失败。启动tensorboard对应的summary目录过大，导致tensorboard加载summary导致OOM。处理方法检查summary目录是否存在其他文件，如有请删除。检查summary目的文件是否过大（比如大于5GB），如果有请减小summary。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
增量模型训练 - AI开发平台ModelArts

在指定的训练输出的数据存储位置中保存Checkpoint，且“预下载至本地目录”选择“下载”。选择预下载至本地目录时，系统在训练作业启动前，自动将数据存储位置中的Checkpoint文件下载到训练容器的本地目录。图1 训练输出设置 PyTorch版reload ckpt PyTorch模型保存有两种方式。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
配置Lite Server存储 - AI开发平台ModelArts

Turbo文件系统。同一区域不同可用区之间文件系统与云服务器互通，因此保证SFS Turbo与Server服务器在同一区域即可。当创建文件系统后，您需要使用弹性裸金属服务器来挂载该文件系统，具体步骤请参考挂载NFS协议类型文件系统到云服务器（Linux）。为避免已挂载文件系统的云服务器重启后，挂载信息丢失，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
模型训练存储加速 - AI开发平台ModelArts

last_ckpt) # 加载断点 checkpoint = torch.load(local_ckpt_file) # 加载模型可学习参数 model.load_state_dict(checkpoint['net']) # 加载优化器参数

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
自定义镜像使用场景 - AI开发平台ModelArts

至OBS。弹性云服务器弹性云服务器（Elastic Cloud Server，ECS）是由CPU、内存、操作系统、云硬盘组成的基础的计算组件。弹性云服务器创建成功后，您就可以像使用自己的本地PC或物理服务器一样，使用弹性云服务器。在制作自定义镜像时，您可以在本地环境或者ECS上完成自定义镜像制作。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard
在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

L。连接容器镜像服务。登录容器镜像服务控制台。选择左侧导航栏的“总览”，单击页面右上角的“登录指令”，在弹出的页面中单击复制登录指令。图4 获取登录指令此处生成的登录指令有效期为24小时，如果需要长期有效的登录指令，请参见获取长期有效登录指令。获取了长期有效的登录指令后，在有效期内的临时登录指令仍然可以使用。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
环境准备 - AI开发平台ModelArts
环境准备 - AI开发平台ModelArts

按照对应的存储使用情况选择存储大小。 SSH远程开发如果需通过VS Code远程连接Notebook实例，可打开SSH远程开发，并选择自己的密钥对。在Notebook列表，单击“操作”列的“打开”，打开Notebook实例。 ModelArts Lite DevServer 开通裸金属服务器资源请见De

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
使用DCGM监控Lite Server资源 - AI开发平台ModelArts

DCGM是用于管理和监控基于Linux系统的NVIDIA GPU大规模集群的一体化工具，提供多种能力，包括主动健康监控、诊断、系统验证、策略、电源和时钟管理、配置管理和审计等。约束限制仅适用于GPU资源监控。前提条件裸金属服务器需要安装driver、cuda、fabric-manager软件包。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
连接远端开发环境时，一直处于"Setting up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上，如何解决？ - AI开发平台ModelArts

连接远端开发环境时，一直处于"Setting up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上，如何解决？问题现象原因分析当前本地网络原因，导致远程自动安装VS Code Server时间过长。解决方法

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

在SWR服务页面创建镜像组织。图2 创建镜像组织 Step4 在ECS中Docker登录在SWR中单击右上角的“登录指令”，然后在跳出的登录指定窗口，单击复制临时登录指令。在创建的ECS中粘贴临时登录指令，即可完成登录。图3 复制登录指令 Step5 获取训练镜像建议使用官方提供的镜像

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
不同机型的对应的软件配套版本 - AI开发平台ModelArts

由于弹性集群资源池可选择弹性裸金属或弹性云服务器作为节点资源，不同机型的节点对应的操作系统、适用的CCE集群版本等不相同，为了便于您制作镜像、升级软件等操作，本文对不同机型对应的软件配套版本做了详细介绍。裸金属服务器的对应的软件配套版本表1 裸金属服务器类型卡类型 RDMA网络协议

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

在SWR服务页面创建镜像组织。图2 创建镜像组织 Step4 在ECS中Docker登录在SWR中单击右上角的“登录指令”，然后在跳出的登录指定窗口，单击复制临时登录指令。在创建的ECS中粘贴临时登录指令，即可完成登录。图3 复制登录指令 Step5 获取训练镜像请确保在正确的Regi

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作

总条数： 1541

上一页
1
...
4
5
6
...
78
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

启动DevServer实例 - AI开发平台ModelArts

使用WebSocket协议的方式访问在线服务 - AI开发平台ModelArts

GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

实时同步用户所有DevServer实例状态 - AI开发平台ModelArts

创建DevServer - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

tensorboard显示502 bad gateway - AI开发平台ModelArts

增量模型训练 - AI开发平台ModelArts

配置Lite Server存储 - AI开发平台ModelArts

模型训练存储加速 - AI开发平台ModelArts

自定义镜像使用场景 - AI开发平台ModelArts

在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

环境准备 - AI开发平台ModelArts

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

连接远端开发环境时，一直处于"Setting up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上，如何解决？ - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

不同机型的对应的软件配套版本 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线