搜索_华为云

迁移评估 - AI开发平台ModelArts
迁移评估 - AI开发平台ModelArts

X86上运行。 - 当前使用的操作系统及版本当前推理业务的操作系统及版本，如：Ubuntu 22.04。是否使用容器化运行业务，以及容器中OS版本，HostOS中是否有业务软件以及HostOS的类型和版本。需要评估是否愿意迁移到华为云的通用OS。 - AI引擎及版本当前引

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
开发用于自定义镜像训练的代码 - AI开发平台ModelArts

/user-job-dir/code/train.py 使用Ascend自定义镜像训练时的训练代码适配规范使用NPU资源创建训练作业时，系统会在训练容器里自动生成Ascend HCCL RANK_TABLE_FILE文件。当使用预置框架创建训练作业时，在训练过程中预置框架会自动解析Ascend

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

对应的内容会与 input 对应的内容拼接后作为指令，即指令为 instruction\ninput。 output：生成的指令的答案。 system：系统提示词，用来为整个对话设定场景或提供指导原则。 history：一个列表，包含之前轮次的对话记录，每一对都是用户消息和模型回复。这有助于保持对话的一致性和连贯性。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

硬件问题：如果GPU之间的NVLINK连接存在硬件故障，那么这可能会导致带宽受限。重新安装软件后，重启系统，可能触发了某种硬件自检或修复机制，从而恢复了正常的带宽。系统负载问题：最初测试GPU卡间带宽时，可能存在其他系统负载，如进程、服务等，这些负载会占用一部分网络带宽，从而影响NVLINK带宽的表

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
Open-Sora1.2基于Lite Server适配PyTorch NPU训练推理指导（6.3.910） - AI开发平台ModelArts

download_datasets.py的内容。 import os import pandas as pd for idx, row in pd.read_csv('results_2M_val.csv').iterrows(): os.system(f"wget -O './dat

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
VS Code ToolKit连接Notebook - AI开发平台ModelArts

Code开发环境中显示Notebook实例详情页，单击“连接”，系统自动启动该Notebook实例并进行远程连接。图9 查看Notebook实例详情页第一次连接Notebook时，系统右下角会提示需要先配置密钥文件。选择本地密钥pem文件，根据系统提示单击“OK”。图10 配置密钥文件单击

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

retrying”，则表示NCCL无法找到通信网卡或者是无法正常访问IP地址。需要排查训练代码中是否有设置NCCL_SOCKET_IFNAME环境变量，该环境变量由系统自动注入，训练代码中无需设置。训练代码去除NCCL_SOCKET_IFNAME环境变量设置逻辑后，单击右侧“重建”，重新创建训练作业，提交训练作业后等待作业完成。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
执行训练任务【旧】 - AI开发平台ModelArts

/scripts_modellink/llama2/0_pl_sft_13b.sh 创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
准备MaaS资源 - AI开发平台ModelArts

使用时段，将自动转为按需收费。关于套餐包的约束限制、资源包抵扣顺序和套餐包余量预警请参见套餐包。购买操作如下：登录ModelArts管理控制台。在左侧导航栏中，选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。在ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
读取文件报错，如何正确读取文件 - AI开发平台ModelArts

read(img_path), np.uint8), 1) 在MXNet环境下使用torch包，请您尝试如下方法先进行导包： import os os.sysytem('pip install torch') import torch 父主题： OBS操作相关故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
Standard专属资源池 - AI开发平台ModelArts

ModelArts中的作业为什么一直处于等待中？ ModelArts控制台为什么能看到创建失败被删除的专属资源池？ ModelArts训练专属资源池如何与SFS弹性文件系统配置对等链接？

帮助中心 > AI开发平台ModelArts > 常见问题
训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

该进程一直处于"D+"状态，可能表明出现了I/O操作阻塞或其他问题，这可能导致系统死锁或其他问题。如果想构造nvidia-smi D+进程，可以死循环一直执行nvidia-smi体验D+进程带来的系统不稳定性，如： #!/bin/bash while true; do nvidia-smi

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
创建诊断任务 - AI开发平台ModelArts

创建诊断任务本文介绍如何创建Notebook并执行性能诊断任务。操作步骤创建Notebook实例。在ModelArts控制台创建一个Notebook实例，选择要使用的AI框架，创建Notebook时可以选择任意镜像。具体参见创建Notebook实例。创建成功后，Note

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

', type=str, default=os.path.join(file_dir, 'input_dir')) parser.add_argument('--output_dir', type=str, default=os.path.join(file_dir, 'output_dir'))

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

Megatron-DeepSpeed是一个基于PyTorch的深度学习模型训练框架。它结合了两个强大的工具：Megatron-LM和DeepSpeed，可在具有分布式计算能力的系统上进行训练，并且充分利用了多个GPU和深度学习加速器的并行处理能力。可以高效地训练大规模的语言模型。 Megatron-LM是一个用于大规

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源使用
服务韧性 - AI开发平台ModelArts
服务韧性 - AI开发平台ModelArts

使用外部已备案域名。所有中国大陆境内下沉POD区服务使用的域名已完成备案。所有中国大陆境内下沉POD区的服务均遵守国家《互联网信息服务管理办法》要求。父主题：安全

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
开发环境的应用示例 - AI开发平台ModelArts

其中，加粗的字段需要根据实际值填写： “duration”为实例运行时长，以创建时间为起点计算，即“创建时间+duration > 当前时刻”时，系统会自动停止实例。 “type”为自定停止类别，默认为timing。返回状态码为“200”表示标注成功，响应Body如下所示： { "create_at":

帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
请求超时返回Timeout - AI开发平台ModelArts

代理和网络配置。检查模型是否启动成功或者模型处理单个消息的时长。因APIG（API网关）的限制，模型单次预测的时间不能超过40S，超过后系统会默认返回Timeout错误。父主题：服务预测

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
使用ModelArts PyCharm插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

ToolKit中呈现，但Notebook实例仍然存在于控制台。如果想删除Notebook实例以释放资源，请登录ModelArts管理控制台，在Notebook管理页面进行删除。图24 断开PyCharm ToolKit中的Notebook实例SSH连接步骤4：使用PyCharm提交训练作业至ModelArts

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

--tensor-parallel-size：并行卡数。 --gpu-memory-utilization：0~1之间的float，实际使用的显存是系统读取的最大显存*gpu-memory-utilization。 --max-model-len：最大数据输入+输出长度，不能超过模型配置文件config

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）

总条数： 1306

上一页
1
...
57
58
59
...
66
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

迁移评估 - AI开发平台ModelArts

开发用于自定义镜像训练的代码 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

Open-Sora1.2基于Lite Server适配PyTorch NPU训练推理指导（6.3.910） - AI开发平台ModelArts

VS Code ToolKit连接Notebook - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

执行训练任务【旧】 - AI开发平台ModelArts

准备MaaS资源 - AI开发平台ModelArts

读取文件报错，如何正确读取文件 - AI开发平台ModelArts

Standard专属资源池 - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

创建诊断任务 - AI开发平台ModelArts

创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

服务韧性 - AI开发平台ModelArts

开发环境的应用示例 - AI开发平台ModelArts

请求超时返回Timeout - AI开发平台ModelArts

使用ModelArts PyCharm插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线