搜索_华为云

BF16和FP16说明 - AI开发平台ModelArts

速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。综上所述，BF16因其与FP32相似的数值范围和稳定性，在大模型训练中提供了优势。而FP16则在计算效率和内存使用方面有其独特的优点，但可能在数

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
BF16和FP16说明 - AI开发平台ModelArts

速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。综上所述，BF16因其与FP32相似的数值范围和稳定性，在大模型训练中提供了优势。而FP16则在计算效率和内存使用方面有其独特的优点，但可能在数

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明
DockerFile构建镜像（可选） - AI开发平台ModelArts

DockerFile构建镜像（可选）本章节主要介绍通过DockerFile文件构建训练镜像，将训练过程中依赖包封装使用，过程中需要连接互联网git clone，请确保环境可以访问公网，详解操作如下：进入代码包Dockerfile文件同级目录： cd /home/ma-user

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 准备工作
如何解决训练过程中出现的cudaCheckError错误？ - AI开发平台ModelArts

原因分析因为编译的时候需要设置setup.py中编译的参数arch和code和电脑的显卡匹配。解决方法对于GP Vnt1的显卡，GPU算力为-gencode arch=compute_70,code=[sm_70,compute_70]，设置setup.py中的编译参数即可解决。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
创建Standard专属资源池 - AI开发平台ModelArts

供了多个CIDR网段的选项，用户可以根据自己的实际情况进行选择。虚拟私有云VPC是一套为实例构建的逻辑隔离的、由用户自主配置和管理的虚拟网络环境。为云服务器、云容器、云数据库等资源构建隔离的、用户自主配置和管理的虚拟网络环境，提升用户资源的安全性，简化用户的网络部署。登录Mod

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
BF16和FP16说明 - AI开发平台ModelArts

速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。综上所述，BF16因其与FP32相似的数值范围和稳定性，在大模型训练中提供了优势。而FP16则在计算效率和内存使用方面有其独特的优点，但可能在数

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
BF16和FP16说明 - AI开发平台ModelArts

速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。综上所述，BF16因其与FP32相似的数值范围和稳定性，在大模型训练中提供了优势。而FP16则在计算效率和内存使用方面有其独特的优点，但可能在数

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
创建DevServer - AI开发平台ModelArts

EndpointsRes objects 服务器的私有IP信息。 image ServerImageResponse object 服务器镜像信息。 category String 服务器归属类型。 HPS：超节点服务器 SPOD：整柜服务器 SERVER：单台服务器 server_hps ServerHpsInfo

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
推理精度测试 - AI开发平台ModelArts

opencompass也支持通过本地权重来进行ppl精度测试。本质上使用transformers进行推理，因为没有框架的优化，执行时间最长。另一方面，由于是使用transformers推理，结果也是最稳定的。对单卡运行的模型比较友好，算力利用率比较高。对多卡运行的推理，缺少负载均衡，利用率低。在昇腾卡上执行时，需要在

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907）
DockerFile构建镜像（可选） - AI开发平台ModelArts

DockerFile构建镜像（可选）本章节主要介绍通过DockerFile文件构建训练镜像，将训练过程中依赖包封装使用，过程中需要连接互联网git clone，请确保环境可以访问公网，详解操作如下：进入代码包Dockerfile文件同级目录： cd /home/ma-user

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 准备工作
推理精度测试 - AI开发平台ModelArts

opencompass也支持通过本地权重来进行ppl精度测试。本质上使用transformers进行推理，因为没有框架的优化，执行时间最长。另一方面，由于是使用transformers推理，结果也是最稳定的。对单卡运行的模型比较友好，算力利用率比较高。对多卡运行的推理，缺少负载均衡，利用率低。在昇腾卡上执行时，需要在

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
添加资源标签 - AI开发平台ModelArts

添加资源标签功能介绍给指定服务添加标签（目前只支持在线服务），当添加的标签key已存在，则覆盖该标签的value。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
在MaaS体验模型服务 - AI开发平台ModelArts

在MaaS体验模型服务在ModelArts Studio大模型即服务平台，运行中的模型服务可以在“模型体验”页面在线体验模型服务的推理效果。前提条件在“模型部署”的服务列表存在“运行中”的模型服务。操作步骤登录ModelArts管理控制台，在左侧导航栏中，选择“ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
查询所有Notebook实例列表 - AI开发平台ModelArts

AARCH64：ARM体系架构。 create_at Long 镜像创建的时间，UTC毫秒。 description String 该镜像所对应的描述信息，长度限制512个字符。 dev_services Array of strings 镜像支持的服务。枚举值如下： NOTEBOOK：镜像支持通过https协议访问Notebook。

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
查询Notebook实例列表 - AI开发平台ModelArts

AARCH64：ARM体系架构。 create_at Long 镜像创建的时间，UTC毫秒。 description String 该镜像所对应的描述信息，长度限制512个字符。 dev_services Array of strings 镜像支持的服务。枚举值如下： NOTEBOOK：镜像支持通过https协议访问Notebook。

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
在ModelArts的VS Code中如何把本地插件安装到远端或把远端插件安装到本地？ - AI开发平台ModelArts

在ModelArts的VS Code中如何把本地插件安装到远端或把远端插件安装到本地？在VS Code的环境中执行Ctrl+Shift+P 搜install local，按需选择即可父主题： Standard Notebook

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
管理Standard专属资源池的游离节点 - AI开发平台ModelArts

管理Standard专属资源池的游离节点如果资源中存在游离节点，即没有被纳管到资源池中的节点，可在“AI专属资源池 > 弹性集群Cluster >节点”下查看此类节点的相关信息。系统支持对游离节点进行续费、退订、开通/修改自动续费、添加/编辑资源标签、删除资源标签、搜索等操作。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
自动续费 - AI开发平台ModelArts
自动续费 - AI开发平台ModelArts

自动续费自动续费可以减少手动续费的管理成本，避免因忘记手动续费而导致ModelArts中专属资源池不能使用。自动续费的规则如下所述：以专属资源池的到期日计算第一次自动续费日期和计费周期。专属资源池自动续费周期以您选择的续费时长为准。例如，您选择了3个月，专属资源池即在每次到期前自动续费3个月。

帮助中心 > AI开发平台ModelArts > 计费说明 > 续费
训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

被中断。在正常情况下，nvidia-smi进程通常只会短暂地出现D+状态，因为它们是由内核控制的，该进程处于等待I/O操作完成的状态，可能是在读取或写入GPU相关的数据，这是正常的操作。但是，如果该进程一直处于"D+"状态，可能表明出现了I/O操作阻塞或其他问题，这可能导致系统死锁或其他问题。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
查询专属资源池作业列表 - AI开发平台ModelArts

gvk String 作业的k8s资源类型、分组和版本。 hostIps String 作业运行的节点IP列表，逗号分隔。表5 resourceRequirement 参数参数类型描述 cpu String CPU使用量。 memory String 内存使用量。 nvidia.com/gpu

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理

总条数： 2629

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

BF16和FP16说明 - AI开发平台ModelArts

BF16和FP16说明 - AI开发平台ModelArts

DockerFile构建镜像（可选） - AI开发平台ModelArts

如何解决训练过程中出现的cudaCheckError错误？ - AI开发平台ModelArts

创建Standard专属资源池 - AI开发平台ModelArts

BF16和FP16说明 - AI开发平台ModelArts

BF16和FP16说明 - AI开发平台ModelArts

创建DevServer - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

DockerFile构建镜像（可选） - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

添加资源标签 - AI开发平台ModelArts

在MaaS体验模型服务 - AI开发平台ModelArts

查询所有Notebook实例列表 - AI开发平台ModelArts

查询Notebook实例列表 - AI开发平台ModelArts

在ModelArts的VS Code中如何把本地插件安装到远端或把远端插件安装到本地？ - AI开发平台ModelArts

管理Standard专属资源池的游离节点 - AI开发平台ModelArts

自动续费 - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

查询专属资源池作业列表 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线