搜索_华为云

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

例调度失败”的信息时，可根据具体事件信息确定具体问题原因。图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败当volcano的资源出现争抢时，会出现下图中的问题。图2

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

获取对应模型的权重文件，获取链接参考表1。在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件，例如在桶standard-llama2-13b中创建文件夹llama2-13B-chat-hf。参考文档利用OBS-Browser-Plus工具将步骤1下载的权重文件上传至步骤2创建

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 准备工作
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

获取对应模型的权重文件，获取链接参考表1。在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件，例如在桶standard-llama2-13b中创建文件夹llama2-13B-chat-hf。参考文档利用OBS-Browser-Plus工具将步骤1下载的权重文件上传至步骤2创建

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
配置ModelArts委托授权 - AI开发平台ModelArts

角色授权：IAM最初提供的一种根据用户的工作职能定义权限的粗粒度授权机制。该机制以服务为粒度，提供有限的服务相关角色用于授权。由于华为云各服务之间存在业务依赖关系，因此给用户授予角色时，可能需要一并授予依赖的其他角色，才能正确完成业务。角色并不能满足用户对精细化授权的要求，无法完全达到企业对权限最小化的安全管控要求。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 配置MaaS访问授权
访问在线服务支持的传输协议 - AI开发平台ModelArts

访问在线服务支持的传输协议使用WebSocket协议的方式访问在线服务使用Server-Sent Events协议的方式访问在线服务父主题：将模型部署为实时推理作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业
在ModelArts创建分布式训练时如何设置NCCL环境变量？ - AI开发平台ModelArts

认值。表1 预置的环境变量环境变量说明 NCCL_SOCKET_IFNAME 指定通信的网卡名称。 NCCL_IB_GID_INDEX 系统设置的默认值为3，表示使用RoCE v2协议。 NCCL_IB_TC 系统设置的默认值为128，表示数据包走交换机的队列4，队列4使用PFC流控机制来保证网络是无损的。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 创建训练作业
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。购买共享存储硬盘资源（多机训练场景）用户若购买开通多个节点机器资源，并使用多机进行分布式训练时，则需要用户购买可挂载的存储硬盘资源，以实现多

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。购买共享存储硬盘资源（多机训练场景）用户若购买开通多个节点机器资源，并使用多机进行分布式训练时，则需要用户购买可挂载的存储硬盘资源，以实现多

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。购买共享存储硬盘资源（多机训练场景）用户若购买开通多个节点机器资源，并使用多机进行分布式训练时，则需要用户购买可挂载的存储硬盘资源，以实现多

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

logical_pool_name 逻辑子池的name。 gpu_uuid 容器使用的GPU的UUID。 gpu_index 容器使用的GPU的索引。 gpu_type 容器使用的GPU的型号。 account_name 训练、推理或开发环境任务创建者的账号名。 user_name 训练、推理或开发环境任务创建者的用户名。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
创建团队标注任务 - AI开发平台ModelArts

团队标注任务创建成功后，团队成员收到标注任务的邮件。图5 任务邮件单击任务邮件中的标注任务地址，跳转至ModelArts控制台的“数据准备>数据标注 > 我参与的”页面。如果未登录控制台，请先登录。在“我参与的”页签下，可查看您的标注任务。图6 标注任务数据标注访问地址

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过团队标注方式标注数据
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

获取对应模型的权重文件，获取链接参考表1。在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件，例如在桶standard-llama2-13b中创建文件夹llama2-13B-chat-hf。参考文档利用OBS-Browser-Plus工具将步骤1下载的权重文件上传至步骤2创建

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

获取对应模型的权重文件，获取链接参考表1。在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件，例如在桶standard-llama2-13b中创建文件夹llama2-13B-chat-hf。参考文档利用OBS-Browser-Plus工具将步骤1下载的权重文件上传至步骤2创建

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
注册自定义镜像 - AI开发平台ModelArts

建议仅在训练任务场景使用。 DEV: 建议仅在开发调测场景使用。 UNKNOWN: 未明确设置的镜像支持的服务类型。 services 否 Array of strings 镜像支持的服务，默认值NOTEBOOK、SSH。枚举值如下: NOTEBOOK：镜像支持通过https协议访问Notebook。

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
作为调用发起方的客户端无法访问已经获取到的推理请求地址 - AI开发平台ModelArts

在调用指南页签中显示的调用地址都是华为云APIG（API网关服务）的地址。调用发起方的客户端和华为云网络不通。处理方法如果客户端位于华为云网络之外，保证客户端所处的网络环境可以连接Internet；如果客户端位于华为云网络内，默认的网络配置即可以访问通这个地址，避免设置特殊的网络配置，例如防火墙规则等。建议与总结

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 在线服务
创建数据集 - AI开发平台ModelArts

of DataSource objects 数据集输入位置，用于将此目录及子目录下的源数据(如图片/文件/音频等)同步到数据集。对于表格数据集，该参数为导入目录。表格数据集的工作目录不支持为KMS加密桶下的OBS路径。目前仅支持传入单个DataSource。 dataset_name

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
推理部署使用场景 - AI开发平台ModelArts

本化管理，并构建为可运行的模型。部署服务：模型构建完成后，根据您的业务场景，选择将模型部署成对应的服务类型。将模型部署为实时推理作业将模型部署为一个Web Service，并且提供在线的测试UI与监控功能，部署成功的在线服务，将为用户提供一个可调用的API。将模型部署为批量推理服务

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
LLM大语言模型训练推理 - AI开发平台ModelArts

LLM大语言模型训练推理在ModelArts Studio基于Qwen2-7B模型实现新闻自动分类主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.911）主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）主流开源大模型基于Lite

帮助中心 > AI开发平台ModelArts > 最佳实践
查看日志和性能 - AI开发平台ModelArts

训练时设置的参数，具体参数查看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907）
查看日志和性能 - AI开发平台ModelArts

训练时设置的参数，具体参数查看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910）

总条数： 1323

上一页
1
...
48
49
50
...
67
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

配置ModelArts委托授权 - AI开发平台ModelArts

访问在线服务支持的传输协议 - AI开发平台ModelArts

在ModelArts创建分布式训练时如何设置NCCL环境变量？ - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

创建团队标注任务 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

注册自定义镜像 - AI开发平台ModelArts

作为调用发起方的客户端无法访问已经获取到的推理请求地址 - AI开发平台ModelArts

创建数据集 - AI开发平台ModelArts

推理部署使用场景 - AI开发平台ModelArts

LLM大语言模型训练推理 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线