检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
获取路径:Support-E,在此路径中查找下载ModelArts 6.3.910 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 获取模型权重文件 表2 支持的模型列表 序号 支持模型 支持模型参数量 权重文件获取地址
在“创建告警规则”页面,“资源类型”选择“ModelArts”,“维度”选择“服务”,“触发规则”选择“自定义创建”,设置告警策略,完成其他信息填写后,单击“立即创建”。 方式二:对单个服务设置告警规则 登录管理控制台。 在“服务列表”中选择“管理与监管 > 云监控服务”,进入“云监控服务”管理控制台。
问Cluster机器,具体配置请参见配置Lite Cluster网络。 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info
数据处理任务描述。 duration_seconds Integer 数据处理的运行时间,单位秒。 error_msg String 错误信息,status是3时,会出现该字段。 inputs Array of ProcessorDataSource objects 数据处理任务
job_id Long 训练作业的ID。 job_name String 训练作业的名称。 job_desc String 训练作业的描述信息。 version_id Long 训练作业的版本ID。 version_name String 训练作业的版本名称。 pre_version_id
理依赖的算子包。代码包具体说明请参见模型软件包结构说明。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 支持的模型列表和权重文件 本方案支持vLLM的v0.5.0版本。不同vL
使用的区域,单击“确定”。 本示例以只允许用户使用“华南-广州”Region的服务为例。 图2 选择授权的区域范围 提示授权成功,查看授权信息,单击“完成”。此处的授权生效需要15-30分钟。 创建子用户账号。在IAM左侧菜单栏中,选择“用户”,单击右上角“创建用户”,在“创建用
志文件将保存在这个目录下 logging_steps 2 用于指定模型训练过程中,多少步输出一次日志。日志包括了训练进度、学习率、损失值等信息。建议设置 save_steps 5000 指定模型训练过程中,每多少步保存一次模型。保存的模型可以用于后续的训练或推理任务 plot_loss
254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后,检查NPU卡状态。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info
理依赖的算子包。代码包具体说明请参见模型软件包结构说明。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 支持的模型列表和权重文件 本方案支持vLLM的v0.6.0版本。不同vL
254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后,检查NPU卡状态。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info
254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后,检查NPU卡状态。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info
=session) 参数session即是1初始化的数据。返回的是一个字典,其中flavors值是一个列表,描述了训练服务支持的所有规格的信息。每个元素中flavor_id是可直接用于远程训练任务的计算规格,max_num是该规格的最大节点数。如果用户知道要使用的计算规格,可以略过这一步。
254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后,检查NPU卡状态。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info
和--speculative-model ${container_draft_model_path}同时使用。 服务启动后,会打印如下类似信息。 server launch time cost: 15.443044185638428 s INFO: Started server
志文件将保存在这个目录下 logging_steps 2 用于指定模型训练过程中,多少步输出一次日志。日志包括了训练进度、学习率、损失值等信息。建议设置 save_steps 5000 指定模型训练过程中,每多少步保存一次模型。保存的模型可以用于后续的训练或推理任务 plot_loss
响应参数 参数 参数类型 说明 is_success Boolean 请求是否成功。 error_message String 调用失败时的错误信息。 调用成功时无此字段。 error_code String 调用失败时的错误码,具体请参见错误码。 调用成功时无此字段。 job_id Long
254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 检查环境。 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info
获取路径:Support-E,在此路径中查找下载ModelArts 6.3.910 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 支持的模型列表和权重文件 本方案支持vLLM的v0.6.0版本。不同vL
集群名称,集群名称必须在外层pool_name中 nodes 是 Array of AffinityNodeInfo objects 亲和的节点列表信息 表13 AffinityNodeInfo 参数 是否必选 参数类型 描述 name 是 String 节点名称,实际上对应的是节点的私有ip