检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
HPS:超节点服务 userdata 否 String 创建服务器时,用户自己定义数据。 hps_cluster_id 否 String 超节点集群网络信息,仅创建超节点需要该参数。 表3 ChargingInfo 参数 是否必选 参数类型 描述 charging_mode 是 String
|──llm_inference # 推理代码包 |──llm_tools # 推理工具 工作目录介绍 详细的工作目录参考如下,建议参考以下要求设置工作目录。训练脚本以分类的方式集中在 scripts 文件夹中。 ${work
检查证书或私钥是否设置正确。 400 ModelArts.3547 Cluster {id} does not exist. 集群{ID}不存在。 检查集群ID是否设置正确。 400 ModelArts.3548 Path {path} is not a valid regex. 路径{路径}不是有效的正则表达式。
评测动态性能脚本 ├── generate_dataset.py # 生成自定义数据集的脚本 ├── benchmark_utils.py # 工具函数集 ├── benchmark.py # 执行静态,动态性能评测脚本、 ├── requirements.txt
评测动态性能脚本 ├── generate_dataset.py # 生成自定义数据集的脚本 ├── benchmark_utils.py # 工具函数集 ├── benchmark.py # 执行静态、动态性能评测脚本 ├── requirements.txt
# 推理代码包 |──llm_tools # 推理工具 工作目录介绍 详细的工作目录参考如下,建议参考以下要求设置工作目录。训练脚本以分类的方式集中在scripts文件夹中。 ${workdi
idle:安全升级,待节点上没有作业运行时进行驱动升级 表13 PoolStatus 参数 参数类型 描述 phase String 资源池集群状态。可选值如下: Creating:创建中 Running:运行中 Abnormal:资源池不正常 Deleting:删除中 Error:资源池错误
默认关闭。如需开启此功能,请参见通过APP认证的方式访问在线服务了解详情并根据实际情况进行设置。 “订阅消息” - 订阅消息使用消息通知服务,在事件列表中选择需要监控的服务状态,在事件发生时发送消息通知。 可选:配置高级选项。 表3 高级选项参数说明 参数名称 说明 故障自动重启 开启该功能后,系统检测
关系使用本文档。 资源规格推荐使用“西南-贵阳一”Region上的Lite k8s Cluster和昇腾Snt9B资源。 本文档中的CCE集群版本选择v1.27~1.28。版本使用的容器引擎为Containerd。 推理部署使用的服务框架是vLLM。vLLM支持v0.6.0版本。
WebUI套件用于推理的详细过程。完成本方案的部署,需要先联系您所在企业的华为方技术支持购买Cluster资源。 本方案目前仅适用于企业客户,并且需要用户具备k8s集群相关技能。 资源规格要求 推理部署推荐使用“西南-贵阳一”Region上的Cluster资源。 获取软件 获取插件代码包AscendCloud-6
评测动态性能脚本 ├── generate_dataset.py # 生成自定义数据集的脚本 ├── benchmark_utils.py # 工具函数集 ├── benchmark.py # 执行静态、动态性能评测脚本 ├── requirements.txt
关系使用本文档。 资源规格推荐使用“西南-贵阳一”Region上的Lite k8s Cluster和昇腾Snt9B资源。 本文档中的CCE集群版本选择v1.27~1.28。版本使用的容器引擎为Containerd。 推理部署使用的服务框架是vLLM。vLLM支持v0.6.3版本。
置其他统计维度和周期,详细介绍请参见流水与明细账单。 查看专属资源池的账单 登录ModelArts管理控制台,在“AI专属资源池 > 弹性集群Cluster”页面,进入“Standard资源池”页签中,单击资源名称进入资源详情。 在资源详情页,切换到“规格”页签,在规格列表中复制“计量ID”。
{dataset_id}/data-annotations/stats modelarts:dataset:get - √ √ 查询数据集监控数据 GET /v2/{project_id}/datasets/{dataset_id}/metrics modelarts:dataset:get
评测动态性能脚本 ├── generate_dataset.py # 生成自定义数据集的脚本 ├── benchmark_utils.py # 工具函数集 ├── benchmark.py # 执行静态,动态性能评测脚本 执行性能测试脚本前,需先安装相关依赖。 pip install
idle:安全升级,待节点上没有作业运行时进行驱动升级 表19 PoolStatus 参数 参数类型 描述 phase String 资源池集群状态。可选值如下: Creating:创建中 Running:运行中 Abnormal:资源池不正常 Deleting:删除中 Error:资源池错误
评测动态性能脚本 ├── generate_dataset.py # 生成自定义数据集的脚本 ├── benchmark_utils.py # 工具函数集 ├── benchmark.py # 执行静态,动态性能评测脚本 执行性能测试脚本前,需先安装相关依赖。 pip install
--trust-remote-code 方式三:多机部署vLLM服务API接口启动服务(可选) 当单机显存无法放下模型权重时,可选用该种方式部署;该种部署方式,需要机器在同一个集群,NPU卡之间IP能够ping通方可,具体步骤如下: 查看卡IP。 for i in $(seq 0 7);do hccn_tool -i
训练过程中,训练日志会在最后的Rank节点打印。 日志里存在lm loss参数 ,lm loss参数随着训练迭代周期持续性减小,并逐渐趋于稳定平缓。可以使用可视化工具TrainingLogParser查看loss收敛情况。 FAQ 如果clip-vit-large-patch14-336模型不能自动下载。
正常运行完成训练,会显示如下内容。 图7 训练完成 精度一般问题不大,step_loss都是一个较小值。 训练过程中,训练日志会在最后的Rank节点打印。可以使用可视化工具TrainingLogParser查看loss收敛情况。 其它注意事项 默认500step保存一个checkpoint,可以通过在启动脚本