检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
另一方面,由于是使用transformers推理,结果也是最稳定的。对单卡运行的模型比较友好,算力利用率比较高。对多卡运行的推理,缺少负载均衡,利用率低。 在昇腾卡上执行时,需要在 opencompass/opencompass/runners/local.py 中添加如下代码
另一方面,由于是使用transformers推理,结果也是最稳定的。对单卡运行的模型比较友好,算力利用率比较高。对多卡运行的推理,缺少负载均衡,利用率低。 在昇腾卡上执行时,需要在 opencompass/opencompass/runners/local.py 中添加如下代码
Boolean 是否通过图片色彩来聚类。 inf_cluster_id 否 String 专属集群ID,默认为空,不使用专属集群;使用专属集群部署服务时需确保集群状态正常;配置此参数后,则使用集群的网络配置,vpc_id参数不生效。 inf_config_list 否 Array of
Boolean 是否通过图片色彩来聚类。 inf_cluster_id String 专属集群ID,默认为空,不使用专属集群;使用专属集群部署服务时需确保集群状态正常;配置此参数后,则使用集群的网络配置,vpc_id参数不生效。 inf_config_list Array of InfConfig
le文件,构建新的镜像,并上传至SWR中。 新构建的镜像中,包含有ModelLink、MindSpeed、Megatron-LM等代码,在集群中启动容器即可通过/home/ma-user/AscendSpeed路径访问。 在ModelArts中创建训练作业如:预训练,执行代码包中
Boolean 是否通过图片色彩来聚类。 inf_cluster_id String 专属集群ID,默认为空,不使用专属集群;使用专属集群部署服务时需确保集群状态正常;配置此参数后,则使用集群的网络配置,vpc_id参数不生效。 inf_config_list Array of InfConfig
资源池的创建、续费、退订等与计费相关的功能。依赖权限需要配置在IAM项目视图中。 CCE cce:cluster:list cce:cluster:get 获取CCE集群列表、集群详情、集群证书等信息。依赖权限需要配置在IAM项目视图中。 KMS kms:cmk:list kms:cmk:getMaterial 获取
0/0、端口为8080的请求放行。 否 str cluster_id 专属资源池ID,默认为空,不使用专属资源池。使用专属资源池部署服务时需确保集群状态正常;配置此参数后,则使用集群的网络配置,vpc_id参数不生效;与下方real-time config中的cluster_id同时配置时,优先使用real-time
容器所属pod的ID。 node_ip 容器所属的节点IP值。 container_id 容器ID。 cluster_id 集群ID。 cluster_name 集群名称。 container_name 容器名称。 namespace 是用户创建的POD所在的命名空间。 app_kind
le文件,构建新的镜像,并上传至SWR中。 新构建的镜像中,包含有ModelLink、MindSpeed、Megatron-LM等代码,在集群中启动容器即可通过/home/ma-user/AscendSpeed路径访问。 在ModelArts中创建训练作业如:预训练,执行代码包中
包括vCPU、GPU和NPU。 ModelArts提供了包年/包月专属资源池。假设您计划购买包年/包月的专属资源池,可在ModelArts控制台“专属资源池 > 弹性集群 > 资源池”中,单击“创建”,选择“计费模式”为“包年/包月”,在页面左下角查看所需费用。费用指的是专属资源池根据所选配置计算的费用。 计费周期
le文件,构建新的镜像,并上传至SWR中。 新构建的镜像中,包含有ModelLink、MindSpeed、Megatron-LM等代码,在集群中启动容器即可通过/home/ma-user/AscendSpeed路径访问。 在ModelArts中创建训练作业如:预训练,执行代码包中
放被挂载的NPU。 检查containerd是否安装。 containerd -v # 检查containerd是否安装 在创建CCE集群时,会选择containerd作为容器引擎,并默认给机器安装。如尚未安装,说明机器操作系统安装错误。需要重新纳管机器,重新安装操作系统。
附录:工作负载Pod异常问题和解决方法 Pod状态为Pending 当Pod状态长时间为“Pending”,事件中出现“实例调度失败”的信息时,可根据具体事件信息确定具体问题原因。 图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe
HCCL RANK_TABLE_FILE文件说明 Ascend HCCL RANK_TABLE_FILE文件提供Ascend分布式训练作业的集群信息,用于Ascend芯片分布式通信,可以被HCCL集合通信库解析。该文件格式有模板一和模板二两个版本。 ModelArts提供的是模板二
PAAS.NODE: 主机指标、网络指标、磁盘指标和文件系统指标的命名空间 PAAS.SLA:SLA指标的命名空间 PAAS.AGGR:集群指标的命名空间 CUSTOMMETRICS:默认的自定义指标的命名空间 表6 dimensions 参数 参数类型 描述 name String
训练、推理或开发环境任务的名称。 task_spec_code 训练、推理或开发环境任务的规格。 cluster_name CCE集群名称。 node级别指标 cid 该node所属CCE集群的ID。 node_ip 节点的IP。 host_name 节点的主机名。 pool_id 物理专属池对应的资源池ID。
高性能计算:主要是高带宽的需求,用于共享文件存储,比如基因测序、图片渲染这些。 如大数据分析、静态网站托管、在线视频点播、基因测序和智能视频监控等。 如高性能计算、企业核心集群应用、企业应用系统和开发测试等。 说明: 高性能计算:主要是高速率、高IOPS的需求,用于作为高性能存储,比如工业设计、能源勘探这些。 容量
WebUI套件用于推理的详细过程。完成本方案的部署,需要先联系您所在企业的华为方技术支持购买Cluster资源。 本方案目前仅适用于企业客户,并且需要用户具备k8s集群相关技能。 资源规格要求 推理部署推荐使用“西南-贵阳一”Region上的Cluster资源。 获取软件 获取插件代码包AscendCloud-6
关系使用本文档。 资源规格推荐使用“西南-贵阳一”Region上的Lite k8s Cluster和昇腾Snt9B资源。 本文档中的CCE集群版本选择v1.27~1.28。版本使用的容器引擎为Containerd。 推理部署使用的服务框架是vLLM。vLLM支持v0.6.0版本。