检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
service status to abnormal, the edge node/group(%s) may be abnormal. 请检查边缘池或边缘节点是否正常。 异常 边缘服务状态异常,异常信息:实例不存在 Update service status to abnormal
解压AscendCloud-3rdLLM-6.3.905-xxx.zip代码包。 unzip AscendCloud-3rdLLM-6.3.905-*.zip 运行推理构建脚本build.sh文件,自动获取ascend_vllm_adapter文件夹中提供的vLLM相关算子代码。 cd llm_inference
阅读并同意《华为云AI Gallery数字内容发布协议》和《华为云AI Gallery服务协议》。 单击“发布”。 发布使用容器镜像导入的资产时,后台会进行资产安全扫描,如果扫描发现资产有问题,则资产发布失败并邮件通知发布者。 编辑资产详情 资产发布成功后,发布者可以进入详情页修改该资产的标题、封面图、描述等,让资产更吸引人。
在详情页的Workflow列表区域,单击“前往AI Gallery订阅”。 搜索“图像分类-ResNet_v1_50工作流”,单击“订阅”,勾选“我已同意《数据安全与隐私风险承担条款》和《华为云AI Gallery服务协议》”,单击“继续订阅”即可完成工作流的订阅。订阅过的工作流会显示“已订阅”。 运行工作流
且每种标签已标注的图片不少于5张。 启动智能标注时,必须存在未标注图片。 启动智能标注前,保证当前系统中不存在正在进行中的智能标注任务。 检查用于标注的图片数据,确保您的图片数据中,不存在RGBA四通道图片。如果存在四通道图片,智能标注任务将运行失败,因此,请从数据集中删除四通道图片后,再启动智能标注。
阅读并同意《华为云AI Gallery数字内容发布协议》和《华为云AI Gallery服务协议》。 单击“发布”。 发布使用容器镜像导入的资产时,后台会进行资产安全扫描,如果扫描发现资产有问题,则资产发布失败并邮件通知发布者。 编辑资产详情 资产发布成功后,发布者可以进入详情页修改该资产的标题、封面图、描述等,让资产更吸引人。
log_path String 自定义镜像日志存储路径。 custom_script_path String Notebook启动时的自定义初始化脚本路径。 extend_storage Array<Storage> 扩展存储列表,如表4所示。扩展存储当前仅支持type为“obsfs”的类型,且仅对部分专属资源池开放。
log_path String 自定义镜像日志存储路径。 custom_script_path String Notebook启动时的自定义初始化脚本路径。 extend_storage Array<Storage> 扩展存储列表,如表4所示。扩展存储当前仅支持type为“obsfs”的类型,且仅对部分专属资源池开放。
步骤3:在模型体验使用模型服务:在模型体验页面,体验部署的模型服务,进行对话问答。 准备工作 已注册华为账号并开通华为云,且在使用ModelArts前检查账号状态,账号不能处于欠费或冻结状态。 配置委托访问授权 ModelArts使用过程中涉及到与OBS、SWR等服务交互,首次使用Model
FlashAttention和MatMul两类算子,导致这两类算子的计算性能劣化,从而影响了整体的训练性能。按照html中给出的建议,需要检查8号卡和60号卡对应节点的温度和最大功率。 图5 性能分析报告展示 图6 计算维度节点降频问题 图7 节点降频及其影响算子 父主题: 基于
updateStrategy String 驱动升级策略。可选值如下: force:强制升级,立即升级节点驱动,可能影响节点上正在运行的作业 idle:安全升级,待节点上没有作业运行时进行驱动升级 表12 PoolStatus 参数 参数类型 描述 phase String 资源池集群状态。可选值如下:
MRS集群ID。可登录MRS控制台查看。 cluster_mode 否 String MRS集群运行模式。可选值如下: 0:普通集群 1:安全集群 cluster_name 否 String MRS集群名称。可登录MRS控制台查看。 database_name 否 String 导入表格数据集,数据库名字。
创建服务器是否启用IPV6。 roce_id 否 String 服务器RoCE网络ID。 security_group_id 是 String 服务器所在的安全组ID。 subnet_id 是 String 服务器所在子网ID。 vpc_id 是 String 服务器所在虚拟私有云ID。 表5 EvsVolume
updateStrategy String 驱动升级策略。可选值如下: force:强制升级,立即升级节点驱动,可能影响节点上正在运行的作业 idle:安全升级,待节点上没有作业运行时进行驱动升级 表12 PoolStatus 参数 参数类型 描述 phase String 资源池集群状态。可选值如下:
ma_node_cache_space_used_percent 该指标用于统计k8s空间的使用率 百分比(Percent) ≥0 连续2个周期原始值 > 90% 紧急 请及时检查,防止磁盘写满影响业务。推荐清理计算节点无效数据。 容器空间的总量 ma_node_container_space_capacity_megabytes
8089;端口设置顺序必须与global rank table文件中各全量和增量节点顺序一致,否则会报错。 确保scheduler实例和P、D实例之间网络通畅,检查代理设置例如no_proxy环境变量,避免scheduler访问P、D实例时走不必要的网关。 前提条件 已完成推理环境镜像制作,具体参见准备推理环境。
restartPolicy: OnFailure 根据config.yaml创建pod。 kubectl apply -f config.yaml 检查pod启动情况,执行下述命令。如果显示“1/1 running”状态代表启动成功。 kubectl get pod -A 进入容器,{po
当前ModelArts在华北-北京四区域,在对象存储服务创建桶时,请选择华北-北京四。请参考查看OBS桶与ModelArts是否在同一区域检查您的OBS桶区域与ModelArts区域是否一致。 请勿开启桶加密,ModelArts不支持加密的OBS桶,会导致ModelArts读取OBS中的数据失败。
当前ModelArts在华北-北京四区域,在对象存储服务创建桶时,请选择华北-北京四。请参考查看OBS桶与ModelArts是否在同一区域检查您的OBS桶区域与ModelArts区域是否一致。 请勿开启桶加密,ModelArts不支持加密的OBS桶,会导致ModelArts读取OBS中的数据失败。
updateStrategy String 驱动升级策略。可选值如下: force:强制升级,立即升级节点驱动,可能影响节点上正在运行的作业 idle:安全升级,待节点上没有作业运行时进行驱动升级 表13 PoolStatus 参数 参数类型 描述 phase String 资源池集群状态。可选值如下: