华为云用户手册

  • 升级支持计划 华为云支持提升支持计划级别,如将商业级提升为企业级。升级支持计划涉及补扣差额支持费用。 升级涉及支持费用变化:先计算剩余服务时间新支持计划所需基础支持费用,减去老支持计划结余基础支持费用,则为需要补扣的预付基础支持费。增量支持费于月结时分别划扣老支持计划和新支持计划各对应天数产生的按量费用。 升级涉及云上保障护航服务(基础版)配额调整。举例来说,如客户订购开发者级支持计划1年,服务期内申请升级到企业级支持计划,查看支持计划剩余时长是否超过六个月。如果超过六个月,则可获得限额服务。 支持计划升级不涉及可用性检查、资源监控与优化等限额增值服务配额调整。举例来说,如客户订购开发者级支持计划1年,服务期内申请升级到企业级支持计划,因升级而订购的企业级支持计划不满1年,故无法获得限额增值服务。
  • 服务范围 华为云技术、产品、解决方案使用咨询。 使用华为云技术、产品、解决方案过程中的最佳实践。 使用 华为云产品 过程中的问题定位和故障排除协助。 使用华为云API和SDK过程中的接口咨询和故障排除协助。 使用华为云产品过程中相关的第三方软件配置指导以及故障排除协助。 支持计划服务范围不包含: 代码开发。 云上业务操作及代运维。 不在第三方软件支持中的配置指导以及故障排查。 任何未经认证的IM沟通群及非华为云服务支持企业服务群服务支持。 所有第三方软件的安装、补丁更新、测试、故障诊断、优化等日常运维服务。
  • 修订记录 发布日期 修订记录 2024-11-25 第八次正式发布。 更新什么是支持计划、产品规格、服务目录、支持方式、支持计划响应SLA、第三方软件支持、云上保障护航服务(基础版)、计费说明章节。 2024-04-18 第七次正式发布。 更新服务范围。 2021-04-27 第六次正式发布。 更新服务目录章节。 新增架构支持章节。 2021-04-02 第五次正式发布。 新增可用性检查章节。 新增资源监控与优化章节。 2020-03-31 第四次正式发布。 新增计费说明。 2019-10-08 第三次正式发布。 服务内容章节结构优化。 2019-09-11 第二次正式发布。 企业服务月报章节新增数据采集说明。 2019-01-31 第一次正式发布。
  • 云上保障护航服务(基础版) 华为云提供云上保障护航服务(基础版),在客户进行产品发布,业务推广或促销、重要节日业务高峰、数据迁移、应用升级等重大营销或技术活动时,提供活动前容量确认,活动中的7x24小时专人后台巡检、快速响应,保障企业客户活动平稳进行。 云上保障护航服务(基础版)主要工作内容: 活动前,分析客户重大活动业务特点和容量需求预测,确保后台资源满足客户活动时的容量需求和云平台稳定运行。 活动中,值守保障团队7x24小时后台巡检,IM保障群、指定的技术服务经理、WAR Room专家值守;优先受理紧急技术事件,事件响应时长小于10分钟。 支持计划级别 服务配额 商业级 包年购买或连续购满一年,每年1次1个自然日 企业级 包年购买或连续购满一年,提供每年累计3个自然日;或连续购满半年,提供1个自然日;每次保障服务以整数天申请 包年购买或连续购满一定时长商业级、企业级支持计划方可享受有限天数的云上保障护航服务(基础版)。如需要更长时间的深度护航服务请购买云上保障护航服务(标准版)。标准版适合于上线或活动场景业务并发量高或者业务复杂,对业务保障质量要求高的客户。为保证活动前的充分准备,建议客户提前10个工作日提出云上保障护航服务(基础版)申请。 客户一旦申请云上保障护航服务(基础版)增值服务,将无法退订或降级当期支持计划订单。 父主题: 服务内容
  • 可用性检查 分析云上业务的资源分布情况,识别云服务高可用、云服务部署实践、云服务使用限制3个方面的风险,提供针对性的优化建议。 云服务高可用:聚焦云服务可用区(AZ)内高可用设计,业务设计为主备、集群等方式。 云服务部署实践:侧重云服务部署,包括云服务资源规格选型、云服务使用方式等。 云服务使用限制:列举云服务使用限制,包括云服务资源配额、带宽限速等。 支持计划级别 包年购买可获服务配额 企业级 赠送1次 包年购买企业级支持计划方可享受该服务,需提前3个工作日提出申请。 可用性检查仅包年购买企业级支持计划才限额赠送。客户一旦申请该限额增值服务,将无法退订或降级当期支持计划订单。 父主题: 服务内容
  • 企业服务月报 每个自然月的10日(遇法定节假日顺延相应天数)前向客户的华为云注册邮箱和客户要求的其他邮箱发送上月服务月报。 华为云为企业客户提供的包括云资源运行状态和服务支持的月度总结报告,也会包含依据华为云最佳实践经验给出的优化建议。 月报内容主要包括以下方面内容: 概要 服务总结 资源概况 服务工单 安全防护 优化建议 在一些特殊情况下,可能因数据采集制约导致华为云无法生成和发送月报。例如,尚处于上云POC阶段的部署架构可能变动较大不适宜生成月报;专属云特定部署场景也可能导致工具无法采集到月报数据。 在输出服务月报的过程中,华为云需采集客户的基础设施运维数据。所有数据仅用于制作服务月报,不会用于其他任何目的。数据采集类型和用途说明如表1所示。 表1 数据采集类型说明 数据类型 说明 采集和存储方式 数据用途 服务工单数据 技术类、业务类工单清单。 工单的id、描述、问题级别、创建时间、解决时间等工单信息。 经自动化工具调用工单API查询结果,中途不存储数据,月报结果按照租户隔离存储。 自动化统计分析,生成月报“服务工单”内容。 云服务资源实例数据 客户创建的资源列表,各资源数量。 资源id、名称、状态、规格、创建时间、IP地址、使用量及服务资源相关的基本配置信息。 经自动化工具调用云服务API查询结果,中途不存储数据,月报结果按照租户隔离存储。 自动化统计分析,生成月报“资源概况”内容。 资源负载监控数据 CPU使用率、内存使用率、磁盘使用率、磁盘读写速率、IP出口带宽、IP入口带宽、并发连接数、新建连接数、网络延迟、网络丢包率等资源监控指标。 经自动化工具调用云服务API查询结果,中途不存储数据,月报结果按照租户隔离存储。 自动化统计分析,生成月报“资源概况”内容。 安全配置和监控数据 IAM 用户信息、安全组配置、日志审计开关、OBS访问控制策略、安全组配置、DDOS封堵或清洗引流记录、WAF配置及应用攻击记录等。 经自动化工具调用云服务API查询结果,中途不存储数据,月报结果按照租户隔离存储。 自动化统计分析,生成月报“安全防护”内容。 消费数据 客户帐号月度消费详单。 经自动化工具调用运营API查询结果,中途不存储数据,月报结果按照租户隔离存储。 自动化统计分析,生成月报“消费趋势”内容。 父主题: 服务内容
  • 资源监控与优化 针对云上资源的告警情况、负载情况和健康情况进行检查。从监控的角度分析业务场景和历史故障,结合华为云运维最佳实践,提供针对性的优化建议。 资源监控与优化包括: 基础资源监控,提供基于华为云 CES 云监控 )的云资源指标及事件监控的配置建议。 应用&容器监控,提供基于华为云 AOM 应用运维管理 )的应用及云资源指标及事件监控的配置建议。 支持计划级别 包年购买可获服务配额 企业级 赠送1次 包年购买企业级支持计划方可享受该服务,需提前3个工作日提出申请。 资源监控与优化仅包年购买企业级支持计划才限额赠送。客户一旦申请该限额增值服务,将无法退订或降级当期支持计划订单。 父主题: 服务内容
  • 什么是支持计划 支持计划是华为云服务的售后支持产品套餐包,是获取华为云服务技术支持的渠道。服务内容涵盖华为云产品使用、基于华为云产品的架构部署、解决方案等方面的技术支持,支持方式包括工单、热线电话、IM企业群等。支持计划提供基础级、开发者级、商业级、企业级四个支持等级,可满足不同规模和技术能力的客户,客户可根据对响应时间与服务内容的需求灵活选择。 支持计划服务可按包年/包月订购,如果包年订购商业级或连续购满一年商业级或企业级支持计划,或连续购满半年企业级支持计划,还可获赠相关额外服务。通过华为云支持计划,华为云技术人员为客户提供主动、专业的支持服务,帮助客户聚焦基于华为云产品创造业务价值。华为云支持计划服务范围如服务范围所示。
  • 验收服务单 登录华为云控制台页面,进入“我的服务单”页面。 在状态为“待您验收”的服务单的“操作”栏单击“验收”,进入服务单的验收页面。 在“服务单完成信息”区域了解服务单的完成情况。 您可以单击“下载”获取详细的服务报告。 验收服务单。 如果服务单满足交付要求,请单击“立即验收”。 如果服务单不满足交付要求,请单击“验收延期”,并填写延期原因。 您可以在发起验收后的9天内完成验收。如您期间未验收,系统届时将自动进行验收。
  • 操作步骤 访问支持计划页面。 单击“立即购买”。 图1 立即购买 进入支持计划购买页面,选择购买的支持计划规格和购买时长,并勾选“我已经阅读并同意《支持计划服务声明》”,单击“立即购买”。 图2 选择支持计划级别 在订单确认页面,单击“支付”。 图3 购买 在确认付款页面,选择支付方式,单击“确认付款”。 图4 确认付款 在身份验证页面,可选择手机或者邮箱进行身份验证,输入验证码,单击“确定”,完成支付。
  • 操作步骤 创建VPC。 创建VPC的方法请参见创建虚拟私有云和子网。 您也可以使用已有VPC。 VPC网段不能与IDC的网段重复。 使用DC或VPN连接VPC。 具体连接方法请参见如下链接。 VPN:https://support.huaweicloud.com/qs-vpn/vpn_qs_00003.html DC:https://support.huaweicloud.com/qs-dc/zh-cn_topic_0145790541.html 创建IEF终端节点,使得边缘节点能够与IEF连接。 共需要创建三个终端节点,分别为ief-placement、ief-edgeaccess和ief-telemetry。具体创建步骤如下。 登录VPCEP控制台,单击右上角的“购买终端节点”。 选择IEF的终端节点和虚拟私有云。 图2 创建IEF终端节点 单击“立即购买”,确认信息无误后单击“提交”,完成创建。 创建SWR终端节点,使得边缘节点能够从SWR拉取容器镜像。 创建方法与创建IEF终端节点相同。 图3 创建SWR终端节点 创建DNS和OBS终端节点,使得边缘节点能够访问OBS。 具体方法请参见访问OBS。 给边缘节点添加hosts配置。 查询IEF和SWR的终端节点IP地址,共4个IP地址,配置到边缘节点的“/etc/hosts”文件中。 图4 查询终端节点IP地址 打开“/etc/hosts”文件,在文件末尾加入如下配置,使得访问IEF和SWR的 域名 指向终端节点的IP地址。 此处IP地址和域名需要根据实际情况修改,IP地址为上面步骤查询到的地址,不同区域的域名不相同,具体请参见域名地址。 192.168.2.20ief2-placement.cn-north-1.myhuaweicloud.com192.168.2.142ief2-edgeaccess.cn-north-1.myhuaweicloud.com192.168.2.106 ief2-telemetry.cn-north-1.myhuaweicloud.com192.168.2.118 swr.cn-north-1.myhuaweicloud.com 注册并纳管边缘节点,具体步骤请参见边缘节点概述。
  • 连接方案说明 纳管边缘节点部署应用时,需要能够与IEF、SWR、OBS通信,在无法通过公网连接的情况下,可以先通过VPN或专线(DC)与华为云VPC连接,然后通过 VPC终端节点 服务,让VPC能够在内网访问IEF、SWR和OBS,具体连接方案如图1所示。 与IEF连接需要创建三个终端节点,分别为如下三个。 ief-placement:用于边缘节点的纳管和升级。 ief-edgeaccess:用于边缘节点与IEF发送边 云消息 。 ief-telemetry:边缘节点上传监控和日志数据。 与SWR连接需要创建一个终端节点,与OBS通信需要创建OBS和DNS两个终端节点(OBS只能通过域名访问,需要通过DNS动态解析OBS的地址才能访问到)。 图1 通过专线或VPN连接IEF
  • 域名地址 铂金版ief-edgeaccess有单独的地址,请在IEF控制台“总览”页面查询,云端接入域名的取值即为edgeaccess域名。 区域 名称 域名 华北-北京一 ief-placement ief2-placement.cn-north-1.myhuaweicloud.com ief-edgeaccess ief2-edgeaccess.cn-north-1.myhuaweicloud.com ief-telemetry ief2-telemetry.cn-north-1.myhuaweicloud.com swr swr.cn-north-1.myhuaweicloud.com 华北-北京四 ief-placement ief2-placement.cn-north-4.myhuaweicloud.com ief-edgeaccess ief2-edgeaccess.cn-north-4.myhuaweicloud.com ief-telemetry ief2-telemetry.cn-north-4.myhuaweicloud.com swr swr.cn-north-4.myhuaweicloud.com 华南-广州 ief-placement ief-placement.cn-south-1.myhuaweicloud.com ief-edgeaccess ief-edgeaccess.cn-south-1.myhuaweicloud.com ief-telemetry ief-telemetry.cn-south-1.myhuaweicloud.com swr swr.cn-south-1.myhuaweicloud.com 华东-上海一 ief-placement ief-placement.cn-east-3.myhuaweicloud.com ief-edgeaccess ief-edgeaccess.cn-east-3.myhuaweicloud.com ief-telemetry ief-telemetry.cn-east-3.myhuaweicloud.com swr swr.cn-east-3.myhuaweicloud.com 华东-上海二 ief-placement ief2-placement.cn-east-2.myhuaweicloud.com ief-edgeaccess ief2-edgeaccess.cn-east-2.myhuaweicloud.com ief-telemetry ief2-telemetry.cn-east-2.myhuaweicloud.com swr swr.cn-east-2.myhuaweicloud.com
  • 华为云IEM市场介绍 IEM是华为云云市场面向智能边缘平台 IEF 基础上构建的开发者、边缘硬件提供商、ISV 以及系统集成商的智能边缘市场,提供边缘应用(如 AI 推理模型、IoT 数据接入、消息中间件)、边缘硬件、边云协同解决方案等内容共享功能,为边缘应用开发商、解决方案集成商、企业及个人开发者等群体,提供安全、开放的边缘计算产业的共享环境,有效连接边缘计算开发生态链各参与方,加速边缘计算解决方案产品的开发与落地。 边缘应用中心:发布及订阅边缘应用 完整的边云协同解决方案在边缘会由许多独立功能组成,可能会包括不同的业务逻辑,比如: 提供数据分析框架,如流计算、 时序数据库 等,在边缘进行数据清洗以及可视化处理; 在边缘节点上执行高价值 AI 推理模型,例如图像识别、视频分析、 文字识别 ; 提供边缘消息总线,如 MQTT Broker 等; 从使用 OPC-UA、Modbus 等特定协议的设备读取数据,满足工业设备的数据接入需求; 边缘应用开发商可以在边缘应用中心认证自己的账号并进行管理,开发商可以将自己的应用打包为容器镜像并发布到市场,同时可以为自己的应用设置License 控制权限。这些发布的应用将会经过质量认证,并针对安全漏洞进行扫描,保证其的稳定性和安全性。 解决方案集成商从边缘应用中心选择自己的需要的边缘应用,一键快速部署到边缘节点,及时响应市场需求,快速推进项目落地,把握住商业机会。 边缘硬件中心:促成硬件提供商与解决方案集成商双赢 边缘硬件中心的主要功能是硬件提供商可以发布与 IEF 兼容的硬件产品,边缘计算解决方案集成商可以在边缘硬件中心选择适合自己场景的边缘硬件。边缘硬件中心的硬件将覆盖服务器、工控机、工业网关、开发板等类型,硬件架构覆盖 X86、ARM,可以满足大部分客户的诉求。 边云协同解决方案 基于IEF构建的边云协同解决方案包含边缘应用、边缘硬件以及上层业务系统,是面向客户或系统集成商的解决方案,可广泛应用于智慧园区、智能制造、物流、智慧城市、水利等场景,方便客户或系统集成商快速选择适合自己的方案,快速实现项目落地。
  • IEM上架概述 IEM支持容器镜像类、SaaS类、License类、硬件类和解决方案类商品上架。 作为服务商,在IEM中上架一个商品流程基本如下所示。 设计方案。请参见解决方案设计指导。 方案验证。 使用IEF对集成方案进行验证。并输出《XXXX解决方案验证报告》 关于验证资源的获取,虚拟机等资源需要购买。验证过程中获取验证支持,请联系IEF咨询。 入驻云市场,具体流程请参见服务商入驻。 商品上架IEM,具体的上架指导与说明如下所示。 边缘应用中心: 可以上架容器镜像类、SaaS类和License类商品。 容器镜像类上架说明 SaaS类商品上架说明 License类商品上架说明 边缘硬件中心:可以上架硬件类商品,具体请参见硬件类商品上架说明。 父主题: 如何上架IEM
  • 华为云IEM能给伙伴什么 华为云云市场提供丰富的扶持资源,包括服务体系、营销销售支持等。 完善的合作伙伴服务体系 华为云云市场完善了包括入驻前、入驻中、入驻后、交易、结算、售后、运营等一套多环节的标准化流程,服务云市场合作伙伴。 运营和销售支持 华为云云市场为合作伙伴提供一对一的运营支持,帮助伙伴分析业务痛点,助力伙伴高效解决问题。合作伙伴可以获得华为品牌影响力、丰富的海内外销售和行业资源等助力,强势助力合作伙伴的产品交易量提升。对于经销商伙伴来说,具有华为云的售前咨询、销售、服务能力的经销商伙伴,在加入严选转售计划之后可以将严选商品推荐销售给用户,丰富了经销商的可销售商品。严选商品 定价 模式灵活,且有充足的差价利润,有利于经销商获得商业利益。
  • 整体方案 视频AI解决方案提供了在边侧预处理视频、处理后的数据回传云端、云端使用FRS进行 人脸识别 的功能。可以避免大量数据上传云端,响应更及时。具体方案是: 图1 视频AI解决方案架构图 通过IEF节点证书将边缘节点接入IEF, 并绑定摄像头设备到边缘节点 通过IEF从云端下发视频AI算法镜像到边缘节点 边侧算法容器接收摄像头传输的视频流,进行实时分析 算法容器对视频实时分析后,结构化数据通过IEF边云数据通道回传云端,比如DIS等服务。 云上应用获取边侧回传的数据,进行处理。 该方案由如下几个角色构成,在实际项目中可能其中的某些角色是合并为一个实体的: 华为云IEF 提供IEF服务,提供了边缘节点、终端设备、容器应用的管理平台、边云数据消息通道。 硬件服务商 提供与IEF兼容的硬件产品,比如服务器。 视频AI算法提供商 提供视频AI算法,比如人脸检测、人脸识别等 解决方案服务商 使用IEF的能力,集成AI算法,边缘硬件及上层业务系统,提供端到端的视频AI整体解决方案的商业支持。 最终用户 使用视频AI解决方案,应用于智慧园区等场景,进行安全防控等。
  • 解决方案设计指导 对于解决方案类商品,您需要结合IEF进行设计,提供给用户端到端的解决方案。 如下图所示,IEF通过纳管您的边缘节点,将云上应用延伸到边缘,可以实时处理终端设备的数据,同时在云端提供设备/应用监控、日志采集等功能,以及边云消息通道功能用于边缘上传数据到云端或者数据从云端发到边缘。提供完整的边云协同的解决方案。 图1 边缘云计算 首先使用IEF进行边缘节点注册,以及摄像头设备与边缘节点的绑定,并下发算法容器至边缘节点;然后在边缘节点分析视频数据,分析后的结构化数据使用IEF边云数据通道回传云端,云端应用根据回传的数据进行处理。整个方案减少无用数据上云。 在进行方案集成和上架之前,您需提前思考整个解决方案的价值,站在用户的角度考虑该方案可以帮助用户解决哪些具体问题,用户该如何操作、使用和集成该方案。因此,建议您先从设计解决方案的User Story开始,通过对User Story的总结和整理,设计后续的解决方案实现和上架方案。 用户为华为公有云的用户,用户的入口永远是华为公有云IEF服务,所以集成解决方案的设计也应该站在用户角度进行端到端的使用考虑其使用体验,而非仅从您提供的组件功能进行设计。 在向最终用户提供完整的边云协同解决方案的过程中,您需要了解IEF的功能,以便决定在哪些方面可以借用IEF的能力。您可以访问智能边缘平台IEF用户指南获取详细信息。 总结而言,主要可在如下方面需要考虑对接IEF相关的相关能力为最终用户提供完整、统一、集中式的边云协同解决方案: 集中式的边缘对象管理:边缘节点管理、终端设备管理 边缘节点用于运行边缘应用,处理您的数据,并可以和云端应用进行协同。您可以参考边缘节点获取详细信息。 终端设备可以连接到边缘节点,支持通过MQTT协议、Modbus协议和OPC-UA协议等接入。设备接入后,可以在IEF中对设备进行统一管理。您可以参考设备管理获取详细信息。 边缘应用管理:容器应用管理和运维 IEF支持下发容器应用到边缘节点,使应用在边缘侧运行,并且IEF支持对应用进行版本升级、配置变更、卸载、监控和日志采集。 另外,IEF基于Kubernetes构建,可以通过Kubernetes的标准部署模型,支持边缘多节点的应用集群部署。您可以参考容器应用下发和管理容器应用。 边缘侧的节点指标信息(CPU、内存、磁盘、网络等)、IEF EdgeCore运行信息、用户应用的运行指标、用户应用的日志信息均可通过IEF进行收集,并在华为公有云的AOM服务上进行展示。您可以参考容器应用中的“数据存储”章节获取如何将用户容器中的日志收集至AOM服务。可以参考应用运维管理AOM用户指南了解AOM的具体使用方法。 边云数据协同:消息路由管理 IEF提供了消息路由功能,为应用提供边云信息传输的通道。您可以配置消息路由,IEF根据配置的消息路由将边缘消息转发至对应服务端点(发送或接收消息的一方),让消息按照规定的路径转发,灵活控制数据路由,并提高数据安全性。您可以参考边云消息概述获取详细信息。其中云端发送消息至边缘节点时,支持AK/SK认证以及Token认证方式,具体参见云端下发消息到边缘节点和AK/SK认证。 管理控制台 IEF提供了管理控制台,方便您在界面直接进行边缘资源等操作。 以上能力均可通过调用IEF的API实现,您可以根据业务需求选择使用IEF控制台还是开发自己的系统界面。API使用方法请参见智能边缘平台IEF API参考。 您需结合上述IEF提供的能力,进行集成解决方案的设计,完成《XXXX集成方案设计》,该文档主要包含两部分: 集成方案的User Story设计 该User Story同时需作为后续验证报告中的测试验证点。 集成解决方案设计 表现整体解决方案的架构,与IEF的结合点,开放的用户操作接口等。
  • 整体方案 图1 架构图 上图中方案构成的系统完成了如下能力: 通过IEF构建的数据通道对边缘侧数据集成组件的生命周期进行管理。 通过IEF的配置通道对边缘侧数据集成规则进行配置。该规则为可处理流数据的SQL语句。 通过IEF将边缘侧获取到的数据转入相应的云服务或用户自己部署在云端的应用中。 边缘侧的Kuiper Container负责对接边缘侧其他系统获取数据。 边缘侧Kuiper的数据处理函数和数据源为插件式,可以由社区、ISV或华为等开发并预置。该插件也可以由IEF在云端进行管理进行插拔。 该方案由如下几个角色构成,在实际项目中可能其中的某些角色是合并为一个实体的: 华为云IEF 提供IEF服务,提供整合了Kuiper的边缘、边云数据集成系统。 EMQ 提供对边缘侧数据集成组件Kuiper的商业支持。 插件开发者 根据业务需求在Kuiper上开发对应的source和数据处理function。 业务开发者 使用IEF提供的整合式 数据集成平台 ,配置边缘侧数据处理逻辑,配置数据到云端服务的转发规则,在云端部署应用对边缘侧数据进行消费处理。
  • 排查思路 以下排查思路根据原因的出现概率进行排序,建议您从高频率原因往低频率原因排查,从而帮助您快速找到问题的原因。 图1 排查思路 可能原因一:升级消息未下发。解决方法请参考重启edgecore。 可能原因二:节点网络不稳定,应用处于terminating状态。请在IEF控制台删除该应用,然后重新创建应用。 可能原因三:应用触发删除,但删除失败,再次触发升级会导致无法升级。请在IEF控制台删除该应用,然后重新创建应用。
  • 边缘节点不满足下发要求 确认边缘节点资源信息是否正确。 如果边缘应用需要使用NPU、GPU资源,请确认注册和纳管的边缘节点是否选择了对应的类型。 在边缘节点通过docker ps命令查看NPU、GPU容器(npu-device-plugin、gpu-device-plugin)是否正常运行。 如果您是首次纳管节点,请参见容器应用在边缘节点启动失败处理。 确认边缘节点是否已经有应用使用了GPU、NPU资源,节点是否还有剩余资源。 确认IEF控制台上显示的边缘节点规格是否正确,CPU和内存信息是否有正常显示,如果内存显示为0,请确认边缘节点是否使用了中文版的操作系统。IEF服务仅支持英文版操作系统,中文版操作系统因无法有效获取内存信息从而会导致下发应用无法调度。因此需要您重装操作系统重新纳管节点。 重装前请确保您下载的安装包和证书文件已经保存,如果未保存,请将边缘节点删除后,重新注册新的边缘节点。 如果您要下发的是容器应用,请确认您的边缘节点是否启用了容器引擎。如果未启用容器引擎,您将无法下发容器应用。
  • 边缘节点资源不足 查看容器异常的原因。 将您的鼠标放在实例状态旁的图标处,查看应用下发失败原因。 图2 实例列表 确认应用申请的资源大小。 确认边缘节点可用资源是否满足应用申请的资源量,确保边缘节点资源足够。 应用申请资源量的确认方法参考图3。 图3 更新升级 确定端口是否冲突,当端口冲突时,应用的实例无法正常启动。 进入应用详情页,单击“访问配置”页签,查看应用是否配置了指定端口的端口映射或者主机网络。 图4 访问配置 单实例应用解决方法: 访问方式配置为端口映射,并修改为当前节点未被占用的端口值。或者选择自动分配端口,IEF会为应用选择可用端口。 多实例应用解决方法: 多实例应用如需进行外部访问,可使用自动调度的部署方式,应用会在边缘节点组中选择端口未占用的节点部署实例。 也可选择自动分配端口,IEF会为应用选择可用端口,从而避免端口冲突。
  • 自动创建委托失败如何解决? 自动创建委托失败的原因是IAM用户权限不够,您需要授予IAM用户Tenant Administrator权限。具体请参见创建用户并授权使用IEF。 为用户组授权时,作用范围选择“区域级项目”,然后根据以下原则设置: 在个别区域授权:选择指定的一个或多个项目,例如“cn-north-4 [华北-北京四]”。注意:此场景选择“所有项目”时,授权将不生效。 在所有区域授权:选择“所有项目”。 图1 在个别区域授权 图2 在所有区域授权 父主题: 其他
  • docker daemon配置代理 在一些实验室环境,服务器没有直接连接外网的权限,需要通过网络代理。用户通常会将网络代理直接配置在/etc/environment、/etc/profile之类的配置文件中,这对于大部分操作都是可行的。然而,docker命令却使用不了这些代理。比如docker pull时需要从外网下载镜像,就会出现如下错误: $ docker pull hello-worldUnable to find image 'hello-world:latest' locallyPulling repository docker.io/library/hello-worlddocker: Network timed out while trying to connect to https://index.docker.io/v1/repositories/library/hello-world/images. You may want to check your internet connection or if you are behind a proxy.. 解决方案一:停止docker服务,手动以使用2375端口监听所有网络接口的方式启动docker daemon。 systemctl stop docker.service nohup docker daemon -H tcp://0.0.0.0:2375 -H unix:///var/run/docker.sock & 解决方案二:编辑配置文件,Ubuntu下是/etc/default/docker,CentOS下是/etc/sysconfig/docker。不过通过修改这两个文件来配置daemon已经是过时的了。不鼓励使用这种方法。 HTTP_PROXY="http://[proxy-addr]:[proxy-port]/"HTTPS_PROXY="https://[proxy-addr]:[proxy-port]/"export HTTP_PROXY HTTPS_PROXY 解决方案三:该方法是持久化的,修改后会一直生效。该方法覆盖了默认的docker.service文件。 为docker服务创建一个内嵌的systemd目录。 mkdir -p /etc/systemd/system/docker.service.d 创建/etc/systemd/system/docker.service.d/http-proxy.conf文件,并添加HTTP_PROXY环境变量。其中[proxy-addr]和[proxy-port]分别改成实际的代理地址和端口。 [Service]Environment="HTTP_PROXY=http://[proxy-addr]:[proxy-port]/" "HTTPS_PROXY=https://[proxy-addr]:[proxy-port]/" 如果还有内部的不需要使用代理来访问的Docker registries,那么需要设置NO_PROXY环境变量: [Service]Environment="HTTP_PROXY=http://[proxy-addr]:[proxy-port]/" "HTTPS_PROXY=https://[proxy-addr]:[proxy-port]/" "NO_PROXY=localhost,127.0.0.1,docker-registry.somecorporation.com" 更新配置。 systemctl daemon-reload 重启Docker服务。 systemctl restart docker
  • 排查思路 边缘节点故障有如下原因,请根据如下原因排查处理。 表1 排查思路 可能原因 处理措施 边缘节点关机 边缘节点关机 容器引擎故障,包括容器引擎未启动和容器引擎服务异常 边缘节点本地容器引擎服务异常 节点磁盘空间不足 边缘节点容器磁盘空间不足 边缘节点/opt/IEF磁盘空间不足 边缘节点/var/IEF/sys/log磁盘空间不足 边缘节点网络连接异常 边缘节点网络连接异常 GPU驱动异常 GPU驱动异常 NPU插件异常 NPU插件异常 边缘节点的核心组件(edgecore)异常 IEF在边缘节点的核心组件(edgecore)异常 边缘节点强行关机并之后强行开机,系统进入恢复模式 边缘节点强行关机并之后强行开机,系统进入恢复模式
  • 边缘节点本地容器引擎服务异常 IEF的系统组件edgecore的启动和正常运行依赖容器引擎。因此,如果容器引擎不正常,会导致edgecore组件无法启动。 解决方法: 使用docker version命令查看容器引擎是否正常。如果不正常,可使用systemctl restart docker命令重启容器引擎。 使用docker ps命令查看容器引擎是否可以使用。如果不可以,重新启动或安装容器引擎。 请勿强制下电边缘节点,强制下电可能会导致边缘节点上的数据文件丢失或损毁,从而导致节点故障。
  • GPU驱动异常 解决方法: 安装GPU驱动。 IEF当前支持Nvidia Tesla系列P4、P40、T4等型号GPU,支持CUDA Toolkit 8.0至11.0版本对应的驱动。 下载GPU驱动,推荐驱动链接: https://www.nvidia.com/content/DriverDownload-March2009/confirmation.php?url=/tesla/440.33.01/NVIDIA-Linux-x86_64-440.33.01.run&lang=us&type=Tesla 执行如下安装驱动命令。 bash NVIDIA-Linux-x86_64-440.33.01.run 执行如下命令检查GPU驱动安装状态。 nvidia-smi 拷贝GPU驱动文件到指定目录。 以root用户登录边缘节点。 执行如下命令。 nvidia-modprobe -c0 -u 创建文件夹。 mkdir -p /var/IEF/nvidia/drivers /var/IEF/nvidia/bin /var/IEF/nvidia/lib64 拷贝驱动文件。 对于CentOS,依次执行如下命令拷贝驱动文件: cp /lib/modules/{当前环境内核版本号}/kernel/drivers/video/nvi* /var/IEF/nvidia/drivers/ cp /usr/bin/nvidia-* /var/IEF/nvidia/bin/ cp -rd /usr/lib64/libcuda* /var/IEF/nvidia/lib64/ cp -rd /usr/lib64/libEG* /var/IEF/nvidia/lib64/ cp -rd /usr/lib64/libGL* /var/IEF/nvidia/lib64/ cp -rd /usr/lib64/libnv* /var/IEF/nvidia/lib64/ cp -rd /usr/lib64/libOpen* /var/IEF/nvidia/lib64/ cp -rd /usr/lib64/libvdpau_nvidia* /var/IEF/nvidia/lib64/ cp -rd /usr/lib64/vdpau /var/IEF/nvidia/lib64/ 对于Ubuntu,依次执行如下命令拷贝驱动文件: cp /lib/modules/{当前环境内核版本号}/kernel/drivers/video/nvi* /var/IEF/nvidia/drivers/ cp /usr/bin/nvidia-* /var/IEF/nvidia/bin/ cp -rd /usr/lib/x86_64-linux-gnu/libcuda* /var/IEF/nvidia/lib64/ cp -rd /usr/lib/x86_64-linux-gnu/libEG* /var/IEF/nvidia/lib64/ cp -rd /usr/lib/x86_64-linux-gnu/libGL* /var/IEF/nvidia/lib64/ cp -rd /usr/lib/x86_64-linux-gnu/libnv* /var/IEF/nvidia/lib64/ cp -rd /usr/lib/x86_64-linux-gnu/libOpen* /var/IEF/nvidia/lib64/ cp -rd /usr/lib/x86_64-linux-gnu/libvdpau_nvidia* /var/IEF/nvidia/lib64/ cp -rd /usr/lib/x86_64-linux-gnu/vdpau /var/IEF/nvidia/lib64/ 其中,当前环境内核版本号可以使用uname -r命令查看获取,如下所示,请替换为实际取值。 # uname -r3.10.0-514.e17.x86_64 执行以下命令修改目录权限。 chmod -R 755 /var/IEF
  • IEF在边缘节点的核心组件(edgecore)异常 查看edgecore组件是否正常: systemctl status edgecore 如果edgecore组件显示故障,可能包含以下原因: 8883/1883端口被占用: 请确认您的边缘节点8883端口和1883端口是否被占用,如果被占用,请先保证端口未被占用情况下,执行systemctl restart edgecore恢复。 容器引擎状态异常: 执行systemctl status docker确认容器引擎是否正常,如果异常,请执行systemctl restart docker恢复。 防火墙原因:请参见11、8883端口被防火墙关闭。
  • 边缘节点强行关机并之后强行开机,系统进入恢复模式 如果您的边缘节点进行了强制下电关机以及强制开机强制重启,有一定的概率使您的系统进入恢复模式,请确认/opt/IEF目录是否正常,如果存在丢失,会导致IEF边缘节点故障。 确认方法: 执行systemctl status edgecore显示服务状态异常,执行systemctl restart edgecore可能会显示服务不存在。 执行systemctl status edgelogger显示状态异常,执行systemctl restart edgelogger可能会显示服务不存在。 执行systemctl status edgemonitor显示状态异常,执行systemctl restart edgemonitor可能会显示服务不存在。 恢复方法: 请确保您的机器开机时是以正常模式进入的。另外,边缘节点异常下电极有可能会造成文件损坏或者丢失,请避免执行该类操作,如出现该问题,请提交工单。
  • 正在运行中的边缘节点可以更换显卡么? 可以,请按如下步骤操作: 停止IEF agent服务。 systemctl stop edgecore systemctl stop edgedaemon 更换显卡,重新安装显卡驱动,然后拷贝驱动文件,具体请参见安装并配置GPU驱动文件。 启动边缘agent服务。 systemctl start edgecore systemctl start edgedaemon 父主题: 边缘节点
共99354条