华为云用户手册

  • 软硬件设备 表1 软硬件设备 类别 产品 型号 产品规格 厂商 智能交互设备 智慧屏 Board edu 86” 主体:编解码器、摄像机、阵列麦克风、扬声器 CPU:双芯片 4Core @1.5G +4Core @1.8G RAM :12GB;Flash:64GB;智能算力:4T FLOPS 屏幕 - 分辨率:4K;刷新率:60Hz;触控点数:20点 摄像机 - 分辨率:1080p30;最大广角:80度;变焦倍数:2倍数字变焦 华为 OPS NA / /
  • 点集最短路(shortest_path_of_vertex_sets) 表1 parameters参数说明 参数 是否必选 说明 类型 取值范围 默认值 sources 是 起点ID集合 String 标准csv格式,ID之间以英文逗号分隔,例如:“Alice,Nana”。 个数不大于100000。 - targets 是 终点ID集合 String 标准csv格式,ID之间以英文逗号分隔,例如:“Alice,Nana”。 个数不大于100000。 - directed 否 是否考虑边的方向 Boolean 取值为true,不支持false。 true timeWindow 否 用于进行时间过滤的时间窗 Object 具体请参见表2。 - 表2 timeWindow参数说明 参数 是否必选 说明 类型 取值范围 默认值 filterName 否 用于进行时间过滤的时间属性名称 String 字符串:对应的点/边上的属性作为时间 - filterType 否 在点或边上过滤 String V:点上 E:边上 BOTH:点和边上 BOTH startTime 否 起始时间 String Date型字符串或时间戳 - endTime 否 终止时间 String Date型字符串或时间戳 - 表3 response_data参数说明 参数 类型 说明 path List 最短路径,格式: [vertexId,...] 其中, vertexId:string类型 source String 起点ID target String 终点ID 父主题: 算法API参数参考
  • 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 job_id String 删除图任务ID。请求失败时字段为空。 状态码: 400 表5 响应Body参数 参数 参数类型 描述 error_code String 系统提示信息。 执行成功时,字段可能为空。 执行失败时,用于显示错误码。 error_msg String 系统提示信息。 执行成功时,字段可能为空。 执行失败时,用于显示错误信息。
  • URI DELETE /v2/{project_id}/graphs/{graph_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID。获取方法请参见获取项目ID。 graph_id 是 String 图ID。 表2 Query参数 参数 是否必选 参数类型 描述 keep_backup 否 Boolean 删除图后是否保留备份,默认保留1个自动备份和2个手动备份。该查询参数为空时,表示不保留。 delete_eip 否 Boolean 是否同时删除EIP。
  • 消息类别介绍 消息类别目前有七大类,财务消息、产品消息、安全消息、运维消息、活动消息、备案消息、其他。每个大类下,又包含多种消息类型,具体介绍如下: 财务消息 消息类型 消息介绍 账户余额预警 账户欠费、账户余额低于阈值相关消息提醒。 账户变动通知 充值、退款、转账、拨款、付款、代金券额度发放/调整相关消息提醒。 伙伴预算提醒 伙伴调整转售子客户的预算,转售子客户月度消费的预算预警。 账单出账通知 用户账单出账相关通知。 发票信息通知 开票相关信息通知。 成本管理通知 成本管理相关通知 产品消息 消息类型 消息介绍 产品创建开通通知 产品创建及开通信息通知。 产品已释放通知 由于欠费或到期未续费导致产品已经释放通知。 伙伴子客户订单到期通知 子客户订单到期相关消息提醒。 伙伴子客户订单支付申请通知 子客户订单支付申请相关信息提醒。 产品到期通知 产品到期前提醒您及时续费或充值。 产品即将释放通知(欠费) 产品欠费或到期未续费时为避免产品释放提醒您及时充值或续费。 产品自动续费失败通知 产品自动续费失败的相关通知。 产品自动续费成功通知 产品自动续费成功的相关通知。 产品新功能上线通知 产品新功能上线相关信息通知。 产品信息变更通知 华为云产品 或系统升级、产品配置变化、价格变更等相关通知。 产品调整及价格变更通知 华为云产品(功能)调整、产品价格变更等相关通知。 产品使用指导 产品开通后的使用方法指导,用于用户开通某项云服务后推送给用户开通指引 安全消息 消息类型 消息介绍 安全事件通知 服务器安全、DDoS防护、 Web应用防火墙 等云服务安全消息提醒。 违法违规通知 对利用华为云服务资源进行违法活动的行为进行处罚的相关通知。 漏洞预警通知 安全漏洞相关通知。 运维消息 消息类型 消息介绍 运维提醒 升级、漏洞、备案、产品上架/下架、产品公测/转商、产品价格调整相关通知。 工单提醒 工单处理相关 消息通知 ,默认接收人请谨慎勾选,如果勾选可能会收到重复的短信、邮件通知。 云监控 主动报警 接收 云监控服务 产生的相关的告警消息通知。 故障提醒 云服务出现故障或不可用时接收消息通知。 服务单提醒 接收专业服务、支持计划权益履行过程中对应的服务单产生的消息通知。 产品升级通知 华为云产品及平台升级、运营商割接等相关通知。 活动消息 消息类型 消息介绍 优惠活动 优惠券、 免费体验 、活动奖品发放、专属活动领取、线下活动、促销活动相关消息通知。 公测通知 公测申请、撤销、恢复、到期相关消息通知。 问卷回访 问卷调查相关消息通知。 专题活动 华为云技术资料、专题等活动资讯,比如华为云月刊等 备案消息 消息类型 消息介绍 备案通知 ICP备案策略调整等相关通知。 合同消息 消息类型 消息介绍 优惠折扣通知 商务通知函生效通知。 签约通知 授信激活电子协议在线签约通知。 合同商务到期提醒 合同商务到期通知。 父主题: 消息接收配置
  • 处理方法 查看云服务器的实例规格,确认用户使用的镜像信息。 如果使用NVIDIA Tesla T4 GPU(例如,Pi2或G6规格),请参见T4 GPU设备显示异常进行处理。 如果使用其他规格的 GPU云服务器 ,执行下一步。 查看系统日志“/var/log/message”,是否存在驱动相关报错。 如果存在报错“Failed to copy vbios to system memory”,可能是由于频繁加载/卸载驱动导致,建议开启驱动持久化模式,保持驱动处于加载状态。 执行以下命令,开启驱动持久化模式。 nvidia-smi -pm 1 执行以下命令,打开并编辑“/etc/rc.local”文件。 vim /etc/rc.local 配置开机自启动,将命令“nvidia-smi -pm 1”写入“/etc/rc.local”文件中。 按“Esc”,输入:wq保存并退出。 执行以下命令,添加启动权限。 chmod +x /etc/rc.d/rc.local 若未查到相关报错,执行下一步。 查看实例的Tesla驱动版本是否为510.xx.xx。 是,该驱动版本与所用镜像可能存在兼容性问题,建议更换驱动版本,请参考安装GPU驱动。 否,请执行下一步。 如果仍未确认根因,请根据故障信息收集操作后联系技术支持处理。
  • 处理方法 执行以下命令,查看内核版本,检查内核版本是否一致。 rpm -qa | grep gcc #查看gcc版本 rpm -qa | grep kernel-devel #查看kernel-devel版本 如果内核版本不一致,请重装驱动。 如果内核版本一致,则执行下一步。 查看dmesg日志,检查是否存在NVRM报错。 如果报错“NVRM: fallen off the bus and is not responding to commands”,说明是总线脱落,请联系技术支持人员换卡。 如果仍未确认问题,请根据故障信息收集收集GPU故障后联系技术支持处理。
  • 如何查询XID报错信息 XID消息是NVIDIA驱动程序向操作系统的内核日志或事件日志打印的错误报告,用于标识GPU错误事件,提供GPU硬件、NVIDIA软件或您应用程序中的错误类型、错误位置、错误代码等信息。 查询XID报错信息方法如下: 登录弹性云服务器。 执行以下命令,查看是否存在xid相关报错,保存回显结果。 dmesg | grep -i xid 若检查项GPU节点上的XID异常为空,说明无XID消息。 若检查项GPU节点上的XID异常不为空,您可按照GPU实例故障分类列表自助诊断并解决问题,或联系技术支持人员获取帮助。 父主题: 故障信息收集
  • 如何查询内核信息 查询内核信息的方法如下: 登录弹性云服务器。 执行以下命令,查看内核版本。 uname -r 执行以下命令,查看安装驱动时的内核版本。 Ubuntu:find /lib/modules -name nvidia.ko CentOS:find /usr/lib/modules -name nvidia.ko 执行以下命令,查看gcc版本。 rpm -qa | grep gcc 执行以下命令,查看kernel-devel版本。 rpm -qa | grep kernel-devel 父主题: 故障信息收集
  • 问题原因 XID 说明 32 Invalid or corrupted push buffer stream,推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID,表明GPU硬件故障需要下线维修。 79 GPU has fallen off the bus。总线脱落,需要下线维修 详情可以参考NVIDIA的Xid描述文档:https://docs.nvidia.com/deploy/xid-errors/index.html。
  • 如何获取显卡ID Linux操作系统获取显卡ID的方法如下: 登录弹性云服务器。 在任意路径下执行nvidia-smi命令。(CCE集群场景为/opt/cloud/cce/nvidia/bin目录下) Windows操作系统获取显卡ID的方法如下: 进入到C:\Program Files\NVIDIA Corporation\NVSMI路径。 执行nvidia-smi命令。 父主题: 故障信息收集
  • Step3 提交预购信息 完成资源配额提升后,联系客户经理获取预购地址。提交预购信息后,后台会完成集群预创工作。 登录ModelArts资源预购申请页面,界面上提交预购信息,包括区域、用户信息(ProjectID、DomainID)等。 表2 参数说明 参数 说明 区域 选择集群资源所在的区域。当前支持的区域有:华北-北京一、华北-北京四、华东-上海一、华南-广州、华北-乌兰察布一。 不同区域的云服务产品之间内网互不相通,请根据您的业务及资源需求(GPU、NPU等),选择相应的区域。 CCE集群 在下拉列表中选择用户账户下已有的CCE集群。如果没有集群,单击右侧的“创建集群”,先去创建集群。可参照云容器引擎CCE指导完成CCE集群创建。集群配套版本请参考不同机型的对应的软件配套版本。 创建时,请确保CCE集群需要为“运行中”状态。 自定义节点名称 节点名称由前缀+随机数组成。 当关闭自定义节点名称开关时,会采用默认前缀os-node-created,例如节点名称为:os-node-created-pr4nq。 当打开自定义节点名称开关时,可自定义前缀。前缀长度不能超过64位字符,且必须以小写字母开头,并由小写字母和数字组成,以“-”分隔,例如指定前缀为huawei-com,则节点名称为:huawei-com-pr4nq。 K8S节点名称 K8S节点名称支持以下两种命名方式: 与节点私有IP保持一致:通过K8S登录节点时,节点名称为该节点所在IP。例如节点私有IP为172.16.0.166,则K8S节点名称为172.16.0.166。 与云服务器名称保持一致:K8S节点名称由云服务器名称和随机数组合而成,例如云服务器名称为os-node-created-pr4nq,则K8S节点名称为os-node-created-pr4nq-jtn81。 当前仅乌兰察布一区域支持“与云服务器名称保持一致”命名方式。 登录方式 集群登录方式,可以设置密码登录,也可以设置密钥对登录。 密码登录:默认用户名为root,用户自己设置密码。 密钥对(KeyPair)登录:可以选择已有的密钥对,或者单击右侧的“创建密钥对”,先去创建一个密钥对。 图5 预购申请
  • 集群资源开通流程 开通集群资源过程中用户侧需要完成的任务流程如图1所示。 图1 用户侧任务流程 表1 用户侧任务流程 阶段 任务 说明 参考文档 预购集群资源 1、登录华为云控制台,在ModelArts上创建委托授权。 第一次使用ModelArts时需要创建委托授权,授权允许ModelArts代表用户去访问其他云服务。 如果之前已经创建过委托授权,需要更新委托相应的权限。 配置ModelArts访问授权 2、申请扩大资源配额。 集群所需的E CS 实例数、内存大小、CPU核数和EVS硬盘大小资源会超出华为云默认提供的资源配额,因此需要申请扩大配额。 具体的配额方案请联系客户经理获取。 配额需大于要开通的资源,且在购买开通前完成配额提升,否则会导致资源开通失败。 提升资源配额 3、在ModelArts资源预购界面上提交预购信息。 联系客户经理获取预购地址,在ModelArts资源预购界面上提交预购信息,包括区域、用户信息(ProjectID、DomainID)等。 请确认预购申请的用户信息(ProjectID和DomainID),后续会基于此信息创建相应的资源池。 Step3 提交预购信息 购买集群资源 在ModelArts控制台上购买资源池。 购买集群资源时选择从预购导入方式,将购买的资源和预购信息关联。 Step4 购买集群资源
  • Step1 在ModelArts上创建委托授权 新建委托 第一次使用ModelArts时需要创建委托授权,授权允许ModelArts代表用户去访问其他云服务。使用ModelArts Lite的资源池需要授权允许ModelArts代表用户访问云容器引擎服务CCE、裸金属服务BMS、 镜像服务 IMS和密钥管理服务DEW。 进入到ModelArts控制台的“全局配置”页面,单击“添加授权”,根据提示进行操作。 更新委托 如果之前给ModelArts创过委托授权,此处需要更新授权。 进入到ModelArts控制台的“专属资源池”页面,查看是否存在授权缺失的提示。 如果有授权缺失,根据提示,单击“此处”更新委托。根据提示选择“追加至已有授权”,单击“确定”,系统会提示权限更新成功。
  • 问题原因 Xid 说明 13 Graphics Engine Exception,非硬件故障,可能是指令错误等。 31 GPU memory page fault,非硬件故障,可能访问了非法地址等。 43 GPU stopped processing, 非硬件故障,可能是自身软件错误。 详情可以参考NVIDIA的Xid描述文档:https://docs.nvidia.com/deploy/xid-errors/index.html。
  • 处理方法 确认用户业务使用场景是否是做图形处理,用户使用的实例规格是否满足图形处理要求。 用户是否安装GRID驱动,执行nvidia-smi命令查询回显是否正常。 如果回显正常,且能查询到驱动版本,驱动版本是GRID驱动的版本,则说明已安装GRID驱动。 用户是否购买了License,如果已购买License是否已经配置了License。 如果用户未购买License,请参考GPU加速型实例安装GRID驱动购买License后再根据指导配置License。 如果用户已购买过License,但是未配置License,请参考GPU加速型实例安装GRID驱动配置License服务器与License文件。
  • 处理方法 方法一: 执行以下命令,查看GPU使用情况并停掉所有占用GPU的进程。 nvidia-smi 执行以下命令,重置GPU。 nvidia-smi -r 执行以下命令,查看是否存在待隔离页。 nvidia-smi -q -d PAGE_RETIREMENT 如果Pending Page Blacklist 为No,说明当前已无待隔离页。 方法二: 执行以下命令,重启服务器。 reboot 执行以下命令,查看是否存在待隔离页。 nvidia-smi -q -d PAGE_RETIREMENT 如果Pending Page Blacklist 为No,说明当前已无待隔离页。
  • 故障信息收集方法 用户可使用故障信息收集脚本一键收集所有信息或使用命令进行获取相应信息。 故障信息一键收集脚本使用方法如下: 故障信息一键收集脚本下载地址:https://hgcs-drivers-cn-north-4.obs.cn-north-4.myhuaweicloud.com/release/script/diagnose_gpu.sh 执行bash diagnose_gpu.sh命令,将信息收集到信息文件diagnose_gpu_xxxxx.tar.gz进行自排查或工单联系技术支持。 使用命令获取信息请参考表1。 表1 获取信息方法 信息分类 相关文档 显卡基本信息 如何获取显卡ID 如何查询显卡详细信息 如何查询显卡在位信息 显卡故障信息(Linux) 如何查询NVIDIA的错误信息 如何查询XID报错信息 NVIDIA日志收集(Linux) 如何收集NVDIA日志 镜像内核信息收集(Linux) 如何查询内核信息 驱动安装信息收集(Linux) 如何收集驱动安装信息 如何获取显卡ID 如何查询显卡详细信息 如何查询显卡在位信息 如何查询NVIDIA的错误信息 如何查询XID报错信息 如何收集NVDIA日志 如何查询内核信息 如何收集驱动安装信息 父主题: GPU实例故障自诊断
  • 处理方法 执行如下命令编辑blacklist.conf文件。 如果没有“/etc/modprobe.d/blacklist.conf”文件,请新建一个。 vi /etc/modprobe.d/blacklist.conf 添加如下语句添加至文件结尾。 blacklist nouveau options nouveau modeset=0 执行以下命令,备份并新建一个initramfs。 Ubuntu系统: sudo update-initramfs -u CentOS系统: mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak dracut -v /boot/initramfs-$(uname -r).img $(uname -r) 执行以下命令,重启云服务器。 reboot
  • 判断方式 执行以下命令,查看Linux内核环缓冲区中的错误关键字信息。 dmesg | grep error 如果回显信息中包含nouveau关键字样,说明Nouveau驱动可能未禁用,可执行2进一步确认。 如果回显信息中未包含nouveau关键字样,继续执行2。 执行以下命令,查看是否安装Nouveau驱动。 lsmod | grep nouveau 如果不存在回显内容或回显中不包含nouveau关键字样,说明Nouveau驱动已禁用。 如果回显信息中包含nouveau关键字样,说明Nouveau驱动已安装,则需要禁用Nouveau驱动。
  • GPU实例故障分类列表 GPU实例故障的分类列表如表1所示。 表1 GPU实例故障分类列表 是否可恢复故障 故障类型 相关文档 可恢复故障,可按照相关文档自行恢复 镜像配置问题 如何处理Nouveau驱动未禁用导致的问题 ECC错误 如何处理ECC ERROR:存在待隔离页问题 内核升级问题 如何处理升级内核后,驱动不可用问题 GPU掉卡问题 如何处理GPU掉卡问题 显卡ERR! 如何处理显卡ERR!问题 软件安装问题 如何处理用户自行安装NVIDIA驱动、CUDA软件,安装过程出错问题 驱动兼容性问题 如何处理驱动兼容性问题 Xid问题 如何处理可恢复的Xid故障问题 显卡被禁用 如何处理用户的虚拟机报错:“由于该设备有问题,Windows已将其停止”问题 镜像问题 如何处理用户使用场景与其选择的驱动、镜像不配套问题 License问题 如何处理用户安装了GRID驱动,但未购买、配置License问题 不可恢复故障,需联系技术支持处理 InfoROM错误 如何处理infoROM错误 ECC错误 如何处理ECC ERROR:执行nvidia-smi -q存在double bit ecc error错误,并无待隔离页 如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) GPU掉卡 如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 温度过高问题 如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 驱动安装报错 如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” Xid报错 如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 父主题: GPU实例故障自诊断
  • SWR资源 资源是服务中存在的对象。在SWR中,资源包括:组织、镜像,您可以在创建策略时,通过指定资源路径来选择特定资源。 表1 SWR的指定资源与对应路径 指定资源 资源路径 namespace 【格式】 swr:*:*:namespace:组织名称 【说明】 对于组织资源, IAM 自动生成资源路径前缀SWR:*:*:namespace: 通过组织名称指定具体的资源路径,支持通配符*。例如: swr:*:*:namespace:*表示任意组织。 repo 【格式】 swr:*:*:repo:镜像仓库名称 【说明】 对于镜像仓库资源,IAM自动生成资源路径前缀SWR:*:*:repo: 通过镜像仓库名称指定具体的资源路径,支持通配符*。例如: SWR:*:*:repo:*表示任意镜像仓库。 例1:只允许用户查询镜像仓库概要信息,则可以通过如下方式配置。 { "Version": "5.0" "Statement": [ { "Effect": "Allow", "Action": [ "swr:repo:getRepo" ], "Resource": [ "swr:*:*:repo:*" ] } ] } 例2:比如说要把cn-north-4下组织source下的镜像test,同步到cn-north-7的组织target下,那么用户需要有cn-north-4创建自动镜像同步任务的权限、要同步的镜像的下载权限,cn-north-4和cn-north-7的获取临时登录指令的权限,以及cn-north-7目前组织的镜像推送权限: { "Version": "5.0", "Statement": [ { "Effect": "Allow", "Action": [ "swr:repo:createAutoSyncRepoJob", "swr:repo:download" ], "Resource": [ "swr:cn-north-4:*:repo:source/test" ] }, { "Effect": "Allow", "Action": [ "swr:repo:upload" ], "Resource": [ "swr:cn-north-7:*:repo:target" ] }, { "Effect": "Allow", "Action": [ "swr::createLoginSecret" ] } ] }
  • RDS for MySQL与 GaussDB (for MySQL)的区别 GaussDB(for MySQL)拥有较好的性能、扩展性和易用性,详情请参见表1。 表1 GaussDB(for MySQL)与RDS for MySQL的差异 类别 RDS for MySQL GaussDB(for MySQL) 架构 传统主备架构,主备通过binlog同步数据。 存算分离架构,计算节点共享一份数据,无需通过binlog同步数据。 性能 十万级QPS,高并发场景下性能提升3倍。 支持百万级QPS;对于某些业务负载,吞吐量最高可提升至开源MySQL7倍;复杂查询场景,支持将提取列、条件过滤、聚合运算等操作向下推给存储层处理,性能相比传统架构提升数十倍。 扩展性 最多添加5个只读节点,添加只读所需时间与数据量大小相关,并且需要增加一份存储。 存储自动扩容,最大支持4TB。 最多添加15只读,由于共享存储,添加只读节点所需时间与数据量大小无关,且无需增加一份存储。 存储自动扩容,最大支持128TB。 可用性 故障自动倒换,RTO通常小于30秒。 主节点和只读节点无需通过binlog进行数据同步,延时更低,故障自动切换,RTO通常小于10秒。 备份恢复 通过全量备份+binlog回放实现任意时间点回滚。 通过全量备份(快照)+redo回放实现任意时间点回滚,备份恢复速度更快。 数据库版本 MySQL 5.6、5.7和8.0。 MySQL 8.0。 父主题: 产品咨询
  • 责任共担 华为云秉承“将公司对网络和业务安全性保障的责任置于公司的商业利益之上”。针对层出不穷的 云安全 挑战和无孔不入的云安全威胁与攻击,华为云在遵从法律法规业界标准的基础上,以安全生态圈为护城河,依托华为独有的软硬件优势,构建面向不同区域和行业的完善云服务安全保障体系。 安全性是华为云与您的共同责任,如图1所示。 华为云:负责云服务自身的安全,提供安全的云。华为云的安全责任在于保障其所提供的IaaS、PaaS和SaaS各类各项云服务自身的安全,涵盖华为云数据中心的物理环境设施和运行其上的基础服务、平台服务、应用服务等。这不仅包括华为云基础设施和各项云服务技术的安全功能和性能本身,也包括运维运营安全,以及更广义的安全合规遵从。 租户:负责云服务内部的安全,安全地使用云。 华为云租户的安全责任在于对使用的IaaS、PaaS和SaaS类各项云服务内部的安全以及对租户定制配置进行安全有效的管理,包括但不限于虚拟网络、 虚拟主机 和访客虚拟机的操作系统,虚拟防火墙、API网关和高级安全服务,各项云服务,租户数据,以及身份账号和密钥管理等方面的安全配置。 《华为云安全白皮书》详细介绍华为云安全性的构建思路与措施,包括云安全战略、责任共担模型、合规与隐私、安全组织与人员、基础设施安全、租户服务与租户安全、工程安全、运维运营安全、生态安全。 图1 华为云安全责任共担模型 父主题: 安全
  • 审计 云审计 服务(Cloud Trace Service,以下简称 CTS ),是华为云安全解决方案中专业的日志审计服务,提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 用户开通云审计服务并创建和配置追踪器后,CTS开始记录操作事件用于审计。开通方法请参考CTS快速入门。 开通云审计服务后,可查看ServiceStage云审计日志,云审计服务保存最近7天的操作日志。CTS支持追踪的ServiceStage操作列表,请参考云审计服务支持的ServiceStage操作列表。 CTS支持配置关键操作通知。您可将与ServiceStage相关的高危敏感操作,作为关键操作加入到CTS的实时监控列表中进行监控跟踪。当您使用ServiceStage服务时,如果触发了监控列表中的关键操作,那么CTS会在记录操作日志的同时实时发送通知。
  • 步骤四:创建日志配置下发任务 在“虚拟机日志接入”页面,选择左侧导航栏的“任务管理”。 单击页面右上角的“新建任务”。 配置任务参数,参数说明如表5所示,配置完成后,单击“确定”。 表5 日志配置下发任务参数说明 参数名称 参数说明 日志项目 选择已创建的日志项目。 任务名称 自定义任务名称。 任务类型 选择任务类型。 配置类型 选择日志采集配置类型。 配置列表 选择需要下发的配置。 用户名称 选择已规划并拥有日志读取权限的业务账号。 选择主机 选择需要下发配置的主机。 已选主机 显示已选主机。 在任务列表中查看已创建的任务,单击任务所在行“操作”列的“执行”。 执行完成后,状态为成功即表示日志配置内容已下发成功,即会按照配置将日志接入AppStage。
  • 采用三层架构 数据采集接入层 ICAgent采集数据 给主机安装ICAgent(插件式的数据采集器)并通过ICAgent上报相关的运维数据。 API接入数据 通过 AOM 提供的OpenAPI接口或者Exporter接口,将业务指标作为自定义指标,接入到AOM。 传输存储层 数据传输:AOM Access是用来接收运维数据的代理服务,运维数据接收上来之后,会将数据投放到Kafka队列中,利用Kafka高吞吐的能力,实时将数据传输给业务计算层。 数据存储:运维数据经过AOM后端服务的处理,将数据写入到数据库中,其中Cassandra用来存储数据,Redis用来查询缓存,ETCD用来存储AOM的配置数据,ElasticSearch用来存储资源、日志、告警和事件。 业务计算层 AOM提供告警、日志、监控、指标等基础运维服务,同时也提供异常检测与分析等AI服务。
  • 操作系统使用限制 AOM支持多个操作系统,在购买主机时您需选择AOM支持的操作系统,详见表1,否则无法使用AOM对主机进行监控。 表1 AOM支持的操作系统及版本 操作系统 版本 SUSE SUSE Enterprise 11 SP4 64bit SUSE Enterprise 12 SP1 64bit SUSE Enterprise 12 SP2 64bit SUSE Enterprise 12 SP3 64bit OpenSUSE 13.2 64bit 42.2 64bit 15.0 64bit(该版本暂不支持syslog日志采集) EulerOS 2.2 64bit 2.3 64bit 2.5 64bit 2.9 64bit 2.10 64bit CentOS 6.3 64bit 6.5 64bit 6.8 64bit 6.9 64bit 6.10 64bit 7.1 64bit 7.2 64bit 7.3 64bit 7.4 64bit 7.5 64bit 7.6 64bit Ubuntu 14.04 server 64bit 16.04 server 64bit 18.04 server 64bit Fedora 24 64bit 25 64bit 29 64bit Debian 7.5.0 32bit 7.5.0 64bit 8.2.0 64bit 8.8.0 64bit 9.0.0 64bit Kylin Kylin V10 SP1 64bit 对于Linux x86_64服务器,AOM支持上表中所有的操作系统及版本。 对于Linux ARM服务器,CentOS操作系统仅支持7.4 及其以上版本,上表所列的其他操作系统对应版本均支持。
  • 指标 指标是对资源性能的数据描述或状态描述,指标由命名空间、维度、指标名称和单位组成。 其中,命名空间特指指标的命名空间,可将其理解为存放指标的容器,不同命名空间中的指标彼此独立,因此来自不同应用程序的指标不会被错误地聚合到相同的统计信息中。维度是指标的分类,每个指标都包含用于描述该指标的特定特征,可以将维度理解为这些特征的类别。图1以集群指标为例,介绍了命名空间、维度和指标的关系。 图1 集群指标 AOM的基础版和按需版所对应的指标存储时长及计费方式不同,详见收费详情。
  • 告警 告警是指AOM自身或ServiceStage、CCE、 APM 等外部服务在异常情况或在可能导致异常情况下上报的信息,告警会引起业务异常,您需要对告警进行处理。 告警清除方式包括自动清除和手动清除两种。 自动清除:产生告警的故障消除后,AOM会自动清除告警,您不需要做任何操作,例如:阈值告警。 手动清除:产生告警的故障消除后,AOM不会自动清除告警,您需要手动清除告警,例如:ICAgent安装失败告警。
共100000条