云服务器内容精选

  • 操作场景 该任务指导用户使用Flume服务端从Kafka的Topic列表(test1)采集日志保存到HDFS上“/flume/test”目录下。 本章节适用于 MRS 3.x及之后版本。 本配置默认集群网络环境是安全的,数据传输过程不需要启用SSL认证。如需使用加密方式,请参考配置Flume加密传输数据采集任务。该配置为只用一个Flume场景,例如:Kafka Source+Memory Channel+HDFS Sink.
  • 数据采集移除流程 图4 数据采集移除流程 表3 数据采集移除流程说明 序号 步骤 说明 1 删除采集通道 请在采集通道管理页面中,停止并删除Logstash的pipeline配置。 注:相关节点上的所有采集通道都需要进行停止并删除,才可以完整移除组件、注销节点。 2 (可选)删除解析器 如果配置了解析器,请在解析器管理页面中,删除配置的无码化解析器。 3 (可选)删除数据连接 如果新增了数据连接,请在连接管理页面中,删除源和目的连接器。 4 移除组件 删除节点上安装的采集引擎Logstash,移除组件。 5 注销节点 移除组件控制器,完成节点注销。 注:注销节点不会删除E CS 和endpointinterface资源,后续如果不再使用数据采集功能,需要手动释放,详细操作请参见如何释放ECS和 VPC终端节点 资源?、删除终端节点。
  • 采集器规格 采集管理中,选作为节点的云服务器规格说明如下表所示: 表1 采集器规格 CPU内核数 内存大小 系统盘 数据盘 参考处理能力 4U 8G 50G 100G 2000 EPS @ 1KB 4000 EPS @ 500B 8U 16G 50G 100G 5000 EPS @ 1KB 10000 EPS @ 500B 16U 32G 50G 100G 10000 EPS @ 1KB 20000 EPS @ 500B 32U 64G 50G 100G 20000 EPS @ 1KB 40000 EPS @ 500B 64U 128G 50G 100G 40000 EPS @ 1KB 80000 EPS @ 500B 说明: 云服务器规格最少为2U4G,目录磁盘至少挂载100G磁盘。 日志量应当与机器规格成比例放大,总体来说,建议按表中规格比例进行放大。如果机器压力较大,建议部署多台采集器,通过采集通道来统一管理,分摊单机日志中转压力。 安装组件控制器前,建议先挂载磁盘,然后使用分盘脚本对磁盘进行分配,确保目录磁盘下有超过100G的剩余空间,保证采集器Logstash的正常安装和运行。
  • 含义 采集器:定制化的Logstash。采集器节点则是定制化的Logstash+组件控制器(isap-agent)。 节点:安装了组件控制器(isap-agent),并成功通过 IAM 鉴权后,并被 安全云脑 纳管的云服务器叫做节点。节点纳管成功后,即可在组件管理中下发采集引擎Logstash。 组件:为了很好地完成业务而定制的软件,目前提供汇聚式收集引擎Logstash用于租户日志收发安全云脑业务。 连接器:Logstash配置的基础概念,主要包括input、output两部分,分别对应源连接器、目的连接器,用于定义采集器Logstash接受数据方式和规范。其中,安全云脑管道pipe连接器可以对接安全云脑,实现租户数据上报安全云脑,安全云脑数据转储到租户的能力。 解析器:Logstash配置的基础概念,主要为Logstash的filter部分,安全云脑解析器是对其filter部分的无码化封装和定制,用户只需在页面上配置解析器规则即可生成原生的filter配置脚本,从而轻松实现将原始日志转化为目标格式。 采集通道:采集通道等价于Logstash的pipeline,在Logstash可以配置多个pipeline,每个pipeline包括input、filter、output部分,每个pipeline为单独的作业,互不影响。在安全云脑租户采集上,可将相同的pipeline部署在多个节点上,并且配置相同的pipeline视为一个采集通道。
  • 数据采集流程 图3 数据采集流程 表2 数据采集流程说明 序号 步骤 说明 1 纳管节点 选择或 购买云服务器 ,在云服务器上安装组件控制器,完成节点纳管。 2 安装组件 节点纳管完成之后可以通过管理下发安装引擎Logstash,完成组件安装。 3 配置连接器 配置源和目的连接器,根据需要选择连接器并完成参数配置。 4 (可选)配置解析器 根据需要在页面上进行无码化解析器配置。 5 配置采集通道 配置连接通道,并与节点进行关联,下发Logstash的pipeline配置,完成整个数据采集的配置。 6 采集结果验证 配置完成采集通道之后,验证数据是否采集。 如果是日志接入到安全云脑管道,可以在安全云脑“安全分析”页面查询结果。
  • 组件控制器常用命令 如果组件控制器(isap-agent)安装失败,在故障排查过程中,可能需要使用命令进行处理,其中,常用命令如下: 重启 sh /opt/cloud/isap-agent/action/agent_controller_linux.sh restart 说明:使用此命令将先停止isap-agent进程,并重新启动该进程。此命令用于isap-agent启动失败,或者节点因为机器故障导致的进程不存在情况。 启动 sh /opt/cloud/isap-agent/action/agent_controller_linux.sh start 说明:当isap-agent因为机器宕机,容灾自拉起时间未到,用户可使用此命令启动isap-agent。 停止 sh /opt/cloud/isap-agent/action/agent_controller_linux.sh stop 说明:此命令用于停止isap-agent,使用此命令将自动清理定时自拉起检测,使得isap-agent进程停止。 查看进程 ps -ef|grep isap-agent 说明:此命令用于查看当前机器上isap-agent是否存在。 查看日志 tail -100f /opt/cloud/isap-agent/log/run.log 说明:用于查看isap-agent服务,最近100行日志,用于通过日志定位agent异常问题。 磁盘分区 sh /opt/cloud/isap-agent/action/agent_controller_linux.sh partition 说明:用于在节点安装采集器,手动挂载磁盘,并进行磁盘分区的场景。 父主题: 数据采集故障排查
  • 限制条件 绑定监控模板进行主机监控,支持的主机的操作系统如表1所示,其余类型的主机无法绑定监控插件。 表1 监控服务支持的主机操作系统 操作系统 系统版本 EulerOS EulerOS2.5、EulerOS2.9 CentOS CentOS 7.2、CentOS 7.6、CentOS 7.8、CentOS 7.9、CentOS 8.2 Ubuntu Ubuntu 18.04、Ubuntu 20.04、Ubuntu 22.04 Huawei Cloud EulerOS Huawei Cloud EulerOS 2.0 SUSE SUSE11、SUSE12、SUSE15、OpenSUSE 15.0
  • 步骤一:购买ECS 购买用于采集数据的弹性云服务器,详细操作请参见购买ECS。 数据采集的Agent目前仅支持运行在Linux系统x86_64架构的ECS主机上。ECS主机支持以下操作系统类型:Huawei Cloud EulerOS 2.5、Huawei Cloud EulerOS 2.9、EulerOS 2.5、EulerOS 2.9、CentOS 7.9。 购买时,需注意操作系统和版本的选择。 图1 选择操作系统版本 ECS购买后,系统将根据使用情况进行收费,具体收费情况请参见ECS计费说明。 后续如果不再使用数据采集功能,需要手动释放用于采集数据的ECS资源,详细操作请参见如何释放ECS和VPC终端节点资源?。
  • logalarm 插件类型 ALARM 功能说明 监控指定日志文件,配置日志匹配关键字,并按照配置参数的要求,生成告警并上报到HCW。 参数配置 collect_file_path #日志文件采集路径 消息样例及含义说明 插件按照配置参数的要求上报日志告警数据,日志告警数据样例: { "id": "Log_030104014395", #单位: | 类型:string | 说明:告警ID "use_custom_id":"" #单位: | 类型:string | 说明:是否使用用户自定义告警ID "alarm_name": "Interface getSC() success rate abnormal", #单位: | 类型:string | 说明:告警名称(支持配置变量{{$log_info}},上报告警时会替换成匹配到的最后一条ERROR日志;支持配置变量{{$all_matching_log}},上报告警时会替换成匹配到的所有ERROR日志,当alarm_name配置了变量{{$all_matching_log}}时,若产生告警且后续周期又匹配到了告警,新匹配到的告警会在原告警ID的基础上,产生一个新的告警,并上报到监控系统,告警清除时会清除当前告警和后续产生的告警;当alarm_name配置为空时,会读取文件中的所有内容,逐行检测并上报告警。) "alarm_level": "critical", #单位: | 类型:string | 说明:告警级别(notice 提示、minor 一般、major 严重、critical 致命) "key_word": "-ERROR .*getSC", #单位: | 类型:string | 说明:日志匹配关键字,支持正则表达式 "match_file": "/opt/huawei/test/error.log", #单位: | 类型:string | 说明:日志文件绝对路径,支持变量、通配符,配置多个地址时需要使用逗号分隔 "matches": 2, #单位: | 类型:long | 说明:最大匹配次数 "number_of_match_period": 30, #单位: | 类型:long | 说明:匹配周期数,与matches和key_word组合使用(30个周期内匹配2次以上,则产生告警;30个周期内匹配2次或者2次以下,则清除告警。) "number_of_nodata_period": 10, #单位: | 类型:long | 说明:无数据上报的周期数, 单独使用,与matches和key_word无关联(10个周期内有数据则产生告警,10个周期内无数据上报则清除告警。) "description": "test" #单位: | 类型:string | 说明:告警详情,进一步丰富告警信息 }
  • PERF04-04 资源性能数据收集 风险等级 中 关键策略 每个华为云提供的云服务都有一组特定于资源功能的指标,用于呈现有关资源的使用情况。通过收集资源性能数据,可以深入了解工作负载的运行状况和行为。 指标作用: 帮助你了解资源的运行状况和性能, 在 云监控 平台上配置对应的告警策略和配置指标看板。 通过跟踪分析网络路径上的流量来优化网络性能。 相关云服务和工具 云监控服务 CES 父主题: 性能数据采集
  • PERF04-05 应用性能数据采集 风险等级 中 关键策略 应用程序的性能数据(吞吐量、延迟和完成时间),通常需要通过代码采集,例如嵌入代码片段或将工具集成到应用程序代码中。通过应用的性能数据,可以识别性能瓶颈、评估系统行为、识别可用性风险、规划容量等指标。 常用应用性能监控策略有: APM 工具:可用使用云上APM 工具或者开源的APM工具和分析性能数据(指标、日志、调研链) 使用基于日志调用链框架:这些框架具备日志生成、日志格式化、日志上下文关联分析登能力。 通过框架引入到代码库中,可以在运行时采集相关的性能数据。 自定义检测:仅当平台指标不足时,才建议开发人员可以添加自定义代码采集独有的性能指标。 使用业界可观测的标准。请考虑使用围绕业界标准构建的工具,例如OpenTelemetry。 建议:使用分布式的调用链技术,可以识别多个服务和组件之间请求链路;通过收集调用链数据实现数据流端到端的分析,产品阻塞瓶颈点或者效率低下的请求片段,从而进行针对性的优化。 相关云服务和工具 应用运维管理 AOM 应用性能管理 APM 云日志服务LTS 父主题: 性能数据采集
  • 错误码 Http状态码 错误码 错误描述 说明 400 100405 The request parameter is invalid. 请求参数不合法。 处理建议:请参考请求参数说明检查接口请求中的参数是否有误。 403 100203 The application is not existed. 应用不存在。 处理建议: 请检查HTTP请求头域中携带的appId是否有误。 请检查请求路径(url)中传入的appId是否有误。 403 100217 The application hasn't been authorized. 应用未被授权。 处理建议:若非应用授权场景,请确认请求参数中的appId为空。 403 1010009 app throttle exceed. 应用调用接口过于频繁,超过流控值(默认值是100次/60s)。 处理建议:联系 物联网平台 维护人员调大流控阈值或者控制接口的调用频率。 403 1010005 Invalid access token or appId. 错误的token信息。 处理建议:请检查接口请求中所携带的accessToken是否有误。 404 100403 The device is not existed. 设备不存在。 处理建议:物联网平台未找到deviceId对应的设备,请检查deviceId是否有误。 404 100418 The deviceData is not existed. 设备信息不存在。 处理建议: 请求参数中携带的deviceId错误。请确认该deviceId是否属于该appId或者deviceId是否写错。 Header中携带的appId有误,请确认该appId下是否有该deviceId。 如果URL中携带了可选参数appId,请检查该appId是否有误。 500 100203 The application is not existed. 应用不存在。 处理建议: 请检查HTTP请求头域中携带的appId是否有误。 请检查请求路径(url)中传入的appId是否有误。 500 50252 Internal server error. 服务器运行内部错误。 处理建议:物联网平台内部错误,请联系物联网平台维护人员处理。
  • 参数说明 参数 必选/可选 类型 位置 描述 deviceId 必选 String path 设备ID,用于唯一标识一个设备,在注册设备时由物联网平台分配获得。 select 可选 String query 指定查询条件,可选值:“imsi”。 appId 可选 String query 如果是本应用的设备,此参数值可以填写None,否则填写授权应用的appId。 accessToken 必选 String header 填写鉴权接口获取的accessToken。
  • 操作场景 该任务指导用户使用Flume客户端从本地采集静态日志保存到HBase表:flume_test。该场景介绍的是多级agent串联操作。 本配置默认集群网络环境是安全的,数据传输过程不需要启用SSL认证。如需使用加密方式,请参考配置Flume加密传输数据采集任务。该配置可以只用一个Flume场景,例如Server:Spooldir Source+File Channel+HBase Sink。
  • 请求示例 { "id" : null, "data_source_type" : " DLI ", "description" : "", "name" : "test采集110", "user_id" : "0833a573fe80d5401f6dc010a775569a", "dir_id" : "0", "task_config" : { "data_connection_name" : "dli_test", "data_connection_id" : "14bb947454e64de784eadaab759081e8", "databaseName" : [ "ygy1" ], "tableName" : [ "ygy1.ygy" ], "alive_object_policy" : "3", "deleted_object_policy" : "3", "enableDataProfile" : false, "enableDataClassification" : false, "enable_table_filter_by_regex" : false }, "schedule_config" : { "schedule_type" : "RUN_ONCE", "max_time_out" : 10 }}