华为云用户手册

  • 问题解决(Linux) 以root用户登录弹性云服务器或裸金属服务器。 执行如下命令,检查telescope进程是否存在: ps -ef |grep telescope 当显示如下内容时,表示telescope进程正常。 图1 查看telescope进程 进程正常:请执行4。 进程异常:请执行3。 如果进程异常,执行如下命令,启动Agent。 service uniagent restart 执行如下命令,确认云服务器委托已创建。 curl -ivk https://agent.ces.myhuaweicloud.com/v1.0/agencies/cesagency/securitykey 当有数据返回时,表示获取AK/SK正常。排查结束。 调用失败或者回显如下时,请执行5。 图2 获取AK/SK失败 在管理控制台的 统一身份认证 服务页面,选择“委托”,查询“cesagency”委托,查看cesagency委托中“项目[所属区域]”是否包含当前区域,若不存在,单击“权限配置”,然后单击“配置权限”,搜索“ CES Administrator”,单击下拉框,勾选当前区域。 图3 查询cesagency委托 图4 配置权限 问题解决,排查结束。 未解决,请执行6。 执行如下命令,确认DNS解析是否正常。 ping agent.ces.myhuaweicloud.com 网络正常:排查结束。 网络无法访问:修改DNS配置或CES的终端节点。 各区域对应的 云监控服务 的Endpoint请参考“地区和终端节点”。
  • 问题解决(Windows) 以administrator权限用户登录弹性云服务器或裸金属服务器。 进入任务管理器,查看Agent进程是否存在。 当包括图5和图6两个进程时,表示Agent进程正常。 图5 agent进程-Windows 图6 telescope进程-Windows 进程正常:请执行4。 进程异常:请执行3。 双击start.bat,启动Agent。 访问http://169.254.169.254/openstack/latest/meta_data.json,确认云服务器委托已创建。 可访问:表示委托正常,排查结束。 不可访问:请执行6。 执行如下命令,检查路由: route print 当返回如下信息时,表示路由正常: 图7 路由配置正常-Windows 路由正常:排查结束。 路由异常:请执行7。 当路由不存在时,执行如下命令,添加路由: route add -host 169.254.169.254 gw 192.168.0.1 上述命令斜体部分192.168.0.1为云服务器的网关,请根据实际情况修改配置。 问题是否解决? 解决:排查结束。 未解决:执行7。 打开Agent安装包存放目录bin/conf_ces.json配置文件。 获取Agent配置文件中的Endpoint。 {"Endpoint":"https://ces.cn-north-4.myhuaweicloud.com"} 执行如下命令,确认DNS解析是否正常。 ping ces.cn-north-4.myhuaweicloud.com 网络正常:排查结束。 网络无法访问:修改DNS配置或CES的终端节点。 各区域对应的 云监控 服务的Endpoint请参考“地区和终端节点”。
  • 问题分析 弹性云服务器或裸金属服务器安装Agent后仍然无操作系统监控数据时,一般考虑有如下几个原因: Agent进程运行状态异常 委托异常 路由配置异常导致的获取临时AK/SK失败 网络问题 首先需要确认使用的Agent版本。 使用root账号,登录E CS 。 执行如下命令,确认使用老版本Agent。 if [[ -f /usr/local/uniagent/extension/install/telescope/bin/telescope ]]; then /usr/local/uniagent/extension/install/telescope/bin/telescope -v; elif [[ -f /usr/local/telescope/bin/telescope ]]; then echo "old agent"; else echo 0; fi 返回“old agent”,表示使用老版本Agent。 返回版本号,表示使用新版本Agent。 返回“0”,表示未安装Agent。
  • 常见4XX问题处理 HTTP状态码 400 错误码 ces.0014 可能原因 原因1:请求参数格式错误。详见下方【案例一】 原因2:必传字段没有传。详见下方【案例二】 案例一 请求参数格式错误 from、to属性对应的值应该换算为毫秒进行传参。 period属性支持的枚举值:1,300,1200,3600,14400,86400。 filter属性支持的枚举值:average,max,min,sum,variance。 请求参数 {"from": 1724331974, ##传参为秒级非毫秒级"to": 1724315493, ##传参为秒级非毫秒级"period": "10086", ##period属性对应的枚举值不存在10086"filter": "standard", ##filter属性对应的枚举值不存在standard"metrics": [{"dimensions": [{"name": "instance_id","value": "129718f5-833d-4f78-b685-6b1c3091ea69"}],"metric_name": "mem_usedPercent","namespace": "AGT.ECS"}]} 响应参数 {"http_code": 400,"message": {"details": "Some content in message body is not correct, error message: [from, to]",##from,to属性问题"code": "ces.0014"},"encoded_authorization_message": null} 案例二 必传字段没有传 filter必传字段没有传,更多必传字段请查询接口文档。 请求参数 {"from": 1724119607020,"to": 1724123207020,"period": "1","metrics": [{"dimensions": [{"name": "instance_id","value": "238764d4-c4e1-4274-88a1-5956b057766b"}],"metric_name": "mem_usedPercent","namespace": "AGT.ECS"}]} 响应参数 {"http_code": 400,"message": {"details": "Some content in message body is not correct, error message: [filter]", ##filter属性问题"code": "ces.0014"},"encoded_authorization_message": null} HTTP状态码 404 错误码 APIGW.0101 可能原因 原因1:路径的URI与接口文档不一致。详见下方【案例一】 案例一 路径的URI与接口文档不一致 请求路径中URI中的版本号写错,应该为V1.0非V1。正确URI为/V1.0/{project_id}/batch-query-metric-data。 请求路径 POST /V1/04f9aca88c00d3202fd4c01ed679daf0/batch-query-metric-data 响应参数 {"error_code": "APIGW.0101","error_msg": "The API does not exist or has not been published in the environment","request_id": "7d7a8258354300ac158c7b14a158d6ec"} HTTP状态码 401 错误码 ces.0015 可能原因 原因1:请求 IAM 获取Token中写的项目ID与调用批量查询监控数据接口接口使用的项目ID不同。 原因2:Token 过期。 原因3:Token内容复制过程少复制或多复制其他内容。 原因4:ak与sk不匹配。 定位思路 根据可能原因进行故障排查。 解决方法 原因1:请求IAM 获取Token 请求参数写的项目ID与调用批量查询监控数据接口使用的项目ID不同。 解决方法: 将获取Token请求参数中项目ID参数与调用批量查询监控数据接口使用的项目ID保存一致。 原因2:Token 过期。 解决方法: 重新生成Token。 原因3:Token内容复制过程少复制或多复制其他内容。 解决方法: 获取正确的Token。 原因4:ak与sk不匹配。 解决方法: 获取租户匹配的AK与SK。 案例 Token异常导致认证失败。 请求头 X-Auth-Token:MIIqDgYJKoZIhvcNAQcCoIIp-zCC......+6CIyAFrbHVxQZJ2Jq ##Token异常 请求参数 {"from": 1724311893283,"to": 1724315493283,"period": "1","filter": "average","metrics": [{"dimensions": [{"name": "instance_id","value": "129718f5-833d-4f78-b685-6b1c3091ea69"}],"metric_name": "mem_usedPercent","namespace": "AGT.ECS"}]} 响应参数 {"http_code": 401,"message": {"details": "Authenticate failed.","code": "ces.0015"},"encoded_authorization_message": null} HTTP状态码 403 错误码 ces.0050 可能原因 原因1:用户策略中没有ces:metricData:list细粒度权限。详见下方【案例一】 案例一 用户策略中没有ces:metricData:list细粒度权限 用户策略中没有 ces:metricData:list 细粒度权限。需要在用户所属策略中添加该action。 请求头 X-Auth-Token:MIIqDgYJKoZIhvcNAQcCoIIp-zCC......+6CIyAFrbHVxQZJ2Jq 请求参数 {"from": 1724311893283,"to": 1724315493283,"period": "1","filter": "average","metrics": [{"dimensions": [{"name": "instance_id","value": "129718f5-833d-4f78-b685-6b1c3091ea69"}],"metric_name": "mem_usedPercent","namespace": "AGT.ECS"}]} 响应参数 {"http_code": 403,"message": {"details": "Policy doesn't allow [ces:metricData:list] to be performed.", ##用户策略中没有 ces:metricData:list 细粒度权限"code": "ces.0050"},"encoded_authorization_message": null} HTTP状态码 429 错误码 ces.0429 可能原因 原因1:API被流控。详见下方【案例一】 案例一 API被流控 请求API被流控。 若API被流控,需第一时间找运维人员配置新的流程策略。 请求参数 {"from": 1724311893283,"to": 1724315493283,"period": "1","filter": "average","metrics": [{"dimensions": [{"name": "instance_id","value": "129718f5-833d-4f78-b685-6b1c3091ea69"}],"metric_name": "mem_usedPercent","namespace": "AGT.ECS"}]} 响应参数 {"http_code": 429,"message": {"details": "Too Many Requests.", "code": "ces.0429"},"encoded_authorization_message": null}
  • 接口调用过程中常见问题 问题一 问题描述 调用批量查询监控数据接口,响应状态码200,无指标数据返回。响应体样例如下: {"metrics": [{"namespace": "SYS.RDS","metric_name": "rds039_disk_util","dimensions": [{"name": "instance_id","value": "5e319882ffa04c968e469035a116b2d1in04"}],"datapoints": [],##指标数据列表中没有指标数据"unit": "unknown"}]} 可能原因 原因1:云服务对应的命名空间写错。详见下方【案例一】。 原因2:请求资源不存在。详见下方【案例二】。 原因2:维度不属于云服务。详见下方【案例三】。 原因3:指标ID不属于云服务。详见下方【案例四】。 解决方法 支持监控的服务列表中命名空间、维度、监控指标参考文档三列内容匹配。 案例一 云服务对应的命名空间写错 指标ID mem_usedPercent 对应的命名空间为AGT.ECS。 请求参数 {"from": 1724311893283,"to": 1724315493283,"period": "1","filter": "average","metrics": [{"dimensions": [{"name": "instance_id","value": "129718f5-833d-4f78-b685-6b1c3091ea6" }],"metric_name": "mem_usedPercent","namespace": "SYS.ECS" ##命名空间错误}]} 响应参数 {"metrics": [{"namespace": "SYS.ECS","metric_name": "mem_usedPercent","dimensions": [{"name": "instance_id","value": "129718f5-833d-4f78-b685-6b1c3091ea6"}],"datapoints": [],"unit": "unknown"}]} 案例二 请求资源不存在 资源实例 129718f5-833d-4f78-b685-6b1c3091ea7 没有在ECS云服务资源列表中。 请求参数 {"from": 1724311893283,"to": 1724315493283,"period": "1","filter": "average","metrics": [{"dimensions": [{"name": "instance_id","value": "129718f5-833d-4f78-b685-6b1c3091ea7" ##资源实例129718f5-833d-4f78-b685-6b1c3091ea7 没在ECS云服务资源列表中}],"metric_name": "mem_usedPercent","namespace": "AGT.ECS"}]} 响应参数 {"metrics": [{"namespace": "AGT.ECS","metric_name": "mem_usedPercent","dimensions": [{"name": "instance_id","value": "129718f5-833d-4f78-b685-6b1c3091ea6"}],"datapoints": [],"unit": "unknown"}]} 案例三 维度不属于云服务 instance_id维度不属于RDS云服务 请求参数: {"metrics": [{"dimensions": [{"name": "instance_id", ##instance_id维度不属于RDS云服务"value": "5e319882ffa04c968e469035a116b2d1in04"}],"metric_name": "rds039_disk_util","namespace": "SYS.RDS"}],"filter": "average","period": "1","from": 1724312777938,"to": 1724316377938} 响应参数: {"metrics": [{"namespace": "SYS.RDS","metric_name": "rds039_disk_util","dimensions": [{"name": "instance_id","value": "5e319882ffa04c968e469035a116b2d1in04"}],"datapoints": [],"unit": "unknown"}]} 案例四 指标ID不属于云服务 rds958_disk_util指标ID不属于RDS云服务。 请求参数: {"metrics": [{"dimensions": [{"name": "rds_cluster_sqlserver_id","value": "5e319882ffa04c968e469035a116b2d1in04"}],"metric_name": "rds958_disk_util", ##rds958_disk_util指标ID不属于RDS云服务"namespace": "SYS.RDS"}],"filter": "average","period": "1","from": 1724312777938,"to": 1724316377938} 响应参数: {"metrics": [{"namespace": "SYS.RDS","metric_name": "rds958_disk_util","dimensions": [{"name": "rds_cluster_sqlserver_id","value": "5e319882ffa04c968e469035a116b2d1in04"}],"datapoints": [],"unit": "unknown"}]} 问题二 问题描述 调用批量查询监控数据接口,查询弹性云服务器中操作系统监控的磁盘使用率,响应状态码200,无指标数据返回。 响应体样例如下: {"metrics": [{"namespace": "AGT.ECS","metric_name": "disk_usedPercent","dimensions": [{"name": "disk","value": "012bec14bc176310c19f40e384fd629b"}, {"name": "instance_id","value": "07d878a9-2243-4e84-aeef-c47747d18024"}],"datapoints": [], ##指标数据列表中没有指标数据"unit": "unknown"}]} 可能原因 原因1:命名空间错误。详见下方【案例一】 原因2:指标对应的维度错误。详见下方【案例二】 原因3:ECS实例未安装agent插件。详见下方【案例三】 原因4:ECS实例安装的agent插件没有上报磁盘使用率指标数据。详见下方【案例四】 案例一 命名空间错误 命名空间错误。若查询的是弹性云服务器中操作系统监控指标,命名空间需为AGT.ECS。 请求参数: {"from": 1724118017498,"to": 1724121617498,"period": "1","filter": "average","metrics": [{"dimensions": [{"name": "instance_id","value": "07d878a9-2243-4e84-aeef-c47747d18024"}, {"name": "mount_point","value": "012bec14bc176310c19f40e384fd629b"}],"metric_name": "disk_usedPercent","namespace": "SYS.ECS" ##命名空间错误}]} 响应参数: {"metrics": [{"namespace": "SYS.ECS","metric_name": "disk_usedPercent","dimensions": [{"name": "mount_point","value": "012bec14bc176310c19f40e384fd629b"}, {"name": "instance_id","value": "07d878a9-2243-4e84-aeef-c47747d18024"}],"datapoints": [],"unit": "unknown"}]} 案例二 指标对应的维度错误 磁盘使用率是挂载点维度,对于磁盘使用率查询在请求参数中需要写两个维度,维度一为云服务实例instance_id,维度二为挂载点mount_point。 请求参数: {"from": 1724118017498,"to": 1724121617498,"period": "1","filter": "average","metrics": [{"dimensions": [{"name": "instance_id","value": "07d878a9-2243-4e84-aeef-c47747d18024"}, {"name": "disk", ##指标对应的维度错误"value": "012bec14bc176310c19f40e384fd629b"}],"metric_name": "disk_usedPercent","namespace": "AGT.ECS"}]} 响应参数: {"metrics": [{"namespace": "AGT.ECS","metric_name": "disk_usedPercent","dimensions": [{"name": "disk","value": "012bec14bc176310c19f40e384fd629b"}, {"name": "instance_id","value": "07d878a9-2243-4e84-aeef-c47747d18024"}],"datapoints": [],"unit": "unknown"}]} 案例三 ECS实例未安装agent插件 在CES页面“主机监控”下的【弹性云服务器】中找到对应ECS的实例,在【插件状态】列点击,未安装,然后根据使用指南安装agent插件。 案例四 ECS实例安装的agent插件没有上报磁盘使用率指标数据 agent插件故障导致没有上报指标数据,详见agent常见问题排查。 问题二 问题描述 指定时间范围内上报的指标数据量大于3000,但调用批量查询监控数据接口,返回的指标数据量小于3000。 可能原因 对于不同的period取值和查询的指标数量,其对应的默认最大查询区间(to - from)也不同,计算规则为“指标数量 * (to - from) / 监控周期 ≤ 3000”。 指标数量:请求参数metrics属性对应元素的个数。 监控周期:请求参数period属性对应的值,单位默认为分钟,需转化为毫秒。 3000:响应体中的所有datapoints(指标数据列表)总和。 原因1:若上报指标周期小于批量查询监控数据的监控周期,会将监控周期内上报的多条指标数据按照聚合规则聚合成一个点,所以导致查询出来的指标数据量少于上报的数据量。 原因2:若上报指标周期与批量查询监控数据的监控周期相同,根据上面计算规则,最多返回的指标数据量为3000。 解决方法 将请求参数监控周期按照接口文档给出的枚举值选择小点的监控周期。 使用查询监控数据接口查询指标数据(仅支持单指标查询),该接口对返回的指标数据量无限制操作。 问题二 问题描述 调用批量查询监控数据接口,返回的指标数据点时间远大于请求参数from对应的值。 可能原因 对于不同的period取值和查询的指标数量,其对应的默认最大查询区间(to - from)也不同,计算规则为“指标数量 * (to - from) / 监控周期 ≤ 3000”。 指标数量:请求参数metrics属性对应元素的个数。 监控周期:请求参数period属性对应的值,单位默认为分钟,需转化为毫秒。 3000:响应体中的所有datapoints(指标数据列表)总和。 例如批量查询300个指标,监控周期为60000ms,可算出(to - from)最大值为"600000",若设定的请求参数(to - from)超出最大值,from值会自动调整为"to-600000" 原因1: 根据以上公式可知指标数量过多。详见下方【案例一】 原因2: 根据以上公式可知监控周期过小。详见下方【案例一】 解决方法 原因1:指标数量过多。 解决方法:减少指标数量。 使用查询监控数据接口查询指标数据(仅支持单指标查询)。 原因2:选择的监控周期对应的枚举值小。 解决方法: 将请求参数监控周期按照接口文档给出的枚举值选择大点的监控周期。 案例一 指标数量过多,监控周期过小 若请求参数指标数量为300个,监控周期为1min对应60000ms,根据以上公式可算出(to - from)最大值为"600000"。请求参数to-from=1724742027556-1724738427556=3600000,超出了600000,from值会自动调整为"to-600000"即1724742027556-600000=1724741427556。 接口在指定时间范围内返回指标数据点最早的时间为2024-08-27 14:51:27,但查询的开始时间为2024-08-27 14:00:27。 请求参数 { "metrics": [ { "dimensions": [ { "name": "disk_name", "value": "6a2bf14a-e3be-4fc9-8522-ba6fe7f0b503-vda" } ], "metric_name": "disk_device_read_bytes_rate", "namespace": "SYS.EVS" }, { "dimensions": [ { "name": "disk_name", "value": "6a2bf14a-e3be-4fc9-8522-ba6fe7f0b503-vdc" } ], "metric_name": "disk_device_read_bytes_rate", "namespace": "SYS.EVS" }, { "dimensions": [ { "name": "disk_name", "value": "6a2bf14a-e3be-4fc9-8522-ba6fe7f0b503-vda" } ], "metric_name": "disk_device_write_bytes_rate", "namespace": "SYS.EVS" }, { "dimensions": [ { "name": "disk_name", "value": "6a2bf14a-e3be-4fc9-8522-ba6fe7f0b503-vdc" } ], "metric_name": "disk_device_write_bytes_rate", "namespace": "SYS.EVS" }, ...... { "dimensions": [ { "name": "nat_gateway_id", "value": "3c55363f-6416-45ca-8512-cf1f6f2533e7" } ], "metric_name": "inbound_pps", "namespace": "SYS.NAT" } ], "filter": "max", "period": "1", "from": 1724738427556, ##2024-08-27 14:00:27 "to": 1724742027556 ##2024-08-27 15:00:27} 响应参数 { "metrics": [ { "namespace": "SYS.EVS", "metric_name": "disk_device_read_bytes_rate", "dimensions": [ { "name": "disk_name", "value": "6a2bf14a-e3be-4fc9-8522-ba6fe7f0b503-vda" } ], "datapoints": [ { "max": 0, "timestamp": 1724741487000 ##2024-08-27 14:51:27 }, { "max": 0, "timestamp": 1724741547000 ##2024-08-27 14:52:27 }, { "max": 0, "timestamp": 1724741607000 }, { "max": 0, "timestamp": 1724741667000 }, { "max": 0, "timestamp": 1724741727000 },...... ], "unit": "B/s" }, { "namespace": "SYS.EVS", "metric_name": "disk_device_read_bytes_rate", "dimensions": [ { "name": "disk_name", "value": "6a2bf14a-e3be-4fc9-8522-ba6fe7f0b503-vdc" } ], "datapoints": [ { "max": 0, "timestamp": 1724741487000 }, { "max": 0, "timestamp": 1724741547000 }, { "max": 0, "timestamp": 1724741607000 }, { "max": 0, "timestamp": 1724741667000 }, { "max": 0, "timestamp": 1724741727000 }, ...... ], "unit": "B/s" }, { "namespace": "SYS.EVS", "metric_name": "disk_device_write_bytes_rate", "dimensions": [ { "name": "disk_name", "value": "6a2bf14a-e3be-4fc9-8522-ba6fe7f0b503-vda" } ], "datapoints": [ { "max": 3055.1, "timestamp": 1724741487000 }, { "max": 3195.78, "timestamp": 1724741547000 }, { "max": 2973.39, "timestamp": 1724741607000 }, { "max": 3533.52, "timestamp": 1724741667000 }, { "max": 2636.8, "timestamp": 1724741727000 }, ....... ], "unit": "B/s" }, ...... ]}
  • 使用前常见问题 问题一 问题描述 POST /V1.0/{project_id}/batch-query-metric-data 批量查询监控数据接口如何使用。 解决方法 请参考批量查询监控数据解决。 问题二 问题描述 POST /V1.0/{project_id}/batch-query-metric-data 批量查询监控数据接口支持的最大查询时间范围。 解决方法 支持的最大查询时间:155天。 问题三 问题描述 调用不同region区域的接口,对应的 域名 是什么。 解决方法 请参考地区和终端节点。
  • 常见4XX问题处理 HTTP状态码 429 错误码 ces.0429 可能原因 原因1:API被流控。详见下方【案例一】 解决方法 若API被流控,需第一时间找运维人员配置新的流程策略。 案例一 API被流控 查看弹性云服务器ID为6f3c6f91-4b24-4e1b-b7d1-a94ac1cb011d的CPU使用率在2019-04-30 20:00:00到2019-04-30 22:00:00时间内,周期为20分钟的监控数据。 GET https://{云监控的endpoint}/V1.0/{project_id}/metric-data?namespace=SYS.ECS&metric_name=cpu_util&dim.0=instance_id,6f3c6f91-4b24-4e1b-b7d1-a94ac1cb011d&from=1556625600000&to=1556632800000&period=1200&filter=min 响应参数 {"http_code": 429,"message": {"details": "Too Many Requests.", "code": "ces.0429"},"encoded_authorization_message": null}
  • 在云监控服务看不到监控数据 当出现以下情况时,有可能在云监控服务中看不到监控数据: 购买云服务资源后,首先确认该服务是否已对接云监控服务,请参考支持监控的服务列表。 已对接云监控的服务,由于各个服务采集上报监控数据的频率各有不同,请耐心等待一段时间。 弹性云服务器或裸金属服务器关机超过1小时以上。 云硬盘没有挂载给弹性云服务器或裸金属服务器。 弹性负载均衡未绑定后端服务器或者后端服务器全部关机。 资源购买时间不足10分钟。 无数据上报的服务在云服务监控页面默认1~3小时内不显示,部分服务(例如API调用服务,API网关服务, 对象存储服务 函数工作流 服务,API网关专享版服务)会在云服务监控页面保留七天后不再显示。 父主题: 云服务监控
  • Agent安装成功后管理控制台没有操作系统监控数据或者显示数据滞后 安装配置Agent成功,需要等待2分钟,管理控制台上才会有操作系统监控数据。 若“插件状态”为“运行中”,等待5分钟后仍没有操作系统监控数据,则需要排查ECS或BMS时间和管理控制台所在客户端时间是否一致。 Agent上报数据时取的是ECS或BMS的操作系统本地时间,管理控制台下发的请求时间范围是依赖用户客户端浏览器的时间,两者如果不匹配则可能导致管理控制台查不到操作系统监控数据。 修改裸金属服务器和用户客户端浏览器时间一致参考命令:timedatectl set-timezone 'Asia/Shanghai'。 父主题: 主机监控
  • 进入云监控服务提示权限不足该如何处理? 此问题与权限配置有关,一般为IAM子账号权限不足,需检查IAM配置的权限。 管理员使用主账户登录管理控制台。 在控制台页面,鼠标移动至右上方的用户名,在下拉列表中选择“统一身份认证”。 在统一身份认证服务,左侧导航窗格中,单击“用户组”。 展开子账号所属的用户组的详情。 请参考创建用户组并授权为子账号所属的用户组添加相应权限。 云监控服务提供系统策略及操作与策略权限一览表,请参见:云监控服务系统策略。 父主题: 权限管理
  • 查看Agent版本 使用root账号,登录ECS。 执行如下命令,确认使用Agent的版本。 if [[ -f /usr/local/uniagent/extension/install/telescope/bin/telescope ]]; then /usr/local/uniagent/extension/install/telescope/bin/telescope -v; elif [[ -f /usr/local/telescope/bin/telescope ]]; then echo "old agent"; else echo 0; fi 返回“old agent”,表示使用老版本Agent。 返回版本号,表示使用新版本Agent。 返回“0”,表示未安装Agent。
  • 准备工作 创建应用迁移项目。 通过资源采集,完成主机资源的发现与采集。MgC提供了三种主机采集方式,您可以根据实际场景和您源端主机所在的云平台,选择适合的采集方式。 源端主机位于云平台:源端为阿里云、华为云、AWS、腾讯云、Azure等云平台主机,推荐使用公网采集,也可以使用各场景通用的手动添加方式。 源端主机位于线下IDC:推荐使用内网采集,通过网段扫描或VMware扫描,采集源端主机资源,也可以使用各场景通用的手动添加方式。 在源端内网环境中安装MgC Agent(原Edge)并注册用户,方法和要求请参见安装Windows版本的MgC Agent。安装并注册成功后,将MgC Agent与云端MgC控制台建立连接,方法请参考连接迁移中心。
  • 查看应用列表 在应用管理页面的应用列表,可以查看项目下的所有应用。通过应用列表可以查看应用名称、应用类型、所属业务领域、包含微服务数量以及依赖应用和被依赖应用数量等信息。 单击包含微服务列的数量,可以查看该应用所包含的微服务列表。 单击依赖应用列的数量,可以查看该应用所依赖的服务列表。 单击被依赖应用列的数量,可以查看依赖该应用的应用列表。 单击操作列的“技术架构图”,可以查看该应用包含的微服务、资源所属层级以及微服务与资源之间的关联关系。单击微服务/资源节点,可以查看节点详细信息。 单击操作列的“应用依赖图”,可以查看该应用与依赖服务、被依赖服务之间的关联关系。单击服务节点,可以查看服务的详细信息和依赖服务、被依赖服务列表。
  • 配置SNAT转换规则 配置完SNAT转换规则后,如果ECS重启,则需要重新配置。 登录购买的ECS主机。 依次执行下列两条命令: sysctl net.ipv4.ip_forward=1 该命令用于启用 Linux 主机上的 IP 转发功能。 iptables -t nat -A POSTROUTING -o eth0 -s { DLI 弹性资源池所在网段} -j SNAT --to {ECS私网IP} 设置iptables规则以进行 网络地址转换
  • 购买ECS 购买ECS:在与目的端DLI同一区域(Region)下购买一台Linux系统的ECS主机,购买方法请参考购买弹性云服务器。其中网络配置选择上一步创建的虚拟私有云和子网。该ECS主机还需要满足以下条件: 可以访问外网(公网),并检查是否能够访问MgC和IoTDA服务的域名,具体需要检查的域名请查看域名列表。 安全组的出方向规则中,需要包含8883端口。 操作系统为:CentOS 8.x。 推荐规格不小于8U16G。 创建并绑定EIP:ECS主机要实现访问外网,需要配置EIP(弹性公网IP)。如果主机已绑定EIP则跳过该操作无需重复绑定;如果未绑定EIP请参考申请EIP和将EIP绑定至ECS进行绑定。 计费模式:建议选择按需计费。 带宽大小:推荐5 Mbit/s。
  • 安装迁移工具Edge并连接迁移中心 安装Edge工具:在购买的ECS主机上,安装用于配合数据校验的工具Edge,方法请参见安装Linux版本的Edge工具。 注册Edge用户:在浏览器中访问Linux主机的网卡IP地址+端口(27080),如:https://x.x.x.x:27080。首次访问后会进入注册页面,分别输入用户名、密码,确认密码无误后,单击《隐私政策声明》,仔细阅读后,勾选“我已阅读并同意”,最后单击“确认”即可完成注册。 连接迁移中心:安装并注册成功后,将Edge与迁移中心进行连接,连接方法请参考连接迁移中心。 迁移工具Edge不具备自动重启功能,严禁在任务执行期间重启Edge,以避免任务失败。
  • 配置委托权限与服务授权 为了确保正常使用DLI的功能,需要配置一条包含DLI权限和OBS权限的委托权限。 登录华为云管理控制台。 单击右上方登录的用户名,在下拉列表中选择“统一身份认证”。 在左侧导航栏中,单击“委托”。 在“委托”页面,单击“创建委托”。 在“创建委托”页面,设置如下参数: 委托名称:用户自定义,例如“dli_obs_agency_access”。 委托类型:选择“云服务”。 云服务:在下拉列表中选择“ 数据湖探索 DLI"。 持续时间:按实际需求选择。 描述:非必选。 配置完委托的基本信息后,单击“下一步”,进入选择策略页签。 单击右上角的“新建策略”,参考步骤8.和步骤9.,分别创建一条OBS策略和一条DLI策略。如果已创建的授权策略中有所需的权限策略,则无需创建,直接选择已有策略即可。 配置策略信息。 策略名称:用户自定义,例如:dli-obs-agency。 策略配置方式:选择“JSON视图”。 在策略内容中粘贴以下自定义策略。 请替换“bucketName”为存放jar包的桶名称。 { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "obs:bucket:GetBucketPolicy", "obs:bucket:GetLifecycleConfiguration", "obs:bucket:GetBucketLocation", "obs:bucket:ListBucketMultipartUploads", "obs:bucket:GetBucketLogging", "obs:object:GetObjectVersion", "obs:bucket:GetBucketStorage", "obs:bucket:GetBucketVersioning", "obs:object:GetObject", "obs:object:GetObjectVersionAcl", "obs:object:DeleteObject", "obs:object:ListMultipartUploadParts", "obs:bucket:HeadBucket", "obs:bucket:GetBucketAcl", "obs:bucket:GetBucketStoragePolicy", "obs:object:AbortMultipartUpload", "obs:object:DeleteObjectVersion", "obs:object:GetObjectAcl", "obs:bucket:ListBucketVersions", "obs:bucket:ListBucket", "obs:object:PutObject" ], "Resource": [ "OBS:*:*:bucket:bucketName",//请替换bucketName为存放jar包的桶名称 "OBS:*:*:object:*" ] }, { "Effect": "Allow", "Action": [ "obs:bucket:ListAllMyBuckets" ] } ]} 配置DLI策略信息。 策略名称:用户自定义,例如:dli-agency。 策略配置方式:选择“JSON视图”。 在策略内容中粘贴以下自定义策略。 { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "dli:table:showPartitions", "dli:table:alterTableAddPartition", "dli:table:alterTableAddColumns", "dli:table:alterTableRenamePartition", "dli:table:delete", "dli:column:select", "dli:database:dropFunction", "dli:table:insertOverwriteTable", "dli:table:describeTable", "dli:database:explain", "dli:table:insertIntoTable", "dli:database:createDatabase", "dli:table:alterView", "dli:table:showCreateTable", "dli:table:alterTableRename", "dli:table:compaction", "dli:database:displayAllDatabases", "dli:database:dropDatabase", "dli:table:truncateTable", "dli:table:select", "dli:table:alterTableDropColumns", "dli:table:alterTableSetProperties", "dli:database:displayAllTables", "dli:database:createFunction", "dli:table:alterTableChangeColumn", "dli:database:describeFunction", "dli:table:showSegments", "dli:database:createView", "dli:database:createTable", "dli:table:showTableProperties", "dli:database:showFunctions", "dli:database:displayDatabase", "dli:table:alterTableRecoverPartition", "dli:table:dropTable", "dli:table:update", "dli:table:alterTableDropPartition" ] } ]} OBS和DLI自定义策略创建完成后,单击“下一步”,返回委托授权页面。 勾选新建的OBS和DLI自定义策略,单击“下一步”,授权范围方案选择“所有资源”。 单击“确定”,完成授权。授权后需等待15-30分钟才可生效。 参考更新委托权限,将DLI委托权限进行更新。
  • 创建OBS桶并上传jar包 在华为云OBS创建一个存储桶,并将数据迁移过程中所依赖的 Java 文件(jar包)上传至该OBS桶。创建OBS桶的方法请参考创建桶。上传文件的方法请参考上传对象。 数据迁移所依赖的jar包分别为:migration-dli-spark-1.0.0.jar、fastjson-1.2.54.jar、datasource.jar。这三个jar包是数据迁移过程中不可或缺的,三个jar包的用途和获取方法如下: migration-dli-spark-1.0.0.jar 用途:用于创建spark会话并提交sql语句。 获取方法:在迁移工具Edge所部署主机的“/opt/cloud/Edge/tools/plugins/collectors/bigdata-migration/dliSpark”路径下获取。 fastjson-1.2.54.jar: 用途:用于处理JSON格式的数据交换。 获取方法:在迁移工具Edge所部署主机的“/opt/cloud/Edge/tools/plugins/collectors/bigdata-migration/deltaSpark”路径下获取。 datasource.jar: 用途:包含数据源的配置和连接逻辑,允许服务连接到不同的数据库或数据存储系统。 获取方法:需要您根据需求自行获取并编译,方法请参考Spark Connector。
  • 阿里云访问密钥(AK/SK)准备 准备一组源端阿里云账号的Access Key(AK)和Secret Key(SK),获取方法请参考查看 RAM 用户的AccessKey信息。 确保该AK/SK具备以下最小权限要求: 拥有OSS服务的只读权限:AliyunReadOnlyAccess 拥有MaxCompute服务的只读权限:AliyunMaxComputeReadOnlyAccess 配置权限的方法参考为RAM用户授权。 (可选)如果迁移的元数据存在分区表,需要为迁移账号开通Information Schema权限,方法请参考RAM用户访问授权。
  • 自定义参数说明 在目的端配置中,支持配置的自定义参数及说明请参见表1和conf参数说明。 表1 支持的自定义参数说明 参数名称 取值范围 说明 是否必填 spark.dli.metaAccess.enable - 填写true。 是 spark.dli.job.agency.name 填写DLI委托权限名称。 mgc.mc2dli.data.migration.dli.file.path 填写存放migration-dli-spark-1.0.0.jar包的OBS路径。例如:obs://mgc-test/data/migration-dli-spark-1.0.0.jar mgc.mc2dli.data.migration.dli.spark.jars 填写存放fastjson-1.2.54.jar和datasource.jar包的OBS路径,以数组形式传入,路径带双引号,以英文逗号隔开。例如:["obs://mgc-test/data/datasource.jar","obs://mgc-test/data/fastjson-1.2.54.jar"] spark.sql.catalog.mc_catalog.tableWriteProvider 填写tunnel 专线迁移场景为必填 spark.sql.catalog.mc_catalog.tableReadProvider 填写tunnel spark.hadoop.odps.end.point 填写源端MaxCompute服务所在地域的VPC网络Endpoint信息。各地域VPC网络Endpoint信息请参考Endpoint对照表。例如:源端所在地域为“香港”,则填写“http://service.cn-hongkong.maxcompute.aliyun-inc.com/api” spark.hadoop.odps.tunnel.end.point 填写源端MaxCompute服务所在地域的VPC网络Tunnel Endpoin信息。各地域VPC网络Tunnel Endpoin信息请参考Endpoint对照表。例如:源端所在地域为“香港”,则填写“http://dt.cn-hongkong.maxcompute.aliyun-inc.com” spark.hadoop.odps.tunnel.quota.name - 填写访问MaxCompute使用的Quota名称。 否 sc_type A、B、C 计算资源类型,目前指定参数A, B, C。如果不指定,则按最小类型创建。 A:(8核32G内存,driverCores:2,executorCores:1,driverMemory:7G,executorMemory:4G,numExecutor:6) B:(16核64G内存,driverCores:2,executorCores:2,driverMemory:7G,executorMemory:8G,numExecutor:7) C:(32核128G内存,driverCores:4,executorCores:2,driverMemory:15G,executorMemory:8G,numExecutor:14) 否 executorCores 1- 4 Spark应用每个Executor的CPU核数。该配置项会替换“sc_type”中对应的默认参数。 numExecutors 1-100 Spark应用Executor的个数。该配置项会替换“sc_type”中对应的默认参数。 executorMemory 1-16 G Spark应用的Executor内存,参数配置例如:2G, 2048M。该配置项会替换“sc_type”中对应的默认参数,使用时必须带单位,否则会启动失败。 driverCores 1-4 Spark应用Driver的CPU核数。该配置项会替换“sc_type”中对应的默认参数。 driverMemory 1-16 G Spark应用的Driver内存,参数配置例如:2G, 2048M。该配置项会替换“sc_type”中对应的默认参数,使用时必须带单位,否则会启动失败。 父主题: 大数据数据迁移
  • 注意事项 CSV模板文件编辑 当使用MgC提供的CSV模板文件进行数据筛选时,请不要使用Excel对CSV模板文件进行编辑,通过Excel编辑并保存的模板文件无法被MgC识别。 DLI队列连接选择 元数据迁移和数据迁移需要使用不同的DLI队列连接,元数据迁移需要使用DLI SQL队列连接,数据迁移需要使用DLI 通用队列连接。配置错误的队列连接类型会导致迁移任务失败,因此在配置任务时,必须仔细检查并确保任务类型与队列类型相匹配。 元数据迁移与库的数量 在进行元数据迁移时,MgC会根据识别到的源端数据库的数量,在DLI中自动创建相应的库。如果是整库迁移,通常只会创建一个库;而表迁移可能需要创建多个库。通常,DLI的库数量上限为10。如果DLI空间不足,可能会导致元数据迁移失败,因此在元数据迁移前,需要评估源端库的数量,确保DLI有足够的空间来创建新的库。
  • 约束与限制 MaxCompute不支持datetime类型数据格式,在迁移之前,需要将所有datetime类型的字段转换为字符串(STRING)格式。 MaxCompute不支持varchar和char类型字段,在迁移之前,需要将所有varchar和char类型的字段转换为字符串(STRING)格式。 元数据迁移不支持事务表(即DDL中带有transactional=true字段的表)。 由于阿里云最近更新了timestamp_ntz字段类型,目前该字段类型尚未被阿里云SDK所兼容支持,这一兼容性问题导致SDK无法识别并读取该字段,从而使该字段所在的表元数据迁移失败。
  • 数据库深度采集 当前支持对AWS RDS(包括MySQL、MariaDB、Aurora、Postgre SQL、SQL Server、Oracle)和AWS DocumentDB数据库进行深度采集,以获取包括数据库版本、引擎、服务器字符集、平均事务每秒(Transaction Per Second, TPS)和查询每秒(Query Per Second, QPS)等关键性能指标在内的详细信息。不同的数据库类型,采集的信息详情可能有所差异。 在源端内网环境中或在可以访问到源端数据库的网络环境中安装Edge工具并与迁移中心连接。 在资源采集页面的资源列表,单击数据库资源的资源数量,进入资源列表页面的数据库页签。 在数据库资源列表中,通过平台类型过滤出采集到的所有AWS数据库资源,在支持深度采集的数据库类型的采集设备列,单击“绑定”,弹出绑定采集设备窗口。 如果需要批量绑定,可以同时勾选多个资源,单击页面右上角的“绑定采集设备”,弹出绑定采集设备窗口。 选择源端安装的Edge工具,以及网络接入方式(如果采集的资源与安装Edge的主机处于同一VPC内,可以选择私网接入,否则需要选择公网接入),单击“确定”。绑定成功后,资源的采集设备列状态会变为已绑定。 采集设备绑定成功后,还需要为资源绑定凭证,单击资源凭证列的“绑定”,弹出绑定凭证窗口。 选择数据库资源凭证,如未提前在Edge上添加源端资源凭证,请前往Edge控制台添加,并同步至迁移中心。 单击“确定”,系统会自动检查凭证绑定状态。当深度采集列的状态为就绪时,单击“采集”开始深度采集。首次深度采集完成/采集失败后,可以单击深度采集列的“重新采集”,进行多次深度采集。 深度采集完成后,单击数据库名称,进入数据库详情页面,在数据库详情区域,可以查看采集到的详细信息。
  • 查看任务状态和详情 在资源采集页面,单击任务总数后的“查看”,进入任务列表页面。 图4 查看任务列表 单击采集任务操作列的“查看”,进入任务详情页面,可以查看到该任务包含的采集项。 单击采集项前的按钮,可以查看该采集项包含的采集数据源以及各资源类型的采集结果。 图5 采集结果 如果有采集失败的数据源,可以将鼠标放到数据源的采集状态上,查看失败原因。 在采集结果列,单击资源类型后的数量,可以跳转到对应的资源类型列表页面。
  • 主机深度采集 请按照以下步骤对主机资源进行深度采集。 在源端内网环境中安装Edge工具并与迁移中心连接。 在资源采集页面的资源列表,单击主机资源的资源数量,进入资源列表页面的主机页签。 在需要进行深度采集的主机采集设备列,单击“配置”,弹出配置窗口。根据表4,配置参数。 表4 深度采集参数配置说明 参数 配置说明 类型 根据实际的主机操作系统类型选择。 采集设备 选择在源端环境安装的Edge工具。 接入IP 选择主机接入IP,可以为公网IP,也可以是私有IP;迁移预检查通过后,该IP会作为后续 主机迁移 工作流的资源接入IP。 端口 主机开放端口。 Windows主机默认为5985端口,无法修改。 Linux主机默认22端口,可根据实际情况修改。 凭证 选择主机凭证,如未提前在Edge上添加源端主机凭证,请前往Edge控制台添加,并同步至迁移中心。 须知: 为确保采集过程具备充分的系统访问权限,从而能够获取到必要的信息和数据。对主机深度采集的凭证要求如下: 对Linux主机进行深度采集时,请添加Root账号和密码作为采集凭证。 对Windows主机进行深度采集时,请添加Administrator账号和密码作为采集凭证。 单击“确认”,采集设备和凭证都绑定成功后,系统会自动开始深度采集。当深度采集列的状态为“已采集”时,代表采集完成。可以进行下一阶段迁移方案设计或迁移方案配置。
  • 对象存储深度采集 通过深度采集获取对象存储资源的详细信息,以提高迁移集群规格评估的准确性。请按照以下步骤进行对象存储资源深度采集。 在源端内网环境中安装Edge工具并与迁移中心连接。 在资源采集页面的资源列表,单击存储资源的资源数量,进入资源列表页面的存储页签。 在对象存储资源列表中,单击深度采集配置列的“配置”,弹出配置窗口。 选择源端安装的Edge工具和相应的资源凭证,单击“确认”完成配置。如未提前在Edge上添加源端资源凭证,请前往Edge控制台添加,并同步至迁移中心。 在对Azure云平台对象存储资源进行深度采集时,需要使用“存储账户”和“密钥”作为采集凭证,凭证的获取方法请参见如何获取Azure对象存储深度采集所需凭证。 配置完成后,单击操作列的“添加前缀”,弹出添加前缀窗口。 输入指定的资源目录路径进行采集,不输入则默认采集全桶资源,单击“确定”保存前缀设置。 完成深度采集配置和添加前缀后,单击操作列的“深度采集”,系统开始进行对象存储资源的深度采集。支持进行多次深度采集。当采集状态为采集完成后,单击资源名称,可以查看采集到的信息。
  • 容器深度采集 请按照以下步骤对容器资源进行深度采集。 在源端内网环境中安装Edge工具并与迁移中心连接。 在资源采集页面的资源列表,单击容器资源的资源数量,进入资源列表页面的容器页签。 在需要进行深度采集的容器采集设备列,单击“绑定”,弹出绑定采集设备窗口。 如果需要批量绑定,可以同时勾选多个资源,单击列表上方的“绑定采集设备”,弹出绑定采集设备窗口。 选择源端安装的Edge工具,单击“确定”。绑定成功后,资源的采集设备列状态会变为已绑定。 采集设备绑定成功后,还需要为资源绑定凭证,单击资源凭证列的“绑定”,弹出绑定凭证窗口。 选择资源凭证,如未提前在Edge上添加源端资源凭证,请前往Edge控制台添加,并同步至迁移中心。 单击“确定”,系统会自动检查凭证绑定状态。当深度采集列状态为就绪时,单击深度采集列的“采集”进行深度采集。首次深度采集完成后,可以单击采集状态列的“重新采集”按钮,进行多次深度采集。采集完成后,单击资源名称可以查看采集到的容器详情。
  • 使用须知 开始采集后,默认每5分钟进行一次数据采集。 建议采集时长≥1小时,若采集时长不足,将无法获取7天和30天最大值以及平均值数据。 采集周期默认为7天,7天后会自动停止采集;采集周期内可以进行停止采集和重启采集操作;重启采集后,采集周期重新计算。 采集到的性能数据将保留180天,超期后会自动删除。 迁移工具Edge建议安装在独立主机上,避免与业务主机共用,以确保采集的稳定性和效率。 Linux主机:迁移工具Edge最多同时采集1000台Linux主机。当同时采集1000台Linux主机时,安装Edge的主机规格最低要求为8U16G,且可使用内存不小于8G。 Windows主机:迁移工具Edge最多同时采集500台Windows主机,当同时采集500台Windows主机时,安装Edge的主机规格最低要求为16U32G,且可使用内存不小于8G。
  • 概述 通过问卷调研的方式,基于华为云专业服务多年的经验积累,为您提供全面的源端架构梳理及资源分析功能。 支持调研的架构包括: 运维架构调研:识别客户在运维流程管理中的痛点与待改进空间,助力客户规划上云后的运维架构设计。 技术架构调研:通过技术架构调研问卷,全面了解客户的计算、存储、网络资源状况,为后续资源部署及云上网络规划奠定基础。 安全架构调研:识别出客户系统的安全风险,包括潜在的攻击面、漏洞及威胁,协助企业优化安全策略,强化访问控制与身份验证机制,提升系统安全性及员工安全意识。 业务架构调研:通过业务架构调研问卷,全面掌握业务需求与挑战,精准定位业务痛点,评估迁移风险,科学制定迁移计划,确保迁移项目的高成功率
  • 查看资源统计信息 当RVTools导入任务状态为“成功”时,在资源统计页面,可以查看VMware资源的统计信息,包括: 宿主机:CPU类型统计、宿主机个数统计、内存总量统计、已分配虚拟机内存、已分配占比、虚拟机总数统计、虚拟机运行总数统计、存储使用详情统计以及主机列表详情。 虚拟机:Windows操作系统个数统计、Linux系统个数统计、内存使用总容量、CPU使用核数、磁盘使用个数、磁盘容量占比、虚拟机数量、虚拟机列表、操作系统。
共100000条
提示

您即将访问非华为云网站,请注意账号财产安全